IAT:实时完成暗光增强, 曝光矫正的超轻量级Transformer网络
作者丨信息门下奶狗@知乎(已授权)来源丨https://zhuanlan.zhihu.com/p/535695807编辑丨极市平台导读本工作提出了一种超轻量级的快速照明自适应Transforme—IAT,用于实时完成暗光增强和曝光矫正,网络总体的Parameter数量仅仅只需要 90k+。今年四月入学了UTokyo新办的RCAST的PHD项目,开始了新的PHD生涯。入学...
作者丨信息门下奶狗@知乎(已授权)
来源丨https://zhuanlan.zhihu.com/p/535695807
编辑丨极市平台
导读
本工作提出了一种超轻量级的快速照明自适应Transforme—IAT,用于实时完成暗光增强和曝光矫正,网络总体的Parameter数量仅仅只需要 90k+。
今年四月入学了UTokyo新办的RCAST的PHD项目,开始了新的PHD生涯。入学前曾在上海AI LAB实习了一段时间,认识了很多厉害的老师和志趣相投的伙伴。这段时间刚好隔离结束,整理一下我ai lab时期完成的工作Illumination-Adaptive-Transformer (IAT),用于实时完成暗光增强和曝光矫正(也可能是第一次把Transformer用上的工作)。IAT网络是全监督训练范式,网络总体的Parameter数量仅仅只需要 90k+ ,属于超轻量级的实时增强网络(相比之前的Transformer工作SWIN-IR[1]和Restormer[2]等)。
论文链接:https://arxiv.org/abs/2205.14871
代码链接:https://github.com/cuiziteng/Illumination-Adaptive-Transformer
自然场景下存在着各种不良光照场景,如低光照环境和过(欠)曝光环境,相机在不良光照下完成摄影任务时,因为过多/过少的光子数量,和相机内部的处理(如低光照场景需要调高ISO,这会导致噪声也同时放大)以及后续的ISP,往往得到的图像也会收到影响,非正常光照的图像无论感观还是视觉任务都会收到很大的影响。区别于传统的HE或者RetiNex做法以及此前的CNN做法,IAT从光转换的角度出发,通过物理模型建立了一个Transformer-based方法来完成。
基于此前的工作[5],一张在光照 条件下的RGB图像可以通过一个inverse function的Unprocess过程来还原到RAW空间:
在RAW空间上,光照 条件下与光照 条件下的RAW图像光照强度和input光子数量有关,光照之间可以呈现线性关系,如下:
402 Payment Required
在 光照条件下的RAW图像 再通过正向的ISP流程来得到RGB图像 ,如下公式所示,其中 代表一些demosacing以及去噪或者黑电平矫正, 表示色彩校正比如白平衡和color转换矩阵, 是伽马矫正。
402 Payment Required
将 转换为 ,所获得如下关系,并且通过泰勒展开:
其中:
我们总体简化为公式:
402 Payment Required
其中 是我们希望得到的target图像, 是输入的不良光照图像, 是像素级别的乘法图,尺寸大小与 相同, 同时 是像素级别的加法图。 是控制颜色的色彩矩阵, 是gamma矫正的gamma数值。 负责控制像素级别的细节信息,同时 负责控制整张图像级别的全局信息。因此我们设计的网络总体包含两个独立分支,local分支和global分支,local分支由两个独立支路负责预测像素级别乘法图 和加法图,global分支则是利用attention预测控制图像全局信息的色彩矩阵和gamma数值,最终通过上述公式来完成暗光场景增强和曝光纠正任务,网络结构如下图,其中每个local支路都由三个PEM(Pixel-wise Enhancement Module)模块组成,为了保证轻量性采用了Transformer的结构以及depth-wise convolution。
同时在global branch我们采用attention模块来更好的获得全局信息来产生色彩矩阵以及gamma数值,收到了DETR网络[3]的启发,我们将随机初始化的query输入到模块中来获得3x3的color matrix和1维的gamma数值,通过这样的dynamic query learning策略,随着网络的更新可以自适应的调整操控图像全局信息的矩阵以及gamma,同时可以更好的利用transformer擅长捕捉全局信息的特性。
区别于正统的ISP,我们设计的色彩矩阵与gamma数值都是针对每张图像进行调整,相当于给每张图像都假定一个专属的特定ISP数值来完成增强任务,曝光矫正任务以及高层次视觉任务。
在high-level vision方面,IAT也可以链接后面的high level模块进行joint-training,同时可以加载在暗光增强和曝光纠正的预训练权重来进行更好的初始化,如下图所示:
最后放一下实验结果。
实验结果(LOL数据集低光照增强):
实验结果(Exposure数据集[4]曝光纠正):
实验结果(EXDark数据集暗光目标检测):
实验结果 (ACDC数据集暗光语义分割):
暗光语义分割结果
更多的实验结果以及详细的网络结构请见论文以及代码,Thx~
[1]. SwinIR: Image Restoration Using Swin Transformer (ICCVW 2021)
[2]. Restormer: Efficient Transformer for High-Resolution Image Restoration (CVPR 2022)
[3]. End-to-End Object Detection with Transformers (ECCV 2020)
[4]. Learning Multi-Scale Photo Exposure Correction (CVPR 2021)
[5]. Unprocessing Image for Learned RAW Denosing (ICCV 2019)
本文仅做学术分享,如有侵权,请联系删文。
干货下载与学习
后台回复:巴塞罗那自治大学课件,即可下载国外大学沉淀数年3D Vison精品课件
后台回复:计算机视觉书籍,即可下载3D视觉领域经典书籍pdf
后台回复:3D视觉课程,即可学习3D视觉领域精品课程
计算机视觉工坊精品课程官网:3dcver.com
2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)
重磅!计算机视觉工坊-学习交流群已成立
扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。
同时也可申请加入我们的细分方向交流群,目前主要有ORB-SLAM系列源码学习、3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、深度估计、学术交流、求职交流等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。
▲长按加微信群或投稿
▲长按关注公众号
3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:
学习3D视觉核心技术,扫描查看介绍,3天内无条件退款
圈里有高质量教程资料、答疑解惑、助你高效解决问题
觉得有用,麻烦给个赞和在看~
更多推荐
所有评论(0)