Self-supervised Image Enhancement Network: Training with Low Light Images Only

主要贡献

基于最大熵和 Retinex 模型，构建了一个无监督的低光照图像增强网络，不需要paired图像训练。甚至是可以只用一张图像训练网络。
提出的网络速度很快

主要方法

文章的思想是。设计一个网络，分解产生反射率图和光照图。而为了实现自监督的目的，即仅仅使用低光照图像来训练，就需要设计一系列的损失函数来约束网络学习的方向。这里主要就用到了熵最大化的约束条件。熵最大化就是当图像的直方图分布服从均匀分布时，它的熵最大，因此反射率图的学习很大程度上是依赖这个熵最大化约束，否则在没有参考的正常图像的情况下没法学到合理的反射率。

损失函数

重建损失，和常规的一样
反射率图 R 的约束：

\[l_{R}=\left\|\max _{c \in R, G, B} R^{c}-F\left(\max _{c \in R, G, B} S^{c}\right)\right\|_{1}+\lambda\|\triangle R\|_{1}\]

其中 \(F(.)\) 代表直方图均衡化后的结果。第一项的含义为，取输入低光照图像的最大亮度通道（并非固定的R,G,B中的一个），对它做直方图均衡化，并将这个作为网络输出的反射率图的最大通达的参考结果。第二项对反射率图的梯度约束的作用是抑制噪声。

使用最大像素通道的目的：
- 对于弱光图像，最大通道对其视觉效果的影响最大
- 如果选择其他通道，则可能会出现通道值的饱和，因为控制住最大通道得像素值不饱和，那么其他低于他的像素值肯定不会饱和。
- 如果我们选择其中一个颜色通道，比如R, G或B通道，就不符合自然图像规律。
使用直方图均衡化的原因
- 直方图均衡化可以大大提高图像的信息熵。
光照图的约束，采用的即为Retinex-Net 这篇文章中的损失

\[ \mathcal{L}_{i s}=\sum\left\|\nabla I_{i} \circ \exp \left(-\lambda_{g} \nabla R_{i}\right)\right\| \]

综合上述，即为本文的损失函数

优点

大部分基于模型的方法，其实就是类似上述设计一个根据各种先验设计损失函数，然后将损失函数转换到频域使用FFT加快计算，不断迭代得到增强结果。上式设计的损失函数其实也可以类似优化，但是作者是使用一个小网络来完成的，之所以选用后者的方法，有如下原因：

使用传统的FFT优化，在每一张图像增强的过程中都需要迭代优化，而且损失函数越复杂，计算量就越大，不同图像迭代次数也不一样时间开销也不一样。
同时，传统的解决方案不能利用大数据，以前的数据处理对新的数据处理毫无帮助。
与有监督的CNN方法比，这种方法不需要精心设计的训练数据就能达到较好的效果，且精心设计的参考图像不一定能包含实际需要的所有场景，泛化能力不好。相对基于模型的传统方法，本文的算法在计算速度上有有优势。

网络结构

关于结构，卷积层和sigmod层的叠加也可以产生可以接受的结果。然而，如果添加一些concat层，增强结果将变得更加清晰。作者还采用了上采样和下采样的结构，这样的结构可以起到抑制噪声的作用，但是有些场合中会带来模糊的效果。

实验

实验细节

使用LOL dataset中的485张低光照图像训练，15张做测试。batch_size = 16，path_size=48x48

训练时间的影响

作者训练了1000epoch，没20epoch在测试集上计算一次各种指标，包括GE CE GMI SSIM NIQE.... 最终的结论是，取在 200epoch输出的模型参数。因为随着 epoch的增加，虽然一些表征清晰度的指标会效果变好，但是像SSIM这种有参考图像的指标会越来越差，这是因为噪声的影响。所以为了在噪音和清晰度之间保持一个平衡，选择在200epoch停止。

重复稳定性

这部分实验目的就是反复训练几次，对比每次训练的结果是不是可以反复复现。结论是一些指标不是特别稳定，这可能是由于 L1 损失函数的解不唯一的原因？但是整体出来的视觉效果差不多，所以说该文方法可重复复现，具有稳定性。

Ruowang's blogs

Self-supervised_cnn_enhance