Stanford CS336 学习笔记
FlowNet 是第一篇利用 CNN 直接做 Dense Optical Flow Estimation 的工作(End-to-end)。由于我们并没有一个真正的传感器去直接获取到光流,所以光流的数据集很少,且规模较小。KITTI 是一个常用的真实世界的数据集(自动驾驶场景),它是用激光雷达获取三维世界中的运动关系,再转换到二维图像的光流。这样操作首先会有一定的误差,其次这个数据集中给出 label 的像素也是相对比较稀疏的(大约只有 50% 的像素有 label)。FlowNet 的另外一个贡献就是提供了 Flying Chairs 这个合成数据集。
在之前的博客中介绍了 CBAM 中的通道注意力,为了保持完整性,这次介绍剩余的空间注意力(Spatial Attention)部分。
我们经常在论文中见到下面这种 CNN 的可视化图,它能告诉我们神经网络在做预测时,更加关注哪部分的内容,从一定程度上解释了判定依据。比如下图中,神经网络预测的分类是 ‘cat’,猫所在的区域温度就显著更高;而狗的位置就没有反应。
注意力机制通过关注相对重要的特征、抑制不必要的特征来对数据进行加权,从而更有利于神经网络总结出数据的规律。通道注意力就是在通道的维度计算出一个权重,也就是给每个通道的重要性打分。比较常用的网络是 SE-Net。
最近 Transformer 非常流行。Transformer 本身应用在 NLP 中,直到 2020 年 Google 带来了视觉领域的应用 Vision Transformer(ViT)。其在图像分类上达到了接近 SOTA 的程度,标志着视觉中 self-attention 类网络也可以很好的代替 CNN 完成工作。许多人甚至认为 Transformer 开启了视觉的新时代,未来能完全取代 CNN。
随着深度学习的发展,神经网络为了追求精度,结构越来越深、参数也越来越多。Google 推出的 MobileNet 在 accuracy 和 latency 之间做了平衡,更适合在计算力不足的移动端和嵌入式设备上应用。由于参数量比 ResNet 等网络少了很多,也适合我们在研究初期快速验证想法。
Update your browser to view this website correctly. Update my browser now