FlowNet and FlowNet 2.0

FlowNet 是第一篇利用 CNN 直接做 Dense Optical Flow Estimation 的工作(End-to-end)。由于我们并没有一个真正的传感器去直接获取到光流,所以光流的数据集很少,且规模较小。KITTI 是一个常用的真实世界的数据集(自动驾驶场景),它是用激光雷达获取三维世界中的运动关系,再转换到二维图像的光流。这样操作首先会有一定的误差,其次这个数据集中给出 label 的像素也是相对比较稀疏的(大约只有 50% 的像素有 label)。FlowNet 的另外一个贡献就是提供了 Flying Chairs 这个合成数据集。

Spatial Attention (CBAM)

之前的博客中介绍了 CBAM 中的通道注意力,为了保持完整性,这次介绍剩余的空间注意力(Spatial Attention)部分。

原理

Grad-CAM Overview

我们经常在论文中见到下面这种 CNN 的可视化图,它能告诉我们神经网络在做预测时,更加关注哪部分的内容,从一定程度上解释了判定依据。比如下图中,神经网络预测的分类是 ‘cat’,猫所在的区域温度就显著更高;而狗的位置就没有反应。

What is Gumbel Softmax?

看了几篇博客,都对 Gumbel Softmax 讲解的不是很到位。这里重新总结了一下,希望从“要解决什么问题”的角度把这个 trick 梳理清楚。

随机模型的困难:采样

Channel Attention (CBAM)

注意力机制通过关注相对重要的特征、抑制不必要的特征来对数据进行加权,从而更有利于神经网络总结出数据的规律。通道注意力就是在通道的维度计算出一个权重,也就是给每个通道的重要性打分。比较常用的网络是 SE-Net。

GRU Forward and Backward Pass

GRU 是 LSTM 的一个变体。LSTM 的一些操作显得冗余,例如它既有记忆门,又有遗忘门。GRU 中就把这两个门合并成了一个。另外 LSTM 分别维护着 cell state 和 hidden state,也显得重复了。GRU 在这个基础上做了简化,因此参数会更少、形式也更简洁。

Forward Pass

Brief Intro to ViT

最近 Transformer 非常流行。Transformer 本身应用在 NLP 中,直到 2020 年 Google 带来了视觉领域的应用 Vision Transformer(ViT)。其在图像分类上达到了接近 SOTA 的程度,标志着视觉中 self-attention 类网络也可以很好的代替 CNN 完成工作。许多人甚至认为 Transformer 开启了视觉的新时代,未来能完全取代 CNN。

Understanding MobileNet v2

随着深度学习的发展,神经网络为了追求精度,结构越来越深、参数也越来越多。Google 推出的 MobileNet 在 accuracy 和 latency 之间做了平衡,更适合在计算力不足的移动端和嵌入式设备上应用。由于参数量比 ResNet 等网络少了很多,也适合我们在研究初期快速验证想法。

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×