2022-12-23 9 minutes read (About 1423 words)

Faster WarpPolar with PyTorch and GPU

一般我们都会在笛卡尔坐标系下处理图像。但有的时候，将图片转换到极坐标系下会更有优势。有些研究显示极坐标系下有更好的 rotation invariance 等特性。在我最近的项目中，图像目标区域是一个圆环。直接处理会在圆环内外处理很多无用的像素，白白浪费计算性能。因此我想先把图像变换到极坐标系下，这样目标区域就从圆环变为更好处理的矩形区域。之后再把这个矩形区域交给神经网络进行运算。

Polar Coordinate

2022-07-10 7 minutes read (About 1059 words)

FlowNet and FlowNet 2.0

FlowNet 是第一篇利用 CNN 直接做 Dense Optical Flow Estimation 的工作（End-to-end）。由于我们并没有一个真正的传感器去直接获取到光流，所以光流的数据集很少，且规模较小。KITTI 是一个常用的真实世界的数据集（自动驾驶场景），它是用激光雷达获取三维世界中的运动关系，再转换到二维图像的光流。这样操作首先会有一定的误差，其次这个数据集中给出 label 的像素也是相对比较稀疏的（大约只有 50% 的像素有 label）。FlowNet 的另外一个贡献就是提供了 Flying Chairs 这个合成数据集。

2021-11-05 7 minutes read (About 1057 words)

ORB Feature Extraction with OpenCV

Oriented FAST and rotated BRIEF (ORB) 特征是 SLAM 中比较常用的一种图像特征。它的准确率并没有 SIFT 高，但是其计算速度更快，可以满足实时特征提取的需求。ORB 特征还具有旋转、尺度不变性的特点，因此很适合应用在 SLAM 场景中。

2021-06-12 9 minutes read (About 1388 words)

Grad-CAM Overview

我们经常在论文中见到下面这种 CNN 的可视化图，它能告诉我们神经网络在做预测时，更加关注哪部分的内容，从一定程度上解释了判定依据。比如下图中，神经网络预测的分类是 ‘cat’，猫所在的区域温度就显著更高；而狗的位置就没有反应。

2021-03-06 16 minutes read (About 2353 words)

Brief Intro to ViT

最近 Transformer 非常流行。Transformer 本身应用在 NLP 中，直到 2020 年 Google 带来了视觉领域的应用 Vision Transformer（ViT）。其在图像分类上达到了接近 SOTA 的程度，标志着视觉中 self-attention 类网络也可以很好的代替 CNN 完成工作。许多人甚至认为 Transformer 开启了视觉的新时代，未来能完全取代 CNN。

Faster WarpPolar with PyTorch and GPU

Polar Coordinate

FlowNet and FlowNet 2.0

ORB Feature Extraction with OpenCV

Grad-CAM Overview

Brief Intro to ViT

Links

Tag Cloud

Recent

Archives

Tags

Archives

Tags

Your browser is out-of-date!