Deep learning on Computer Vision
- blog
- paper
- project
- Tutorial
- Footnotes

Deep learning on Computer Vision

blog

(1) NVIDIA介绍3D与Deep learning。

可以通过Youtube视频来了解一些具体的原理，发现室内重建是用的colmap，人物重建还是用的360°相机，人工的编辑很多。值得注意的是只有一部分是人工合成的 ¹。

(2 Google Eearth 的介绍

介绍了google earth 从map pyramiding technique 到目前的time machine的变化。

(3) EfficientDet

一个多尺度的network用在图像识别的例子。

(4) uDepth

Google在pixel 4 手机上用IR相机加上神经网络实现深度图的方法。

(5) Turbo color map

一个类似与jet的color map。

(6) A Neural Weather Model for Eight-Hour Precipitation Forecasting

利用深度学习与1 km 分辨率的影像实现天气预报。

(7)Learning to See Transparent Objects

透明物体有不少研究，类似的还有镜子中物体的重建。

(8) Can You Trust Your Model’s Uncertainty?

Uncertainty一直是一个很重要的topic，data shift也很关键。

另外也有一个问题，就是label中的noisy怎么处理。

(9) An Inside Look at Flood Forecasting

Flood Forecasting 的估计本质上是在DEM上做分析，深度学习就是代替了很多几何分析的步骤，一个更早的blog。

(10) Meta-Dataset: A Dataset of Datasets for Few-Shot Learning

few-shot classification也是一个研究方向 ²。

(11) Speeding Up Neural Network Training with Data Echoing

数据的处理是深度学习中很关键的一步。

(12) Open-Sourcing BiT: Exploring Large-Scale Pre-training for Computer Vision

Transfer learning 或者 data shift是应用中很关键的一步。

(13) Machine Learning-based Damage Assessment for Disaster Relief

遥感影像的变化检测的应用。

(14) Recreating Historical Streetscapes Using Deep Learning and Crowdsourcing

一个利用多个数据的城市建模方法。

(15) Rethinking Attention with Performers

Attention机制是图像处理中经常用的。

(16) End-to-End, Transferable Deep RL for Graph Optimization

(17) Addressing Range Anxiety with Smart Electric Vehicle Routing

类似与路径规划。

(18) Machine Learning for Computer Architecture

(19) TracIn — A Simple Method to Estimate Training Data Influence

(20) Using Global Localization to Improve Navigation

(21) The Decade of Deep Learning

(22) Data Augmentation

数据增强是深度学习比较工程化的一个步骤，主要是应对测试的数据与训练的数据不一致的情况。不过更多的是考虑当训练的数据比较少的时候，怎么提高performance。

(23) Test and Validation Datasets

参考文档，当模型训练好之后，并不知道他的表现如何。这个时候就可以使用验证集（Validation Dataset）来看看模型在新数据（验证集和测试集是不同的数据）上的表现如何。同时通过调整超参数，让模型处于最好的状态。

验证集有2个主要的作用：

评估模型效果，为了调整超参数而服务
调整超参数，使得模型在验证集上的效果最好

说明：

验证集不像训练集和测试集，它是非必需的。如果不需要调整超参数，就可以不使用验证集，直接用测试集来评估效果。
验证集评估出来的效果并非模型的最终效果，主要是用来调整超参数的，模型最终效果以测试集的评估结果为准。

(24) Embendding

Embendding 用更朴素的解释是降维，会与Encoder有一些相似的地方，因为都是 dense representation of data，blog中是对NLP数据的处理。

另外有一个blog是对影像的处理，如blog1与blog2特征的维度也不是越多越好。

(25) The Golden Age of Computer Vision

主要介绍3D Vision的算法变化，目前主要是靠数据进行训练。

(26) training dataset size

在experiment中发现了一个规律，如果数据有很大的Imbalanced，那么增加数据量是提高evaluation的方法。

训练数据量也是一个很难确定的事，参考blog。

(27) Domain Adaption

介绍了domain adaption 与transfer learning, dataset shift 的关系。

domain adaption是在一个数据上训练，在另外一个数据上测试。

Transfer Learning 通常是指用fine tuning实现从一个model到另一个数据上的model的训练。

Dataset shift 像一个更细节的解释，如 Covariate Shift；Prior Probability Shift；Concept Shift。

paper

(1) Depth-supervised NeRF: Fewer Views and Faster Training for Free

website, paper

论文充分利用了Colmap的结果，对比不用colmap大大提高了准确率，减少了错误区域。

更早的文章NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis， blog。

类似的应用是depth from video，如google的depth from video blog和cinematic photo blog。

(2) Urban Radiance Fields

website, paper

论文不是基于RF的图像显示，而是有一个mesh。

project

(1) Zillow Indoor Dataset

paper

数据集是室内场景，包括影像和室内的layout。

(2) ETH-MS localization dataset

数据集是定位相关的，室内外都有。

(3) Open Buildingsg

是Google的一个从卫星影像提取建筑物的数据，不过貌似没有真值，看blog。

(4) MIAP (More Inclusive Annotations for People)

一个关于人物检测的数据集，参考Google的blog。

(5) ViP-DeepLab: Learning Visual Perception with Depth-aware Video Panoptic Segmentation

panoptic segmentation是最近才流行的算法。

(6) iGibson

一个室内模拟器，和carla类似，一个blog的介绍。

(7)Accelerating Neural Networks on Mobile and Web with Sparse Inference

移动设备运行CNN是一个很工程的问题。

(8) AutoML

网络的查找是最近深度学习的一个重要的发展方向，Model Search是一个开源的库。

(9) 3D Scene Understanding with TensorFlow 3D

3D 是最近一个热点，Pytorch也有Pytorch 3D。

(10) CO3D

CO3D是facebook的一个三维重建的数据集。

(11) Objectron Dataset

介绍3D box的数据集的blog。

(12) Neural Architecture Search

Neural Architecture Search 是AutoML中一个常用的方法。

(13) Image Matching Benchmark and Challenge

特征点提取和匹配的数据集。

(14) YouTube-8M Segments Dataset

主要是video的Segments 与 undertanding的数据集。

(15) Open Images V6

image classification, object detection, visual relationship detection, and instance segmentation的数据集。

(16) StreetLearn dataset

主要是用来自动驾驶定位的，利用Google街景实现定位。

(17) RxR: A Multilingual Benchmark for Navigation Instruction Following

室内场景的数据集。

(18) nuScenes

类似与KITTI的数据，但是没有stereo的数据。

(19) Urban forest monitoring

包括aerial的tree的数据与街景的tree的数据。

Tutorial

(1) Machine Learning Robustness, Fairness, and their Convergence

主要是可以应对noise label的问题，noise label是一个有点偏应用的问题。

(2) Do Wide and Deep Networks Learn the Same Things?

探讨网络结构的的问题。

Footnotes

https://www.zhihu.com/question/479214973 ↩
https://zhuanlan.zhihu.com/p/61215293 ↩