Daily Paper 05 - Few-Shot Classification with Feature Map Reconstruction Networks
Tilden Ji 菜鸟Lv3

这篇论文是一篇发表于 CVPR 2021 的小样本图像分类的论文,作者在投稿前标题是细腻度小样本分类,不过后来又去掉了标题中的细腻度。根据结果来看,对于通用小样本学习数据集,本文的方法确实也有不错的表现。

这篇论文是上个月看的,效果非常不错,实验也做得很丰富,决定重读整理一下。先仅依照论文理解,之后读过代码后再补充一些细节。

「」

编写记录

  1. 2021 年 6 月 14 日 完成初版

基本思想

本文的想法非常简单。作者通过分析认为,以 ResNet12 为例,在常规小样本学习中,图像经过 CNN 后,倒数第二层输出的 的特征图会被 Global Average Pooling 操作压缩为 640 维的张量。而这里的 Average Pooling 操作可能会损失一些有用的空间信息。于是作者设计了一个新的小样本学习模型,去掉了 CNN 输出的最后一步的 Pooling,转而直接利用支持集卷积特征图重构查询集的特征图。相应的,度量方式改为矩阵的 L2 范数,而重构的过程则是直接使用岭回归(Ridge regression)的解析解(Closed-form expression)。

方法

去掉 Average Pooling 后,对于一张输入图像,CNN 会输出特征图 。其中, 是特征图的像素点总数, 是通道数。于是我们有:

  1. 单张查询样本:
  2. 支持集:
  3. 优化变量:
  4. 优化目标:

也就是说,我们需要找一个 ,使得重构特征图 尽可能接近查询样本 。而该优化目标可以转换为求解线性最小二乘问题:

其中 是岭回归惩罚项系数。

幸运的是,对于岭回归,我们不需要迭代求解,因为岭回归有解析解(Closed-form expression)。

具体的,对上式求导,可以直接解出

其中, 就是根据支持集 重构的特征图。

为了使训练稳定,作者引入 3 个可学习参数,

令:

其中, 这种形式是为了非负和好求导。惩罚系数 引入因子 是为了让训练稳定,因为当 时,支持集的 features 数量高于特征空间维数,重构简单,因而加大惩罚;当 时,重构困难,因而减小惩罚。 是修正项,感觉作用是增加学习的灵活性。 是 softmax 的 temperature,这个取自前人工作。

仔细分析上面的公式,可以发现其复杂性来源于构造一个 的矩阵以及求其逆矩阵。若 过大,计算开销也会变得很大,数值计算也会不太稳定?这时可以利用 Woodbury 等式求解一个等价形式:

这时,求解复杂性就变为构造一个 的矩阵及求逆了,实验时可以根据 的相对大小来选择。这里为了保持一致性,作者统一使用的后一个公式进行实验。

亿点点实现细节

等看完代码再回来补充

预训练 + 微调

预训练 + 微调 是在小样本学习中目前表现最好的架构,本文采用了这种架构。由于不是根据标签学习的,因此在预训练阶段,针对每一类别,引入一个可学习的特征图 。然后利用之前的公式计算损失反向传播训练。

完成预训练后丢掉类别特征图,将其参数直接导入完整模型进行微调。

实验

这里只贴出两个通用数据集上的结果,在 Inductive 设置下应该是 SOTA 级别的。

总结

优点:

  1. 效果好;
  2. 有很多思路可以借鉴学习。

缺点:

  1. 计算量大;
  2. 计算不稳定,具体表现在解析解中有矩阵求逆,矩阵求逆在实际计算中会存在数值不稳定的问题;
  3. 没有独热标签那种强监督信号,似乎挺难训练的。

其他:

  1. 似乎没有用到 onehot 标签??

  2. 既然没有(显式)用到标签,可以说这是对比学习的吧…?

  3. 值得注意的相关工作:

    Meta-learning with differentiable closed-form solvers(ICLR 2019,,Pytorch 上古代码 0.3)

    CrossTransformers: spatially-aware few-shot transfer(NeurlIPS 2020,Tensorflow 代码)

    Adaptive Subspaces for Few-Shot Learning(CVPR 2020,Pytorch 代码)

    Meta-Learning with Differentiable Convex Optimization(CVPR 2019,Pytorch 上古代码 0.4)


Reference

[1]D. Wertheimer, L. Tang, and B. Hariharan, “Few-Shot Classification with Feature Map Reconstruction Networks,” arXiv:2012.01506 [cs], Apr. 2021, Accessed: May 20, 2021. [Online]. Available
[2]L. Bertinetto, J. F. Henriques, P. H. S. Torr, and A. Vedaldi, “Meta-learning with differentiable closed-form solvers,” arXiv:1805.08136 [cs, stat], Jul. 2019, Accessed: May 22, 2021. [Online]. Available
[3]C. Doersch, A. Gupta, and A. Zisserman, “CrossTransformers: spatially-aware few-shot transfer,” arXiv:2007.11498 [cs], Feb. 2021, Accessed: Jun. 16, 2021. [Online]. Available
[4]C. Simon, P. Koniusz, R. Nock, and M. Harandi, “Adaptive Subspaces for Few-Shot Learning,” 2020, pp. 4136–4145. Accessed: May 22, 2021. [Online]. Available
[5]K. Lee, S. Maji, A. Ravichandran, and S. Soatto, “Meta-Learning with Differentiable Convex Optimization,” arXiv:1904.03758 [cs], Apr. 2019, Accessed: May 22, 2021. [Online]. Available
  • 本文标题:Daily Paper 05 - Few-Shot Classification with Feature Map Reconstruction Networks
  • 本文作者:Tilden Ji
  • 创建时间:2021-06-14 12:52:10
  • 本文链接:https://itiandong.com/2021/daily-paper-05/
  • 版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!
 评论