CVPR 2022 | ELP:简单间断线性探针即可提升各种分类性能

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6

29ae3fea5fbfd0d0d47401a6cda2223e.gif

©PaperWeekly 原创 · 作者 | 梁远智

单位 | 悉尼科技大学博士生

研究方向 | 多模态与表示学习

1efc5f4bc6dd9d2477602d9e76d8b344.png

自序

分类是 CV 经典任务。在之前的工作中MHEM TNNLS2022针对 FGVC我们曾经尝试跳出修改结构FGVC 中主要是各种 part based model和引入数据等固有思路尝试通过更加更加简单有效的方式提升性能。我们惊讶地发现简单的适当的困难样本挖掘足以明显的提升性能只用简单的 backbone 和适当的困难样本挖掘这样一个简单的 pipeline 却能击败许多复杂的方法。 

然而在进一步的改进过程中我们开始质疑样本选择的标准和方式。究竟什么样的样本是困难样本什么样的样本是学的不好的样本confidence 偏低的吗那多少算偏低典型的 FGVC 数据集中很多样本真人看起来都困难但网络的 confidence 依旧很高我们应该如何让网络进一步泛化各样的样本在 overfit train set 的前提下如何找到那些网络记住了但没学明白的内容如何拨开 overfit 的迷雾去找到隐藏在 high confidence 之下特征表示的并不好的样本

由此我们开启了在 CVPR 2022 的工作 ELP 的探索。

5128bc1ea79a42d3ba99dd7309cfab73.png

论文标题

A Simple Episodic Linear Probe Improves Visual Recognition in the Wild

论文链接

https://openaccess.thecvf.com/content/CVPR2022/html/Liang_A_Simple_Episodic_Linear_Probe_Improves_Visual_Recognition_in_the_CVPR_2022_paper.html

代码链接

https://github.com/akira-l/ELP

d445504c7ad11233f91d672178004c96.png

难以泛化的样本在哪里

不考虑 assemble加数据加模型等引入很大 cost 的方案在现有框架内train set 里样本对应的 confidence 都会很高。我们很难去直接找出网络做的不好的样本或者真正意义上的困难且有进一步学习价值的样本。然而我们可以逆转思维什么样是不好的我们不清楚那什么样的算好的表示呢这是 MHEM 里一张特征可视化的结果。

ed0f01d7e46de7770b5e2356b1bb39d0.png

PCA 之后可以看到 MHEM 的特征更加紧凑对于 classifier 而言是更容易区分的。一个直观的结论特征表示出来越集中越好。那不妨我们做一个疯狂的猜想最为理想最好的特征表达可视化出来是什么样子的

也许是非常的集中甚至集中到只有一个点。两分类情况下高维可视化出来最好是 0、1 两个点。这种情况下任意一个差不多的 classifier都能分辨。一个粗糙且极端的例子二分类两组样本分别是全 0 和全 1那么无所谓 classifier 好坏任意一组随机数作为 classifier 都能区分二者。也就是说我们其实希望特征表示极端容易区分一个弱分类器甚至是随机分类器都能分开。

20420b3954046628f03c978e815dc4d7.png

Linear probing

我们把表示学习的目标推到极致让一个样本的特征表达可分到一个极其弱的分类器都能区分它。如何做到这一点呢首先我们找一个弱分类器。比较容易想到且合适的就是 linear probe。这在很多 SSL 方法里也有用到一个简单的线性分类器只训练 detached 掉的特征通过这个简单分类器的结果来衡量特征表示的质量。

作为一个弱分类器linear probe 没有额外的区分能力只能忠实的反应特征本来的质量。特征表示的好与不好可以直观的反映在 linear probing 的准确率上。 

那简单来想我们就可以希望网络学习出来的特征能够在 linear probe 上也有好结果。特征表示好到弱如 linear probe 都能分。而问题接踵而至linear probe 都是训练之后用的类似 KNN 或者一种 evaluation metric需要所有的 training feature 固定下来给它学。实现中我们不可能每一步都做一次 evaluation 然后学一个 linear probe。那么我们需要一个 online linear probe 去在训练当中使用并且在训练过程中提供 regularization。

bec10e51fddf1761336238b657b9bf77.png

034e85462e9a71dc264e633a0991ac82.png

ELP: episodic linear probing

首先对于 online linear probe我们提出一个简单有效的设计 ELP。类似 linear probeELP 也学习分类 detached 掉的特征表达。不同之处有二

1. ELP 学的是 ongoing feature网络本身在不停的更新ELP 学习的特征也是在不断更新的而不是对一个彻底训练完的网络特征进行学习。

d635220e23257c2eeb0b2aeb045f5095.png

2. ELP 每隔一段时间便会重新初始化。如果 ELP 跟着网络从头学到尾那便退化为一个正常的 classifier。这样的 classifier 会 overfit会输出 high confidence会记住训练样本然后不能反映出哪些样本表示质量不佳。简单的间断的初始化可以解决这一问题ELP 不能达到过度学习以至于 overfit 的程度。作为一个始终偏弱的分类器ELP 能承担上述 idea即要求特征可分到一个弱分类器也能识别。

9d34131da76e999ce64d92f65f5677fb.png

755f09f03a5e6092c7b1eb4d01578671.png

ELP-SR: ELP-suitable regularization

仅有 ELP 还无法影响网络训练我们需要让网络能够学习如何得到足够可分的特征来满足 ELP。这里我们提出 ELP-SR。

6abbe319e14dd4111ab9fd23f23bd011.png

56bd6d659420f1a5269921f6b3561ef3.png

这里的 p 和 q 分别是 main classifier 和 ELP classifier 的输出。简单来说我们希望 feature 足够可分可分到对于 main classifier 和 ELP classifier 来说都没区别。

这里我们约束二者输出结果接近。一个强分类器和弱分类器的输出差别很小这里意味着如果特征表示足够好两个分类器输出得分都很高二者差距很小这是我们理想且需要达到的状态如果样本特别难难道 main classifier 有可能 overfit 也没有得到很高的 confidenceELP classifier 尽管达不到很高的 confidence但能够接近 main classifier 也可以接受。 

另一方面我们同时还在分母中约束 main classifier 和 ELP classifier 的得分不能过低。比如某个样本特别的困难两个分类器得分都很低这种情况下也需要网络进一步学习。如果仅仅满足分子里的约束让两个分类器输出接近那这些极难样本就被 ELP-SR 略过了。因此还需要增加 R 的约束避免二者同时 confidence 较低。 

由此我们得到 ELP 和 ELP-SRonline linear probing 和对应的 regularization。在训练过程中的 loss 如下

408a6004fc50b2877551c0e95d20e9e5.png

主要有三main classifier 的 loss正常分类 loss保持网络正常分类训练elp loss: 用于训练 ELP 参数使其保证一定的区分能力ELP-SR利用 ELP  来regularize 网络训练。 

在测试过程中我们只需要使用原本的 backbone 和 main classifier 即可不需要任何额外的 cost。 

另外还有两点值得注意 

1. ELP-SR 是类似 re-weight 的形式。这一点使得原本的 cross entropy 优化方向没有改变整体学习的目标始终如一。只是针对不够有区分度的样本加重训练。这一 loss 形式使得训练比较容易没有其他的优化目标。 

2. Backbone 和 main classifier 自始至终没有接触过 ELP classifier二者虽然同时在训练但 ELP 的训练输入是 detached 掉的ELP-SR 的约束不更新 ELP 参数ELP 是 fix 住的。因此也不存在网络通过学习 ELP 的参数来 overfit ELP-SR 的可能性。实验中也有通过类似 distillation 的方法拉近 main classifier 和 ELP classifier这样就使得网络有机会去直接学习 ELP classifier而不是争取一个更可分的特征表达。

4f5542bbfe9420fd39339b21b50b4a9b.png

实验

我们尝试了各种分类任务包括 ImageNet, long-tail (cifar, ImageNet-lt) 和  FGVC (CUB, AIR, CAR)。我们的方法在各种分类任务上都获得提升

334fea3f7dceb9e214bcba85bff86c3b.png

d7310153a7ac6c49320c57e6ec77f821.png

4604798ca672b93d3e5c34db2d3dde0c.png

更多阅读

5fd8ca2571ee068a8e8311f6e570e289.png

294c958cb06a0b42c671ab336e3dbd0c.png

f6327c400304cdb027b8f37038c0b84f.png

aa46c7844c3722e918ca51ddcc5d3178.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体缩短读者寻找优质内容的成本呢答案就是你不认识的人。

总有一些你不认识的人知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁促使不同背景、不同方向的学者和学术灵感相互碰撞迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人在我们的平台上分享各类优质内容可以是最新论文解读也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个让知识真正流动起来。

📝 稿件基本要求

• 文章确系个人原创作品未曾在公开渠道发表如为其他平台已发表或待发表的文章请明确标注 

• 稿件建议以 markdown 格式撰写文中配图以附件形式发送要求图片清晰无版权问题

• PaperWeekly 尊重原作者署名权并将为每篇被采纳的原创首发稿件提供业内具有竞争力稿酬具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道

• 投稿邮箱hr@paperweekly.site 

• 来稿请备注即时联系方式微信以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信pwbot02快速投稿备注姓名-投稿

593445ba8295e2ba6410acb0e03597c0.png

△长按添加PaperWeekly小编

🔍

现在在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

aa8b1cd72be1680550fd1c2e273efc3d.jpeg

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6