跨域小样本系列1:简介篇

  • 阿里云国际版折扣https://www.yundadi.com

  • 阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6

    来源投稿 作者橡皮
    编辑学姐

    跨域小样本系列1简介√

    跨域小样本系列2常用数据集与任务设定详解

    跨域小样本系列3元学习方法解决CDFSL以及两篇SOTA论文讲解

    跨域小样本系列4finetune方法解决CDFSL以及两篇SOTA论文讲解

    跨域小样本系列5除此之外一些奇门异路的论文讲解

    引言

    去年年初IEEE Spectrum在采访AI领域巨佬吴恩达Andrew Ng时他表示“对于许多根本不存在巨型数据集的产业重点必须从大数据转向优质数据。有50个经过深思熟虑后处理的样本示例就足以向神经网络解释你想要它学习什么。”

    In many industries where giant data sets simply don’t exist, I think the focus has to shift from big data to good data. Having 50 thoughtfully engineered examples can be sufficient to explain to the neural network what you want it to learn.

    由此可见针对规模小但精致的数据是未来的一个重要研究方向。

    跨域小样本学习

    在现实中的很多场景下收集大量有标签数据是非常昂贵、困难甚至不可能实现的如何在低资源场景对下游任务进行性能提升是小样本学习Few-Shot Learning重点关注的问题目前使用元学习Meta-Learning方法已经能够很好的满足小样本学习的需要。随着研究的发展和对现实场景的进一步理解相比小样本学习条件更加苛刻的跨域小样本学习Cross-Domain Few Shot Learning成为了近些年来新兴的研究话题。

    具体来讲对于一些特殊场景下难以收集的数据比如皮肤病图像、飞机残骸卫星图像等等它们在现实中收集困难、发生概率极低。跨域小样本学习是希望利用一个或多个其他成熟领域源域上的先验知识去解决另一个缺少样本的目标域的复杂任务。 同时值得一提的是跨域小样本的问题与人类凭借已有知识去解决从未接触过领域的新问题的设定几乎一样它的提出更加符合人工智能模仿人类思考的模式。

    针对这个概念不得不说很容易与大家所熟悉的域适应Domain Adaptation、小样本学习Few Shot Learning概念相混淆为方便理解在此按照自己的理解做出了一个简单的概念辨析

    域自适应DA希望使用在A任务上学习到的先验知识来解决A’任务。其中两种任务类型相同比如都是分类任务但是A任务与A’任务存在很大的域跨度Domain Gap例如使用白天良好光照条件下的数据先验知识试图解决黑夜条件下的任务。

    小样本学习FSL希望使用在A任务上学习到的先验知识来解决B任务且B任务的可用数据很少。其中两种任务类型不同比如A是分类任务B是检测任务但是A任务和B任务之间几乎没有域跨度。

    跨域小样本学习CDFSL希望使用在A任务上学习到的先验知识来解决B任务且B任务的可用数据很少。其中两种任务类型不同比如A是分类任务B是检测任务但是A任务和B任务之间有不同程度的域跨度。

    在ECCV2020的一篇文章A Broader Study of Cross-Domain Few-Shot Learning 中作者详细的给出了关于跨域小样本问题的定义并提出了一个基准Benchmark

    数据集分别包括植物疾病图像、卫星图像、皮肤病变的皮肤镜图像和X光图像。 所选数据集反映了精确的真实世界案例用于跨域小样本学习。此外从上述领域收集足够的例子通常是困难的、昂贵的或者在某些情况下是不可能的

    在这项研究中建立的Benchmark设定 使用ImageNet进行源域预训练使用与自然图像不同的目标域进行目标评估。相似度由3个正交标准衡量

    1是否存在透视失真

    2语义内容

    3颜色深度。

    目标类与源类的标签不相交。

    ⚪农业病害CropDisease数据集有透视 自然图像 彩色图

    ⚪卫星图像EuroSAT数据集无透视 自然图像 彩色图

    ⚪皮肤病的ISIC数据集无透视 医学图像 彩色图

    ⚪X光胸片ChestX数据集五透视 医学图像 灰度图

    作者提出的基准评价方法与实验设置

    目前CDFSL的研究难点和思路

    ① 源域和目标域标签不重合disjoint

    -重新训练最后一层softmax

    ② 目标域的可用标签数据极少-fewshot

    -新的学习策略learn to learn meta-learning

    ③ 存在域跨度-domain gap

    -域自适应 域对齐 调优

    解决CDFSL的主流方法

    ① 元学习meta-learning

    -在小样本学习领域非常impressive但是在跨域小样本学习领域的性能很难与调优相比。

    ② 迁移调优fine-tuning

    -性能方面效果虽然比元学习要好但是有一定的上限究竟在调优时选择finetune-all还是finetune last-k layer都是问题...

    下期介绍CDFSL的常用数据集并分别对任务设定详解

    点击下方卡片关注《学姐带你玩AI》别错过🚀🚀🚀

    码字不易欢迎大家点赞评论收藏

  • 阿里云国际版折扣https://www.yundadi.com

  • 阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6