CLIP 简述

本文最后更新于:2024年8月14日 下午

Title: Learning Transferable Visual Models From Natural Language Supervision

2022 week7 reading

CLIP算是在跨模态训练无监督中的开创性工作,作者在开头梳理了现在vision上的训练方式,从有监督的训练,到弱监督训练,再到最终的无监督训练。这样训练的好处在于可以避免的有监督的 categorical label的限制,具有zero-shot性质,极大的提升了模型的实用性能。

image-20220213180652005

模型的结构很简洁,就是将image和text通过两个各自模态的encoder提取feature之后,将互相配对的image-text所属的feature作为正样本(图中矩阵对角线),其余不配对的样本作为负样本(除对角线之外的元素)来进行对比学习

在下游任务中,CLIP避免使用特殊的分类头,以实现完全不需要进行微调的数据集迁移。他们构建了一种称作 prompt template 的方法,将分类任务巧妙的移植到现有的训练方法中(objec -> text)

image-20220213181524272

这篇文章中作者提到早在2017年之后就陆续有工作提出和本文类似的想法,但是他们的数据大小都太小了,导致没有很好的结果。作者单独收集了一份含有4亿份数据的大数据集,才得以得到很好的效果。这种现象最近好像在机器学习领域越来越突出,力大砖飞,这无疑降低了benchmark的可信性,而且增加了小工作组的压力。

此外作者提到PPROMPT ENGINEERING AND ENSEMBLING也是一个值得研究的方向,也就是生成的template如果能够结合对应的dataset的特征,相当于给予模型额外的信息image-20220213233715324

最后作者还将CILP迁移为few-shot进行实验,有趣的是在label少的情况下few-shot的性能甚至还不如zero-shot,证明了CILP强大的zero-shot性能

image-20220213234032574

关于 weekly reading

我会将每周所写周报中paper reading部分上传至我的blog供参考,希望能为你提供一些帮助。


CLIP 简述
https://asteriscus.cat/posts/6ec36a3f/
作者
Asterisk
发布于
2022年2月12日
许可协议