CLIP 简述

本文最后更新于：2024年8月14日下午

Title: Learning Transferable Visual Models From Natural Language Supervision

2022 week7 reading

CLIP算是在跨模态训练无监督中的开创性工作，作者在开头梳理了现在vision上的训练方式，从有监督的训练，到弱监督训练，再到最终的无监督训练。这样训练的好处在于可以避免的有监督的 categorical label的限制，具有zero-shot性质，极大的提升了模型的实用性能。

模型的结构很简洁，就是将image和text通过两个各自模态的encoder提取feature之后，将互相配对的image-text所属的feature作为正样本（图中矩阵对角线），其余不配对的样本作为负样本（除对角线之外的元素）来进行对比学习

在下游任务中，CLIP避免使用特殊的分类头，以实现完全不需要进行微调的数据集迁移。他们构建了一种称作 prompt template 的方法，将分类任务巧妙的移植到现有的训练方法中（objec -> text）

这篇文章中作者提到早在2017年之后就陆续有工作提出和本文类似的想法，但是他们的数据大小都太小了，导致没有很好的结果。作者单独收集了一份含有4亿份数据的大数据集，才得以得到很好的效果。这种现象最近好像在机器学习领域越来越突出，力大砖飞，这无疑降低了benchmark的可信性，而且增加了小工作组的压力。

此外作者提到PPROMPT ENGINEERING AND ENSEMBLING也是一个值得研究的方向，也就是生成的template如果能够结合对应的dataset的特征，相当于给予模型额外的信息