Beyond a Pre Trained Object Detector 简述
本文最后更新于:2024年8月14日 下午
Title: Beyond a Pre-Trained Object Detector: Cross-Modal Textual and Visual Context for Image Captioning
这篇工作作者认为目前visual captioning任务中,detection+text结构中过于依赖object detection结果而忽视了整张图片之间的一些潜在联系

作者认为目前VL任务存在两点问题
- detector只能截取到以object为中心的信息,而忽视了一些对VL任务有潜在帮助的信息,如relation或者一些场景级的信息
- detector没有被VL任务优化,因此可能不适用于VL任务
通过以上分析,作者提出一个cross-modal retrieval module来通过CLIP复原一系列可能的text description辅助模型弥补丢失信息;一个image conditioning module来加强detected objects与text之间的联系

对于复原模块,作者发现全局图片和局部图片所复原出的text存在一定差异,这也启发了我们对CLIP的一些理解

关于 weekly reading
我会将每周所写周报中paper reading部分上传至我的blog供参考,希望能为你提供一些帮助。
Beyond a Pre Trained Object Detector 简述
https://asteriscus.cat/posts/576f193/