Beyond a Pre Trained Object Detector 简述

本文最后更新于:2024年8月14日 下午

Title: Beyond a Pre-Trained Object Detector: Cross-Modal Textual and Visual Context for Image Captioning

这篇工作作者认为目前visual captioning任务中,detection+text结构中过于依赖object detection结果而忽视了整张图片之间的一些潜在联系

image-20220705145558942

作者认为目前VL任务存在两点问题

  • detector只能截取到以object为中心的信息,而忽视了一些对VL任务有潜在帮助的信息,如relation或者一些场景级的信息
  • detector没有被VL任务优化,因此可能不适用于VL任务

通过以上分析,作者提出一个cross-modal retrieval module来通过CLIP复原一系列可能的text description辅助模型弥补丢失信息;一个image conditioning module来加强detected objects与text之间的联系

image-20220705151232422

对于复原模块,作者发现全局图片和局部图片所复原出的text存在一定差异,这也启发了我们对CLIP的一些理解

image-20220705151346222

关于 weekly reading

我会将每周所写周报中paper reading部分上传至我的blog供参考,希望能为你提供一些帮助。


Beyond a Pre Trained Object Detector 简述
https://asteriscus.cat/posts/576f193/
作者
Asterisk
发布于
2022年7月4日
许可协议