Beyond a Pre Trained Object Detector 简述

本文最后更新于：2024年8月14日下午

Title: Beyond a Pre-Trained Object Detector: Cross-Modal Textual and Visual Context for Image Captioning

这篇工作作者认为目前visual captioning任务中，detection+text结构中过于依赖object detection结果而忽视了整张图片之间的一些潜在联系

作者认为目前VL任务存在两点问题

通过以上分析，作者提出一个cross-modal retrieval module来通过CLIP复原一系列可能的text description辅助模型弥补丢失信息；一个image conditioning module来加强detected objects与text之间的联系

对于复原模块，作者发现全局图片和局部图片所复原出的text存在一定差异，这也启发了我们对CLIP的一些理解

关于 weekly reading

我会将每周所写周报中paper reading部分上传至我的blog供参考，希望能为你提供一些帮助。

weekly reading

#machine learning

Beyond a Pre Trained Object Detector 简述

https://asteriscus.cat/posts/576f193/

作者

Asterisk

发布于

2022年7月4日

许可协议