LocCa: Visual Pretraining with Location-aware Captioners

Wan, Bo; Tschannen, Michael; Xian, Yongqin; Pavetic, Filip; Alabdulmohsin, Ibrahim; Wang, Xiao; Pinto, André Susano; Steiner, Andreas; Beyer, Lucas; Zhai, Xiaohua

Computer Science > Computer Vision and Pattern Recognition

arXiv:2403.19596 (cs)

[Submitted on 28 Mar 2024 (v1), last revised 11 Nov 2024 (this version, v2)]

Title:LocCa: Visual Pretraining with Location-aware Captioners

Authors:Bo Wan, Michael Tschannen, Yongqin Xian, Filip Pavetic, Ibrahim Alabdulmohsin, Xiao Wang, André Susano Pinto, Andreas Steiner, Lucas Beyer, Xiaohua Zhai

View PDF HTML (experimental)

Abstract:Image captioning has been shown as an effective pretraining method similar to contrastive pretraining. However, the incorporation of location-aware information into visual pretraining remains an area with limited research. In this paper, we propose a simple visual pretraining method with location-aware captioners (LocCa). LocCa uses a simple image captioner task interface, to teach a model to read out rich information, i.e. bounding box coordinates, and captions, conditioned on the image pixel input. Thanks to the multitask capabilities of an encoder-decoder architecture, we show that an image captioner can easily handle multiple tasks during pretraining. Our experiments demonstrate that LocCa outperforms standard captioners significantly on localization downstream tasks while maintaining comparable performance on holistic tasks.

Subjects:	Computer Vision and Pattern Recognition (cs.CV)
Cite as:	arXiv:2403.19596 [cs.CV]
	(or arXiv:2403.19596v2 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2403.19596

Submission history

From: Bo Wan [view email]
[v1] Thu, 28 Mar 2024 17:20:39 UTC (6,541 KB)
[v2] Mon, 11 Nov 2024 22:39:35 UTC (4,673 KB)

Computer Science > Computer Vision and Pattern Recognition

Title:LocCa: Visual Pretraining with Location-aware Captioners

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:LocCa: Visual Pretraining with Location-aware Captioners

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators