NetVLAD: CNN Architecture for Weakly Supervised Place Recognition

Relja Arandjelović, Petr Gronát, Akihiko Torii, Tomáš Pajdla, Josef Šivic

Type: Article

Publication Date: 2017-06-01

Citations: 1582

DOI: https://doi.org/10.1109/tpami.2017.2711011

Abstract

We tackle the problem of large scale visual place recognition, where the task is to quickly and accurately recognize the location of a given query photograph. We present the following three principal contributions. First, we develop a convolutional neural network (CNN) architecture that is trainable in an end-to-end manner directly for the place recognition task. The main component of this architecture, NetVLAD, is a new generalized VLAD layer, inspired by the "Vector of Locally Aggregated Descriptors" image representation commonly used in image retrieval. The layer is readily pluggable into any CNN architecture and amenable to training via backpropagation. Second, we develop a training procedure, based on a new weakly supervised ranking loss, to learn parameters of the architecture in an end-to-end manner from images depicting the same places over time downloaded from Google Street View Time Machine. Finally, we show that the proposed architecture significantly outperforms non-learnt image representations and off-the-shelf CNN descriptors on two challenging place recognition benchmarks, and improves over current state-of-the-art compact image representations on standard image retrieval benchmarks.

Locations

IEEE Transactions on Pattern Analysis and Machine Intelligence - View
arXiv (Cornell University) - View - PDF
HAL (Le Centre pour la Communication Scientifique Directe) - View - PDF
PubMed - View
DataCite API - View

Similar Works

Action	Title	Year	Authors
+	City-Scale Visual Place Recognition with Deep Local Features Based on Multi-Scale Ordered VLAD Pooling.	2020	Duc Canh Le Chan‐Hyun Youn
+	City-Scale Visual Place Recognition with Deep Local Features Based on Multi-Scale Ordered VLAD Pooling	2020	Duc Canh Le Chan Hyun Youn
+	Spatio-Semantic ConvNet-Based Visual Place Recognition	2019	Luis G. Camara Libor Přeučil
+	Spatio-Semantic ConvNet-Based Visual Place Recognition	2019	Luis G. Camara Libor Přeučil
+ PDF Chat	BoQ: A Place is Worth a Bag of Learnable Queries	2024	Amar Ali-bey Brahim Chaib-draa Philippe Giguère
+ PDF Chat	EDTformer: An Efficient Decoder Transformer for Visual Place Recognition	2024	Tong Jin Feng Lu Shuyu Hu Chun Yuan Yunpeng Liu
+ PDF Chat	EigenPlaces: Training Viewpoint Robust Models for Visual Place Recognition	2023	Gabriele Berton Gabriele Trivigno Barbara Caputo Carlo Masone
+	EigenPlaces: Training Viewpoint Robust Models for Visual Place Recognition	2023	Gabriele Berton Gabriele Trivigno Barbara Caputo Carlo Masone
+	Learning Semantics for Visual Place Recognition through Multi-Scale Attention	2022	Valerio Paolicelli Antonio Tavera Carlo Masone Gabriele Berton Barbara Caputo
+	Optimal Transport Aggregation for Visual Place Recognition	2023	Sergio Izquierdo Javier Civera
+ PDF Chat	A Hyperdimensional One Place Signature to Represent Them All: Stackable Descriptors For Visual Place Recognition	2024	Connor Malone Somayeh Hussaini Tobias Fischer Michael Milford
+	Are Local Features All You Need for Cross-Domain Visual Place Recognition?	2023	Giovanni Barbarani Mohamad Mostafa Hajali Bayramov Gabriele Trivigno Gabriele Berton Carlo Masone Barbara Caputo
+	Patch-NetVLAD+: Learned patch descriptor and weighted matching strategy for place recognition	2022	Yingfeng Cai Junqiao Zhao Jiafeng Cui Zhang Feng-lin Chen Ye Tiantian Feng
+ PDF Chat	PointNetVLAD: Deep Point Cloud Based Retrieval for Large-Scale Place Recognition	2018	Mikaela Angelina Uy Gim Hee Lee
+	Data-efficient Large Scale Place Recognition with Graded Similarity Supervision	2023	María Leyva-Vallina Nicola Strisciuglio Nicolai Petkov
+	Deep Stochastic Attraction and Repulsion Embedding for Image Based Localization.	2018	Liu Liu Hongdong Li Yuchao Dai
+	PointNetVLAD: Deep Point Cloud Based Retrieval for Large-Scale Place Recognition	2018	Mikaela Angelina Uy Gim Hee Lee
+ PDF Chat	Supervised Fine-tuning Evaluation for Long-term Visual Place Recognition	2021	Farid Alijani Esa Rahtu
+	PointNetVLAD: Deep Point Cloud Based Retrieval for Large-Scale Place Recognition	2018	Mikaela Angelina Uy Gim Hee Lee
+ PDF Chat	Improving Point Cloud Based Place Recognition with Ranking-based Loss and Large Batch Training	2022	Jacek Komorowski

Works That Cite This (590)

Action	Title	Year	Authors
+ PDF Chat	Revisiting Street-to-Aerial View Image Geo-localization and Orientation Estimation	2021	Sijie Zhu Taojiannan Yang Chen Chen
+ PDF Chat	CPlaNet: Enhancing Image Geolocalization by Combinatorial Partitioning of Maps	2018	Paul Hongsuck Seo Tobias Weyand Jack Sim Bohyung Han
+ PDF Chat	Non-local NetVLAD Encoding for Video Classification	2019	Yongyi Tang Xing Zhang Jingwen Wang Shaoxiang Chen Lin Ma Yu‐Gang Jiang
+ PDF Chat	Top-Down Attention Recurrent VLAD Encoding for Action Recognition in Videos	2018	Swathikiran Sudhakaran Oswald Lanz
+ PDF Chat	OFVL-MS: Once for Visual Localization across Multiple Indoor Scenes	2023	Tao Xie Kun Dai Siyi Lu Eric Ke Wang Zhiqiang Jiang Jinghan Gao Dedong Liu Jie Xu Lijun Zhao Ruifeng Li
+ PDF Chat	ProLFA: Representative prototype selection for local feature aggregation	2019	Xingxing Zhang Zhenfeng Zhu Yao Zhao Yawei Zhao
+	Domain-invariant Similarity Activation Map Metric Learning for Retrieval-based Long-term Visual Localization	2020	Hanjiang Hu Hesheng Wang Zhe Liu Weidong Chen
+ PDF Chat	ACTNET: End-to-End Learning of Feature Activations and Multi-stream Aggregation for Effective Instance Image Retrieval	2021	Syed Sameed Husain Eng-Jon Ong Mirosław Bober
+ PDF Chat	GAMa: Cross-View Video Geo-Localization	2022	Shruti Vyas Chen Chen Mubarak Shah
+ PDF Chat	Discriminative and semantic feature selection for place recognition towards dynamic environments	2021	Yuxin Tian Jinyu Miao Xingming Wu Haosong Yue Zhong Liu Weihai Chen

Works Cited by This (31)

Action	Title	Year	Authors
+ PDF Chat	Multi-scale Orderless Pooling of Deep Convolutional Activation Features	2014	Yunchao Gong Liwei Wang Ruiqi Guo Svetlana Lazebnik
+	Fracking Deep Convolutional Image Descriptors	2014	Edgar Simo‐Serra Eduard Trulls Luis Ferraz Iasonas Kokkinos Francesc Moreno-Noguer
+	Very Deep Convolutional Networks for Large-Scale Image Recognition	2014	Karen Simonyan Andrew Zisserman
+ PDF Chat	Deep visual-semantic alignments for generating image descriptions	2015	Andrej Karpathy Li Fei-Fei
+ PDF Chat	Learning Fine-Grained Image Similarity with Deep Ranking	2014	Jiang Wang Yang Song Thomas Leung Chuck Rosenberg Jingbin Wang James Philbin Bo Chen Ying Wu
+ PDF Chat	CNN Features Off-the-Shelf: An Astounding Baseline for Recognition	2014	Ali Sharif Razavian Hossein Azizpour Josephine Sullivan Stefan Carlsson
+ PDF Chat	Going deeper with convolutions	2015	Christian Szegedy Wei Liu Yangqing Jia Pierre Sermanet Scott Reed Dragomir Anguelov Dumitru Erhan Vincent Vanhoucke Andrew Rabinovich
+ PDF Chat	Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation	2014	Ross Girshick Jeff Donahue Trevor Darrell Jitendra Malik
+	Particular object retrieval with integral max-pooling of CNN activations	2015	Giorgos Tolias Ronan Sicre Hervé Jeǵou
+ PDF Chat	PoseNet: A Convolutional Network for Real-Time 6-DOF Camera Relocalization	2015	Alex Kendall Matthew Koichi Grimes Roberto Cipolla