Align and Attend: Multimodal Summarization with Dual Contrastive Losses

Bo He, Jun Wang, Jielin Qiu, Trung Bui, Abhinav Shrivastava, Zhaowen Wang

Type: Article

Publication Date: 2023-06-01

Citations: 28

DOI: https://doi.org/10.1109/cvpr52729.2023.01428

Abstract

The goal of multimodal summarization is to extract the most important information from different modalities to form summaries. Unlike unimodal summarization, the multimodal summarization task explicitly leverages cross-modal information to help generate more reliable and high-quality summaries. However, existing methods fail to lever-age the temporal correspondence between different modal-ities and ignore the intrinsic correlation between different samples. To address this issue, we introduce Align and Attend Multimodal Summarization (A2Summ), a unified multimodal transformer-based model which can effectively align and attend the multimodal input. In addition, we propose two novel contrastive losses to model both inter-sample and intra-sample correlations. Extensive experiments on two standard video summarization datasets (TVSum and SumMe) and two multimodal summarization datasets (Daily Mail and CNN) demonstrate the superiority of A2Summ, achieving state-of-the-art performances on all datasets. Moreover, we collected a large-scale multimodal summarization dataset BLiSS, which contains livestream videos and transcribed texts with annotated summaries. Our code and dataset are publicly available at https://boheumd.github.io/A2Summ/.

Locations

arXiv (Cornell University) - View - PDF
2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) - View

Similar Works

Action	Title	Year	Authors
+	None	1999	Ming Liao
+	None	2001	I. N. Kostin
+	None	1999	Yong-Gao Chen Imre Z. Ruzsa
+	None	2003	Paul Sablonnière
+	None	2001	Emmanuel Fragnière Jacek Gondzio Robert Sarkissian
+	None	1998	G. Sardanashvily
+	None	1998	Hans Keiding
+	None	2003	Haihua Feng Vincenzo Galdi David A. Castañón
+	None	2003	V. Z. Kanchukoev B. S. Karamurzov В. А. Созаев Vladimir Chernov
+	None	2001	Petr Habala Nicole Tomczak-Jaegermann
+	None	2001	S. E. Kozlov
+ PDF Chat	None	2008	田村直義
+	None	2001	Joaquin Soriano
+	None	2001	Shigetaka Fukuda
+	None	2003	Solomon Friedberg
+	None	2003	Igor Belegradek
+	None	1997	Salih Çelïk
+	None	2001	M. de Montigny Hubert de Guise
+	None	2001	A. Yu. Kolesov Н. Х. Розов
+	None	2002	D. G. Djumbayeva Erlan Nursultanov

Works That Cite This (4)

Action	Title	Year	Authors
+ PDF Chat	Learning subjective time-series data via Utopia Label Distribution Approximation	2024	Xuefeng Liang Wenxin Xu Hexin Jiang Ying Zhou Zhao Yin Jie Zhang
+ PDF Chat	Heterogeneous Contrastive Learning for Foundation Models and Beyond	2024	Lecheng Zheng Baoyu Jing Zihao Li Hanghang Tong Jingrui He
+ PDF Chat	A Challenging Multimodal Video Summary: Simultaneously Extracting and Generating Keyframe-Caption Pairs from Video	2023	Keito Kudo Haruki Nagasawa Jun Suzuki Nobuyuki Shimizu
+ PDF Chat	Towards Scalable Neural Representation for Diverse Videos	2023	Bo He Xitong Yang Hanyu Wang Zuxuan Wu Hao Chen Shuaiyi Huang Yixuan Ren Ser-Nam Lim Abhinav Shrivastava

Works Cited by This (58)

Action	Title	Year	Authors
+ PDF Chat	Going deeper with convolutions	2015	Christian Szegedy Wei Liu Yangqing Jia Pierre Sermanet Scott Reed Dragomir Anguelov Dumitru Erhan Vincent Vanhoucke Andrew Rabinovich
+ PDF Chat	Neural Summarization by Extracting Sentences and Words	2016	Jianpeng Cheng Mirella Lapata
+	Hierarchical Question-Image Co-Attention for Visual Question Answering	2016	Jiasen Lu Jianwei Yang Dhruv Batra Devi Parikh
+	A Deep Reinforced Model for Abstractive Summarization	2017	Romain Paulus Caiming Xiong Richard Socher
+ PDF Chat	Deep Reinforcement Learning for Unsupervised Video Summarization With Diversity-Representativeness Reward	2018	Kaiyang Zhou Yu Qiao Tao Xiang
+ PDF Chat	End-to-end Audio Visual Scene-aware Dialog Using Multimodal Attention-based Video Features	2019	Chiori Hori Huda Alamri Jue Wang Gordon Wichern Takaaki Hori Anoop Cherian Tim K. Marks Vincent Cartillier Raphael Gontijo Lopes Abhishek Das
+ PDF Chat	Iterative Document Representation Learning Towards Summarization with Polishing	2018	Xiuying Chen Shen Gao Chongyang Tao Yan Song Dongyan Zhao Rui Yan
+	BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding	2018	Jacob Devlin Ming‐Wei Chang Kenton Lee Kristina Toutanova
+	How2: A Large-scale Dataset for Multimodal Language Understanding	2018	Ramon Sanabria Ozan Çağlayan Shruti Palaskar Desmond Elliott Loïc Barrault Lucia Specia Florian Metze
+	Discriminative Feature Learning for Unsupervised Video Summarization.	2018	YunJae Jung Donghyeon Cho Dahun Kim Sanghyun Woo In So Kweon