udooom’s diary

Streamlined Dense Video Captioning

Streamlined Dense Video Captioning
Jonghwan Mun, Linjie Yang, Zhou Ren, Ning Xu, Bohyung Han
CVPR 2019
https://arxiv.org/abs/1904.03870

Abstract

Contiributions

従来の1動画1インプットではなく，動画をフレームごとに連続で入力し続けるような手法を提案した.
提案手法（The proposed event sequence generation network ）は，イベント間の時間的関係性をモデル化する.
強化学習を組み合わせて，キャプション間が一貫するのと，キャプションの質の向上をもたらすようなエピソードとイベントレベルの報酬を設計した.
ActivityNet Captions datasetでSoTA.
Dense VIdeo Captioning
イベントを認識して，キャプションを生成するタスク.

f:id:udooom:20190606194546p:plain f:id:udooom:20190606195049p:plain

Dense-Captioning Events in Videos
Ranjay Krishna, Kenji Hata, Frederic Ren, Li Fei-Fei, Juan Carlos Niebles
16 pages, 16 figures
https://arxiv.org/abs/1705.00754

Method

f:id:udooom:20190606201353p:plain

1. Overview

従来: イベント検出に続いて，キャプション生成.
イベントとキャプションの負の最尤推定を合計を最小化することで学習.
ビデオ中のイベントは時間的な依存関係より単一トピックに関するストーリーに基づく必要があるので，イベントの順序を追うことが必要. これを考慮して，イベントの連続性とそれに続くキャプション生成を高密度でやるように定式化.
ビデオが入力され，event proposal networkがイベントを提案する.
event sequence generation networkがイベント提案の候補の一つを選ぶことで一連のイベントを提案する.
proposed sequential captioning networkが選ばれた提案からキャプションを生成する.

2. Event Proposal Network(EPN)

イベント候補を選択する.
Single-Stream Temporal action proposals(SST)[Buch+ CVPR17]を使用.
入力は固定長.
各セグメントをイベント提案の終点として扱うことで，各tでGRUからk次元出力ベクトルで表されるk個のセグメントから一致する開始点を認識する.

3. Event Sequence Generation Network (ESGN)

イベント提案候補集合が与えられ，ESGNは相関の高い一連のイベントを選んでエピソードを作る.
Attentionモジュールを使うことで，RNNで入力集合上で分布を生成するようなPointerNetwork[Vinyals+ NIPS15]を使う.
PointNetは提案されたイベントの順序つきサブセットを選び，時間依存性を考慮してキャプションを生成するのに適している.

4. Sequential Captioning Network (SCN)

EpisodeRNN，EventRNN($RNN_{e}$)で成り立つ.
EpisodeRNNは，検出されたイベントを入力としエピソードの状態をモデル化する.
EventRNNは，エピソードの現在のコンテキストに基づいて条件づけられた各提案されたイベントに対して，キャプションを生成していく.

力尽きた