Synthesizing Images of Humans in Unseen Poses[Balakrishnan+ CVPR2018]

Synthesizing Images of Humans in Unseen Poses

Guha Balakrishnan, Amy Zhao, Adrian V. Dalca, Fredo Durand, John Guttag f:id:udooom:20180630204242p:plain

Abstranct

背景(Back ground)と人(Fore ground)を分離して、別々に生成してからくっつけると、綺麗にポーズを変えれた(Fig1)。

Method

f:id:udooom:20180630204419p:plain 工程を4分割(A~C)。A,C,DはUNet使ってる。

A. Source Image Segmentation

入力画像の人の画像(Fore ground)を背景(Back ground)から切り出す。この時、MaskはHead, neck, shoulders, elbows, wrists, hips, knees and anklesで別々に行う。
下図の理由から、VGG+GANを選択 f:id:udooom:20180630205337p:plain マスクをBに渡す。背景をDに渡す。

B. Spatial Transformation

空間的関節の変形をする。

C. Foreground Synthesis

MaskとConditionから画像を生成。

D. Background Synthesis

(ここあんまりわからなかったです。教えてください。) Aがガウシアンノイズを入れてから渡して来ている。 InputとMaskの積 + ガウシアンノイズと背景の積 f:id:udooom:20180630205925p:plain

最後にC,DのOutputを合成。

実際の各ステージの例 f:id:udooom:20180630210114p:plain

3.感想

  • 綺麗にポーズを変えれてるのは Fore と Back を分けて生成して合成してるからで、ここが通ったポイントですかね
  • 画像特徴量でVGG+GANを選んだ理由を図つきで説明してくれてありがたかった。他のタスクでも使えそう
  • UNetの効果がすごい
  • 推し声優の久保田未夢さんに色々なポーズを撮らせて合成したい。我ながら気持ち悪いモチベーションである。
  • 普通にエモいな〜〜結果。