Synthesizing Images of Humans in Unseen Poses[Balakrishnan+ CVPR2018]
Synthesizing Images of Humans in Unseen Poses
Guha Balakrishnan, Amy Zhao, Adrian V. Dalca, Fredo Durand, John Guttag
Abstranct
背景(Back ground)と人(Fore ground)を分離して、別々に生成してからくっつけると、綺麗にポーズを変えれた(Fig1)。
Method
工程を4分割(A~C)。A,C,DはUNet使ってる。
A. Source Image Segmentation
入力画像の人の画像(Fore ground)を背景(Back ground)から切り出す。この時、MaskはHead, neck, shoulders, elbows, wrists, hips, knees and anklesで別々に行う。
下図の理由から、VGG+GANを選択
マスクをBに渡す。背景をDに渡す。
B. Spatial Transformation
空間的関節の変形をする。
C. Foreground Synthesis
MaskとConditionから画像を生成。
D. Background Synthesis
(ここあんまりわからなかったです。教えてください。) Aがガウシアンノイズを入れてから渡して来ている。 InputとMaskの積 + ガウシアンノイズと背景の積
最後にC,DのOutputを合成。
実際の各ステージの例
3.感想
- 綺麗にポーズを変えれてるのは Fore と Back を分けて生成して合成してるからで、ここが通ったポイントですかね
- 画像特徴量でVGG+GANを選んだ理由を図つきで説明してくれてありがたかった。他のタスクでも使えそう
- UNetの効果がすごい
- 推し声優の久保田未夢さんに色々なポーズを撮らせて合成したい。我ながら気持ち悪いモチベーションである。
- 普通にエモいな〜〜結果。