まるで実写！ AI動画の新技術「アニメート・エニワン」の別次元の躍動感に衝撃

Animate Anyoneによる生成動画。実写もイラストも躍動感たっぷりに動く。

1枚の人物絵や写真から、ポーズを変えて自由にアニメーションできる生成AI「Animate Anyone（アニメート・エニワン）」が発表された。Alibaba傘下のインテリジェント・コンピューティング研究所が開発したもので、人物写真やキャラクターの静止画があれば、ダンスなど任意の動きをつけて動画を生成することができる。

背景などに一部破綻はあるものの、ちらつきが大きかった既存の類似技術に対し、非常に自然でなめらかな動きになっているとして注目を集めている。

どんな人物画でも動かせる

研究チームはAnimate Anyoneの特長として、「人物の画像であればどんなものでも動かせる」「好きな長さの映像を生成できる」「動作に一貫性があり動きがスムーズである」の3点を挙げている。

画像生成の分野で優れた実績を誇る「拡散モデル」を基軸としつつ、より破綻のないキャラクターアニメーションを実現するため、空間的な特徴を高精度で分析する「ReferenceNet」と呼ばれるしくみを新たに開発した。

これらを組み合わせ、なめらかな動画を生成することが可能になったという。人物写真やアニメ絵の静止画をベースに、動きを指定するポーズデータを組み合わせることで、好みの動きを割り当てることができる。

毛先の動きまでなめらかに

元素材が写真であれば、実際の人物が踊っているかのようなリアルな映像となる。あるいは元素材がイラストであれば、アニメの一部分のような動きとなる。いずれも、髪の毛先が跳ねる動きにも対応しており、違和感が非常に少ないのが特長だ。

これまでにも類似の技術として、DreamPoseおよびBDMMと呼ばれる手法などが存在した。研究チームはこれらによる生成結果と、Animate Anyoneとを比較している。サンプルとして女性がダンスを踊る動画が示されているが、従来の技術よりも破綻が非常に少ない様子がはっきりとわかる。

既存技術では、腕を組んだりターンをしたりなど、身体のパーツが重なる瞬間に弱かった。サンプル動画でも、腕の位置を正しく推測できずにちらつきが起きたり、服の模様が乱れたりといった不整合を確認できる。一方のAnimate Anyoneは、このような不整合がほぼ見られない。

不整合はあるがほぼ目立たず

デモではまた、より激しいダンスを踊る様子も披露されている。素早い動きになった場合も、Animate Anyoneでは破綻が非常に少ないようだ。一見して、明らかに自動生成されたといえる点は見当たらない。

もっとも、よく観察するとわずかに不具合はある。たとえば人物が急に動いた瞬間、背景の推測結果が不自然になり、描画が乱れることがある。同じく背景に注目すると、暗いシーンではその明度がやや不安定なことに気付く。

とはいえ、人間の目は人物や動くものに注意が向きやすい性質がある。主な被写体をスムーズに生成できるAnimate Anyoneは、既存技術と比較して相当自然な印象だ。デモでは既存技術のDisCoとも比較しているが、DisCoでは人物が激しく動くと人物・背景ともに乱れているのに対し、Animate Anyoneは相当に安定した動画を生成している。

高品質ゆえに悪用の心配も

完成度の高さから、懸念も出ているようだ。現段階ではまだ、背景など細部に目を向けることで、生成AIによる動画だと判別することが可能だ。だが、今後技術がさらに進化したり、あるいはスマホなどの比較的小さな画面で再生する場合、フェイク動画と気付かずに受け入れたり、シェアしてしまったりする場面が出てくるかもしれない。

米テックメディアのテッククランチは、「Animate Anyoneがフルモーション・ディープフェイクの到来を告げる」との記事を掲載。「悪意の人物が、これまで以上にうまく人を操ることができる」と注意を促している。ソーシャルメディアに何気なくアップロードした自撮りが改変され、悪意ある動画を拡散される危険性もゼロではない。

このように新技術に懸念はつきものだが、インターネット上の反応を見るかぎり、おおむね技術への純粋な期待が大きいようだ。個人や少人数のチームで映画やアニメーション作品を制作するような取り組みも、今後より手軽かつ高品質に行えるかもしれない。