MicrosoftのVASA-1は1枚の写真と1つの音声トラックで人物をディープフェイクできる

1713626228
2024-04-19 13:07:06

拡大する / Microsoft の「VASA-1: リアルタイムで生成されたリアルなオーディオ駆動の会話顔」のサンプル画像。

火曜日、マイクロソフト リサーチ アジアは、1 枚の写真と既存のオーディオ トラックから、人が話したり歌ったりする同期アニメーション ビデオを作成できる AI モデル VASA-1 を発表しました。 将来的には、ビデオフィードを必要とせずにローカルでレンダリングする仮想アバターを強化したり、同様のツールを持っている人なら誰でも、オンラインで見つけた人の写真を撮って、その人が言いたいことを何でも言っているように見せることができるようになるかもしれません。

「VASA-1: リアルタイムで生成された本物のような音声駆動の会話顔」というタイトルの付随研究論文の要約には、「人間の会話行動をエミュレートする本物のようなアバターとのリアルタイムの関わりへの道が開かれます」と書かれています。 これは Sicheng Xu、Guojun Chen、Yu-Xiao Guo、Jiaolong Yang、Chong Li、Zhenyu Zang、Yizhong Zhang、Xin Tong、Baining Guo の作品です。

VASA フレームワーク (「Visual Affective Skills Animator」の略) は、機械学習を使用して静止画像と音声クリップを分析します。 正確な顔の表情、頭の動き、音声への口パクを含むリアルなビデオを生成できます。 これは (Microsoft の他の研究と同様に) 音声を複製したりシミュレートしたりするのではなく、特定の目的のために特別に録音または発話された既存のオーディオ入力に依存します。

Microsoft は、このモデルがリアリズム、表現力、効率性の点で以前の音声アニメーション手法を大幅に上回っていると主張しています。 私たちの目には、これまでの単一画像アニメーション モデルよりも改善されているように見えます。

人物やキャラクターの 1 枚の写真をアニメーション化する AI 研究の取り組みは少なくとも数年前から行われていますが、最近では、研究者たちは生成されたビデオをオーディオ トラックに自動的に同期させることに取り組んでいます。 2月には、アリババのインテリジェントコンピューティング研究所研究グループが開発したEMO: Emote Portrait Aliveと呼ばれるAIモデルが、提供されたオーディオトラック(「Audio2Video」と呼ばれる)にアニメーション写真を自動的に同期できるVASA-1と同様のアプローチで話題を呼んだ。 。

YouTube クリップでトレーニング

Microsoft 研究者は、オックスフォード大学の 3 人の研究者によって 2018 年に作成された VoxCeleb2 データセットで VASA-1 をトレーニングしました。 VoxCeleb2 ウェブサイトによると、そのデータセットには、YouTube にアップロードされたビデオから抽出された「6,112 人の有名人の 100 万以上の発話」が含まれています。 VASA-1 は、最小の遅延で 512×512 ピクセル解像度のビデオを最大 40 フレーム/秒で生成できると報告されており、これはビデオ会議などのリアルタイム アプリケーションに使用できる可能性があることを意味します。

このモデルを披露するために、Microsoft は VASA-1 研究ページを作成し、事前に録音されたオーディオ トラックと同期して歌ったり話したりする人々など、ツールの動作を示すサンプル ビデオを多数掲載しました。 これらは、モデルを制御してさまざまな気分を表現したり、視線を変更したりする方法を示しています。 この例には、コナン・オブライエンで「パパラッチ」の歌を演奏するアン・ハサウェイのオーディオ・トラックに合わせてモナ・リザがラップするなど、より空想的な世代も含まれています。

研究者らは、プライバシー上の理由から、ページ上の各サンプル写真は(モナリザを除く)StyleGAN2 または DALL-E 3 によって AI 生成されたものであると述べています。 しかし、この手法が実際の人物の写真にも同様に適用できることは明らかですが、人物がトレーニング データセットに存在する有名人に似ている場合に効果が高まる可能性があります。 それでも、研究者らは、本物の人間をディープフェイクするのは彼らの意図したものではないと述べている。

「私たちは、仮想のインタラクティブなキャラクターのための視覚的感情スキルの生成を研究しています。 [sic]、現実世界の人物になりすますものではありません。 これは単なる研究デモンストレーションであり、製品や API のリリース計画はありません」とサイトには書かれています。

マイクロソフトの研究者らは、教育の公平性の向上、アクセシビリティの向上、治療上の仲間の提供といった前向きな応用の可能性を宣伝しているが、このテクノロジーは簡単に悪用される可能性もある。 たとえば、ビデオチャットを偽装したり、本物の人間が実際には言っていないことを言っているように見せたり(特にクローン音声トラックと組み合わせた場合)、あるいは 1 枚のソーシャルメディア写真からの嫌がらせを許可したりすることが可能になります。

現時点では、生成されたビデオはまだいくつかの点で不完全に見えますが、AI によって生成されたアニメーションを期待することを知らなかった人にとっては、かなり説得力があるかもしれません。 研究者らは、このことは承知しているため、モデルを動かすコードを公には公開しないと述べている。

「私たちは、実在の人物に関する誤解を招くコンテンツや有害なコンテンツを作成するいかなる行為にも反対しており、偽造検出を進歩させるために私たちの技術を応用することに興味を持っています」と研究者らは書いている。 「現時点では、この方法で生成されたビデオにはまだ識別可能なアーティファクトが含まれており、数値分析の結果、本物のビデオの信頼性を達成するにはまだギャップがあることが示されています。」

VASA-1 は単なる研究デモンストレーションですが、同様のテクノロジーを開発しているグループは Microsoft だけではありません。 生成 AI の最近の歴史が何らかの指針になるとすれば、同様のテクノロジーがオープンソースになり、自由に利用できるようになるのは時間の問題である可能性があり、時間の経過とともに現実的に改良され続ける可能性が非常に高いです。

#MicrosoftのVASA1は1枚の写真と1つの音声トラックで人物をディープフェイクできる

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.

Recent News

Editor's Pick