Microsoft の AI ツールは、写真を人々が話したり歌ったりするリアルなビデオに変換できます

1713603168
2024-04-20 07:00:52

Microsoft Research Asia は、VASA-1 と呼ばれる新しい実験的な AI ツールを発表しました。このツールは、人物の静止画像 (または人物の絵) と既存の音声ファイルを撮影して、そこから本物のような話し顔をリアルタイムで作成できます。 既存の静止画から顔の表情や頭の動きを生成したり、スピーチや歌に合わせて適切な唇の動きを生成したりする機能があります。 研究者らはプロジェクトページに大量の例をアップロードしたが、その結果は人々を騙して本物だと思わせるほど良好に見える。

サンプルの唇と頭の動きは、よく見るとまだ少しロボット的で同期が取れていないように見えるかもしれませんが、この技術が悪用されて、本物の人物のディープフェイク動画を簡単かつ迅速に作成できる可能性があることは明らかです。 研究者自身もその可能性を認識しており、彼らのテクノロジーが「責任を持って適切な規則に従って使用される」と確信するまでは「オンラインデモ、API、製品、追加実装の詳細、または関連する製品」をリリースしないことを決定しました。規則。” ただし、ディープフェイクポルノや誤った情報キャンペーンの作成など、悪意のある人物による不正な目的での使用を防ぐための特定の保護措置を導入する予定があるかどうかについては明らかにしなかった。

研究者らは、悪用される可能性があるにもかかわらず、彼らのテクノロジーには多くの利点があると信じています。 彼らは、これを教育の公平性を高めるために使用できるだけでなく、コミュニケーションに困難を抱える人々のアクセシビリティを改善するためにも使用できると述べ、おそらく彼らに代わってコミュニケーションできるアバターへのアクセスを提供することによって可能だと述べた。 また、それが必要な人々に付き添いや治療的サポートも提供できると彼らは述べ、人々が会話できるAIキャラクターへのアクセスを提供するプログラムでVASA-1が使用できる可能性をほのめかしている。

発表とともに公開された論文によると、VASA-1はVoxCeleb2データセットでトレーニングされたが、このデータセットにはYouTubeビデオから抽出された「6,112人の有名人の100万以上の発話」が含まれている。 このツールは実際の顔に対してトレーニングされたものですが、モナ・リザのような芸術的な写真にも機能します。研究者たちは面白いことに、アン・ハサウェイがリル・ウェインの曲をバイラルに再現した音声ファイルと組み合わせました。 パパラッチ。 とても楽しいので、たとえこのようなテクノロジーで何ができるのか疑問に思っていたとしても、一見の価値はあります。

この記事にはアフィリエイト リンクが含まれています。 このようなリンクをクリックして購入すると、手数料が発生する場合があります。

#Microsoft #の #ツールは写真を人々が話したり歌ったりするリアルなビデオに変換できます

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.

Recent News

Editor's Pick