世界

マルタ・コスタ・ジュサ、研究者:「言語には AI では捉えられない微妙なニュアンスがたくさんある」 | テクノロジー

8月 26, 2024 / nipponese

1724693254
2024-08-26 03:30:00

メタ 2022年に革新的な自動翻訳機を発表 200の言語を処理できます。翻訳はリアルタイムで行われ、平均をはるかに上回る効率性があります。「プログラムの規模をご理解いただくために、200言語モデルは500億以上のパラメータを分析します。私たちは、 スーパーコンピュータの1つである研究スーパークラスタ 同社のCEO兼創業者のマーク・ザッカーバーグ氏は発表時に「世界最速」と語った。

この先駆的な開発の背後には、人工知能(AI)分野で世界で最も強力な研究所の1つであるFAIRチーム(Facebook Artificial Intelligence Research)の研究者、マルタ・R・コスタ・ジュサ(サバデル出身、42歳)がいる。コスタ・ジュサは、NLLB-200(NLLBの頭文字をとったもの)と呼ばれるこのモデルを開発した30人の科学者の1人であり、その中には彼女のようなエンジニアだけでなく、言語学者、データサイエンティスト、社会学者、倫理学の専門家もいる。 取り残される言語はない英語では、取り残される言語はありません。カタルーニャ人は、同僚と最近署名した記事のコーディネーターの一人です。 雑誌の中で 自然 ツールの詳細を説明しています。

コスタ・ジュサは2022年からFAIRで働いています。カタルーニャ工科大学(UPC)の電気通信エンジニアである彼女は、同センターで博士号を取得し、その後パリ、サンパウロ、メキシコシティ、シンガポール、エジンバラで博士研究員として滞在しました。常に機械翻訳という彼女のテーマに取り組んでいました。バルセロナに落ち着き、ようやくUPCで常勤の職を得たとき、彼女はMetaからメールを受け取りました。彼らは彼女をNLLB-200プロジェクトに望んでいました。「ずっと行きたかった場所にたどり着いたときに思いつきましたが、面接を終えた後、ためらうことはありませんでした。チームは素晴らしく、プロジェクトはとても興味深いものでした」と彼女はそれ以来住んでいるパリからのビデオ通話で説明しています。研究に加えて、コスタ・ジュサは3人の子供たちに物語を語るのが好きで、それが昨年出版につながりました。 ヤングアダルト小説 その中で彼は AI に関する冒険と普及を織り交ぜています。

聞く。 他の翻訳者と比べて、あなたの翻訳者の特別な点は何ですか?

答え。 私たちは、200 の言語で機能する初のリアルタイム翻訳システムを開発しました。このシステムの優れた点は、通常の場合のように英語を経由することなく、200 の言語の任意のペア間で翻訳できることです。また、翻訳の品質は今日得られる最高のものです。2 年経った今でも、私たちのシステムは多くの科学論文で参考資料として使用されています。

P. 彼らはどうやってそれをやったのですか?

R. 簡単に言うと、このシステムは対訳を処理することで機能します。説明しましょう。文章レベルで整列した、多くの言語ペアの文書があります。たとえば、カタロニア語の文章と、それに対応する英語または中国語の翻訳があります。このようなテキストが多数ある場合は、ディープラーニング ニューラル モデルに挿入して、アルゴリズムがパターンを抽出します。そこから、システムは一般化を学習します。その後、驚くべきプロセスが発生します。大量のデータを見た後に一種の知識が生まれ、たとえばカタロニア語からヨルバ語への直接翻訳が可能になります。この 2 つの特定の言語に対訳テキストがないため、システムがその翻訳を学習できなかった場合でもです。これが可能なのは、ツールがテキストのペア間で一般化を学習し、例がない他のケースにそれを外挿するためです。

P. これはどうやって行うのですか?

R. 大量のデータ、大量の計算能力、そしてこれらすべてを組み合わせることができる数学的アルゴリズムが必要です。基本的に、入力文があり、そこから数学的表現を作成します。文を数学的ベクトルに変換し、それらの数学的ベクトルを出力文に変換します。すべてが高度に多次元化された空間を通過します。当然、大量の計算能力が必要です。システムが一般化できるようにするには、何百万もの並列文が必要になるからです。私たちの最初の貢献は、これらすべての例を処理できるツールを開発することでした。

P. 彼に言わせれば、何百万もの並列文が必要だ。しかし、スワヒリ語やデジタル化が進んでいない他の言語のように、そのような大規模なコーパスがない場合はどうなるのだろうか?

R. 私たちはインターネットを徹底的に調べ、 並列化する テキストの抽出、つまりインターネット上のオープンデータの中から他のテキストの翻訳であるテキストを探すことです。このデータ抽出段階は自動です。それとは別に、おっしゃるとおり、コーパスがない言語ペアがあり、それを自分たちで開発する必要がありました。つまり、特定の言語の特定のフレーズを翻訳するために翻訳者にお金を払ったのです。

P. 言語コーパスはどこから入手したのですか? オープンソースのみを使用しましたか?

R. FAIR の好きなところの 1 つは、私たちの研究がオープンで、情報源を見ることができることです。記事やリポジトリで指定されています: 欧州議会、国連… これらは、翻訳コミュニティが長い間使用してきた利用可能な情報源です。Wikipedia には対訳テキストがありますが、私たちは対訳文を使用しています。全体として、私たちはそこから多くのことを学びました。

P. 次のステップは何ですか?

R. これからは、テキストからテキストへの翻訳に取り組みたいと思っています。昨年導入した音声から音声への翻訳にもすでに取り組んでいます。翻訳するだけでなく、声のトーンや表現力も維持します。現時点では、100 の入力言語と約 30 の出力言語をカバーしています。

P. 彼らはどこまで行けるのでしょうか?言語の壁を乗り越えられるでしょうか?

R. これらのシステムは、多くの状況で非常に役立ちます。たとえば、中国で道に迷ったとき、英語を話す人が誰もいないときなどです。しかし、私たちが提供するのは翻訳であり、通訳ではありません。通訳の魔法は、あなたのメッセージを受け取り、要約し、完全に流暢に別の言語に翻訳することです。私たちはまだ通訳には程遠いです。言語には、現時点ではカバーできない微妙なニュアンスや感情がたくさんあります。

P. ここ数か月、コンピューター ビジョンを通じて環境内のオブジェクトを認識できるマルチモーダル生成 AI ツールが発表されました。これは機械翻訳にどのような展望をもたらすのでしょうか?

R. はい、私たちは完全にマルチモーダルなシステムに向けてその方向に進んでいます。 [que procesan, texto, imagen, vídeo y audio]ラマ3にはそれがある [el último modelo de IA generativa de Meta]世界、文化、特定の語彙、文脈に関する知識…これらは通訳者が持っているもので、機械にはないものです。私たちの翻訳は、挿入したテキストや音声に限定されます。

P. さらに言語を追加する予定はありますか?

R. 私たちは、モデルに新しい言語を挿入するためのガイドラインを公開しました。これはオープンなものです。私たち自身でそれをする必要はなく、科学コミュニティが行うことができます。私たちは、誰でもそれを行えるようにしています。

フォローできます 国 テクノロジー フェイスブック ええ バツ またはこちらからサインアップして ニュースレター セマナル


#マルタコスタジュサ研究者言語には #では捉えられない微妙なニュアンスがたくさんある #テクノロジー