1725052650
2024-08-30 09:00:00

より強力な大規模言語モデルをトレーニングするために、研究者は何千もの Web ソースからの多様なデータをブレンドした膨大なデータセット コレクションを使用します。

しかし、これらのデータセットが複数のコレクションに結合され、再結合されるにつれて、その起源や使用方法に関する制限に関する重要な情報が、混乱の中で失われたり、混乱したりすることが多々あります。

これは法的および倫理的な懸念を引き起こすだけでなく、モデルのパフォーマンスに悪影響を与える可能性もあります。たとえば、データセットが誤って分類されている場合、特定のタスク用に機械学習モデルをトレーニングしている人が、そのタスク用に設計されていないデータを無意識のうちに使用してしまう可能性があります。

さらに、不明なソースからのデータにはバイアスが含まれており、モデルを展開したときに不公平な予測が行われる可能性があります。

データの透明性を高めるため、MIT やその他の分野の多分野にわたる研究者チームが、人気のホスティング サイトにある 1,800 以上のテキスト データセットの体系的な監査を開始しました。その結果、これらのデータセットの 70% 以上でライセンス情報が省略されており、約 50% では情報に誤りがあることが判明しました。

これらの洞察を基に、彼らは「 データ来歴エクスプローラー データセットの作成者、ソース、ライセンス、および許可される使用方法の読みやすい概要を自動的に生成します。

「こうしたツールは、規制当局や実務者がAIの導入について十分な情報に基づいた決定を下し、AIの責任ある開発を促進するのに役立ちます」と、MIT教授でMITメディアラボのヒューマンダイナミクスグループのリーダーであり、新しいオープンアクセス論文の共著者でもあるアレックス・サンディ・ペントランド氏は言う。 プロジェクトに関する論文

Data Provenance Explorer は、モデルの目的に合ったトレーニング データセットを選択できるようにすることで、AI 実践者がより効果的なモデルを構築するのに役立ちます。長期的には、ローン申請の評価や顧客からの問い合わせへの対応など、実際の状況での AI モデルの精度が向上する可能性があります。

「AIモデルの能力と限界を理解する最も良い方法の一つは、そのモデルがどのようなデータでトレーニングされたかを理解することだ。データの出所が誤っていたり混乱していたり​​すると、透明性に重大な問題が生じる」と、MITヒューマンダイナミクスグループの大学院生で、ハーバード大学ロースクールの法学博士課程の学生であり、この論文の共同筆頭著者でもあるロバート・マハリ氏は言う。

この論文には、マハリとペントランドのほか、メディアラボの大学院生で共同主執筆者のシェイン・ロンプレ、AI研究室Cohereを率いるサラ・フッカー、MIT、カリフォルニア大学アーバイン校、フランスのリール大学、コロラド大学ボルダー校、オーリン大学、カーネギーメロン大学、コンテクストAI、MLコモンズ、タイドリフトの研究者らが参加している。この研究は、 本日公開された ネイチャーマシンインテリジェンス

微調整に焦点を当てる

研究者は、質問応答などの特定のタスクに展開される大規模な言語モデルの機能を向上させるために、ファインチューニングと呼ばれる手法をよく使用します。ファインチューニングでは、この 1 つのタスクに対するモデルのパフォーマンスを向上させるように設計された厳選されたデータセットを慎重に構築します。

MIT の研究者たちは、研究者、学術機関、企業によって開発され、特定の用途向けにライセンスされていることが多いこれらの微調整データセットに焦点を当てました。

クラウドソーシング プラットフォームがそのようなデータセットを、専門家が微調整に使用できるように大規模なコレクションに集約すると、元のライセンス情報の一部が残されることがよくあります。

「こうしたライセンスは重要であり、強制力を持つべきだ」とマハリ氏は言う。

たとえば、データセットのライセンス条件が間違っていたり欠落していたり​​すると、誰かがモデルの開発に多大な費用と時間を費やしても、トレーニング データの一部に個人情報が含まれていたために、後でモデルを削除せざるを得なくなる可能性があります。

「最終的にはデータから生じるモデルの機能、懸念事項、リスクを理解しないまま、モデルをトレーニングしてしまう可能性があります」とロンプレ氏は付け加えます。

この研究を始めるにあたり、研究者らはデータの来歴を、データセットの調達、作成、ライセンスの履歴とその特性の組み合わせとして正式に定義しました。そこから、研究者らは、人気のあるオンライン リポジトリからの 1,800 を超えるテキスト データセット コレクションのデータ来歴を追跡するための構造化された監査手順を開発しました。

これらのデータセットの 70% 以上が、多くの情報を省略した「未指定」のライセンスを含んでいることがわかったため、研究者らは空白を埋めるために逆方向に作業を進めました。その努力により、「未指定」のライセンスを持つデータセットの数を約 30% にまで削減しました。

彼らの研究により、正しいライセンスはリポジトリによって割り当てられたライセンスよりも制限が厳しい場合が多いことも明らかになりました。

さらに、データセットの作成者のほぼ全員が北半球に集中していることも判明した。そのため、別の地域での展開のためにモデルをトレーニングした場合、モデルの機能が制限される可能性がある。たとえば、主に米国と中国の人々によって作成されたトルコ語のデータセットには、文化的に重要な側面がまったく含まれていない可能性があるとマハリ氏は説明する。

「私たちは、データセットが実際よりも多様であると思い込んでいるようだ」と彼は言う。

興味深いことに、研究者らは、2023年と2024年に作成されたデータセットに課せられた制限が劇的に増加したことも確認しており、これはデータセットが意図しない商業目的で使用される可能性があるという学者の懸念によって引き起こされた可能性がある。

ユーザーフレンドリーなツール

他の人が手動監査を必要とせずにこの情報を入手できるようにするために、研究者はデータ来歴エクスプローラーを構築しました。このツールでは、特定の基準に基づいてデータセットを並べ替えたりフィルタリングしたりできるだけでなく、データセットの特性の簡潔で構造化された概要を提供するデータ来歴カードをダウンロードすることもできます。

「これが、現状を理解するだけでなく、今後人々がトレーニングに使用するデータについてより情報に基づいた選択を行えるようになるための一歩となることを願っています」とマハリ氏は言う。

研究者らは今後、分析を拡大し、動画や音声を含むマルチモーダルデータのデータ来歴を調査したいと考えている。また、データソースとなるウェブサイトの利用規約がデータセットにどのように反映されるかについても研究したいと考えている。

彼らは研究を拡大するとともに、規制当局とも連絡を取り、研究結果や、データを微調整することによる著作権上の特有の影響について話し合っている。

「人々がデータセットを作成して公開する当初から、データの来歴と透明性を確保しておかなければなりません。そうすることで、他の人がこうした洞察をより簡単に得られるようになるのです」とロンプレ氏は言う。

「提案されている政策介入の多くは、データに関連するライセンスを正しく割り当て、識別できると想定していますが、この研究はまずそうではないことを示し、次に利用可能な来歴情報を大幅に改善します」と、この研究には関与していない EleutherAI のエグゼクティブ ディレクター、ステラ ビダーマンは述べています。「さらに、セクション 3 には関連する法的議論が含まれています。これは、専任の法務チームを持つほどの規模の企業以外の機械学習の実践者にとって非常に価値があります。公共の利益のために AI システムを構築したい多くの人々は、現在、データ ライセンスの取り扱い方をひそかに模索しています。インターネットは、データの来歴を簡単に把握できるように設計されていないためです。」

#研究大規模言語モデルのトレーニングに使用されるデータセットには透明性が欠けていることが多い #MIT #ニュース

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.