AIはすでに人間を騙す方法を見つけている

1715453992
2024-05-11 18:46:25

AI は、膨大な量のデータのコーディング、書き込み、合成を支援することで生産性を向上させます。 それは私たちを欺くこともできるようになりました。

新しい研究論文によると、さまざまなAIシステムが「真実以外の結果を達成するために他者に対する誤った信念」を組織的に誘導する技術を学習しているという。

この論文では、2 種類の AI システムに焦点を当てています。1 つは特定のタスクを完了するように設計された Meta の CICERO などの特殊用途システム、もう 1 つは OpenAI の GPT-4 など、さまざまなタスクを実行するように訓練された汎用システムです。

これらのシステムは正直になるように訓練されていますが、王道を行くよりも効果的であるため、訓練を通じて欺瞞的なトリックを学ぶことがよくあります。

「一般的に言えば、AIの欺瞞は、与えられたAIのトレーニングタスクでうまく機能するためには欺瞞ベースの戦略が最善の方法であることが判明したために、AIの欺瞞が生じると考えられます。欺瞞はAIの目標達成に役立ちます。」と論文の筆頭著者であるピーター・S・パーク氏は述べています。 MITのAI実存安全性博士研究員はニュースリリースでこう述べた。

メタのシセロは「嘘つきの達人」

「ソーシャル要素のあるゲームに勝つ」ように訓練された AI システムは、特に騙される可能性が高くなります。

たとえば、Meta の CICERO は、プレイヤーが同盟を構築したり破棄したりする古典的な戦略ゲームである Diplomacy ゲームをプレイするために開発されました。

メタ氏は、CICEROが「おおむね正直で話し相手に役立つ」よう訓練したと述べたが、研究ではCICEROが「熟練した嘘つきであることが判明した」と述べた。 守るつもりのなかった約束をし、同盟国を裏切り、あからさまな嘘をつきました。

GPT-4 は視覚障害があると確信させることができます

GPT-4 のような汎用システムでも人間を操作できます。

論文で引用されている研究では、GPT-4は視覚障害があるふりをしてTaskRabbitの従業員を操作した。

この研究では、GPT-4 は CAPTCHA テストを解くために人間を雇うという任務を負っていました。 モデルは行き詰まるたびに人間の評価者からヒントを受け取りましたが、嘘をつくよう促されることはありませんでした。 雇用を命じられた人間が自分の正体に疑問を抱いたとき、GPT-4はなぜ助けが必要なのかを説明するために視覚障害があるという言い訳を思いついた。

戦術はうまくいきました。 人間はすぐにテストを解くことで GPT-4 に反応しました。

研究では、欺瞞的なモデルの軌道修正が容易ではないことも示されています。

Claude のメーカーである Anthropic が共著した 1 月の研究では、研究者らは、AI モデルが欺瞞のトリックを学習すると、安全トレーニング技術でそれを覆すのは困難であることを発見しました。

彼らは、モデルが欺瞞的な行動を示すことを学習できるだけでなく、いったんそうなると、標準的な安全訓練技術では「そのような欺瞞を取り除くことができず」、「安全であるという誤った印象を生み出す」可能性があると結論付けた。

欺瞞的な AI モデルがもたらす危険は「ますます深刻になっている」

この論文では、欺瞞的なAIシステムは民主主義に重大なリスクをもたらす可能性があるため、政策立案者に対しAI規制の強化を主張するよう求めている。

2024年の大統領選挙が近づくにつれ、AIは簡単に操作されてフェイクニュースを広めたり、意見を対立させるソーシャルメディア投稿を生成したり、ロボコールやディープフェイクビデオを通じて候補者になりすますことができると同紙は指摘した。 また、テロ集団がプロパガンダを広めたり、新たなメンバーを勧誘したりすることも容易になる。

同論文の考えられる解決策には、欺瞞的なモデルをより「堅牢なリスク評価要件」に従うこと、AIシステムとその出力を人間とその出力から明確に区別することを義務付ける法律の施行、欺瞞を軽減するツールへの投資などが含まれる。

「私たち社会は、将来の AI 製品やオープンソース モデルのより高度な欺瞞に備えるために、できる限り多くの時間を必要としています」と Park 氏は Cell Press に語った。 「AI システムの欺瞞能力がより高度になるにつれて、AI システムが社会にもたらす危険はますます深刻になるでしょう。」

#AIはすでに人間を騙す方法を見つけている

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.

Recent News

Editor's Pick