ロボット用の新しい AI アルゴリズムは常に最先端のシステムを上回るパフォーマンスを発揮します

1714641608
2024-05-02 09:00:23

この記事は Science X に従ってレビューされています。編集プロセス
そしてポリシー。
編集者は、コンテンツの信頼性を確保しながら、次の属性を強調しました。

事実確認済み

査読済みの出版物

信頼できる情報源

校正する

わかりました！現在の研究ではシミュレートされたロボット上でのみ AI アルゴリズムをテストしましたが、研究者らは将来の現実世界でのアルゴリズムのテストのために NoodleBot を開発しました。クレジット: ノースウェスタン大学

×閉じる

現在の研究ではシミュレートされたロボット上でのみ AI アルゴリズムをテストしましたが、研究者らは将来の現実世界でのアルゴリズムのテストのために NoodleBot を開発しました。クレジット: ノースウェスタン大学

ノースウェスタン大学のエンジニアは、スマートロボティクス向けに特別に設計された新しい人工知能 (AI) アルゴリズムを開発しました。この新しい方法は、ロボットが複雑なスキルを迅速かつ確実に学習できるようにすることで、自動運転車、配送ドローン、家事アシスタント、オートメーションなど、さまざまな用途におけるロボットの実用性と安全性を大幅に向上させる可能性があります。

最大拡散強化学習 (MaxDiff RL) と呼ばれる、アルゴリズムの成功は、多様な経験を得るためにロボットができるだけランダムに環境を探索することを促す能力にあります。

この「設計されたランダム性」により、ロボットが周囲の環境に関して収集するデータの品質が向上します。また、より高品質のデータを使用することで、シミュレートされたロボットはより高速かつ効率的な学習を示し、全体的な信頼性とパフォーマンスが向上しました。

他の AI プラットフォームに対してテストしたところ、ノースウェスタンの新しいアルゴリズムを使用してシミュレートされたロボットは常に最先端のモデルを上回りました。実際、新しいアルゴリズムは非常にうまく機能するため、ロボットは新しいタスクを学習し、1 回の試行内でそれらのタスクを正常に実行し、最初から正しく実行することができました。これは、試行錯誤による遅い学習を可能にする現在の AI モデルとは明らかに対照的です。

「最大拡散強化学習」と題されたこの研究は、雑誌「Nature Machine Intelligence」に掲載される。

「他の AI フレームワークは信頼性がやや低い場合があります」と、研究を主導したノースウェスタン社のトーマス・ベルエタ氏は述べた。「時にはタスクを完璧にやり遂げることもありますが、完全に失敗することもあります。私たちのフレームワークを使用すると、ロボットがタスクを解決できる限り、ロボットの電源を入れるたびに、ロボットの実行が期待できます。これにより、解釈が容易になります。ロボット成功と失敗、これは AI への依存がますます高まる世界では非常に重要です。」

クレジット: ノースウェスタン大学

ベルエタはノースウェスタン大学の社長フェローであり、博士号を取得しています。マコーミック工学大学院の機械工学の候補者。ロボット工学の専門家であるトッド・マーフィー教授は、機械工学マコーミック社とベルエタ社の顧問であり、この論文の上級著者である。ベルエタ氏とマーフィー氏は、同じく博士号を持つアリソン・ピノスキー氏とこの論文を共同執筆した。マーフィー研究室の候補者。

実体のない切断

機械学習アルゴリズムをトレーニングするために、研究者や開発者は人間が慎重にフィルタリングして厳選した大量のビッグデータを使用します。 AI はこのトレーニングデータから学習し、最適な結果が得られるまで試行錯誤を繰り返します。

このプロセスは、ChatGPT や Google Gemini (旧名 Bard) などの肉体を持たないシステムではうまく機能しますが、ロボットのような肉体を持った AI システムでは機能しません。その代わり、ロボットは、人間の管理者の贅沢を必要とせずに、自らデータを収集します。

「従来のアルゴリズムは、2つの異なる点でロボット工学と互換性がありません」とマーフィー氏は述べた。

「第一に、実体を持たないシステムは、物理法則が適用されない世界を利用できます。第二に、個々の失敗は何の影響も及ぼしません。コンピューターサイエンスの応用にとって重要なのは、ほとんどの場合成功するということだけです。ロボット工学では、1 回の失敗は問題ではありません」壊滅的な事態になる可能性があります。」

この断絶を解決するために、Berrueta、Murphey、Pinosky は、ロボットが移動中でも高品質のデータを収集できるようにする新しいアルゴリズムを開発することを目指しました。

MaxDiff RL の核心は、環境に関する徹底的で多様なデータを収集するために、よりランダムに動作するようにロボットに命令します。ロボットは、自己キュレーションされたランダムな経験を通じて学習することで、有用なタスクを達成するために必要なスキルを獲得します。

初めてでも正しく理解する

新しいアルゴリズムをテストするために、研究者らはそれを現在の最先端のモデルと比較しました。使用するコンピュータシミュレーション、研究者らはシミュレートされたロボットに一連の標準的なタスクを実行するよう依頼しました。全体として、MaxDiff RL を使用したロボットは他のモデルよりも速く学習しました。また、彼らは他の人よりもはるかに一貫性と信頼性でタスクを正しく実行しました。

おそらくさらに印象的なのは、MaxDiff RL メソッドを使用するロボットは、多くの場合、1 回の試行でタスクを正しく実行することに成功するということです。それは、何も知識のない状態から始めた場合でも同様です。

「私たちのロボットはより速く、より機敏でした。学習したことを効果的に一般化し、それを新しい状況に適用することができました」とベルエタ氏は語った。「ロボットが試行錯誤に無限の時間を費やすことができない現実世界のアプリケーションにとって、これは大きな利点です。」

MaxDiff RL は汎用アルゴリズムであるため、さまざまなアプリケーションに使用できます。研究者らは、これがこの分野を妨げている根本的な問題に対処し、最終的にはスマートロボティクスにおける信頼性の高い意思決定への道を開くことを期待している。

「これは、動き回るロボット車両だけに使用する必要はありません」とピノスキー氏は言う。「また、食器洗い機への投入方法を学習するキッチンのロボットアームなど、固定ロボットにも使用できる可能性があります。タスクや物理的環境がより複雑になるにつれて、具体化の役割を考慮することがさらに重要になります」学習過程。これは、より複雑で興味深いタスクを実行する実際のシステムに向けた重要な一歩です。」

詳しくは：
最大拡散強化学習、Nature Machine Intelligence (2024)。 DOI: 10.1038/s42256-024-00829-3

雑誌情報:
ネイチャーマシンインテリジェンス

#ロボット用の新しい #アルゴリズムは常に最先端のシステムを上回るパフォーマンスを発揮します