ロボットの物体操作のためのオープンソースのジェネラリストモデル

1718029140
2024-06-10 13:50:39

これらは Octo をテストしたロボットです。小型から大型、片腕から両手まで、さまざまなロボットアームがあることがわかります。Octo はこれらすべてのロボットを制御できました。クレジット: チーム他

ChatGPT やその他の大規模言語モデル (LLM) の公開により、世界中の開発者がこれらのモデルを試して、独自のシステムのインタラクティブ機能を強化することができるようになりました。ただし、ロボット操作用の同様の一般化可能なモデルは、まだほとんどありません。

カリフォルニア大学バークレー校（UCバークレー）、スタンフォード大学、CMUの研究者らは最近、ロボット操作のためのオープンソースの汎用モデルであるOctoを発表しました。これにより、さまざまなロボットシステムがさまざまな物体を効果的に操作できるようになります。紙 arXivサーバーで事前公開されたこの研究は、手作業のタスクをこなせるロボットの開発に新たな道を開く可能性がある。

「現在のAIの進歩の多くは、大規模なデータセットディビア・ゴーシュ、ホーマー・ウォーク、カール・ペルチ、ケビン・ブラック、オイエル・ミースはテックエクスプロアにこう語った。「ロボット工学コミュニティでは、最近、オープンX-Embodimentデータセット、多くのデータを集めた大規模な操作データセット研究機関この新しいデータセットは本当にエキサイティングなリソースですが、当時はそれを活用できるモデルはまだ多くありませんでした。」

この研究チームの最近の研究には、2 つの主な目的がありました。1 つ目は、さまざまなロボットに適用できる優れた汎用ロボットモデルを開発すること、2 つ目は、将来他の研究者が同様のモデルを構築できるようにするオープンソースコードを作成することです。

「オクトはいわゆる『ジェネラリスト』ですロボットモデル、ニューラルネットワーク「この技術は、さまざまな種類のロボットを制御して、『スプーンを拾う』、『引き出しを閉める』、『テーブルを拭く』などの要求を実行させることができる」とゴーシュ氏、ウォーク氏、ペルチ氏、ブラック氏、ミース氏は説明した。

「ジェネラリストとして多くのロボットに取り組むことが重要です。世界中の研究室を見てみると、多くの研究室がさまざまなロボットを使用しているため、Octo を多くの研究者が使用できるようにする唯一の方法は、幅広いロボットをサポートすることです。」

テクノロジーの研究開発コミュニティでは、複数のシステムに適用できる高性能な計算ツールは、しばしば基礎モデルと呼ばれます。これらのモデルの例として、さまざまなエージェントやシステムに自然言語処理 (NLP) 機能を装備するために使用できる ChatGPT があります。

「我々は、ロボット制御用の同様の基礎モデル、言い換えれば、多数のロボットを制御し、多数の異なるタスクを解決できるモデルを構築したい」とゴーシュ氏、ウォーク氏、ペルチ氏、ブラック氏、ミース氏は述べた。

「Octo はその目標に向けた第一歩です。そのトレーニングは ChatGPT のようなモデルと非常によく似ています。私たちは大規模で多様なデータセット (この場合はテキストではなくロボットデータ) をキュレートし、現在のロボットの状態とタスクの指示に基づいてロボットが次に実行すべきアクションを予測する大規模なモデルをトレーニングします。」

Ghosh、Walke、Pertsch、Black、Mees によって開発されたモデル Octo は、ChatGPT と同じタイプのニューラルネットワーク (トランスフォーマー) に基づいています。Octo がこれまでに開発された他のロボットモデルよりも優れている点は、トレーニングに使用されるデータの規模と柔軟性です。

このモデルは、これまでに収集されたロボット操作軌跡の最大のデータセットである Open X-Embodiment データセットでトレーニングされました。Octo は、さまざまな種類の画像、ロボットの関節の読み取り、言語の指示、目標に関連する画像など、さまざまな感覚入力を処理することもできます。

「オクトは、ソーダ缶をかろうじて持ち上げられる程度の小型のシングルアームから、より大型で強力なロボットアーム、さらには両手で操作するセットアップまで、さまざまなタイプのロボットアームを制御できます」とゴーシュ、ウォーク、ペルチ、ブラック、ミーズは述べた。「この柔軟性により、オクトは世界中のロボット工学者が実際に使用しているさまざまなセットアップにさらに適用可能になります。」

研究者らは一連の初期実験でモデルを評価し、カリフォルニア大学バークレー校、スタンフォード大学、CMU で開発された 9 つの異なるロボットシステムにそれを導入しました。Octo はこれらのロボットの制御に成功し、トレーニング中にこれらのロボットのセンサーによって収集されたデータや独自の設計に遭遇しなかった場合でも、さまざまな操作タスクを完了することができました。

「私たちのオクトモデルを使って、さまざまなロボットを制御できることがわかって本当によかったです」と研究者たちは語った。「モデルをリリースした多くの人が自分のロボットでこれを実行しようとしており、私たちは次のプロジェクトでも Octo 用に構築したコードベースを使用しています。これらは、Octo がロボット工学の次世代の改良された基礎モデルを促進するのに役立つという心強い兆候です。」

研究者にとって、Octo の開発は、ロボット操作の汎用モデルを構築するという目標に向けた単なる小さなマイルストーンに過ぎませんでした。次の研究では、彼らはこの目標に向けて引き続き取り組む予定であり、他の研究所の研究グループも彼らのコードを使って実験を始めることを期待しています。

モデルリリース前の深夜にロボット実験を行っていたときの Octo モデルチームのメンバー (左から右へ: Oier Mees、Dibya Ghosh、Homer Walke、Karl Pertsch、Lawrence Chen)。Octo は、バークレー、スタンフォード、CMU の複数の研究室による大規模なチームワークでした。ロボット工学の基礎モデルの作成は難しく、さまざまなタイプのロボットでモデルを評価するのに膨大な時間を費やすため、多くの協力者が必要です。クレジット: チーム他

「現時点では、モデルをそのままロボットに組み込むことはおそらくできず、たとえそれが新しいキッチンでコーラの缶を拾うといった日常的な作業であっても、ロボットに解決させたい作業の例をいくつか集めてオクトに教える必要がある」と研究者らは付け加えた。

「つまり、現在のモデルの一般化能力はまだかなり限られているため、私たちはこれをさらに押し進める新しいモデルに取り組んでいます。モデルをロボットにダウンロードして、ロボットに何をしてほしいかを伝えれば、10回中9回は成功するという段階にはまだ達していませんが、私たちはこの目標に向けて取り組んでいます。」

詳しくは：
Dibya Ghosh 他、Octo: An Open-Source Generalist Robot Policy、arXiv (2024)。 DOI: 10.48550/arxiv.2405.12213

ジャーナル情報:
arXiv

引用: ロボットオブジェクト操作のためのオープンソースジェネラリストモデル (2024 年 6 月 10 日) 2024 年 6 月 10 日に https://techxplore.com/news/2024-06-source-generalist-robot.html から取得

この文書は著作権の対象です。個人的な学習や研究を目的とした公正な取り扱いを除き、書面による許可なしに複製することはできません。コンテンツは情報提供のみを目的として提供されています。

#ロボットの物体操作のためのオープンソースのジェネラリストモデル

共有:

Related