1721043223
2024-07-12 13:13:34
モビリティ VLA アーキテクチャ。マルチモーダル ユーザー インストラクションと環境のデモンストレーション ツアー ビデオは、ロング コンテキスト VLM (高レベル ポリシー) によってビデオ内のゴール フレームを識別するために使用されます。次に、低レベル ポリシーはゴール フレームとオフラインで生成されたトポロジカル マップ (Structure-from-Motion を使用したツアー ビデオから) を使用して、各タイムステップでロボットの動作を計算します。クレジット: arXiv (2024年)。 DOI: 10.48550/arxiv.2407.07775
グーグルのディープマインドのロボット工学者とAI専門家のチームは、オフィス内の状況に応じたガイドツアーを提供できるロボットを披露した。彼らは 紙 彼らの仕事内容とデモンストレーションビデオを arXiv プレプリントサーバー。
AI アプリケーションは過去 10 年で大きく進歩し、ChatGPT などの LLM は今や世界中のユーザーによく知られています。この新しい取り組みでは、研究チームは Gemini 1.5 Pro を介して RT-2 ロボットに AI 機能を提供し、それを使用してロボットが高度なアクティビティを実行できるようにしました。
ロボットは案内する人の話を聞き、要求を解釈し、それを行動に変換することができます。例として、ある研究者はロボットに、ある場所に連れて行ってほしいと頼みました。 オフィス ロボットは、その要求について約30秒間考えた後、オフィスの1つにある壁にホワイトボードが取り付けられた場所まで人を誘導しました。
研究者らは、ロボットがこのようなタスクを実行できるのは、オフィス内の場所のビデオを見ながらデータを収集し、長いコンテキストウィンドウを使用して 850 平方メートルのオフィス作業スペースのレイアウトを理解するように Gemini 1.5 Pro アプリケーションがトレーニングされたためだと説明しています。
研究者たちは、このような学習体験を、デモンストレーションツアーを伴うマルチモーダル指導ナビゲーションと表現しています。ロボットがビデオを視聴すると、オフィスの風景のさまざまな部分を同時に処理し、関連付けを生成できるようになります。
追加することで 声 そして 文章 ディープマインドのチームは、他のAI機能と合わせて推論処理もロボットに実行させることができました。例えば、研究者がロボットに冷蔵庫にお気に入りの飲み物がまだあるかどうか尋ねました。 ロボット 近くにはコーラの空き缶がいくつかあったことに気づいた。 研究者 ロボットは座っている情報から、コカコーラがロボットの好きな飲み物だと推測しました。そして、冷蔵庫まで転がっていき、中にコカコーラの缶があるかどうか確認しました。そして、ロボットは戻ってきて、見つけたものを報告しました。
詳しくは:
Hao-Tien Lewis Chiang 他「Mobility VLA: ロングコンテキスト VLM とトポロジカル グラフによるマルチモーダル指示ナビゲーション」 arXiv (2024年)。 DOI: 10.48550/arxiv.2407.07775
© 2024 サイエンスXネットワーク
引用: DeepMind がオフィスビルのコンテキストベースのガイド付きツアーを提供できるロボットをデモ (2024 年 7 月 12 日) 2024 年 7 月 15 日に https://techxplore.com/news/2024-07-deepmind-robot-capable-context-based.html から取得
この文書は著作権の対象です。個人的な学習や研究を目的とした公正な取り扱いを除き、書面による許可なしに複製することはできません。コンテンツは情報提供のみを目的として提供されています。
#DeepMindはオフィスビルのコンテキストベースのガイドツアーを提供できるロボットを実演している
