DeepMindは、オフィスビルのコンテキストベースのガイドツアーを提供できるロボットを実演している。

1721043223
2024-07-12 13:13:34

モビリティ VLA アーキテクチャ。マルチモーダルユーザーインストラクションと環境のデモンストレーションツアービデオは、ロングコンテキスト VLM (高レベルポリシー) によってビデオ内のゴールフレームを識別するために使用されます。次に、低レベルポリシーはゴールフレームとオフラインで生成されたトポロジカルマップ (Structure-from-Motion を使用したツアービデオから) を使用して、各タイムステップでロボットの動作を計算します。クレジット: arXiv （2024年）。 DOI: 10.48550/arxiv.2407.07775

グーグルのディープマインドのロボット工学者とAI専門家のチームは、オフィス内の状況に応じたガイドツアーを提供できるロボットを披露した。彼らは紙彼らの仕事内容とデモンストレーションビデオを arXiv プレプリントサーバー。

AI アプリケーションは過去 10 年で大きく進歩し、ChatGPT などの LLM は今や世界中のユーザーによく知られています。この新しい取り組みでは、研究チームは Gemini 1.5 Pro を介して RT-2 ロボットに AI 機能を提供し、それを使用してロボットが高度なアクティビティを実行できるようにしました。

ロボットは案内する人の話を聞き、要求を解釈し、それを行動に変換することができます。例として、ある研究者はロボットに、ある場所に連れて行ってほしいと頼みました。オフィスロボットは、その要求について約30秒間考えた後、オフィスの1つにある壁にホワイトボードが取り付けられた場所まで人を誘導しました。

研究者らは、ロボットがこのようなタスクを実行できるのは、オフィス内の場所のビデオを見ながらデータを収集し、長いコンテキストウィンドウを使用して 850 平方メートルのオフィス作業スペースのレイアウトを理解するように Gemini 1.5 Pro アプリケーションがトレーニングされたためだと説明しています。

クレジット: DeepMind インスタグラム

研究者たちは、このような学習体験を、デモンストレーションツアーを伴うマルチモーダル指導ナビゲーションと表現しています。ロボットがビデオを視聴すると、オフィスの風景のさまざまな部分を同時に処理し、関連付けを生成できるようになります。

追加することで声そして文章ディープマインドのチームは、他のAI機能と合わせて推論処理もロボットに実行させることができました。例えば、研究者がロボットに冷蔵庫にお気に入りの飲み物がまだあるかどうか尋ねました。ロボット近くにはコーラの空き缶がいくつかあったことに気づいた。研究者ロボットは座っている情報から、コカコーラがロボットの好きな飲み物だと推測しました。そして、冷蔵庫まで転がっていき、中にコカコーラの缶があるかどうか確認しました。そして、ロボットは戻ってきて、見つけたものを報告しました。

詳しくは：
Hao-Tien Lewis Chiang 他「Mobility VLA: ロングコンテキスト VLM とトポロジカルグラフによるマルチモーダル指示ナビゲーション」 arXiv （2024年）。 DOI: 10.48550/arxiv.2407.07775

ジャーナル情報:
arXiv

引用: DeepMind がオフィスビルのコンテキストベースのガイド付きツアーを提供できるロボットをデモ (2024 年 7 月 12 日) 2024 年 7 月 15 日に https://techxplore.com/news/2024-07-deepmind-robot-capable-context-based.html から取得

この文書は著作権の対象です。個人的な学習や研究を目的とした公正な取り扱いを除き、書面による許可なしに複製することはできません。コンテンツは情報提供のみを目的として提供されています。

#DeepMindはオフィスビルのコンテキストベースのガイドツアーを提供できるロボットを実演している

共有:

Related