1740655383
2025-02-27 09:41:00
@ロボット学習に関する会議(CORL)2023
1UCバークレー
2Google DeepMind
3スタンフォード大学
4サイモン・フレイザー大学
tldr
ディープRLを使用してピアノを弾くために擬人化ロボットの手を訓練する
シミュレートされたベンチマークとデータセットをリリースして、高次元制御を進めます。
インタラクティブなデモ
これは、強化学習で訓練されたシミュレートされたピアノ演奏エージェントのデモです。ブラウザでムホコがネイティブに実行されます WebAssembly。マウスを使用して対話することができます。たとえば、ピアノキーをドラッグして音を生成するか、手を押して摂動することができます。右上隅のコントロールセクションを使用して曲とシミュレーションセクションを変更して、エージェントを一時停止またはリセットできます。サウンドを有効にするには、少なくとも1回デモをクリックしてください。
概要
シミュレーション
オープンソースを使用して、シミュレートされたピアノプレイ環境を構築します ムホコ
物理エンジン。フルサイズの88キーのデジタルキーボードと2つで構成されています シャドウの器用な手、それぞれが24度の自由度を持っています。
音楽表現
楽器のデジタルインターフェイスを使用します(ミディ)「ノートオン」または「ノートオフ」イベントに対応するタイムスタンプメッセージのシーケンスとして音楽を表す標準。メッセージには、メモのピッチやその速度などの追加の情報が含まれています。
MIDIファイルを、時間をインデックスしたメモの軌跡に変換します( ピアノロール)、各ノートは長さ88の1ホットベクトルとして表されます(ピアノのキーの数)。この軌跡は、エージェントの目標表現として使用され、各時間ステップでどのキーを押すべきかを通知します。
以下のインタラクティブなプロットは、ピアノロールとしてエンコードされた曲Twinkle Twinkle Little Starの曲を示しています。 X軸は秒単位の時間を表し、Y軸は音楽ピッチを1〜88の数として表します。各メモの上にホバリングして、どの追加情報が伝えているかを確認できます。
a シンセサイザー MIDIファイルをRAWオーディオに変換するために使用できます。
音楽評価
精度、リコール、F1スコアを使用して、エージェントの習熟度を評価します。特定のインスタンスの時間に「オン」になるはずのキーと「オフ」すべきキーがある場合、エージェントが「オフ」になるはずのキーを押さないでエージェントがどれほど優れているかを精密に測定します。 F1スコアは精度とリコールを単一のメトリックに組み合わせ、0(精度またはリコールのいずれかの場合は0)から1(完全な精度とリコール)の範囲です。
ピアノの運指とデータセット
ピアノの運指とは、ピアノピースのメモへの指の割り当てを指します(下の図を参照)。楽譜は通常、ピアニストを導くのに役立つ作品のトリッキーなセクションにまばらな指のラベルを提供し、ピアニストはしばしば特定の作品に対する独自の指の好みを開発します。
ロボピアニストでは、エージェントは、高次元のアクションスペースに関連する探査課題のために、まばらな報酬信号でピアノを演奏することを学ぶのに苦労していることがわかりました。この問題を克服するために、私たちは、その探査を導くために、報酬機能に指のラベルの形で人間の事前を追加しました。
デフォルトでは、MIDIファイルでは指のラベルが利用できないため、ピアノの運搬データセットからの注釈を使用しました(豚)150のラベル付きMIDIファイルを作成します。これをレパートリー150と呼び、環境の一部としてリリースします。

MDP定式化
We model piano-playing as a finite-horizon Markov Decision Process (MDP) defined by a tuple ( (mathcal{S}, mathcal{A}, mathcal{rho}, mathcal{p}, r, gamma, H) ), where ( mathcal{S} ) is the state空間、( mathcal {a} )はアクション空間、( mathcal { rho}( cdot))は初期状態分布です。 (h )は地平線です。エージェントの目標は、Horizon ( mathbb {e} leftで予想される割引報酬の合計を最大化することです。[sum_{t=0}^{H} gamma^t r(s_t,
a_t) right] )。
すべての時間ステップで、エージェントは固有受容(つまり、手すり角度)、外部受容(つまり、ピアノキー状態)、および目標観測(つまり、ピアノロール)を受け取り、各手の22ターゲットのジョイント角を出力します。これらは、各ジョイントのトルクに変換する比例配置アクチュエーターに供給されます。その後、エージェントは、正しいキーを打つための報酬、エネルギー消費を最小限に抑えるための報酬、指のラベルに付着するための形状の報酬など、加重された報酬条件を受け取ります。
ポリシーオプティマイザーには、最先端のモデルのないRLアルゴリズムを使用します DROQ
20 Hzの制御周波数で500万ステップでエージェントを訓練します。
定量的結果
慎重なシステム設計により、エージェントのパフォーマンスを大幅に向上させます。具体的には、報酬の定式化にエネルギーコストを追加し、現在の目標だけでなく数秒分の将来の目標を提供し、アクションスペースを制約することで、エージェントがより速く学習し、より高いF1スコアを達成するのに役立ちました。以下のプロットは、これらのそれぞれのデザインの選択肢が困難を増やす3つの異なる曲に対する追加効果を示しています。
強力な誘導体なしモデル予測制御(MPC)ベースラインと比較した場合、 予測サンプリング、当社のエージェントは、予測サンプリングの場合、ETUDE-12で平均0.43で平均0.79であるF1スコアがはるかに高くなります。
定性的な結果
以下の各ビデオはリアルタイムで再生されており、エージェントがEtude-12サブセットのすべての曲を再生していることを示しています。各ビデオフレームに、対応する指の色に応じてキーを着色することにより、指のラベルを表示します。キーが押されると、緑色になります。
デバッグデータセット
このデータセットには、「エントリーレベルの」曲(スケールなど)が含まれており、エージェントのパフォーマンスを確認するのに役立ちます。このデータセットの指のラベルは、この論文の著者によって手動で注釈が付けられました。 Repertoire-150データセットの一部ではありません。
Etude-12サブセット
Etude-12は、完全な150-Largeデータセットのサブセットであり、さまざまな困難の12曲で構成されています。これは、より中程度の計算予算のために予約された完全なベンチマークのサブセットです。
一般的な障害モード
影の手の前腕は人間よりも厚いため、エージェントは本当に近いものであるノートを打ち消すのに苦労します。手に完全な回転と翻訳の自由度を追加すると、この制限を克服する能力が得られますが、学習に追加の課題をもたらす可能性があります。
エージェントは、多くの音の上に指を伸ばす必要がある曲に苦労しています。
謝辞
この作業の一部は、科学の自治プログラムに基づいてonr#n00014-22-1-2121によってサポートされています。
このWebサイトは重く触発されました ブレント・イー。
#ロボピアニスト深い補強学習で演奏する器用なピアノ