ロボピアニスト：深い補強学習で演奏する器用なピアノ

1740655383
2025-02-27 09:41:00

ロボピアニスト

@ロボット学習に関する会議（CORL）2023

¹UCバークレー

²Google DeepMind

³スタンフォード大学

⁴サイモン・フレイザー大学

tldr

ディープRLを使用してピアノを弾くために擬人化ロボットの手を訓練する
シミュレートされたベンチマークとデータセットをリリースして、高次元制御を進めます。

インタラクティブなデモ

これは、強化学習で訓練されたシミュレートされたピアノ演奏エージェントのデモです。ブラウザでムホコがネイティブに実行されます WebAssembly。マウスを使用して対話することができます。たとえば、ピアノキーをドラッグして音を生成するか、手を押して摂動することができます。右上隅のコントロールセクションを使用して曲とシミュレーションセクションを変更して、エージェントを一時停止またはリセットできます。サウンドを有効にするには、少なくとも1回デモをクリックしてください。

概要

シミュレーション

オープンソースを使用して、シミュレートされたピアノプレイ環境を構築しますムホコ
物理エンジン。フルサイズの88キーのデジタルキーボードと2つで構成されていますシャドウの器用な手、それぞれが24度の自由度を持っています。

音楽表現

楽器のデジタルインターフェイスを使用します（ミディ）「ノートオン」または「ノートオフ」イベントに対応するタイムスタンプメッセージのシーケンスとして音楽を表す標準。メッセージには、メモのピッチやその速度などの追加の情報が含まれています。

MIDIファイルを、時間をインデックスしたメモの軌跡に変換します（ピアノロール）、各ノートは長さ88の1ホットベクトルとして表されます（ピアノのキーの数）。この軌跡は、エージェントの目標表現として使用され、各時間ステップでどのキーを押すべきかを通知します。

以下のインタラクティブなプロットは、ピアノロールとしてエンコードされた曲Twinkle Twinkle Little Starの曲を示しています。 X軸は秒単位の時間を表し、Y軸は音楽ピッチを1〜88の数として表します。各メモの上にホバリングして、どの追加情報が伝えているかを確認できます。

a シンセサイザー MIDIファイルをRAWオーディオに変換するために使用できます。

音楽評価

精度、リコール、F1スコアを使用して、エージェントの習熟度を評価します。特定のインスタンスの時間に「オン」になるはずのキーと「オフ」すべきキーがある場合、エージェントが「オフ」になるはずのキーを押さないでエージェントがどれほど優れているかを精密に測定します。 F1スコアは精度とリコールを単一のメトリックに組み合わせ、0（精度またはリコールのいずれかの場合は0）から1（完全な精度とリコール）の範囲です。

ピアノの運指とデータセット

ピアノの運指とは、ピアノピースのメモへの指の割り当てを指します（下の図を参照）。楽譜は通常、ピアニストを導くのに役立つ作品のトリッキーなセクションにまばらな指のラベルを提供し、ピアニストはしばしば特定の作品に対する独自の指の好みを開発します。

ロボピアニストでは、エージェントは、高次元のアクションスペースに関連する探査課題のために、まばらな報酬信号でピアノを演奏することを学ぶのに苦労していることがわかりました。この問題を克服するために、私たちは、その探査を導くために、報酬機能に指のラベルの形で人間の事前を追加しました。

デフォルトでは、MIDIファイルでは指のラベルが利用できないため、ピアノの運搬データセットからの注釈を使用しました（豚）150のラベル付きMIDIファイルを作成します。これをレパートリー150と呼び、環境の一部としてリリースします。

各メモの上に注釈が付けられた指番号（1〜9）。ソース：ピアノプレイヤー

MDP定式化

We model piano-playing as a finite-horizon Markov Decision Process (MDP) defined by a tuple ( (mathcal{S}, mathcal{A}, mathcal{rho}, mathcal{p}, r, gamma, H) ), where ( mathcal{S} ) is the state空間、（ mathcal {a} ）はアクション空間、（ mathcal { rho}（ cdot））は初期状態分布です。（h ）は地平線です。エージェントの目標は、Horizon （ mathbb {e} leftで予想される割引報酬の合計を最大化することです。[sum_{t=0}^{H} gamma^t r(s_t,
a_t) right] ）。

すべての時間ステップで、エージェントは固有受容（つまり、手すり角度）、外部受容（つまり、ピアノキー状態）、および目標観測（つまり、ピアノロール）を受け取り、各手の22ターゲットのジョイント角を出力します。これらは、各ジョイントのトルクに変換する比例配置アクチュエーターに供給されます。その後、エージェントは、正しいキーを打つための報酬、エネルギー消費を最小限に抑えるための報酬、指のラベルに付着するための形状の報酬など、加重された報酬条件を受け取ります。

ポリシーオプティマイザーには、最先端のモデルのないRLアルゴリズムを使用します DROQ
20 Hzの制御周波数で500万ステップでエージェントを訓練します。

定量的結果

慎重なシステム設計により、エージェントのパフォーマンスを大幅に向上させます。具体的には、報酬の定式化にエネルギーコストを追加し、現在の目標だけでなく数秒分の将来の目標を提供し、アクションスペースを制約することで、エージェントがより速く学習し、より高いF1スコアを達成するのに役立ちました。以下のプロットは、これらのそれぞれのデザインの選択肢が困難を増やす3つの異なる曲に対する追加効果を示しています。