1699547938
2023-11-09 16:27:07
エンジニアリング | ニュースリリース | 研究 | テクノロジー
2023 年 11 月 9 日
ワシントン大学の研究者が率いるチームは、ユーザーがヘッドフォンを通してどの音をフィルターするかをリアルタイムで選択できる深層学習アルゴリズムを開発しました。 写真は共著者のマレック・イタニ氏がシステムをデモンストレーションしているところです。ワシントン大学
ノイズキャンセリングヘッドフォンを使用したことのある人のほとんどは、適切なタイミングで適切なノイズを聞くことが重要であることを知っています。 屋内で作業しているときは車のクラクションを消したいと思う人もいるかもしれませんが、交通量の多い通りを歩いているときは消したくありません。 しかし、人々はヘッドフォンがどの音をキャンセルするかを選択することはできません。
今回、ワシントン大学の研究者が率いるチームは、ユーザーがヘッドフォンを通してどの音をフィルターするかをリアルタイムで選択できる深層学習アルゴリズムを開発しました。 研究チームはこのシステムを「セマンティックヒアリング」と呼んでいます。 ヘッドフォンはキャプチャしたオーディオを接続されたスマートフォンにストリーミングし、すべての環境音をキャンセルします。 音声コマンドまたはスマートフォン アプリを通じて、ヘッドフォン装着者は、サイレン、赤ちゃんの泣き声、スピーチ、掃除機、鳥のさえずりなど、20 のクラスから含めたい音を選択できます。 選択したサウンドのみがヘッドフォンから再生されます。
チームが発表したのは その調査結果 11月1日 UIST ’23 サンフランシスコで。 将来的には、研究者らはこのシステムの商用バージョンをリリースする予定です。
「鳥の鳴き声がどのようなものであるかを理解し、環境内の他のすべての音からそれを抽出するには、今日のノイズキャンセリングヘッドフォンでは実現できていないリアルタイムのインテリジェンスが必要です」と上級著者は述べています。 シャム・ゴラコタ、ポール G. アレン コンピューター サイエンス & エンジニアリング スクールの UW 教授。 「課題は、ヘッドフォン装着者が聞く音を視覚と同期させる必要があることです。 誰かがあなたに話しかけてから 2 秒後にその人の声が聞こえているはずがありません。 これは、ニューラル アルゴリズムが 100 分の 1 秒以内に音を処理しなければならないことを意味します。」
この時間不足のため、セマンティック聴覚システムは、より堅牢なクラウド サーバーではなく、接続されたスマートフォンなどのデバイスで音声を処理する必要があります。 さらに、さまざまな方向からの音はさまざまなタイミングで人の耳に届くため、システムはこれらの遅延やその他の空間的手がかりを保存して、人々が環境内で音を有意義に知覚できるようにする必要があります。
オフィス、街路、公園などの環境でテストされたこのシステムは、現実世界の他のすべてのノイズを除去しながら、サイレン、鳥のさえずり、アラーム、その他の対象となる音を抽出することができました。 22 人の参加者がシステムのオーディオ出力を対象サウンドについて評価したところ、元の録音と比較して平均して品質が向上したと回答しました。
場合によっては、声楽や人間の音声など、多くの特性を共有する音をシステムが区別するのに苦労することがありました。 研究者らは、より現実世界のデータに基づいてモデルをトレーニングすると、これらの結果が改善される可能性があると指摘しています。
この論文の追加の共著者は次のとおりです。 バンダフ ヴェルリ そして マレック・イタニ、両方ともアレンスクールのカリフォルニア大学博士課程の学生です。 ジャスティン・チャン、アレン・スクールの博士課程の学生としてこの研究を完了し、現在はカーネギーメロン大学に在籍しています。 そして Takuya Yoshioka、AssemblyAIのリサーチディレクター。
詳細については、お問い合わせください [email protected]。
タグ: ポール G. アレン コンピュータ サイエンス & エンジニアリング スクール • シャム・ゴラコタ
#新しい #ノイズキャンセリングヘッドフォンテクノロジーにより着用者は聞こえる音を選択できるようになります