データ内の異常を発見する新しいアルゴリズムは、現在のソフトウェアよりも優れています

1722235268
2024-07-26 16:36:04

異常検出は、従来の AI の問題には見られないいくつかの課題をもたらします。クレジット: Trevor Vannoy on Unsplash

ワシントン州立大学の研究者が開発したアルゴリズムは、ストリーミングデータを含むデータの異常を、現在の異常検出ソフトウェアよりも正確に検出できます。

作品、報告の中に 人工知能研究ジャーナルは、サイバーセキュリティ、電力網管理、誤情報、医療診断など、大量のデータ内の異常を迅速に検出する必要がある多くの分野で応用できる人工知能 (AI) 手法に根本的な貢献をしています。

異常をよりよく見つけることができれば、医療現場における詐欺や病気、あるいは信号が他の星からの光と重なる小惑星などの重要な異常な情報をより簡単に発見できるようになる。

「この研究は、AIと人間が協力して相乗的に問題を解決する方法についての進歩を示しています。異常「発見の問題」と、この研究を監督したヒューイ・ロジャース寄付講座コンピューターサイエンス准教授のヤナ・ドッパ氏は言う。

「こうした生成型 AI 技術には、誤情報を含む膨大なデータがあり、人間がそのすべてを調べるのは、膨大な量であるため不可能です。人的資源が限られており、誤情報などを迅速に検出したい場合は、どの項目にラベルを付けるべきかを優先順位付けするアルゴリズムが必要です。」

異常検出には、従来の AI の問題には見られないいくつかの課題があります。異常の数は正常データに比べて非常に少なく、通常は 2% 未満です。さらに、異常データと正常データの間に大きな違いがない場合もあります。

「つまり、これはまるで大きな干し草の山から針を探すような問題です」とドッパ氏は言う。「そして、多くの分野では、どの針を探せばいいのかさえ分からないのです。」

もう 1 つの問題は、大量のデータがあると、AI が検出する異常候補が多すぎて、人間に渡して確認してもらうことができないことがよくあることです。

「これらを持っているときはいつでも偽陽性「人間の時間を大量に無駄にしているので、それを最小限に抑えたいのです」と、博士研究員で筆頭著者のシュブホモイ・ダス氏は言う。「人間からの最小限のフィードバックを利用して異常検出器を適応させ、時間の経過とともに誤検知を減らし、より多様な異常を発見するにはどうすればいいでしょうか？」

研究の一環として、研究者らは新たな理論的および実証的発見コンピュータモデルのアンサンブルが異常検出に効果的である理由について研究が行われた。彼らは、わずかなステップバイステップのフィードバックだけで、AIアルゴリズムはフィードバックのないシステムに比べてはるかによく学習し、より多様な異常を発見できることを発見した。人間 AI がラベル付けのために異常候補を選択した理由を理解するには、異常候補に関する説明が必要です。

「解釈可能性や説明可能性という概念は重要です」と、博士課程の学生で共著者のラキブル・イスラム氏は言う。「私たちが考えたのは、既存の文献にはこの点がほとんど欠けているということです。」

研究者たちは、新たな発見を利用して、異常を一括して調べるアルゴリズムを開発し、さまざまなタイプの異常を発見する能力を向上させました。そのため、異常なクレジットカードデータの場合、アルゴリズムは、ある人物が妙に高額な買い物をしたり、奇妙な場所で買い物をしたりするなど、さまざまな種類の異常な行動を発見します。

現在のAIモデルとは異なり、研究者が開発したアルゴリズムは、多くの実世界のアプリケーションで一般的なストリーミングデータを処理することができました。アルゴリズムデータ分布のドリフトを検出して定量化し、修正措置を講じることができます。

「データが流れてくるときに異常を発見する問題については、これまであまり研究されてこなかった」とドッパ氏は語った。

研究者らのコンピュータコードとデータは公開されており、彼らは現在、そのアルゴリズムを現実世界のシステムに導入して、その精度と有用性を測定する計画を立てている。

詳しくは：
Shubhomoy Das 他「異常検出のためのツリーベースアンサンブルの有効性: 洞察、バッチ、ストリーミングアクティブラーニング」 人工知能研究ジャーナル （2024年）。 DOI: 10.1613/jair.1.14741

によって提供された
ワシントン州立大学

引用: データ内の異常を発見する新しいアルゴリズムが現在のソフトウェアを上回る (2024 年 7 月 26 日) 2024 年 7 月 29 日に https://techxplore.com/news/2024-07-algorithm-anomalies-outperforms-current-software.html から取得

この文書は著作権の対象です。個人的な学習や研究を目的とした公正な取り扱いを除き、書面による許可なしに複製することはできません。コンテンツは情報提供のみを目的として提供されています。

#データ内の異常を発見する新しいアルゴリズムは現在のソフトウェアよりも優れています

共有:

Related