1773006782
2026-03-08 09:44:00

まとめ

  • 人類研究者らは、LLM がデジタル フットプリントを分析するだけで匿名のインターネット アカウントを特定できることを実証しました。
  • これまでの匿名性は、人間がデータを分析するのにかかる膨大な時間を基盤としていました。人工知能はこの障壁を消滅させます。
  • AI は、特徴を抽出し、意味上の類似性を探し、論理的に一致を検証することによって機能します。
  • Reddit、Hacker News、LinkedIn 間のテストでは、LLM は 90% の精度で 68% の識別率を達成しました。
  • プラットフォームやギリシャのフォーラム上の使い捨てアカウントであっても、自動プロファイル分析からはもはや安全ではありません。

人間的研究: LLM が匿名アカウントを特定する方法 – ギリシャのユーザーに関するデータ

オンラインの偽名によって提供されるセキュリティの概念は現在、科学的に誤りであることが証明されています。 「」というタイトルで発表された新しい詳細な研究LLM を使用した大規模なオンライン匿名化解除» 学者や研究者による 人間的、匿名化解除の完全な自動化について説明します。

などのプラットフォームでの実験を通じて、 レディット そして ハッカーニュースSimon Lermen、Daniel Paleka、Joshua Swanson、Michael Aerni、Nicholas Carlini、Florian Tramèr からなる研究チームは、大規模言語モデル (LLM) が匿名のコメントと実名を驚くべき精度で照合できることを実証しました。何百万ものユーザーを保護する唯一の柱である実質的なプライバシーは、現代のコンピューター能力の前では存在しなくなりました。 AI

LLM は、偽名の背後にあるあなたの身元を明らかにすることができますか?

はい。 Anthropic の新しい研究によると、大規模言語モデル (LLM) は、Reddit などのプラットフォームから非構造化テキストを分析し、言語イディオムを抽出して実際のプロファイルと照合し、90% の精度で 68% の識別率を達成します。これは、オンラインの匿名性の概念を事実上排除するプロセスです。

識別の技術的アーキテクチャ

従来のデータ匿名化手法 (有名な Netflix コンテストで過去に使用された手法など) では、特定の日付、評価、位置情報タグのテーブルなど、厳密に構造化されたデータが必要でした。最新の LLM の成果は、完全に構造化されていないフリー テキストを処理することにあります。

研究者らが開発した攻撃ワークフローは、次の 3 つの重要な段階に分かれています。

  1. 特徴を抽出します: このモデルは、ユーザーの膨大な量のテキストを分析し、間接的な ID 参照を分離します。これらには、職業的背景、地元の方言、場所(例:「私はマルーシのオフィスを出ました」)、興味、文章の癖などが含まれます。
  2. ベクトル表現を検索します。 抽出されたデータはベクトルにエンコードされます。このシステムは、数百万のユーザーのデータベース (LinkedIn や Facebook のオープン プロフィールなど) を迅速に検索し、意味的および構文的な類似性を通じて関連性を特定します。
  3. 論理検証: 最終段階では、LLM は単に数学的同定に依存するのではなく、論理分析を適用して支配的なプロファイルを比較します。出版のタイミングが実際の人物のキャリアパスと一致しているかどうか、また執筆スタイルが完全に一致しているかどうかを評価します。

処理能力の役割

特に重点を置くのは 研究 成功と推論時間の相関関係が明らかになりました。研究チームは、このモデルを処理設定の増加に適用しました。結果は明らかで、推論中に LLM により多くの時間とリソースを与えることで、パフォーマンスが飛躍的に向上しました。

最も厳しい精度レベル (99%) では、高レベルの推論努力により、最速の応答と比較して想起成功率が 2 倍 (1.4% から 2.8%) になりました。これは実際には、プロファイリングの有効性が、攻撃者が喜んで投入するコンピューティング リソースの量に直接依存することを意味します。

Hacker News と Reddit での実験

この方法を検証するために、既知のデータを含む 3 つの異なるデータセットが作成されました。

  • 初めAI は、人気のテクノロジー フォーラムである Hacker News の仮名ユーザーを LinkedIn の公開プロフェッショナル プロフィールに接続するよう依頼されました。
  • 第二にの目標は、コメント (あらすじの参照やレビューなど) のみを使用して、Reddit 上のさまざまな映画ディスカッション コミュニティにまたがるユーザーを識別することでした。
  • 三番目 この実験が最も明らかになった。彼らは Reddit 上で 1 人のユーザーの履歴を取得し、それを半分の時間で切り取って 2 つの別々の「プロフィール」を作成し、LLM にそれらが同一人物に属しているかどうかを検出するよう依頼した。

すべてのケースにおいて、従来の統計手法は 0% に近い割合で惨めに失敗しましたが、LLM アプローチは、68% のユーザーを正確に識別するという素晴らしいレベルに達しました (90% マークで)。特にリッチコンテンツ(10本以上の映画のレビューなど)を共有したユーザーの開示率は48.1%に達した。

「実質的な曖昧さ」の終焉

インターネット これまで、暗黙の脅威モデルに基づいて運用されてきました。作業仮説は、単一ユーザーの本当の身元を見つけるには、専門のアナリストによる手動のオープンソース調査 (OSINT) に膨大な時間がかかるというものでした。これは「実質的な曖昧さ」として定義されます。

LLM はプロセスを完全に自動化することで、この状況を逆転させます。かつては民間の研究者が数十人時間を要していたタスクが、コードのバンドルによって数秒で実行されるため、非常に低い API コストで大規模な分析が可能になります。

ローカル Web の可用性と影響

そのような応用 テクノロジー ギリシャのユーザーにとって重要な疑問が生じます。国内のオンライン現実では、Reddit の r/greece やさまざまな Facebook グループなどのプラットフォームで、毎日何百万もの匿名のコメントがホストされています。多くのユーザーは、ギリシャ企業の不利な労働条件を報告したり、健康問題について議論したり、政治的意見を共有したりするために使い捨てアカウントを使用しています。

LLM の技術進化により、ユーザーは次のような現実的な問題を抱えています。 企業、研究者、またはスクレイピングアルゴリズムは、理論的には、Redditアカウントの鋭いコメントをその作成者のギリシャのLinkedInプロフィールにリンクする自動ルーチンを「実行」する可能性がある。データ保護が欧州の GDPR 規制によって法的に定義されている場合でも、合法的に投稿された公開の非構造化テキストを通じて ID データを推測するツールの技術的能力により、技術的に覆すことは不可能な現実が生まれます。

テックギア提供

Anthropic の研究は、最先端の AI モデルを使用したときに私たちが疑っていたことを裏付けています。非構造化テキストを「理解する」彼らの分析能力は想像を絶するものです。私たちがシステムと対話し、システムが私たちの個人的なトーンにどれだけ早く適応するかを知るとき、この現象のリバース エンジニアリングについて考えることはほとんどありません。モデル自体が私たちの思考と言語をリバース エンジニアリングして、私たちの実体の匿名性を解除することができます。

Techgear 読者にとって、このアドバイスは誇張のない明確なものです。私たちは今、それを当然のこととして受け止めなければなりません 「デジタル フットプリント」は Cookie や IP アドレスだけではありません、しかし私たちのスピーチの構文とスタイルそのものです。フォーラムに匿名で書き込み、同時に自分の著者のテキストを含むブランド プロフィールを維持している場合、それらの関連付けは数回の API 呼び出しだけで完了します。プライバシー保護は現在、Cookie を削除することから、個人の言語スタイルを意識的に隠すことに移行しています。

#が #Reddit #プロフィールと実名を自動的に照合する

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.