再帰的埋め込みとクラスタリングを活用してデータの説明可能性を強化する Shopify のアプローチ

1705636761
2024-01-19 02:17:05

Shopify は最近、 技術ブログ 顧客シグナルに基づいて、より実用的な洞察を得る方法に関する内部機械学習プロセスの一部について説明します。 オンライン ビジネスの主な課題の 1 つは、意思決定のためにデータから実用的な洞察を得るということです。 Shopify は、次元削減、再帰、教師あり機械学習を含む独自の方法で多様なデータセットをクラスタリングすることで、この問題を解決する方法論と経験を共有します。 このアプローチは強力な結果をもたらし、洞察とより優れた説明可能性を提供します。 これは、ユーザー研究者やデータ サイエンティストが理解を深め、ソリューションを洗練し、最終的なソリューションに向けてより効率的に反復するのに役立ちます。 さらに、この方法には説明可能レイヤーが含まれており、関係者とのコミュニケーションのための発見の検証を容易にします。 次の図は、この高度なメソッドを示しています。

全体的なワークフロー図

ブログ投稿に基づいて、著者は 4 つの簡単なステップを含む方法を提案しました。

  • データを管理しやすくします。
  • それをクラスター化します。
  • それを理解してください(そして予測してください)。
  • それを伝えてください。
  • このプロセスの最初のステップは、データを視覚化してより適切に管理する方法を見つけることです。 主な課題は、実際には高次元のデータを処理する必要があることです。 1 つの実用的なアプローチは、主成分分析や PCA。 PCA の主な課題は、多くの場合、すべての情報を 2 次元で表示できないことです。 著者は、均一多様体近似と射影の最先端技術を使用することを提案しました。 UMAP PCAの代わりに。 PCA と UMAP の主な違いは、UMAP が低次元の点の局所的および大域的な類似性を確保する投影法であり、PCA と比較して非線形であることです。 これにより、データ間の非線形関係がキャプチャされます。 例として、著者は、を使用した場合の結果の違いを示しました。 MNIST (修正された国立標準技術研究所) データセット。 MNIST には、書かれた数字 0 ~ 9 を表す 784 次元があります。 次の図 違いを示します。

    データを視覚化して最初の感覚をつかんだら、意味のあるクラスターをいくつか作成する必要があります。 記事で述べたように、このクラスタリングには説明可能性のために次の特性が必要です。

  • クラスターが存在する場合、ポイントはクラスターに属します。
  • クラスタリングにパラメータが必要な場合は、直感的にパラメータを設定してください。
  • データの順序や開始条件を変更した場合でも、クラスターは安定している必要があります。
  • などの多数のクラスタリング アルゴリズム K 平均法 そして HDBSCAN (ノイズを伴うアプリケーションの階層的密度ベースの空間クラスタリング) はフィールドに存在します。 HDBSCAN は、クラスタリングと DBSCAN メソッドを組み合わせた階層的アプローチを活用して、より堅牢で意味のあるクラスターを生成します。 Shopify で行われた広範な実験により、HDBSCAN がより有意義で安定した結果を一貫して生成することが実証されました。

    クラスターの動作をより深く理解するには、クラスター化手法を再帰的に適用することが不可欠になります。 この反復プロセスにより、クラスター内の複雑なダイナミクスに対する洞察が強化されます。 その後、十分な数のクラスターが確立されると、教師あり技術、特に分類の適用が実行可能になります。 確立された分類方法論など XGブースト、各クラスターの 1 対全モデルとして使用できます。

    さらに、 シャープ 解釈可能性を高め、各クラスター内の主な要因を解明するのに役立ちます。 この 2 つのアプローチは、初期クラスタリングのための HDBSCAN とその後の XGBoost による分類を組み合わせ、説明性を高めるために SHAP によって強化され、多様なクラスターの動作について深い洞察を得るための包括的な方法論を形成します。

    最終段階では、データ サイエンス グループやその他の関係者に調査結果を伝え、必要に応じて最終的なソリューションに向けたプロセスを繰り返す必要があります。

    同様の方法論は、次のような他の分野でもうまく使用されています。 健康データの異常検出。

    多くの機械学習エンジニアは、この仕事に刺激を感じました。 彼らの一人がLinkedInにコメントしたように、 この作品の投稿 :

    Umap と Shap は真のゲームチェンジャーであり、高度な分析ワークフローの基礎となる要素です

    #再帰的埋め込みとクラスタリングを活用してデータの説明可能性を強化する #Shopify #のアプローチ

    Leave a Reply

    Your email address will not be published. Required fields are marked *

    This site uses Akismet to reduce spam. Learn how your comment data is processed.

    Recent News

    Editor's Pick