ポッドキャスト: AI とデータ ストレージに対するその影響

1716393005
2024-05-22 11:30:00

このポッドキャストでは、Pure Storage のカスタマー エンジニアリング担当 R&D 担当副社長である Shawn Rosemarin とともに、人工知能 (AI) 処理がデータ ストレージに及ぼす影響について考察します。

AI がどのように企業データをビジネスへの重要な洞察源に変えるかについて説明しますが、AI 運用の複雑さ、データのポータビリティの必要性、迅速なストレージ アクセス、クラウドへの容量拡張機能で直面する課題についても話します。

ローズマリン氏はまた、ベクトルやチェックポイントなど、AI に見られる特定の形式のデータと、高密度、高速、持続可能で管理が容易なデータ ストレージ インフラストラクチャの必要性についても語ります。

Antony Adshead: AI ワークロードの違いは何ですか?

ショーン・ローズマリン: この中で最も興味深い部分は、まず第一に、AI を分析の次のイテレーションと連携させようということだと思います。

私たちはビジネスインテリジェンスを見ました。 分析を見ました。 私たちは、いわゆる最新の分析を目にしました。 今、私たちはAIを目の当たりにしています。

何が違うかというと、最終的には、ChatGPT で見ているような一般的なコーパスだけでなく、データのコーパスを調べているということです。実際、各企業内のデータの個々のコーパスが、本質的にこれらのモデルに収集される金になっているのです。 これらのモデルすべてをトレーニングするライブラリ。

したがって、それが表すデータの量について考えると、それが 1 つの要素になります。もう 1 つは、実際にこれらすべてのデータ量を取得し、そこから学習できるようにするというパフォーマンス要素について考える必要があるということです。

そして、もう1つの要素として、「オンプレミスにあるデータだけでなく、クラウドにあるデータ、サードパーティのソースから購入したデータ、SaaSにあるデータなど、組織内のさまざまなサイロにあるすべてのデータソースを統合する必要がある」というものがあります。 [software as a service]’。

そして最後に、これには人間的な要素が大きく関係していると思います。 これは新しい技術です。 これは現時点では非常に複雑であり、標準化されると誰もが信じており、それには人員配置が必要であり、ほとんどの組織がすぐに利用できないスキルセットも必要になります。

AI ワークロードに対処するためにストレージには何が必要ですか?

ローズマリー: 結局のところ、ストレージの進化について考えると、いくつかのことが見えてきました。

まず第一に、現時点では誰の心の中にも疑いの余地はなく、ハードドライブはほぼドードーと同じ道を進んでいると思います。 そして、信頼性の理由、パフォーマンスの理由、そして最終的には環境経済の理由から、私たちはオールフラッシュに移行しています。

しかし、ストレージについて考えるとき、AI における最大の障害は実際にストレージを移動することです。 特定の高パフォーマンスのワークロードを満たすために、ストレージのブロックを取得して移動します。

私たちが本当に望んでいるのは、情報の収集だけでなく、市場でのトレーニングやそのトレーニングの解釈にも使用できる中央ストレージ アーキテクチャです。

結局のところ、私が話しているのは、飢えた GPU に電力を供給するためのパフォーマンスです。 私たちが話しているのはレイテンシーについてであり、推論モデルを実行しているときに、消費者が待たずにできるだけ早く答えを得ることができるようにするためです。 私たちは容量と規模について話しています。 私たちは無停止のアップグレードと拡張について話しています。

ニーズが変化し、これらのサービスがユーザーにとってより重要になるにつれて、ストレージを追加するために環境を停止する必要がなくなります。

最後になりますが、クラウド消費要素は、これらのボリュームをクラウドに簡単に拡張できる機能です。 そのトレーニングや推論をクラウドで実行し、明らかにそれらをサービスとして利用したい場合は、事前に大規模な設備投資を行う必要がなく、代わりに必要なストレージを必要に応じて完全に 100% 消費することを検討します。サービス レベル アグリーメントと as-a-service。

ベクトルの使用、チェックポイント、TensorFlow や PyTorch などの AI で使用されるフレームワークなど、AI のデータを保持する方法について、AI のストレージにデータを保持する方法を決定するものはありますか?

ローズマリー: そうですね、特にリレーショナル データベースやデータ保護において歴史的にストレージが使用されてきた方法と比較した場合、その通りです。

ベクトル データベースについて考えるとき、すべての AI フレームワークについて考えるとき、そしてこれらのデータセットがどのように GPU に供給されるかを考えるときに、たとえ話をしてみましょう。

本質的には、企業やクラウドが行った非常に高額な投資である GPU を、博士課程の学生と考えてください。彼らは、あなたの環境で働く、非常に高額で、非常に才能があり、非常に賢い人々です。そして、あなたがしたいことは、彼らが常に何かできることがあることを保証することであり、さらに重要なことは、彼らが仕事を完了したときに、あなたがその仕事を収集し、次の量の仕事を彼らに確実に届けることです。

AI の世界では、ベクトル データベースとチェックポイントという概念をよく聞くようになります。 これが本質的に言っているのは、「リレーショナル データベースからベクター データベースに移行する」ということです。 そして基本的に、私の情報がクエリされると、複数のダイナミクスにわたってクエリが実行されます。

これらをパラメータと呼んでいますが、基本的にはあらゆる角度からデータを調べています。そして GPU は、調べた内容と特定のワークロードの現在位置をストレージに伝えています。

ストレージへの影響は、書き込みが大幅に増加することです。読み取りと書き込みを比較すると、パフォーマンス プロファイルの観点から非常に重要になります。特に書き込みについて考えると、書き込みは非常に小さいものです。これらは基本的に、作業のどの段階にあるかを示すブックマークです。

そして実際には、これまで多くの人が慣れてきたものとは大きく異なるパフォーマンスプロファイルを強いられています。 トレーニングで特に検討している内容に合わせて、新しいパフォーマンス プロファイルを構築しています。

さて、推論はレイテンシとトレーニングがすべてです。 すべては IOP に関するものです。 しかし、あなたの質問に非常に具体的に答えると、これにより、これまで見てきたよりもはるかに高い書き込み率が強制されます。 そして、トレーニング環境で 80% の書き込み、20% の読み取りを見ることは、従来 50/50 で見るよりもはるかに適切であることを聴衆に提案します。

AI の使用が増加するにつれて、エンタープライズ ストレージは 5 年後にどうなると思いますか?

ローズマリー: 私は、保管場所を車のタイヤと同じように考えるのが好きです。

現時点では、誰もが車のシャーシに非常に注目しています。GPU とパフォーマンス、そしてどれだけ速く走れるか、何を提供できるかに非常に注目しています。

しかし現実には、これらすべての本当の価値は、マイニングしているデータです。 そのデータの品質、実際に利点をもたらすためのこれらのトレーニング モデルでのそのデータの使用 – パーソナライゼーションやマーケティング、銀行や顧客の場合の高頻度取引、院内での患者ケアなど医療施設。

ストレージの将来に目を向けると、ストレージはこれらの AI プロジェクトの最終価値を高める上で絶対的に重要であることが認識され、認められるようになるでしょう。

私たちが目の当たりにしているのは、ストレージ アレイの高密度化であることは明らかだと思います。 ここ Pure では、すでにそのマーケティングに取り組んでいます。 2026 年までに 300 TB のドライブが完成するでしょう。コモディティ ソリッド ステート ドライブ業界はそれに大きく遅れをとっていると思います。 同じ期間内で約 100 TB を目標にしていると思いますが、ドライブの高密度化は今後も続くと思います。

その密度と並行して、エネルギー消費もますます低くなるだろうと思います。 エネルギーとエネルギーへのアクセスが AI の構築においてサイレントキラーであることは疑いの余地がありません。そのため、より多くのコンピューティングを推進するために消費エネルギーを削減できる点に到達することが重要になります。

最後に、自律型ストレージについて説明します。 ストレージのアップグレード、拡張、チューニングなど、日常業務に投入するエネルギー(人的エネルギー、人的資源)をますます減らしていくことが、企業が本当に求めていることであり、最終的には人的エネルギーを構築に集中できるようになります。明日のシステムを打ち破る。

つまり、実際に考えてみると、密度、エネルギー効率、そしてシンプルさです。

そうすれば、市場ではギガバイトあたりのコスト、TB あたりのコストが下がり続けることになると思います。これにより、ストレージのコンシューマライゼーションがさらに進み、組織は同じ量のストレージでより多くのデータを実際に利用できるようになります。投資。

#ポッドキャスト #とデータ #ストレージに対するその影響

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.

Recent News

Editor's Pick