1724800216
2024-08-27 21:32:00
Hot Chips RISC-V チャンピオンの Tenstorrent は、今週の Hot Chips で、今後発売予定の Blackhole AI アクセラレータについてこれまでで最も詳しく紹介しました。同社によると、このアクセラレータは、生のコンピューティングとスケーラビリティの点で Nvidia A100 を上回る性能を発揮できるとのことです。
各 Blackhole チップは、745 テラフロップスの FP8 パフォーマンス (FP16 で 372 テラフロップス)、32 GB の GDDR6 メモリ、および 10 個の 400 Gbps リンク全体で合計 1 TBps の帯域幅が可能なイーサネットベースの相互接続を誇ります。
アクセラレータの 140 個の Tensix コアは、最大 745 テラフロップスの FP8 パフォーマンスを実現します。 – クリックして拡大
Tenstorrent は、メモリ容量と帯域幅の両方で劣るものの、最新のチップが Nvidia A100 GPU よりもパフォーマンスで若干優位に立つことを示しています。
しかし、A100 と同様に、Tenstorrent の Blackhole はスケールアウト システムの一部として導入されるように設計されています。この AI チップ スタートアップは、4×8 メッシュで接続された 32 個の Blackhole アクセラレータを 1 つのノードに詰め込むことを計画しており、これを Blackhole Galaxy と呼んでいます。
Tenstorrent の Blackhole Galaxy システムは、32 個の Blackhole アクセラレータを組み合わせて、FP8 パフォーマンスで約 24 ペタフロップスを実現します。 – クリックして拡大
合計すると、Blackhole Galaxy 1 台で FP8 で 23.8 ペタフロップス、FP16 で 11.9 ペタフロップス、および 16 TBps の帯域幅が可能な 1 TB のメモリが実現します。さらに、Tenstorrent によると、このチップのコア密度の高いアーキテクチャ (これについては後ほど詳しく説明します) により、これらの各システムはコンピューティング ノードまたはメモリ ノードとして、または高帯域幅 11.2 TBps AI スイッチとして機能できます。
「これをレゴとして使うだけで、トレーニング クラスター全体を作成できます」と、Tenstorrent の AI ソフトウェアおよびアーキテクチャのシニア フェローである Davor Capalija 氏は述べています。
Tenstorrent は、ブラックホール ギャラクシー システムだけを「レゴ ブロック」として使用して、トレーニング クラスター全体を構築できると主張しています。 – クリックして拡大
比較すると、Nvidiaの最も高密度なHGX/DGX A100システムは1ボックスあたり最大8つのGPUを搭載しており、 管理 高密度 FP16 パフォーマンスは 2.5 ペタフロップス弱で、Blackhole Galaxy はほぼ 4.8 倍高速です。実際、システム レベルでは、Blackhole Galaxy は、高密度 FP8 で約 15.8 ペタフロップスを管理する Nvidia の HGX/DGX H100 および H200 システムと競合できるはずです。
Tenstorrentのオンボードイーサネットの使用は、チップ間およびノード間のネットワークで複数の相互接続技術を駆使する課題を回避することを意味します。これは、NvidiaがNVLinkとInfiniBand/イーサネットで行っていることです。この点で、Tenstorrentのスケールアウト戦略はIntelの戦略と非常に似ています。 ガウディプラットフォームこれも主要な相互接続としてイーサネットを使用します。
Tenstorrent がトレーニング クラスターどころか 1 つのボックスにどれだけの Blackhole アクセラレータを詰め込む予定かを考えると、ハードウェア障害にどう対処するかを見るのは興味深いでしょう。
ベビー RISC-V とビッグ RISC-V の出会い
PCIe ベースのアクセラレータとして導入された以前の Greyskull および Wormhole パーツとは異なり、Tenstorrent の Blackhole (Nvidia の同様の名前の Blackwell アーキテクチャと混同しないでください) は、スタンドアロンの AI コンピューターとして機能するように設計されています。
Tenstorrent の ML フレームワークおよびプログラミング モデルのシニア フェローである Jasmina Vasiljevic 氏によると、これは 4 つのクラスターに配置された 16 個の「Big RISC-V」64 ビット、デュアル イシュー、インオーダー CPU コアの搭載によって可能になったとのことです。重要なのは、これらのコアが Linux を実行するデバイス上のホストとして機能するのに十分なほど強力であるということです。これらの CPU コアは、メモリ管理、オフダイ通信、およびデータ処理を担当する 752 個の「Baby RISC-V」コアとペアになっています。
ブラックホール アクセラレータには、16 個の Big RISC-V コアと 752 個の Baby RISC-V コアが搭載されています。 – クリックして拡大
ただし、実際のコンピューティングは、Tenstorrent の Tensix コア 140 個によって処理されます。各コアは、5 つの「Baby RISC-V」コア、1 組のルーター、コンピューティング コンプレックス、および L1 キャッシュで構成されています。
計算コンプレックスは、マトリックス ワークロードを高速化するように設計されたタイル計算エンジンと、ベクター計算エンジンで構成されています。前者は、Int8、TF32、BF/FP16、FP8、および 2 ビットから 8 ビットの範囲のブロック浮動小数点データ型をサポートし、ベクター エンジンは FP32、Int16、および Int32 を対象とします。
Blackholes の Tensix コアにはそれぞれ、5 つの RISC-V ベビー コア、2 つのルーター、L1 キャッシュ、マトリックス エンジンとベクター エンジンが搭載されています。 – クリックして拡大
Capalija 氏によると、この構成は、チップが行列乗算、畳み込み、シャード データ レイアウトなど、AI および HPC アプリケーションで一般的なさまざまなデータ パターンをサポートできることを意味します。
Blackhole のベイビー コアは、さまざまなデータ移動パターンをサポートするようにプログラムできます。 – クリックして拡大
合計すると、Blackhole の Tensix コアは、ボード上の 752 個のいわゆるベビー RISC-V コアのうち 700 個を占めます。残りは、メモリ管理 (DRAM の「D」)、オフチップ通信 (イーサネットの「E」)、システム管理 (「A」)、および PCIe (「P」) を担当します。
ソフトウェアエコシステムの構築
Tenstorrent は新しいチップとともに、アクセラレータ用の TT-Metalium 低レベル プログラミング モデルも公開しました。
Nvidia の CUDA プラットフォームに詳しい人なら誰でも知っているように、最高性能のハードウェアであっても、ソフトウェアが成功を左右することがあります。実際、TT-Metalium は異種混合であるという点で CUDA や OpenCL などの GPU プログラミング モデルを彷彿とさせますが、「AI とスケールアウト」コンピューティングのためにゼロから構築されたという点で異なります、と Capalija 氏は説明します。
こうした違いの 1 つは、カーネル自体が API 付きの単純な C++ であることだ。「特別なカーネル言語の必要性は感じませんでした」と同氏は説明した。
Tenstorrent は、TensorFlow、PyTorch、ONNX、Jax、vLLM などの多くの標準モデル ランタイムをサポートすることを目指しています – クリックして拡大
Tenstorrent は、TT-NN、TT-MLIR、TT-Forge などの他のソフトウェア ライブラリと組み合わせて、PyTorch、ONNX、JAX、TensorFlow、vLLM などの一般的に使用されるランタイムを使用して、アクセラレータ上であらゆる AI モデルを実行できるようにすることを目指しています。
これらの高レベル プログラミング モデルのサポートにより、AMD および Intel アクセラレータで見られたのと同様に、これらのアクセラレータ全体にワークロードを展開する際の複雑さが抽象化されるはずです。®
#Tenstorrent #が #RISCV #を搭載した #Blackhole #チップの詳細を発表 #Register