Deepseekの驚くほど安価なAIモデルは、業界の巨人に挑戦しています。 Deepseek V3のわずか600万ドルのトレーニングコストの主張にもかかわらず、よく見ると、はるかに大きな投資が明らかになります。
Deepseekの自己紹介:「こんにちは、私は作成されたので、あなたは何でも尋ねて、あなたを驚かせるかもしれない答えを得ることができます」とその野心を強調しています。このAIは市場に大きな影響を与え、特に主要なNvidiaの株式減少を引き起こしました。
画像:Ensigame.com
Deepseek V3の革新的なアーキテクチャは、そのパフォーマンスの鍵です。
- マルチトークン予測(MTP):複数の単語を同時に予測し、精度と速度を高めます。
- 専門家(MOE)の混合物: 256のニューラルネットワークを採用し、トークンごとに8つをアクティブにし、トレーニングを加速し、パフォーマンスを向上させます。
- マルチヘッドの潜在的注意(MLA):重要な詳細を繰り返し抽出し、情報の損失を最小限に抑え、ニュアンスの理解を高めます。
画像:Ensigame.com
しかし、Semianalysisは、Deepseekの広範なインフラストラクチャである、約50,000のNvidia Hopper GPU(H800、H100、およびH20ユニットを含む)が複数のデータセンターに広がることを明らかにしました。サーバーの総投資は16億ドルと推定され、運用コストは9億4,400万ドルに達します。
High-Flyerの子会社であるDeepseekは、データセンターを所有しており、コントロールとより高速なイノベーションの実装を提供しています。その自己資金のステータスは敏ility性を高めます。高い給与(一部の研究者にとって年間130万ドル以上)は、中国のトップの才能を引き付けています。
画像:Ensigame.com
600万ドルのトレーニングコスト請求は誤解を招き、調査、改良、データ処理、インフラストラクチャを除く、トレーニング前のGPU使用のみを表しています。 Deepseekの総AI投資は5億ドルを超えています。その無駄のない構造は、効率的なイノベーションを促進します。
画像:Ensigame.com
Deepseekの成功は、資金提供された独立したAI企業の可能性を示しています。しかし、その「予算に優しい」物語は誇張されています。投資、技術の進歩、強力なチームの数十億は重要な要素です。それにもかかわらず、Deepseekのコストは依然として競合他社(たとえば、R1で500万ドルに対してChatGPT4Oで1億ドル)を著しく下げています。