DeepSeek의 놀랍게도 저렴한 AI 모델은 업계 거인에게 도전합니다. DeepSeek V3의 6 백만 달러의 훈련 비용에 대한 주장에도 불구하고, 자세히 살펴보면 훨씬 더 많은 투자가 나타납니다.
Deepseek의 자기 소개 : "안녕하세요, 나는 당신이 무엇이든 물어보고 당신을 놀라게 할 수있는 대답을 얻을 수 있도록 만들어졌습니다." 이 AI는 시장에 크게 영향을 미쳤으며, 특히 주요 Nvidia 주식 감소를 초래했습니다.
이미지 : ensigame.com
DeepSeek V3의 혁신적인 아키텍처는 성능의 핵심입니다.
- MTP (Multi-Token Prediction) : 여러 단어를 동시에 예측하여 정확성과 속도를 높입니다.
- 전문가 혼합 (MOE) : 256 개의 신경망을 사용하여 각 토큰 당 8 개를 활성화하고 교육 가속화 및 성능 향상.
- 멀티 헤드 잠재주의 (MLA) : 주요 세부 사항을 반복적으로 추출하여 정보 손실을 최소화하고 뉘앙스 이해를 향상시킵니다.
이미지 : ensigame.com
그러나 Semianalysis는 DeepSeek의 광범위한 인프라를 나타 냈습니다. 약 50,000 NVIDIA HOPPER GPU (H800, H100 및 H20 장치 포함)는 여러 데이터 센터에 퍼져 있습니다. 총 서버 투자는 16 억 달러로 추정되며 운영 비용은 9 억 9,400 만 달러에 이릅니다.
High-Flyer의 자회사 인 DeepSeek는 데이터 센터를 소유하여 제어력과 더 빠른 혁신 구현을 제공합니다. 자체 자금 지원 상태는 민첩성을 향상시킵니다. 높은 급여 (일부 연구원의 경우 매년 130 만 달러 이상)는 최고의 중국 인재를 유치합니다.
이미지 : ensigame.com
6 백만 달러의 교육 비용 청구는 연구, 개선, 데이터 처리 및 인프라를 제외하고 사전 훈련 GPU 사용만을 나타내는 오해의 소지가 있습니다. DeepSeek의 총 AI 투자는 5 억 달러를 능가합니다. 린 구조는 효율적인 혁신을 촉진합니다.
이미지 : ensigame.com
DeepSeek의 성공은 잘 자금을 지원하는 독립 AI 회사의 잠재력을 보여줍니다. 그러나 "예산 친화적 인"이야기는 과장되었습니다. 수십억의 투자, 기술 발전 및 강력한 팀이 중요한 요소입니다. 그럼에도 불구하고, DeepSeek의 비용은 여전히 경쟁 업체를 크게 약화시킵니다 (예 : R1의 경우 5 백만 달러, ChatGpt4o의 경우 1 억 달러).