Mô hình AI rẻ tiền đáng ngạc nhiên của Deepseek thách thức những người khổng lồ trong ngành. Mặc dù tuyên bố về chi phí đào tạo chỉ 6 triệu đô la cho Deepseek V3, nhưng một cái nhìn gần hơn cho thấy một khoản đầu tư đáng kể hơn nhiều.
Sự tự giới thiệu của Deepseek: "Xin chào, tôi đã được tạo ra để bạn có thể hỏi bất cứ điều gì và nhận được câu trả lời thậm chí có thể làm bạn ngạc nhiên", nhấn mạnh tham vọng của nó. AI này đã ảnh hưởng đáng kể đến thị trường, đáng chú ý là gây ra sự sụt giảm cổ phiếu NVIDIA lớn.
Hình ảnh: Obligame.com
Kiến trúc sáng tạo của DeepSeek V3 là chìa khóa cho hiệu suất của nó:
- Dự đoán đa điểm (MTP): Dự đoán đồng thời nhiều từ, tăng độ chính xác và tốc độ.
- Hỗn hợp các chuyên gia (MOE): Sử dụng 256 mạng lưới thần kinh, kích hoạt tám cho mỗi mã thông báo, tăng tốc đào tạo và cải thiện hiệu suất.
- Sự chú ý tiềm ẩn đa đầu (MLA): Càng lấy chi tiết chính, giảm thiểu mất thông tin và nâng cao sự hiểu biết về sắc thái.
Hình ảnh: Obligame.com
Tuy nhiên, Semianalysis cho thấy cơ sở hạ tầng rộng lớn của Deepseek: khoảng 50.000 GPU phễu NVIDIA (bao gồm các đơn vị H800, H100 và H20) trải rộng trên nhiều trung tâm dữ liệu. Tổng đầu tư máy chủ được ước tính là 1,6 tỷ đô la, với chi phí hoạt động đạt 944 triệu đô la.
Deepseek, một công ty con của High-Flyer, sở hữu các trung tâm dữ liệu của mình, cung cấp kiểm soát và triển khai đổi mới nhanh hơn. Tình trạng tự tài trợ của nó giúp tăng cường sự nhanh nhẹn. Mức lương cao (hơn 1,3 triệu đô la hàng năm cho một số nhà nghiên cứu) thu hút tài năng hàng đầu của Trung Quốc.
Hình ảnh: Obligame.com
Yêu cầu chi phí đào tạo trị giá 6 triệu đô la là sai lệch, chỉ đại diện cho việc sử dụng GPU trước khi đào tạo, không bao gồm nghiên cứu, tinh chỉnh, xử lý dữ liệu và cơ sở hạ tầng. Tổng đầu tư AI của Deepseek vượt qua 500 triệu đô la. Cấu trúc nạc của nó tạo điều kiện cho sự đổi mới hiệu quả.
Hình ảnh: Obligame.com
Thành công của Deepseek thể hiện tiềm năng của một công ty AI độc lập được tài trợ tốt. Tuy nhiên, tường thuật "thân thiện với ngân sách" của nó được phóng đại; Hàng tỷ người đầu tư, tiến bộ công nghệ và một nhóm mạnh là yếu tố quan trọng. Mặc dù vậy, chi phí của Deepseek vẫn giảm đáng kể các đối thủ cạnh tranh (ví dụ: 5 triệu đô la cho R1 so với 100 triệu đô la cho TATGPT4O).