DeepSeek令人惊讶的是,廉价的AI模型挑战了行业巨头。尽管声称DeepSeek V3的培训成本仅为600万美元,但仔细观察仍表明投资要大得多。
DeepSeek的自我引言:“嗨,我是被创造的,所以您可以问任何事情并得到一个甚至可能使您感到惊讶的答案,”它的野心强调。该AI显着影响了市场,特别是导致NVIDIA的主要股票下跌。
图像:ensigame.com
DeepSeek V3的创新架构是其性能的关键:
- 多语预测(MTP):同时预测多个单词,提高准确性和速度。
- 专家的混合物(MOE):使用256个神经网络,每个令牌激活8个,加速培训并提高性能。
- 多头潜在注意力(MLA):反复提取关键细节,最大程度地减少信息丢失并增强细微差别的理解。
图像:ensigame.com
但是,半分析揭示了DeepSeek广泛的基础设施:大约50,000个NVIDIA HOPPER GPU(包括H800,H100和H20单位)分布在多个数据中心。服务器总投资估计为16亿美元,运营成本达到9.44亿美元。
高级飞行者的子公司DeepSeek拥有其数据中心,提供控制和更快的创新实施。它的自筹资金地位增强了敏捷性。高薪(一些研究人员每年超过130万美元)吸引了中国顶级人才。
图像:ensigame.com
耗资600万美元的培训成本索赔具有误导性,仅代表GPU前的使用,不包括研究,改进,数据处理和基础架构。 DeepSeek的AI总投资超过了5亿美元。它的精益结构有助于有效的创新。
图像:ensigame.com
DeepSeek的成功展示了一家资金充足的独立AI公司的潜力。但是,其“预算友好”的叙述被夸大了。数十亿美元的投资,技术进步和强大的团队是关键因素。尽管如此,DeepSeek的成本仍然大大降低了竞争对手的速度(例如,R1的500万美元,而Chatgpt4o的1亿美元)。