您现在的位置是：热点 >>正文

DeepSeek甩出了一张“王炸”

热点7人已围观

简介12月26日消息，国产大模型DeepSeek推出DeepSeek-V3，一个强大的混合专家Mixture-of-Experts, MoE）语言模型。主要的技术迭代是671B的MoE，37B的激活参数， ...

12月26日消息，王炸国产大模型DeepSeek推出DeepSeek-V3，甩出一个强大的王炸混合专家（Mixture-of-Experts, MoE）语言模型。主要的甩出技术迭代是671B的MoE，37B的王炸激活参数，在14.8万亿个高质量token上进行了预训练。甩出

AI圈表示，王炸“圣诞节真的甩出来了”。

DeepSeek甩出了一张“王炸”

翻译翻译，王炸首先，甩出从训练时间看，王炸正如DeepSeek在发布报告中指出的甩出那样，“尽管其表现出色，王炸DeepSeek-V3的甩出完整训练仅需2.788M H800 GPU小时。”

打个比方，王炸如果对标Llama 3 系列模型，其计算预算为 3930 万 H100 GPU Hours—— 大约可以训练 DeepSeek-V3 十五次。

从成本上看，如果我们假设 H800 GPU 的租金为每 GPU 小时 2 美元，DeepSeek-V3 的总训练成本仅为 557.6万美元。

不仅如此，在最新发布的技术报告里，经过与DeepSeek-V2.5、Qwen2.5-72B-Inst、Llama-3.1-405B-Inst、GPT-4o-0513和Claude-3.5-Sonnet-1022几个模型的跑分， DeepSeek-V3 在多个性能基准测试中表现出色。

在MATH500、AIME2024和Codeforces三个维度更是遥遥领先，数学和编程能力极强，一度超过 GPT-4o 和 Claude 3.5 Sonnet 这两大领先的闭源模型。

虽然在某些语言理解和软件工程任务中稍有逊色，但也是TOP2尖子选手。

DeepSeek自言，这得益于采用了Multi-head Latent Attention (MLA)和DeepSeek MoE架构，实现了高效的推理和经济高效的训练。

又引入了辅助损失自由负载平衡策略和多token预测训练目标，提升了模型性能。同时，在14.8万亿个高质量token上进行了预训练时，通过监督微调和强化学习阶段充分挖掘了其潜力。

综合评估显示，DeepSeek-V3优于其他开源模型，性能接近领先的闭源模型。并且，训练过程非常稳定，没有遇到不可恢复的损失峰值或回滚。相比之下，在同一天，ChatGPT再次宕机，修复时间尚未确定。

Meta AI 研究科学家田渊栋在X上对 DeepSeek-V3 “极有限的预算”和“强劲的表现”深感惊喜。

曾为 Glean 和 Google Search 的创始团队成员的 VC Deedy更是将DeepSeek-V3赞为“世界上最好的开源大模型”。

DeepSeek-V3的基础模型以英语和中文为主的多语言语料库上进行预训练，因此主要在一系列以英语和中文为主的基准测试上评估其性能，同时也在一个多语言基准测试上进行评估。而基于其内部集成的HAI-LLM框架，具体跑分如下：

如上可以看到 V3 在英语、编程、数学、中文、多语言几个维度的表现。

英语（English）：DeepSeek-V3 Base 在大多数测试中表现最佳，例如在 BBH(EM)、MMLU(EM)、MMLU-Redux(EM)、DROP(F1)、ARC-Easy(EM)、ARC-Challenge(EM)、HellaSwag(EM)、PIQA(EM)、WinoGrande(EM)、TriviaQA(EM) 和 AGIEval(EM) 等测试中。在 Pile-test(BPB) 基准测试中，DeepSeek-V3 Base 的得分为 0.548，也略高于其他模型。

代码（Code）：DeepSeek-V3 Base 在 HumanEval(Pass@1)、MBPP(Pass@1)、LiveCodeBench-Base(Pass@1)、CRUXEval-I(EM) 和 CRUXEval-O(EM) 等测试中表现突出。

数学（Math）：DeepSeek-V3 Base 在 GSM8K(EM)、MATH(EM)、MGSM(EM) 和 CMath(EM) 等测试中表现优异。

中文（Chinese）：DeepSeek-V3 Base 在 CLUEWSC(EM)、C-Eval(EM)、CMMLU(EM)、CMRC(EM)、C3(EM) 和 CCPM(EM) 等测试中表现良好。

多语言（Multilingual）：DeepSeek-V3 Base 在 MMMLU-non-English(EM) 测试中表现最佳。

由于DeepSeek“大方”开源，Open AI水灵灵地被网友cue进行横向对比，有一种被push的支配感。

不少玩家还在X上分享了自己的使用体验，认为DeepSeek-V3 很“聪明”，并对Deepseek团队表示极大的尊重。

DeepSeek 是一家创新型科技公司，长久以来专注于开发先进的大语言模型（LLM）和相关技术，由知名私募巨头幻方量化孕育而生，作为大厂外唯一一家储备万张 A100 芯片的公司，幻方量化为DeepSeek的技术研发提供了强大的硬件支持。

早在通过开源大模型如 DeepSeek Coder 等，DeepSeek 就展示了在人工智能技术领域的实力。DeepSeek V2 模型的发布，更是提供了一种史无前例的性价比，推动了中国大模型价格战的发展，并因其创新的 MLA 架构和 DeepSeekMoESparse 结构而受到业界的广泛关注。

DeepSeek 被硅谷誉为“来自东方的神秘力量”，其 V2 模型论文在当时即被认为可能是今年最好的一篇。

半年后，DeepSeek 带着 V3 再次登场，用行动说明，中国大模型创业者，也可以加入到这场全球技术创新的 AI 竞赛中。

Tags：

上一篇：韩国客机失事最惨一幕引网友泪奔：1家9口空难离世家中仅剩1条狗

下一篇：TA：阿森纳对阵摩纳哥比赛中，场边球童都是俱乐部U8青训球员

小人物有大梦想！亚布塞莱上半场9中6得到15分3板1助
热点
12月31日讯 NBA常规赛，76人半场以64-54领先开拓者。上半场比赛，亚布塞莱出战13分27秒，投篮9中6，三分4中2，罚球1中1，得到15分3篮板1助攻。 ...

2025-01-05 12:49【热点】
阅读更多
瓶颈期19岁梅努1年前横空出世&踢欧洲杯，赛季0球0助身价5500万
热点
12月27日讯在今天凌晨进行的英超第18轮比赛中，曼联0-2狼队，联赛近5轮1胜4负，小将梅努在其中4场首发出战，但都表现不佳。2023年2月，年仅17岁的梅努完成了英超首秀，2023/24赛季，梅 ...

2025-01-05 12:06【热点】
阅读更多
雪花有几个瓣? 你可能还真不清楚！
热点
冬天的仪式感，就是天空中飘来第一场雪，整个城市焕然一新，变得银装素裹。在天文研究者的眼睛里，雪花是什么样的呢？翻开《仰望天空的少年》系列中的《去北方看雪》一册，寒星和影月在一场鹅毛大雪中开心又惊喜，他 ...

2025-01-05 11:41【热点】
阅读更多

您现在的位置是：热点 >>正文

DeepSeek甩出了一张“王炸”

相关文章

小人物有大梦想！亚布塞莱上半场9中6得到15分3板1助

瓶颈期19岁梅努1年前横空出世&踢欧洲杯，赛季0球0助身价5500万

雪花有几个瓣? 你可能还真不清楚！

热门文章

最新文章

友情链接