DeepSeek V3-0324：在开源AI领域超越Google Gemini和Claude

南希

2025-03-27

关键亮点

研究职位 DeepSeek V3-0324 作为领先的开源非推理人工智能模型，在实时应用中表现出色。
它在人工智能分析指数基准上获得了最高分，超过了 Google Gemini 2.0 Pro 和 Anthropic Claude 3.7 Sonnet 等专有模型。
它建立在混合专家 (MoE) 架构之上，可激活其 6710 亿个总参数中的 370 亿个，从而提高效率。
量化技术（例如 Unsloth 的动态 GGUF）使其可以在有限的硬件上访问。
在强大的社区参与下，用户正在制作各种应用程序，暗示未来推理能力的增强。

业绩概览

DeepSeek V3-0324 在非推理任务中表现出色，尤其是在聊天机器人、客服自动化和实时翻译等实时场景中。它在 Aider 的多语言基准测试中获得了 55% 的成绩，仅次于 Sonnet 3.7，这反映出其强大的知识保留和问题解决能力（Analytics Vidhya）。它在延迟敏感场景中优于专有模型的优势源于其高效的 MoE 架构。

技术细节

它总共拥有 6710 亿个参数，但通过多头潜在注意力 (MLA) 和 DeepSeekMoE (GitHub)，每个任务仅激活 370 亿个参数。它拥有 128k 上下文窗口（API 上限为 64k），在 FP8 精度下需要超过 700GB 的 GPU 内存，并已获得 MIT 许可，可广泛使用和修改（Hugging Face）。

应用和未来潜力

它针对聊天机器人和客服等非复杂推理任务进行了优化，支持函数调用、JSON 输出和 FIM 补全。Hugging Face 等平台上的活跃社区建议未来进行升级，这有可能使其成为 DeepSeek-R2 (Medium) 的基础。

DeepSeek V3-0324：超越 Google Gemini 和 Claude

DeepSeek V3-0324 为人工智能领域树立了新标杆，尤其是在人工智能分析智能指数 (AAII) 这一旨在评估模型在不同任务中性能的基准测试中。它的突破之处在于，它在非推理领域的表现超越了 Google Gemini 2.0 Pro 和 Anthropic Claude 3.7 Sonnet 等重量级产品，这充分彰显了其创新设计和开源可访问性。

在 AAII 中，DeepSeek V3-0324 的高分体现了其对实时、延迟敏感任务的卓越处理能力。与 Google Gemini 2.0 Pro 不同，后者凭借其专有优势平衡了推理和非推理能力，而 DeepSeek 则专注于非推理能力的卓越表现，从而提供更快、更高效的响应。与以细致入微的语言处理而闻名的 Claude 3.7 Sonnet 相比，DeepSeek 的 MoE 架构（仅激活其 6710 亿个参数中的一小部分）提供了一种更精简、更具成本效益的替代方案，且性能丝毫不受影响（Analytics Vidhya）。

这一对比揭示了一个关键优势：专有模型通常依赖于庞大的计算资源和封闭的生态系统，而 DeepSeek V3-0324 则实现了高性能的普及。其选择性参数激活技术大幅降低了资源需求，即使在量化后性能较差的硬件上也能成为有力的竞争对手。专家们将此视为 AI 效率的“范式转变”，并将 DeepSeek 定位为开源创新的先驱（VentureBeat）。

详细报告

2025年3月24日发布DeepSeek 开发的 DeepSeek V3-0324 是一款开源非推理 AI 模型，在 AAII 基准测试中领先，超越了 Google Gemini 2.0 Pro、Anthropic Claude 3.7 Sonnet 和 Meta 的 Llama 3.3 70B（Analytics Vidhya）等专有模型。本报告探讨了其性能、技术细节、应用场景和社区影响。

性能分析

DeepSeek V3-0324 在非推理任务中表现出色，在聊天机器人、客户服务自动化和翻译等实时应用中表现出色。它在 Aider 的多语言基准测试中获得了 55% 的成绩，仅次于 Sonnet 3.7，展现出强大的知识保留能力 (Analytics Vidhya)。其相对于专有模型的延迟优势归功于其 MoE 架构，通过 MLA 和 DeepSeekMoE (GitHub)，每个任务仅激活 6710 亿个参数中的 370 亿个。这种效率可与大型模型相媲美，同时降低了计算负载 (VentureBeat)。

技术规格

上下文窗口：128k（API 限制为 64k）
参数：总额 6710 亿，活跃 370 亿
记忆：FP8 精度超过 700GB GPU
功能：纯文本，不支持多模式
执照：麻省理工学院（拥抱脸）

其 MoE 设计仅激活相关的“专家”，这些专家经过 14.8 万亿个高质量 token 的训练，并采用监督式微调和强化学习。仅需 278.8 万个 H800 GPU 小时，极具成本效益（GitHub）。

量化和可访问性

DeepSeek 的规模通常需要企业硬件，但 Unsloth 的动态 GGUF 支持量化版本以实现更广泛的用途：

MoE 位	磁盘大小	类型	质量	关联
1.71位	51GB	IQ1_S	好的	拥抱脸
1.93位	178GB	IQ1_M	公平的	拥抱脸
2.42位	203GB	IQ2_XXS	更好的	拥抱脸
2.71位	232GB	Q2_K_XL	好的	拥抱脸
3.5位	320GB	Q3_K_XL	伟大的	拥抱脸
4.5位	406GB	Q4_K_XL	最好的	拥抱脸