deepspeak发展史

公司成立与早期发展

成立时间:DeepSeek由杭州深度求索人工智能基础技术研究有限公司于2023年7月17日正式成立,其母公司为量化资管巨头幻方量化,创始人梁文峰在量化投资和AI领域经验丰富。

初期目标:专注于开发先进的大语言模型(LLM)及相关技术,致力于通过数据蒸馏技术提升模型性能。

deepspeak发展史

关键技术突破与模型发布

2023年:开源起步,奠定基础

11月2日:发布开源代码大模型DeepSeek Coder,支持多语言代码生成与调试,在HumanEval等基准测试中超越同类开源模型CodeLlama。

11月29日:推出首个通用语言模型DeepSeek LLM(670亿参数),涵盖基础模型与对话模型,同步开放在线体验平台。

2024年:架构创新,性能跃升

5月7日:发布采用Mixture-of-Experts(MoE)架构的DeepSeek-V2模型,总参数量2360亿,激活参数210亿。在性能接近GPT-4 Turbo的同时,训练成本降低42.5%,KV缓存减少93.3%,生成吞吐量提升5.76倍。

12月26日:推出DeepSeek-V3.总参数量达6710亿,激活参数约370亿。引入多词元预测(MTP)等技术,推理速度提升至60 TPS(每秒生成token数),在知识类任务、代码生成、数学能力等领域表现接近Claude-3.5-Sonnet等顶级闭源模型。

2025年:推理突破,生态扩展

1月20日:正式发布开源推理模型DeepSeek-R1.性能超越OpenAI o1模型。该模型通过强化学习与蒸馏技术增强复杂推理能力,训练成本仅为同类模型的1/20.发布后迅速登顶中美应用商店下载榜。

1月27日:发布多模态框架Janus-Pro和JanusFlow,统一多模态理解与生成能力。

2月:开启“开源周”,连续开源FlashMLA(GPU加速引擎)、DeepEP(MoE通信库)、DeepGEMM(矩阵计算库)等核心工具,显著提升训练与推理效率。

2月21日:App累计下载量超1.1亿次,周活跃用户近9700万,市场影响力急剧扩大。

技术架构创新

DeepSeek在技术架构上实现了多项突破:

MoE架构:通过稀疏激活机制,大幅降低计算成本,提升参数效率。

Multi-head Latent Attention(MLA):采用低秩压缩技术,减少推理时的缓存占用和计算量。

强化学习应用:在DeepSeek-R1等模型中使用强化学习优化推理过程,增强逻辑性和可解释性。

市场影响与产业合作

行业震动:DeepSeek-R1的低成本高效能模型,冲击了以英伟达为主导的算力生态,引发市场对AI算力需求预期的重新评估。

产业融合:DeepSeek与AMD、国家超算互联网平台、三大运营商、比亚迪、华为、小米等企业合作,推动AI技术在云服务、汽车、终端等领域的落地。

开源战略:坚持开源策略,降低技术门槛,促进开发者生态繁荣,加速AI技术普及。

中文优化与特色

DeepSeek特别注重中文语境优化,通过大量中文语料训练,显著提升了在中文理解、表达及网络流行语处理上的表现,使其更贴合本土用户习惯。

总结

DeepSeek自2023年成立以来,通过持续的技术创新、高效的开源策略和广泛的产业合作,在短时间内实现了从代码模型到通用模型、再到推理模型的快速迭代,成为全球AI领域的重要竞争者。其发展史体现了中国在AI算法效率与工程化落地方面的领先地位。

© 版权声明

相关文章

暂无评论

none
暂无评论...