2026年1月2日,DeepSeek在GitHub上开源了引人注目的新作Engram,这项研究正在重新定义我们对大模型认知能力的理解。
从“刷题式学习”到“有记忆的学习”
传统大模型的学习方式令人联想到一个天赋异禀却方法原始的学生:不背课本、不记公式,纯粹依靠海量刷题来形成“手感”。这种学习模式导致模型在处理简单事实查询(如“巴黎是哪个国家的首都”)时,也需要动用与解决复杂推理问题相同的计算资源。
DeepSeek-Engram的突破在于让大模型真正拥有了记忆能力。论文开宗明义地指出,语言任务实际上包含两种截然不同的工作:
组合推理:需要理解、推导和灵活变通的能力
知识检索:提取已固定的信息,如人名、地名、习惯用法等
Engram的本质:内置记忆结构而非外挂知识库
与普遍误解不同,Engram并非简单地为模型添加外部知识库。它是在模型内部构建了一个专门用于存储固定知识的记忆结构,这与人类学习时先背诵基础知识再进行分析推理的过程高度相似。
这种设计解决了长期存在的效率问题:模型不再需要将宝贵的推理算力浪费在基础事实的回忆上,而是可以像人类一样,在需要时自动从记忆中调取相关信息。
技术实现的双重优势
1. 能力提升
Engram让大模型告别了用“理科方法”硬学“文科知识”的尴尬局面。现在:
文科知识记忆变得更准确可靠
理科推理可以更专注于真正的逻辑推导
整体性能因专业化分工而显著提升
2. 工程优化
DeepSeek采用了巧妙的工程实现方案:将记忆内容存储在更廉价、容量更大的CPU内存中,仅在需要时快速调入GPU显存。这种设计既降低了成本,又保证了效率,实现了“记忆丰满,推理轻快”的理想状态。
与MoE技术的完美结合
Engram与混合专家模型(MoE)形成了天然的互补关系。实验显示,70-80%的参数分配给专家系统,20-30%用于记忆功能时,模型达到了最佳的性能平衡。这种分配比例恰如其分地模拟了人类学习中记忆与推理的合理配比。
展望未来
以DeepSeek-V3为基础进行的Engram研究已展现出令人鼓舞的结果。可以预见,从零开始集成Engram能力的DeepSeek-V4将带来更多惊喜。这不仅是技术上的进步,更是大模型向更高效、更类人认知方式迈进的重要里程碑。
这项研究预示着大模型发展的新方向:从单纯追求规模扩张,转向更智能、更高效的认知架构设计。Engram或许正是通往真正智能的关键一步。




还没有评论,来说两句吧...