搜吧 - 智能搜索
  • 梁文锋署名论文发布 1月1日消息,DeepSeek赶在新年前发送了“贺礼”,在新论文中提出了名为mHC(流形约束超连接)的新网络架构,旨在解决传统架构在大规模模型训练中的不稳定性问题,这一研究或将为下一代基础架构的演进指明新方向。 新论文名为《mHC :Manifold-Constrained Hyper-Connections》(《mHC:流形约束超连接 》...
  • 梁文锋署名,最新论文发布

    近日DeepSeek创始人梁文锋等人发表了一篇名为《Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for Al Architectures(深入了解DeepSeek-V3:人工智能架构硬件的扩展挑战与思考)》的回顾性论文。 这篇论文深入分析了DeepSeek-V3/R1模型架构及其人工智能基础...

  • 梁文锋发表Nature封面论文:揭开DeepSeek-R1背后的科学原理...

    2025 年 9 月 17 日,DeepSeek 研究团队在国际顶尖学术期刊 Nature 上发表了题为:DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning 的研究论文,梁文锋为论文通讯作者,该论文还被选为本期封面论文。该论文揭示了 DeepS...

  • 【DeepSeek 发布梁文锋署名新论文 开源相关记忆模块 Engram】《科创板日报》13 日讯,DeepSeek 于 12 日晚发布新论文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》(基于可扩展查找的条件记忆:大型语言模型稀疏性的新维度)。该论文为北京大学与 DeepSeek 共同完成,合...
  • 完整版|梁文峰最新DeepSeek V3论文!揭秘如何用低性能GPU,训练出...

    梁文锋亲自参与的DeepSeek最新论文,来了! 刚刚,DeepSeek发布了最新一篇围绕DeepSeek-V3 的技术论文!标题是《Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures 》 这篇论文探讨了DeepSeek-V3模型在扩展过程中面临的硬件挑战,并提出了一系列硬件与模型协同设计的解决方案。

  • 今日凌晨,DeepSeek 开源全新架构模块「Engram」并发布技术论文,署名作者有。Engram 引入可扩展的查找式记忆结构,为大模型提供新的稀疏性维度。当前主流大模型处理「查表式」记忆和复杂推理计算任务时存在结构性低效,Engram 基于现代化哈希 N-Gram 嵌入实现 O (1) 查找式记忆,检索成本稳定,提供「条件记忆」,通常置于...
  • 打破蒸馏质疑!梁文锋论文登上《自然》封面|论文_新浪科技_新浪网

    快科技9月18日消息,据媒体报道,由DeepSeek团队共同完成、梁文锋担任通讯作者的DeepSeek-R1推理模型研究论文,近日登上国际顶级学术期刊《自然》(Nature)的封面,引发广泛关注。 与今年1月发布的初版论文相比,本次正式发表的版本披露了更多模型训练的技术细节,并对发布初期外界有关“蒸馏”方法的质疑作出了正面回应。

  • 新年伊始,DeepSeek 送上一份重磅贺礼,CEO 梁文锋亲自挂帅,发布新论文《Manifold-Constrained Hyper-Connections》,直指 AI 用了 10 年的承重墙。当
  • DeepSeek突发梁文锋署名新论文:V4新架构提前曝光?|推理_新浪财经_新浪...

    今天凌晨,喜欢闷声做大事的 DeepSeek 再次发布重大技术成果,在其 GitHub 官方仓库开源了新论文与模块 Engram,论文题为 “Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models”, 梁文锋再次出现在合著者名单中。

  • 今天凌晨,喜欢闷声做大事的 DeepSeek 再次发布重大技术成果,在其 GitHub 官方仓库开源了新论文与模块Engram,论文题为 “Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models”, 梁文锋再次出现在合著者名单中。 与传统的大模型架构相比,该方法提出了一种新的“查—算分离”...