搜吧 - 智能搜索
  • 钛媒体App 1月13日消息,DeepSeek于12日晚发布新论文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》(基于可扩展查找的条件记忆:大型语言模型稀疏性的新维度)。该论文为北京大学与DeepSeek共同完成,合著作者署名中出现
  • DeepSeek开年王炸!梁文锋发布重磅论文,mHC要颠覆大模型架构? DeepSeek开年王炸!梁文锋发布重磅论文,mHC要颠覆大模型架构?
  • 【DeepSeek发布梁文锋署名新论文 开源相关记忆模块Engram】《科创板日报》13日讯,DeepSeek于12日晚发布新论文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》(基于可扩展查找的条件记忆:大型语言模型稀疏性的新维度)。该论文为北京大学与DeepSeek共同完成,合著作者署名中...
  • DeepSeek梁文峰发表新论文

    2026 年刚开年,DeepSeek就放出了一项重要技术进展。 1月1日,DeepSeek发表论文《Manifold-Constrained Hyper-Connections》,提出一种全新的模型连接结构 mHC(流形约束超连接),直击当前大模型训练领域中长期存在却难以攻克的核心问题:模型越大,训练越不稳定。 该论文由DeepSeek团队完成,创始人兼CEO梁文锋也出现在作者名单...

  • 1月1日,DeepSeek发表论文《Manifold-Constrained Hyper-Connections》,提出一种全新的模型连接结构mHC(流形约束超连接),直击当前大模型训练领域中长期存在却难以攻克的核心问题:模型越大,训练越不稳定。 该论文由DeepSeek团队完成,创始人兼CEO梁文锋也出现在作者名单中。
  • 新年伊始,DeepSeek送上一份重磅贺礼,CEO梁文锋亲自挂帅,发布新论文《Manifold-Constrained Hyper-Connections》,直指AI用了10年的承重墙。 当业界都在卷应用卷智能体,DeepSeek却回头修补AI的地基,mHC方案无需引入任何新的超参数,用极小的额外训练开销,就换来性能和稳定性提升。
  • DeepSeek发布新论文,梁文锋参与署名。 1月1日消息,DeepSeek发布了一篇新论文,提出了一种名为mHC(流形约束超连接)的新架构。该研究旨在解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益。这篇论文的第一作者有三位:Zhenda Xie(解振达)、Yixuan Wei(韦毅轩)、Huanqi Cao。值得注意的是,De...
  • DeepSeek梁文锋署名论文发布!提出新网络架构,旨在解决大规模模型...

    视频DeepSeek梁文锋署名论文发布!提出新网络架构,旨在解决大规模模型训练中的不稳定性问题网友评论 登录后可以发言 发送 网友评论仅供其表达个人看法,并不表明证券时报立场 暂无评论 推荐视频 换一换 兰州财经大学原副校长石镜如,年前主动投案 12-30 17:34 “几乎没怎么动过”,段永平再晒苹果持仓,14年累计收益率超16...

  • 【DeepSeek发布梁文锋署名新论文 开源相关记忆模块Engram】《科创板日报》13日讯,DeepSeek于12日晚发布新论文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》(基于可扩展查找的条件记忆:大型语言模型稀疏性的新维度)。该论文为
  • 【导读】近日,DeepSeek发表了梁文锋署名的重磅新论文,提出了一种名为「mHC(流形约束超连接)」的新架构,在27B参数模型上,仅增加约6.7%的训练时间开销,即可实现显著性能提升。 重磅! 近日,DeepSeek送上2026年新年第一个王炸。 这次的创新是,mHC...