搜吧 - 智能搜索
  • 2026年4月29日,据相关媒体报道,DeepSeek正式启动识图模式的灰度测试,在网页端与移动端同步上线。该模式与快速模式、专家模式并列,用户可通过上传图片触发模型对图像内容的理解、描述与分析,标志着DeepSeek在多模态技术路径上完成了关键布局。识图模式具备图像推理能力——在测试中,它能识别图片背后的隐喻而非简单描述画...
  • 既然大一统多模态模型这么好,能既理解图像,又生成图像,为什么到今天OpenAI还在用GPT4V+Dalle这样的流水线模型处理理解和生成呢?因为大一统多模态模型既难训练,效果又不好。比如Deepseek最初也采用了统一的Transformer架构来处理文生图任务。理论上,这种方法很优雅:同一个模型,采用一个多模态的编码器,既理解文本输入,又...
  • DeepSeek-V4终于来了,一手实测看看有多强 - 哔哩哔哩

    除非你上传的图片是带文字的,可以被正常识别出来。但这应该是采用OCR提取了文字,再丢给模型去处理,并非模型本身支持多模态。: 其它复杂性的任务老马就没有继续测了,其实如果能达到Claude Sonnet 4.5,甚至优于Sonnet 4.5,接近Sonnet 4.6水平。 那DeepSeek-V4简直是性价比爆棚了,要知道天下苦Claude久矣。所以小伙伴们...

  • #科技佳ZHJ[超话]# deepseekV4模型来了,... 来自科技佳ZHJ - 微博

    deepseekV4模型来了,这次真的能支持多模态!之前因为不支持多模态所以很少再用deepseek了,现在看了可以转回deepseek的怀抱了。deepseek还做了对国产芯片的支持。不知道什么时候能ai才能做到软硬件协同,到时候智能生活就真的触手可及了#DeepSeek V4将于4月下旬发布##deepseekv4会带来哪些惊喜# û收藏 1 13 ...

  • 刚刚!DeepSeek加入多模态功能_手机新浪网

    此前,DeepSeek一直不支持多模态功能,而纯文本模型虽能回答问题,却无法理解用户的屏幕、截图、网页、表格和文档。 据业内推测,DeepSeek多模态功能最可能率先落地图片理解、OCR、文档解析、图表分析和截图问答等场景,短期内应该不会发布图像生成或视频模型。

  • SiliconCloud 上线 DeepSeek 多模态模型:Janus-Pro-7B 来了

    1月28日凌晨,DeepSeek 开源了统一图像理解与生成的多模态大语言模型 Janus-Pro,其在多模态理解和图像生成指令执行能力方面取得了显著进步,同时提高了文本到图像生成的稳定性。其中,Janus-Pro-7B 在 GenEval 和 DPG-Bench 基准测试中击败了 DALL-E 3 和 Stable Diffusion。

  • DeepSeek在去年春节的现象级走红,曾一度被捧上神坛,不过,伴随国产AI的竞速加剧,来自智谱、MiniMax、Kimi等大模型公司的迅速迭代,DeepSeek正在面临激烈竞争。 此前4月18日,澎湃新闻记者从多位创投圈人士处证实,DeepSeek正在开启其首次外部融资。此前据外媒报道,DeepSeek目标估值超过100亿美元,据外媒援引知情人士透露,De...
  • VL2 的发布,标志着 DeepSeek 多模态能力从“通用理解”迈向“专业生成”。 二、核心架构解析:四大技术创新驱动融合 2.1 混合专家(MoE)架构:兼顾容量与效率 传统多模态模型采用稠密架构,所有参数参与每次推理,导致计算成本高昂。DeepSeek-VL2 首创多模态 MoE 架构: ...
  • 确认!DeepSeek多模态AI已经开测|DeepSeek-V4|模型|视觉|研究员|...

    放出消息的两位研究员,其中一位是陈小康,DeepSee多模态研究组负责人,北大博士毕业。 他是DeepSeek两个重磅多模态项目的核心作者: Janus系列 统一多模态理解与生成模型; DeepSeek-VL2 基于MoE架构的视觉语言模型。 简单说,DeepSeek的视觉能力,就是他带队搞出来的。

  • DeepSeek 公布多模态模型技术报告

    IT之家 4 月 30 日消息,DeepSeek 在 GitHub 平台正式发布了其多模态大模型,并同步公开了配套技术报告。该报告提出了一种基于“视觉原语”的创新推理框架,旨在突破当前多模态大语言模型(MLLMs)在空间参照任务中的核心瓶颈。 技术报告指出,尽管多模态大语言模型近年来取得长足进步,但主流的链式思维(CoT)推理范式仍主...