当前位置：首页 > Deepseek最新资讯 > 正文内容

DeepSeek新模型被硅谷疯夸！用二维视觉压缩一维文字，单GPU能跑

2周前 (10-21)Deepseek最新资讯135

　　因为实在太DeepSeek了。3B规模、指数级效能变革、大道至简，甚至被认为把谷歌Gemini严防死守的商业机密开源了。

　　这个模型瞄准的是大模型处理长文本时的算力爆炸难题……虽然模型参数很小，但四两拨千斤，其背后所代表的“用视觉方式压缩一切”的思想，大道至简，既是人类智能的现实，也不断出现在诸如《三体》的科幻作品中。

　　简单来说，由于一张图能包含大量文字（用的token还更少），所以他们想到并验证了“将视觉作为文本压缩媒介”这一方法——就好比优秀的人看书都是扫一眼就知道内容，不必一字一句读完才理解内容。

　　而且DeepSeek研究后发现，当压缩率小于10倍时（即文本token数是视觉token数的10倍以内），模型OCR解码准确率高达97%；即使压缩率高达20倍，准确率依旧能保持在60%左右，效果相当能打。

　　更主要的是，DeepSeek再次展现了高效能风格，他们的方法之下，生成训练数据——仅凭一块A100-40G GPU，每天就能生成超过20万页的优质LLM/VLM训练数据。

　　所以这个研究一经公布，已经快速在GitHub斩获了3.3K star。HuggingFace则已经热榜第二……X上热议，好评声一片。

　　当然，如此火爆的工作还带了更多思考——不少人看过论文后，认为这种统一视觉与语言的方法，或许是通往AGI的大门之一。

　　既然一张图片能“装下”成千上万个字，那我们能不能把文字信息压缩到图片里，让模型通过“看图”来理解内容呢？

　　本质上来说，这就是一种视觉-文本压缩范式，通过用少量的视觉token来表示原本需要大量文本token的内容，以此降低大模型的计算开销。

　　为验证这一想法，他们构建了3B大小的DeepSeek-OCR模型，结果发现它在主流文档解析基准OmniDocBench上取得了新SOTA。

　　下图显示，DeepSeek-OCR（红色圆点）在“平均每张图的视觉token数”（横轴）上位于最右侧deepseek，这说明它使用的token数量最少；而在“整体性能”（纵轴，越低越好）上，它却达到了SOTA水平，而且大多还是“以小博大”。

　　此外值得一提的是，为了灵活应对不同的压缩比需求和实际应用场景，DeepEncoder被训练成支持从“Tiny”（512x512, 64token）到“Gundam”（动态分块，近800token）等多种输入模式。

　　总之，基于以上原理和组件搭配，目前DeepSeek-OCR除了具备常规识别能力，还支持对金融报表、化学分子式、数学几何图、100多种语言等更为复杂的图像进行深度解析。

　　如此被夸赞的新研究，来自三位研究人员，依然很DeepSeek——几人都相对低调，网上公开资料很少。

　　Haoran Wei，曾就职于阶跃星辰，当时还主导开发了意在实现“第二代OCR”的GOT-OCR2.0系统。

　　此次DeepSeek-OCR的工作也可谓延续了GOT-OCR2.0之前的技术路径，即致力于通过端到端模型解决复杂文档解析问题。

　　Yaofeng Sun，从去年开始就陆续参与DeepSeek多款模型研发，包括R1、V3中都有他的身影。

　　Yukun Li（李宇琨），谷歌学术论文近万引研究员，也持续参与了包括DeepSeek V2/V3在内的多款模型研发。

　　这样一来，理论上模型就可以在处理超长对话或文档时，动态地为不同时期的上下文分配不同数量的计算资源，从而可能构建出一种无限长上下文的架构。

　　之前AI的上下文研究，对于短期中期远期的都是一视同仁，机器味儿十足，但计算资源和响应问题也会相应暴涨……原文出处：DeepSeek新模型被硅谷疯夸！用二维视觉压缩一维文字，单GPU能跑，感谢原作者，侵权必删！

标签: deepseek

返回列表