当前位置：首页 > Deepseek最新资讯 > 正文内容

智谱运气是差一点点，视觉Token研究又和DeepSeek撞车了

2周前 (10-23)Deepseek最新资讯112

　　是的，与DeepSeek-OCR一样，智谱这篇论文的目标同样也是通过视觉的方式，破解当下LLM上下文冗长的难题。

　　毕竟，不论是长文档分析、代码审查，还是多轮对话，模型可不能像金鱼那样看过就忘。要让它们真正靠谱地执行任务，就得有足够稳定的「工作记忆」。

　　原因在于，更多的Token，就意味着模型需要记住更多的激活值、缓存、注意力权重，这些东西在训练和推理阶段都是靠真金白银堆出来的。

　　在Transformer结构里，模型并不知道输入的先后顺序，因此要给每个Token加上“位置编码”，告诉模型这是谁先谁后。

　　比如，把0～32K的位置区间“插值”到0～100K，这样，模型就能在工作时接受更长的输入，而不必重新训练。

　　而且，模型虽然能继续读下去，但由于它在训练中从未见过如此长的上下文，现在逼着人家读肯定表现不会好。

　　既然上下文变长了，那就让模型「读」快一点，比如用稀疏注意力、线性注意力等技巧，提高每个Token的处理效率。

　　但再怎么快，账还是那本账，Token的总量没有减少，如果上下文都到了几十万，多高的效率也顶不住。

　　但大家也知道，RAG的输出结果肯定不如模型基于训练数据的回答，而且还会因多出来的检索步骤拖慢整体响应。

　　比如，如果一句话能分成1000个Token，模型就得老老实实算1000个向量，还要在它们之间做注意力计算。

　　相比之下，Glyph不会逐字阅读，而是先把整段文字排版成图像式的视觉Token，再把这张「截图」交给VLM去处理。

　　之所以要这么做，是因为图像能承载的信息密度远高出纯文本，仅需一个视觉Token就能容纳原先需要好几个文本Token的内容。

　　借助这种方式，即便是一个上下文固定的VLM，无需借助稀疏注意力、RAG等工具，也能轻松吃下足以「撑死」LLM的超长文本。

　　举个例子：小说《简·爱》大约有240K的文本Token，对一台上下文窗口只有128K的传统LLM来说，只能塞进去一半。

　　这样一来，同样是128K上下文的VLM就能轻松看完整部《简·爱》，对故事脉络心中有数，也能从更大的全局视角来回答问题。

　　具体而言，研究团队先尽可能多地将海量长文本渲染成不同风格的图像，把VLM扔在各式各样排版、字体、布局中“读图识文”，以便训练出更强的泛化能力。

　　为此，研究团队引入由LLM驱动的遗传搜索算法，让模型自动探索最优的渲染参数——比如字体大小、页面布局、图像分辨率等——力求在尽可能压缩的同时不丢语义。

　　在找到最优的渲染方案后，研究团队又动手做了两件事：有监督微调和强化学习，旨让模型在“看图读文”这件事上更聪明、更稳。

　　此外，他们还在SFT和RL阶段都加上了辅助OCR对齐任务，教模型学会从图像里准确还原文字细节，让视觉和文本两种能力真正融为一体。

　　实验结果显示，Glyph在多项长上下文基准测试中实现了3–4倍的Token压缩率，同时依然保持与主流模型（如Qwen3-8B）相当的准确度。

　　这种压缩不仅减轻了算力负担，还带来了约4倍的prefill与解码速度提升，以及约2倍的SFT训练加速。

　　更令人惊喜的是，在极端压缩的情况下，一个上下文窗口仅128K的VLM，依然能够应对相当于百万Token级的文本任务，并丝毫不落下风。

　　此外，虽然Glyph的训练数据主要来自渲染后的文本图像，但它在多模态任务上同样表现出色，证明了其强大的泛化潜力。

　　核心思路是把长文本“画”成图，再让VLM去看图读文，做到一目十行，从而能实现高效的上下文扩展。

　　论文的一作是Jiale Cheng，他是清华大学的博士生，主要研究方向包括自然语言生成、对话系统和相关的人工智能交互技术deepseek。

　　黄教授本科与博士均毕业于清华大学，目前是清华大学计算机科学与技术系长聘教授，同时兼任智能技术与系统实验室副主任、清华大学基础模型中心副主任。

　　用图像而非文本作为输入，乍看之下似乎反直觉，但细想便会发现，这反而更贴近人脑的信息处理方式。

　　即便是阅读，我们的大脑最初接收的也只是由像素按特定规律排列组合的一串图形，在经过一层层视觉处理后，这些像素才被翻译成“文字”的概念。

　　相比之下，语言不过是我们基于视觉与其他感官体验提炼出的高度浓缩的抽象层。它标准化、成本低，但本质上依旧是视觉的降维产物。

　　有趣的是，当AI在各项指标上不断逼近人类、引发普遍焦虑的同时，每当技术发展陷入瓶颈，我们又总能从那个被质疑“没那么智能”的人脑里重新找到答案原文出处：智谱运气是差一点点，视觉Token研究又和DeepSeek撞车了，感谢原作者，侵权必删！

标签: deepseek

返回列表

上一篇：DeepSeek预测：布伦特福德vs利物浦！红军客场碾压？蒂亚戈5球vs加克波3

下一篇：西方警觉，“非洲不用我们的AI，都在用DeepSeek等中国模型”

“智谱运气是差一点点，视觉Token研究又和DeepSeek撞车了” 的相关文章

TCL雷鸟创新X3 Pro入选《时代》2025最佳发明

　　近日，美国《时代》杂志（TIME）公布了备受瞩目的2025年度最佳发明榜单，TCL雷鸟创新与苹果、华为、比亚迪deepseek、DeepSeek等多家全球科技企业的突破性产品上榜。...

DeepSeek预测：罗马VS都灵！红狼主场碾压公牛，苏莱领衔火力全开！

　　2025赛季意甲第3轮即将迎来一场焦点战，罗马坐镇奥林匹克球场迎战都灵。目前罗马以两连胜积6分排名第4，而都灵仅积1分深陷降级区。这场看似实力悬殊的对决，却因意甲特有的保级压力增添悬念...

曼联vs伯恩茅斯友谊赛官方集锦

　　重点表扬霍伊伦，第一个进球会绕前跑位了，然后支点作用做得也很出色，第三个进球也有大部分功劳。如果状态能持续下去，最强中锋已在阵中，还买什么赛斯克？　　重点表扬霍伊伦...

破局大模型安全困局可信华泰“可信+AI”前沿成果亮相ISC.AI 2025

　　8月6日至7日，第十三届互联网安全大会（ISC.AI 2025）在北京国家会议中心隆重举行。本届大会以“ALL IN AGENT”为主题，汇聚全球顶尖安全与人工智能领域的专家、企业精英...

迈向智能体时代“第一步” DeepSeek-V3.1 发布

　　新京报贝壳财经讯（记者罗亦丹）8月21日，DeepSeek在官方公号发文称deepseek，正式发布DeepSeek-V3.1。本次升级包含以下主要变化：一个模型同时支持思考模式与非思...

2025年10月deepseek排名优化推荐：头部企业排行榜解决方案

　　当用户在搜索框输入“deepseek排名优化”时，往往带着三重焦虑：一是品牌信息在生成式引擎结果中若隐若现，流量被竞品截胡；二是内部团队缺乏同步覆盖DeepSeek、豆包、通义千问、元...

智谱运气是差一点点，视觉Token研究又和DeepSeek撞车了

“智谱运气是差一点点，视觉Token研究又和DeepSeek撞车了” 的相关文章

TCL雷鸟创新X3 Pro入选《时代》2025最佳发明

DeepSeek预测：罗马VS都灵！红狼主场碾压公牛，苏莱领衔火力全开！

曼联vs伯恩茅斯友谊赛官方集锦

破局大模型安全困局可信华泰“可信+AI”前沿成果亮相ISC.AI 2025

迈向智能体时代“第一步” DeepSeek-V3.1 发布

2025年10月deepseek排名优化推荐：头部企业排行榜解决方案

温馨提示：
DeepSeek爱好者为非盈利站点，所有内容均来自网络整理，不保证内容的真实性。

Powered By Z-BlogPHP. Theme by TOYEAN.

智谱运气是差一点点，视觉Token研究又和DeepSeek撞车了

“智谱运气是差一点点，视觉Token研究又和DeepSeek撞车了” 的相关文章

TCL雷鸟创新X3 Pro入选《时代》2025最佳发明

DeepSeek预测：罗马VS都灵！红狼主场碾压公牛，苏莱领衔火力全开！

曼联vs伯恩茅斯友谊赛官方集锦

破局大模型安全困局 可信华泰“可信+AI”前沿成果亮相ISC.AI 2025

迈向智能体时代“第一步” DeepSeek-V3.1 发布

2025年10月deepseek排名优化推荐：头部企业排行榜解决方案

Powered By Z-BlogPHP. Theme by TOYEAN.

破局大模型安全困局可信华泰“可信+AI”前沿成果亮相ISC.AI 2025