当前位置: 首页 > news >正文

消费级显卡也能跑清华智谱的GLM-4.6V啦


该模型属于GLM-V系列模型家族,相关论文详见《GLM-4.1V-思维与GLM-4.5V:基于可扩展强化学习的通用多模态推理》。

  • GLM-4.6V技术博客:https://z.ai/blog/glm-4.6v
  • 研究论文:https://huggingface.co/papers/2507.01006
  • GitHub代码库:https://github.com/zai-org/GLM-V
  • 在线演示:https://chat.z.ai/
  • API接入:Z.ai开放平台
  • 桌面助手应用:https://huggingface.co/spaces/zai-org/GLM-4.5V-Demo-App

模型介绍

GLM-4.6V系列包含两个版本:面向云端及高性能集群场景设计的GLM-4.6V基础模型(1060亿参数),以及针对本地部署和低延迟应用优化的轻量版GLM-4.6V-Flash(90亿参数)。GLM-4.6V在训练时将上下文窗口扩展至128k tokens,在同等参数规模模型中实现了视觉理解能力的领先水平。关键突破在于首次集成了原生函数调用能力,有效弥合了"视觉感知"与"可执行动作"之间的鸿沟,为现实商业场景中的多模态智能体提供了统一的技术基础。

超越在可比模型规模下实现了主要多模态基准的SoTA性能。GLM-4.6V引入了以下关键特性:

  • 原生多模态函数调用
    实现视觉驱动的原生工具使用。图像、截图和文档页面可直接作为工具输入传递,无需文本转换,同时视觉输出(图表、搜索图片、渲染页面)会被解析并整合到推理链条中。这形成了从感知到理解再到执行的闭环。

  • 交错式图文内容生成
    支持从复杂多模态输入生成高质量的混合媒体内容。GLM-4.6V接收跨文档、用户输入和工具检索图像的多模态上下文,合成符合任务需求的连贯图文内容。在生成过程中可主动调用搜索检索工具来收集整理额外文本和视觉素材,产出丰富且视觉信息扎实的内容。

  • 多模态文档理解
    能处理长达128K token的多文档/长文档输入,直接将富格式页面作为图像解析。联合理解文本、版式、图表、表格和图形,无需预先转换为纯文本即可准确理解图像密集的复杂文档。

  • 前端复现与视觉编辑
    从UI截图重建像素级精准的HTML/CSS代码,支持自然语言驱动的编辑。通过视觉检测布局、组件和样式,生成简洁代码,并根据简单用户指令进行迭代式视觉修改。

本Hugging Face仓库托管GLM-V系列的GLM-4.6V-Flash模型。

使用指南

环境安装

针对SGLang

pipinstallsglang>=0.5.6.post1 pipinstallnvidia-cudnn-cu12==9.16.0.29sudoaptupdatesudoaptinstallffmpeg

ForvLLM:

pipinstallvllm>=0.12.0 pipinstalltransformers>=5.0.0rc0

Transformers 快速入门

fromtransformersimportAutoProcessor,Glm4vForConditionalGenerationimporttorch MODEL_PATH="zai-org/GLM-4.6V-Flash"messages=[{"role":"user","content":[{"type":"image","url":"https://upload.wikimedia.org/wikipedia/commons/f/fa/Grayscale_8bits_palette_sample_image.png"},{"type":"text","text":"describe this image"}],}]processor=AutoProcessor.from_pretrained(MODEL_PATH)model=Glm4vForConditionalGeneration.from_pretrained(pretrained_model_name_or_path=MODEL_PATH,torch_dtype="auto",device_map="auto",)inputs=processor.apply_chat_template(messages,tokenize=True,add_generation_prompt=True,return_dict=True,return_tensors="pt").to(model.device)inputs.pop("token_type_ids",None)generated_ids=model.generate(**inputs,max_new_tokens=8192)output_text=processor.decode(generated_ids[0][inputs["input_ids"].shape[1]:],skip_special_tokens=False)print(output_text)

评估设置

我们主要使用vLLM作为模型推理的后端。为了在视频任务上获得更快更可靠的性能,我们采用SGLang。要复现我们的榜单结果,建议使用以下解码参数:

  • top_p: 0.6
  • top_k: 2
  • temperature: 0.8
  • repetition_penalty: 1.1
  • max_generate_tokens: 16K

更多使用细节请参考我们的Github。

已修复与现存问题

自GLM-4.1V开源以来,我们收到了社区的大量反馈,并深知模型仍存在诸多不足。在后续迭代中,我们尝试解决了几个常见问题——例如思维重复输出和格式错误——在新版本中这些问题已得到一定缓解。

但模型仍存在若干局限与问题,我们将尽快修复:

  1. 纯文本QA能力仍有较大提升空间。本次开发周期我们主要聚焦视觉多模态场景,将在后续更新中增强纯文本能力
  2. 特定情况下模型仍可能过度思考甚至自我重复,尤其在处理复杂提示时
  3. 某些情境下模型可能在结尾处重复陈述答案
  4. 仍存在部分感知局限,如计数准确性和特定人物识别等仍需改进

感谢您的耐心与理解。我们也欢迎在issue区反馈建议——我们将尽可能回应改进!

引用

若使用本模型,请引用以下论文:

@misc{vteam2025glm45vglm41vthinkingversatilemultimodal, title={GLM-4.5V and GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning}, author={V Team and Wenyi Hong and Wenmeng Yu and Xiaotao Gu and Guo Wang and Guobing Gan and Haomiao Tang and Jiale Cheng and Ji Qi and Junhui Ji and Lihang Pan and Shuaiqi Duan and Weihan Wang and Yan Wang and Yean Cheng and Zehai He and Zhe Su and Zhen Yang and Ziyang Pan and Aohan Zeng and Baoxu Wang and Bin Chen and Boyan Shi and Changyu Pang and Chenhui Zhang and Da Yin and Fan Yang and Guoqing Chen and Jiazheng Xu and Jiale Zhu and Jiali Chen and Jing Chen and Jinhao Chen and Jinghao Lin and Jinjiang Wang and Junjie Chen and Leqi Lei and Letian Gong and Leyi Pan and Mingdao Liu and Mingde Xu and Mingzhi Zhang and Qinkai Zheng and Sheng Yang and Shi Zhong and Shiyu Huang and Shuyuan Zhao and Siyan Xue and Shangqin Tu and Shengbiao Meng and Tianshu Zhang and Tianwei Luo and Tianxiang Hao and Tianyu Tong and Wenkai Li and Wei Jia and Xiao Liu and Xiaohan Zhang and Xin Lyu and Xinyue Fan and Xuancheng Huang and Yanling Wang and Yadong Xue and Yanfeng Wang and Yanzi Wang and Yifan An and Yifan Du and Yiming Shi and Yiheng Huang and Yilin Niu and Yuan Wang and Yuanchang Yue and Yuchen Li and Yutao Zhang and Yuting Wang and Yu Wang and Yuxuan Zhang and Zhao Xue and Zhenyu Hou and Zhengxiao Du and Zihan Wang and Peng Zhang and Debing Liu and Bin Xu and Juanzi Li and Minlie Huang and Yuxiao Dong and Jie Tang}, year={2025}, eprint={2507.01006}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2507.01006}, }
http://www.cnnetsun.cn/news/59056.html

相关文章:

  • Apache DolphinScheduler任务管理:4步搞定流程中断恢复难题
  • AutoGPT执行道德困境判断任务的表现评测
  • 2025视频生成效率革命:LightVAE如何让显存减半速度翻倍?
  • React Native相机开发终极指南:3小时从入门到图像识别实战
  • 彻底解决yuzu模拟器中文乱码:从诊断到完美修复的完整指南
  • YOLO目标检测图像标注工具深度评测:从技术原理到实战应用
  • FLUX.1-dev FP8量化技术完整指南:中低端显卡AI绘画终极解决方案
  • BewlyBewly:重新定义你的B站视觉体验
  • 44、Java 函数式编程资源与技术全解析
  • 终极PDF预览解决方案:Vue 3集成完整指南
  • 90亿参数挑战720亿性能壁垒:GLM-4.1V-Thinking重新定义多模态推理范式
  • 终极指南:在iPhone上快速运行Java游戏的完整解决方案
  • 13、OpenShift 与 Ansible Container:容器部署的全面指南
  • 本地AI研究助手深度定制技术解析
  • Bananas:简单快速实现跨平台屏幕共享的完整指南
  • Higress云原生网关监控告警体系构建实战
  • vue基于Spring Boot的乡村耕地服务平台 农业技术宣传系统_xo20z80q
  • 0.5B参数引爆终端AI革命:腾讯Hunyuan-0.5B-FP8如何重新定义边缘智能
  • 音频特征提取终极指南:用MFCC让机器真正“听懂“声音
  • 337亿市场新引擎:Step-Audio-AQAA开源端到端语音大模型重构交互范式
  • S-UI Windows版快速部署指南:10分钟完成专业网络面板搭建
  • Mobaxterm-Chinese深度评测:一站式远程终端解决方案性能分析
  • Windows Hyper-V运行macOS虚拟机全攻略:30分钟免费安装指南
  • 20亿参数撬动物理世界:Perceptron发布Isaac-0.1多模态智能模型
  • Android可访问性开发实践指南
  • 3分钟玩转终端网络分析神器Termshark:告别Wireshark的笨重体验
  • 远程控制软件的智能带宽优化技术深度解析
  • NextStep-1颠覆图像生成:连续令牌技术开启自回归模型新纪元
  • 腾讯MimicMotion开源:虚拟人动画制作效率提升300%,成本直降70%
  • 3步解决Nacos配置同步难题:实战型终极方案