当前位置：首页 > news >正文

20亿参数重塑终端AI：GLM-Edge-V-2B开启多模态边缘计算新时代

news 2026/6/30 19:00:29

导语

【免费下载链接】glm-edge-v-2b项目地址: https://ai.gitcode.com/zai-org/glm-edge-v-2b

智谱AI推出的GLM-Edge-V-2B多模态模型以20亿参数实现70tokens/s端侧推理速度，重新定义边缘设备的智能交互标准，推动AI从云端向终端全面渗透。

行业现状：终端AI的"效率革命"

2025年，全球智能终端市场正迎来"AI原生"转型。IDC最新报告显示，中国智能终端出货量将突破9亿台，其中具备本地AI处理能力的设备占比达78%。然而，传统多模态模型因参数规模过大（通常10B+），难以在手机、工业传感器等边缘设备部署。行业调研显示，仅31%的企业成功将多模态AI落地至终端场景，核心瓶颈在于"性能-效率"矛盾——高精度推理需求与终端算力、功耗限制之间的冲突。

在此背景下，轻量化模型成为破局关键。GLM-Edge-V-2B作为专为边缘优化的多模态解决方案，通过架构创新和量化技术，将模型参数量压缩至20亿级，同时保持91.7%的图像理解准确率，填补了行业空白。

核心亮点：三大技术突破重构终端智能

1. 极致轻量化的多模态架构

GLM-Edge-V-2B采用动态分辨率处理技术，可根据输入内容自适应调整计算资源分配。在高通骁龙8 Elite平台测试中，模型实现70tokens/s的解码速度，较同类2B参数模型提升40%；配合INT4量化优化后，内存占用仅3.5GB，可流畅运行于主流智能手机和边缘网关设备。

2. 即插即用的部署生态

模型深度兼容Hugging Face Transformers框架，提供简洁的推理接口。核心代码仅需20行即可完成图像描述任务：

import torch from PIL import Image from transformers import AutoTokenizer, AutoImageProcessor, AutoModelForCausalLM # 加载模型与处理器 model_dir = "THUDM/glm-edge-v-2b" processor = AutoImageProcessor.from_pretrained(model_dir, trust_remote_code=True) tokenizer = AutoTokenizer.from_pretrained(model_dir, trust_remote_code=True) model = AutoModelForCausalLM.from_pretrained( model_dir, torch_dtype=torch.bfloat16, device_map="auto", trust_remote_code=True ) # 图像-文本推理 image = Image.open("img.png") messages = [{"role": "user", "content": [{"type": "image"}, {"type": "text", "text": "describe this image"}]}] inputs = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt").to(model.device) output = model.generate(**inputs, pixel_values=processor(image).pixel_values, max_new_tokens=100) print(tokenizer.decode(output[0][len(inputs["input_ids"][0]):], skip_special_tokens=True))

如上图所示，GLM-Edge-V-2B的Gradio演示界面支持图像上传与多轮对话，模型可实时生成精准的图像描述。这一交互范式不仅简化了开发流程，更让终端设备具备"看见即理解"的能力，为智能交互开辟新可能。