当前位置: 首页 > news >正文

Agent学习——小米MiMo-V2-Flash使用方法

一、MiMo-V2-Flash的亮点
①API 定价为输入$0.1/M tokens,输出$0.3/M tokens,且目前限时免费,推理成本仅为Claude 4.5 Sonnet的2.5%。

②在多个Agent测评基准中保持全球开源模型Top 2,代码能力强。

③使用场景多为智能通场景设计,支持深度思考和联网搜索。

④架构上使用混合注意力机制和多层MTP进行推理加速。

⑤模型权重和推理代码使用的是MIT协议,适用商业场景。

二、技术剖析

①窗口大小为128

②原生支持32K上下文,外扩技术支持可达256K的上下文处理

多层MIT推理加速,并行效率倍增

三、在线体验

①体验链接:https://aistudio.xiaomimimo.com

②API地址(限时免费哦!各位白嫖党抓紧机会!!!):https://platform.xiaomimimo.com/

③收费定价:输入 $0.1/M tokens,输出 $0.3/M tokens

③本地部署:

a.模型权重:https://hf.co/XiaomiMiMo/MiMo-V2-Flash

b.GitHub仓库:https://github.com/xiaomimimo/MiMo-V2-Flash

四、模型效果

从公布的基准测试图中看,性能上有了些许提升,主要的提升应该还是在Agent场景、推理效率的提升和价格吧!但是目前架不住他免费呀!!!

五、调用方法

由于MiMo-V2-Flash 已封装成 OpenAI-Compatible HTTP 服务,启动后直接用OpenAI SDK 或curl -i http://localhost:9001/v1/chat/completions,模型路径、推理参数全部在启动命令里一次性配好,无需再写 .from_pretrained()。以下是四种不同场景的调用方式:

# ①启动服务 pip install sglang python3 -m sglang.launch_server \ --model-path XiaomiMiMo/MiMo-V2-Flash \ --served-model-name mimo-v2-flash \ --tp-size 8 --trust-remote-code \ --host 0.0.0.0 --port 9001 # ②API调用 from openai import OpenAI client = OpenAI(base_url="http://localhost:9001/v1", api_key="dummy") response = client.chat.completions.create( model="mimo-v2-flash", messages=[{"role": "user", "content": "Nice to meet you MiMo"}], max_tokens=4096, temperature=0.8, top_p=0.95, stream=True, extra_body={"chat_template_kwargs": {"enable_thinking": True}} ) for chunk in response: print(chunk.choices[0].delta.content or "", end="") # ③curl方式 curl http://localhost:9001/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "mimo-v2-flash", "messages": [{"role": "user", "content": "Nice to meet you MiMo"}], "max_tokens": 4096, "temperature": 0.8, "top_p": 0.95, "stream": true, "chat_template_kwargs": {"enable_thinking": true} }' # ④JaveScript方式 const { OpenAI } = require('openai'); const client = new OpenAI({ baseURL: 'http://localhost:9001/v1', apiKey: 'dummy' }); const stream = await client.chat.completions.create({ model: 'mimo-v2-flash', messages: [{ role: 'user', content: 'Nice to meet you MiMo' }], max_tokens: 4096, temperature: 0.8, top_p: 0.95, stream: true, chat_template_kwargs: { enable_thinking: true } }); for await (const chunk of stream) { process.stdout.write(chunk.choices[0]?.delta?.content || ''); }

使用流程:启动服务一次 → 拿到 http://localhost:9001/v1 → 当成 OpenAI 接口 用即可,模型、推理参数全部在启动命令里配置完成,无需再加载模型或写 .from_pretrained(

重要的事情说三遍:限时免费!限时免费!!限时免费!!!

http://www.cnnetsun.cn/news/106373.html

相关文章:

  • 腾讯混元Video技术破局:开源130亿参数视频生成模型的创新架构与应用实践
  • GoScan终极指南:如何快速掌握交互式网络扫描利器
  • 深入理解 Java 线程池:原理、应用与最佳实践
  • Home Assistant OS 系统更新失败终极解决方案指南
  • 构建工业级ReAct智能体系统:LangGraph+MCP供应链管理全栈实现!
  • 多向量搜索技术ColBERT揭秘:提升RAG召回相关性,细粒度信息优化搜索效果!
  • 微信公众号 Markdown 编辑器,让你不再为微信内容排版
  • vue小程序基于Vue的高校心理咨询系统的设计和实现_qm264681
  • Winlator终极指南:手机运行Windows应用权限管理与性能优化完整教程
  • 10分钟极速搭建:transfer.sh私有文件分享系统全攻略
  • VR青少年法律知识学习系统|VR隔空 “解锁” 法律密码
  • coze工作流成品导入一键生成AI漫剧智能体搭建
  • 复杂工业场景如何实现3D实例与部件一体化分割?多视角贝叶斯融合的分层图像引导框
  • 【企业级Docker更新实战指南】:Agent服务无缝升级的5大黄金步骤
  • PLC通讯编程系列之一,为什么复位发送请求信号要在发送块的前面?
  • (VSCode Qiskit配置验证全流程)新手避坑指南——专家级配置实践
  • 【量子编程必备技能】:如何让VSCode完美支持Qiskit代码智能提示?
  • IDEA配置
  • Q#-Python混合调试实战指南(量子编程调试稀缺技术曝光)
  • 2026数字经济定调:数据要素成核心引擎,可信数据空间建设引行业升级
  • Vue Query Builder 终极指南:从零开始构建复杂查询界面 [特殊字符]
  • Qwen3模型推理性能优化:从思考模式到高效输出的完整指南
  • 瞄准网络安全人才缺口:大学生的机遇与成长路径
  • AI模型智能评估平台:从数据迷雾到精准决策的跨越
  • Subfinder终极指南:全面解决所有字幕下载难题
  • “负碳航空”的流行,是工业文明的一场“赎罪”与“自救”。
  • 企业数据中台建设终极指南:3步搞定数据治理难题
  • 告别繁琐!这款Mac免费Gif工具让你3步搞定屏幕录制
  • 宏智树AIPPT,用AI把学术表达变成一场轻松对话
  • 如何快速构建Python GUI界面?这款可视化设计工具让你告别手写代码