当前位置：首页 > news >正文

Docker+vLLM内网离线部署Qwen3 流程

news 2026/6/19 0:40:27

Docker + vLLM 内网离线部署 Qwen3-32B 完整教程

环境准备

Nvidia显卡驱动、CUDA、nvidia-container安装
参考：http：
Docker环境安装
参考：http:

注意：在进行VLLM容器化部署之前，需要确保已在服务器上安装了Docker 和
Nvidia显卡驱动、CUDA、nvidia-container。

一、部署流程概述

部署流程主要分为三个关键步骤：

准备vLLM镜像- 在联网环境下载并导入内网
获取模型文件- 从模型仓库下载Qwen3-32B模型
启动推理服务- 使用Docker运行vLLM服务

下面详细介绍每个步骤的具体操作。

二、详细操作步骤

1. 离线获取 vLLM 镜像

由于内网服务器无法直接访问Docker Hub，需要在有网络的机器上先拉取镜像，然后传输到内网服务器。

在可联网的机器上执行：

# 拉取官方vLLM镜像（大小约20GB，下载需要较长时间）docker pull vllm/vllm-openai# 将镜像打包保存为文件docker save -o vllm-openai-image.tar vllm/vllm-openai:latest

在内网服务器上执行：

# 进入保存镜像文件的目录cd/data# 从文件加载镜像到本地Dockerdocker load<vllm-openai-image.tar# 验证镜像是否加载成功（应该能看到vllm/vllm-openai镜像）docker images|grepvllm-openai

2. 下载 Qwen3-32B 模型文件

模型可以从以下几个平台下载（推荐使用国内源提升下载速度）：

Hugging Face Hub（国内镜像）：https://hf-mirror.com/
ModelScope 魔搭社区：https://www.modelscope.cn/models
GitCode：https://gitcode.net/

本文以魔搭社区为例，使用git下载：

# 确保已安装git-lfs（大文件支持）gitlfsinstall# 克隆模型仓库（模型大小约62GB，下载需要很长时间）gitclone https://www.modelscope.cn/Qwen/Qwen3-32B.git

下载完成后，将整个模型文件夹复制到内网服务器的/data/Qwen3-32B目录下。

3. 启动 vLLM 推理服务

使用以下命令启动服务容器，请根据实际情况调整参数：

docker run -d --privileged --gpus all\--restart unless-stopped\--networkhost\-v /data/Qwen3-32B:/app/model\--shm-size 32G\--name vllm-qwen3\vllm/vllm-openai:latest\--model /app/model\--served-model-name qwen3:32b

查看全文

http://www.cnnetsun.cn/news/50065.html

基于vue的家政服务管理系统_37cw9ju0_springboot php python nodejs

《零基础学 PHP：从入门到实战》·PHP编程精进之路:掌握高级特性与实战技巧-1

Step-Audio 2：重新定义人机语音交互的技术革命

AutoGPT与Stable Diffusion联用：图文内容协同生成新玩法

NetSonar：3分钟快速掌握的网络诊断终极方案

46、PHP 基础函数与操作全解析

52、Linux系统性能优化与命令行操作指南

53、Linux 命令行与软件管理全攻略

61、Ubuntu和Linux互联网资源指南

OpenPLC Editor开源工具在工业自动化领域的应用实践

ACL实验：ACL控制Telnet与Ping权限

7、Linux 进程管理与操作详解

学Simulink——移动机器人导航场景实例：基于Simulink的BLDC阿克曼转向Stanley算法路径跟踪仿真

Linux内存管理优化实战：系统性能提升完整指南

如何在5分钟内用HandyControl搭建WPF视频播放器界面

个人作品集网站终极指南：零基础打造专业简历展示平台

小参数GPT训练数据预处理实战：从混乱数据到高质量语料

终极无审查AI助手：Dolphin-Mistral-24B-Venice-Edition完全使用指南

【C++入门必备】最详细入门教程（3）

iOS功能开关完整指南：从入门到精通的终极实践

Step-Audio 2 mini：开源语音大模型如何让中小企业AI部署成本锐减80%？

Flutter桌面交互优化：3个提升用户体验的关键技巧

快速免费完整迁移：从动态博客到极速静态站点的终极指南

58、Ubuntu系统工具、测试与Perl编程全解析

60、Perl与PHP编程实用指南

69、Ubuntu与Linux互联网资源全解析

14、Ubuntu实用软件探索与使用指南

18、Ubuntu服务器安装与管理全解析

19、Ubuntu 服务器包管理全解析

用AppSmith让你的应用“主动说话“：Web Push实时通知实战

Docker + vLLM 内网离线部署 Qwen3-32B 完整教程

一、部署流程概述

二、详细操作步骤

相关文章：