在 RTX 4090/3090 (24GB) 上通过 Ollama 运行 Qwen3.5 27B 并接入 QevosAgent
背景
Qwen3.5 27B 是阿里巴巴通义千问系列的最新开源模型,在多项基准测试中表现出色。对于拥有 RTX 4090 或 RTX 3090(24GB 显存)的开发者来说,如何在本地高效运行这个 270 亿参数的大模型,并将其接入 QevosAgent 这样的自主智能体框架,是一个极具实用价值的问题。
本文将基于实际运行经验,详细介绍从 Ollama 安装到 QevosAgent 接入的完整流程。
一、环境准备
硬件要求
- GPU:NVIDIA RTX 4090 或 RTX 3090(24GB 显存)
- 系统:Windows 10/11 或 Linux
- 驱动:最新 NVIDIA 显卡驱动
安装 Ollama
Ollama 是一个简单易用的本地大模型推理服务工具,支持一键下载和运行多种开源模型。
# Windows:从 https://ollama.com 下载安装包
# Linux:
curl -fsSL https://ollama.com/install.sh | sh
安装完成后,Ollama 会自动在后台运行,默认监听 localhost:11434。
二、下载并运行 Qwen3.5 27B
拉取模型
ollama pull qwen3.5:27b
该命令会下载 Qwen3.5 27B 的 Q4_K_M 量化版本,大小约 17GB。Q4_K_M 量化在保持较高精度的同时,将模型体积压缩到 24GB 显存可以容纳的范围。
验证 GPU 加载
模型下载完成后,发送一个测试请求:
curl http://localhost:11434/api/generate -d '{
"model": "qwen3.5:27b",
"prompt": "Hi",
"stream": false
}'
同时用 nvidia-smi 观察显存占用,可以看到显存从几百 MB 迅速增加到约 24GB(24104MB),证明模型已成功加载到 GPU。
关键运行参数
通过 Ollama 日志可以确认以下关键配置:
| 参数 | 值 | 说明 |
|---|---|---|
| GPU 层数 | 65/65 层全部 offload | 所有层均在 GPU 上运行,无 CPU offload |
| 上下文长度 | 32K(KvSize:32768) | 基于 24GB 显存自动计算 |
| FlashAttention | 已启用 | 加速注意力计算 |
| BatchSize | 512 | 批处理大小 |
| NumThreads | 6 | 线程数 |
重要提示:在 24GB 显存下,Ollama 会自动将上下文长度限制在 32K。如果之前设置为 128K,会导致 KV Cache 占用过大,推理速度显著下降。32K 上下文对于大多数应用场景已经足够。
三、配置 Ollama 端口
本地访问(默认)
Ollama 默认监听 localhost:11434,同一台机器上的应用可以直接访问:
http://localhost:11434/v1/chat/completions
外部访问(可选)
如果需要让其他设备访问 Ollama 服务,需要设置环境变量:
# Windows
set OLLAMA_HOST=0.0.0.0:11434
# Linux/Mac
export OLLAMA_HOST=0.0.0.0:11434
然后重启 Ollama 服务即可。
四、接入 QevosAgent
修改 .env 配置文件
在 QevosAgent 的 .env 文件中,添加以下配置来连接本地 Ollama:
# 使用本地 Ollama (qwen3.5:27b on RTX 4090)
OPENAI_PROFILE=qwen3527ollama
OPENAI_PROFILE_QWEN3527OLLAMA_BASE_URL=http://localhost:11434/v1
配置说明:
OPENAI_PROFILE:指定配置文件名,可以自定义名称OPENAI_PROFILE_{NAME}_BASE_URL:对应配置文件名的 API 地址,格式为http://localhost:11434/v1
Ollama 的 /v1 端点兼容 OpenAI API 格式,因此 QevosAgent 可以直接使用 OpenAI 兼容模式连接 Ollama,无需额外适配。
验证连接
启动 QevosAgent 后,可以通过发送简单任务来验证模型是否正常响应。如果一切正常,QevosAgent 将使用本地 Qwen3.5 27B 模型进行推理。
五、性能表现
在实际测试中,Qwen3.5 27B 在 RTX 4090 上的表现如下:
- 首次加载:约 30 秒(模型从磁盘加载到显存)
- 推理速度:流畅,32K 上下文下响应迅速
- 显存占用:约 24GB(接近上限)
- 精度:Q4_K_M 量化在大多数任务中表现接近全精度
六、常见问题
Q: 模型加载慢怎么办?
首次加载时需要将 17GB 模型从磁盘读取到显存,约需 30 秒。后续请求会复用已加载的模型,无需重复加载。
Q: 上下文长度可以调整吗?
在 24GB 显存下,Ollama 会自动计算最优上下文长度(32K)。如需调整,可通过环境变量 OLLAMA_CONTEXT_LENGTH 设置,但过大的值会导致显存不足。
Q: 可以同时运行多个模型吗?
24GB 显存仅够运行一个 Qwen3.5 27B 模型。如需多模型切换,可以使用 ollama run 命令按需加载。
总结
通过 Ollama,在消费级 RTX 4090/3090 上运行 Qwen3.5 27B 变得异常简单。只需一条 ollama pull 命令下载模型,再在 QevosAgent 的 .env 中配置 API 地址,即可享受本地大模型的强大推理能力。这种方案无需联网、数据隐私有保障,是个人开发者和研究者的理想选择。