返回博客

在 RTX 4090/3090 (24GB) 上通过 Ollama 运行 Qwen3.5 27B 并接入 QevosAgent

背景

Qwen3.5 27B 是阿里巴巴通义千问系列的最新开源模型,在多项基准测试中表现出色。对于拥有 RTX 4090 或 RTX 3090(24GB 显存)的开发者来说,如何在本地高效运行这个 270 亿参数的大模型,并将其接入 QevosAgent 这样的自主智能体框架,是一个极具实用价值的问题。

本文将基于实际运行经验,详细介绍从 Ollama 安装到 QevosAgent 接入的完整流程。

一、环境准备

硬件要求

安装 Ollama

Ollama 是一个简单易用的本地大模型推理服务工具,支持一键下载和运行多种开源模型。

# Windows:从 https://ollama.com 下载安装包
# Linux:
curl -fsSL https://ollama.com/install.sh | sh

安装完成后,Ollama 会自动在后台运行,默认监听 localhost:11434

二、下载并运行 Qwen3.5 27B

拉取模型

ollama pull qwen3.5:27b

该命令会下载 Qwen3.5 27B 的 Q4_K_M 量化版本,大小约 17GB。Q4_K_M 量化在保持较高精度的同时,将模型体积压缩到 24GB 显存可以容纳的范围。

验证 GPU 加载

模型下载完成后,发送一个测试请求:

curl http://localhost:11434/api/generate -d '{
  "model": "qwen3.5:27b",
  "prompt": "Hi",
  "stream": false
}'

同时用 nvidia-smi 观察显存占用,可以看到显存从几百 MB 迅速增加到约 24GB(24104MB),证明模型已成功加载到 GPU。

关键运行参数

通过 Ollama 日志可以确认以下关键配置:

参数 说明
GPU 层数 65/65 层全部 offload 所有层均在 GPU 上运行,无 CPU offload
上下文长度 32K(KvSize:32768) 基于 24GB 显存自动计算
FlashAttention 已启用 加速注意力计算
BatchSize 512 批处理大小
NumThreads 6 线程数

重要提示:在 24GB 显存下,Ollama 会自动将上下文长度限制在 32K。如果之前设置为 128K,会导致 KV Cache 占用过大,推理速度显著下降。32K 上下文对于大多数应用场景已经足够。

三、配置 Ollama 端口

本地访问(默认)

Ollama 默认监听 localhost:11434,同一台机器上的应用可以直接访问:

http://localhost:11434/v1/chat/completions

外部访问(可选)

如果需要让其他设备访问 Ollama 服务,需要设置环境变量:

# Windows
set OLLAMA_HOST=0.0.0.0:11434

# Linux/Mac
export OLLAMA_HOST=0.0.0.0:11434

然后重启 Ollama 服务即可。

四、接入 QevosAgent

修改 .env 配置文件

在 QevosAgent 的 .env 文件中,添加以下配置来连接本地 Ollama:

# 使用本地 Ollama (qwen3.5:27b on RTX 4090)
OPENAI_PROFILE=qwen3527ollama
OPENAI_PROFILE_QWEN3527OLLAMA_BASE_URL=http://localhost:11434/v1

配置说明

Ollama 的 /v1 端点兼容 OpenAI API 格式,因此 QevosAgent 可以直接使用 OpenAI 兼容模式连接 Ollama,无需额外适配。

验证连接

启动 QevosAgent 后,可以通过发送简单任务来验证模型是否正常响应。如果一切正常,QevosAgent 将使用本地 Qwen3.5 27B 模型进行推理。

五、性能表现

在实际测试中,Qwen3.5 27B 在 RTX 4090 上的表现如下:

六、常见问题

Q: 模型加载慢怎么办?

首次加载时需要将 17GB 模型从磁盘读取到显存,约需 30 秒。后续请求会复用已加载的模型,无需重复加载。

Q: 上下文长度可以调整吗?

在 24GB 显存下,Ollama 会自动计算最优上下文长度(32K)。如需调整,可通过环境变量 OLLAMA_CONTEXT_LENGTH 设置,但过大的值会导致显存不足。

Q: 可以同时运行多个模型吗?

24GB 显存仅够运行一个 Qwen3.5 27B 模型。如需多模型切换,可以使用 ollama run 命令按需加载。

总结

通过 Ollama,在消费级 RTX 4090/3090 上运行 Qwen3.5 27B 变得异常简单。只需一条 ollama pull 命令下载模型,再在 QevosAgent 的 .env 中配置 API 地址,即可享受本地大模型的强大推理能力。这种方案无需联网、数据隐私有保障,是个人开发者和研究者的理想选择。