在 RTX 4090/3090 (24GB) 上通过 Ollama 运行 Qwen3.5 27B 并接入 QevosAgent

背景

Qwen3.5 27B 是阿里巴巴通义千问系列的最新开源模型，在多项基准测试中表现出色。对于拥有 RTX 4090 或 RTX 3090（24GB 显存）的开发者来说，如何在本地高效运行这个 270 亿参数的大模型，并将其接入 QevosAgent 这样的自主智能体框架，是一个极具实用价值的问题。

本文将基于实际运行经验，详细介绍从 Ollama 安装到 QevosAgent 接入的完整流程。

一、环境准备

硬件要求

GPU：NVIDIA RTX 4090 或 RTX 3090（24GB 显存）
系统：Windows 10/11 或 Linux
驱动：最新 NVIDIA 显卡驱动

安装 Ollama

Ollama 是一个简单易用的本地大模型推理服务工具，支持一键下载和运行多种开源模型。

# Windows：从 https://ollama.com 下载安装包
# Linux：
curl -fsSL https://ollama.com/install.sh | sh

安装完成后，Ollama 会自动在后台运行，默认监听 localhost:11434。

二、下载并运行 Qwen3.5 27B

拉取模型

ollama pull qwen3.5:27b

该命令会下载 Qwen3.5 27B 的 Q4_K_M 量化版本，大小约 17GB。Q4_K_M 量化在保持较高精度的同时，将模型体积压缩到 24GB 显存可以容纳的范围。

验证 GPU 加载

模型下载完成后，发送一个测试请求：

curl http://localhost:11434/api/generate -d '{
  "model": "qwen3.5:27b",
  "prompt": "Hi",
  "stream": false
}'

同时用 nvidia-smi 观察显存占用，可以看到显存从几百 MB 迅速增加到约 24GB（24104MB），证明模型已成功加载到 GPU。

关键运行参数

通过 Ollama 日志可以确认以下关键配置：

参数	值	说明
GPU 层数	65/65 层全部 offload	所有层均在 GPU 上运行，无 CPU offload
上下文长度	32K（KvSize:32768）	基于 24GB 显存自动计算
FlashAttention	已启用	加速注意力计算
BatchSize	512	批处理大小
NumThreads	6	线程数

重要提示：在 24GB 显存下，Ollama 会自动将上下文长度限制在 32K。如果之前设置为 128K，会导致 KV Cache 占用过大，推理速度显著下降。32K 上下文对于大多数应用场景已经足够。

三、配置 Ollama 端口

本地访问（默认）

Ollama 默认监听 localhost:11434，同一台机器上的应用可以直接访问：

http://localhost:11434/v1/chat/completions

外部访问（可选）

如果需要让其他设备访问 Ollama 服务，需要设置环境变量：

# Windows
set OLLAMA_HOST=0.0.0.0:11434

# Linux/Mac
export OLLAMA_HOST=0.0.0.0:11434

然后重启 Ollama 服务即可。

四、接入 QevosAgent

修改 .env 配置文件

在 QevosAgent 的 .env 文件中，添加以下配置来连接本地 Ollama：

# 使用本地 Ollama (qwen3.5:27b on RTX 4090)
OPENAI_PROFILE=qwen3527ollama
OPENAI_PROFILE_QWEN3527OLLAMA_BASE_URL=http://localhost:11434/v1

配置说明：

OPENAI_PROFILE：指定配置文件名，可以自定义名称
OPENAI_PROFILE_{NAME}_BASE_URL：对应配置文件名的 API 地址，格式为 http://localhost:11434/v1

Ollama 的 /v1 端点兼容 OpenAI API 格式，因此 QevosAgent 可以直接使用 OpenAI 兼容模式连接 Ollama，无需额外适配。

验证连接

启动 QevosAgent 后，可以通过发送简单任务来验证模型是否正常响应。如果一切正常，QevosAgent 将使用本地 Qwen3.5 27B 模型进行推理。

五、性能表现

在实际测试中，Qwen3.5 27B 在 RTX 4090 上的表现如下：

首次加载：约 30 秒（模型从磁盘加载到显存）
推理速度：流畅，32K 上下文下响应迅速
显存占用：约 24GB（接近上限）
精度：Q4_K_M 量化在大多数任务中表现接近全精度

六、常见问题

Q: 模型加载慢怎么办？

首次加载时需要将 17GB 模型从磁盘读取到显存，约需 30 秒。后续请求会复用已加载的模型，无需重复加载。

Q: 上下文长度可以调整吗？

在 24GB 显存下，Ollama 会自动计算最优上下文长度（32K）。如需调整，可通过环境变量 OLLAMA_CONTEXT_LENGTH 设置，但过大的值会导致显存不足。

Q: 可以同时运行多个模型吗？

24GB 显存仅够运行一个 Qwen3.5 27B 模型。如需多模型切换，可以使用 ollama run 命令按需加载。

总结

通过 Ollama，在消费级 RTX 4090/3090 上运行 Qwen3.5 27B 变得异常简单。只需一条 ollama pull 命令下载模型，再在 QevosAgent 的 .env 中配置 API 地址，即可享受本地大模型的强大推理能力。这种方案无需联网、数据隐私有保障，是个人开发者和研究者的理想选择。