开源模型与本地部署

文章摘要 FakeGPT

加载中...|

此内容根据文章生成，并经过人工审核，仅用于文章内容的解释与总结投诉

概述

除了使用 OpenAI、Claude 等商业 API，本地部署开源模型是另一个重要选择。本地部署可以保护数据隐私、降低长期成本，并且允许自定义模型。本文将介绍主流开源模型和本地部署方案。

主流开源模型

模型对比

text

┌─────────────────────────────────────────────────────────┐
│                    开源模型生态                           │
├─────────────────────────────────────────────────────────┤
│                                                         │
│  Meta Llama 系列                                         │
│  ├── Llama 3.1 8B/70B/405B: 最强开源模型                 │
│  ├── Llama 3 8B/70B: 性价比高                            │
│  └── Llama 2 7B/13B/70B: 经典版本                        │
│                                                         │
│  Mistral AI 系列                                         │
│  ├── Mixtral 8x7B/8x22B: MoE 架构                        │
│  ├── Mistral 7B: 轻量高效                                │
│  └── Codestral: 代码专用                                 │
│                                                         │
│  阿里 Qwen 系列                                          │
│  ├── Qwen2.5 7B/32B/72B: 中文强                          │
│  ├── Qwen2 72B: 多语言                                  │
│  └── Qwen1.5 0.5B/14B: 轻量级                            │
│                                                         │
│  DeepSeek 系列                                           │
│  ├── DeepSeek-V3: MoE 架构，671B 参数                    │
│  ├── DeepSeek-Coder-V2: 代码模型                         │
│  └── DeepSeek-V2: 数学能力强                             │
│                                                         │
│  其他重要模型                                            │
│  ├── Phi-3: 微软小型模型                                 │
│  ├── Gemma: Google 开源                                 │
│  ├── Yi: 01.AI 开发                                     │
│  └── SOLa: Speicialized Open Language Model            │
│                                                         │
└─────────────────────────────────────────────────────────┘

模型能力对比

模型	参数	优势	劣势	推荐场景
Llama 3.1 8B	8B	通用性强，社区大	中文一般	通用用途
Llama 3.1 70B	70B	能力接近 GPT-4	需要强硬件	高质量输出
Qwen2.5 32B	32B	中文优秀	英文稍弱	中文应用
Mixtral 8x7B	47B	MoE 高效	推理慢	平衡性能成本
DeepSeek-V3	671B	数学/代码强	部署复杂	复杂推理
Phi-3-mini	3.8B	极小高效	能力有限	边缘设备

模型选择决策树

是否有 GPU？
├─ 否 → 使用 Ollama + 量化模型 (Qwen2.5 7B Q4)
└─ 有 → 显存大小？
    ├─ <8GB → Qwen2.5 7B / Phi-3-mini
    ├─ 8-16GB → Llama 3.1 8B / Mixtral 8x7B
    ├─ 16-32GB → Llama 3.1 70B
    └─ >32GB → DeepSeek-V3 / Llama 3.1 405B

模型格式

GGUF 格式

text

┌─────────────────────────────────────────────────────────┐
│                    GGUF 格式说明                          │
├─────────────────────────────────────────────────────────┤
│                                                         │
│  特点                                                    │
│  • llama.cpp 专用格式                                    │
│  • 单文件包含模型和配置                                  │
│  • 支持量化（Q2-Q8）                                    │
│  • CPU 推理友好                                         │
│                                                         │
│  量化等级                                                │
│  • Q2_K: 最小，质量差 (8B ~3.5GB)                       │
│  • Q3_K: 较小 (8B ~4GB)                                 │
│  • Q4_K_M: 推荐 (8B ~4.7GB)                            │
│  • Q5_K: 较好 (8B ~5.5GB)                               │
│  • Q8_0: 最好，最大 (8B ~8GB)                           │
│                                                         │
└─────────────────────────────────────────────────────────┘

GPTQ 格式

python

# GPTQ: 4-bit 量化，需要 GPU
# pip install auto-gptq optimum

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "TheBloke/Llama-2-7B-GPTQ"

tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    device_map="auto",
    trust_remote_code=True
)

# 推理
prompt = "用 Python 写一个快排算法"
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")

outputs = model.generate(
    **inputs,
    max_new_tokens=512
)

print(tokenizer.decode(outputs[0]))

AWQ 格式

python

# AWQ: Activation-aware Weight Quantization
# pip install awq transformers

from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer

model_path = "TheBloke/Llama-2-7B-AWQ"

quant_path = "path/to/save/quantized"

# 量化
quant_config = {
    "zero_point": True,
    "q_group_size": 128,
    "w_bit": 4,
    "version": "GEMM"
}

model = AutoAWQForCausalLM.from_pretrained(
    model_path,
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)

# 量化模型
model.quantize(tokenizer, quant_config=quant_config)

# 保存
model.save_quantized(quant_path)

本地推理引擎

Ollama（推荐新手）

bash

# 安装 Ollama
# macOS: brew install ollama
# Linux: curl -fsSL https://ollama.com/install.sh | sh

# 启动服务
ollama serve

# 下载模型
ollama pull llama3.1:8b
ollama pull qwen2.5:7b
ollama pull mistral:7b

# 运行模型
ollama run llama3.1:8b "你好"

# 交互式聊天
ollama run qwen2.5:7b

# 查看已安装模型
ollama list

# 查看模型信息
ollama show llama3.1:8b

python

# Python API
# pip install ollama

import ollama

# 基础使用
response = ollama.chat(model='llama3.1:8b', messages=[
    {'role': 'user', 'content': '用 Python 写一个快排算法'}
])

print(response['message']['content'])

# 流式输出
for chunk in ollama.chat(
    model='llama3.1:8b',
    messages=[{'role': 'user', 'content': '讲一个短故事'}],
    stream=True
):
    if 'content' in chunk['message']:
        print(chunk['message']['content'], end='', flush=True)

# 多轮对话
response = ollama.chat(model='llama3.1:8b', messages=[
    {'role': 'user', 'content': '我叫小明'},
    {'role': 'assistant', 'content': '你好小明！'},
    {'role': 'user', 'content': '我叫什么名字？'}
])

print(response['message']['content'])

# 自定义模型（Modelfile）
"""
FROM llama3.1:8b
SYSTEM 你是一个专业的 Python 程序员
PARAMETER temperature 0.7
PARAMETER num_ctx 4096
"""

llama.cpp

bash

# 编译 llama.cpp
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make

# 下载 GGUF 模型
wget https://huggingface.co/TheBloke/Llama-3.1-8B-GGUF/resolve/main/llama-3.1-8b-q4_k_m.gguf

# 运行
./main -m llama-3.1-8b-q4_k_m.gguf -p "你好" -n 512

# 交互模式
./main -m llama-3.1-8b-q4_k_m.gguf -cnv -i --color

# 服务器模式
./server -m llama-3.1-8b-q4_k_m.gguf --port 8080 --host 0.0.0.0

python

# Python 绑定
# pip install llama-cpp-python

from llama_cpp import Llama

# 初始化模型
llm = Llama(
    model_path="llama-3.1-8b-q4_k_m.gguf",
    n_ctx=4096,        # 上下文长度
    n_gpu_layers=-1,   # 使用 GPU（-1 = 全部）
    n_threads=8,       # CPU 线程数
    verbose=False
)

# 生成
output = llm(
    "Q: 用 Python 写一个快排算法。A:",
    max_tokens=512,
    stop=["Q:", "\n"],
    echo=False
)

print(output['choices'][0]['text'])

# 流式生成
for chunk in llm(
    "讲一个短故事：",
    max_tokens=256,
    stream=True
):
    print(chunk['choices'][0]['text'], end='', flush=True)

vLLM（高性能推理）

bash

# 安装 vLLM
pip install vllm

# 启动 OpenAI 兼容服务器
python -m vllm.entrypoints.openai.api_server \
    --model TheBloke/Llama-3.1-8B-GGUF \
    --quantization awq \
    --dtype half \
    --host 0.0.0.0 \
    --port 8000

python

# 使用 vLLM
from vllm import LLM, SamplingParams

# 初始化
llm = LLM(
    model="meta-llama/Llama-3.1-8B",
    quantization="awq",
    tensor_parallel_size=1,  # GPU 数量
    max_model_len=4096,
    trust_remote_code=True
)

# 采样参数
sampling_params = SamplingParams(
    temperature=0.7,
    top_p=0.9,
    max_tokens=512
)

# 单次生成
prompts = ["用 Python 写一个快排算法"]
outputs = llm.generate(prompts, sampling_params)

for output in outputs:
    print(output.outputs[0].text)

# 批量生成
prompts = [
    "什么是机器学习？",
    "什么是深度学习？",
    "什么是神经网络？"
]

outputs = llm.generate(prompts, sampling_params)

for prompt, output in zip(prompts, outputs):
    print(f"提示: {prompt}")
    print(f"输出: {output.outputs[0].text}\n")

Text Generation Inference (TGI)

bash

# 使用 Docker 启动 TGI
docker run --gpus all --shm-size 1g -p 8080:80 \
    -v $PWD/data:/data \
    ghcr.io/huggingface/text-generation-inference:latest \
    --model-id TheBloke/Llama-3.1-8B-GGUF \
    --quantize awq \
    --max-total-tokens 4096

SGLang

bash

# 安装 SGLang
pip install "sglang[all]"

# 启动服务器
python -m sglang.launch_server \
    --model-path meta-llama/Llama-3.1-8B \
    --tp 1 \
    --host 0.0.0.0 \
    --port 8000

python

# 使用 SGLang
import sglang as sgl

# 初始化运行时
runtime = sgl.Runtime(
    model_path="meta-llama/Llama-3.1-8B",
    tp_size=1,
    port=8000
)

# 定义生成函数
@sgl.function
def generate(s, prompt):
    s += sgl.user(prompt)
    s += sgl.gen("response", max_tokens=256)

# 生成
state = generate.run(prompt="讲一个短故事")
print(state["response"])

GPU vs CPU 推理

性能对比

配置	模型	速度	成本	推荐场景
CPU	Q4_7B	~5 tok/s	低	测试/开发
CPU	Q4_13B	~2 tok/s	低	测试/开发
GPU T4	Q4_7B	~30 tok/s	中	生产环境
GPU T4	Q4_13B	~15 tok/s	中	生产环境
GPU A100	Q4_70B	~50 tok/s	高	高性能需求
多 GPU	Q4_70B	~80 tok/s	高	高并发

显存需求估算

python

# 估算显存需求
def estimate_vram(params: int, bits: int, ctx_len: int = 2048) -> float:
    """
    估算显存需求（GB）

    params: 参数量（B）
    bits: 量化位数
    ctx_len: 上下文长度
    """
    # 模型权重
    model_mem = params * bits / 8

    # KV Cache (估算)
    kv_cache = ctx_len * 2 * params * 4 / (1024**3)  # FP16

    # 额外开销
    overhead = 2  # GB

    total = model_mem + kv_cache + overhead

    return total

# 示例
print(f"Llama 3.1 8B Q4: {estimate_vram(8, 4):.1f} GB")
# 输出: ~6 GB

print(f"Llama 3.1 70B Q4: {estimate_vram(70, 4):.1f} GB")
# 输出: ~40 GB

CPU 优化

python

# llama.cpp CPU 优化设置
from llama_cpp import Llama

llm = Llama(
    model_path="llama-3.1-8b-q4_k_m.gguf",
    n_threads=8,          # CPU 线程数
    n_batch=512,          # 批处理大小
    n_ctx=4096,
    f16_kv=True,          # 使用 FP16 KV cache
    use_mmap=True,        # 使用内存映射
    use_mlock=False,      # 不锁定内存
    verbose=False
)

实战部署方案

方案 1：个人开发（Ollama）

bash

# 快速启动个人开发环境
brew install ollama
ollama serve

# 创建 Modelfile
cat > Modelfile << 'EOF'
FROM qwen2.5:7b
SYSTEM 你是一个专业的程序员助手
PARAMETER temperature 0.7
PARAMETER num_ctx 8192
EOF

# 构建自定义模型
ollama create code-assistant -f Modelfile

# 使用
ollama run code-assistant

方案 2：小团队服务器（Docker + vLLM）

yaml

# docker-compose.yml
version: '3.8'

services:
  vllm:
    image: vllm/vllm-openai:latest
    container_name: vllm-server
    ports:
      - "8000:8000"
    environment:
      - MODEL=TheBloke/Llama-3.1-8B-GGUF
    volumes:
      - ./models:/models
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: 1
              capabilities: [gpu]
    restart: unless-stopped

bash

# 启动
docker-compose up -d

# 测试
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "llama-3.1-8b",
    "messages": [{"role": "user", "content": "你好"}]
  }'

方案 3：企业级部署（Kubernetes）

yaml

# k8s-deployment.yaml
apiVersion: apps/v1
kind: Deployment
metadata:
  name: vllm-deployment
spec:
  replicas: 3
  selector:
    matchLabels:
      app: vllm
  template:
    metadata:
      labels:
        app: vllm
    spec:
      containers:
      - name: vllm
        image: vllm/vllm-openai:latest
        ports:
        - containerPort: 8000
        env:
        - name: MODEL
          value: "meta-llama/Llama-3.1-8B"
        - name: TENSOR_PARALLEL_SIZE
          value: "1"
        resources:
          limits:
            nvidia.com/gpu: 1
---
apiVersion: v1
kind: Service
metadata:
  name: vllm-service
spec:
  selector:
    app: vllm
  ports:
  - port: 8000
    targetPort: 8000
  type: LoadBalancer

方案 4：混合部署（云端 + 本地）

python

class HybridLLM:
    """混合 LLM 部署"""

    def __init__(
        self,
        local_model: str = "ollama",
        cloud_api: str = "openai",
        threshold: float = 0.5
    ):
        self.local = self._init_local(local_model)
        self.cloud = self._init_cloud(cloud_api)
        self.threshold = threshold

    def _init_local(self, model: str):
        """初始化本地模型"""
        import ollama
        return ollama.Client()

    def _init_cloud(self, api: str):
        """初始化云端 API"""
        from openai import OpenAI
        return OpenAI()

    def classify_and_route(self, prompt: str) -> str:
        """分类并路由请求"""
        # 简单分类器
        if len(prompt) < 100:
            # 简单任务用本地
            return self._local_inference(prompt)
        else:
            # 复杂任务用云端
            return self._cloud_inference(prompt)

    def _local_inference(self, prompt: str) -> str:
        """本地推理"""
        response = self.local.chat(
            model='llama3.1:8b',
            messages=[{'role': 'user', 'content': prompt}]
        )
        return response['message']['content']

    def _cloud_inference(self, prompt: str) -> str:
        """云端推理"""
        response = self.cloud.chat.completions.create(
            model="gpt-4o",
            messages=[{"role": "user", "content": prompt}]
        )
        return response.choices[0].message.content

小结

本地部署开源模型是可行的选择：

核心要点

模型选择
- Llama：通用性强
- Qwen：中文优秀
- Mistral：平衡性能
- DeepSeek：数学/代码强
模型格式
- GGUF：CPU 友好
- GPTQ：GPU 量化
- AWQ：激活感知量化
推理引擎
- Ollama：最简单
- llama.cpp：CPU 优化
- vLLM：GPU 高性能
- TGI：企业级
部署方案
- 个人：Ollama
- 小团队：Docker + vLLM
- 企业：Kubernetes
成本对比
- 云 API：按使用付费
- 本地：硬件成本高但无调用费
- 混合：平衡成本和性能

下一篇文章将介绍 RAG 高级优化技巧。

开源模型与本地部署https://indulgeback.github.io/posts/AI%E4%B8%8ELLM/13%E3%80%81%E5%BC%80%E6%BA%90%E6%A8%A1%E5%9E%8B%E4%B8%8E%E6%9C%AC%E5%9C%B0%E9%83%A8%E7%BD%B2

作者LeviLiu

发布于1天前

更新于今日内

许可协议 CC BY-NC-SA 4.0

署名-非商业性使用-相同方式共享 4.0 国际

LLM 开源模型本地部署 Ollama vLLM

反馈与投诉

赞赏博主

评论隐私政策

开源模型与本地部署

概述 ​

主流开源模型 ​

模型对比 ​

模型能力对比 ​

模型选择决策树 ​

模型格式 ​

GGUF 格式 ​

GPTQ 格式 ​

AWQ 格式 ​

本地推理引擎 ​

Ollama（推荐新手） ​

llama.cpp ​

vLLM（高性能推理） ​

Text Generation Inference (TGI) ​

SGLang ​

GPU vs CPU 推理 ​

性能对比 ​

显存需求估算 ​

CPU 优化 ​

实战部署方案 ​

方案 1：个人开发（Ollama） ​

方案 2：小团队服务器（Docker + vLLM） ​

方案 3：企业级部署（Kubernetes） ​

方案 4：混合部署（云端 + 本地） ​

小结 ​

核心要点 ​

概述

主流开源模型

模型对比

模型能力对比

模型选择决策树

模型格式

GGUF 格式

GPTQ 格式

AWQ 格式

本地推理引擎

Ollama（推荐新手）

llama.cpp

vLLM（高性能推理）

Text Generation Inference (TGI)

SGLang

GPU vs CPU 推理

性能对比

显存需求估算

CPU 优化

实战部署方案

方案 1：个人开发（Ollama）

方案 2：小团队服务器（Docker + vLLM）

方案 3：企业级部署（Kubernetes）

方案 4：混合部署（云端 + 本地）

小结

核心要点