Ollama

本地大模型部署实战心得随着大语言模型（LLM）的快速发展，越来越多的开发者和企业开始考虑在本地部署模型。本文将分享我在本地部署 LLM 过程中的实战经验，涵盖硬件选型、工具选择、部署优化等方面。为什么选择本地部署？本地部署 vs 云端 API 维度本地部署云端 API 数据隐私数据不出本地，完全可控数据需上传至第三方服务器成本一次性硬件投入，长期使用成本低按 token 计费，高频使用成本高延迟内网访问，延迟极低受网络状况影响可用性依赖本地硬件，需自行维护依赖服务商稳定性模型选择可运行任意开源模型受限于服务商提供的模型定制化可微调、量化、定制通常只能使用标准接口适用场景企业内部知识库 - 处理敏感文档，数据不能外传高频调用场景 - 如代码补全、实时对话，token 消耗大离线环境 - 无公网访问或网络不稳定模型研究实验 - 需要尝试不同的模型和参数硬件选型指南 GPU 选择 ┌─────────────────────────────────────────────────────────────┐ │ GPU 性能天梯图（LLM 推理） │ ├─────────────────────────────────────────────────────────────┤ │ 🏆 旗舰级 │ │ • RTX 4090 (24GB) - 可运行 70B 量化模型 │ │ • RTX 3090/4090 双卡 - 可运行 70B/130B 模型 │ │ • A100 (40/80GB) - 企业级选择 │ ├─────────────────────────────────────────────────────────────┤ │ 💎 高端级 │ │ • RTX 4080 (16GB) - 可运行 13B-30B 模型 │ │ • RTX 3090 (24GB) - 性价比之选 │ │ • RTX 4070 Ti Super - 16GB 显存入门 │ ├─────────────────────────────────────────────────────────────┤ │ ⚡ 中端级 │ │ • RTX 4060 Ti (16GB) - 可运行 7B-13B 模型 │ │ • RTX 3060 (12GB) - 预算有限首选 │ │ • Apple M3 Pro/Max - Mac 用户选择 │ ├─────────────────────────────────────────────────────────────┤ │ 📝 入门级（CPU 推理） │ │ • 16GB+ 内存 - 可运行 7B 量化模型 │ │ • 32GB+ 内存 - 可运行 13B 量化模型 │ └─────────────────────────────────────────────────────────────┘ 显存需求计算 # 显存需求估算公式 def estimate_vram(model_params_b, quantization_bits=16, context_length=4096): """ 估算运行 LLM 所需的显存 Args: model_params_b: 模型参数量（十亿） quantization_bits: 量化位数（16/8/4） context_length: 上下文长度 """ # 基础模型权重显存 base_memory = (model_params_b * 1e9 * quantization_bits) / 8 / 1e9 # GB # KV Cache 显存（每 token 约 2 * hidden_size * layers * bytes） # 简化估算：每 1K 上下文约需 0.5-2GB（取决于模型） kv_cache = (context_length / 1024) * 1.0 # GB # 激活值和开销 overhead = 2 # GB total = base_memory + kv_cache + overhead return round(total, 2) # 示例 print(f"Llama2-7B FP16: {estimate_vram(7, 16)}GB") # ~16GB print(f"Llama2-7B INT8: {estimate_vram(7, 8)}GB") # ~9GB print(f"Llama2-7B INT4: {estimate_vram(7, 4)}GB") # ~6GB print(f"Llama2-13B INT4: {estimate_vram(13, 4)}GB") # ~9GB print(f"Llama2-70B INT4: {estimate_vram(70, 4)}GB") # ~40GB 完整配置推荐 # 入门级配置（~5000元） entry_level: cpu: "Intel i5-12400 / AMD R5 5600" gpu: "RTX 3060 12GB" ram: "32GB DDR4" storage: "512GB NVMe SSD" capability: "7B 模型流畅运行，13B 模型可运行" # 进阶级配置（~10000元） mid_range: cpu: "Intel i5-13600K / AMD R5 7600X" gpu: "RTX 4060 Ti 16GB" ram: "64GB DDR5" storage: "1TB NVMe SSD" capability: "13B 模型流畅运行，70B 量化模型可运行" # 高端配置（~20000元） high_end: cpu: "Intel i7-13700K / AMD R7 7700X" gpu: "RTX 4090 24GB" ram: "64GB DDR5" storage: "2TB NVMe SSD" capability: "70B 量化模型流畅运行" # 专业级配置（~50000元+） professional: cpu: "Intel Xeon / AMD Threadripper" gpu: "RTX 4090 24GB x2 / A100 40GB" ram: "128GB+ DDR5" storage: "4TB NVMe SSD RAID" capability: "130B+ 模型，多并发" 部署工具选择主流工具对比工具特点适用场景推荐指数 Ollama 一键安装，简单易用快速上手，个人使用 ⭐⭐⭐⭐⭐ llama.cpp 性能优秀，跨平台生产环境，性能敏感 ⭐⭐⭐⭐⭐ text-generation-webui 功能丰富，Web 界面交互式使用，实验 ⭐⭐⭐⭐ vLLM 高吞吐，适合服务化生产部署，API 服务 ⭐⭐⭐⭐ LM Studio 图形界面，友好易用非技术用户，Windows ⭐⭐⭐⭐ LocalAI OpenAI API 兼容替代 OpenAI API ⭐⭐⭐⭐ 1. Ollama（推荐入门） Ollama 是目前最简单的本地 LLM 部署方案。 ...