My Blog

本地大模型部署实战心得

本地大模型部署实战心得随着大语言模型（LLM）的快速发展，越来越多的开发者和企业开始考虑在本地部署模型。本文将分享我在本地部署 LLM 过程中的实战经验，涵盖硬件选型、工具选择、部署优化等方面。为什么选择本地部署？本地部署 vs 云端 API 维度本地部署云端 API 数据隐私数据不出本地，完全可控数据需上传至第三方服务器成本一次性硬件投入，长期使用成本低按 token 计费，高频使用成本高延迟内网访问，延迟极低受网络状况影响可用性依赖本地硬件，需自行维护依赖服务商稳定性模型选择可运行任意开源模型受限于服务商提供的模型定制化可微调、量化、定制通常只能使用标准接口适用场景企业内部知识库 - 处理敏感文档，数据不能外传高频调用场景 - 如代码补全、实时对话，token 消耗大离线环境 - 无公网访问或网络不稳定模型研究实验 - 需要尝试不同的模型和参数硬件选型指南 GPU 选择 ┌─────────────────────────────────────────────────────────────┐ │ GPU 性能天梯图（LLM 推理） │ ├─────────────────────────────────────────────────────────────┤ │ 🏆 旗舰级 │ │ • RTX 4090 (24GB) - 可运行 70B 量化模型 │ │ • RTX 3090/4090 双卡 - 可运行 70B/130B 模型 │ │ • A100 (40/80GB) - 企业级选择 │ ├─────────────────────────────────────────────────────────────┤ │ 💎 高端级 │ │ • RTX 4080 (16GB) - 可运行 13B-30B 模型 │ │ • RTX 3090 (24GB) - 性价比之选 │ │ • RTX 4070 Ti Super - 16GB 显存入门 │ ├─────────────────────────────────────────────────────────────┤ │ ⚡ 中端级 │ │ • RTX 4060 Ti (16GB) - 可运行 7B-13B 模型 │ │ • RTX 3060 (12GB) - 预算有限首选 │ │ • Apple M3 Pro/Max - Mac 用户选择 │ ├─────────────────────────────────────────────────────────────┤ │ 📝 入门级（CPU 推理） │ │ • 16GB+ 内存 - 可运行 7B 量化模型 │ │ • 32GB+ 内存 - 可运行 13B 量化模型 │ └─────────────────────────────────────────────────────────────┘ 显存需求计算 # 显存需求估算公式 def estimate_vram(model_params_b, quantization_bits=16, context_length=4096): """ 估算运行 LLM 所需的显存 Args: model_params_b: 模型参数量（十亿） quantization_bits: 量化位数（16/8/4） context_length: 上下文长度 """ # 基础模型权重显存 base_memory = (model_params_b * 1e9 * quantization_bits) / 8 / 1e9 # GB # KV Cache 显存（每 token 约 2 * hidden_size * layers * bytes） # 简化估算：每 1K 上下文约需 0.5-2GB（取决于模型） kv_cache = (context_length / 1024) * 1.0 # GB # 激活值和开销 overhead = 2 # GB total = base_memory + kv_cache + overhead return round(total, 2) # 示例 print(f"Llama2-7B FP16: {estimate_vram(7, 16)}GB") # ~16GB print(f"Llama2-7B INT8: {estimate_vram(7, 8)}GB") # ~9GB print(f"Llama2-7B INT4: {estimate_vram(7, 4)}GB") # ~6GB print(f"Llama2-13B INT4: {estimate_vram(13, 4)}GB") # ~9GB print(f"Llama2-70B INT4: {estimate_vram(70, 4)}GB") # ~40GB 完整配置推荐 # 入门级配置（~5000元） entry_level: cpu: "Intel i5-12400 / AMD R5 5600" gpu: "RTX 3060 12GB" ram: "32GB DDR4" storage: "512GB NVMe SSD" capability: "7B 模型流畅运行，13B 模型可运行" # 进阶级配置（~10000元） mid_range: cpu: "Intel i5-13600K / AMD R5 7600X" gpu: "RTX 4060 Ti 16GB" ram: "64GB DDR5" storage: "1TB NVMe SSD" capability: "13B 模型流畅运行，70B 量化模型可运行" # 高端配置（~20000元） high_end: cpu: "Intel i7-13700K / AMD R7 7700X" gpu: "RTX 4090 24GB" ram: "64GB DDR5" storage: "2TB NVMe SSD" capability: "70B 量化模型流畅运行" # 专业级配置（~50000元+） professional: cpu: "Intel Xeon / AMD Threadripper" gpu: "RTX 4090 24GB x2 / A100 40GB" ram: "128GB+ DDR5" storage: "4TB NVMe SSD RAID" capability: "130B+ 模型，多并发" 部署工具选择主流工具对比工具特点适用场景推荐指数 Ollama 一键安装，简单易用快速上手，个人使用 ⭐⭐⭐⭐⭐ llama.cpp 性能优秀，跨平台生产环境，性能敏感 ⭐⭐⭐⭐⭐ text-generation-webui 功能丰富，Web 界面交互式使用，实验 ⭐⭐⭐⭐ vLLM 高吞吐，适合服务化生产部署，API 服务 ⭐⭐⭐⭐ LM Studio 图形界面，友好易用非技术用户，Windows ⭐⭐⭐⭐ LocalAI OpenAI API 兼容替代 OpenAI API ⭐⭐⭐⭐ 1. Ollama（推荐入门） Ollama 是目前最简单的本地 LLM 部署方案。 ...

TypeScript 高级类型详解

TypeScript 高级类型详解 TypeScript 的类型系统是其最强大的特性之一。本文将深入探讨 TypeScript 的高级类型，帮助你写出更类型安全、更易维护的代码。 1. 泛型（Generics）泛型是 TypeScript 中最强大的特性之一，它允许我们编写可重用的代码。基础泛型 // 泛型函数 function identity<T>(arg: T): T { return arg; } // 使用 const num = identity<number>(42); const str = identity<string>("hello"); // 类型推断 const inferred = identity(42); // T 被推断为 number 泛型约束 interface HasLength { length: number; } // 约束 T 必须具有 length 属性 function logLength<T extends HasLength>(arg: T): T { console.log(arg.length); return arg; } logLength("hello"); // ✅ 字符串有 length logLength([1, 2, 3]); // ✅ 数组有 length logLength({ length: 10 }); // ✅ 对象有 length // logLength(42); // ❌ number 没有 length 泛型接口 interface GenericResponse<T> { data: T; status: number; message: string; } // 使用 interface User { id: number; name: string; } const userResponse: GenericResponse<User> = { data: { id: 1, name: "John" }, status: 200, message: "Success" }; 泛型类 class GenericStack<T> { private items: T[] = []; push(item: T): void { this.items.push(item); } pop(): T | undefined { return this.items.pop(); } peek(): T | undefined { return this.items[this.items.length - 1]; } } // 使用 const numberStack = new GenericStack<number>(); numberStack.push(1); numberStack.push(2); const top = numberStack.pop(); // number | undefined 2. 条件类型（Conditional Types）条件类型允许我们根据类型关系选择类型。 ...

Git 工作流完全指南

Git 工作流完全指南 Git 是目前最流行的版本控制系统。本文将介绍从基础命令到高级工作流的完整 Git 使用指南，帮助你更高效地进行版本管理和团队协作。基础配置初始设置 # 配置用户信息 git config --global user.name "Your Name" git config --global user.email "your.email@example.com" # 配置默认编辑器 git config --global core.editor "vim" # 配置别名（提高效率） git config --global alias.st status git config --global alias.co checkout git config --global alias.br branch git config --global alias.ci commit # 查看配置 git config --list 忽略文件配置 # .gitignore 示例 # 依赖目录 node_modules/ vendor/ # 编译输出 dist/ build/ *.exe *.dll # IDE 配置 .idea/ .vscode/ *.swp *.swo # 日志文件 *.log logs/ # 环境变量 .env .env.local .env.production # 操作系统文件 .DS_Store Thumbs.db 基础工作流日常开发流程 # 1. 获取最新代码 git pull origin main # 2. 创建功能分支 git checkout -b feature/new-feature # 3. 开发并提交 git add . git commit -m "feat: add new feature" # 4. 推送到远程 git push origin feature/new-feature # 5. 创建 Pull Request 并合并 # ... # 6. 清理分支 git checkout main git pull origin main git branch -d feature/new-feature 提交规范使用 Conventional Commits 规范： ...

Podman 容器化最佳实践

Podman 容器化最佳实践 Podman 是一个开源的容器管理工具，作为 Docker 的替代方案，它提供了无守护进程、rootless（无 root 权限运行）等安全特性。本文将分享从开发到生产的 Podman 最佳实践。 Podman vs Docker：关键区别特性 Podman Docker 架构无守护进程（Daemonless）需要 Docker Daemon Root 权限支持 Rootless 模式通常需要 root 或 docker 组镜像格式兼容 Docker 镜像 OCI 标准镜像 Pod 支持原生支持 Pod 需要 Kubernetes 命令行与 Docker 命令兼容 docker CLI # Podman 命令与 Docker 几乎完全兼容 podman run -d -p 8080:80 nginx:alpine # 甚至可以设置别名 alias docker=podman 1. 编写高效的 Containerfile Podman 使用 Containerfile（也兼容 Dockerfile），以下是最佳实践： ...

Python 异步编程：从入门到实践

Python 异步编程：从入门到实践 Python 的 asyncio 库为编写并发代码提供了一套完整的解决方案。本文将带你深入了解异步编程的核心概念和实际应用。什么是异步编程？异步编程是一种编程范式，允许程序在等待 I/O 操作（如网络请求、文件读写）时，不阻塞主线程去执行其他任务。同步 vs 异步 import time import requests # 同步方式：按顺序执行，耗时 = 各请求时间之和 def sync_fetch(): urls = ['https://api.example.com/data1', 'https://api.example.com/data2', 'https://api.example.com/data3'] results = [] for url in urls: response = requests.get(url) # 阻塞等待 results.append(response.json()) return results # 异步方式：并发执行，耗时 ≈ 最慢的那个请求 def async_fetch(): # 使用 asyncio 和 aiohttp 实现 pass asyncio 核心概念 1. 协程（Coroutine）协程是异步编程的基本单元，使用 async def 定义。 import asyncio async def say_hello(): print("Hello") await asyncio.sleep(1) # 模拟异步操作 print("World") # 运行协程 asyncio.run(say_hello()) 2. 事件循环（Event Loop）事件循环是 asyncio 的核心，负责调度和执行协程。 ...

React 性能优化完全指南

React 性能优化完全指南 React 作为目前最流行的前端框架之一，性能优化是每位开发者必须掌握的技能。本文将从多个维度深入探讨 React 应用的性能优化策略。 1. 使用 React.memo 避免不必要的重渲染 React.memo 是一个高阶组件，它可以帮助我们避免组件在 props 没有变化时进行不必要的重渲染。 import React, { memo } from 'react'; const ExpensiveComponent = memo(({ data, onUpdate }) => { console.log('ExpensiveComponent rendered'); return ( <div className="expensive-component"> {data.map(item => ( <div key={item.id}>{item.name}</div> ))} </div> ); }); 注意事项：只有当组件的渲染开销较大时才使用 React.memo 配合 useMemo 和 useCallback 使用效果更佳 2. useMemo 和 useCallback 的正确使用 useMemo 缓存计算结果 import { useMemo } from 'react'; function DataProcessor({ items, filter }) { const filteredItems = useMemo(() => { console.log('Filtering items...'); return items.filter(item => item.category === filter); }, [items, filter]); return ( <ul> {filteredItems.map(item => ( <li key={item.id}>{item.name}</li> ))} </ul> ); } useCallback 缓存函数引用 import { useCallback } from 'react'; function ParentComponent() { const [count, setCount] = useState(0); const handleClick = useCallback(() => { setCount(c => c + 1); }, []); return <ChildComponent onClick={handleClick} />; } 3. 虚拟列表优化长列表当需要渲染大量数据时，使用虚拟列表可以显著提升性能。 ...