1 基础篇
为何选择本地 AI?自主化的商业价值
2020年代初,人工智能还是一项按小时、按token、按API调用付费的租赁服务。到2026年,范式已彻底转变。运行"GPT-4级别"智能所需的硬件如今只需桌面空间,成本低于一辆二手车。
持续依赖纯云端AI将面临三重战略困境:
- 成本激增。 API按token计费随用量线性增长。每日处理1,000份合同的律师事务所可能面临~25万元的年度API成本。
- 数据暴露风险。 每个发送至云端API的查询都会使数据离开您的内部网络,面临数据安全与隐私风险。
- 零定制或高成本定制。 云端模型具有通用性。它们无法轻松或低成本地根据定制数据、内部业务流程或商业智能进行微调。
本地AI硬件一举解决所有三项挑战。它将可变API费用转化为固定资产,确保数据永不离开局域网,并通过业务数据微调实现深度定制。
2 成本优化
量化技术:在更廉价硬件上运行更大 AI 模型
量化是彻底改变本地AI经济性的核心技术。
简而言之,量化技术可压缩AI模型的内存占用。标准模型将每个参数存储为16位浮点数(FP16),而量化可将其降至8位(Int8)、4位(Int4)甚至更低——从而显著减少模型运行所需内存。
量化会导致输出质量轻微下降——在摘要生成、草案拟定、数据分析等商业任务中通常难以察觉——但换来的是硬件成本的大幅降低。
全精度4000亿参数模型需约800GB内存——相当于~137万元的服务器投资。相同模型经Int4量化后仅200GB内存,可在两台互联的DGX Spark(基于GB10超级芯片)迷你电脑上以5.48万元成本运行。
专家混合模型(MoE)
专家混合模型是另一种AI架构技巧,可在不增加巨额内存成本的前提下部署超大规模模型。
MoE模型并非为每个问题调用全部参数,而是通过稀疏激活机制仅启用部分能力。
如Llama 4 Behemoth这类2万亿参数的MoE模型,单次查询仅激活2880亿参数——以极小内存代价实现前沿智能水平。
在摘要生成、分类等简单任务上,MoE模型效率略低于同规模稠密模型。但在复杂分析、代码生成及研究等知识型推理任务中表现卓越。
稀疏激活机制可提升推理速度并缩短响应时间。
3 迷你PC
AI迷你PC ¥10,300 - ¥68,000
2026年最具颠覆性的创新是迷你PC形态的高性能AI计算。如今不超过精装书本大小的设备,就能运行两年前还需专用机房支持的AI模型。
NVIDIA GB10生态系统(DGX Spark)
性能标杆
NVIDIA DGX Spark定义了此品类。2026年,GB10超级芯片——融合ARM Grace CPU与Blackwell GPU——催生了完整生态链。华硕、技嘉、戴尔、联想、惠普、微星和超微均生产基于GB10的系统,各具不同的外形设计、散热方案和捆绑软件。
通过专用高速网络端口连接两台GB10设备,系统将资源整合为256 GB内存空间。这使您能在桌面上运行超大规模模型——400B+参数的量化模型——总硬件投入约5.48万元。
AMD Ryzen AI Max (Strix Halo) 迷你PC
最低成本
AMD Ryzen AI Max+ Strix Halo
架构催生了全新的入门级AI迷你PC品类。GMKBeelink、海盗船、NIMO、Bosgame、FAVM等制造商现以低于~1.37万元的价格供应128GB统一内存系统。
Apple Mac Studio (M4 Ultra)
容量王者
Mac Studio在本地AI领域占据独特地位。苹果统一内存架构(UMA)在单个紧凑桌面设备中提供高达256GB内存,CPU和GPU均可访问——无需集群。
这使其成为唯一能加载最大开源模型的"经济型"单设备。经Int4量化的4000亿参数模型可完全容纳在256GB配置的内存中。
Apple Mac Studio (M5 Ultra)
未来新星
苹果下一代M5 Ultra预计2026年底推出,据传将解决M4的主要短板:AI模型训练性能。基于台积电2纳米工艺打造,预计将提供高达512 GB的统一内存配置,带宽超过1.2 TB/s。
512GB版M5 Ultra将成为首款能运行未量化(全精度)前沿模型的消费级设备。1.2+ TB/s的高内存带宽支持需要持续高吞吐推理和超长上下文窗口的智能体AI工作流。
Tiiny AI
口袋AI超级计算机
Tiiny.ai口袋AI计算机于2026年以9600元登陆Kickstarter,这款掌上超级计算机配备80GB LGDDR5X内存和1TB SSD,支持本地运行1200亿参数AI模型。
仅重300克(142×22×80毫米)并采用标准USB-C供电,支持创新商业应用。据Tiiny AI报告,GPT-OSS-120B模型输出速度达每秒21.14个token。
Tenstorrent
开源硬件
由传奇芯片架构师Jim Keller领军的Tenstorrent代表了一种根本不同的理念:基于RISC-V的开源硬件、开源软件,以及通过菊花链实现的模块化扩展。
Tensix
AI核心采用线性扩展设计:与添加更多显卡时面临通信瓶颈的GPU不同,Tenstorrent芯片专为高效拼接而打造。
Tenstorrent与雷蛇合作推出紧凑型外置AI加速器,通过Thunderbolt连接任意笔记本或台式机——无需更换任何部件,即可将现有硬件转变为AI工作站。
AI NAS——网络附加存储
存储 + AI
NAS的定义已从被动存储转向主动智能。新一代网络存储设备直接集成AI处理能力——从轻量级NPU推理到完整的GPU加速大语言模型部署。
支持AI的NAS消除了对独立AI设备的需求,允许直接处理海量数据且无网络传输延迟。
4 工作站
AI工作站与台式电脑 2.1万元 - 10.3万元
工作站层级采用独立PCIe显卡和标准塔式机箱。与迷你电脑固定架构不同,此层级提供模块化能力——可升级单个部件、增加GPU数量或随技术迭代更换显卡。
理解显存与速度的关系
GPU的AI性能由两大核心因素决定:
消费级显卡(如RTX 5090)追求速度但显存有限(通常24-32GB)。专业级显卡(如RTX PRO 6000 Blackwell)专注显存容量(单卡最高96GB),但单位算力成本更高。
显存是硬性约束。显存不足的快速显卡无法加载AI模型;显存充足的慢速显卡可运行模型,但响应时间较长。
消费级GPU
| 配置方案 | 总显存 | 互联方式 | 预估成本 |
|---|---|---|---|
| 2× RTX 3090 (二手) | 48 GB | NVLink | ~2.05万元 |
| 2× RTX 4090 | 48 GB | PCIe 5.0 | 2.74万元 |
| 2× RTX 5090 | 64 GB | PCIe 5.0 | 4.79万元 |
专业级GPU
| 配置方案 | 总显存 | 互联方式 | 预估成本 |
|---|---|---|---|
| 2× RTX A6000 最佳性价比 | 96 GB | NVLink | 4.79万元 |
| 2× RTX 6000 Ada | 96 GB | PCIe 5.0 | 8.9万元 |
| 1× RTX PRO 6000 Blackwell | 96 GB | NVLink | 5.48万元 |
| 4× RTX PRO 6000 Blackwell | 384 GB | PCIe 5.0 | 21.9万元 |
数据中心GPU
| 配置方案 | 总显存 | 互联方式 | 预估成本 |
|---|---|---|---|
| 1× L40S | 48 GB | PCIe 4.0 (被动散热) | 4.79万元 |
| 1× A100 PCIe | 80 GB | PCIe 4.0 | 6.84万元 |
| 1× H200 NVL | 141 GB | NVLink | 20.53万元 |
| 4× H200 NVL | 564 GB | NVLink | 82.13万元 |
| 1× B200 SXM | 180 GB | NVLink 5 (1.8 TB/s) | 20.53万元 |
| 8× B200 SXM | 1,440 GB | NVLink 5 (1.8 TB/s) | 164.26万元 |
国产GPU
中国国产GPU生态已快速成熟。多家制造商推出工作站级AI显卡,性能媲美国际产品且价格显著降低。
| 配置方案 | 总显存 | 内存类型 | 预估成本 |
|---|---|---|---|
| 1× 摩尔线程MTT S4000 | 48 GB | GDDR6 | 5500元 |
| 4× 摩尔线程MTT S4000 | 192 GB | GDDR6 | 24000元 |
| 8× 摩尔线程MTT S4000 | 384 GB | GDDR6 | 44500元 |
| 1× 海光DCU Z100 | 32 GB | HBM2 | 17100元 |
| 1× 壁仞BR104 | 32 GB | HBM2e | ~2.05万元 |
| 8× 壁仞BR104 | 256 GB | HBM2e | 16.43万元 |
| 1× 华为昇腾Atlas 300I Duo | 96 GB | HBM2e | 8200元 |
| 8× 华为昇腾Atlas 300I Duo | 768 GB | HBM2e | 6.84万元 |
即将推出
| 配置方案 | 总显存 | 状态 | 预估成本 |
|---|---|---|---|
| RTX 5090 128 GB | 128 GB | 国产改版—非官方型号 | 3.42万元 |
| RTX Titan AI | 64 GB | 2027年上市 | ~2.05万元 |
NVIDIA DGX Station
企业巅峰
NVIDIA DGX Station是一款水冷式桌边"超级计算机",将数据中心性能带入办公环境。最新版本采用GB300 Grace Blackwell超级芯片。
Blackwell Ultra
版本提升内存密度与算力,专为需从零训练定制模型或本地运行大型MoE(专家混合)架构的组织设计。
虽基于前代安培架构,仍是可靠推理与微调的行业标准。特别适合预算有限无法采购Blackwell芯片的AI入门团队。
DGX工作站虽昂贵,但可替代价值~205万元的服务器机架及配套冷却设施。直接接入标准墙壁插座,彻底消除"服务器机房"的运维负担。
5 服务器
AI服务器 10.3万元 - 137万元
当企业需同时服务大量员工、全精度运行基础级模型或在私有数据上微调定制模型时,即需进入服务器层级。
这是专用AI加速卡领域,具备高带宽内存(HBM)、专用互连技术及机架式/桌边形态。硬件成本更高,但规模化后单用户成本大幅下降。
英特尔Gaudi 3
规模化最佳性价比
英特尔Gaudi 3加速器是专为AI训练/推理设计的芯片——非改造显卡。每卡集成128GB HBM2e显存与400Gb以太网,无需独立网卡。
Gaudi 3提供两种形态:
- PCIe 扩展卡 (HL-338): 标准PCIe形态便于集成至现有服务器。预估价格:约¥82,000/张。
- OAM模块(OCP加速器模组): 面向云数据中心的高密度OCP标准。批量采购8芯片套件时单价10.69万元(含基板总价~86万元)。
8卡Gaudi 3服务器可提供1TB总AI内存,成本远低于同级别NVIDIA H100系统。
AMD Instinct MI325X
极致密度
AMD Instinct MI325X每卡搭载256GB HBM3e内存——两倍于英特尔Gaudi 3。仅需4卡即可达成1TB总AI内存,英特尔方案则需8卡。
MI325X单系统成本高于Gaudi 3,但速度更快、密度更高。对于需最大吞吐量的场景——如多用户实时推理或大数据集定制模型训练——其高投入将通过降低延迟和简化基础设施获得回报。
华为昇腾
全栈替代方案
华为已复刻完整AI基础设施栈:自研芯片(昇腾910B/C)、专有互连(HCCS)及全套软件框架(CANN)。由此构建出独立于西方供应链的自主生态系统,成本远低于同级NVIDIA H100集群。
英特尔至强6 (Granite Rapids)
经济型服务器
2026年的静默革命是CPU推理的崛起。英特尔至强6处理器搭载AMX(高级矩阵扩展),支持标准DDR5内存运行AI任务——成本远低于GPU显存。
双路至强6服务器可容纳1TB至4TB DDR5内存,成本仅为GPU内存的零头。虽然推理速度较慢,但在批处理场景(速度无关紧要,智能与容量才是关键)具有变革性意义。
示例:某中小企业夜间上传10万张扫描发票。Xeon 6服务器运行400B+参数的AI模型完美提取数据。任务耗时10小时,但硬件成本远低于GPU服务器。
需要帮助选择适合的AI服务器基础设施?
我们的基础设施团队设计并部署完整的AI服务器解决方案——从英特尔Gaudi到NVIDIA DGX——结合定制软件——为您的企业释放AI潜力。
申请服务器架构方案 →6 边缘AI
边缘AI与改造 升级现有基础设施
并非每个中小企业都需要专用AI服务器或迷你PC。许多企业可将智能嵌入现有设备——以最低成本为笔记本、台式机和网络设备添加AI功能。
M.2 AI加速器:Hailo-10
Hailo是标准M.2 2280模块——与SSD使用相同插槽——可为任何现有PC添加专用AI处理能力。单价约~1000元,功耗仅5-8W,无需更换硬件即可实现全设备AI升级。
应用场景: 本地会议转录(Whisper)、实时字幕生成、语音听写、小型模型推理(Phi-3 Mini)。这些加速卡无法运行大型语言模型,但在特定持续性AI任务中表现出色——确保语音数据本地处理永不外传至云端。
Copilot+ PC(NPU笔记本)
搭载高通骁龙X Elite、英特尔酷睿Ultra或AMD锐龙AI芯片的笔记本电脑均含专用NPU(神经网络处理器)。虽无法运行大型LLM,但可处理持续型轻量AI任务:实时转录、背景虚化、本地"Recall"功能及运行Microsoft Phi-3等轻量模型。
NPU性能以TOPS(每秒万亿次操作)衡量。2026年最强Copilot+ PC约达50 TOPS。TOPS值越高意味着响应更快,且能处理稍大AI模型。
9 AI模型
开源AI模型(2026–2027)
AI模型选择决定硬件需求——但正如AI模型量化章节所示,量化技术能让尖端模型在成本仅为全精度部署零头的硬件上运行。
下表概述当前及即将发布的开源AI模型。
| 模型 | 规模 | 架构 | 内存(FP16) | 内存(INT4) |
|---|---|---|---|---|
| Llama 4 Behemoth | 288B(激活参数) | MoE(总量~2T) | ~4 TB | ~1 TB |
| Llama 4 Maverick | 17B(激活参数) | 混合专家(总计400B) | ~800 GB | ~200 GB |
| Llama 4 Scout | 17B(激活参数) | MoE(总量109B) | ~220 GB | ~55 GB |
| DeepSeek V4 | ~70B(激活参数) | MoE(总量671B) | ~680 GB | 约170 GB |
| DeepSeek R1 | 37B(激活参数) | MoE(总量671B) | ~140 GB | ~35 GB |
| DeepSeek V3.2 | ~37B(激活参数) | MoE(总量671B) | ~140 GB | ~35 GB |
| Kimi K2.5 | 32B(激活参数) | MoE(总量1T) | ~2 TB | ~500 GB |
| Qwen 3.5 | 397B(激活参数) | MoE(A17B) | ~1.5 TB | ~375 GB |
| Qwen 3-Max-Thinking | 大型 | 密集型 | ~2 TB | ~500 GB |
| Qwen 3-Coder-Next | 480B(A35B激活参数) | MoE | ~960 GB | ~240 GB |
| Mistral Large 3 | 123B(41B激活参数) | 混合专家(总计675B) | ~246 GB | ~62 GB |
| Ministral 3(3B, 8B, 14B) | 3B–14B | 密集型 | ~6–28 GB | ~2–7 GB |
| GLM-5 | 44B(激活参数) | MoE(总量744B) | ~1.5 TB | ~370 GB |
| GLM-4.7(Thinking) | 大型 | 密集型 | ~1.5 TB | ~375 GB |
| MiMo-V2-Flash | 15B(激活参数) | MoE(总量309B) | ~30 GB | ~8 GB |
| MiniMax M2.5 | ~10B(激活参数) | MoE(总量~230B) | ~460 GB | ~115 GB |
| Phi-5 Reasoning | 14B | 密集型 | ~28 GB | ~7 GB |
| Phi-4 | 14B | 密集型 | ~28 GB | ~7 GB |
| Gemma 3 | 27B | 密集型 | ~54 GB | 约14 GB |
| Pixtral 2 Large | 90B | 密集型 | ~180 GB | ~45 GB |
| Stable Diffusion 4 | ~12B | DiT | ~24 GB | ~6 GB |
| FLUX.2 Pro | 15B | DiT | ~30 GB | ~8 GB |
| Open-Sora 2.0 | 30B | DiT | ~60 GB | ~15 GB |
| Whisper V4 | 1.5B | 密集型 | 约3 GB | ~1 GB |
| Med-Llama 4 | 70B | 密集型 | ~140 GB | ~35 GB |
| Legal-BERT 2026 | 35B | 密集型 | ~70 GB | ~18 GB |
| Finance-LLM 3 | 15B | 密集型 | ~30 GB | ~8 GB |
| CodeLlama 4 | 70B | 密集型 | ~140 GB | ~35 GB |
| Molmo 2 | 80B | 密集型 | ~160 GB | ~40 GB |
| Granite 4.0 | 32B(9B激活参数) | 混合Mamba-Transformer | ~64 GB | ~16 GB |
| Nemotron 3 | 8B, 70B | 密集型 | ~16–140 GB | ~4–35 GB |
| EXAONE 4.0 | 32B | 密集型 | ~64 GB | ~16 GB |
| Llama 5 Frontier | ~1.2T(总量) | MoE | ~2.4 TB | ~600 GB |
| Llama 5 Base | 70B–150B | 密集型 | ~140–300 GB | ~35–75 GB |
| DeepSeek V5 | ~600B(总量) | MoE | ~1.2 TB | ~300 GB |
| Stable Diffusion 5 | 待定 | DiT | — | — |
| Falcon 3 | 200B | 密集型 | ~400 GB | ~100 GB |
切勿先购买硬件。先确定符合业务需求的模型类别,再应用量化技术确定最具成本效益的硬件层级。
~2.05万元与102.7万元投资的差异通常取决于模型规模需求和并发用户数。
塑造AI模型格局的趋势
- 原生多模态成为标准。新模型同时训练文本、图像、音频和视频——而非训练后拼接独立功能。这意味着单一模型即可处理文档分析、图像理解和语音交互。
- 小模型实现大模型能力。 Phi-5(14B)和MiMo-V2-Flash证明,架构创新可将前沿级推理能力压缩至笔记本电脑可运行的模型中,"越大越好"的时代正走向终结。
- 专业化优于泛化。趋势正从单一全能大模型转向专业模型组合——编程模型、推理模型、视觉模型——由智能体框架协调。这既降低单模型硬件需求,又提升整体质量。
- 智能体AI。Kimi K2.5和Qwen 3等模型能自主分解复杂任务、调用外部工具并协同其他模型。这种
智能体集群
范式需在长会话中维持高吞吐量——更适用GB10和M5 Ultra等高带宽硬件。 - 视频与3D生成技术成熟。Open-Sora 2.0和FLUX.2 Pro标志着本地视频生成正走向实用化。到2027年,工作站级硬件将支持实时视频编辑助手。
10 安全
最大化安全性的架构
本地AI硬件的核心优势并非性能,而是数据主权。当AI服务器在您防火墙内运行而非他人云端时,敏感数据永不离开建筑。
气隙API架构将AI服务器与互联网物理隔离,同时通过API接口授权员工访问。
此架构创建数字保险库
。即使代理服务器被攻破,攻击者仅能发送文本查询——无法访问AI服务器的文件系统、模型权重、微调数据或任何存储文档。
11 经济性
经济性评估:本地部署 vs 云端方案
向本地AI硬件的转型是从运营支出(OpEx——月度云API费用)向资本支出(CapEx——成为资产负债表资产的一次性硬件投资)的转变。
假设某律所使用2000亿参数模型分析合同:
每日1,000次查询时,DGX Spark相比云端API成本可在2个月内回本。更高使用频率下,盈亏平衡期可缩短至数周。
若综合考虑以下因素,经济性将更具优势:
- 多名员工共享同套硬件(DGX Spark支持2-5名并发用户)
- 无按 token 计费——复杂的多步骤推理任务无需额外费用
- 专有数据微调——多数云 API 无法实现,本地硬件免费执行
- 硬件转售价值——AI 硬件在二手市场保持显著残值