1 基礎架構
為何選擇本地 AI?自主運算的商業價值
2020 年代初,人工智能還是一項按小時、按 token、按 API 調用計費的租賃服務。到 2026 年,典範已然轉移。運行「GPT-4 級別」智能所需的硬件,如今僅佔桌面空間,成本低於二手汽車。
持續依賴純雲端 AI 將面臨三重戰略困境:
- 成本持續攀升。 每token API費用隨使用量線性增長。每日處理1,000份合約的律師事務所,每年可能面臨~112萬元的API成本。
- 數據外洩風險。 每項傳送至雲端 API 的查詢,都是離開您內部網絡的數據,暴露於資安與私隱風險中。
- 零定制或天價定制。 雲端模型屬通用型態。難以低成本針對企業專屬數據、內部流程或商業情報進行微調。
本地 AI 硬件一舉解決三大痛點:將浮動 API 成本轉化為固定資產、確保數據永不離開區域網絡、透過商業數據微調實現深度定制。
2 成本壓縮
量化技術:用低成本硬件運行大型 AI 模型
量化是一個從根本上改變本地AI經濟效益的概念。
簡言之,量化技術能壓縮 AI 模型的記憶體佔用。標準模型以 16 位浮點FP16) 儲存參數,量化則將其壓縮至 8 位 (Int8)、4 位 (Int4) 或更低——大幅降低運行模型所需記憶體。
量化會導致輸出質量輕微下降——對於摘要、起草和分析等商業任務通常難以察覺——以換取硬件成本的大幅降低。
全精度的4000億模型需約800GB記憶體——相當於~625萬元的伺服器投資。相同模型經Int4量化後僅需約200GB,可在兩部連結的DGX Spark(基於GB10 Superchip)迷你電腦上運行,成本NT$250,000。
專家混合模型(MoE)
專家混合模型是另一種AI模型架構技巧,能部署龐大模型而無需高昂記憶體成本。
MoE模型不會對每個問題使用所有參數,而是透過稀疏激活僅啟用部分能力。
如Llama 4 Behemoth等2兆參數MoE模型,每次查詢僅激活2880億參數——以極低記憶體成本提供尖端智能。
相比同規模稠密模型,MoE模型在摘要和分類等簡單任務效率稍低。但在複雜分析、代碼生成及研究等知識工作與推理方面表現卓越。
稀疏激活可實現更快推論速度與更短響應時間。
3 迷你電腦
AI迷你電腦 4.7萬 - 31.2萬元
2026年最具顛覆性的發展是迷你電腦外形的高容量AI運算。如今體積不超過精裝書的裝置,已能運行兩年前需整個伺服器機房的AI模型。
NVIDIA GB10 生態系統 (DGX Spark)
效能霸主
NVIDIA DGX Spark 重新定義此品類。2026 年,結合 ARM Grace CPU 與 Blackwell GPU 的GB10 超級晶片已孕育完整生態鏈。華碩、技嘉、戴爾、聯想、HP、微星與超微皆推出基於 GB10 的系統,各自具備不同規格、散熱方案及軟件。
透過專用高速網絡端口連接兩組 GB10 裝置,系統將資源整合為256 GB 記憶體空間。這使您能在桌面超大型模型——400B+ 量化參數——總硬件投資僅約NT$250,000。
AMD Ryzen AI Max (Strix Halo) 迷你電腦
成本最低
AMD Ryzen AI Max+ Strix Halo
架生全新平價 AI 迷你電腦品類。GMKtec、Beelink、Corsair、NIMO、Bosgame、FAVM 等製造商現以低於 ~6.2萬元 的價格供應 128 GB 統一記憶體系統。
Apple Mac Studio (M4 Ultra)
容量王者
Mac Studio 在本地 AI 領域佔據獨特地位。Apple 統一記憶體架構 (UMA) 在單一緊湊桌面裝置內提供高達 256 GB 記憶體,CPU 與 GPU 皆可存取——無需叢集技術。
這使其成為唯一能載入最大開源模型的「經濟型」單機裝置。經 Int4 量化的 4000 億參數模型,可完整載入 256 GB 配置的記憶體。
Apple Mac Studio (M5 Ultra)
新銳挑戰者
傳聞 Apple 將於 2026 年末推出的次世代 M5 Ultra,將解決 M4 的主要弱點:AI 模型訓練效能。基於台積電 2nm 製程,預計提供高達512 GB的統一記憶體配置,頻寬超越 1.2 TB/s。
512 GB M5 Ultra 將成為首款能運行未量化(全精度)尖端模型的消費級裝置。1.2+ TB/s 的高記憶體頻寬,可支援需持續高吞吐推理與超長上下文窗口的智能代理工作流。
Tiiny AI
口袋AI超級電腦
Tiiny.ai口袋AI電腦於2026年以NT$44,000在Kickstarter推出,配備80GB LGDDR5X記憶體及1TB SSD,可隨時隨地本地運行1200億AI模型。
僅重300克(142×22×80毫米)並採用標準USB-C供電,支援創新商業應用。據Tiiny AI報告,GPT-OSS-120B輸出速度達每秒21.14個token。
Tenstorrent
開源硬件
由傳奇晶片架構師 Jim Keller 領導,Tenstorrent 代表截然不同的理念:基於 RISC-V 的開源硬件、開源軟件,以及菊花鏈式模塊化擴展。
Tensix
AI 核心採用線性擴展設計:不同於 GPU 增加卡數時面臨通訊負擔,Tenstorrent 晶片專為高效堆疊打造。
Tenstorrent 與 Razer 合作推出緊湊型外置 AI 加速器,透過 Thunderbolt 連接任何筆電或桌面電腦——無需更換任何部件,即可將現有硬件升級為 AI 工作站。
AI NAS——網絡附加儲存
儲存 + AI
NAS 的定義已從被動儲存轉變為主動智能。新一代網絡儲存設備直接整合 AI 處理能力——從輕量級 NPU 推論到完整的 GPU 加速 LLM 部署。
支援 AI 的 NAS 消除了獨立 AI 設備的需求,並能直接處理大量數據,實現零網絡傳輸延遲。
4 工作站
AI 工作站與桌上電腦 9.4萬~47萬元
工作站級別採用獨立 PCIe 顯示卡和標準塔式機箱。與迷你電腦固定整合架構不同,此級別提供模組化設計——您可升級個別組件、增加更多 GPU,或隨技術發展更換顯示卡。
理解 VRAM 與速度的關係
兩大關鍵因素決定 AI 的 GPU 選擇:
消費級顯示卡(如 RTX 5090)最大化速度但 VRAM 有限——通常 24-32 GB。專業級顯示卡(如 RTX PRO 6000 Blackwell)則最大化 VRAM——每卡高達 96 GB——但每運算單位成本更高。
VRAM 是關鍵限制。高速但記憶體不足的顯示卡根本無法載入 AI 模型。記憶體充足但速度較慢的顯示卡則可運行模型——只是回應時間較長。
消費級 GPU
| 配置 | 總 VRAM | 連接方式 | 估計成本 |
|---|---|---|---|
| 2× RTX 3090(二手) | 48 GB | NVLink | ~94,000 |
| 2× RTX 4090 | 48 GB | PCIe Gen 5 | NT$125,000 |
| 2× RTX 5090 | 64 GB | PCIe Gen 5 | NT$219,000 |
專業級 GPU
| 配置 | 總 VRAM | 連接方式 | 估計成本 |
|---|---|---|---|
| 2× RTX A6000 最佳性價比 | 96 GB | NVLink | NT$219,000 |
| 2× RTX 6000 Ada | 96 GB | PCIe Gen 5 | NT$406,000 |
| 1× RTX PRO 6000 Blackwell | 96 GB | NVLink | NT$250,000 |
| 4× RTX PRO 6000 Blackwell | 384 GB | PCIe Gen 5 | NT$1,000,000 |
資料中心 GPU
| 配置 | 總 VRAM | 連接方式 | 估計成本 |
|---|---|---|---|
| 1× L40S | 48 GB | PCIe 4.0(被動散熱) | NT$219,000 |
| 1× A100 PCIe | 80 GB | PCIe 4.0 | NT$312,000 |
| 1× H200 NVL | 141 GB | NVLink | NT$937,000 |
| 4× H200 NVL | 564 GB | NVLink | 375萬元 |
| 1× B200 SXM | 180 GB | NVLink 5(1.8 TB/s) | NT$937,000 |
| 8× B200 SXM | 1,440 GB | NVLink 5(1.8 TB/s) | 750萬元 |
中國 GPU
中國國產 GPU 生態系統已快速成熟。多家中國製造商現提供工作站級 AI GPU,具競爭力規格且價格顯著更低。
| 配置 | 總 VRAM | 記憶體類型 | 估計成本 |
|---|---|---|---|
| 1× 摩尔线程 MTT S4000 | 48 GB | GDDR6 | NT$25,000 |
| 4× 摩尔线程 MTT S4000 | 192 GB | GDDR6 | NT$109,000 |
| 8× 摩尔线程 MTT S4000 | 384 GB | GDDR6 | NT$203,000 |
| 1× 海光 DCU Z100 | 32 GB | HBM2 | NT$78,000 |
| 1× 壁仞 BR104 | 32 GB | HBM2e | ~94,000 |
| 8× 壁仞 BR104 | 256 GB | HBM2e | NT$750,000 |
| 1× 華為昇騰 Atlas 300I Duo | 96 GB | HBM2e | NT$37,000 |
| 8× 華為昇騰 Atlas 300I Duo | 768 GB | HBM2e | NT$312,000 |
即將推出
| 配置 | 總 VRAM | 狀態 | 估計成本 |
|---|---|---|---|
| RTX 5090 128 GB | 128 GB | 中國改裝版——非標準型號 | NT$156,000 |
| RTX Titan AI | 64 GB | 預計 2027 年推出 | ~94,000 |
NVIDIA DGX Station
企業頂級方案
NVIDIA DGX Station 是水冷式桌上超級電腦
,將資料中心級性能帶入辦公室環境。最新版本採用 GB300 Grace Blackwell 超級晶片。
Blackwell Ultra
版本提升記憶體密度和運算能力,專為需從零訓練自訂模型或本地運行大型 MoE(專家混合)架構的機構設計。
雖基於上代Ampere架構,仍是可靠推論與微調的行業標準。特別適合預算不足無法購置Blackwell的初創AI團隊。
DGX工作站雖昂貴,但可取代~937萬元的伺服器機架及相關冷卻設施,僅需插入標準牆壁插座,徹底消除「伺服器房」間接成本。
5 伺服器
AI 伺服器 47萬~625萬元
當企業需同時服務大量員工、運行全精度基礎級模型,或基於專有數據微調自訂模型時——即進入伺服器層級。
此領域採用專用 AI 加速卡,配備高頻寬記憶體(HBM)、專用互連技術及機架式/桌上型規格。硬件成本較高,但規模擴大時單用戶成本大幅下降。
Intel Gaudi 3
規模最佳價值
Intel Gaudi 3 加速器從底層設計即為 AI 訓練與推論晶片改裝顯示卡。每卡提供 128 GB HBM2e 記憶體及整合 400 Gb 乙太網絡,無需獨立網絡適配器。
Gaudi 3提供兩種規格:
- PCIe卡(HL-338): 標準PCIe規格可整合至現有伺服器。估計定價:每張~37.5萬元。
- OAM(OCP加速器模組): 專為雲端數據中心設計的高密度OCP標準。批量購買8晶片套裝時每晶片488,000(含底板總價~390萬元)。
8卡Gaudi 3伺服器提供1TB總AI記憶體,成本遠低於同級NVIDIA H100系統。
AMD Instinct MI325X
極致密度
AMD Instinct MI325X每卡配備256GB HBM3e記憶是Intel Gaudi 3的兩倍。僅需4卡即可達1TB總AI記憶體,Intel則需8卡。
MI325X每系統成本高於Gaudi 3,但速度更快且密度更高。對於需最大吞吐量的工作負載——如多用戶實時推論或大型數據集訓練自訂模型——其高投資可透過降低延遲與簡化基建收回成本。
華為昇騰
全棧替代方案
華為已複製完整AI基建堆疊:定制晶片(昇騰910B/C)、專有互連(HCCS)及完整軟件框架(CANN),形成獨立運作的自足生態系統,脫離西方供應鏈,且成本較同級NVIDIA H100集群大幅降低。
Intel Xeon 6(Granite Rapids)
平價伺服器
2026 年的靜默革命是基於 CPU 的 AI 推論崛起。Intel Xeon 6 處理器內建 AMX(高級矩陣擴展),可在標準 DDR5 RAM 實現 AI 工作負載——成本遠低於 GPU 記憶體。
雙插槽 Xeon 6 伺服器可容納1 TB 至 4 TB DDR5 RAM,成本僅為 GPU 記憶體零頭。推論速度較慢,但對於批處理——速度無關緊要而智能與容量至關重要時——這具有變革性。
示例:一間中小企業於夜間上傳100,000張掃描發票。Xeon 6伺服器運行一個+400B AI模型完美提取數據。任務耗時10小時,但硬件成本遠低於GPU伺服器。
需要協助選擇合適的AI伺服器基礎設施?
我們的基礎設施團隊設計並部署完整AI伺服器解決方案——由Intel Gaudi至NVIDIA DGX——結合客製化軟件,為您的企業釋放AI潛能。
要求伺服器架構提案 →6 邊緣AI
邊緣AI & 翻新升級 升級現有基礎設施
並非每間中小企業都需要專用AI伺服器或迷你PC。許多企業可將智能嵌入現有基礎設施——以最低成本為手提電腦、桌面電腦及網絡設備添加AI功能。
M.2 AI加速器:Hailo-10
Hailo-10是標準M.2 2280模組——與SSD使用相同插槽——為任何現有PC添加專用AI處理功能。每件約~NT$4,700,功耗僅5–8W,無需更換硬件即可實現全公司AI升級。
應用場景: 本地會議轉錄(Whisper)、實時字幕、語音聽寫、小型模型推論(Phi-3 Mini)。這些卡無法運行大型LLM,但在特定持續AI任務表現卓越——確保語音數據本地處理且永不傳送至雲端。
Copilot+ PC (NPU手提電腦)
配備Qualcomm Snapdragon X Elite、Intel Core Ultra或AMD Ryzen AI晶片的筆記本電腦均含專用神經處理單元(NPU)——特製AI晶片。雖無法運行大型LLM,但可處理小型持續AI任務:即時轉錄、背景模糊、本地Recall
功能及運行Microsoft Phi-3等輕量模型。
NPU以TOPS(每秒萬億次運算)評級,衡量其AI處理能力。2026年Copilot+ PC約50 TOPS。TOPS值越高意味響應更快,且能處理稍大AI模型。
9 AI模型
開源AI模型 (2026–2027)
AI模型選擇決定硬件要求——但正如AI模型量化章節所示,量化技術能讓頂級模型在成本僅為全精度部署一小部分的硬件上運行。
下表概述現行及即將推出的開源AI模型。
| 模型 | 規模 | 架構 | 記憶體(FP16) | 記憶體(INT4) |
|---|---|---|---|---|
| Llama 4巨獸型 | 288B(活躍參數) | MoE(~2T總參數) | ~4 TB | ~1 TB |
| Llama 4先鋒型 | 17B(活躍參數) | MoE(400B總參數) | ~800 GB | ~200 GB |
| Llama 4偵察型 | 17B(活躍參數) | MoE(109B總參數) | ~220 GB | ~55 GB |
| DeepSeek V4 | ~70B(活躍參數) | MoE(671B總參數) | ~680 GB | ~170 GB |
| DeepSeek R1 | 37B(活躍參數) | MoE(671B總參數) | ~140 GB | ~35 GB |
| DeepSeek V3.2 | ~37B(活躍參數) | MoE(671B總參數) | ~140 GB | ~35 GB |
| Kimi K2.5 | 32B(活躍參數) | MoE(1T總參數) | ~2 TB | ~500 GB |
| Qwen 3.5 | 397B(活躍參數) | MoE(A17B) | ~1.5 TB | ~375 GB |
| Qwen 3最大思維型 | 大型 | 密集 | ~2 TB | ~500 GB |
| Qwen 3編程進階型 | 480B(A35B活躍參數) | MoE | ~960 GB | ~240 GB |
| Mistral大型3 | 123B(41B活躍參數) | MoE(675B總參數) | ~246 GB | ~62 GB |
| 迷你星型3(3B,8B,14B) | 3B–14B | 密集 | ~6–28 GB | ~2–7 GB |
| GLM-5 | 44B(活躍參數) | MoE(744B總參數) | ~1.5 TB | ~370 GB |
| GLM-4.7(思維型) | 大型 | 密集 | ~1.5 TB | ~375 GB |
| MiMo-V2極速型 | 15B(活躍參數) | MoE(309B總參數) | ~30 GB | ~8 GB |
| MiniMax M2.5 | ~10B(活躍參數) | MoE(~230B總參數) | ~460 GB | ~115 GB |
| Phi-5推理型 | 14B | 密集 | ~28 GB | ~7 GB |
| Phi-4 | 14B | 密集 | ~28 GB | ~7 GB |
| Gemma 3 | 27B | 密集 | ~54 GB | ~14 GB |
| Pixtral 2大型 | 90B | 密集 | ~180 GB | GB |
| Stable Diffusion 4 | ~12B | DiT | ~24 GB | ~6 GB |
| FLUX.2專業版 | 15B | DiT | ~30 GB | ~8 GB |
| Open-Sora 2.0 | 30B | DiT | ~60 GB | ~15 GB |
| Whisper V4 | 1.5B | 密集 | ~3 GB | ~1 GB |
| 醫療Ll4 | 70B | 密集 | ~140 GB | ~35 GB |
| Legal-BERT 2026 | 35B | 密集 | ~70 GB | ~18 GB |
| 金融LLM 3 | 15B | 密集 | ~30 GB | ~8 GB |
| CodeLlama 4 | 70B | 密集 | ~140 GB | ~35 GB |
| Molmo 2 | 80B | 密集 | ~160 GB | ~40 GB |
| Granite 4.0 | 32B (9B 活躍) | 混合Mamba-Transformer | ~64 GB | ~16 GB |
| Nemotron 3 | 8B,70B | 密集 | ~16–140 GB | ~4–35 GB |
| EXAONE 4.0 | 32B | 密集 | ~64 GB | ~16 GB |
| Llama 5前沿型 | ~1.2T(總參數) | MoE | ~2.4 TB | ~600 GB |
| Llama 5基礎型 | 70B–150B | 密集 | ~140–300 GB | ~35–75 GB |
| DeepSeek V5 | ~600B(總參數) | MoE | ~1.2 TB | GB |
| Stable Diffusion 5 | 待定 | DiT | — | — |
| Falcon 3 | 200B | 密集 | ~400 GB | ~100 GB |
切勿先購買硬件。先確定符合業務需求的模型類型,再應用量化技術找出最具成本效益的硬件級別。
~94,000 與 469萬元 投資的差異,通常取決於模型規模需求及同步用戶數量。
塑造AI模型格局的趨勢
- 標準配備原生多模態能力。 新模型同步訓練文本、圖像、音頻及影片——非訓練後追加的獨立功能。單一模型即可處理文件分析、圖像理解與語音互動。
- 小型模型實現大型模型能力。Phi-5(14B)和MiMo-V2-Flash證明,架構創新可將尖端推理能力壓縮至能在手提電腦運行的模型。「越大越好」的時代正在終結。
- 專精化勝於泛化。取代單一巨型模型處理所有任務的趨勢,轉向專精模型組合——編程模型、推理模型、視覺模型——由智能體框架協調。這降低單一模型的硬件需求,同時提升整體品質。
- 智能體AI。如Kimi K2.5和Qwen 3等模型,能自主分解複雜任務、調用外部工具並協調其他模型。這種
智能體集群
模式需在長時間會話中維持高吞吐量——更適用GB10和M5 Ultra等高帶寬硬件。 - 視頻及3D生成技術成熟。Open-Sora 2.0和FLUX.2 Pro標誌本地視頻生成趨向實用化。預計到2027年,將出現運行於工作站級硬件的實時視頻編輯助手。
10 安全
極致安全架構
本地 AI 硬體的主要優勢並非效能,而是數據主權。當你的 AI 伺服器運行於自家防火牆後方,而非他人雲端時,敏感資料便永不離開你的建築物。
氣隙API架構將AI伺服器與互聯網物理隔離,同時透過API介面供授權員工存取。
此架構創建數字保險庫
。即使代理伺服器被入侵,攻擊者僅能發送文本查詢——無法訪問AI伺服器的文件系統、模型權重、微調數據或任何存儲文件。
11 經濟效益
經濟效益裁決:本地部署 vs 雲端方案
轉向本地AI硬件是從營運支出(OpEx——每月雲端API費用)轉向資本支出(CapEx——一次性硬件投資成為資產負債表上的資產)。
假設律師事務所用2000億模型分析合約:1,000份合約/天 × %1$s/千token × 365天。隨用量線性增長。數據離開網絡。
每日1,000次查詢下,DGX Spark相比雲端API成本可在2個月內回本。更高使用量下,回本期縮短至數週。
若考慮以下因素,經濟效益更顯著:
- 多名員工共享同套硬件(DGX Spark可支援2–5名同時用戶)
- 無需按 token 收費 — 複雜的多步驟推理任務不另收費
- 專有數據微調 — 多數雲端 API 無法實現,本地硬件免費執行
- 硬件轉售價值 — AI 硬件在二手市場保持高殘值