1 基礎
なぜローカルAI?所有のビジネスケース
2020年代初頭、人工知能は時間単位、トークン単位、APIコール単位でレンタルするサービスでした。2026年までにパラダイムは転換しました。「GPT-4クラス」の知能を実行するのに必要なハードウェアが今や机の上に収まり、中古車よりも安価になりました。
クラウドのみのAIへの継続的な依存は、戦略的な三つ巴のジレンマを引き起こします:
- コストの急騰。 トークン単位のAPI料金は使用量に比例して増加する。1日1000件の契約を処理する法律事務所では、年間APIコストが約560万円に達する可能性がある。
- データ流出リスク。 クラウドAPIに送信されるすべてのクエリは、ネットワーク外に出てデータセキュリティとプライバシーリスクに晒されるデータです。
- カスタマイズの欠如または高コスト。 クラウドモデルは汎用的です。カスタムデータ、内部ビジネスプロセス、ビジネスインテリジェンスに基づいたファインチューニングを容易かつ費用効率よく行うことはできません。
ローカルAIハードウェアはこれら3つすべてを解決します。変動するAPI料金を固定資産に変換し、データがLAN外に出ないことを保証し、ビジネスデータに基づくファインチューニングを通じた高度なカスタマイズを可能にします。
2 コスト削減
量子化:より安価なハードウェアで大規模AIモデルを実行
量子化は、ローカルAIの経済性を根本的に変える概念です。
簡単に言えば、量子化はAIモデルのメモリフットプリントを圧縮します。標準モデルは各パラメーターを16ビット浮動小数点数(FP16)として保存します。量子化はこれを8ビット(Int8)、4ビット(Int4)、あるいはそれ以下に削減し、モデル実行に必要なメモリ量を劇的に縮小します。
量子化により出力品質がわずかに低下しますが、要約、草案作成、分析などのビジネスタスクではほとんど認識できない程度であり、ハードウェアコストの大幅な削減と引き換えになります。
完全精度の4000億パラメータモデルには約800GBのメモリが必要——約3,120万円のサーバー投資に相当。同じモデルをInt4に量子化すると約200GBのみ必要で、2台接続したDGX Spark(GB10 Superchip搭載)ミニPCで120万円で実行可能。
Mixture of Experts(MoE)
Mixture of Expertsは、膨大なメモリコストなしに大規模モデルを展開可能にする別のAIモデルアーキテクチャ手法である。
MoEモデルは、各クエリで全パラメータを使用せず、スパースアクティベーションを通じて容量の一部のみを活性化する。
Llama 4 Behemothのような2兆パラメータのMoEモデルでは、クエリごとに2880億パラメータのみを活性化——メモリコストの一部で最先端レベルの知性を提供。
MoEモデルは、要約や分類などの単純タスクでは同サイズのDenseモデルより効率がやや劣る。複雑な分析、コード生成、研究などの知識作業や推論ではMoEモデルが優れる。
スパースアクティベーションにより、推論速度と応答時間が高速化される。
3 ミニPC
AIミニPC ~23万円~160万円
2026年における最も革新的な開発は、ミニPCフォームファクターでの大容量AIコンピューティングです。ハードカバーの本より大きくないデバイスが、2年前にはサーバールームが必要だったAIモデルを実行できるようになりました。
NVIDIA GB10エコシステム(DGX Spark)
性能リーダー
NVIDIA DGX Sparkはこのカテゴリーを定義しました。2026年、ARM Grace CPUとBlackwell GPUを統合したGB10 Superchipが、完全なエコシステムを生み出しています。ASUS、GIGABYTE、Dell、Lenovo、HP、MSI、SupermicroはすべてGB10ベースのシステムを生産しており、それぞれ異なるフォームファクター、冷却ソリューション、バンドルソフトウェアを備えています。
専ネットワークポートを介して2台のGB10ユニットを接続すると、システムはリソースを256 GBメモリ空間にプールします。これにより、非常に大規模なモデル — 400B+パラメーター(量子化)— を机の上で完全に実行する能力が解放され、総ハードウェア投資は約120万円となります。
AMD Ryzen AI Max(Strix Halo)ミニPC
最低コスト
AMDのRyzen AI Max+ Strix Halo
アーキテクチャは、全く新しい予算AIミニPCカテゴリーを生み出しました。GMKtec、Beelink、Corsair、NIMO、Bosgame、FAVMなどのメーカーが、約31万円未満で128 GBユニファイドメモリシステムを出荷しています。
Apple Mac Studio(M4 Ultra)
容量リーダー
Mac StudioはローカルAI分野で独特の位置を占めています。Appleのユニファイドメモリアーキテクチャ(UMA)により、CPUとGPUの両方がアクセス可能な最大256GBのメモリを単一のコンパクトなデスクトップユニットで提供 — クラスタリング不要です。
これにより、最大規模のオープンソースモデルをロード可能な唯一の手頃な価格
の単一デバイスとなります。4000億パラメーターモデルをInt4に量子化すると、256GB構成のメモリに完全に収まります。
Apple Mac Studio(M5 Ultra)
次世代候補
2026年末に登場予定のApple次世代M5 Ultraは、M4の主な弱点であるAIモデルトレーニング性能を改善すると噂されています。TSMCの2nmプロセスで製造され、帯域幅1.2TB/s超の最大512GBのユニファイドメモリ構成を提供すると予想されます。
512GB M5 Ultraは、非量子化(完全精度)の最先端モデルを実行可能な初のコンシューマーデバイスとなるでしょう。1.2TB/s以上の高メ帯域幅は、非常に長いコンテキストウィンドウを伴う持続的高スループット推論を必要とするエージェント型AIワークフローをサポートします。
Tiiny AI
ポケットAIスーパーコンピュータ
2026年にKickstarterで21.8万円で発売されたTiiny.ai Pocket AI Computerは、80GB LPDDR5Xメモリと1TB SSDを搭載し、どこでも1200億パラメータAIモデルをローカル実行可能なポケットサイズのスーパーコンピュータである。
300g(142×22×80mm)の重量で標準USB-C給電に対応し、革新的なビジネスアプリケーションをサポート。GPT-OSS-120Bで毎秒21.14トークンの出力速度を実現。
Tenstorrent
オープンソースハードウェア
伝説的なチップ設計者Jim Kellerが率いるTenstorrentは、根本的に異なる哲学を体現しています:RISC-V上に構築されたオープンソースハードウェア、オープンソースソフトウェア、デイジーチェーンによるモジュラー拡。
Tensix
AIコアは線形スケーリングを目的に設計されています:カードを追加する際の通信オーバーヘッドに悩まされるGPUとは異なり、Tenstorrentチップは効率的にタイル化できるように構築されています。
Razerとの提携により、TenstorrentはThunderbolt経由で任意のラップトップやデスクトップに接続するコンパ外部AIアクセラレーターをリリース — 既存ハードウェアを何も交換せずにAIワークステーションに変革します。
AI NAS — ネットワーク接続ストレージ
ストレージ + AI
NASの定義は、受動的なストレージから能動的な知能へと進化しました。新世代のネットワークストレージデバイスは、軽量なNPUベースの推論からフルGPUアクセラレーションによるLLM展開まで、AI処理を直接統合しています。
AI対応NASは別途AIデバイスが不要になり、ネットワーク転送遅延ゼロでより大量のデータを直接処理できます。
4 ワークステーション
AIワークステーション & デスクトップPC 47万円~230万円
ワークステーション層は個別のPCIeグラフィックスカードと標準タワーシャーシを採用。ミニPC層の固定統合アーキテクチャとは異なり、モジュール性を提供します。個々のコンポーネントをアップグレードしたり、GPUを追加したり、技術進化に応じてカードを交換できます。
VRAMと速度の理解
AI向けGPU選択を定義する2つの競合要因:
コンシューマーカード(RTX 5090など)は速度を最大化するがVRAMは限定的(通常24-32GB)。プロフェッショナルカード(RTX PRO 6000 Blackwellなど)はVRAMを最大化(カードあたり最大96GB)しますが、演算単位あたりコストが高くなります。
VRAMが制約要因です。メモリ不足の高速カードはAIモデルを全くロードできません。十分なメモリを備えた低速カードはモデルを実行可能ですが、応答時間が長くなります。
コンシューマーGPU
| 構成 | 総VRAM | 接続方式 | 推定コスト |
|---|---|---|---|
| 2× RTX 3090(中古) | 48 GB | NVLink | 約47万円 |
| 2× RTX 4090 | 48 GB | PCIe Gen 5 | 62万円 |
| 2× RTX 5090 | 64 GB | PCIe Gen 5 | 110万円 |
プロフェッショナルGPU
| 構成 | 総VRAM | 接続方式 | 推定コスト |
|---|---|---|---|
| 2× RTX A6000 最良コスパ | 96 GB | NVLink | 110万円 |
| 2× RTX 6000 Ada | 96 GB | PCIe Gen 5 | 200万円 |
| 1× RTX PRO 6000 Blackwell | 96 GB | NVLink | 120万円 |
| 4× RTX PRO 6000 Blackwell | 384 GB | PCIe Gen 5 | 500万円 |
データセンターGPU
| 構成 | 総VRAM | 接続方式 | 推定コスト |
|---|---|---|---|
| 1× L40S | 48 GB | PCIe 4.0(パッシブ冷却) | 110万円 |
| 1× A100 PCIe | 80 GB | PCIe 4.0 | 160万円 |
| 1× H200 NVL | 141 GB | NVLink | 470万円 |
| 4× H200 NVL | 564 GB | NVLink | 1,870万円 |
| 1× B200 SXM | 180 GB | NVLink 5 (1.8 TB/s) | 470万円 |
| 8× B200 SXM | 1,440 GB | NVLink 5 (1.8 TB/s) | 3,740万円 |
中国製GPU
中国の国内GPUエコシステムは急速に成熟。複数の中国メーカーが競争力のある仕様と大幅に低い価格のワークステーションクラスAI GPUを提供しています。
| 構成 | 総VRAM | メモリタイプ | 推定コスト |
|---|---|---|---|
| 1× Moore Threads MTT S4000 | 48 GB | GDDR6 | 12万円 |
| 4× Moore Threads MTT S4000 | 192 GB | GDDR6 | 55万円 |
| 8× Moore Threads MTT S4000 | 384 GB | GDDR6 | 100万円 |
| 1× Hygon DCU Z100 | 32 GB | HBM2 | 39万円 |
| 1× Biren BR104 | 32 GB | HBM2e | 約47万円 |
| 8× Biren BR104 | 256 GB | HBM2e | 370万円 |
| 1× Huawei Ascend Atlas 300I Duo | 96 GB | HBM2e | 19万円 |
| 8× Huawei Ascend Atlas 300I Duo | 768 GB | HBM2e | 160万円 |
近日発売
| 構成 | 総VRAM | ステータス | 推定コスト |
|---|---|---|---|
| RTX 5090 128 GB | 128 GB | 中国改造版 — 標準SKUではありません | 78万円 |
| RTX Titan AI | 64 GB | 2027年発売予定 | 約47万円 |
NVIDIA DGX Station
エンタープライズ最上位
NVIDIA DGX Stationは、データセンター級の性能をオフィス環境に提供する水冷式デスクサイドスーパーコンピューター
です。最新バージョンではGB300 Grace Blackwell Superchipを採用しています。
Blackwell Ultra
版はメモリ密度と演算能力を向上。ゼロからカスタムモデルをトレーニングする必要がある組織や、大規模MoE(Mixture of Experts)アーキテクチャをローカルで実行する組織向けに設計。
前世代のAmpereアーキテクチャを基にしているが、信頼性の高い推論とファインチューニングの業界標準として残る。Blackwellの予算がないAI分野に参入するチームに最適。
高価ではあるが、DGX Stationは約4,680万円のサーバーラックと関連冷却インフラを置き換える。標準壁コンセントに接続可能。サーバールーム
のオーバーヘッドを完全に排除。
5 サーバー
AIサーバー 230万円~3,120万円
多くの従業員への同時サービス提供、フル精度でのファウンデーションクラスモデルの実行、独自データでのカスタムモデルファインチューニングが必要な場合——サーバー階層に入る。
これは高帯域幅メモリ(HBM)を備えた専用AIアクセラレーターカード、特殊インターコネクト、ラックマウントまたはデスクサイドフォームファクターの領域です。ハードウェアは高価ですが、ユーザーあたりコストは規模に応じて劇的に低下します。
Intel Gaudi 3
規模で最高コスパ
IntelのGaudi 3アクセラレーターは、流用グラフィックスカードではなく、AIトレーニングおよび推論チップとして一から設計。各カードは128GB HBM2eメモリと統合400Gbイーサネットネットワークを提供し、別途ネットワークアダプターが不要。
Gaudi 3は2つのフォームファクタで利用可能:
- PCIeカード(HL-338): 既存サーバーへの統合用標準PCIeフォームファクタ。推定価格:カードあたり約190万円。
- OAM(OCP Accelerator Module): クラウドデータセンター向け高密度OCP標準。8チップキット一括購入時240万円/チップ(ースボード込み総額約1,950万円)。
8枚のGaudi 3カード搭載サーバーは、同等のNVIDIA H100システムより大幅に低コストで合計1TBのAIメモリを提供。
AMD Instinct MI325X
最大密度
AMD Instinct MI325Xはカードあたり256GBのHBM3eメモリを搭載——Intel Gaudi 3の2倍。合計1TBのAIメモリ達成にIntelの8枚に対し4枚のみ必要。
MI325Xはシステム単位ではGaudi 3より高価だが、高速かつ高密度。最大スループットを要求するワークロード——多数ユーザー向けリアルタイム推論や大規模データセットでのカスタムモデル訓練——では、高い投資が低遅延と簡素化インフラで回収される。
Huaend
フルスタック代替品
Huaweiは完全なAIインフラストラックを再現:カスタムシリコン(Ascend 910B/C)、独自インターコネクト(HCCS)、完全ソフトウェアフレームワーク(CANN)。結果、西側サプライチェーンから独立して動作し、同等NVIDIA H100クラスターより大幅に低コストな自己完結型エコシステムを実現。
Intel Xeon 6(Granite Rapids)
予算サーバー
2026年の静かな革命はCPUベースAI推論の台頭。Intel Xeon 6プロセッサーは標準DDR5 RAMでAIワークロードを可能にするAMX(高度マトリックス拡張)を搭載 — GPUメモリより劇的に安価。
デュアルソケットXeon 6サーバーはGPUメモリコストの数分の一で1TBから4TBのDDR5 RAMを保持可能。推論速度は低速ですが、速度が重要でなく知性と容量が最優先されるバッチ処理では革命的な選択肢です。
例: 中小企業が一晩で100,000枚のスキャン済み請求書をアップロードする。Xeon 6サーバーが+400BのAIモデルを実行し、データを完璧に抽出する。このタスクには10時間かかるが、GPUサーバーと比べてハードウェアコストははるかに低い。
適切なAIサーバーインフラ選びにお困りですか?
当社のインフラチームは、Intel GaudiからNVIDIA DGXまで、完全なAIサーバーソリューションを設計・導入します。カスタムソフトウェアと組み合わせ、ビジネス向けAIの可能性を解き放ちます。
サーバーアーキテクチャ提案を依頼 →6 Edge AI
Edge AI & レトロフィット 既存インフラのアップグレード
すべての中小企業が専用AIサーバーやミニPCを必要とするわけではありません。多くは既存のインフラに知能を組み込めます。ラップトップ、デスクトップ、ネットワーク機器を最小コストでAI機能付きにアップグレードできます。
M.2 AIアクセラレーター: Hailo-10
Hailo-10は標準的なM.2 2280モジュールです。SSDと同じスロットを使用し、既存のPCに専用AI処理を追加します。1台あたり約約2.3万円、消費電力はわずか5–8Wで、ハードウェア交換なしに全社的なAIアップグレードを実現します。
ユースケース: ローカル会議文字起こし(Whisper)、リアルタイム字幕生成、音声ディクテーション、小型モデル推論(Phi-3 Mini)。これらのカードは大規模LLMを実行できませんが、特定の持続的AIタスク(音声データをローカル処理しクラウドへ送信しない保証)に優れています。
Copilot+ PC(NPU搭載ノート)
Qualcomm Snapdragon X Elite、Intel Core Ultra、AMD Ryzen AIチップ搭載ノには、専用ニューラルプロセッシングユニット(NPU)——特殊AIチップ——が含まれる。大規模LLMは実行できないが、ライブ文字起こし、背景ぼかし、ローカルリコール
機能、Microsoft Phi-3のような軽量モデル実行など、小型で持続的なAIタスクを処理。
NPUはTOPS(1秒あたりテラ操作)で評価され、処理可能なAI作業量を測定。2026年最強のCopilot+ PCは約50 TOPS。TOPSが高いほど応答が速く、やや大規模なAIモデルを処理可能。
9 AIモデル
オープンソースAIモデル(2026–2027)
AIモデルの選択はハードウェア要件を左右します。しかしAIモデル量子化の章で示した通り、量子化により最先端モデルを完全精度展開に比べはるかに低コストのハードウェアで実行できます。
下表は現在および今後のオープンソースAIモデルの概要です。
| モデル | サイズ | アーキテクチャ | メモリ(FP16) | メモリ(INT4) |
|---|---|---|---|---|
| Llama 4 Behemoth | 288B(アクティブ) | MoE(約2T合計) | 約4TB | 約1TB |
| Llama 4 Maverick | 17B(アクティブ) | MoE(400B合計) | 約800GB | 約200GB |
| Llama 4 Scout | 17B(アクティブ) | MoE(109B合計) | 約220GB | 約55GB |
| DeepSeek V4 | 約70B(アクティブ) | MoE(671B合計) | 約680GB | 約170GB |
| DeepSeek R1 | 37B(アクティブ) | MoE(671B合計) | 約140GB | 約35GB |
| DeepSeek V3.2 | 約37B(アクティブ) | MoE(671B合計) | 約140GB | 約35GB |
| Kimi K2.5 | 32B(アクティブ) | MoE(1T合計) | 約2TB | 約500GB |
| Qwen 3.5 | 397B(アクティブ) | MoE(A17B) | 約1.5TB | 約375GB |
| Qwen 3-Max-Thinking | 大規模 | 密 | 約2TB | 約500GB |
| Qwen 3-Coder-Next | 480B(A35Bアクティブ) | MoE | 約960GB | 約240GB |
| Mistral Large 3 | 123B(41Bアクティブ) | MoE(675B合計) | 約246GB | 約62GB |
| Ministral 3(3B, 8B, 14B) | 3B–14B | 密 | 約6–28GB | 約2–7GB |
| GLM-5 | 44B(アクティブ) | MoE(744B合計) | 約1.5TB | 約370GB |
| GLM-4.7(Thinking) | 大規模 | 密 | 約1.5TB | 約375GB |
| MiMo-V2-Flash | 15B(アクティブ) | MoE(309B合計) | 約30GB | 約8GB |
| MiniMax M2.5 | 約10B(アクティブ) | MoE(約230B合計) | 約460GB | 約115GB |
| Phi-5 Reasoning | 14B | 密 | 約28GB | 約7GB |
| Phi-4 | 14B | 密 | 約28GB | 約7GB |
| Gemma 3 | 27B | 密 | 約54GB | 約14GB |
| Pixtral 2 Large | 90B | 密 | 約180GB | 約45GB |
| Stable Diffusion 4 | 約12B | DiT | 約24GB | 約6GB |
| FLUX.2 Pro | 15B | DiT | 約30GB | 約8GB |
| Open-Sora 2.0 | 30B | DiT | 約60GB | 約15GB |
| Whisper V4 | 1.5B | 密 | 約3GB | 約1GB |
| Med-Llama 4 | 70B | 密 | 約140GB | 約35GB |
| Legal-BERT 2026 | 35B | 密 | 約70GB | 約18GB |
| Finance-LLM 3 | 15B | 密 | 約30GB | 約8GB |
| CodeLlama 4 | 70B | 密 | 約140GB | 約35GB |
| Molmo 2 | 80B | 密 | 約160GB | 約40GB |
| Granite 4.0 | 32B(9Bアクティブ) | Hybrid Mamba-Transformer | 約64GB | 約16GB |
| Nemotron 3 | 8B, 70B | 密 | 約16–140GB | 約4–35GB |
| EXAONE 4.0 | 32B | 密 | 約64GB | 約16GB |
| Llama 5 Frontier | 約1.2T(合計) | MoE | 約2.4TB | 約600GB |
| Llama 5 Base | 70B–150B | 密 | 約140–300GB | 約35–75GB |
| DeepSeek V5 | 約600B(合計) | MoE | 約1.2TB | 約300GB |
| Stable Diffusion 5 | 未定 | DiT | — | — |
| Falcon 3 | 200B | 密 | 約400GB | 約100GB |
まずハードウェアを購入しないでください。 ビジネスニーズに合ったモデルクラスを特定し、量子化を適用して最も費用対効果の高いハードウェア層を決定しましょう。
約47万円と2,340万円の投資差は、多くの場合モデルサイズ要件と同時利用ユーザー数に帰着します。
AIモデル分野を形成するトレンド
- 標準としてのネイティブマルチモーダル。 新しいモデルはテキスト、画像、音声、動画を同時に学習します。トレーニング後に追加された分離機能ではありません。単一モデルが文書分析、画像理解、音声対話を処理します。
- 小型モデルが大規模モデル機能を実現。 Phi-5(14B)とMiMo-V2-Flashは、最先端レベルの推論をノートPCで動作するモデルに圧縮できることを示しています。「大きいほど良い」時代は終焉を迎えつつあります。
- 汎用性より専門化。 万能の巨大モデルではなく、専門モデルのアンサンブル(コーディングモデル、推論モデル、画像モデル)をエージェントフレームワークが調整するトレンドです。モデルごとのハードウェア要件を削減しつつ全体品質を向上させます。
- エージェント型AI。 Kimi K2.5やQwen 3などのモデルは、複雑なタスクを自律的に分解し、外部ツールを呼び出し、他モデルと連携するよう設計されています。この
エージェント群
パラダイムは長時間にわたる持続的スループットを要求するため、GB10やM5 Ultraのような高帯域幅ハードウェアが有利です。 - 動画・3D生成の成熟化。 Open-Sora 2とFLUX.2 Proはローカル動画生成が実用的になりつつあることを示唆しています。2027年までにワークステーションクラスのハードウェアで動作するリアルタイム動画編集アシスタントが登場すると予想されます。
10 セキュリティ
最大限のセキュリティのためのアーキテクチャ
ローカルAIハードウェアの主な利点は性能ではなく——データ主権である。AIサーバーが他社のクラウドではなく自社ファイアウォール内で稼働する場合、機密データが建物外に出ることはない。
エアギャップAPIアーキテクチャは、AIサーバーを物理的にインターネットから隔離しつつ、APIインターフェースを通じて承認従業員がアクセス可能にする。
このアーキテクチャはデジタルボールト
を構築します。ブローカーサーバーが侵害されても、攻撃者はテキストクエリの送信のみ可能で、AIサーバーのファイルシステム・モデル重み・ファインチューニングデータ・保存文書にはアクセスできません。
カスタムAIソリューションによる安全なAI展開が必要ですか?
当社エンジニアがAir-Gapped AIアーキテクチャを設計・導入します。データが敷地外に出ないことを保証しつつ、ビジネスに最先端AI機能を提供します。
セキュアAIアーキテクチャを相談 →11 経済性
経済的評価:ローカル vs クラウド
ローカルAIハードウェアへの移行は、OpEx(運用支出:月額クラウドAPI料金)からCapEx(資本支出:バランスシート上の資産となる一括ハードウェア投資)への転換です。
契約分析に2000億パラメータモデルを実行する法律事務所を例示:
1日1000クエリの場合、DGX SparkはクラウドAPIコストと比較して2ヶ月未満で元が取れる。使用頻度が高いほど損益分岐点は数週間に短縮。
次の要素を考慮すると経済性はさらに有利になります:
- 複数従業員による同一ハードウェアの共有(DGX Sparkは2–5名の同時ユーザーに対応)
- トークン単位課金なし — 複雑な多段階推論タスクでも追加費用ゼロ
- 独自データによるファインチューニング — クラウドAPIでは不可能、ローカルハードウェアで無料実現
- ハードウェア再販価値 — AIハードウェアは中古市場で高価値を維持