NVIDIA DGX Spark – zařízení velikosti knihy schopné provozovat AI modely s 200 miliardami parametrů (400 miliard při propojení dvou kusů) – představuje novou éru vlastnictví desktopové AI.

1 Základy
Proč lokální AI? Obchodní případ pro vlastnictví

Na začátku 20. let 20. století byla umělá inteligence služba, kterou jste si pronajímali – po hodinách, po tokenech, po API volání. V roce 2026 se paradigma posunulo. Hardware potřebný pro provoz inteligence třídy GPT-4 se nyní vejde na váš stůl a stojí méně než ojeté auto.

Pokračující závislost pouze na cloudové AI představuje strategické dilema tří problémů:

  • Narůstající náklady. API poplatky za token se škálují lineárně s využitím. Právnická firma zpracovávající 1 000 smluv denně může čelit ročním API nákladům ve výši ~700 tis. Kč.
  • Riziko úniku dat. Každý dotaz odeslaný do cloudového API jsou data, která opouštějí vaši síť a jsou vystavena rizikům zabezpečení a soukromí dat.
  • Žádné nebo nákladné přizpůsobení. Cloudové modely jsou obecné. Nelze je snadno nebo nákladově efektivně doladit na vlastní data, interní obchodní procesy nebo obchodní inteligenci.

Lokální hardware pro AI řeší všechny tři. Mění variabilní API poplatky na fixní kapitálový majetek, zajišťuje, že data nikdy neopustí LAN, a umožňuje hluboké přizpůsobení prostřednictvím doladění na obchodních datech.

2 Snížení nákladů
Kvantizace: Provozujte větší AI modely na levnějším hardwaru

Kvantizace je koncept, který zásadně mění ekonomiku lokální AI.

Jednoduše řečeno, kvantizace komprimuje paměťovou stopu AI modelu. Standardní model ukládá každý parametr jako 16bitové číslo s plovoucí desetinnou čárkou (FP16). Kvantizace to sníží na 8bitové (Int8), 4bitové (Int4) nebo ještě nižší – dramaticky se tak zmenší množství paměti potřebné pro provoz modelu.

Kvantizace vede k mírnému snížení kvality výstupu – často nepostřehnutelnému pro obchodní úkoly, jako je shrnutí, vytváření návrhů a analýza – výměnou za masivní snížení nákladů na hardware.

Potřebná paměť: 400B AI model při různých úrovních přesnosti
FP16
Plná přesnost
~800 GB
Int8
Poloviční velikost
~400 GB
Int4
Čtvrtina
~200 GB
FP16 – Maximální kvalita, maximální náklady
Int8 – Téměř dokonalá kvalita, poloviční náklady
Int4 – Vysoká kvalita, čtvrtinové náklady
Obchodní dopad

Model 400B s plnou přesností vyžaduje ~800 GB paměti – investici do serveru ve výši ~4,1 mil. Kč. Stejný model kvantizovaný na Int4 vyžaduje pouze ~200 GB a může běžet na dvou propojených mini-PC DGX Spark (založených na GB10 Superchip) za ~190 tis. Kč.

Mixture of Experts (MoE)

Mixture of Experts je další trik v architektuře AI modelů, který umožňuje nasazení masivních modelů bez masivních nákladů na paměť.

Místo použití všech parametrů pro každý dotaz aktivuje MoE model pouze část své kapacity prostřednictvím sparse activation (řídké aktivace).

MoE model se 2 biliony parametrů, jako je Llama 4 Behemoth, aktivuje pouze 288B parametrů na dotaz – poskytuje špičkovou inteligenci za zlomek paměťových nákladů.

Kompromis

MoE modely jsou o něco méně efektivní u jednoduchých úkolů, jako je shrnování a klasifikace, ve srovnání s hustými modely stejné velikosti. U znalostní práce a uvažování, jako je komplexní analýza, generování kódu a výzkum, MoE modely vynikají.

Řídká aktivace vede k rychlejší inferenční rychlosti a kratším dobám odezvy.

3 Mini-pc
AI mini-pc ~36,5 tis. Kč – ~200 tis. Kč

HP ZGX Nano AI na ženské ruce

Nejvíce disruptivním vývojem roku 2026 je výpočetní kapacita AI ve formátu mini-pc. Zařízení o velikosti nejvýše knihy v tvrdých deskách nyní provozují AI modely, které před dvěma lety vyžadovaly serverovny.

Ekosystém NVIDIA GB10 (DGX Spark)

Lídr výkonu

NVIDIA logo

NVIDIA DGX Spark definoval tuto kategorii. V roce 2026 superčip GB10 – kombinující procesor ARM Grace s GPU Blackwell – vytvořil celý ekosystém. ASUS,ABYTE, Dell, Lenovo, HP, MSI a Supermicro vyrábějí systémy založené na GB10, každý s různými formáty, chladicími řešeními a dodávaným softwarem.

Ekosystém NVIDIA GB10 ASUS, GIGABYTE, Dell, Lenovo, HP, MSI a Supermicro
Od ~97 tis. Kč
Paměť
128 GB
LPDDR5X Unified
Výpočetní výkon
~1 PFLOP
FP8 výkon AI
Síťování
10 GbE + Wi-Fi 7
ConnectX pro clustering
Úložiště
4 TB SSD
NVMe
Clustering
Ano (2 jednotky)
Sdružená paměť 256 GB
Software
NVIDIA AI Enterprise
CUDA, cuDNN, TensorRT
NVIDIA DGX Spark
ASUS Ascent GX10
Gigabyte AI TOP ATOM
DGX Quantum Machines combo
MSI EdgeExpert
Lenovo ThinkStation PGX
Dell Pro Max Desktop
NVIDEA DGX Spark
Clustering: Kapacita 256 GB

Propojením dvou jednotek GB10 přes vyhrazený vysokorychlostní síťový port systém sdruží prostředky do paměťového prostoru 256 GB. To odemyká schopnost provozovat velmi velké modely – 400B+ kvantizovaných parametrů – zcela na vašem stole za přibližně ~190 tis. Kč celkové investice do hardwaru.

AMD Ryzen AI Max (Strix Halo) mini-pc

Nejnižší náklady

AMD Ryzen AI Max+ Strix Halo

Architektura AMD Ryzen AI Max+ Strix Halo vytvořila zcela novou kategorii rozpočtových AI mini-pc. Vlna výrobců – GMKtec, Beel Corsair, NIMO, Bosgame, FAVM – nyní dodává systémy se 128 GB sdílené paměti za méně než ~48 500 Kč.

AMD Ryzen AI Max mini-pc GMKtec EVO-X2 · Beelink · Corsair · NIMO AI · Bosgame M5 · FAVM FA-EX9
Od ~36 500 Kč
Paměť
128 GB
LPDDR5 sdílená (CPU+GPU)
Výpočetní výkon
~0.2 PFLOP
Integrovaná GPU RDNA 3.5
Propustnost
~200 GB/s
Propustnost paměti
Spotřeba
~100W
Tichý provoz
Clustering
Ne
Pouze samostatně
OS
Windows / Linux
ROCm / llama.cpp
GMKtex EVO X2
Bosgame M5 AI
NIMO AI Mini PC
Beelink Mini PC
Beelink Mini PC
Corsair AI Workstation 300 Halo
FAVM FA EX9
GMK Ryzen Strix Halo Mini PC

Apple Mac Studio (M4 Ultra)

Lídr kapacity

Mac Studio zaujímá jedinečnou pozici v lokálním AI prostředí. Architektura Apple Unified Memory (UMA) poskytuje až 256 GB paměti přístupné jak CPU, tak GPU v jediné kompaktní desktopové jednotce – není vyžadován clustering.

To z něj činí jediné dostupné samostatné zařízení schopné načítat největší open-source modely. Model s 400 miliardami parametrů kvantizovaný na Int4 se celý vejde do paměti v konfiguraci 256 GB.

Apple Mac Studio (M4 Ultra) Lídr AI kapacity v jedné jednotce
Od ~97 tis. Kč
Paměť
Až 256 GB
Sdílená paměť (UMA)
Výpočetní výkon
~0.5 PFLOP
Apple Neural Engine + GPU
Software
Framework MLX
Inference optimalizovaná pro Apple
Omezení
Pouze inference
Pomalé pro trénování/doladění

Apple Mac Studio (M5 Ultra)

Nastávající konkurent

Očekává se, že příští generace M5 Ultra od Applu, která by měla vyjít koncem roku 2026, podle zvěstí odstraní hlavní slabinu M4: výkon trénování AI modelů. Postavená na 2nm procesu TSMC by měla nabídnout konfigurace až s 512 GB sdílené paměti s propustností přesahující 1,2 TB/s.

Apple Mac Studio (M5 Ultra) Očekávaný tahoun AI trénování
Odhad. ~240 tis. Kč
Paměť
Až 512 GB
Sdílená paměť nové generace
Výpočetní výkon
~1.5+ PFLOP
Neural Engine 2nm
Software
MLX 2.0+
Nativní podpora trénování
Schopnosti
Trénink a inferenční odvozování
Alternativa k CUDA
Propustnost paměti: Kapacita 1,2 TB/s

512GB M5 Ultra by bylo první spotřebitelské zařízení schopné provozovat nekvatizované (plné přesnosti) špičkové modely. Vysoká propustnost paměti 1,2+ TB/s podporuje agentní AI pracovní postupy, které vyžadují trvalou inferenci s vysokou propustností a velmi dlouhými kontextovými okny.

Tiiny AI

Kapesní AI superpočítač

Tiiny AI

Vydaný na Kickstarteru v roce 2026 za 29 000 Kč, Tiiny.ai Pocket AI Computer je kapesní superpočítač s 80GB pamětí LGDDR5X a 1TB SSD, který podporuje lokální provoz 120B AI modelů kdekoli.

Při hmotnosti 300 gramů (142×22×80mm) a napájený standardním USB-C podporuje inovativní obchodní aplikace. Tiiny AI uvádí výstupní rychlost 21,14 tokenů za sekundu pro GPT-OSS-120B.

Tiiny Pocket AI Computer
Tiiny Pocket AI Computer
Tiiny Pocket AI Computer
Tiiny Pocket AI Computer

Tenstorrent

Open source hardware

Tenstorrent

Pod vedením legendárního architekta čipů Jima Kellera představuje Tenstorrent zásadně odlišnou filozofii: open source hardware postavený na RISC-V, open source software a modulární škálování prostřednictvím řetězení.

Tensix AI jádra jsou navržena pro lineární škálování: na rozdíl od GPU, která zápasí s režií komunikace při přidávání dalších karet, jsou Tenstorrent čipy konstruovány pro efektivní skládání.

Ve spolupráci s Razerem vydal Tenstorrent kompaktní externí AI akcelerátor, který se připojuje k jakémukoli notebooku nebo desktopu přes Thunderbolt – přeměňuje stávající hardware na AI pracovní stanici bez nutnosti cokoli nahrazovat.

Kompaktní AI akcelerátor Razer × Tenstorrent Externí Thunderbolt AI akcelerátor
Cena Neznámá
Paměť na krabici
12 GB
GDDR6
Čip
Wormhole n150
Jádra Tensix · RISC-V
Škálování
Až 4 jednotky
48 GB AI kapacity
Software
Plně open source
GitHub · TT-Metalium
Razer × Tenstorrent AI Accelerator
Razer × Tenstorrent AI Accelerator
Razer × Tenstorrent AI Accelerator
Razer × Tenstorrent AI Accelerator

AI NAS – Network Attached Storage

Úložiště + AI

Definice NAS se posunula od pasivního úložiště k aktivní inteligenci. Nová generace síťových úložných zařízení přímo integruje AI zpracování – od lehké inference založené na NPU po plné nasazení LLM akcelerovaných GPU.

NAS s podporou AI eliminuje potřebu samostatného AI zařízení a umožňuje přímé zpracování větších objemů dat bez latence přenosu přes síť.

QNAP AI NAS
Ugreen DXP4800 Pro
OmniCore AI NAS
Zetlab AI NAS

Potřebujete pomoc s výběrem správného AI mini-PC pro vaši firmu?

Naši inženýři mohou vyhodnotit vaše požadavky na AI hardware a nasadit plně nakonfigurovaný AI systém.

Získejte bezplatné posouzení hardwaru →

4 Pracovní stanice
AI pracovní stanice & stolní počítače 60 tis. Kč – 310 tis. Kč

Kategorie pracovních stanic využívá diskrétních PCIe grafických karet a standardních věžových šasi. Na rozdíl od pevných integrovaných architektur kategorie mini-PC nabízí tato kategorie modularitu – můžete upgradovat jednotlivé komponenty, přidat více GPU nebo měnit karty s vývojem technologií.

Pracovní stanice se dvěma RTX A6000 a mostem NVLink nabízí 96 GB sdruženého VRAM za přibližně 140 tis. Kč.

Porozumění VRAM versus rychlost

Volbu GPU pro AI definují dva konkurenční faktory:

📦
Kapacita VRAM
Určuje velikost modelu, který můžete načíst. Více VRAM znamená větší a výkonnější modely. Toto je váš strop inteligence.
Výpočetní rychlost
Určuje, jak rychle model reaguje. Vyšší výpočetní výkon znamená nižší latenci na dotaz. Toto je váš uživatelský zážitek.

Karty pro spotřebitele (jako RTX 5090) maximalizují rychlost, ale nabízejí omezený VRAM – typicky 24–32 GB. Profesionální karty (jako RTX PRO 6000 Blackwell) maximalizují VRAM – až 96 GB na kartu – ale stojí více za jednotku výpočetního výkonu.

VRAM je limitujícím faktorem. Rychlá karta s nedostatečnou pamětí nemůže AI model vůbec načíst. Pomalejší karta s dostatečnou pamětí model spustí – jen s delší dobou odezvy.

GPU pro spotřebitele

KonfigCelkové VRAMPropojeníOdhad. cena
2× RTX 3090 (použité)48 GBNVLink62 000 Kč
2× RTX 409048 GBPCIe Gen 582 000 Kč
2× RTX 509064 GBPCIe Gen 5140 tis. Kč

Profesionální GPU

KonfigCelkové VRAMPropojeníOdhad. cena
2× RTX 6000 Ada96 GBPCIe Gen 5270 000 Kč
1× RTX PRO 6000 Blackwell96 GBNVLink160 tis. Kč
4× RTX PRO 6000 Blackwell384 GBPCIe Gen 5660 000 Kč

Datacentrové GPU

KonfigCelkové VRAMPropojeníOdhad. cena
1× L40S48 GBPCIe 4.0 (pasivní chlazení)140 tis. Kč
1× A100 PCIe80 GBPCIe 4.0210 000 Kč
1× H200 NVL141 GBNVLink620 000 Kč
4× H200 NVL564 GBNVLink2 500 tis. Kč
1× B200 SXM180 GBNVLink 5 (1,8 TB/s)620 000 Kč
8× B200 SXM1 440 GBNVLink 5 (1,8 TB/s)4 900 000 Kč

Čínské GPU

Čínský domácí ekosystém GPU rychle dospěl. Několik čínských výrobců nyní nabízí GPU třídy pracovních stanic pro AI s konkurenceschopnými specifikacemi a výrazně nižšími cenami.

KonfigCelkové VRAMTyp pamětiOdhad. cena
1× Moore Threads MTT S400048 GBGDDR616 000 Kč
4× Moore Threads MTT S4000192 GBGDDR672 000 Kč
8× Moore Threads MTT S4000384 GBGDDR6134 000 Kč
1× Hygon DCU Z10032 GBHBM251 000 Kč
1× Biren BR10432 GBHBM2e62 000 Kč
8× Biren BR104256 GBHBM2e493 000 Kč
1× Huawei Ascend Atlas 300I Duo96 GBHBM2e25 000 Kč
8× Huawei Ascend Atlas 300I Duo768 GBHBM2e210 000 Kč

Připravované

KonfigCelkové VRAMStavOdhad. cena
RTX 5090 128 GB128 GBČínská úprava – není standardní SKU103 000 Kč
RTX Titan AI64 GBOčekáváno 202762 000 Kč
4x NVIDIA RTX PRO 6000 Blackwell
4x NVIDIA RTX PRO 6000 Blackwell
MSI NVIDIA RTX PRO 6000 Blackwell Server
NVIDIA RTX 5090
NVIDIA DGX Station – vodou chlazené „datacentrum na stole“, které se zapojí do standardní zásuvky.

NVIDIA DGX Station

Enterprise Apex

NVIDIA DGX Station je vodou chlazený superpočítač přímo k pracovnímu stolu, který přináší výkon datového centra do kancelářského prostředí. Nejnovější verze využívá superčip GB300 Grace Blackwell.

NVIDIA DGX Station GB300 Future-Proof Ultra
Odhad. cena ~4,1 mil. Kč

Verze Blackwell Ultra zvyšuje hustotu paměti a výpočetní výkon, určená pro organizace, které potřebují trénovat vlastní modely od nuly nebo lokálně spouštět masivní MoE (Mixture of Experts) architektury.

Paměť
~1,5 TB+
HBM3e (ultrarychlá)
Výpočetní výkon
~20+ PFLOPS
FP8 výkon AI
Použití
Vlastní trénink
Vývoj modelů
Spotřeba
Standardní zásuvka
Není potřeba serverovna
NVIDIA DGX Station GB300 Blackwell Ultra
ASUS ExpertCenter Pro DGX GB300
MSI XpertStation WS300
NVIDIA DGX Station GB300 Blackwell Ultra
NVIDIA DGX Station A100 Dostupný AI pracovní kůň
Od ~2,1 mil. Kč

Ačkoli je založen na architektuře předchozí generace Ampere, zůstává průmyslovým standardem pro spolehlivou inferenci a doladění. Ideálně vhodný pro týmy vstupující do oblasti AI bez rozpočtu na Blackwell.

Paměť
320 GB
4× GPU A100 s 80GB
Výpočetní výkon
2 PFLOPS
Výkon AI FP16
Multi-gebruiker
5–8 současně
Střední souběžnost
Spotřeba
Standardní zásuvka
Není potřeba serverovna

Ačkoli drahá, DGX Station nahrazuje serverový rack za ~7,3 mil. Kč a související chladicí infrastrukturu. Zapojí se do standardní zásuvky. To zcela eliminuje režii serverovny.

Potřebujete pomoc s výběrem správné AI pracovní stanice pro vaši firmu?

Naši inženýři mohou vyhodnotit vaše požadavky na AI hardware a nasadit plně nakonfigurovaný AI systém.

Získejte bezplatné posouzení hardwaru →

5 Servery
AI servery 400 tis. Kč – 4,1 mil. Kč

Když vaše firma potřebuje obsloužit mnoho zaměstnanců současně, provozovat modely třídy foundation v plné přesnosti nebo doladit vlastní modely na proprietárních datech – vstupujete do úrovně serverů.

Toto je doména specializovaných akcelerátorových karet AI s pamětí s vysokou šířkou pásma (HBM), specializovanými propojeními a rack-mount nebo desk-side formáty. Hardware je dražší, ale náklady na uživatele se ve velkém měřítku dramaticky sníží.

Intel Gaudi 3

Nejlepší poměr cena/výkon ve velkém měřítku

Akcelerátor Gaudi 3 od Intelu byl navržen od základu jako čip pro trénink a inferenci AI – ne jako přepracovaná grafická karta. Každá karta poskytuje 128 GB paměti HBM2e s integrovanou 400 Gb Ethernetovou sítí, což eliminuje potřebu samostatných síťových adaptérů.

Gaudi 3 je k dispozici ve dvou form factorách:

  • PCIe karta (HL-338): Standardní formát PCIe pro integraci do stávajících serverů. Odhadovaná cena: ~291 000 Kč za kartu.
  • OAM (OCP Accelerator Module): Standard OCP s vysokou hustotou pro cloudová datacentra. 321 000 Kč za čip při nákupu v sadách po 8 čipech (~3 000 000 Kč celkem se základní deskou).

Server s 8 kartami Gaudi 3 poskytuje 1 TB celkové AI paměti za mnohem nižší náklady než srovnatelný systém NVIDIA H100.

💾
Paměť na kartu
128 GB
HBM2e – odpovídá DGX Spark v jedné kartě
Celkem 8 karet
1 TB
1 024 GB sdružené paměti pro největší modely
💰
Náklady na systém
~4,1 mil. Kč
Levnější než srovnatelná konfigurace NVIDIA H100
Intel Gaudi 3 Baseboard HLB 325
Intel Gaudi 3 PCI card
Dell Intel Gaudi 3 server
Gigabyte Intel Gaudi 3 server

AMD Instinct MI325X

Maximální hustota

AMD Instinct MI325X obsahuje 256 GB paměti HBM3e na kartu – dvojnásobek oproti Intel Gaudi 3. K dosažení 1 TB celkové AI paměti je potřeba pouze 4 karet, ve srovnání s 8 kartami u Intelu.

💾
Celková paměť 4 karet
1 TB
Polovina karet oproti Intelu při stejné kapacitě
Propustnost
6 TB/s
Na kartu – umožňuje současné uživatele
💰
Náklady na systém
~4,8 mil. Kč
Vstupní náklady s 1 kartou ~1,5 mil. Kč
AMD Instinct MI325X server
Supermicro AMD Instinct MI325X server
AMD Instinct MI325X server
ASUS AMD Instinct MI325X server

MI325X je dražší na systém než Gaudi 3, ale rychlejší a kompaktnější. Pro úlohy vyžadující maximální propustnost – inferenci v reálném čase pro více uživatelů nebo trénování vlastních modelů na velkých datových sadách – se vyšší investice vrátí sníženou latencí a jednodušší infrastrukturou.

Huawei Ascend

Komplexní alternativa

Huawei

Huawei replikoval celý zásobník AI infrastruktury: vlastní čipy (Ascend 910B/C), proprietární propojení (HCCS) a kompletní softwarový rámec (CANN). Výsledkem je soběstačný ekosystém fungující nezávisle na západních dodavatelských řetězcích a za mnohem nižší náklady než srovnatelné clustery NVIDIA H100.

Huawei Atlas
Huawei Ascend AI family
Huawei Atlas 300
Huawei Atlas 800i Ascend 910c

Intel Xeon 6 (Granite Rapids)

Budgetový server

Tichou revolucí v roce 2026 je vzestup inference AI založené na CPU. Procesory Intel Xeon 6 obsahují AMX (Advanced Matrix Extensions), které umožňují AI úlohy na standardní paměti DDR5 RAM – což je výrazně levnější než paměť GPU.

Kompromis

Server se dvěma paticemi Xeon 6 může pojmout 1 TB až 4 TB DDR5 RAM za zlomek nákladů na paměť GPU. Rychlosti inference jsou pomalé, ale pro dávkové zpracování – kde rychlost není podstatná, ale inteligence a kapacita jsou prvořadé – je to transformační.

Příklad: SMB nahraje přes noc 100 000 naskenovaných faktur. Server Xeon 6 spustí model AI +400B pro dokonalou extrakci dat. Úkol trvá 10 hodin, ale náklady na hardware jsou mnohem nižší než u GPU serveru.

Potřebujete pomoc s výběrem vhodné infrastruktury AI serveru?

Náš infrastrukturní tým navrhuje a nasazuje kompletní řešení AI serverů – od Intel Gaudi po NVIDIA DGX – kombinovaná s softwarem na míru, aby odemkl možnosti AI pro vaše podnikání.

Vyžádejte si návrh serverové architektury →

6 Edge AI
Edge AI & Retrofit Upgrade stávající infrastruktury

Ne každá MSP potřebuje vyhrazený AI server nebo mini-PC. Mnohé mohou vložit inteligenci do stávající infrastruktury – upgradovat notebooky, stolní počítače a síťová zařízení s AI schopnostmi za minimální náklady.

M.2 AI akcelerátory: Hailo

Hailo-10 je standardní modul M.2 2280 – stejný slot jako pro SSD – který přidává vyhrazené AI zpracování do jakéhokoli stávajícího PC. Za cenu ~~3 600 Kč za jednotku a spotřebou pouze 5–8W umožňuje celopodnikové AI upgrady bez výměny hardwaru.

📎
Formát
M.2 2280
Pasuje do jakéhokoli standardního SSD slotu
Výkon
20–50 TOPS
Optimalizováno pro edge inferenci
💰
Náklady
~3 600 Kč
Za jednotku – upgrade flotily za méně než ~73 000 Kč

Případy použití: Lokální přepis schůzek (Whisper), titulkování v reálném čase, hlasové diktování, inferenční úlohy malých modelů (Phi-3 Mini). Tyto karty nemohou spouštět velké LLM, ale vynikají u specifických, trvalých AI úkolů – zajišťují, že hlasová data jsou zpracována lokálně a nikdy nejsou odna do cloudu.

Copilot+ PC (notebooky s NPU)

Notebooky s čipy Qualcomm Snapdragon X Elite, Intel Core Ultra nebo AMD Ryzen AI obsahují vyhrazené neurální procesorové jednotky (NPU) – specializované AI čipy. Ty nedokážou spustit velké LLM, ale zvládají malé, průběžné AI úkoly: živý přepis, rozmazání pozadí, lokální funkce Recall a provoz lehkých modelů jako Microsoft Phi-3.

NPU jsou hodnoceny v TOPS (Tera Operations Per Second), což měří, kolik AI práce zvládnou. Nejmocnější Copilot+ PC v roce 2026 mají ~50 TOPS. Vyšší TOPS znamená rychlejší odezvy a schopnost zvládnout o něco větší AI modely.

9 AI modely
Open-source AI modely (2026–2027)

Volba AI modelu diktuje hardwarové požadavky – ale jak ukázala kapitola o Kvantizaci AI modelů, kvantizace umožňuje špičkovým modelům běžet na hardwaru, který stojí zlomek toho, co vyžaduje nasazení v plné přesnosti.

Níže uvedená tabulka poskytuje přehled současných a budoucích open-source AI modelů.

ModelVelikostArchitekturaPaměť (FP16)Paměť (INT4)
Llama 4 Behemoth288B (aktivní)MoE (~2kem)~4 TB~1 TB
Llama 4 Maverick17B (aktivní)MoE (400B celkem)~800 GB~200 GB
Llama 4 Scout17B (aktivní)MoE (109B celkem)~220 GB~55 GB
DeepSeek V4~70B (aktivní)MoE (671B celkem)~680 GB~170 GB
DeepSeek R137B (aktivní)MoE (671B celkem)~140 GB~35 GB
DeepSeek V3.2~37B (aktivní)MoE (671B celkem)~140 GB~35 GB
Kimi K2.532B (aktivní)MoE (1T celkem)~2 TB~500 GB
Qwen 3.5397B (aktivní)MoE (A17B)~1.5 TB~375 GB
Qwen 3-Max-ThinkingVelkýHustý~2 TB~500 GB
Qwen 3-Coder-Next480B (A35B aktivní)MoE~960 GB~240 GB
Mistral Large 3123B (41B aktivní)MoE (675B celkem)~246 GB~62 GB
Ministral 3 (3B, 8B, 14B)3B–14BHustý~6–28 GB–7 GB
GLM-544B (aktivní)MoE (744B celkem)~1.5 TB~370 GB
GLM-4.7 (Thinking)VelkýHustý~1.5 TB~375 GB
MiMo-V2-Flash15B (aktivní)MoE (309B celkem)~30 GB~8 GB
MiniMax M2.5~10B (aktivní)Směs expertů (MoE) (~230B celkem)~460 GB~115 GB
Phi-5 Reasoning14BHustý~28 GB~7 GB
Phi-414BHustý~28 GB~7 GB
Gemma 327BHustý~54 GB~14 GB
Pixtral 2 Large90BHustý~180 GB~45 GB
Stable Diffusion 4~12BDiT~24 GB~6 GB
FLUX.2 Pro15BDiT~30 GB~8 GB
Open-Sora 2.030BDiT~60 GB~15 GB
Whisper V41.5BHustý~3 GB~1 GB
Med-Llama 470BHustý~140 GB~35 GB
Legal-BERT 202635BHustý~70 GB~18 GB
Finance-LLM 315BHustý~30 GB~8 GB
CodeLlama 470BHustý~140 GB~35 GB
Molmo 280BHustý~160 GB~40 GB
Granite 4.032B (9B aktivní)Hybridní Mamba-Transformer~64 GB~16 GB
Nemotron 38B, 70BHustý~16–140 GB~4–35 GB
EXAONE 4.032BHustý~64 GB~16 GB
Llama 5 Frontier~1.2T (celkem)MoE~2.4 TB~600 GB
Llama 5 Base70B–150BHustý~140–300 GB~35–75 GB
DeepSeek V5~600B (celkem)MoE~1.2 TB~300 GB
Stable Diffusion 5Nader te bepalenDiT
Falcon 3200BHustý~400 GB~100 GB
Strategické rady

Nekupujte nejdřív hardware. Identifikujte třídu modelu, která odpovídá vašim obchodním potřebám, poté aplikujte kvantizaci, abyste určili nejdostupnější hardwarovou úroveň.

Rozdíl mezi investicí 62 000 Kč a 3 100 000 Kč často závisí na požadavcích na velikost modelu a počtu současných uživatelů.

Trendy formující krajinu AI modelů

  • Nativní multimodalita jako standard. Nové modely jsou trénovány na textu, obrázcích, audiu a videu současně – ne jako samostatné schopnosti přidané po tréninku. To znamená, že jeden model zvládá analýzu dokumentů, porozumění obrazu a hlasovou interakci.
  • Malé modely dosahují schopností velkých modelů. Phi-5 (14B) a MiMo-V2-Flash demonstrují, že architektonické inovace mohou stlačit špičkové uvažování do modelů běžících na notebooku. Éra "větší je lepší" končí.
  • Specializace před generalizací. Místo jednoho masivního modelu pro všechno směřuje trend k souborům specializovaných modelů – kódovací model, uvažovací model, vizuální model – řízených agentním rámcem. Toto snižuje hardwarové nároky na model a zároveň zlepšuje celkovou kvalitu.
  • Agentní AI. Modely jako Kimi K2.5 a Qwen 3 jsou navrženy k autonomnímu rozkladu komplexních úkolů, volání externích nástrojů a koordinaci s jinými modely. Tento paradigma agentního roje vyžaduje trvalou propustnost během dlouhých relací – upřednostňuje hardware s vysokou šířkou pásma jako GB10 a M5 Ultra.
  • Video a 3D generace dospěly. Open-Sora 2.0 a FLUX.2 Pro signalizují, že lokální generování videa se stává praktickým. Do roku 2027 očekávejte asistenty pro editaci videa v reálném čase běžící na hardwaru úrovně pracovních stanic.

10 Bezpečnost
Architektura pro maximální bezpečnost

Hlavní výhodou lokálního AI hardwaru není výkon – je to suverenita dat. Když váš AI server běží za vaším firewallem místo v cizím cloudu, vaše citlivá data nikdy neopustí vaši budovu.

Architektura Air-Gapped API fyzicky izoluje AI server od internetu, zatímco autorizovaným zaměstnancům jej zpřístupňuje prostřednictvím API rozhraní.

Architektura Air-Gapped API
👤 Zaměstnanec Standardní pracovní stanice
🔀 Broker Server Auth + UI + Směrování
🔒 AI Server Air-gapped · Bez internetu
AI Trezor

Tato architektura vytváří Digitální trezor. I kdyby byl Broker Server kompromitován, útočník by mohl pouze posílat textové dotazy – nemohl by získat přístup k souborovému systému AI serveru, vahám modelu, datům pro doladění nebo jakýmkoli uloženým dokumentům.

Potřebujete zabezpečené nasazení AI s na míru šitými řešeními?

Naši inženýři navrhují a nasazují air-gapped AI architektury, které zajišťují, že data nikdy neopustí prostory, a zároveň poskytují vašemu podnikání špičkové AI schopnosti.

Prodiskutujte bezpečnou AI architekturu →

11 Ekonomika
Ekonomický verdikt: Lokální vs. cloud

Přechod na lokální AI hardware je posun od OpEx (provozní výdaje – měsíční poplatky za cloudové API) k CapEx (kapitálové výdajeorázová investice do hardwaru, která se stává aktivem ve vaší rozvaze).

Představte si právnickou firmu používající 200B model k analýze smluv:

☁️ Cloudové API
~700 tis. Kč
za rok (ve velkém měřítku)
1 000 smluv/den × ~0,25 Kč/1K tokenů × 365 dní. Škáluje lineárně s využitím. Data opouštějí síť.
🖥️ Lokální hardware (DGX Spark)
~97 tis. Kč
jednorázová investice
+ ~360 Kč/měsíc za elektřinu. Neomezené využití. Data nikdy neopustí LAN. Aktivum v rozvaze.

Při 1 000 dotazech denně se DGX Spark vrátí za méně než 2 měsíce ve srovnání s náklady na cloudové API. Při vyšší úrovni využití se doba návratnosti zkrátí na týdny.

Ekonomika se stává ještě příznivější, když zohledníte:

  • Více zaměstnanců sdílejících stejný hardware (DGX Spark obsluhuje 2–5 současných uživatelů)
  • Žádné cenové tokeny – komplexní úkoly vícekrokového uvažování nic navíc nestojí
  • Doladění na proprietárních datech – nemožné u většiny cloudových API, zdarma na lokálním hardwaru
  • Prodejní hodnota hardwaru – AI hardware si zachovává významnou hodnotu na sekundárním trhu