Průvodce lokálním hardwarem pro AI pro malé a střední podniky 2026–2027

NVIDIA DGX Spark – zařízení velikosti knihy schopné provozovat AI modely s 200 miliardami parametrů (400 miliard při propojení dvou kusů) – představuje novou éru vlastnictví desktopové AI.

1 Základy
Proč lokální AI? Obchodní případ pro vlastnictví

Na začátku 20. let 20. století byla umělá inteligence služba, kterou jste si pronajímali – po hodinách, po tokenech, po API volání. V roce 2026 se paradigma posunulo. Hardware potřebný pro provoz inteligence třídy GPT-4 se nyní vejde na váš stůl a stojí méně než ojeté auto.

Pokračující závislost pouze na cloudové AI představuje strategické dilema tří problémů:

Narůstající náklady. API poplatky za token se škálují lineárně s využitím. Právnická firma zpracovávající 1 000 smluv denně může čelit ročním API nákladům ve výši ~700 tis. Kč.
Riziko úniku dat. Každý dotaz odeslaný do cloudového API jsou data, která opouštějí vaši síť a jsou vystavena rizikům zabezpečení a soukromí dat.
Žádné nebo nákladné přizpůsobení. Cloudové modely jsou obecné. Nelze je snadno nebo nákladově efektivně doladit na vlastní data, interní obchodní procesy nebo obchodní inteligenci.

Lokální hardware pro AI řeší všechny tři. Mění variabilní API poplatky na fixní kapitálový majetek, zajišťuje, že data nikdy neopustí LAN, a umožňuje hluboké přizpůsobení prostřednictvím doladění na obchodních datech.

2 Snížení nákladů
Kvantizace: Provozujte větší AI modely na levnějším hardwaru

Kvantizace je koncept, který zásadně mění ekonomiku lokální AI.

Jednoduše řečeno, kvantizace komprimuje paměťovou stopu AI modelu. Standardní model ukládá každý parametr jako 16bitové číslo s plovoucí desetinnou čárkou (FP16). Kvantizace to sníží na 8bitové (Int8), 4bitové (Int4) nebo ještě nižší – dramaticky se tak zmenší množství paměti potřebné pro provoz modelu.

Kvantizace vede k mírnému snížení kvality výstupu – často nepostřehnutelnému pro obchodní úkoly, jako je shrnutí, vytváření návrhů a analýza – výměnou za masivní snížení nákladů na hardware.

Potřebná paměť: 400B AI model při různých úrovních přesnosti

FP16

Plná přesnost

~800 GB

Int8

Poloviční velikost

~400 GB

Int4

Čtvrtina

~200 GB

FP16 – Maximální kvalita, maximální náklady

Int8 – Téměř dokonalá kvalita, poloviční náklady

Int4 – Vysoká kvalita, čtvrtinové náklady

Obchodní dopad

Model 400B s plnou přesností vyžaduje ~800 GB paměti – investici do serveru ve výši ~4,1 mil. Kč. Stejný model kvantizovaný na Int4 vyžaduje pouze ~200 GB a může běžet na dvou propojených mini-PC DGX Spark (založených na GB10 Superchip) za ~190 tis. Kč.

Mixture of Experts (MoE)

Mixture of Experts je další trik v architektuře AI modelů, který umožňuje nasazení masivních modelů bez masivních nákladů na paměť.

Místo použití všech parametrů pro každý dotaz aktivuje MoE model pouze část své kapacity prostřednictvím sparse activation (řídké aktivace).

MoE model se 2 biliony parametrů, jako je Llama 4 Behemoth, aktivuje pouze 288B parametrů na dotaz – poskytuje špičkovou inteligenci za zlomek paměťových nákladů.

Kompromis

MoE modely jsou o něco méně efektivní u jednoduchých úkolů, jako je shrnování a klasifikace, ve srovnání s hustými modely stejné velikosti. U znalostní práce a uvažování, jako je komplexní analýza, generování kódu a výzkum, MoE modely vynikají.

Řídká aktivace vede k rychlejší inferenční rychlosti a kratším dobám odezvy.

3 Mini-pc
AI mini-pc ~36,5 tis. Kč – ~200 tis. Kč

Nejvíce disruptivním vývojem roku 2026 je výpočetní kapacita AI ve formátu mini-pc. Zařízení o velikosti nejvýše knihy v tvrdých deskách nyní provozují AI modely, které před dvěma lety vyžadovaly serverovny.

Ekosystém NVIDIA GB10 (DGX Spark)

Lídr výkonu

NVIDIA DGX Spark definoval tuto kategorii. V roce 2026 superčip GB10 – kombinující procesor ARM Grace s GPU Blackwell – vytvořil celý ekosystém. ASUS,ABYTE, Dell, Lenovo, HP, MSI a Supermicro vyrábějí systémy založené na GB10, každý s různými formáty, chladicími řešeními a dodávaným softwarem.

Ekosystém NVIDIA GB10 ASUS, GIGABYTE, Dell, Lenovo, HP, MSI a Supermicro

Od ~97 tis. Kč

Paměť

128 GB

LPDDR5X Unified

Výpočetní výkon

~1 PFLOP

FP8 výkon AI

Síťování

10 GbE + Wi-Fi 7

ConnectX pro clustering

Úložiště

4 TB SSD

NVMe

Clustering

Ano (2 jednotky)

Sdružená paměť 256 GB

Software

NVIDIA AI Enterprise

CUDA, cuDNN, TensorRT

Clustering: Kapacita 256 GB

Propojením dvou jednotek GB10 přes vyhrazený vysokorychlostní síťový port systém sdruží prostředky do paměťového prostoru 256 GB. To odemyká schopnost provozovat velmi velké modely – 400B+ kvantizovaných parametrů – zcela na vašem stole za přibližně ~190 tis. Kč celkové investice do hardwaru.

AMD Ryzen AI Max (Strix Halo) mini-pc

Nejnižší náklady

Architektura AMD Ryzen AI Max+ Strix Halo vytvořila zcela novou kategorii rozpočtových AI mini-pc. Vlna výrobců – GMKtec, Beel Corsair, NIMO, Bosgame, FAVM – nyní dodává systémy se 128 GB sdílené paměti za méně než ~48 500 Kč.

AMD Ryzen AI Max mini-pc GMKtec EVO-X2 · Beelink · Corsair · NIMO AI · Bosgame M5 · FAVM FA-EX9

Od ~36 500 Kč

Paměť

128 GB

LPDDR5 sdílená (CPU+GPU)

Výpočetní výkon

~0.2 PFLOP

Integrovaná GPU RDNA 3.5

Propustnost

~200 GB/s

Propustnost paměti

Spotřeba

~100W

Tichý provoz

Clustering

Pouze samostatně

Windows / Linux

ROCm / llama.cpp

Apple Mac Studio (M4 Ultra)

Lídr kapacity

Mac Studio zaujímá jedinečnou pozici v lokálním AI prostředí. Architektura Apple Unified Memory (UMA) poskytuje až 256 GB paměti přístupné jak CPU, tak GPU v jediné kompaktní desktopové jednotce – není vyžadován clustering.

To z něj činí jediné dostupné samostatné zařízení schopné načítat největší open-source modely. Model s 400 miliardami parametrů kvantizovaný na Int4 se celý vejde do paměti v konfiguraci 256 GB.

Apple Mac Studio (M4 Ultra) Lídr AI kapacity v jedné jednotce

Od ~97 tis. Kč

Paměť

Až 256 GB

Sdílená paměť (UMA)

Výpočetní výkon

~0.5 PFLOP

Apple Neural Engine + GPU

Software

Framework MLX

Inference optimalizovaná pro Apple

Omezení

Pouze inference

Pomalé pro trénování/doladění

Apple Mac Studio (M5 Ultra)

Nastávající konkurent

Očekává se, že příští generace M5 Ultra od Applu, která by měla vyjít koncem roku 2026, podle zvěstí odstraní hlavní slabinu M4: výkon trénování AI modelů. Postavená na 2nm procesu TSMC by měla nabídnout konfigurace až s 512 GB sdílené paměti s propustností přesahující 1,2 TB/s.

Apple Mac Studio (M5 Ultra) Očekávaný tahoun AI trénování

Odhad. ~240 tis. Kč

Paměť

Až 512 GB

Sdílená paměť nové generace

Výpočetní výkon

~1.5+ PFLOP

Neural Engine 2nm

Software

MLX 2.0+

Nativní podpora trénování

Schopnosti

Trénink a inferenční odvozování

Alternativa k CUDA

Propustnost paměti: Kapacita 1,2 TB/s

512GB M5 Ultra by bylo první spotřebitelské zařízení schopné provozovat nekvatizované (plné přesnosti) špičkové modely. Vysoká propustnost paměti 1,2+ TB/s podporuje agentní AI pracovní postupy, které vyžadují trvalou inferenci s vysokou propustností a velmi dlouhými kontextovými okny.

Tiiny AI

Kapesní AI superpočítač

Vydaný na Kickstarteru v roce 2026 za 29 000 Kč, Tiiny.ai Pocket AI Computer je kapesní superpočítač s 80GB pamětí LGDDR5X a 1TB SSD, který podporuje lokální provoz 120B AI modelů kdekoli.

Při hmotnosti 300 gramů (142×22×80mm) a napájený standardním USB-C podporuje inovativní obchodní aplikace. Tiiny AI uvádí výstupní rychlost 21,14 tokenů za sekundu pro GPT-OSS-120B.

Tenstorrent

Open source hardware

Pod vedením legendárního architekta čipů Jima Kellera představuje Tenstorrent zásadně odlišnou filozofii: open source hardware postavený na RISC-V, open source software a modulární škálování prostřednictvím řetězení.

Tensix AI jádra jsou navržena pro lineární škálování: na rozdíl od GPU, která zápasí s režií komunikace při přidávání dalších karet, jsou Tenstorrent čipy konstruovány pro efektivní skládání.

Ve spolupráci s Razerem vydal Tenstorrent kompaktní externí AI akcelerátor, který se připojuje k jakémukoli notebooku nebo desktopu přes Thunderbolt – přeměňuje stávající hardware na AI pracovní stanici bez nutnosti cokoli nahrazovat.

Kompaktní AI akcelerátor Razer × Tenstorrent Externí Thunderbolt AI akcelerátor

Cena Neznámá

Paměť na krabici

12 GB

GDDR6

Čip

Wormhole n150

Jádra Tensix · RISC-V

Škálování

Až 4 jednotky

48 GB AI kapacity

Software

Plně open source

GitHub · TT-Metalium

AI NAS – Network Attached Storage

Úložiště + AI

Definice NAS se posunula od pasivního úložiště k aktivní inteligenci. Nová generace síťových úložných zařízení přímo integruje AI zpracování – od lehké inference založené na NPU po plné nasazení LLM akcelerovaných GPU.

NAS s podporou AI eliminuje potřebu samostatného AI zařízení a umožňuje přímé zpracování větších objemů dat bez latence přenosu přes síť.

⏻

Potřebujete pomoc s výběrem správného AI mini-PC pro vaši firmu?

Naši inženýři mohou vyhodnotit vaše požadavky na AI hardware a nasadit plně nakonfigurovaný AI systém.

Získejte bezplatné posouzení hardwaru →

4 Pracovní stanice
AI pracovní stanice & stolní počítače 60 tis. Kč – 310 tis. Kč

Kategorie pracovních stanic využívá diskrétních PCIe grafických karet a standardních věžových šasi. Na rozdíl od pevných integrovaných architektur kategorie mini-PC nabízí tato kategorie modularitu – můžete upgradovat jednotlivé komponenty, přidat více GPU nebo měnit karty s vývojem technologií.

Pracovní stanice se dvěma RTX A6000 a mostem NVLink nabízí 96 GB sdruženého VRAM za přibližně 140 tis. Kč.

Porozumění VRAM versus rychlost

Volbu GPU pro AI definují dva konkurenční faktory:

📦

Kapacita VRAM

Určuje velikost modelu, který můžete načíst. Více VRAM znamená větší a výkonnější modely. Toto je váš strop inteligence.

⚡

Výpočetní rychlost

Určuje, jak rychle model reaguje. Vyšší výpočetní výkon znamená nižší latenci na dotaz. Toto je váš uživatelský zážitek.

Karty pro spotřebitele (jako RTX 5090) maximalizují rychlost, ale nabízejí omezený VRAM – typicky 24–32 GB. Profesionální karty (jako RTX PRO 6000 Blackwell) maximalizují VRAM – až 96 GB na kartu – ale stojí více za jednotku výpočetního výkonu.

VRAM je limitujícím faktorem. Rychlá karta s nedostatečnou pamětí nemůže AI model vůbec načíst. Pomalejší karta s dostatečnou pamětí model spustí – jen s delší dobou odezvy.

GPU pro spotřebitele

Konfig	Celkové VRAM	Propojení	Odhad. cena
2× RTX 3090 (použité)	48 GB	NVLink	62 000 Kč
2× RTX 4090	48 GB	PCIe Gen 5	82 000 Kč
2× RTX 5090	64 GB	PCIe Gen 5	140 tis. Kč

Profesionální GPU

Konfig	Celkové VRAM	Propojení	Odhad. cena
2× RTX A6000 Nejlepší poměr cena/výkon	96 GB	NVLink	140 tis. Kč
2× RTX 6000 Ada	96 GB	PCIe Gen 5	270 000 Kč
1× RTX PRO 6000 Blackwell	96 GB	NVLink	160 tis. Kč
4× RTX PRO 6000 Blackwell	384 GB	PCIe Gen 5	660 000 Kč

Datacentrové GPU

Konfig	Celkové VRAM	Propojení	Odhad. cena
1× L40S	48 GB	PCIe 4.0 (pasivní chlazení)	140 tis. Kč
1× A100 PCIe	80 GB	PCIe 4.0	210 000 Kč
1× H200 NVL	141 GB	NVLink	620 000 Kč
4× H200 NVL	564 GB	NVLink	2 500 tis. Kč
1× B200 SXM	180 GB	NVLink 5 (1,8 TB/s)	620 000 Kč
8× B200 SXM	1 440 GB	NVLink 5 (1,8 TB/s)	4 900 000 Kč

Čínské GPU

Čínský domácí ekosystém GPU rychle dospěl. Několik čínských výrobců nyní nabízí GPU třídy pracovních stanic pro AI s konkurenceschopnými specifikacemi a výrazně nižšími cenami.

Konfig	Celkové VRAM	Typ paměti	Odhad. cena
1× Moore Threads MTT S4000	48 GB	GDDR6	16 000 Kč
4× Moore Threads MTT S4000	192 GB	GDDR6	72 000 Kč
8× Moore Threads MTT S4000	384 GB	GDDR6	134 000 Kč
1× Hygon DCU Z100	32 GB	HBM2	51 000 Kč
1× Biren BR104	32 GB	HBM2e	62 000 Kč
8× Biren BR104	256 GB	HBM2e	493 000 Kč
1× Huawei Ascend Atlas 300I Duo	96 GB	HBM2e	25 000 Kč
8× Huawei Ascend Atlas 300I Duo	768 GB	HBM2e	210 000 Kč

Připravované

Konfig	Celkové VRAM	Stav	Odhad. cena
RTX 5090 128 GB	128 GB	Čínská úprava – není standardní SKU	103 000 Kč
RTX Titan AI	64 GB	Očekáváno 2027	62 000 Kč

MSI NVIDIA RTX PRO 6000 Blackwell Server

NVIDIA DGX Station

Enterprise Apex

NVIDIA DGX Station je vodou chlazený superpočítač přímo k pracovnímu stolu, který přináší výkon datového centra do kancelářského prostředí. Nejnovější verze využívá superčip GB300 Grace Blackwell.

NVIDIA DGX Station GB300 Future-Proof Ultra

Odhad. cena ~4,1 mil. Kč

Verze Blackwell Ultra zvyšuje hustotu paměti a výpočetní výkon, určená pro organizace, které potřebují trénovat vlastní modely od nuly nebo lokálně spouštět masivní MoE (Mixture of Experts) architektury.

Paměť

~1,5 TB+

HBM3e (ultrarychlá)

Výpočetní výkon

~20+ PFLOPS

FP8 výkon AI

Použití

Vlastní trénink

Vývoj modelů

Spotřeba

Standardní zásuvka

Není potřeba serverovna

NVIDIA DGX Station GB300 Blackwell Ultra

NVIDIA DGX Station A100 Dostupný AI pracovní kůň

Od ~2,1 mil. Kč

Ačkoli je založen na architektuře předchozí generace Ampere, zůstává průmyslovým standardem pro spolehlivou inferenci a doladění. Ideálně vhodný pro týmy vstupující do oblasti AI bez rozpočtu na Blackwell.

Paměť

320 GB

4× GPU A100 s 80GB

Výpočetní výkon

2 PFLOPS

Výkon AI FP16

Multi-gebruiker

5–8 současně

Střední souběžnost

Spotřeba

Standardní zásuvka

Není potřeba serverovna

Ačkoli drahá, DGX Station nahrazuje serverový rack za ~7,3 mil. Kč a související chladicí infrastrukturu. Zapojí se do standardní zásuvky. To zcela eliminuje režii serverovny.

⏻

Potřebujete pomoc s výběrem správné AI pracovní stanice pro vaši firmu?

Naši inženýři mohou vyhodnotit vaše požadavky na AI hardware a nasadit plně nakonfigurovaný AI systém.

Získejte bezplatné posouzení hardwaru →

5 Servery
AI servery 400 tis. Kč – 4,1 mil. Kč

Když vaše firma potřebuje obsloužit mnoho zaměstnanců současně, provozovat modely třídy foundation v plné přesnosti nebo doladit vlastní modely na proprietárních datech – vstupujete do úrovně serverů.

Toto je doména specializovaných akcelerátorových karet AI s pamětí s vysokou šířkou pásma (HBM), specializovanými propojeními a rack-mount nebo desk-side formáty. Hardware je dražší, ale náklady na uživatele se ve velkém měřítku dramaticky sníží.

Intel Gaudi 3

Nejlepší poměr cena/výkon ve velkém měřítku

Akcelerátor Gaudi 3 od Intelu byl navržen od základu jako čip pro trénink a inferenci AI – ne jako přepracovaná grafická karta. Každá karta poskytuje 128 GB paměti HBM2e s integrovanou 400 Gb Ethernetovou sítí, což eliminuje potřebu samostatných síťových adaptérů.

Gaudi 3 je k dispozici ve dvou form factorách:

PCIe karta (HL-338): Standardní formát PCIe pro integraci do stávajících serverů. Odhadovaná cena: ~291 000 Kč za kartu.
OAM (OCP Accelerator Module): Standard OCP s vysokou hustotou pro cloudová datacentra. 321 000 Kč za čip při nákupu v sadách po 8 čipech (~3 000 000 Kč celkem se základní deskou).

Server s 8 kartami Gaudi 3 poskytuje 1 TB celkové AI paměti za mnohem nižší náklady než srovnatelný systém NVIDIA H100.

💾

Paměť na kartu

128 GB

HBM2e – odpovídá DGX Spark v jedné kartě

⚡

Celkem 8 karet

1 TB

1 024 GB sdružené paměti pro největší modely

💰

Náklady na systém

~4,1 mil. Kč

Levnější než srovnatelná konfigurace NVIDIA H100

AMD Instinct MI325X

Maximální hustota

AMD Instinct MI325X obsahuje 256 GB paměti HBM3e na kartu – dvojnásobek oproti Intel Gaudi 3. K dosažení 1 TB celkové AI paměti je potřeba pouze 4 karet, ve srovnání s 8 kartami u Intelu.

💾

Celková paměť 4 karet

1 TB

Polovina karet oproti Intelu při stejné kapacitě

⚡

Propustnost

6 TB/s

Na kartu – umožňuje současné uživatele

💰

Náklady na systém

~4,8 mil. Kč

Vstupní náklady s 1 kartou ~1,5 mil. Kč

MI325X je dražší na systém než Gaudi 3, ale rychlejší a kompaktnější. Pro úlohy vyžadující maximální propustnost – inferenci v reálném čase pro více uživatelů nebo trénování vlastních modelů na velkých datových sadách – se vyšší investice vrátí sníženou latencí a jednodušší infrastrukturou.

Huawei Ascend

Komplexní alternativa

Huawei replikoval celý zásobník AI infrastruktury: vlastní čipy (Ascend 910B/C), proprietární propojení (HCCS) a kompletní softwarový rámec (CANN). Výsledkem je soběstačný ekosystém fungující nezávisle na západních dodavatelských řetězcích a za mnohem nižší náklady než srovnatelné clustery NVIDIA H100.

Intel Xeon 6 (Granite Rapids)

Budgetový server

Tichou revolucí v roce 2026 je vzestup inference AI založené na CPU. Procesory Intel Xeon 6 obsahují AMX (Advanced Matrix Extensions), které umožňují AI úlohy na standardní paměti DDR5 RAM – což je výrazně levnější než paměť GPU.

Kompromis

Server se dvěma paticemi Xeon 6 může pojmout 1 TB až 4 TB DDR5 RAM za zlomek nákladů na paměť GPU. Rychlosti inference jsou pomalé, ale pro dávkové zpracování – kde rychlost není podstatná, ale inteligence a kapacita jsou prvořadé – je to transformační.

Příklad: SMB nahraje přes noc 100 000 naskenovaných faktur. Server Xeon 6 spustí model AI +400B pro dokonalou extrakci dat. Úkol trvá 10 hodin, ale náklady na hardware jsou mnohem nižší než u GPU serveru.

⏻

Potřebujete pomoc s výběrem vhodné infrastruktury AI serveru?

Náš infrastrukturní tým navrhuje a nasazuje kompletní řešení AI serverů – od Intel Gaudi po NVIDIA DGX – kombinovaná s softwarem na míru, aby odemkl možnosti AI pro vaše podnikání.

Vyžádejte si návrh serverové architektury →

6 Edge AI
Edge AI & Retrofit Upgrade stávající infrastruktury

Ne každá MSP potřebuje vyhrazený AI server nebo mini-PC. Mnohé mohou vložit inteligenci do stávající infrastruktury – upgradovat notebooky, stolní počítače a síťová zařízení s AI schopnostmi za minimální náklady.

M.2 AI akcelerátory: Hailo

Hailo-10 je standardní modul M.2 2280 – stejný slot jako pro SSD – který přidává vyhrazené AI zpracování do jakéhokoli stávajícího PC. Za cenu ~~3 600 Kč za jednotku a spotřebou pouze 5–8W umožňuje celopodnikové AI upgrady bez výměny hardwaru.

📎

Formát

M.2 2280

Pasuje do jakéhokoli standardního SSD slotu

⚡

Výkon

20–50 TOPS

Optimalizováno pro edge inferenci

💰

Náklady

~3 600 Kč

Za jednotku – upgrade flotily za méně než ~73 000 Kč

Případy použití: Lokální přepis schůzek (Whisper), titulkování v reálném čase, hlasové diktování, inferenční úlohy malých modelů (Phi-3 Mini). Tyto karty nemohou spouštět velké LLM, ale vynikají u specifických, trvalých AI úkolů – zajišťují, že hlasová data jsou zpracována lokálně a nikdy nejsou odna do cloudu.

Copilot+ PC (notebooky s NPU)

Notebooky s čipy Qualcomm Snapdragon X Elite, Intel Core Ultra nebo AMD Ryzen AI obsahují vyhrazené neurální procesorové jednotky (NPU) – specializované AI čipy. Ty nedokážou spustit velké LLM, ale zvládají malé, průběžné AI úkoly: živý přepis, rozmazání pozadí, lokální funkce Recall a provoz lehkých modelů jako Microsoft Phi-3.

NPU jsou hodnoceny v TOPS (Tera Operations Per Second), což měří, kolik AI práce zvládnou. Nejmocnější Copilot+ PC v roce 2026 mají ~50 TOPS. Vyšší TOPS znamená rychlejší odezvy a schopnost zvládnout o něco větší AI modely.

9 AI modely
Open-source AI modely (2026–2027)

Volba AI modelu diktuje hardwarové požadavky – ale jak ukázala kapitola o Kvantizaci AI modelů, kvantizace umožňuje špičkovým modelům běžet na hardwaru, který stojí zlomek toho, co vyžaduje nasazení v plné přesnosti.

Níže uvedená tabulka poskytuje přehled současných a budoucích open-source AI modelů.

Model	Velikost	Architektura	Paměť (FP16)	Paměť (INT4)
Llama 4 Behemoth	288B (aktivní)	MoE (~2kem)	~4 TB	~1 TB
Llama 4 Maverick	17B (aktivní)	MoE (400B celkem)	~800 GB	~200 GB
Llama 4 Scout	17B (aktivní)	MoE (109B celkem)	~220 GB	~55 GB
DeepSeek V4	~70B (aktivní)	MoE (671B celkem)	~680 GB	~170 GB
DeepSeek R1	37B (aktivní)	MoE (671B celkem)	~140 GB	~35 GB
DeepSeek V3.2	~37B (aktivní)	MoE (671B celkem)	~140 GB	~35 GB
Kimi K2.5	32B (aktivní)	MoE (1T celkem)	~2 TB	~500 GB
Qwen 3.5	397B (aktivní)	MoE (A17B)	~1.5 TB	~375 GB
Qwen 3-Max-Thinking	Velký	Hustý	~2 TB	~500 GB
Qwen 3-Coder-Next	480B (A35B aktivní)	MoE	~960 GB	~240 GB
Mistral Large 3	123B (41B aktivní)	MoE (675B celkem)	~246 GB	~62 GB
Ministral 3 (3B, 8B, 14B)	3B–14B	Hustý	~6–28 GB	–7 GB
GLM-5	44B (aktivní)	MoE (744B celkem)	~1.5 TB	~370 GB
GLM-4.7 (Thinking)	Velký	Hustý	~1.5 TB	~375 GB
MiMo-V2-Flash	15B (aktivní)	MoE (309B celkem)	~30 GB	~8 GB
MiniMax M2.5	~10B (aktivní)	Směs expertů (MoE) (~230B celkem)	~460 GB	~115 GB
Phi-5 Reasoning	14B	Hustý	~28 GB	~7 GB
Phi-4	14B	Hustý	~28 GB	~7 GB
Gemma 3	27B	Hustý	~54 GB	~14 GB
Pixtral 2 Large	90B	Hustý	~180 GB	~45 GB
Stable Diffusion 4	~12B	DiT	~24 GB	~6 GB
FLUX.2 Pro	15B	DiT	~30 GB	~8 GB
Open-Sora 2.0	30B	DiT	~60 GB	~15 GB
Whisper V4	1.5B	Hustý	~3 GB	~1 GB
Med-Llama 4	70B	Hustý	~140 GB	~35 GB
Legal-BERT 2026	35B	Hustý	~70 GB	~18 GB
Finance-LLM 3	15B	Hustý	~30 GB	~8 GB
CodeLlama 4	70B	Hustý	~140 GB	~35 GB
Molmo 2	80B	Hustý	~160 GB	~40 GB
Granite 4.0	32B (9B aktivní)	Hybridní Mamba-Transformer	~64 GB	~16 GB
Nemotron 3	8B, 70B	Hustý	~16–140 GB	~4–35 GB
EXAONE 4.0	32B	Hustý	~64 GB	~16 GB
Llama 5 Frontier	~1.2T (celkem)	MoE	~2.4 TB	~600 GB
Llama 5 Base	70B–150B	Hustý	~140–300 GB	~35–75 GB
DeepSeek V5	~600B (celkem)	MoE	~1.2 TB	~300 GB
Stable Diffusion 5	Nader te bepalen	DiT	—	—
Falcon 3	200B	Hustý	~400 GB	~100 GB

Strategické rady

Nekupujte nejdřív hardware. Identifikujte třídu modelu, která odpovídá vašim obchodním potřebám, poté aplikujte kvantizaci, abyste určili nejdostupnější hardwarovou úroveň.

Rozdíl mezi investicí 62 000 Kč a 3 100 000 Kč často závisí na požadavcích na velikost modelu a počtu současných uživatelů.

Trendy formující krajinu AI modelů

Nativní multimodalita jako standard. Nové modely jsou trénovány na textu, obrázcích, audiu a videu současně – ne jako samostatné schopnosti přidané po tréninku. To znamená, že jeden model zvládá analýzu dokumentů, porozumění obrazu a hlasovou interakci.
Malé modely dosahují schopností velkých modelů. Phi-5 (14B) a MiMo-V2-Flash demonstrují, že architektonické inovace mohou stlačit špičkové uvažování do modelů běžících na notebooku. Éra "větší je lepší" končí.
Specializace před generalizací. Místo jednoho masivního modelu pro všechno směřuje trend k souborům specializovaných modelů – kódovací model, uvažovací model, vizuální model – řízených agentním rámcem. Toto snižuje hardwarové nároky na model a zároveň zlepšuje celkovou kvalitu.
Agentní AI. Modely jako Kimi K2.5 a Qwen 3 jsou navrženy k autonomnímu rozkladu komplexních úkolů, volání externích nástrojů a koordinaci s jinými modely. Tento paradigma agentního roje vyžaduje trvalou propustnost během dlouhých relací – upřednostňuje hardware s vysokou šířkou pásma jako GB10 a M5 Ultra.
Video a 3D generace dospěly. Open-Sora 2.0 a FLUX.2 Pro signalizují, že lokální generování videa se stává praktickým. Do roku 2027 očekávejte asistenty pro editaci videa v reálném čase běžící na hardwaru úrovně pracovních stanic.

10 Bezpečnost
Architektura pro maximální bezpečnost

Hlavní výhodou lokálního AI hardwaru není výkon – je to suverenita dat. Když váš AI server běží za vaším firewallem místo v cizím cloudu, vaše citlivá data nikdy neopustí vaši budovu.

Architektura Air-Gapped API fyzicky izoluje AI server od internetu, zatímco autorizovaným zaměstnancům jej zpřístupňuje prostřednictvím API rozhraní.

Architektura Air-Gapped API

👤 Zaměstnanec Standardní pracovní stanice

→

🔀 Broker Server Auth + UI + Směrování

⟶

🔒 AI Server Air-gapped · Bez internetu

AI Trezor

Tato architektura vytváří Digitální trezor. I kdyby byl Broker Server kompromitován, útočník by mohl pouze posílat textové dotazy – nemohl by získat přístup k souborovému systému AI serveru, vahám modelu, datům pro doladění nebo jakýmkoli uloženým dokumentům.

⏻

Potřebujete zabezpečené nasazení AI s na míru šitými řešeními?

Naši inženýři navrhují a nasazují air-gapped AI architektury, které zajišťují, že data nikdy neopustí prostory, a zároveň poskytují vašemu podnikání špičkové AI schopnosti.

Prodiskutujte bezpečnou AI architekturu →

11 Ekonomika
Ekonomický verdikt: Lokální vs. cloud

Přechod na lokální AI hardware je posun od OpEx (provozní výdaje – měsíční poplatky za cloudové API) k CapEx (kapitálové výdajeorázová investice do hardwaru, která se stává aktivem ve vaší rozvaze).

Představte si právnickou firmu používající 200B model k analýze smluv:

☁️ Cloudové API

~700 tis. Kč

za rok (ve velkém měřítku)

1 000 smluv/den × ~0,25 Kč/1K tokenů × 365 dní. Škáluje lineárně s využitím. Data opouštějí síť.

🖥️ Lokální hardware (DGX Spark)

~97 tis. Kč

jednorázová investice

+ ~360 Kč/měsíc za elektřinu. Neomezené využití. Data nikdy neopustí LAN. Aktivum v rozvaze.

Při 1 000 dotazech denně se DGX Spark vrátí za méně než 2 měsíce ve srovnání s náklady na cloudové API. Při vyšší úrovni využití se doba návratnosti zkrátí na týdny.

Ekonomika se stává ještě příznivější, když zohledníte:

Více zaměstnanců sdílejících stejný hardware (DGX Spark obsluhuje 2–5 současných uživatelů)
Žádné cenové tokeny – komplexní úkoly vícekrokového uvažování nic navíc nestojí
Doladění na proprietárních datech – nemožné u většiny cloudových API, zdarma na lokálním hardwaru
Prodejní hodnota hardwaru – AI hardware si zachovává významnou hodnotu na sekundárním trhu

Kompletní průvodce lokálním hardwarem pro AI pro MSP

1 Základy
Proč lokální AI? Obchodní případ pro vlastnictví

2 Snížení nákladů
Kvantizace: Provozujte větší AI modely na levnějším hardwaru

Mixture of Experts (MoE)

3 Mini-pc
AI mini-pc ~36,5 tis. Kč – ~200 tis. Kč

Ekosystém NVIDIA GB10 (DGX Spark)

AMD Ryzen AI Max (Strix Halo) mini-pc

Apple Mac Studio (M4 Ultra)

Apple Mac Studio (M5 Ultra)

Tiiny AI

Tenstorrent

AI NAS – Network Attached Storage

Potřebujete pomoc s výběrem správného AI mini-PC pro vaši firmu?

4 Pracovní stanice
AI pracovní stanice & stolní počítače 60 tis. Kč – 310 tis. Kč

Porozumění VRAM versus rychlost

GPU pro spotřebitele

Profesionální GPU

Datacentrové GPU

Čínské GPU

Připravované

NVIDIA DGX Station

Potřebujete pomoc s výběrem správné AI pracovní stanice pro vaši firmu?

5 Servery
AI servery 400 tis. Kč – 4,1 mil. Kč

Intel Gaudi 3

AMD Instinct MI325X

Huawei Ascend

Intel Xeon 6 (Granite Rapids)

Potřebujete pomoc s výběrem vhodné infrastruktury AI serveru?

6 Edge AI
Edge AI & Retrofit Upgrade stávající infrastruktury

M.2 AI akcelerátory: Hailo

Copilot+ PC (notebooky s NPU)

9 AI modely
Open-source AI modely (2026–2027)

Trendy formující krajinu AI modelů

10 Bezpečnost
Architektura pro maximální bezpečnost

Potřebujete zabezpečené nasazení AI s na míru šitými řešeními?

11 Ekonomika
Ekonomický verdikt: Lokální vs. cloud

Zapněte inteligenci ZAPNUTO pro váš podnik

Kompletní průvodce lokálním hardwarem pro AI pro MSP

1 ZákladyProč lokální AI? Obchodní případ pro vlastnictví

2 Snížení nákladůKvantizace: Provozujte větší AI modely na levnějším hardwaru

Mixture of Experts (MoE)

3 Mini-pcAI mini-pc ~36,5 tis. Kč – ~200 tis. Kč

Ekosystém NVIDIA GB10 (DGX Spark)

AMD Ryzen AI Max (Strix Halo) mini-pc

Apple Mac Studio (M4 Ultra)

Apple Mac Studio (M5 Ultra)

Tiiny AI

Tenstorrent

AI NAS – Network Attached Storage

Potřebujete pomoc s výběrem správného AI mini-PC pro vaši firmu?

4 Pracovní staniceAI pracovní stanice & stolní počítače 60 tis. Kč – 310 tis. Kč

Porozumění VRAM versus rychlost

GPU pro spotřebitele

Profesionální GPU

Datacentrové GPU

Čínské GPU

Připravované

NVIDIA DGX Station

Potřebujete pomoc s výběrem správné AI pracovní stanice pro vaši firmu?

5 ServeryAI servery 400 tis. Kč – 4,1 mil. Kč

Intel Gaudi 3

AMD Instinct MI325X

Huawei Ascend

Intel Xeon 6 (Granite Rapids)

Potřebujete pomoc s výběrem vhodné infrastruktury AI serveru?

6 Edge AIEdge AI & Retrofit Upgrade stávající infrastruktury

M.2 AI akcelerátory: Hailo

Copilot+ PC (notebooky s NPU)

9 AI modelyOpen-source AI modely (2026–2027)

Trendy formující krajinu AI modelů

10 BezpečnostArchitektura pro maximální bezpečnost

Potřebujete zabezpečené nasazení AI s na míru šitými řešeními?

11 EkonomikaEkonomický verdikt: Lokální vs. cloud

Zapněte inteligenci ZAPNUTO pro váš podnik

1 Základy
Proč lokální AI? Obchodní případ pro vlastnictví

2 Snížení nákladů
Kvantizace: Provozujte větší AI modely na levnějším hardwaru

3 Mini-pc
AI mini-pc ~36,5 tis. Kč – ~200 tis. Kč

4 Pracovní stanice
AI pracovní stanice & stolní počítače 60 tis. Kč – 310 tis. Kč

5 Servery
AI servery 400 tis. Kč – 4,1 mil. Kč

6 Edge AI
Edge AI & Retrofit Upgrade stávající infrastruktury

9 AI modely
Open-source AI modely (2026–2027)

10 Bezpečnost
Architektura pro maximální bezpečnost

11 Ekonomika
Ekonomický verdikt: Lokální vs. cloud