Az NVIDIA DGX Spark – egy könyv méretű eszköz, amely képes 200 milliárd paraméteres AI-modelleket futtatni (400 milliárdot, ha kettőt összekapcsolnak) – az asztali AI-tulajdonlás új korszakát képviseli.

1 Alapok
Miért helyi AI? Az üzleti indoklás a tulajdonlás mellett

A 2020-as évek elején a mesterséges intelligencia egy szolgáltatás volt, amit béreltél – óradíj, tokenenként, API-hívásonként. 2026-ra a paradigma megváltozott. A „GPT-4 szintű” intelligencia futtatásához szükséges hardver most már az asztalodra fér, és kevesebbe kerül, mint egy használt autó.

A kizárólag felhőalapú AI-tól való függés stratégiai trilemmát jelent:

  • Elszálló költségek. A tokenenkénti API-díjak lineárisan skálázódnak a használattal. Egy jogi cég, amely naponta 1000 szerződést dolgoz fel, akár ~30 ezer EUR éves API-költséggel is szembesülhet.
  • Adatkitévés. Minden felhő-API-nak küldött lekérdezés olyan adat, amely elhagyja a hálózatodat, és kitétetik az adatbiztonsági és adatvédelmi kockázatoknak.
  • Nulla vagy költséges testreszabás. A felhőmodellek általánosak. Nem könnyen vagy költséghatékonyan finomíthatók testreszabott adatokon, belső üzleti folyamatokon vagy üzleti intelligencián.

A helyi AI-hardver mindhármat megoldja. A változó API-díjakat fix tőkeeszközzé alakítja, biztosítja, hogy az adatok soha ne hagyják el a LAN-t, és mély testreszabást tesz lehetővé az üzleti adatokon történő finomítással.

2 Kéghatékonyság
Kvantálás: Nagyobb AI-modellek futtatása olcsóbb hardveren

A kvantálás egy olyan fogalom, amely alapvetően megváltoztatja a helyi AI közgazdaságtanát.

Egyszerűen fogalmazva, a kvantálás csökkenti az AI-modell memóriaigényét. Egy szabványos modell minden paramétert 16 bites lebegőpontos számként (FP16) tárol. A kvantálás ezt 8 bitesre (Int8), 4 bitesre (Int4) vagy még alacsonyabbra csökkenti – drámaian lecsökkentve a modell futtatásához szükséges memória mennyiségét.

A kvantálás enyhe csökkenést eredményez a kimeneti minőségben – ami az olyan üzleti feladatoknál, mint az összefoglalás, tervezés és elemzés, gyakran észrevehetetlen – cserébe a hardverköltségek jelentős csökkenéséért.

Szükséges memória: 400B AI-modell különböző pontossági szinteken
FP16
Teljes pontosság
~800 GB
Int8
Fele akkora méret
~400 GB
Int4
Negyed akkora méret
~200 GB
FP16 – Maximális minőség, maximális költség
Int8 – Szinte tökéletes minőség, fele akkora költség
Int4 – Magas minőség, negyed akkora költség
Az üzleti hatás

Egy 400B-es modell teljes pontossággal ~800 GB memóriát igényel – ez ~170 ezer EUR szerverbefektetés. Ugyanaz a modell, Int4-re kvantizálva, mindössze ~200 GB-ot igényel, és két összekapcsolt DGX Spark (GB10 Superchip alapú) mini-számítógépen futtatható ~8 000 EUR értékért.

Szakértők Keveréke (MoE)

A Szakértők Keveréke (MoE) egy másik AI-modellarchitektúra-trukk, amely lehetővé teszi hatalmas modellek üzembe helyezését a hatalmas memóriaköltség nélkül.

Ahelyett, hogy minden paramétert minden kérdéshez használna, egy MoE-modell csak kapacitása egy részét aktiválja sparse activation (ritka aktiválás) révén.

Egy 2 billió paraméteres MoE-modell, mint például a Llama 4 Behemoth, lekérdezésenként mindössze 288B paramétert aktivál – csúcspontú intelligenciát nyújtva a memóriaköltség töredékéért.

A kompromisszum

Az MoE-modellek kissé kevésbé hatékonyak egyszerű feladatokban, mint az összefoglalás és osztályozás, ugyanakkora sűrű modellekkel összehasonlítva. Tudásalapú munkák és következtetések esetén, mint például komplex elemzés, kódgenerálás és kutatás, az MoE-modellek kiemelkednek.

A ritka aktiválás gyorsabb inferencia-sebességet és rövidebb válaszidőt eredményez.

3 Mini-PC-k
AI mini-PC-k 562 000 Ft - 3 750 000 Ft

HP ZGX Nano AI egy nő kezében

2026 legdiszruptívabb fejleménye a nagy kapacitású AI-számítás a mini-PC formátumban. Könyv méretű eszközök most olyan AI-modelleket futtatnak, amelyek két éve még szervertermeket igényeltek.

Az NVIDIA GB10 ökoszisztéma (DGX Spark)

Teljesítményvezető

NVIDIA logo

Az NVIDIA DGX Spark határozta meg ezt a kategóriát. 2026-ban a GB10 szuperchip – amely egy ARM Grace CPU-t és egy Blackwell GPU-t egyesít – egy teljes ökoszisztémát hozott létre. Az ASUS, GIGABYTE, Dell, Lenovo, HP, MSI és Supermicro mind gyárt GB10-alapú rendszereket, különböző formafaktorokkal, hűtési megoldásokkal és csomagolt szoftverekkel.

NVIDIA GB10 ökoszisztéma ASUS, GIGABYTE, Dell, Lenovo, HP, MSI és Supermicro
Ár: ~4 000 EUR
Memória
128 GB
LPDDR5X Unified
Számítás
~1 PFLOP
FP8 AI-teljesítmény
Hálózat
10 GbE + Wi-Fi 7
ConnectX klaszterezéshez
Tárolás
4 TB SSD
NVMe
Klaszterezés
Igen (2 egység)
256 GB összevont memória
Szo
NVIDIA AI Enterprise
CUDA, cuDNN, TensorRT
NVIDIA DGX Spark
ASUS Ascent GX10
Gigabyte AI TOP ATOM
DGX Quantum Machines combo
MSI EdgeExpert
Lenovo ThinkStation PGX
Dell Pro Max Desktop
NVIDEA DGX Spark
Klaszterezés: 256 GB kapacitás

Két GB10 egység összekapcsolásával a rendszer 256 GB memóriateret hoz létre. Ez lehetővé teszi nagyon nagy modellek – 400B+ kvantált paraméter – futtatását teljes egészében az asztalodon, körülbelül ~8 000 EUR teljes hardverbefektetésért.

AMD Ryzen AI Max (Strix Halo) mini-PC-k

Legolcsóbb

AMD Ryzen AI Max+ Strix Halo

Az AMD Ryzen AI Max+ Strix Halo architektúra egy teljesen új kategóriát hozott létre a költséghatékony AI mini-PC-k terén. Számos gyártó – GMKtec, Beelink, Corsair, NIMO, Bosgame, FAVM – most már 128 GB unifikált memóriájú rendszereket szállít ~2 000 EUR alatt.

AMD Ryzen AI Max mini-PC-k GMKtec EVO-X2 · Beelink · Corsair · NIMO AI · Bosgame M5 · FAVM FA-EX9
Ár: ~1 500 EUR
Memória
128 GB
LPDDR5 megosztott (CPU+GPU)
Számítás
~0,2 PFLOP
Integrált RDNA 3.5 GPU
szélesség
~200 GB/s
Memóriabandszélesség
Energiaigény
~100W
Csendes működés
Klaszterezés
Nem
Csak önállóan
Operációs rendszer
Windows / Linux
ROCm / llama.cpp
GMKtex EVO X2
Bosgame M5 AI
NIMO AI Mini PC
Beelink Mini PC
Beelink Mini PC
Corsair AI Workstation 300 Halo
FAVM FA EX9
GMK Ryzen Strix Halo Mini PC

Apple Mac Studio (M4 Ultra)

Kapacitásvezető

A Mac Studio egyedülálló helyet foglal el a helyi AI térben. Az Apple Unified Memory Architecture (UMA) akár 256 GB memóriát biztosít, amely a CPU és a GPU számára is elérhető egyetlen, kompakt asztali egységben – klaszterezés nélkül.

Ez teszi az egyetlen „megfizethető” egységeszközzé, amely képes a legnagyobb nyílt forráskódú modelleket betölteni. Egy 400 milliárd paraméteres modell Int4-re kvantálva teljes egészében elfér a memóriában a 256 GB-os konfigurációban.

Apple Mac Studio (M4 Ultra) Az egységeszközös AI-kapacitásvezető
Ár: ~4 000 EUR
Memória
Akár 256 GB
Unified Memory (UMA)
Számítás
~0,5 PFLOP
Apple Neural Engine + GPU
Szo
MLX keretrendszer
Apple által optimalizált következtetés
Korlátozás
Csak következtetés
Lassú betanításhoz/finomításhoz

Apple Mac Studio (M5 Ultra)

Jövőbeli versenyző

Az Apple következő generációs M5 Ultra chipje, amelyet 2026 végére várnak, állítólag az M4 fő gyengeségére – az AI-modell betanítási teljesítményére – fókuszál. A TSMC 2nm-es folyamatán készül, és várhatóan akár 512 GB unifikált memóriát kínál 1,2 TB/s feletti sávszélességgel.

Apple Mac Studio (M5 Ultra) A várt AI-betanítási erőgép
Becsült ár: ~10 ezer EUR
Memória
Akár 512 GB
Új generációs Unified Memory
Számítás
~1,5+ PFLOP
2nm Neural Engine
Szo
MLX 2.0+
Natív betanítási támogatás
Képesség
Betanítás és következtetés
CUDA alternatíva
Memóriabandszélesség: 1,2 TB/s kapacitás

Az 512 GB-os M5 Ultra lenne az első fogyasztói eszköz, amely képes kvantálatlan (teljes pontosságú) csúcsmodelleket futtatni. A 1,2+ TB/s magas memóriabandszélesség támogatja az ügynök-alapú AI-munkafolyamatokat, amelyek tartós nagy átviteli sebességű következtetést igényelnek nagyon hosszú kontextusablakokkal.

Tiiny AI

Zseb AI-szupercomputere

Tiiny AI

A Tiiny.ai Pocket AI Computer 2026-ban jelent meg a Kickstarteren 1 400 USD értékért, egy zsebszupercomputer 80GB LGDDR5X memóriával és 1TB SSD-vel, amely helyileg, bárhol támogatja a 120B-s AI-modellek futtatását.

300 grammos (142×22×80 mm) és szabványos USB-C táplálással innovatív üzleti alkalmazásokat támogat. A Tiiny AI 21,14 token/másodperc kimeneti sebességet jelent a GPT-OSS-120B-hez.

Tiiny Pocket AI Computer
Tiiny Pocket AI Computer
Tiiny Pocket AI Computer
Tiiny Pocket AI Computer

Tenstorrent

Nyílt forráskódú hardver

Tenstorrent

A legendás chiptervező, Jim Keller vezetésével a Tenstorrent egy alapvetően eltérő filozófiát képvisel: nyílt forráskódú hardver RISC-V alapokon, nyílt forráskódú szoftver és moduláris skálázás láncolt összekapcsolással.

A Tensix AI-magok lineáris skálázásra lettek tervezve: ellentétben a GPU-kkal, amelyek kommunikációs terheléssel küzdenek, ha több kártyát adsz hozzá, a Tenstorrent chipek hatékonyan egymás mellé helyezhetők.

A Razerrel közös partnerségben a Tenstorrent kiadott egy kompakt külső AI-gyorsítót, amely Thunderbolt segítségével bármely laptophoz vagy asztali számítógéphez csatlakoztatható – meglévő hardvert AI-munkaállomássá alakítva anélkül, hogy bármit le kellene cserélni.

Razer × Tenstorrent kompakt AI-gyorsító Külső Thunderbolt AI-gyorsító
Becsült ár: Ismeretlen
Memória dobozonként
12 GB
GDDR6
Chip
Wormhole n150
Tensix magok · RISC-V
Skálázás
Akár 4 egység
48 GB AI-kapacitás
Szo
Teljesen nyílt forráskódú
GitHub · TT-Metalium
Razer × Tenstorrent AI Accelerator
Razer × Tenstorrent AI Accelerator
Razer × Tenstorrent AI Accelerator
Razer × Tenstorrent AI Accelerator

AI NAS – Hálózattároló

Tárolás + AI

A NAS definíciója a passzív tárolásról az aktív intelligencia felé tolódott el. Az új generációs hálózati tárolóeszközök közvetlenül integrálnak AI-feldolgozást – a könnyű NPU-alapú következtetéstől a teljes GPU-gyorsított LLM üzembe helyezésig.

Az AI-képes NAS megszünteti a külön AI-eszköz szükségességét, és lehetővé teszi nagyobb adatmennyiségek közlen feldolgozását nulla hálózati átviteli késleltetéssel.

QNAP AI NAS
Ugreen DXP4800 Pro
OmniCore AI NAS
Zetlab AI NAS

Segítségre van szüksége a megfelelő AI mini-PC kiválasztásához vállalkozása számára?

Mérnökeink felmérik az Ön AI-hardverigényeit, és üzembe helyeznek egy teljesen konfigurált AI-rendszert.

Ingyenes hardverfelmérés igénylése →

4 Munkaállomások
AI-munkaállomások és asztali számítógépek 3 ezer USD – 15 ezer USD

A munkaállomás szint diszkrét PCIe grafikus kártyákat és szabványos toronyházakat használ. A mini-PC szint rögzített egységes architektúrájával ellentétben ez a szint modularitást kínál – egyes alkatrészeket frissíthet, több GPU-t adhat hozzá, vagy kártyákat cserélhet, ahogy a technológia fejlődik.

Egy dupla RTX A6000 munkaállomás NVLink híddal kb. 7 000 USD-ért kínál 96 GB összevont VRAM-ot.

A VRAM és a sebesség megértése

Két versengő tényező határozza meg a GPU-választást AI-hoz:

📦
VRAM-kapacitás
Meghatározza a betöltheő modell méretét. Több VRAM nagyobb, teljesítményesebb modelleket jelent. Ez az Ön intelligenciaplafonja.
Számítási sebesség
Meghatározza, milyen gyorsan reagál a modell. Magasabb számítási teljesítmény alacsonyabb késleltetést jelent lekérdezésenként. Ez az Ön felhasználói élménye.

A fogyasztói kártyák (pl. RTX 5090) maximalizálják a sebességet, de korlátozott VRAM-ot kínálnak – által 24–32 GB-ot. A professzionális kártyák (pl. RTX PRO 6000 Blackwell) maximalizálják a VRAM-ot – akár 96 GB kártyánként – de egységnyi számítási teljesítményre vetítve többe kerülnek.

A VRAM a korlátozó tényező. Egy gyors kártya elégtelen memóriával egyáltalán nem tudja betölteni az AI-modellt. Egy lassabb kártya elegendő memóriával futtatja a modellt – csak hosszabb válaszidővel.

Fogyasztói GPU-k

KonfigurációÖsszes VRAMÖsszekapcsolásBecsült költség
2× RTX 3090 (Használt)48 GBNVLink3 000 USD
2× RTX 409048 GBPCIe Gen 54 000 USD
2× RTX 509064 GBPCIe Gen 57 000 USD

Professzionális GPU-k

KonfigurációÖsszes VRAMÖsszekapcsolásBecsült költség
2× RTX 6000 Ada96 GBPCIe Gen 513 000 USD
1× RTX PRO 6000 Blackwell96 GBNVLink8 000 USD
4× RTX PRO 6000 Blackwell384 GBPCIe Gen 532 000 USD

Adatközponti GPU-k

KonfigurációÖsszes VRAMÖsszekapcsolásBecsült költség
1× L40S48 GBPCIe 4.0 (passzív hűtés)7 000 USD
1× A100 PCIe80 GBPCIe 4.010 000 USD
1× H200 NVL141 GBNVLink30 000 USD
4× H200 NVL564 GBNVLink120 000 USD
1× B200 SXMNVLink 5 (1,8 TB/s)NVLink 5 (1,8 TB/s)30 000 USD
8× B200 SXM1440 GBNVLink 5 (1,8 TB/s)240 000 USD

Kínai GPU-k

Kína hazai GPU-ökoszisztémája gyorsan éretté vált. Több kínai gyártó kínál munkaállomás-osztályú AI GPU-kat versenyképes specifikációkkal és jelentősen alacsonyabb áron.

KonfigurációÖsszes VRAMMemória típusaBecsült költség
1× Moore Threads MTT S400048 GBGDDR6800 USD
4× Moore Threads MTT S4000192 GB€ 3.000GDDR63 500 USD
8× Moore Threads MTT S4000384 GBGDDR66 500 USD
1× Hygon DCU Z10032 GBHBM22 500 USD
1× Biren BR10432 GBHBM2e3 000 USD
8× Biren BR104256 GBHBM2e24 000 USD
1× Huawei Ascend Atlas 300I Duo96 GBHBM2e1 200 USD
8× Huawei Ascend Atlas 300I Duo768 GBHBM2e10 000 USD

Hamarosan

KonfigurációÖsszes VRAMÁllapotBecsült költség
RTX 5090 128 GB128 GBKínai mód. – nem szabványos SKU5 000 USD
RTX Titan AI64 GB2027-re várható3 000 USD
4x NVIDIA RTX PRO 6000 Blackwell
4x NVIDIA RTX PRO 6000 Blackwell
MSI NVIDIA RTX PRO 6000 Blackwell Server
NVIDIA RTX 5090
Az NVIDIA DGX Station – egy vízhűtéses „adatközpont az asztalon”, amely szabványos fali csatlakozóba dugható.

NVIDIA DGX Station

Enterprise Apex

Az NVIDIA DGX Station egy vízhűtésű, asztali szuperszámítógép, amely adatközpont-teljesítményt hoz az irodai környezetbe. A legújabb verzió a GB300 Blackwell Superchipet használja.

NVIDIA DGX Station GB300 Jövőbiztos Ultra
Becsült ár ~200 ezer USD

A Blackwell Ultra verzió növeli a memóriasrűséget és a számítási teljesítményt, olyan szervezetek számára tervezték, akik egyedi modelleket kívánnak nulláról kiképezni, vagy hatalmas MoE (Szakértők Keveréke) architektúrákat helyileg futtatni.

Memória
~1,5 TB+
HBM3e (ultragyors)
Számítás
~20+ PFLOPS
FP8 AI-teljesítmény
Használati eset
Egyéni képzés
Modellfejlesztés
Energiaigény
Szabványos aljzat
Nincs szükség szerverteremre
NVIDIA DGX Station GB300 Blackwell Ultra
ASUS ExpertCenter Pro DGX GB300
MSI XpertStation WS300
NVIDIA DGX Station GB300 Blackwell Ultra
NVIDIA DGX Station A100 Elérhető AI-munagló
Ár: ~100 ezer USD

Bár az előző generációs Ampere architektúrán alapul, továbbra is az ipari szabvány a megbízható inferencia és finomhangolás terén. Ideális csapatok számára, akik belépnek az AI-térbe, de nincs keretük a Blackwell-re.

Memória
320 GB
4× 80GB A100 GPU
Számítás
2 PFLOPS
FP16 AI-teljesítmény
Többfelhasználós
5–8 egyidejű
Mérsékelt egyidejűség
Energiaigény
Szabványos aljzat
Nincs szükség szerverteremre

Bár drága, a DGX Station helyettesíti egy ~300 ezer EUR értékű szerverracket és annak hozzá tartozó hűtési infrastruktúráját. Egy szabványos fali konnektorba dugható. Ez teljesen megszünteti a szervertermi rezsiköltséget.

Segítségre van szüksége a megfelelő AI-munkaállomás kiválasztásához vállalata számára?

Mérnökeink felmérik az Ön AI-hardverigényeit, és üzembe helyeznek egy teljesen konfigurált AI-rendszert.

Ingyenes hardverfelmérés igénylése →

5 Szerverek
AI-szerverek 15 ezer EUR – 170 ezer EUR

Amikor vállalkozásának sok alkalmazottat kell egyszerre kiszolgálnia, alapmodell-osztályú modelleket kell teljes pontossággal futtatnia, vagy egyedi modelleket kell finomhangolnia saját adatokon – akkor lép a szerver szintre.

Ez a dedikált AI-gyorsító kártyák, nagy sávszélességű memóriával (HBM), speciális összeköttetésekk és rackbe szerelhető vagy asztali formafaktorok birodalma. A hardver drágább, de a felhasználónkénti költség drámaian csökken nagy léptékben.

Intel Gaudi 3

Legjobb ár-érték nagy léptékben

Az Intel Gaudi 3 gyorsítója eleve AI-képzésre és következtetésre tervezett chippént készült – nem újracélozott grafikus kártyaként. Minden kártya 128 GB HBM2e memóriát kínál integrált 400 Gb Ethernet hálózal, megszüntetve a külön hálózati adapterek szükségességét.

A Gaudi 3 két formafaktorban érhető el:

  • PCIe kártya (HL-338): Szabványos PCIe formafaktor integrációhoz meglévő szerverekbe. Becsült ár: ~12 ezer EUR kártyánként.
  • OAM (OCP Accelerator Module): Nagy sűrűségű OCP szabvány felhő adatközpontokhoz. 16 000 USD chipeként, ha tömegesen vásárolnak 8 chipes készletekben (~125 ezer EUR összesen alapréteggel).

Egy 8 kártyás Gaudi 3 szerver 1 TB összes AI-memóriát szállít jóval alacsonyabb költséggel, mint egy hasonló NVIDIA H100 rendszer.

💾
Memória kártyánként
128 GB
HBM2e –ezik a DGX Sparkkal egyetlen kártyán
8 kártyás összesen
1 TB
1.024 GB összevont memória a legnagyobb modellekhez
💰
Rendszerköltség
~170 ezer EUR
Olcsóbb, mint a hasonló NVIDIA H100 konfiguráció
Intel Gaudi 3 Baseboard HLB 325
Intel Gaudi 3 PCI card
Dell Intel Gaudi 3 server
Gigabyte Intel Gaudi 3 server

Instinct MI325X

Maximális sűrűség

Az AMD Instinct MI325X kártyánként 256 GB HBM3e memóriát tartalmaz – ez kétszerese az Intel Gaudi 3-nak. Mindössze 4 kártya szükséges 1 TB összes AI-memória eléréséhez, szemben az Intel 8 kártyájával.

💾
4 kártyás összes memória
1 TB
Fele annyi kártya mint az Intel ugyanazon kapacitáshoz
szélesség
6 TB/s
Kártyánként – lehetővé teszi az egyidejű felhasználókat
💰
Rendszerköltség
~200 ezer EUR
Belépési költség 1 kártyával ~60 ezer EUR
AMD Instinct MI325X server
Supermicro AMD Instinct MI325X server
AMD Instinct MI325X server
ASUS AMD Instinct MI325X server

Az MI325X rendszerenként drágább, mint a Gaudi 3, de gyorsabb és sűrűbb. Azoknál a munkaterheléseknél, amelyek maximális átviteli sebességet igényelnek – valós idejű következtetés több felhasználó számára, vagy egyedi modellek betanítása nagy adathalmazokon –, a magasabb beruházás megtérül a csökkentett késleltetés és az egyszerűbb infrastruktúra révén.

Huawei Ascend

Teljes körű alternatíva

Huawei

A Huawei reprodukálta a teljes AI-infrastruktúra stacket: egyedi szilícium (Ascend 910B/C), saját összeköttetések (HCCS) és egy teljes szoftverkeretrendszer (CANN). Az eredmény egy önálló ökoszisztéma, amely függetlenül működik a nyugati ellátási láncoktól és jóval alacsonyabb költséggel, mint a hasonló NVIDIA H100 klaszterek.

Huawei Atlas
Huawei Ascend AI family
Huawei Atlas 300
Huawei Atlas 800i Ascend 910c

Intel Xeon 6 (Granite Rapids)

Költségvetési szerver

Egy csendes forradalom 2026-ban a CPU-alapú AI-következtetés felemelkedése. Az Intel Xeon 6 processzorok AMX-et (Advanced Matrix Extensions) tartalmaznak, amelyek lehetővé teszik AI-munkaterhelések futtatását szabványos DDR5 RAM-on – ami drámaian olcsóbb, mint a GPU memória.

A kompromisszum

Egy duplafoglalatos Xeon 6 szerver 1–4 TB DDR5 RAM-ot képes tárolni a GPU memória költségének töredékéért. A következtetési sebesség lassú, de a kötegelt feldolgozáshoz – ahol a sebesség nem számít, de intelligencia és a kapacitás döntő – ez forradalmi.

Példa: Egy KKV 100 000 szkennelt számlát tölt fel éjszaka. A Xeon 6 szerver egy +400B-es AI-modellt futtat, hogy tökéletesen kinyerje az adatokat. A feladat 10 órát vesz igénybe, de a hardverköltség jóval alacsonyabb, mint egy GPU-szerver esetében.

Segítségre van szüksége a megfelelő AI-szerverinfrastruktúra kiválasztásához?

Infrastruktúra-csapatunk teljes AI-szervermegoldásokat tervez és helyez üzembe – Intel Gaudi-tól az NVIDIA DGX-ig – egyedi szoftverekkel kombinálva – hogy kiaknázza az AI lehetőségeit vállalkozása számára.

Kérjen szerverarchitektúra-javaslatot →

6 Perem AI
Perem AI & Retrofit Meglévő infrastruktúra frissítése

Nem minden KKV-nek van szüksége dedikált AI-szerverre vagy mini-PC-re. Sokan beépíthetik az intelligenciát a meglévő infrastruktúrába – laptopok, asztali gépek és hálózati eszközök frissítésével AI-képességekkel minimális költséggel.

M.2 AI-gyorsítók: A Hailo-10

A Hailo-10 egy szabványos M.2 2280 modul – ugyanaz a csatlakozó, mint az SSD-knél – amely dedikált AI-feldolgozást ad bármely meglévő PC-hez. ~~56 000 Ft darabonként és mindössze 5–8W energiafogyasztással lehetővé teszi a teljes flotta AI-frissítését hardvercsere nélkül.

📎
Formátum
M.2 2280
Bármely szabványos SSD-slotba illeszkedik
Teljesítmény
20–50 TOPS
Pereminferenciára optimalizálva
💰
Költség
~56 000 Ft
Darabonként – flottafrissítés ~3 000 EUR alatt

Használati esetek: Helyi értekezlet-átírás (Whisper), valós idejű feliratkozás, hangdiktálás, kis modell-inferencia (Phi-3 Mini). Ezek a kártyák nem képesek nagy LLM-ek futtatására, de kiválóan teljesítenek specifikus, folyamatos AI-feladatokban – biztosítva, hogy a hangadatok helyileg kerüljenek feldolgozásra, sosem a felhőbe.

Copilot+ PC-k (NPU-s laptopok)

A Qualcomm Snapdragon X Elite, Intel Core Ultra vagy AMD Ryzen AI chipekkel rendelkező laptopok dedikált Neurális Feldolgozó Egységeket (NPU) tartalmaznak – specializált AI chipeket. Ezek nem képesek nagy LLM-ek futtatására, de kezelik a kis, folyamatos AI-feladatokat: élő átírást, háttér elhomályosítást, helyi Recallúlyú modellek futtatását, mint például a Microsoft Phi-3.

Az NPU-kat TOPS-ban (Tera művelet másodpercenként) értékelik, amely méri, mennyi AI-munkát tudnak kezelni. A legerősebb Copilot+ PC-k 2026-ban ~50 TOPS-t kínálnak. Magasabb TOPS gyorsabb válaszokat és a némileg nagyobb AI-modellek kezelésének képességét jelenti07d18ef069bcf620f925295b0da131ec">A helyi AI-hardver elsődleges előnye nem a teljesítmény – hanem az adatszuverenitás. Amikor az AI-szervere a tűzfalad mögött fut, és nem valaki más felhőjében, akkor az érzékeny adataid soha nem hagyják el az épületet.

9 AI-modellek
Nyílt forráskódú AI-modellek (2026–2027)

Az AI-modell választása dönti el a hardverkövetelményeket – de amint az AI-modell kvantizálás című fejezet bemutatta, a kvantizálás lehetővé teszi, hogy élvonalbeli modellek olyan hardveren fussanak, amely töredékébe kerül a teljes pontosságú üzemeltetés követelményeinek.

Az alábbi táblázat áttekintést nyújt a jelenlegi és közelgő nyílt forráskódú AI-modellekről.

ModellMéretArchitektúraMemória (FP16)Memória (INT4)
Llama 4 Behemoth288B (aktív)MoE (~2T összesen)~4 TB~1 TB
Llama 4 Maverick17B (aktív)MoE (400B összesen)~800 GB~200 GB
Llama 4 Scout17B (aktív)MoE (109B összesen)~220 GB~55 GB
DeepSeek V4~70B (aktív)MoE (671B összesen)~680 GB~170 GB
DeepSeek R137B (aktív)MoE (671B összesen)~140 GB~35 GB
DeepSeek V3.2~37B (aktív)MoE (671B összesen)~140 GB~35 GB
Kimi K2.532B (aktív)MoE (1T összesen)~2 TB~500 GB
Qwen 3.5397B (aktív)MoE (A17B)~1.5 TB~375 GB
Qwen 3-Max-ThinkingNagySűrű~2 TB~500 GB
Qwen 3-Coder-Next480B (A35B aktív)MoE~960 GB~240 GB
Mistral Large 3123B (41B aktív)MoE (675B összesen)~246 GB~62 GB
Ministral 3 (3B, 8B, 14B)3B–14BSűrű~6–28 GB~2–7 GB
GLM-544B (aktív)MoE (744B összesen)~1.5 TB~370 GB
GLM-4.7 (Thinking)NagySűrű~1.5 TB~375 GB
MiMo-V2-Flash15B (aktív)MoE (309B összesen)~30 GB~8 GB
MiniMax M2.5~10B (aktív)MoE (~230B összesen)~460 GB~115 GB
Phi-5 Reasoning14BSűrű~28 GB~7 GB
Phi-414BSűrű~28 GB~7 GB
Gemma 327BSűrű~54 GB~14 GB
Pixtral 2 Large90BSűrű~180 GB~45 GB
Stable Diffusion 4~12BDiT~24 GB~6 GB
FLUX.2 Pro15BDiT~30 GB~8 GB
Open-Sora 2.030BDiT~60 GB~15 GB
Whisper V41,5BSűrű~3 GB~1 GB
Med-Llama 470BSűrű~140 GB~35 GB
Legal-BERT 202635BSűrű~70 GB~18 GB
Finance-LLM 315BSűrű~30 GB~8 GB
CodeLlama 470BSűrű~140 GB~35 GB
Molmo 280BSűrű~160 GB~40 GB
Granite 4.032B (9B aktív)Hibrid Mamba-Transformer~64 GB~16 GB
Nemotron 38B, 70BSűrű~16–140 GB~4–35 GB
EXAONE 4.032BSűrű~64 GB~16 GB
Llama 5 Frontier~1.2T (összesen)MoE~2.~600 GB
Llama 5 Base70B–150BSűrű~140–300 GB~35–75 GB
DeepSeek V5~600B (összesen)MoE~1.2 TB~300 GB
Stable Diffusion 5NBTDiT
Falcon 3200BSűrű~400 GB~100 GB
Stratégiai tanács

Ne a hardvert vegye meg először. Határozza meg az üzleti igényeknek megfelelő modellosztályt, majd alkalmazza a kvantizálást a legköltséghatékonyabb hardverréteg meghatározásához.

A 3 000 USD és 150 000 USD közötti befektetési különbség gyakran a modellméret-követelményeken és az egyidejű felhasználók számán múlik.

Az AI-modell térképet alakító trendek

  • Natív multimodalitás alapértelmezésként. Az új modelleket szövegen, képeken, hangon és videón egyszerre képezik ki – nem külön képességekként, amelyeket a képzés után rákapcsolnak. Ez azt jelenti, hogy egyetlen modell kezeli a dokumentumelemzést, képmegértést és hanginterakciót.
  • Kis modellek, amelyek nagy modell képességeket érnek el. A Phi-5 (14B) és a MiMo-V2-Flash bizonyítja, hogy az architekturális innováció képes a legmodernebb szintű következtetést laptopon futtatható modellekké tömöríteni. A „nagyobb jobb” korszak véget ér.
  • Specializáció a generalizáció helyett. Egyetlen masszív modell helyett mindenre a specializált modellek együttesének irányába mutat a trend – egy kódoló modell, egy következtető modell, egy látómodell – amelyeket egy ügynök-keretrendszer koordinál. Ez csökkenti a modellenkénti hardverkövetelményeket, miközben javítja az általános minőséget.
  • Ügynök AI. Az olyan modellek, mint a Kimi K2.5 és a Qwen 3, arra terveztek, hogy autonóm módon lebontsák az összetett feladatokat, meghívják a külső eszközöket és koordináljanak más modellekkel. Ez az ügynökraj paradigma hosszú munkamenetek alatt tartós átviteli sebességet igényel – előnyben részesítve a nagy sávszélességű hardvereket, mint a GB10 és M5 Ultra.
  • Videó- és 3D-generálás érés. Az Open-Sora 2.0 és FLUX.2 Pro jelezte, hogy a helyi videógenerálás gyakorlati válle válik. 2027-re számíthatunk valós idejű video-szerkesztési asszisztensekre, amelyek munkaállomás-szintű hardveren futnak.

10 Biztonság
Architektúra a maximális biztonságért

A helyi AI-hardver fő előnye nem a teljesítmény – hanem az adatfelség. Amikor az AI-szervered a saját tűzfala mögött fut, mások felhőjében helyett, az érzékeny adataid soha nem hagyják el az épületet.

A Légréses API-architektúra fizikailag elszigeteli az AI-szervert az internettől, miközben engedélyezett alkalmazottak számára hozzáférhetővé teszi egy API-felületen keresztül.

Levegőréses API Architektúra
👤 Alkalmazott Szabványos munkaállomás
🔀 Következtető szerver Auth + UI + Útválasztás
🔒 AI-szerver Levegőréses · Nincs internet
AI-szekrény

Ez az architektúra egy Digitális széfet hoz létre. Még ha a Következtető szerver is veszélybe kerülne, egy támadó csak szöveges lekérdezéseket küldhetne – nem fne hozzá az AI-szerver fájlrendszeréhez, modellsúlyaihoz, finomhangolási adataihoz vagy bármely tárolt dokumentumhoz.

Szüksége van biztonságos AI-telepítésre egyedi AI-megoldásokkal?

Mérnökeink levegőréses AI-architektúrákat terveznek és helyeznek üzembe, biztosítva, hogy az adatok soha ne hagyják el a helyszínt, miközben vállalkozását legmodernebb AI-képességekkel látják el.

Beszéljünk biztonságos AI-architektúráról →

11 Gazdaságosság
A gazdasági ítélet: Helyi vs. felhő

Az átállás a helyi AI-hardverre egy eltolódás az OpEx (üzemi kiadások – havi felhős API díjak) felől a CapEx (tőkeberuházás – egyszeri hardverbefektetés, amely eszközzé válik a mérlegében) felé.

Vegyünk egy jogi céget, amely egy 200B-s modellt futtat szerződések elemzésére:

☁️ Felhős API
~30 ezer EUR
évente (nagymértékben)
1000 szerződés/nap × ~0,01 EUR/1K token × 365 nap. Lineárisan skálázódik a használattal. Az adatok elhagyják a hálózatot.
🖥️ Helyi hardver (DGX Spark)
~4 000 EUR
egyszeri befektetés
+ ~15 EUR/hó villamos energia. Korlátlan használat. Az adatok soha nem hagyják el a LAN-t. Eszköz a mérlegben.

Napi 1000 lekérdezésnél egy DGX Spark kevesebb mint 2 hónap alatt megtérül a felhős API-költségekhez képest. Magasabb használati szinteken a megtérülési idő hetekre rövidül.

A gazdaságosság még kedvezőbbé válik, ha figyelembe vesszük:

  • Több alkalmazott osztozik ugyanazon a hardveren (a DGX Spark 2–5 egyidejű felhasználót szolgál ki)
  • Nincs tokenenkénti díjszabás – a bonyolult, többlépcsős gondolkodást igénylő feladatok sem kerülnek többe
  • Finomhangolás saját adatokon – a legtöbb felhőalapú API-val lehetetlen, helyi hardveren ingyenes
  • Hardverek újraértékesítési értéke – az AI-hardverek jelentős értéket őriznek meg a másodpiacon