NVIDIA DGX Spark — grāmatas izmēra ierīce, kas spēj darbināt 200 miljardu parametru AI modeļ400 miljardus, ja divas ir savienotas) — iezīmē jaunu laikmetu darbvirsmas AI īpašumam.

1 Pamats
Kāpēc lokālā AI? Biznesa pamatojums īpašumam

2020. gadu sākumā mākslīgais intelekts bija pakalpojums, ko noma – pa stundu, pa tokenu, pa API izsaukumu. Līdz 2026. gadam paradigma ir mainījusies. Aparatūra, kas nepieciešama GPT-4 klases intelekta darbināšanai, tagad ietilpst uz jūsu galda un maksā mazāk nekā lietots automobilis.

Turpināta atkarība tikai no mākoņa AI rada stratēģisku trīsdaļīgu problēmu:

  • Kāpjošās izmaksas. API maksa par katru tokenu lineāri palielinās lietam. Juridiskā firma, kas apstrādā 1000 līgumus dienā, var saskarties ar ~30 000 € gada API izmaksām.
  • Datu izpaušana. Katrs vaicājums, kas nosūtīts uz mākoņa API, ir dati, kas atstāj jūsu tīklu un ir pakļauti datu drošības un privātuma riskiem.
  • Nulle vai dārga pielāgošana. Mākoņa modeļi ir vispārīgi. Tos nevar viegli vai izmaksu ziņā efektīvi pielāgot pielāgotiem datiem, iekšējiem biznesa procesiem vai biznesa izlūkošanai.

Vietējā AI aparatūra atrisina visas trīs. Tā pārvērš mainīgās API maksas par fiksētu kapitāla aktīvu, nodrošina, ka dati nekad neatstāj lokālo tīklu, un ļauj padziļinātu pielāgošanu, veicot precizēšanu uz biznesa datiem.

2 Izmaksu samazināšana
Kvantizācija: Darbiniet lielākus AI modeļus uz lētākas aparatūras

Kvantizācija ir koncepts, kas būtiski maina vietējās AI ekonomiku.

Vienkārši sakot, kvantizācija saspiež AI modeļa atmiņas aizņemto vietu. Standarta modelis katru parametru saglabā kā 16 bitu peldošā komata skaitli (FP16). Kvantizācija to samazina līdz 8 bitiem (Int8), 4 bitiem (Int4) vai pat mazāk – ievērojami samazinot modeļa darbināšanai nepieciešamo atmiņas apjomu.

vantizācija rada nelielu izvades kvalitātes samazināšanos – bieži vien nemanāmu biznesa uzdevumiem, piemēram, kopsavilkumiem, uzmetumu sastādīšanai un analīi – apmaiņā pret milzīgu aparatūras izmaksu samazināšanu.

Nepieciešamā atmiņa: 400B AI modelis dažādos precizitātes līmeņos
FP16
Pilna precizitāte
~800 GB
Int8
Puse izmēra
~400 GB
Int4
Ceturtdaļa
~200 GB
FP16 — Maksimālā kvalitāte, maksimālās izmaksas
Int8 — Gandrīz nevainojama kvalitāte, puse no izmaksām
Int4 — Augsta kvalitāte, ceturtdaļa no izmaksām
Biznesa ietekme

400B modelis pilnā precizitātē prasa ~800 GB atmiņas — ~170 tūkst. € servera ieguldījums. Tas pats modelis, kas kvantizēts uz Int4, prasa tikai ~200 GB un var darbināt uz diviem savienotiem DGX Spark (GB10 Superchip bāzētiem) mini-PC par ~8 000 €.

Mixture of Experts (MoE)

Mixture of Experts ir vēl viens AI modeļa arhitektūras triks, kas ļauj izvietot milzīgus modeļus bez milzīgām atmiņas izmaksām.

Tā vietā, lai izmantotu visus parametrus katram jautājumam, MoE modelis aktivizē tikai nelielu daļu no savas jaudas, izmantojot sparse activation (retu aktivizāciju).

2 triljonu parametru MoE modelis, piemēram, Llama 4 Behemoth, aktivizē tikai 288B parametrus katram pieprasījumam — nodrošinot līderīga līmeņa intelektu par daļu no atmiņas izmaksām.

Kompromiss

MoE modeļi ir nedaudz mazāk efektīvi vienkāršos uzdevumos, piemēram, kopsavilkumu veidošanā un klasifikācijā, salīzinot ar tāda paša izmēra blīvajiem modeļiem. Zināšanu darbam un spriešanai, piemēram, kompleksai analīzei, koda ģenerēšanai un pētījumiem, MoE modeļi ir izcili.

Sparse activation (retā aktivizācija) rada ātrāku secinājumu ātrumu un ātr atbildes laikus.

3 Mini-PC
AI mini-PC ~1 500 € – ~10 000 €

HP ZGX Nano AI sievietes rokā

Visvairāk pārkāpjošā 2026. gada attīstība ir augstas jaudas AI skaitļošana mini-PC formā. Ierīces, kas nav lielākas par cietvāka grāmatu, tagad darbina AI modeļus, kuri pirms diviem gadiem prasīja serveru telpas.

NVIDIA GB10 ekosistēma (DGX Spark)

Veiktspējas līderis

NVIDIA logo

NVIDIA DGX Spark ir definējis šo kategoriju. 2026. gadā GB10 Superchip – apvienojot ARM Grace CPU ar Blackwell GPU – ir radījis veselu ekosistēmu. ASUS, GIGABYTE, Dell, Lenovo, HP, MSI un Supermicro visi ražo GB10 bāzētas sistēmas, katra ar atšķirīgu formātu, dzesēšanas risinājumiem un piesaistītu programmatūru.

NVIDIA GB10 ekosistēma ASUS, GIGABYTE, Dell, Lenovo, HP, MSI un Supermicro
No ~4 000 €
Atmiņa
128 GB
LPDDR5X vienotā atmiņa
Skaitļošana
~1 PFLOP
FP8 AI veiktspēja
Tīklošana
10 GbE + Wi-Fi 7
ConnectX klasterizācijai
Krātuve
4 TB SSD
NVMe
Klasterizācija
Jā (2 vienības)
256 GB apvienotā atmiņa
Programmatūra
NVIDIA AI Enterprise
CUDA, cuDNN, TensorRT
NVIDIA DGX Spark
ASUS Ascent GX10
Gigabyte AI TOP ATOM
DGX Quantum Machines combo
MSI EdgeExpert
Lenovo ThinkStation PGX
Dell Pro Max Desktop
NVIDEA DGX Spark
Klasterizācija: 256 GB ietilpība

Savienojot divas GB10 vienības caur īpašo augstā ātruma tīkla portu, sistēma apvieno resursus 256 GB atmiņas telpā. Tas atver iespēju darbināt ļoti lielus modeļus – 400B+ kvantizētus parametrus – pilnībā uz jūsu galda par aptuveni ~8 000 € kopējo aparatūras ieguldījumu.

AMD Ryzen AI Max (Strix Halo) mini-PC

Zemākās izmaksas

AMD Ryzen AI Max+ Strix Halo

AMD Ryzen AI Max+ Strix Halo arhitektūra ir radījusi pilnīgi jaunu budžeta AI mini-PC kategoriju. Ražotāju vilnis – GMKtec, Beelink, Corsair, NIMO, Bosgame, FAVM – tagad piegādā 128 GB vienotas atmiņas sistēmas par mazāk nekā ~2 000 €.

AMD Ryzen AI Max mini-PC GMKtec EVO-X2 · Beelink · Corsair · NIMO AI · Bosgame M5 · FAVM FA-EX9
No ~1 500 €
Atmiņa
128 GB
LPDDR5 koplietota (CPU+GPU)
Skaitļošana
~0.2 PFLOP
Integrēta RDNA 3.5 GPU
Joslas platums
~200 GB/s
Atmiņas joslas platums
Enerģija
~100W
Klusa darbība
Klasterizācija
Tikai atsevišķi
OS
Windows / Linux
ROCm / llama.cpp
GMKtex EVO X2
Bosgame M5 AI
NIMO AI Mini PC
Beelink Mini PC
Beelink Mini PC
Corsair AI Workstation 300 Halo
FAVM FA EX9
GMK Ryzen Strix Halo Mini PC

Apple Mac Studio (M4 Ultra)

Ietilpības līderis

Mac Studio ieņem unikālu pozīciju vietējās AI ainavā. Apple vienotā atmiņas arhitektūra (UMA) nodrošina līdz 256 GB atmiņas, pieejamas gan CPU, gan GPU vienā kompaktā darbvirsmas ierīcē – nav nepieciešama klasterizācija.

Tas padara to par vienīgo pieejamo vienas ierīces risinājumu, kas spēj ielādēt lielākos atvērtā koda modeļus. 400 miljardu parametru modelis, kas kvantizēts uz Int4, pilnībā ietilpst atmiņā 256 GB konfigurācijā.

Apple Mac Studio (M4 Ultra) Vienas ierīces AI ietilpības līderis
No ~4 000 €
Atmiņa
Līdz 256 GB
Vienotā atmiņa (UMA)
Skaitļošana
~0,5 PFLOP
Apple Neural Engine + GPU
Programmatūra
MLX ietvars
Apple optimizēta secināšana
Ierobežojums
Tikai secināšana
Lēna apmācībai/precizēšanai

Apple Mac Studio (M5 Ultra)

Gaidāmais pretendents

Runas, ka Apple nākamās paaudzes M5 Ultra, kuru gaidām 2026. gada beigās, risinās M4 galveno vājību: AI modeļu apmācības veiktspēju. Veidots uz TSMC 2nm procesa, paredzams, ka tas piedāvās konfigurācijas ar līdz 512 GB vienotas atmiņas un joslas platumu, pārsniedzot 1,2 TB/s.

Apple Mac Studio (M5 Ultra) Gaidāmais AI apmācības dzinējspēks
Apt. ~10 000 €
Atmiņa
Līdz 512 GB
Nākamās paaudzes vienotā atmiņa
Skaitļošana
~1.5+ PFLOP
2nm Neural Engine
Programmatūra
MLX 2.0+
Dzimtā apmācības atbalsts
Spējas
Apmācība un secināšana
CUDA alternatīva
Atmiņas joslas platums: 1,2 TB/s ietilpība

512 GB M5 Ultra būtu pirmā patērētāju ierīce, kas spētu darbināt nekvantizētus (pilnā precizitātē) frontālos modeļus. Augstais atmiņas joslas platums 1,2+ TB/s atbalsta aģentu AI darbplūsmas, kurām nepieciešama ilgtspējīga augsta caurlaidspējas secināšana ar ļoti garām konteksta logiem.

Tiiny AI

Kabatas AI superdators

Tiiny AI

2026. gadā Kickstarter platformā izlaists par 1 200 €, Tiiny.ai Kabatas AI dators ir kabatas superdators ar 80GB LGDDR5X atmiņu un 1TB SSD, kas atbalsta 120B AI modeļu lokālu darbināšanu jebkur.

Ar 300 gramu svaru (142×22×80mm) un darbināts ar standarta USB-C, tas atbalsta inovatīvas biznesa lietojumprogrammas. Tiiny AI ziņo par izvades ātrumu 21,14 tokeni sekundē GPT-OSS-120B.

Tiiny Pocket AI Computer
Tiiny Pocket AI Computer
Tiiny Pocket AI Computer
Tiiny Pocket AI Computer

Tenstorrent

Atvērtā koda aparatūra

Tenstorrent

Vadīta leģendārā čipu arhitekta Džima Kellera, Tenstorrent pārstāv principiāli atšķirīgu filozofiju: atvērtā koda aparatūra, balstīta uz RISC-V, atvērtā koda programmatūra un modulāra mērogošanās, izmantojot ķēdes savienojumu (daisy-chaining).

Tensix AI kodoli ir veidoti lineārai mērogošanai: atšķirībā no GPU, kuriem rodas grūtības ar komunikācijas pieslodzi, pievienojot vairāk kartes, Tenstorrent čipi ir veidoti efektīvai flīzēšanai.

Sadarbībā ar Razer, Tenstorrent ir izlaidis kompaktu ārējo AI paātrinātāju, kas savienojas ar jebkuru klēpjdatoru vai galda datoru, izmantojot Thunderbolt – pārveidojot esošo aparatūru par AI darbstaciju, neko nemainot.

Razer × Tenstorrent kompaktais AI paātrinātājs Ārējais Thunderbolt AI paātrinātājs
Cena Nezināma
Atmiņa katrā kastē
12 GB
GDDR6
Chips
Wormhole n150
Tensix kodoli · RISC-V
Mērogošanās
Ldz 4 vienībām
48 GB AI jauda
Programmatūra
Pilnībā atvērtā koda
GitHub · TT-Metalium
Razer × Tenstorrent AI Accelerator
Razer × Tenstorrent AI Accelerator
Razer × Tenstorrent AI Accelerator
Razer × Tenstorrent AI Accelerator

AI NAS — Tīkla pievienotā krātuve

Krātuve + AI

NAS definīcija ir pārvērtusies no pasīvas krātuves uz aktīvu intelektu. Jauna paaudze tīkla krātuves ierīču integrē AI apstrādi tieši – no vieglas NPU bāzētas secināšanas līdz pilnīgai GPU paātrinātai LLM izvietošanai.

AI-spējīga NAS novērš nepieciešamību pēc atsevišķa AI ierīces un ļauj tieši apstrādāt lielākus datu apjomus bez tīkla pārraides aizkaves.

QNAP AI NAS
Ugreen DXP4800 Pro
OmniCore AI NAS
Zetlab AI NAS

Vajadzīga palīdzība izvēlēties pareizo AI mini-datoru jūsu uzņēmumam?

Mūsu inženieri var novērtēt jūsu AI aparatūras prasības un izvietot pilnībā konfigurētu AI sistēmu.

Saņemiet bezmaksas aparatūras novērtējumu →

4 Darbstacijas
AI darbstacijas un galddatori 2 500 € – 12 500 €

Darbstaciju kategorija izmanto diskrētas PCIe grafikas kārtis un standarta torņa korpusus. Atšķirībā no mini-datoru kategorijas fiksētām vienotajām arhitektūrām, šī kategorija piedāvā modularitāti — jūs varat jaunināt atsevišķas komponentes, pievienot vairāk GPU vai mainīt kārtis, tehnoloģijai attīstoties.

Divu RTX A6000 darbstacija ar NVLink tiltu piedāvā 96 GB kopējā VRAM atmiņu aptuveni par 5 900 €.

VRAM pret ātrumu izpratne

Divus konkurējošus faktorus nosaka GPU izvēle AI:

📦
VRAM ietilpība
Nosaka ielādējamā modeļa lielumu. Vairāk VRAM nozīmē lielākus, spējīgākus modeļus. Šis ir jūsu intelekta augstākais līmenis.
Aprēķinu ātrums
Nosaka, cik ātri modelis reaģē. Augstāks aprēķinu ātrums nozīmē zemāku aizkavi katram vaicājumam. Šī ir jūsu lietotāja pieredze.

Patērētāju kārtis (piemēram, RTX 5090) maksimāli palielina ātrumu, bet piedāvā ierobežotu VRAM — parasti 24–32 GB. Profesionālās kārtis (piemēram, RTX PRO 6000 Blackwell) maksimāli palielina VRAM — līdz 96 GB vienā kartē — bet maksā vairāk par aprēķinu vienību.

VRAM ir ierobežojošais faktors. Ātra karte ar nepietiekamu atmiņu nevar ielādēt AI modeli vispār. Lēnāka karte ar pietiekamu atmiņu darbina modeli — tikai ar ilgākiem atbildes laikiem.

Patērētāju GPU

KonfigurācijaKopējais VRAMSavienošanaApt. izmaksas
2× RTX 3090 (lietots)48 GBNVLink2 500 €
2x RTX 409048 GBPCIe Gen 53 400 €
2× RTX 509064 GBPCIe Gen 55 900 €

Profesionālie GPU

KonfigurācijaKopējais VRAMSavienošanaApt. izmaksas
2× RTX 6000 Ada96 GBPCIe Gen 511 000 €
1× RTX PRO 6000 Blackwell96 GBNVLink6 800 €
4× RTX PRO 6000 Blackwell384 GBPCIe Gen 527 100 €

Datu centru GPU

KonfigurācijaKopējais VRAMSavienošanaApt. izmaksas
1× L40S48 GBPCIe 4.0 (pasīvā dzesēšana)5 900 €
1× A100 PCIe80 GBPCIe 4.08 500 €
1× H200 NVL141 GBNVLink25 400 €
4× H200 NVL564 GBNVLink101 700 €
1× B200 SXM180 GBNVLink 5 (1,8 TB/s)25 400 €
8× B200 SXM1,440 GBNVLink 5 (1,8 TB/s)203 400 €

Ķīnas GPU

Ķīnas vietējais GPU ekosistēma ir strauji nobriedusi. Vairāki ķīniešu ražotāji tagad piedāvā darbstaciju klases AI GPU ar konkurētspējīgām specifikācijām un ievērojami zemākām cenām.

KonfigurācijaKopējais VRAMAtmiņas veidsApt. izmaksas
1× Moore Threads MTT S400048 GBGDDR6700 €
4× Moore Threads MTT S4000192 GBGDDR63 000 €
8× Moore Threads MTT S4000384 GBGDDR65 500 €
1× Hygon DCU Z10032 GBHBM22 100 €
1× Biren BR10432 GBHBM2e2 500 €
8× Biren BR104256 GBHBM2e20 300 €
1× Huawei Ascend Atlas 300I Duo96 GBHBM2e1 000 €
8× Huawei Ascend Atlas 300I Duo768 GBHBM2e8 500 €

Gaidāmi

KonfigurācijaKopējais VRAMStatussApt. izmaksas
RTX 5090 128 GB128 GBĶīnas mod. — nav standarta SKU4 200 €
RTX Titan AI64 GBParedzēts 2027. gadā2 500 €
4x NVIDIA RTX PRO 6000 Blackwell
4x NVIDIA RTX PRO 6000 Blackwell
MSI NVIDIA RTX PRO 6000 Blackwell Server
NVIDIA RTX 5090
NVIDIA DGX Station — ūdeni dzesēts “datu centrs uz galda”, kas tiek pieslēgts parastā kontaktligzdā.

NVIDIA DGX Station

Uzņēmumu Apex

NVIDIA DGX Station ir ūdeni dzesēta, pie galda superdatora, kas datu centra veiktspēju ienes biroja vidē. Jaunākā versija izmanto GB300 Grace Blackwell Superchip.

NVIDIA DGX Station GB300 Nākotnes drošs Ultra
Apt. cena ~170 tūkst. €

Blackwell Ultra versija palielina atmiņas blīvumu un aprēķinu jaudu, paredzēta organizācijām, kurām nepieciešams apmācīt pielāgotus modeļus no nulles vai lokāli darbināt masīvas MoE (Mixture of Experts) arhitektūras.

Atmiņa
~1,5 TB+
HBM3e (ultraātra)
Skaitļošana
~20+ PFLOPS
FP8 AI veiktspēja
Lietošanas gadījums
Pielāgota apmācība
Modeļu izstrāde
Enerģija
Standarta kontaktligzda
Nav nepieciešama serveru telpa
NVIDIA DGX Station GB300 Blackwell Ultra
ASUS ExpertCenter Pro DGX GB300
MSI XpertStation WS300
NVIDIA DGX Station GB300 Blackwell Ultra
NVIDIA DGX Station A100 Pieejams AI darba zirgs
No ~85 tūkst. €

Lai gan balstīts uz iepriekšējās paaudzes Ampere arhitektūru, tas paliek nozares standarts uzticamai secināšanai un precizēšanai. Ideāli piemērots komandām, kas ienāk AI jomā bez budžeta Blackwell.

Atmiņa
320 GB
4x 80GB A100 GPU
Skaitļošana
2 PFLOPS
FP16 AI veiktspēja
Vairāki lietotāji
5–8 vienlaicīgi
Vidēja paralēlā apstrāde
Enerģija
Standarta kontaktligzda
Nav nepieciešama serveru telpa

Lai arī dārgs, DGX Station aizstāj ~300 tūkst. € serveru skapi un tam pievienoto dzesēšanas infrastruktūru. Tas pieslēdzas pie standarta sienas kontaktligzdas. Tas pilnībā novērš serveru telpas pieskaitāmās izmaksas.

Vajadzīga palīdzība izvēlēties pareizo AI darbstaciju jūsu uzņēmumam?

Mūsu inženieri var novērtēt jūsu AI aparatūras prasības un izvietot pilnībā konfigurētu AI sistēmu.

Saņemiet bezmaksas aparatūras novērtējumu →

5 Serveri
AI serveri 15 000 € – 170 tūkst. €

Kad jūsu uzņēmumam ir nepieciešams apkalpot daudzus darbiniekus vienlaicīgi, darbināt pamatklases modeļus pilnā precizitātē vai precizēt pielāgotus modeļus uz privātiem datiem — jūs nonākat serveru līmenī.

Šī ir specializētu AI paātrinātāju karšu ar augstas joslas platuma atmiņu (HBM), specializētiem savienojumiem un plauktā montējamiem vai pie galda formatiem joma. Aparatūra ir dārgāka, bet izmaksas par lietotāju krasi samazinās lielos apjomos.

Intel Gaudi 3

Labākā cena/veiktspēja lielos apjomos

Intel Gaudi 3 paātrinātājs tika izstrādāts no pamatiem kā AI apmācības un secināšanas mikroshēma — nevis pārveidota grafikas karte. Katra karte nodrošina 128 GB HBM2e atmiņu ar integrētu 400 Gb Ethernet tīkla savienojamību, novēršot nepieciešamību pēc atsevišķiem tīkla adapteriem.

Gaudi 3 ir pieejams divos formātos:

  • PCIe karte (HL-338): Standarta PCIe formāts integrācijai esošos serveros. Paredzamā cena: apmēram 12 000 € par karti.
  • OAM (OCP Accelerator Module): Augsta blīvuma OCP standarts mākoņa datu centriem. 13 200 € par mikroshēmu, iegādājoties 8 mikroshēmu komplektos (~125 000 € kopā ar pamatplati).

8 karšu Gaudi 3 serveris nodrošina 1 TB kopējās AI atmiņas par daudz zemākām izmaksām nekā salīdzināms NVIDIA H100 sistēma.

💾
Atmiņa vienā kartē
128 GB
HBM2e — atbilst DGX Spark vienā kartē
8 karšu kopējā atmiņa
1 TB
1,024 GB kopējā atmiņa lielākajiem modeļiem
💰
Sistēmas izmaksas
~170 tūkst. €
Lētāks nekā salīdzināma NVIDIA H100 konfigurācija
Intel Gaudi 3 Baseboard HLB 325
Intel Gaudi 3 PCI card
Dell Intel Gaudi 3 server
Gigabyte Intel Gaudi 3 server

AMD Instinct MI325X

Maksimālais blīvums

AMD Instinct MI325X katrā kartē ietilpst 256 GB HBM3e atmiņas — divreiz vairāk nekā Intel Gaudi 3. Lai sasniegtu 1 TB kopējās AI atmiņas, nepieciešamas tikai 4 kārtis, salīdzinot ar 8 kārtīm Intel.

💾
4 karšu kopējā atmiņa
1 TB
Puse no Intel karšu skaita tādai pašai ietilpībai
Joslas platums
6 TB/s
Vienā kartē — ļauj vienlaicīgus lietotājus
💰
Sistēmas izmaksas
~200 tūkst. €
Ieejas izmaksas ar 1 karti ~60 tūkst. €
AMD Instinct MI325X server
Supermicro AMD Instinct MI325X server
AMD Instinct MI325X server
ASUS AMD Instinct MI325X server

MI325X ir dārgāka par sistēmu nekā Gaudi 3, bet ātrāka un kompaktāka. Darba slodzēm, kas pieprasa maksimālu caurlaidi — reāllaika secināšanu lielākam lietotāju skaitam vai pielāgotu modeļu apmācību uz lieliem datu kopām — augstākais ieguldījums atmaksājas ar samazinātu aizkavi un vienkāršāku infrastruktūru.

Huawei Ascend

Pilna steka alternatīva

Huawei

Huawei ir reproducējis pilnu AI infrastruktūras steku: pielāgotas mikroshēmas (Ascend910B/C), patentētus savienojumus (HCCS) un pilnīgu programmatūras ietvaru (CANN). Rezultāts ir patstāvīgs ekosistēms, kas darbojas neatkarīgi no Rietumu piegāžu ķēdēm un par daudz zemākām izmaksām nekā salīdzināmi NVIDIA H100 klasteri.

Huawei Atlas
Huawei Ascend AI family
Huawei Atlas 300
Huawei Atlas 800i Ascend 910c

Intel Xeon 6 (Granite Rapids)

Budžeta servers

Klusā revolūcija 2026. gadā ir CPU balstītas AI secināšanas pieaugums. Intel Xeon 6 procesori ietver AMX (Advanced Matrix Extensions), kas ļauj AI darba slodzes uz standarta DDR5 RAM — kas ir ievērojami lētāks nekā GPU atmiņa.

Kompromiss

Divu ligzdas Xeon 6 servers var saturēt 1 TB līdz 4 TB DDR5 RAM par daļu no GPU atmiņas izmaksām. Secināšanas ātrums ir lēns, bet partijas apstrādei — kur ātrums nav svarīgs, bet intelekts un ietilpība ir galvenais — tas ir revolucionārs.

Piemērs: MVU naktī augšupielādē 100 000 skenētu rēķinu. Xeon 6 servers darbina +400B AI modeli, lai perfekti iegūtu datus. Uzdevums aizņem 10 stundas, bet aparatūras izmaksas ir daudz zemākas nekā GPU serverim.

Vajadzīga palīdzība izvēlēties pareizo AI serveru infrastruktūru?

Mūsu infrastruktūras komanda izstrādā un izvieto pilnīgus AI serveru risinājumus — no Intel Gaudi līdz NVIDIA DGX — apvienojot ar pielāgotu programmatūru — lai atbloķētu AI iespējas jūsu uzņēmumam.

Pieprasīt servera arhitektūras priekšlikumu →

6 Edge AI
Edge AI & Retrofit Esošās infrastruktūras modernizācija

Ne katram MVU uzņēmumam ir nepieciešams dedikēts AI serveris vai mini-dators. Daudzi var iebūvēt inteliģenci esošajā infrastruktūrā — modernizējot klēpjdatorus, galda datorus un tīkla ierīces ar AI iespējām par minimālām izmaksām.

M.2 AI paātrinātāji: Hailo-10

Hailo-10 ir standarta M.2 2280 modulis — tā pati lig, ko izmanto SSD disk kas pievieno dedikētu AI apstrādi jebkuram esošam datoram. Par ~~150 € par vienību un patērējot tikai 5–8W jaudu, tas ļauj veikt visu flotes AI modernizāciju bez aparatūras nomaiņas.

📎
Formfaktors
M.2 2280
Ietilpst jebkurā standarta SSD ligzdā
Veiktspēja
20–50 TOPS
Optimizēta edge inferencēm
💰
Izmaksas
~150 €
Par vienību — flotes modernizācija zem ~3 000 €

Lietojuma piemēri: Vietējā sanāksmju transkripcija (Whisper), reāllaika subtitri, balss diktiēšana, mazu modeļu inference (Phi-3 Mini). Šīs kartes nevar palaist lielus LLM, taču tās lieliski veic konkrētus, nepārtrauktus AI uzdevumus — nodrošinot, ka dati tiek apstrādāti lokāli un nekad netiek nosūtīti uz mākoņu.

Copilot+ datori (NPU klēpjdatori)

Portatīvie datori ar Qualcomm Snapdragon X Elite, Intel Core Ultra vai AMD Ryzen AI mikroshēmām satur specializētas Neironu Apstrādes Vienības (NPU) — specializētas AI mikroshēmas. Tās nespēj darbināt lielus LLM, bet tās apstrādā mazus, pastāvīgus AI uzdevumus: tiešraides transkripciju, fona izplūšanu, lokālas Recall funkcijas un vieglo modeļu darbināšanu, piemēram, Microsoft Phi-3.

NPU tiek vērtētas TOPS (Tera Operācijas Sekundē), kas mēra, cik daudz AI darba tās var apstrādāt. Spēcīgākie Copilot+ datori 2026. gadā ir ~50 TOPS. Augstāks TOPS nozīmē ātrākas atbildes un spēju apstrādāt nedaudz lielākus AI modeļus.

9 AI modeļi
Atvērtā koda AI modeļi (2026–2027)

AI modeļa izvēle nosaka aparatūras prasības — taču kā nodaļā par AI modeļu kvantizāciju tika parādīts, kvantizācija ļauj vadošās klases modeļiem darboties uz aparatūras, kuras izmaksas ir daļa no pilnās precizitātes izvietošanas prasībām.

Zemāk esošā tabula sniedz pārskatu par pašreizējiem un gaidāmajiem atvērtā koda AI modeļiem.

ModelisIzmērsArhitektūraAtmiņa (FP16)Atmiņa (INT4)
Llama 4 Behemoth288B (aktīvs)MoE (~2T kopā)~4 TB~1 TB
Llama 4 Maverick17B (aktīvs)MoE (400B kopā)~800 GB~200 GB
Llama 4 Scout17B (aktīvs)MoE (109B kopā)~220 GB~55 GB
DeepSeek V4~70B (aktīvs)MoE (671B kopā)~680 GB~170 GB
DeepSeek R137B (aktīvs)MoE (671B kopā)~140 GB~35 GB
DeepSeek V3.2~37B (aktīvs)MoE (671B kopā)~140 GB~35 GB
Kimi K2.532B (aktīvs)MoE (1T kopā)~2 TB~500 GB
Qwen 3.5397B (aktīvs)MoE (A17B)~1.5 TB~375 GB
Qwen 3-Max-ThinkingLielsBlīvs~2 TB~500 GB
Qwen 3-Coder-Next480B (A35B aktīvs)MoE~960 GB~240 GB
Mistral Large 3123B (41B aktīvs)MoE (675B kopā)~246 GB~62 GB
Ministral 3 (3B, 8B, 14B)3B–14BBlīvs~6–28 GB~2–7 GB
GLM-544B (aktīvs)MoE (744B kopā)~1.5 TB~370 GB
GLM-4.7 (Thinking)LielsBlīvs~1.5 TB~375 GB
MiMo-V2-Flash15B (aktīvs)MoE (309B kopā)~30 GB~8 GB
MiniMax M2.5~10B (aktīvs)MoE (~230B kopā)~460 GB~115 GB
Phi-5 Reasoning14BBlīvs~28 GB~7 GB
Phi-414BBlīvs~28 GB~7 GB
Gemma 327BBlīvs~54 GB~14 GB
Pixtral 2 Large90BBlīvs~180 GB~45 GB
Stable Diffusion 4~12BDiT~24 GB~6 GB
FLUX.2 Pro15BDiT~30 GB~8 GB
Open-Sora 2.030BDiT~60 GB~15 GB
Whisper V41.5BBlīvs~3 GB~1 GB
Med-Llama 470BBlīvs~140 GB~35 GB
Legal-BERT 202635BBlīvs~70 GB~18 GB
Finance-LLM 315BBlīvs~30 GB~8 GB
CodeLlama 470BBlīvs~140 GB~35 GB
Molmo 280BBlīvs~160 GB~40 GB
Granite 4.032B (9B aktīvs)Hibrīda Mamba-Transformers~64 GB~16 GB
Nemotron 38B, 70BBlīvs~16–140 GB~4–35 GB
EXAONE 4.032BBlīvs~64 GB~16 GB
Llama 5 Frontier~1.2T (kopā)MoE~2.4 TB~600 GB
Llama 5 Base70B–150BBlīvs~140–300 GB~35–75 GB
DeepSeek V5~600B (kopā)MoE~1.2 TB~300 GB
Stable Diffusion 5Nākotnē noteiktsDiT
Falcon 3200BBlīvsGB~100 GB
Stratēģiskie ieteikumi

Neiegādājieties vispirms aparatūru. Identificējiet modeļa klasi, kas atbilst jūsu biznesa vajadzībāmēc tam pielietojiet kvantizāciju, lai noteiktu ekonomiskāko aparatūras līmeni.

Atšķirība starp 2 500 € un 127 100 € ieguldījumu bieži vien ir atkarīga no modeļa izmēra prasībām un vienlaicīgo lietotāju skaita.

Tendences, kas veido AI modeļu ainavu

  • Dzimtā multimodalitāte kā standarts. Jaunie modeļi tiek apmācīti uz teksta, attēliem, audio un video vienlaicīgi — nevis kā atsevišķas spējas, kas pievienotas pēc apmācības. Tas nozīmē, ka viens modelis apstrādā dokumentu analīzi, attēlu izpratni un balss mijiedarbību.
  • Mazie modeļi sasniedz lielo modeļu spējas. Phi-5 (14B) un MiMo-V2-Flash parāda, ka arhitektūras inovācija var saspiest vadošā līmeņa spējas modeļos, kas darbojas uz klēpjdatora. "Lielāks ir labāks" ēra beidzas.
  • Specializācija pāri vispārināšanai. Tā vietā, lai būtu viens milzīgs modelis visam, tendence ir virzīta uz specializētu modeļu ansambļiem — kodēšanas modeli, spriešanas modeli, redzes modeli — ko organizē aģentu sistēma. Tas samazina aparatūras prasības katram modelim, vienlaikus uzlabojot kopējo kvalitāti.
  • Aģentiskā AI. Modeļi kā Kimi K2.5 un Qwen 3 ir veidoti, lai autonomi sadalītu sarežģītus uzdevumus, izsauktu ārējos rīkus un koordinētos ar citiem modeļiem. Šī aģentu bara paradigma prasa ilgstošu caurlaidi garās sesijās — dodot priekšroku augstas joslas platuma aparatūrai, piemēram, GB10 un M5 Ultra.
  • Video un 3D ģenerēšana nobriest. Open-Sora 2.0 un FLUX.2 Pro norāda, ka vietējā video ģenerēšana kļūst praktiska. Līdz 2027. gadam sagaidiet reāllaika video rediģēšanas palīgus, kas darbojas uz darbstaciju klases aparatūras.

10 Drošība
Arhitektūra maksimālai drošībai

Galvenā vietējās AI aparatūras priekšrocība nav veiktspēja — tā ir datu suverenitāte. Kad jūsu AI serveris darbojas aiz jūsu ugunsmūra, nevis kāda cita mākonī, jūsu jutīgie dati nekad neatstāj jūsu ēku.

Air-Gapped API arhitektūra fiziski izolē AI serveri no interneta, vienlaikus padarot to pieejamu autorizētiem darbiniekiem caur API saskarni.

Air-Gapped API arhitektūra
👤 Darbinieks Standarta darbvieta
🔀 Broker Serveris Auth + UI + Maršrutēšana
🔒 AI Serveris Air-gapped · Bez interneta
AI Seifs

Šī arhitektūra izveido Digitālo seifu. Pat ja Broker Serveris tiktu kompromitēts, uzbrucējs varētu tikai nosūtīt teksta vaicājumus — viņi nevarētu piekļūt AI servera failu sistēmai, modeļa svaru datiem, pielāgošanas datiem vai jebkuriem glabātiem dokumentiem.

Vajag drošu AI izvietošanu ar pielāgotiem AI risinājumiem?

Mūsu inženieri projektē un izvieto air-gapped AI arhitektūras, nodrošinot, ka dati nekad neatstāj telpas, vienlaikus nodrošinot jūsu uzņēmumam modernākās AI iespējas.

Apspriest drošu AI arhitektūru →

11 Ekonomika
Ekonomiskais spriedums: lokālais vs. mākonis

Pāreja uz vietējo AI aparatūru ir pāreja no OpEx (operacionālajiem izdevumiem — ikmēneša mākoņu API maksām) uz CapEx (kapitālieguldījumiem — vienreizēju aparatūras ieguldījumu, kas kļūst par aktīvu jūsu bilancē).

Apsveriet juridiskā firma, kas darbina 200B modeli, lai analizētu līgumus:

☁️ Mākoņu API
~30 000 €
gadā (lielā mērogā)
1000 līgumu/dienā × ~0,01 €/1K tokeniem × 365 dienas. Lineāri mērogojas ar lietojumu. Dati atstāj tīklu.
🖥️ Vietējā aparatūra (DGX Spark)
~4 000 €
vienreizējs ieguldījums
+ ~15 €/mēnesī elektrībai. Neierobežots lietojums. Dati nekad neatstāj LAN. Aktīvs bilancē.

Ar 1000 pieprasījumiem dienā, DGX Spark atmaksā sevi mazāk kā 2 mēnešu laikā, salīdzinot ar mākoņa API izmaksām. Augstāka lietojuma līmeņos, līdzsvara periods samazinās līdz nedēļām.

Ekonomiskie ieguvumi kļūst vēldevīgāki, ja ņem vērā:

  • Vairāki darbinieki, kas izmanto vienu un to pašu aparatūru (DGX Spark apkalpo 2–5 vienlaicīgus lietotājus)
  • Nav maksas par tokenu — sarežģītiem, daudzpakāpju spriešanas uzdevumiem nav papildu izmaksu
  • Pielāgošana privātdatiem — neiespējama ar lielāko daļu mākoņu API, bezmaksas uz vietējās aparatūras
  • Aparatūras pārdošanas vērtība — AI aparatūra saglabā nozīmīgu vērtību sekundārajā tirgū