NVIDIA DGX Spark – uređaj veličine knjige koji može pokretati AI modele s 200 milijardi parametara (400 milijardi kada povezana) – predstavlja novu eru vlasništva nad AI radnim stanicama>
API naknade po tokenu skaliraju se linearno s upotrebom. Odvjetnički ured koji obrađuje 1.000 ugovora dnevno može suočiti s %1$s godišnjih APIova.
Potrebna memorija: 400B AI model pri različitim razinama preciznosti
400B model s punom preciznošć800 GB memorije – server investicija od %1$s. Isti model kvantiziran na Int4 zahtijeva samo ~200 GB i može raditi na dva povezana DGX Spark (temeljena na GB10 Superchip) mini-računala za %2$s.
Mixture of Experts (MoE)

1 Temelj
Zašto lokalna AI? Poslovni argument za vlasništvo

Početkom 2020-ih, umjetna inteligencija bila je usluga koju ste iznajmljivali – po satu, po tokenu, po API pozivu. Do 2026. paradigma se promijenila. Hardver potreban za pokretanje inteligencije GPT-4 klase sada stane na vaš radni st i košta manje od rabljenog automobila.

Kontinuirano oslanjanje isključivo na AI u oblaku predstavlja strateški trilema:

  • Rastući troškovi. API naknade po tokenu skaliraju se linearno s upotrebom. Odvjetnički ured koji obrađuje 1.000 ugovora dnevno može suočiti s ~30.000 EUR godišnjih APIova.
  • Izloženost podataka. Svaki upit poslan cloud API-ju podatak je koji napušta vašu mrežu i izložen je rizicima sigurnosti i privatnosti podataka.
  • Nema ili skupa prilagodba. Cloud modeli su generički. Ne mogu se lako ili isplativo fino podesiti na prilagođene podatke, interne poslovne procese ili poslovnu inteligenciju.

Lokalni AI hardver rješava sva tri problema. Pretvara varijabilne API naknade u fiksnu kapitalnu iminu, osigurava da podaci nikada ne napuštaju LAN i omogućuje duboku prilagodbu kroz fino podešavanje na poslovnim podacima.

2 Smanjenje troškova
Kvantizacija: Pokrenite veće AI modele na jeftinijem hardveru

Kvantizacija je koncept koji temeljno mijenja ekonomiku lokalnog AI-a.

Jednostavno rečeno, kvantizacija smanjuje memorijski otisak AI modela. Standardni model pohranjuje svaki parametar kao 16-bitni broj s pomičnim zarezom (FP16). Kvantizacija to smanjuje na 8-bitni (Int8), 4-bitni (Int4) ili čak niže — drastično smanjujući količinu memorije potrebne za pokretanje modela.

Kvantizacija rezultira blagim smanjenjemitete izlaza – često neprimjetnim za poslovne zadatke poput sažimanja, izrade nacrta i analize – u zamjenu za ogromno smanjenje hardverskih troškova.

Potrebna memorija: 400B AI model pri različitim razinama preciznosti
FP16
Puna preciznost
~800 GB
Int8
Upola manja veličina
~400 GB
Int4
Četvrtina
~200 GB
FP16 – Maksimalna kvaliteta, maksimalni trošak
Int8 – Gotovo savršena kvaliteta, upola manji trošak
Int4 — Visoka kvaliteta, četvrtina troškova
Poslovni utjecaj

400B model s punom preciznošć800 GB memorije – server investicija od ~170 tis. EUR. Isti model kvantiziran na Int4 zahtijeva samo ~200 GB i može raditi na dva povezana DGX Spark (temeljena na GB10 Superchip) mini-računala za ~8.000 EUR.

Mješavina stručnjaka (MoE)

Mješavina stručnjaka je još jedan trik u arhitekturi AI modela koji omogućuje implementaciju masivnih modela bez ogromnih troškova memorije.

Umjesto korištenja svih parametara za svaki upit, MoE model aktivira samo dio svojih kapaciteta putem rijetke aktivacije.

MoE model s 2 bilijuna parametara poput Llama 4 Behemoth aktivira samo 288B parametara po upitu – pružajući vrhunsku inteligenciju uz djelić memorijskih troškova.

Kompromis

MoE modeli su nešto manje učinkoviti u jednostavnim zadacima poput sažimanja i klasifikacije u usporedbi s gustim modelima iste veličine. Za rad s znanjem i zaključivanje poput složene analize, generiranja koda i istraživanja, MoE modeli briljiraju.

Rijetka aktivacija rezultira bržom brzinom zaključivanja i bržim vremenom odgovora.

3 Mini računala
AI mini računala 11.000 kn - 75.000 kn

HP ZGX Nano AI na ženskojci

Najrevolucionarniji razvoj 2026. je AI računanje velikog kapaciteta u faktoru oblika mini računala. Uređaji ne veći od tvrdog uveza sada pokreću AI modele koji su prije dvije godine zahtijevali sobe za poslužitelje.

Ekosustav NVIDIA GB10 (DGX Spark)

Lider u performansama

NVIDIA logo

NVIDIA DGX Spark definirao je ovu kategoriju. U 2026., GB10 Superchip – koji kombinira ARM Grace CPU s Blackwell GPU-om – iznjedrio je cijeli ekosustav. ASUS, GIGABYTE, Dell, Lenovo, HP, MSI i Supermicro svi proizvode sustave temeljene na GB10 svaki s različitim faktorima oblika, rashladnim rješenjima i priloženim softverom.

Ekosustav NVIDIA GB10 ASUS, GIGABYTE, Dell, Lenovo, HP, MSI i Supermicro
Od ~4.000 EUR
Memorija
128 GB
LPDDR5X Unified
Računska snaga
~1 PFLOP
FP8 AI performanse
Umrežavanje
10 GbE + Wi-Fi 7
ConnectX za klasteriranje
Pohrana
4 TB SSD
NVMe
Klasteriranje
Da (2inice)
256 GB zajedničke memorije
Softver
NVIDIA AI Enterprise
CUDA, cuDNN, TensorRT
NVIDIA DGX Spark
ASUS Ascent GX10
Gigabyte AI TOP ATOM
DGX Quantum Machines combo
MSI EdgeExpert
Lenovo ThinkStation PGX
Dell Pro Max Desktop
NVIDEA DGX Spark
Klasteriranje: Kapacitet 256 GB

Povezivanjem dviju GB10 jedinica preko namjenskog mrežnog priključka velike brzine, sustav objedinjuje resurse u 256 GB memorijski prostor. To omogućuje pokretanje vrlo velikih modela — 400B+ kvantiziranih parametara — u potpunosti na vašem stolu uz ukupnu hardversku investiciju od približno ~8.000 EUR.

AMD Ryzen AI Max (Strix Halo) mini računala

Najniži trošak

AMD Ryzen AI Max+ Strix Halo

AMD-ova Ryzen AI Max+ Strix Halo arhitektura iznjedrila je potp novu kategoriju proračunskih AI mini računala. Val proizvođača – GMKtec, Beelink, Corsair, NIMO, Bosgame, FAVM – sada isporučuje sustave s 128 GB objedinjene memorije za manje od ~2.000 EUR.

AMD Ryzen AI Max mini računala GMKtec EVO-X2 · Beelink · Corsair · NIMO AI · Bosgame M5 · FAVM FA-EX9
Od ~1.500 EUR
Memorija
128 GB
LPDDR5 zajednička (CPU+GPU)
Računska snaga
~0.2 PFLOP
Integrirani RDNA 3.5 GPU
Propusnost
~200 GB/s
Propusnost memorije
Snaga
~100W
Tihi rad
Klasteriranje
Ne
Samo samostalno
OS
Windows / Linux
ROCm / llama.cpp
GMKtex EVO X2
Bosgame M5 AI
NIMO AI Mini PC
Beelink Mini PC
Beelink Mini PC
Corsair AI Workstation 300 Halo
FAVM FA EX9
GMK Ryzen Strix Halo Mini PC

Apple Mac Studio (M4 Ultra)

Lider u kapacitetu

Mac Studio zauzima jedinstvenu poziciju u lokalnom AI krajoliku. Apple-ova Unified Memory Architecture (UMA) pruža do 256 GB memorije dostupne i CPU-u i GPU-u u jednoj, kompaktnoj desktop jedinici bez potrebe za klasteriranjem.

To ga čini jedinim pristupačnim pojedinačnim uređajem sposobnim učitati najveće modele otvorenog koda. Model sa 400 milijardi parametara kvantiziran na Int4 u potpunosti stane u memoriju u konfiguraciji od 256 GB.

Apple Mac Studio (M4 Ultra) Lider u AI kapacitetu u jednoj jediniciDo 256 GB
Od ~4.000 EUR
Memorija
Do 256 GB
Unified Memory (UMA)
Računska snaga
~0.5 PFLOP
Apple Neural Engine + GPU
Softver
MLX Framework
Inferenca optimizirana za Apple
Ograničenje
Samo inferenca
Sporo za treniranje/fino podešavanje

Apple Mac Studio (M5 Ultra)

Nadolazeći kandidat

Apple-ova sljedeća generacija M5 Ultra, očekivana krajem 2026., navodno će riješiti glavnu slabost M4: performanse treniranja AI modela. Izrađen na TSMC-ovom 2nm procesu, očekuje se da će nuditi konfiguracije do 512 GB objedinjene memorije s propusnošću većom od 1,2 TB/s.

Apple Mac Studio (M5 Ultra) Očekivani AIj za treniranje
Proc. ~10.000 EUR
Memorija
Do 512 GB
Unified Memory sljedeće generacije
Računska snaga
~1.5+ PFLOP
2nm Neural Engine
Softver
MLX 2.0+
Izvorna podrška za treniranje
Mogućnosti
Treniranje i inferenca
CUDA alternativa
Propusnost memorije: Kapacitet 1,2 TB/s

512 GB M5 Ultra bio bi prvi potšački uređaj sposoban pokretati nekvatizirane (pune preciznosti) vrhunske modele. Visoka propusnost memorije od 1,2+ TB/s podržava agentne AI tijekove rada koji zahtijevaju kontinuiranu inferencu visoke propusnosti s vrlo dugim kontekstnim prozorima.

Tiiny AI

Džepno AI superračunalo

Tiiny AI

Izdan na Kickstarteru 2026. za 1.400 USD, Tiiny.ai Pocket AI Computer je džepno superračunalo s 80GB LGDDR5X memorije i 1TB SSD-om koje podržava lokalno pokretanje 120B AI modela bilo gdje.

S 300 grama (142×22×80mm) i napajan preko standardnog USB-C, podržava inovativne poslovne aplikacije. Tiiny AI izvještava o izlaznoj brzini od 21,14 tokena u sekundi za GPT-OSS-120B.

Tiiny Pocket AI Computer
Tiiny Pocket AI Computer
Tiiny Pocket AI Computer
Tiiny Pocket AI Computer

Tenstorrent

Hardver otvorenog k

Tenstorrent

Predvođen legendarnim arhitektom čipova Jimom Kellerom, Tenstorrent predstavlja temeljno drugačiju filozofiju: hardver otvorenog koda izgrađen na RISC-V, softver otvorenog koda i modularno skaliranje kroz ulančavanje.

Tensix AI jezgre dizajnirane su za linearno skaliranje: za razliku od GPU-a koji se muče s komunikacijskim opterećenjem kada dodate više kartica, Tenstorrent čipovi su izgrađeni da se učinkovito slažu.

U partnerstvu s Razerom, Tenstorrent je objavio kompaktni vanjski AI akcelerator koji se povezuje s bilo kojim prijenosnim ili stolnim računalom putem Thunderbolta – pretvarajući postojeći hardver u AI radnu stanicu bez zamjene bilo čega.

Razer × Tenstorrent kompaktni AI akcelerator Vanjski Thunderbolt AI akcelerator
Cijena Nepoznato
Memorija po kutiji
12 GB
GDDR6
ČipWormhole n150
Wormhole n150
Tensix jezgre · RISC-V
Skaliranje
Do 4 jedinice
48 GB AI kapaciteta
Softver
Potpuno otvorenogoda
GitHub · TT-Metalium
Razer × Tenstorrent AI Accelerator
Razer × Tenstorrent AI Accelerator
Razer × Tenstorrent AI Accelerator
Razer × Tenstorrent AI Accelerator

AI NAS — Mžno priključena pohrana

Pohrana + AI

Definicija NAS-a pomaknula se s pasivne pohrane na aktivnu inteligenciju. Nova generacija mrežnih uređaja za pohu izravno integrira AI obradu – od lagane inferencije temeljene na NPU do potpune implementacije LLM-a ubrzane GPU-om.

AI sposoban NAS eliminira potrebu za zasebnim AI uređajem i omogućuje izravnu obradu većih količina podataka bez kašnjenja u mrežnom prijenosu.

QNAP AI NAS
Ugreen DXP4800 Pro
OmniCore AI NAS
Zetlab AI NAS

Trebate pomoć pri odabiru prave AI mini-pc računala za vaše poslovanje?

Naši inženjeri mogu procijeniti vaše zahtjeve za AI hardverom i implementirati potpuno konfiguriran AI sustav.

Zatražite besplatnu procjenu hardvera →

4 Radne stanice
AI radne stanice i stolna računala 3 tis. USD - 15 tis. USD

Kategorija radnih stanica koristi diskretne PCIe grafičke kartice i standardna kućišta tipa toranj. Za razliku od fiksnih integriranih arhitektura mini-pc kategorije, ova kategorija nudi modularnost — možete nadograditi pojedinačne komponente, dodati više GPU-a ili zamijeniti kartice kako tehnologija napreduje.

Radna stanica s dvostrukom RTX A6000 i NVLink mostom nudi 96 GB zajedničkog VRAM-a za otprilike 7.000 USD.

Razumijevanje VRAM-a naspram brzine

Dva konkurentska čimbenika određuju izbor GPU-a za AI:

📦
Kapacitet VRAM-a
Određuje veličinu modela koji možete učitati. Više VRAM-a znači veće, sposobnije modele. Ovo je vaša granica inteligencije.
Brzina izračuna
Određuje koliko brzo model reagira. Veća računska snaga znači niže kašnjenje po upitu. Ovo je vaše korisničko iskustvo.

Potrošačke kartice (poput RTX 5090) maksimiziraju brzinu, ali nude ograničen VRAM — obično 24–32 GB. Profesionalne kartice (poput RTX PRO 6000 Blackwell) maksimiziraju VRAM — do 96 GB po kartici — ali koštaju više po jedinici računske snage.

VRAM je ograničavajući čimbenik. Brza kartica s nedovoljno memorije uopće ne može učitati AI model. Sporija kartica s dovoljno memorije pokreće model — samo s dužim vremenom odgovora.

Potrošački GPU-i

KonfiguracijaUkupni VRAMPovezivanjeProc. trošak
2×X 3090 (rabljeno)48 GBNVLink3.000 USD
2× RTX 409048 GBPCIe Gen 54.000 USD
2× RTX 509064 GBPCIe Gen 57.000 USD

Profesionalni GPU-i

KonfiguracijaUkupni VRAMPovezivanjeProc. trošak
2× RTX 6000 Ada96 GBPCIe Gen 583.000 kn
1× RTX PRO 6000 Blackwell96 GBNVLink8.000 USD
4× RTX PRO 6000 Blackwell384 GBPCIe Gen 532.000 USD

GPU-i za podatkovne centre

KonfiguracijaUkupni VRAMPovezivanjeProc. trošak
1× L40S48 GBPCIe 4.0 (pasivno hlađenje)7.000 USD
1× A100 PCIe80 GBPCIe 4.010.000 USD
1× H200 NVL141 GBNVLink30.000 USD
4× H200 NVL564 GBNVLink120.000 USD
1× B200 SXM180 GBNVLink 5 (1,8 TB/s)30.000 USD
8× B200 SXM1.440 GBNVLink 5 (1,8 TB/s)240.000 USD

Kineski GPU-i

Kineski domaći GPU ekosustav brzo je sazrio. Nekoliko kineskih proizvođača sada nudi AI GPU-e radne klase s konkurentnim specifikacijama i znat nižim cijenama.

KonfiguracijaUkupni VRAMVrsta memorijeProc. trošak
1× Moore Threads MTT S400048 GBGDDR6800 USD
4× Moore Threads MTT S4000192 GBGDDR63.500 USD
8× Moore Threads MTT S4000384 GBGDDR66.500 USD
1× Hygon DCU Z10032 GBHBM22.500 USD
1× Biren BR10432 GBHBM2e3.000 USD
8× Biren BR104256 GBHBM2e24.000 USD
1× Huawei Ascend Atlas 300I Duo96 GBHBM2e1.200 USD
8× Huawei Ascend Atlas 300I Duo768 GBHBM2e10.000 USD

Uskoro

KonfiguracijaUkupni VRAMStatusProc. trošak
RTX 5090 128 GB128 GBKineska mod. — nije standardni SKU5.000 USD
RTX Titan AI64 GBOčekuje se 2027.3.000 USD
4x NVIDIA RTX PRO 6000 Blackwell
4x NVIDIA RTX PRO 6000 Blackwell
MSI NVIDIA RTX PRO 6000 Blackwell Server
NVIDIA RTX 5090
NVIDIA DGX Station — vodeno hlađeno "računalo u podatkovnom centru na stolu" koje se priključuje u standardnu utičnicu.

NVIDIA DGX Station

Enterprise Apex

NVIDIA DGX Station je vodeno hlađena, stolna superračunala koja donose performanse podatkovnog centra u uredsko okruženje. Najnovija verzija koristi GB300 Grace Blackwell Superchip.

NVIDIA DGX Station GB300 Future-Proof Ultra
Proc. cijena ~200 tis. USD

Verzija Blackwell Ultra povećava gustoću memorije i računsku snagu, dizajnirana za organizacije koje trebaju trenirati prilagođene modele od nule ili lokalno pokretati masivne MoE (Mixture of Experts) arhitekture.

Memorija
~1,5 TB+
HBM3e (ultrabrzo)
Računska snaga
~20+ PFLOPS
FP8 AI performanse
Primjena
Prilagođeno treniranje
Razvoj modela
Snaga
Standardna utičnica
Nije potrebna soba za poslužitelje
NVIDIA DGX Station GB300 Blackwell Ultra
ASUS ExpertCenter Pro DGX GB300
MSI XpertStation WS300
NVIDIA DGX Station GB300 Blackwell Ultra
NVIDIA DGX Station A100 Pristupačna AI radna mašina
Od ~100 tis. USD

Iako temeljen na prethodnoj generaciji Ampere arhitekture, ostaje industrijski standard za pouzdano zaključivanje i fino podešavanje. Idealno prikladan za timove koji ulaze u AI prostor bez budžeta za Blackwell.

Memorija
320 GB
4x 80GB A100 GPU-a
Računska snaga
2 PFLOPS
FP16 AI performanse
Više korisnika
5–8 istovremenih
Umjerena istodobnost
Snaga
Standardna utičnica
Nije potrebna soba za poslužitelje

Iako je skup, DGX Station zamjenjuje ~300 tis. EUR server ormar i pripadajuću rashladnu infrastrukturu. Priključuje se u standardnu zidnu utičnicu. Time se u potpunosti eliminiraju troškovi server sobe.

Trebate pomoć pri odabiru prave AI radne stanice za vaše poslovanje?

Naši inženjeri mogu procijeniti vaše zahtjeve za AI hardverom i implementirati potpuno konfiguriran AI sustav.

Zatražite besplatnu procjenu hardvera →

5 Poslužitelji
AI poslužitelji 15 tis. EUR - 170 tis. EUR

Kada vauzeće treba opsluživati mnoge zaposlenike istovremeno, pok foundation-class modele s punom preciznošću ili fino podešavatiene modele na vlasacima – ulazite u server.

Ovo je domena namjenskih AI akceleratorskih kartica s memorijom velike propusnosti (HBM), specijaliziranim međupoveznicama i faktorima oblika za montažu u ormar ili na stol. Hardver je skuplji, ali cijena po korisniku dramatično pada na većim razmjerima.

Intel Gaudi 3

Najbolji omjer cijene i kvalitete na većim razmjerima

Intelov Gaudi 3 akcelerator dizajniran je od temelja kao čip za AI treniranje i zaključivanje — a ne prerađena grafička kartica. Svaka kartica nudi 128 GB HBM2e memorije s integriranim 400 Gb Ethernet umrežavanjem, eliminirajući potrebu za zasebnim mrežnim adapterima.

Gaudi 3 dostupan je u dva formata:

  • PCIHL-338): Standardni PCIe format za integraciju u postojeće poslužitelje. Procijenjena cijena: ~12.000 EUR po kartici.
  • OAM (OCP Accelerator Module): Visokogustoćni OCP standard za cloud podatkovne centre. 16.000 USD po čipu pri kupnji u kompletnim setovima od 8 čipova (~125.000 EUR ukupno s osnovnom pločom).

Poslužitelj s 8 Gaudi 3 kartica isčuje 1 TB ukupne AI memorije po znatno nižoj cijeni od usporedivog NVIDIA H100 sustava.

💾
Memorija po kartici
128 GB
HBM2e — podudara se s DGX Spark u jednoj kartici
Ukupno za 8 kartica
1 TB
1.024 GB zajedničke memorije za najveće modele
💰
Trošak sustava
~170 tis. EUR
Jeftinije od usporedive NVIDIA H100 konfiguracije
Intel Gaudi 3 Baseboard HLB 325
Intel Gaudi 3 PCI card
Dell Intel Gaudi 3 server
Gigabyte Intel Gaudi 3 server

AMD Instinct MI325X

Maksimalna gustoća

AMD Instinct MI325X sadrži 256 GB HBM3e memorije po kartici – dvostruko više od Intel Gaudi 3. Za postizanje 1 TB ukupne AI memorije potrebne su samo 4 kartice, u usporedbi s 8 kod Intela.

💾
Ukupna memorija za 4 kartice
1 TB
Upola manje kartica od Intel-a za isti kapacitet
Propusnost
6 TB/s
Po kartici — omogućuje istovremene korisnike
💰
Trošak sustava
~200 tis. EUR
Ulazni trošak s 1 karticom ~60 tis. EUR
AMD Instinct MI325X server
Supermicro AMD Instinct MI325X server
AMD Instinct MI325X server
ASUS AMD Instinct MI325X server

MI325 skuplji po sustavu od Gaudi 3, ali brži i gušći. Za radna opterećenja zahtijevaju maksimalnu propusnost – zaključivanje u stvarnom vremenu za više korisnika ili treniranje prilagođenih modela na velikim skupovima podataka – veća investicija isplati se smanjenjem latencije i jednostavnijom infrastrukturom.

Huawei Ascend

Full-stack alternativa

Huawei

Huawei je replicirao cijeli AI infrastrukturni stack: prilagođene čipove (Ascend 910B/C), vlasničke međupoveznice (HCCS) i cjeloviti softverski okvir (CANN). Rezultat je samostalan ekosustav koji djeluje neovisno o zapadnim opskrbnim lancima i uz znatno nižu cijenu od usporedivih NVIDIA H100 klastera.

Huawei Atlas
Huawei Ascend AI family
Huawei Atlas 300
Huawei Atlas 800i Ascend 910c

Intel Xeon 6 (Granite Rapids)

Budžetski poslužitelj

Tiha revolucija 2026. je uspon CPU-baziranog AI zaključivanja. Intel Xeon 6 procesori uključuju AMX (Advanced Matrix Extensions) koji omogućuju AI radna opterećenja na standardnom DDR5 RAM-u — koji je dramatično jeftiniji od GPU memorije.

Kompromis

Dvosoketni Xeon 6 poslužitelj može držati 1 TB do 4 TB DDR5 RAM-a za djelić cijene GPU memorije. Brzine zaključivanja su spore, ali za grupnu obradu — gdje je brzina nebitna, ali su inteligencija i kapacitet najvažniji — ovo je transformativno.

Primjer: MSP prenese 100.000 skeniranih računa preko noći. Xeon 6 poslužitelj pokreće +400B AI model za savršeno izdvajanje podataka. Zadatak traje 10 sati, ali trošak hardvera je puno niži nego za GPU poslužitelj.

Trebate pomoć pri odabiru prave AI infrastrukture za poslužitelje?

Naš infrastrukturni tim dizajnira i implementira kompletna AI rješenja za poslužitelje – od Intel Gaudi do NVIDIA DGX – kombinirana s prilagođenim softverom – kako bismo otključali sposobnosti AI-a za vaše poslovanje.

Zatražite prijedlog arhitekture poslužitelja →

6 Rubna AI
Rubna AI & Retrofit Nadogradnja postojeće infrastrukture

Nije svakom MSP-u potreban namjenski AI poslužitelj ili mini-računalo. Mnogi mogu ugraditi inteligenciju u postojeću infrastrukturu – nadograđujući prijenosna računala, stolna računala i mrežne uređaje s AI sposobnostima uz minimalne troškove.

M.2 AI ubrzivači: Hailo-10

Hailo-10 je standardni M.2 2280 modul – isti utor koji se koristi za SSD-ove – koji dodaje namjensku AI obradu bilo kojem postojećem računalu. Po cijeni od ~~150 EUR po jedinici i potrošnji od samo 5–8W, omogućuje nadogradnju cijele flote na AI bez zamjene hardvera.

📎
Faktor oblika
M.2 2280
Stane u bilo koji standardni SSD utor
Performanse
20–50 TOPS
Optimizirano za rubno zaključivanje
💰
Troškovi
~150 EUR
Po jedinici – nadogradnja flote za manje od ~3.000 EUR

Primjene: Lokalna transkripcija sastanaka (Whisper), titlovanje u stvarnom vremenu, glasovno diktiranje, zaključivanje malih modela (Phi-3 Mini). Ove kartice ne mogu pokretati velike LLM-ove, ali izvrsno obavljaju specifične, trajne AI zadatke – osiguravajući da se glasovni podaci obrađuju lokalno i nikad ne šalju u oblak.

Copilot+ računala (NPU prijenosna računala)

Laptopi s Qualcomm Snapdragon X Elite, Intel Core Ultra ili AMD Ryzen AI čipovima sadrže namjenske Neural Processing Units (NPU) –izirane AI čipove. Oni ne mogu pokretati velike LLM-ove, ali rješavaju male, trajne AI zadatke: transkripciju uživo, zamućenje pozadine, lokalne Recall značajke i pokretanje laganih modela poput Microsoft Phi-3.

NPU-ovi se ocjenjuju u TOPS (Tera operacija u sekundi), što mjeri koliko AI posla mogu obaviti. Najsnažniji Copilot+ PC-ovi 2026. imat će ~50 TOPS. Viši TOPS znači brže odgovore i mogućnost rukovanja nešto većim AI modelima.

9 AI modeli
AI modeli otvorenog koda (2026–2027)

Izbor AI modela određuje hardverske zahtjeve – ali kao što je pokazalo poglavlje o Kvantizaciji AI modela, kvantizacija omogućuje da vrhunski modeli rade na hardveru koji košta djelić onoga što zahtijeva implementacija pune preciznosti.

Donja tablica daje pregled trenutnih i nadolazećih AI modela otvorenog koda.

ModelVeličinaArhitekturaMemorija (FP16)Memorija (INT4)
Llama 4 Behemoth288B (aktivno)MoE (~2T ukupno)~4 TB~1 TB
Llama 4 Maverick17B (aktivno)MoE (400B ukupno)~800 GB~200 GB
Llama 4 Scout17B (aktivno)MoE (109B ukupno)~220 GB~55 GB
DeepSeek V4~70B (aktivno)MoE (671B ukupno)~680 GB~170 GB
DeepSeek R137B (aktivno)MoE (671B ukupno)~140 GB~35 GB
DeepSeek V3.2~37B (aktivno)MoE (671B ukupno)~140 GB~35 GB
Kimi K2.532B (aktivno)MoE (1T ukupno)~2 TB~500 GB
Qwen 3.5397B (aktivno)MoE (A17B)~1.5 TB~375 GB
Qwen 3-Max-ThinkingVelikGust~2 TB~500 GB
Qwen 3-Coder-Next480B (A35B aktivno)MoE~960 GB~240 GB
Mistral Large 3123B (41B aktivno)MoE (675B ukupno)~246 GB~62 GB
Ministral 3 (3B, 8B, 14B)3B–14BGust~6–28 GB~2–7 GB
GLM-544B (aktivno)MoE (744B ukupno)~1.5 TB~370 GB
GLM-4.7 (Thinking)VelikGust~1.5 TB~375 GB
MiMo-V2-Flash15B (aktivno)MoE (309B ukupno)~30 GB~8 GB
MiniMax2.5~10B (aktivno)MoE (~230B ukupno)~460 GB~115 GB
Phi-5 Reasoning14BGust~28 GB~7 GB
Phi-414BGust~28 GB~7 GB
Gemma 327BGust~54 GB~14 GB
Pixtral 2 Large90BGust~180 GB~45 GB
Stable Diffusion 4~12BDiT~24 GB~6 GB
FLUX.2 Pro15BDiT~30 GB~8 GB
Open-Sora 2.030BDiT~60 GB~15 GB
Whisper V41.5BGust~3 GB~1 GB
Med-Llama 470BGust~140 GB~35 GB
Legal-BERT 202635BGust~70 GB~18 GB
Finance-LLM 315BGust~30 GB~8 GB
CodeLlama 470BGust~140 GB~35 GB
Molmo 280BGust~160 GB~40 GB
Granite 4.032B (9B aktivno)Hibridni Mamba-Transformer~64 GB~16 GB
Nemotron 38B, 70BGust~16–140 GB~4–35 GB
EXAONE 4.032BGust~64 GB~16 GB
Llama 5 Frontier~1.2T (ukupno)MoE~2.4 TB~600 GB
Llama 5 Base70B–150BGust~140–300 GB~35–75 GB
DeepSeek V5~600B (ukupno)MoE~1.2 TB~300 GB
Stable Diffusion 5Nader te odreditiDiT
Falcon 3200BGust~400 GB~100 GB
Strateški savjet

Nemojte prvo kupiti hardver. Identificirajte klasu modela koja odgovara vašim poslovnim potrebama, zatim primijenite kvantizaciju kako biste odredili najpristupačniji sloj hardvera.

Razlika između 3.000 USD i 150.000 USD investicije često se svodi na zahtjeve veličine modela i broj istodobnih korisnika.

Trendovi koji oblikuju krajolik AI modela

  • Izvorna multimodalnost kao standard. Novi modeli treniraju se na tekstu, slikama, audio i video zapisima istovremeno – ne kao zasebne sposobnosti dodane nakon treniranja. To znači da jedan model upravlja analizom dokumenata, razumijevanjem slika i glasovnom interakcijom.
  • Mali modeli postižu sposobnosti velikih modela. Phi-5 (14B) i MiMo-V2-Flash pokazuju da arhitektonske inovacije mogu sažeti vrhunsko zaključivanje u modele koji rade na prijenosnom računalu. Doba "veće je bolje" završava.
  • Specijalizacija umjesto generalizacije. Umjesto jednog masivnog modela za sve, trend je prema ansamblima specijaliziranih modela – kodni model, model rasuđivanja, vizualni model – koordinira agentnim okvirom. To smanjuje hardverske zahtjeve po modelu uz poboljšanje ukupne kvalitete.
  • Agentna AI. poput Kimi K2.5 i Qwen 3 dizajnirani su da autonomno rastavljaju složene zadatke, pozivaju vanjske alate i koordiniraju s drugim modelima. Ova agentna roj paradigma zahtijeva trajni protok tijekom dugih sesija – favorizirajući hardver s velikom propusnošću poput GB10 i M5 Ultra.
  • Zrelina video i 3D generacije. Open-Sora 2.0 i FLUX.2 Pro signaliziraju da lokalna generacija videa postaje praktična. Do 2027. očekujete pomoćnike za uređivanje videa u stvarnom vremenu koji rade na hardveru klase radne stanice.

10 Sigurnost
Arhitektura za maksimalnu sigurnost

Glavna prednost lokalnog AI hardvera nije performansa – već suverenitet podataka. Kad vaš AI poslužitelj radi iza vašeg firewall-a, umjesto u tuđem cloudu, vaši osjetljivi podaci nikad ne napuštaju zgradu.

Air-Gapped API arhitektura fizički izolira AI poslužitelj od interneta dok ga čini dostupnim ovlaštenim zaposlenicima putem API sučelja.

Arhitektura API-ja s zračnim rasporom
👤 Zaposlenik Standardna radna stanica
🔀 Posrednički poslužitelj Auth + UI + Usmjeravanje
🔒 AI poslužitelj Zračni raspore · Bez interneta
AI trezor

Ova arhitektura stvara Digitalni trezor. Čak i ako bi se Posrednički poslužitelj kompromitirao, napadač bi mogao slati samo tekstualne upite – ne bi mogao pristupiti datotečnom sustavu AI poslužitelja, težinama modela, podacima za fino podešavanje ili bilo kojim pohranjenim dokumentima.

Trebate sigurnu AI implementaciju s prilagođenim AI rješenjima?

Naši inženjeri projektiraju i implementiraju AI arhitekture s zračnim rasporom osiguravajući da podaci nikad ne napuštaju prostorije, istovremeno pružajući vašem poslovanju najsuvremenije AI mogućnosti.

Razgovarajte o sigurnoj AI arhitekturi →

11 Ekonomika
Ekonomska presuda: Lokalno naspram obl

Prijelaz na lokalni AI hardver je pomak s OpEx-a (operativnih izdataka – mjesečnih naknada za cloud API) na CapEx (investicijski izdaci – jednokratna investicija u hardver koja postaje imovina u vašoj bilanci).

Razmotrite odvjetnički ured koji pokreće 200B model za analizu ugovora:

☁️ Cloud API
~30.000 EUR
godišnje (na velikoj skali)
1.000 ugovora/dan × ~0,01 EUR/1K tokena × 365 dana. Skalira se linearno s upotrebom. Podaci napuštaju mrežu.
🖥️ Lokalni hardver (DGX Spark)
~4.000 EUR
jednokratna investicija
+ ~15 EUR/mjesečno struja. Neograničena upotreba. Podaci nikad ne napuštaju LAN. Imovina u bilanci.

Pri 1.000 upita dnevno, DGX Spark se isplati u manje od 2 mjeseca u usporedbi s troškovima cloud API-ja. Pri višim razinama korištenja, razdoblje povrata skraćuje se na tjedne.

Ekonomika postaje još povoljnija kada uzmete u obzir:

  • Više zaposlenika dijeli isti hardver (DGX Spark opslužuje 2–5 istodobnih korisnika)
  • Bez cijene po tokenu – složeni, višestupanjski zadaci rasuđivanja ne koštaju ništa dodatno
  • Fino podešavanje na vlastitim podacima – nemoguće s većinom cloud API-ja, besplatno na lokalnom hardveru
  • Vrijednost preprodaje hardvera – AI hardver zadržava značajnu vrijednost na sekundarnom tržištu