NVIDIA DGX Spark – uređaj veličine knjige koji može pokretati AI modele sa 200 milijardi parametara (400 milijardi kada su dva povezana) – predstavlja novu eru desktop AI vlasništva.

1 Temelj
Zašto lokalni AI? Poslovni slučaj za vlasništvo

Početkom 2020-ih, umjetna inteligencija bila je usluga koju ste iznajmljivali — po satu, po tokenu, po API pozivu. Do 2026. godine, paradigma se promijenila. Hardver potreban za pokretanje inteligencije GPT-4 klase sada stane na vaš sto i košta manje od rabljenog automobila.

Kontinuirano oslanjanje na isključivo cloud AI predstavlja strateški trilema:

  • Rastući troškovi. API naknade po tokenu skaliraju se linearno s upotrebom. Odvjetničko društvo koje obrađuje 1.000 ugovora dnevno može suočiti s ~30.000 EUR godišnjih API troškova.
  • Izloženost podataka. Svaki upit poslan cloud API-u podatak je koji napušta vašu mrežu i izložen je rizicima sigurnosti i privatnosti podataka.
  • Nula ili skupa prilagodba. Cloud modeli su generički. Ne mogu se lako ili isplativo fino prilagoditi na prilagođene podatke, interne poslovne procese ili poslovnu inteligenciju.

Lokalni AI hardver rješava sva tri problema. Pretvara varijabilne API naknade u fiksni kapitalni asset, osigurava da podaci nikad ne napuštaju LAN i omogućava duboku prilagodbu kroz fino podešavanje na poslovnim podacima.

2 Smanjenje troškova
Kvantizacija: Pokrenite veće AI modele na jeftinijem hardveru

Kvantizacija je koncept koji temeljno mijenja ekonomiku lokalnog AI-a.

Jednostavno rečeno, kvantizacija komprimira memorijski otisak AI modela. Standardni model pohranjuje svaki parametar kao 16-bitni broj s pokretnim zarezom (FP16). Kvantizacija ovo smanjuje na 8-bitni (Int8), 4-bitni (Int4) ili čak niže — dramatično smanjujući količinu memorije potrebne za pokretanje modela.

Kvantizacija rezultira blagim smanjenjem kvalitete izlaza — često neprimjetnim za poslovne zadatke poput sažimanja, izrade nacrta i analize — u zamjenu za ogromno smanjenje hardverskih troškova.

Potrebna memorija: 400B AI model na različitim nivoima preciznosti
FP16
Puna preciznost
~800 GB
Int8
Pola veličine
~400 GB
Int4
Četvrtina
~200 GB
FP16 — Maksimalna kvaliteta, maksimalni trošak
Int8 — Gotovo savršena kvaliteta, pola troškova
Int4 — Visoka kvaliteta, četvrtina troškova
Poslovni utjecaj

400B model s punom preciznošću zahtijeva ~800 GB memorije – server investicija od ~170k EUR. Isti model kvantiziran na Int4 zahtijeva samo ~200 GB i može raditi na dva povezana DGX Spark (baziran na GB10 Superchip) mini-računara za ~8.000 EUR.

Mixture of Experts (MoE)

Mixture of Experts je još jedan trik u arhitekturi AI modela koji omogućuje implementaciju masivnih modela bez masivnih memorijskih troškova.

Umjesto korištenja svih parametara za svaki upit, MoE model aktivira samo dio svojih kapaciteta kroz rijetku aktivaciju.

MoE model sa 2 biliona parametara kao što je Llama 4 Behemoth aktivira samo 288B parametara po upitu – pružajući vrhunsku inteligenciju uz djelić memorijskih troškova.

Kompromis

MoE modeli su nešto manje efikasni u jednostavnim zadacima poput sažimanja i klasifikacije u usporedbi s gustim modelima iste veličine. Za znanstveni rad i zaključivanje kao što su kompleksna analiza, generiranje koda i istraživanje, MoE modeli briljiraju.

Rijetka aktivacija rezultira bržom brzinom inferencije i bržim vremenom odgovora.

3 Mini-PC
AI mini-PC 3.000 KM – 20.000 KM

HP ZGX Nano AI na ženskoj ruci

Najrevolucionarniji razvoj 2026. je AI računarstvo visokog kapaciteta u mini-PC formatu. Uređaji ne veći od tvrdog uveza sada pokreću AI modele koji su prije dvije godine zahtijevali serverske sobe.

NVIDIA GB10 ekosistem (DGX Spark)

Lider performansi

NVIDIA logo

NVIDIA DGX Spark definirao je ovu kategoriju. U 2026., GB10 Superchip — kombinirajući ARM Grace CPU s Blackwell GPU — iznjedrio je čitav ekosistem. ASUS, GIGABYTE, Dell, Lenovo, HP, MSI i Supermicro svi proizvode GB10 bazirane sisteme, svaki s različitim faktorima oblika, rashladnim rješenjima i priloženim softverom.

NVIDIA GB10 ekosistem ASUS, GIGABYTE, Dell, Lenovo, HP, MSI i Supermicro
Od ~4.000 EUR
Memorija
128 GB
LPDDR5X Unified
Računska snaga
~1 PFLOP
FP8 AI performanse
Mreža
10 GbE + Wi-Fi 7
ConnectX za klasteriranje
Pohrana
4 TB SSD
NVMe
Klasteriranje
Da (2 jedinice)
256 GB zajednička memorija
Softver
NVIDIA AI Enterprise
CUDA, cuDNN, TensorRT
NVIDIA DGX Spark
ASUS Ascent GX10
Gigabyte AI TOP ATOM
DGX Quantum Machines combo
MSI EdgeExpert
Lenovo ThinkStation PGX
Dell Pro Max Desktop
NVIDEA DGX Spark
Klasteriranje: Kapacitet 256 GB

Povezivanjem dvije GB10 jedinice preko namjenskog porta za brzu mrežu, sistem objedinjuje resurse u 256 GB memorijski prostor. Ovo otključava mogućnost pokretanja vrlo velikih modela — 400B+ kvantiziranih parametara — u potpunosti na vašem stolu za otprilike ~8.000 EUR ukupne hardverske investicije.

AMD Ryzen AI Max (Strix Halo) Mini-PC

Najniži trošak

AMD Ryzen AI Max+ Strix Halo

AMD-ova Ryzen AI Max+ Strix Halo arhitektura iznjedrila je potpuno novu kategoriju budžet AI mini-PC-a. Val proizvođača — GMKtec, Beelink, Corsair, NIMO, Bosgame, FAVM — sada isporučuje sisteme sa 128 GB objedinjene memorije za ispod ~2.000 EUR.

AMD Ryzen AI Max Mini-PC GMKtec EVO-X2 · Beelink · Corsair · NIMO AI · Bosgame M5 · FAVM FA-EX9
Od ~1.500 EUR
Memorija
128 GB
LPDDR5 zajednička (CPU+GPU)
Računska snaga
~0.2 PFLOP
Integrirana RDNA 3.5 GPU
Propusnost
~200 GB/s
Propustljivost memorije
Snaga
~100W
Tihi rad
Klasteriranje
Ne
Samo samostalno
OS
Windows / Linux
ROCm / llama.cpp
GMKtex EVO X2
Bosgame M5 AI
NIMO AI Mini PC
Beelink Mini PC
Beelink Mini PC
Corsair AI Workstation 300 Halo
FAVM FA EX9
GMK Ryzen Strix Halo Mini PC

Apple Mac Studio (M4 Ultra)

Lider kapaciteta

Mac Studio zauzima jedinstvenu poziciju u lokalnom AI krajoliku. Apple-ova Unified Memory Architecture (UMA) pruža do 256 GB memorije dostupne i CPU-u i GPU-u u jednoj, kompaktnoj desktop jedinici — bez potrebe za klasteriranjem.

Ovo ga čini jedinim pristupačnim pojedinačnim uređajem sposobnim za učitavanje najvećih open-source modela. Model sa 400 milijardi parametara kvantiziran na Int4 u potpunosti stane u memoriju na 256 GB konfiguraciji.

Apple Mac Studio (M4 Ultra) Lider AI kapaciteta u jednoj jedinici
Od ~4.000 EUR
Memorija
Do 256 GB
Objedinjena memorija (UMA)
Računska snaga
~0.5 PFLOP
Apple Neural Engine + GPU
Softver
MLX Framework
Apple-optimizirana inferencija
Ograničenje
Samo inferencija
Sporo za treniranje/fino podešavanje

Apple Mac Studio (M5 Ultra)

Nadolazeći kandidat

Apple-ova sljedeća generacija M5 Ultra, očekivana krajem ., navodno će riješiti glavnu slabost M4: performanse treniranja AI modela. Izgrađen na TSMC-ovom 2nm procesu, očekuje se da će nuditi konfiguracije do 512 GB objedinjene memorije s propusnošću većom od 1.2 TB/s.

Apple Mac Studio (M5 Ultra) Očekivani AI trening powerhouse
Proc. ~10.000 EUR
Memorija
Do 512 GB
Objedinjena memorija sljedeće generacije
Računska snaga
~1.5+ PFLOP
2nm Neural Engine
Softver
MLX 2.0+
Podrška za native treniranje
Mogućnosti
Treniranje i inferencija
CUDA-alternativa
Propusnost memorije: Kapacitet 1.2 TB/s

512 GB M5 Ultra bio bi prvi potrošački uređaj sposoban za pokretanje nekvatiziranih (pune preciznosti) frontier modela. Visoka propusnost memorije od 1.2+ TB/s podržava agentne AI tokove rada koji zahtijevaju kontinuiranu inferenciju visokog protoka s vrlo dugim kontekstnim prozorima.

Tiiny AI

Džepni AI superračunar

Tiiny AI

Izdan na Kickstarteru 2026. za 1.400 USD, Tiiny.ai Pocket AI Computer je džepni superračunar sa 80GB LGDDR5X memorije i 1TB SSD-om koji podržava lokalno pokretanje 120B AI modela bilo gdje.

Sa 300 grama (142×22×80mm) i napajan preko standardnog USB-C, podržava inovativne poslovne aplikacije. Tiiny AI izvještava o izlaznoj brzini od 21,14 tokena u sekundi za GPT-OSS-120B.

Tiiny Pocket AI Computer
Tiiny Pocket AI Computer
Tiiny Pocket AI Computer
Tiiny Pocket AI Computer

Tenstorrent

Open Source hardver

Tenstorrent

Predvođen legendarnim arhitektom čipova Jimom Kellerom, Tenstorrent predstavlja fundamentalno drugačiju filozofiju: open-source hardver izgrađen na RISC-V, open-source softver i modularno skaliranje kroz ulančavanje.

Tensix AI jezgre dizajnirane su za linearno skaliranje: za razliku od GPU-a, koji se bore s komunikacijskim opterećenjem kada dodate više kartica, Tenstorrent čipovi su izgrađeni za efikasno pločasto povezivanje.

U partnerstvu s Razerom, Tenstorrent je izdao kompaktni eksterni AI akcelerator koji se povezuje s bilo kojim laptopom ili desktopom preko Thunderbolta — pretvarajući postojeći hardver u AI radnu stanicu bez zamjene bilo čega.

Razer × Tenstorrent kompaktni AI akcelerator Eksterni Thunderbolt AI akcelerator
Cijena Nepoznato
Memorija po kutiji
12 GB
GDDR6
Čip
Wormhole n150
Tensix jezgre · RISC-V
Skaliranje
Do 4 jedinice
48 GB AI kapaciteta
Softver
Potpuno open-source
GitHub · TT-Metalium
Razer × Tenstorrent AI Accelerator
Razer × Tenstorrent AI Accelerator
Razer × Tenstorrent AI Accelerator
Razer × Tenstorrent AI Accelerator

AI NAS — Mrežno priključeno skladište

Pohrana + AI

Definicija NAS-a pomaknula se s pasivne pohrane na aktivnu inteligenciju. Nova generacija mrežnih uređaja za pohranu integrira AI obradu direktno — od lagane NPU bazirane inferencije do potpune GPU ubrzane LLM implementacije.

AI sposoban NAS eliminiše potrebu za zasebnim AI uređajem i omogućava direktnu obradu većih količina podataka bez latencije mrežnog transfera.

QNAP AI NAS
Ugreen DXP4800 Pro
OmniCore AI NAS
Zetlab AI NAS

Trebate pomoć pri odabiru prave AI mini-pc konfiguracije za vaše poslovanje?

Naši inženjeri mogu procijeniti vaše AI hardverske zahtjeve i implementirati potpuno konfigurisan AI sistem.

Zatražite besplatnu procjenu hardvera →

4 Radne stanice
AI radne stanice & desktop računari 3k USD - 15k USD

Kategorija radnih stanica koristi diskretne PCIe grafičke kartice i standardna kućišta tipa toranj. Za razliku od fiksnih integriranih arhitektura mini-pc kategorije, ova kategorija nudi modularnost — možete nadograditi pojedinačne komponente, dodati više GPU-a ili zamijeniti kartice kako tehnologija napreduje.

Radna stanica sa dvije RTX A600 kartice i NVLink mostom nudi 96 GB kombiniranog VRAM-a za otprilike 7.000 USD.

Razumijevanje VRAM-apram brzine

Dva konkurišuća faktora određuju izbor GPU-a za AI:

📦
Kapacitet VRAM-a
Određuje veličinu modela koji možete učitati. Više VRAM-a znači veće, sposobnije modele. Ovo je vaša granica inteligencije.
Brzina izračunavanja
Određuje koliko brzo model reaguje. Veća računska snaga znači manju latenci po upitu. Ovo je vaše korisničko iskustvo.

Potrošačke kartice (poput RTX 5090) maksimiziraju brzinu, ali nude ograničen VRAM — tipično 24–32 GB. Profesionalne kartice (poput RTX PRO 6000 Blackwell) maksimiziraju VRAM — do 96 GB po kartici — ali koštaju više po jedinici računske snage.

VRAM je ograničavajući faktor. Brza kartica s nedovoljno memorije ne može uopće učitati AI model. Sporija kartica s dovoljno memorije pokreće model — samo s dužim vremenom odgovora.

Potrošački GPU-i

KonfiguracijaUkupni VRAMPovezivanjeProc. cijena
2× RTX 3090 (rabljeno)48 GBNVLink3.000 USD
2× RTX 409048 GBPCIe Gen 54.000 USD
2× RTX 509064 GBPCIe Gen 57.000 USD

Profesionalni GPU-i

KonfiguracijaUkupni VRAMPovezivanjeProc. cijena
2× RTX 6000 Ada96 GBPCIe Gen 513.000 USD
1× RTX PRO 6000 Blackwell96 GBNVLink8.000 USD
4× RTX PRO 6000 Blackwell384 GBPCIe Gen 532.000 USD

Datacenter GPU-i

KonfiguracijaUkupni VRAMPovezivanjeProc. cijena
1× L40S48 GBPCIe 4.0 (pasivno hlađenje)7.000 USD
1× A100 PCIe80 GBPCIe 4.010.000 USD
1× H200 NVL141 GBNVLink30.000 USD
4× H200 NVL564 GBNVLink120.000 USD
1× B200 SXM180 GBNVLink 5 (1,8 TB/s)30.000 USD
8× B200 SXM1.440 GBNVLink 5 (1,8 TB/s)240.000 USD

Kineski GPU-i

Kineski domaći GPU ekosistem je brzo sazrio. Nekoliko kineskih proizvođača sada nudi AI GPU-e radne klase sa konkurentnim specifikacijama i znatno nižim cijenama.

KonfiguracijaUkupni VRAMTip memorijeProc. cijena
1× Moore Threads MTT S400048 GBGDDR6800 USD
4× Moore Threads MTT S4000192 GBGDDR63.500 USD
8× Moore Threads MTT S4000384 GBGDDR66.500 USD
1× Hygon DCU Z10032 GBHBM22.500 USD
1× Biren BR10432 GBHBM2e3.000 USD
8× Biren BR104256 GBHBM2e24.000 USD
1× Huawei Ascend Atlas 300I Duo96 GBHBM2e1.200 USD
8× Huawei Ascend Atlas 300I Duo768 GBHBM2e10.000 USD

Uskoro

KonfiguracijaUkupni VRAMStatusProc. cijena
RTX 5090 128 GB128 GBKineska mod. — nije standardni SKU5.000 USD
RTX Titan AI64 GBOčekivano 2027.3.000 USD
4x NVIDIA RTX PRO 6000 Blackwell
4x NVIDIA RTX PRO 6000 Blackwell
MSI NVIDIA RTX PRO 6000 Blackwell Server
NVIDIA RTX 5090
NVIDIA DGX Station — vodenohlađeni "datacenter na stolu" koji se priključuje na standardnu utičnicu.

NVIDIA DGX Station

Enterprise Apex

NVIDIA DGX Station je vodenohlađeni, stolni superračunar koji donosi performanse datacentra u kancelarijsko okruženje. Najnovija verzija koristi GB300 Grace Blackwell Superčip.

NVIDIA DGX Station GB300 Future-Proof Ultra
Proc. cijena ~200k USD

Verzija Blackwell Ultra povećava gustoću memorije i računsku snagu, dizajnirana za organizacije koje trebaju trenirati prilagođene modele od nule ili pokretati masivne MoE (Mješavina stručnjaka) arhitekture lokalno.

Memorija
~1,5 TB+
HBM3e (ultra brza)
Računska snaga
~20+ PFLOPS
FP8 AI performanse
Primjena
Prilagođeni trening
Razvoj modela
Snaga
Standardna utičnica
Nije potrebna server soba
NVIDIA DGX Station GB300 Blackwell Ultra
ASUS ExpertCenter Pro DGX GB300
MSI XpertStation WS300
NVIDIA DGX Station GB300 Blackwell Ultra
NVIDIA DGX Station A100 Pristupačni AI radni konj
Od ~100k USD

Iako baziran na prethodnoj generaciji Ampere arhitekture, ostaje industrijski standard za pouzdanu inferenciju i fino podešavanje. Idealno prilagođen timovima koji ulaze u AI prostor bez budžeta za Blackwell.

Memorija
320 GB
4x 80GB A100 GPU-a
Računska snaga
2 PFLOPS
FP16 AI performanse
Više korisnika
5–8 istovremenih
Umjerena istovremenost
Snaga
Standardna utičnica
Nije potrebna server soba

Iako skup, DGX Station zamjenjuje ~300k EUR server ormar i pripadajuću rashladnu infrastrukturu. Uključuje se u standardnu utičnicu. Ovo u potpunosti eliminiše režijske troškove server sobe.

Trebate pomoć pri odabiru prave AI radne stanice za vaše poslovanje?

Naši inženjeri mogu procijeniti vaše AI hardverske zahtjeve i implementirati potpuno konfigurisan AI sistem.

Zatražite besplatnu procjenu hardvera →

5 Serveri
AI serveri 15k EUR - 170k EUR

Kada vašem poslovanju treba istovremeno služiti mnogim zaposlenicima, pokretati foundation-class modele s punom preciznošću ili fino podešavati prilagođene modele na vlasničkim podacima – ulazite u server nivo.

Ovo je domen namjenskih AI akceleratorskih kartica s memorijom visokog protoka (HBM), specijaliziranim interkonekcijama i faktorima forme za montažu u ormar ili na stolu. Hardver je skuplji, ali trošak po korisniku dramatično opada na većim razmjerima.

Intel Gaudi 3

Najbolji omjer cijene i kvaliteta na većim razmjerima

Intelov Gaudi 3 akcelerator je dizajniran od temelja kao AI čip za trening i inferenciju — a ne prerađena grafička kartica. Svaka kartica pruža 128 GB HBM2e memorije s integriranim 400 Gb Ethernet mrežnim rješenjem, eliminišući potrebu za zasebnim mrežnim adapterima.

Gaudi 3 dostupan je u dva formata:

  • PCIe kartica (HL-338): Standardni PCIe format za integraciju u postojeće servere. Procijenjena cijena: ~12.000 EUR po kartici.
  • OAM (OCP Accelerator Module): Standard visoke gustoće OCP za cloud podatkovne centre. 16.000 USD po čipu pri kupnji u kompletima od 8 čipova (~130.000 EUR ukupno s osnovnom pločom).

Server sa 8 Gaudi 3 kartica isporučuje 1 TB ukupne AI memorije po znatno nižoj cijeni od usporedivog NVIDIA H100 sistema.

💾
Memorija po kartici
128 GB
HBM2e — podudara se s DGX Spark u jednoj kartici
Ukupno za 8 kartica
1 TB
1.024 GB kombinirane memorije za najveće modele
💰
Trošak sistema
~170k EUR
Jeftinije od usporedivog NVIDIA H100 setupa
Intel Gaudi 3 Baseboard HLB 325
Intel Gaudi 3 PCI card
Dell Intel Gaudi 3 server
Gigabyte Intel Gaudi 3 server

AMD Instinct MI325X

Maksimalna gustoća

AMD Instinct MI325X sadrži 256 GB HBM3e memorije po kartici – duplo više od Intel Gaudi 3. Za postizanje 1 TB ukupne AI memorije potrebne su samo 4 kartice, u usporedbi s 8 kod Intela.

💾
Ukupna memorija za 4 kartice
1 TB
Upola manje kartica od Intel-a za isti kapacitet
Propusnost
6 TB/s
Po kartici — omogućava istovremene korisnike
💰
Trošak sistema
~200k EUR
Ulazni trošak sa 1 karticom ~60k EUR
AMD Instinct MI325X server
Supermicro AMD Instinct MI325X server
AMD Instinct MI325X server
ASUS AMD Instinct MI325X server

MI325X je skuplji po sistemu od Gaudi 3, ali brži i gušći. Za radna opterećenja koja zahtijevaju maksimalnu propusnost – real-time inferencija za više korisnika ili treniranje prilagođenih modela na velikim skupovima podataka – veća investicija se isplati smanjenom latencijom i jednostavnijom infrastrukturom.

Huawei Ascend

Full-stack alternativa

Huawei

Huawei je replicirao kompletan AI infrastrukturni stack: prilagođene čipove (Ascend 910B/C), vlasničke interkonekcije (HCCS) i kompletan softverski okvir (CANN). Rezultat je samostalan ekosistem koji radi nezavisno od zapadnih lanaca snabdijevanja i po znatno nižoj cijeni od usporedivih NVIDIA H100 klastera.

Huawei Atlas
Huawei Ascend AI family
Huawei Atlas 300
Huawei Atlas 800i Ascend 910c

Intel Xeon 6 (Granite Rapids)

Budget server

Tiha revolucija 2026. je uspon CPU-bazirane AI inferencije. Intel Xeon 6 procesori uključuju AMX (Advanced Matrix Extensions) koji omogućuju AI radna opterećenja na standardnom DDR5 RAM-u — što je znatno jeftinije od memorije.

Kompromis

Dual-socket Xeon 6 server može držati 1 TB do 4 TB DDR5 RAM-a za djelić cijene GPU memorije. Brzine inferencije su spore, ali za obradu u serijama — gdje je brzina nebitna, ali su inteligencija i kapacitet najvažniji — ovo je transformativno.

Primjer: MSP prenese 100.000 skeniranih faktura preko noći. Xeon 6 server pokreće +400B AI model za savršeno izdvajanje podataka. Zadatak traje 10 sati, ali hardverski trošak je mnogo niži nego kod GPU servera.

Trebate pomoć pri odabiru prave AI server infrastrukture?

Naš infrastrukturni tim projektuje i implementira kompletna AI serverska rješenja — od Intel Gaudi do NVIDIA DGX — u kombinaciji s prilagođenim softverom — kako bismo otključali mogućnosti AI-a za vaše poslovanje.

Zatražite prijedlog server arhitekture →

6 Edge AI
Edge AI & Retrofit Nadogradnja postojeće infrastrukture

Ne treba svakom MSP-u namjenski AI server ili mini-računar. Mnogi mogu ugraditi inteligenciju u postojeću infrastrukturu — nadograđujući prijenosne računare, desktopove i mrežne uređaje s AI mogućnostima uz minimalne troškove.

M.2 AI akceleratori: Hailo-10

Hailo-10 je standardni M.2 2280 modul — isti utor koji se koristi za SSD-ove — koji dodaje namjensku AI obradu bilo kojem postojećem PC-u. Po cijeni od ~~150 EUR po jedinici i potrošnji od samo 5–8W, omogućava AI nadogradnju cijele flote bez zamjene hardvera.

📎
Format
M.2 2280
Stane u bilo koji standardni SSD utor
Performanse
20–50 TOPS
Optimizirano za edge inferenciju
💰
Cijena
~150 EUR
Po jedinici — nadogradnja flote za manje od ~3.000 EUR

Primjene: Lokalna transkripcija sastanaka (Whisper), titlovanje u realnom vremenu, glasovno diktiranje, inferencija malih modela (Phi-3 Mini). Ove kartice ne mogu pokretati velike LLM-ove, ali izvrsno obavljaju specifične, trajne AI zadatke — osiguravajući da se glasovni podaci obrađuju lokalno i nikad ne šalju u oblak.

Copilot+ PC-ji (NPU prijenosnici)

Laptopovi s Qualcomm Snapdragon X Elite, Intel Core Ultra ili AMD Ryzen AI čipovima sadrže namjenske Neural Processing Units (NPU) – specijalizirane AI čipove. Ovi ne mogu pokretati velike LLM-ove, ali rješavaju male, trajne AI zadatke: live transkripcija, zamućenje pozadine, lokalne Recall funkcije i pokretanje laganih modela poput Microsoft Phi-3.

NPU-ovi se ocjenjuju u TOPS (Tera operacija u sekundi), što mjeri koliko AI posla mogu obaviti. Najmoćniji Copilot+ PC-ovi u 2026. imaju ~50 TOPS. Viši TOPS znači brže odgovore i sposobnost rukovanja nešto većim AI modelima.

9 AI modeli
Open-source AI modeli (2026–2027)

Izbor AI modela određuje hardverske zahtjeve — ali kao što je pokazalo poglavlje o ‹AI Model Kvantizaciji›, kvantizacija omogućava da vrhunski modeli rade na hardveru koji košta djelić onoga što zahtijeva implementacija pune preciznosti.

Tablica u nastavku daje pregled trenutnih i nadolazećih open-source AI modela.

ModelVeličinaArhitekturaMemorija (FP16)Memorija (INT4)
Llama 4 Behemoth288B (aktivno)MoE (~T ukupno)~4 TB~1 TB
Llama 4 Maverick17B (aktivno)MoE (400B ukupno)~800 GB~200 GB
Llama 4 Scout17B (aktivno)MoE (109B ukupno)~220 GB~55 GB
DeepSeek V4~70B (aktivno)MoE (671B ukupno)~680 GB~170 GB
DeepSeek R137B (aktivno)MoE (671B ukupno)~140 GB~35 GB
DeepSeek V3.2~37B (aktivno)MoE (671B ukupno)~140 GB~35 GB
Kimi K2.532B (aktivno)MoE (1T ukupno)~2 TB~500 GB
Qwen 3.5397B (aktivno)MoE (A17B)~1.5 TB~375 GB
Qwen 3-Max-ThinkingVelikiGust~2 TB~500 GB
Qwen 3-Coder-Next480B (A35B aktivno)MoE~960 GB~240 GB
Mistral Large 3123B (41B aktivno)MoE (675B ukupno)~246 GB~62 GB
Ministral 3 (3B, 8B, 14B)3B–14BGust~6–28 GB~2–7 GB
GLM-544B (aktivno)MoE (744B ukupno)~1.5 TB~370 GB
GLM-4.7 (Thinking)VelikiGust~1.5 TB~375 GB
MiMo-V2-Flash15B (aktivno)MoE (309B ukupno)~30 GB~8 GB
MiniMax M2.5~10B (aktivno)MoE (~230B ukupno)~460 GB~115 GB
Phi-5 Reasoning14BGust~28 GB~7 GB
Phi-414BGust~28 GB~7 GB
Gemma 327BGust~54 GB~14 GB
Pixtral 2 Large90BGust~180 GB~45 GB
Stable Diffusion 4~12BDiT~24 GB~6 GB
FLUX.2 Pro15BDiT~30 GB~8 GB
Open-Sora 2.030BDiT~60 GB~15 GB
Whisper V41.5BGust~3 GB~1 GB
Med-Llama 470BGust~140 GB~35 GB
Legal-BERT 202635BGust~70 GB~18 GB
Finance-LLM 315BGust~30 GB~8 GB
CodeLlama 470BGust~140 GB~35 GB
Molmo 280BGust~160 GB~40 GB
Granite 4.032B (9B aktivno)Hibridni Mamba-Transformer~64 GB~16 GB
Nemotron 38B, 70BGust~16–140 GB~4–35 GB
EXAONE 4.032BGust~64 GB~16 GB
Llama 5 Frontier~1.2T (ukupno)MoE~2.4 TB~600 GB
Llama 5 Base70B–150BGust~140–300 GB~35–75 GB
DeepSeek V5~600B (ukupno)MoE~1.2 TB~300 GB
Stable Diffusion 5TBDDiT
Falcon 3200BGust~400 GB~100 GB
Strateški savjeti

Nemojte prvo kupovati hardver. Identificirajte klasu modela koja odgovara vašim poslovnim potrebama, zatim primijenite kvantizaciju da odredite najpristupačniji hardverski nivo.

Razlika između 3.000 USD i 150.000 USD investicije često se svodi na zahtjeve veličine modela i broj istovremenih korisnika.

Trendovi koji oblikuju AI modelni krajolik

  • Izvorna multimodalnost kao standard. Novi modeli se treniraju tekstu, slikama, audio i video istovremeno — ne kao zasebne mogućnosti dodane nakon treninga. To znači da jedan model upravlja analizom dokumenata, razumijevanjem slika i glasovnom interakcijom.
  • Mali modeli postižu mogućnosti velikih modela. Phi-5 (14B) i MiMo-V2-Flash pokazuju da arhitektonske inovacije mogu komprimirati vrhunsko rezoniranje u modele koji rade na prijenosnom računaru. Era "veće je bolje" završava.
  • Specijalizacija umjesto generalizacije. Umjesto jednog masivnog modela za sve, trend je prema ansamblima specijaliziranih modela — kodni model, model za rezoniranje, vizualni model — koordinira agentnim okvirom. Ovo smanjuje hardverske zahtjeve po modelu uz poboljšanje ukupnog kvaliteta.
  • Agentni AI. Modeli poput Kimi K2.5 i Qwen 3 dizajnirani su da autonomno razlažu složene zadatke, pozivaju eksterne alate i koordiniraju s drugim modelima. Ova ‹agentni roj› paradigma zahtijeva trajni protok tokom dugih sesija — favorizirajući hardver visoke propusnosti poput GB10 i M5 Ultra.
  • Generacija videa i 3D sazrijeva. Open-Sora 2.0 i FLUX.2 Pro signaliziraju da lokalna generacija videa postaje praktična. Do 2027. očekujte asistenta za uređivanje videa u realnom vremenu koji radi na hardveru klase radne stanice.

10 Sigurnost
Arhitektura za maksimalnu sigurnost

Primarna prednost lokalnog AI hardvera nije performansa – već suverenitet podataka. Kada vaš AI server radi iza vašeg firewall-a umjesto u nečijem cloud-u, vaši osjetljivi podaci nikad ne napuštaju vašu zgradu.

Air-Gapped API arhitektura fizički izolira AI server od interneta dok ga čini dostupnim ovlaštenim zaposlenicima kroz API interfejs.

Air-Gapped API Arhitektura
👤 Zaposlenik Standardna radna stanica
🔀 Posrednički server Auth + UI + Rutiranje
🔒 AI server Air-gapped · Bez interneta
AI trezor

Ova arhitektura stvara ‹Digitalni trezor›. Čak i ako bi posrednički server bio kompromitovan, napadač bi mogao samo slati tekstualne upite — ne bi mogao pristupiti datotečnom sistemu AI servera, težinama modela, podacima za fino podešavanje ili bilo kojim pohranjenim dokumentima.

Trebate sigurnu AI implementaciju s prilagođenim AI rješenjima?

Naši inženjeri projektuju i implementiraju air-gapped AI arhitekture osiguravajući da podaci nikad ne napuštaju prostorije, istovremeno pružajući vašem poslovanju najsuvremenije AI mogućnosti.

Razgovarajte o sigurnoj AI arhitekturi →

11 Ekonomija
Ekonomska presuda: Lokalno vs. oblak

Prelazak na lokalni AI hardver je pomak od OpEx (operativni troškovi — mjesečne naknade za cloud API) ka CapEx (kapitalni troškovi — jednokratna investicija u hardver koja postaje aktiva u vašoj bilanci).

Razmotrite odvjetničko društvo koje koristi 200B model za analizu ugovora:

☁️ Cloud API
~30.000 EUR
godišnje (na velikoj skali)
1.000 ugovora/dan × ~0,01 EUR/1K tokena × 365 dana. Skalira se linearno s upotrebom. Podaci napuštaju mrežu.
🖥️ Lokalni hardver (DGX Spark)
~4.000 EUR
jednokratna investicija
+ ~30 KM/mjesečno struja. Neograničena upotreba. Podaci nikad ne napuštaju LAN. Imovina u bilanci.

Pri 1.000 upita dnevno, DGX Spark se isplati za manje od 2 mjeseca u usporedbi s cloud API troškovima. Pri višim nivoima upotrebe, period povrata se skraćuje na tjedne.

Ekonomija postaje još povoljnija kada uzmete u obzir:

  • Više zaposlenika dijeli isti hardver (DGX Spark opslužuje 2–5 istovremenih korisnika)
  • Bez cijene po tokenu — složeni, višestepeni zadaci rezoniranja ne koštaju ništa dodatno
  • Fino podešavanje na vlasničkim podacima — nemoguće s većinom cloud API-ja, besplatno na lokalnom hardveru
  • Vrijednost preprodaje hardvera — AI hardver zadržava značajnu vrijednost na sekundarnom tržištu