Vodič za lokalni AI hardver za MSP 2026.–2027.

NVIDIA DGX Spark – uređaj veličine knjige koji može pokretati AI modele s 200 milijardi parametara (400 milijardi kada povezana) – predstavlja novu eru vlasništva nad AI radnim stanicama>
API naknade po tokenu skaliraju se linearno s upotrebom. Odvjetnički ured koji obrađuje 1.000 ugovora dnevno može suočiti s %1$s godišnjih APIova.
Potrebna memorija: 400B AI model pri različitim razinama preciznosti
400B model s punom preciznošć800 GB memorije – server investicija od %1$s. Isti model kvantiziran na Int4 zahtijeva samo ~200 GB i može raditi na dva povezana DGX Spark (temeljena na GB10 Superchip) mini-računala za **%2$s**.
Mixture of Experts (MoE)

1 Temelj
Zašto lokalna AI? Poslovni argument za vlasništvo

Početkom 2020-ih, umjetna inteligencija bila je usluga koju ste iznajmljivali – po satu, po tokenu, po API pozivu. Do 2026. paradigma se promijenila. Hardver potreban za pokretanje inteligencije GPT-4 klase sada stane na vaš radni st i košta manje od rabljenog automobila.

Kontinuirano oslanjanje isključivo na AI u oblaku predstavlja strateški trilema:

Rastući troškovi. API naknade po tokenu skaliraju se linearno s upotrebom. Odvjetnički ured koji obrađuje 1.000 ugovora dnevno može suočiti s ~30.000 EUR godišnjih APIova.
Izloženost podataka. Svaki upit poslan cloud API-ju podatak je koji napušta vašu mrežu i izložen je rizicima sigurnosti i privatnosti podataka.
Nema ili skupa prilagodba. Cloud modeli su generički. Ne mogu se lako ili isplativo fino podesiti na prilagođene podatke, interne poslovne procese ili poslovnu inteligenciju.

Lokalni AI hardver rješava sva tri problema. Pretvara varijabilne API naknade u fiksnu kapitalnu iminu, osigurava da podaci nikada ne napuštaju LAN i omogućuje duboku prilagodbu kroz fino podešavanje na poslovnim podacima.

2 Smanjenje troškova
Kvantizacija: Pokrenite veće AI modele na jeftinijem hardveru

Kvantizacija je koncept koji temeljno mijenja ekonomiku lokalnog AI-a.

Jednostavno rečeno, kvantizacija smanjuje memorijski otisak AI modela. Standardni model pohranjuje svaki parametar kao 16-bitni broj s pomičnim zarezom (FP16). Kvantizacija to smanjuje na 8-bitni (Int8), 4-bitni (Int4) ili čak niže — drastično smanjujući količinu memorije potrebne za pokretanje modela.

Kvantizacija rezultira blagim smanjenjemitete izlaza – često neprimjetnim za poslovne zadatke poput sažimanja, izrade nacrta i analize – u zamjenu za ogromno smanjenje hardverskih troškova.

Potrebna memorija: 400B AI model pri različitim razinama preciznosti

FP16

Puna preciznost

~800 GB

Int8

Upola manja veličina

~400 GB

Int4

Četvrtina

~200 GB

FP16 – Maksimalna kvaliteta, maksimalni trošak

Int8 – Gotovo savršena kvaliteta, upola manji trošak

Int4 — Visoka kvaliteta, četvrtina troškova

Poslovni utjecaj

400B model s punom preciznošć800 GB memorije – server investicija od ~170 tis. EUR. Isti model kvantiziran na Int4 zahtijeva samo ~200 GB i može raditi na dva povezana DGX Spark (temeljena na GB10 Superchip) mini-računala za ~8.000 EUR.

Mješavina stručnjaka (MoE)

Mješavina stručnjaka je još jedan trik u arhitekturi AI modela koji omogućuje implementaciju masivnih modela bez ogromnih troškova memorije.

Umjesto korištenja svih parametara za svaki upit, MoE model aktivira samo dio svojih kapaciteta putem rijetke aktivacije.

MoE model s 2 bilijuna parametara poput Llama 4 Behemoth aktivira samo 288B parametara po upitu – pružajući vrhunsku inteligenciju uz djelić memorijskih troškova.

Kompromis

MoE modeli su nešto manje učinkoviti u jednostavnim zadacima poput sažimanja i klasifikacije u usporedbi s gustim modelima iste veličine. Za rad s znanjem i zaključivanje poput složene analize, generiranja koda i istraživanja, MoE modeli briljiraju.

Rijetka aktivacija rezultira bržom brzinom zaključivanja i bržim vremenom odgovora.

3 Mini računala
AI mini računala 11.000 kn - 75.000 kn

Najrevolucionarniji razvoj 2026. je AI računanje velikog kapaciteta u faktoru oblika mini računala. Uređaji ne veći od tvrdog uveza sada pokreću AI modele koji su prije dvije godine zahtijevali sobe za poslužitelje.

Ekosustav NVIDIA GB10 (DGX Spark)

Lider u performansama

NVIDIA DGX Spark definirao je ovu kategoriju. U 2026., GB10 Superchip – koji kombinira ARM Grace CPU s Blackwell GPU-om – iznjedrio je cijeli ekosustav. ASUS, GIGABYTE, Dell, Lenovo, HP, MSI i Supermicro svi proizvode sustave temeljene na GB10 svaki s različitim faktorima oblika, rashladnim rješenjima i priloženim softverom.

Ekosustav NVIDIA GB10 ASUS, GIGABYTE, Dell, Lenovo, HP, MSI i Supermicro

Od ~4.000 EUR

Memorija

128 GB

LPDDR5X Unified

Računska snaga

~1 PFLOP

FP8 AI performanse

Umrežavanje

10 GbE + Wi-Fi 7

ConnectX za klasteriranje

Pohrana

4 TB SSD

NVMe

Klasteriranje

Da (2inice)

256 GB zajedničke memorije

Softver

NVIDIA AI Enterprise

CUDA, cuDNN, TensorRT

Klasteriranje: Kapacitet 256 GB

Povezivanjem dviju GB10 jedinica preko namjenskog mrežnog priključka velike brzine, sustav objedinjuje resurse u 256 GB memorijski prostor. To omogućuje pokretanje vrlo velikih modela — 400B+ kvantiziranih parametara — u potpunosti na vašem stolu uz ukupnu hardversku investiciju od približno ~8.000 EUR.

AMD Ryzen AI Max (Strix Halo) mini računala

Najniži trošak

AMD-ova Ryzen AI Max+ Strix Halo arhitektura iznjedrila je potp novu kategoriju proračunskih AI mini računala. Val proizvođača – GMKtec, Beelink, Corsair, NIMO, Bosgame, FAVM – sada isporučuje sustave s 128 GB objedinjene memorije za manje od ~2.000 EUR.

AMD Ryzen AI Max mini računala GMKtec EVO-X2 · Beelink · Corsair · NIMO AI · Bosgame M5 · FAVM FA-EX9

Od ~1.500 EUR

Memorija

128 GB

LPDDR5 zajednička (CPU+GPU)

Računska snaga

~0.2 PFLOP

Integrirani RDNA 3.5 GPU

Propusnost

~200 GB/s

Propusnost memorije

Snaga

~100W

Tihi rad

Klasteriranje

Samo samostalno

Windows / Linux

ROCm / llama.cpp

Apple Mac Studio (M4 Ultra)

Lider u kapacitetu

Mac Studio zauzima jedinstvenu poziciju u lokalnom AI krajoliku. Apple-ova Unified Memory Architecture (UMA) pruža do 256 GB memorije dostupne i CPU-u i GPU-u u jednoj, kompaktnoj desktop jedinici bez potrebe za klasteriranjem.

To ga čini jedinim pristupačnim pojedinačnim uređajem sposobnim učitati najveće modele otvorenog koda. Model sa 400 milijardi parametara kvantiziran na Int4 u potpunosti stane u memoriju u konfiguraciji od 256 GB.

Apple Mac Studio (M4 Ultra) Lider u AI kapacitetu u jednoj jediniciDo 256 GB

Od ~4.000 EUR

Memorija

Do 256 GB

Unified Memory (UMA)

Računska snaga

~0.5 PFLOP

Apple Neural Engine + GPU

Softver

MLX Framework

Inferenca optimizirana za Apple

Ograničenje

Samo inferenca

Sporo za treniranje/fino podešavanje

Apple Mac Studio (M5 Ultra)

Nadolazeći kandidat

Apple-ova sljedeća generacija M5 Ultra, očekivana krajem 2026., navodno će riješiti glavnu slabost M4: performanse treniranja AI modela. Izrađen na TSMC-ovom 2nm procesu, očekuje se da će nuditi konfiguracije do 512 GB objedinjene memorije s propusnošću većom od 1,2 TB/s.

Apple Mac Studio (M5 Ultra) Očekivani AIj za treniranje

Proc. ~10.000 EUR

Memorija

Do 512 GB

Unified Memory sljedeće generacije

Računska snaga

~1.5+ PFLOP

2nm Neural Engine

Softver

MLX 2.0+

Izvorna podrška za treniranje

Mogućnosti

Treniranje i inferenca

CUDA alternativa

Propusnost memorije: Kapacitet 1,2 TB/s

512 GB M5 Ultra bio bi prvi potšački uređaj sposoban pokretati nekvatizirane (pune preciznosti) vrhunske modele. Visoka propusnost memorije od 1,2+ TB/s podržava agentne AI tijekove rada koji zahtijevaju kontinuiranu inferencu visoke propusnosti s vrlo dugim kontekstnim prozorima.

Tiiny AI

Džepno AI superračunalo

Izdan na Kickstarteru 2026. za 1.400 USD, Tiiny.ai Pocket AI Computer je džepno superračunalo s 80GB LGDDR5X memorije i 1TB SSD-om koje podržava lokalno pokretanje 120B AI modela bilo gdje.

S 300 grama (142×22×80mm) i napajan preko standardnog USB-C, podržava inovativne poslovne aplikacije. Tiiny AI izvještava o izlaznoj brzini od 21,14 tokena u sekundi za GPT-OSS-120B.

Tenstorrent

Hardver otvorenog k

Predvođen legendarnim arhitektom čipova Jimom Kellerom, Tenstorrent predstavlja temeljno drugačiju filozofiju: hardver otvorenog koda izgrađen na RISC-V, softver otvorenog koda i modularno skaliranje kroz ulančavanje.

Tensix AI jezgre dizajnirane su za linearno skaliranje: za razliku od GPU-a koji se muče s komunikacijskim opterećenjem kada dodate više kartica, Tenstorrent čipovi su izgrađeni da se učinkovito slažu.

U partnerstvu s Razerom, Tenstorrent je objavio kompaktni vanjski AI akcelerator koji se povezuje s bilo kojim prijenosnim ili stolnim računalom putem Thunderbolta – pretvarajući postojeći hardver u AI radnu stanicu bez zamjene bilo čega.

Razer × Tenstorrent kompaktni AI akcelerator Vanjski Thunderbolt AI akcelerator

Cijena Nepoznato

Memorija po kutiji

12 GB

GDDR6

ČipWormhole n150

Wormhole n150

Tensix jezgre · RISC-V

Skaliranje

Do 4 jedinice

48 GB AI kapaciteta

Softver

Potpuno otvorenogoda

GitHub · TT-Metalium

AI NAS — Mžno priključena pohrana

Pohrana + AI

Definicija NAS-a pomaknula se s pasivne pohrane na aktivnu inteligenciju. Nova generacija mrežnih uređaja za pohu izravno integrira AI obradu – od lagane inferencije temeljene na NPU do potpune implementacije LLM-a ubrzane GPU-om.

AI sposoban NAS eliminira potrebu za zasebnim AI uređajem i omogućuje izravnu obradu većih količina podataka bez kašnjenja u mrežnom prijenosu.

⏻

Trebate pomoć pri odabiru prave AI mini-pc računala za vaše poslovanje?

Naši inženjeri mogu procijeniti vaše zahtjeve za AI hardverom i implementirati potpuno konfiguriran AI sustav.

Zatražite besplatnu procjenu hardvera →

4 Radne stanice
AI radne stanice i stolna računala 3 tis. USD - 15 tis. USD

Kategorija radnih stanica koristi diskretne PCIe grafičke kartice i standardna kućišta tipa toranj. Za razliku od fiksnih integriranih arhitektura mini-pc kategorije, ova kategorija nudi modularnost — možete nadograditi pojedinačne komponente, dodati više GPU-a ili zamijeniti kartice kako tehnologija napreduje.

Radna stanica s dvostrukom RTX A6000 i NVLink mostom nudi 96 GB zajedničkog VRAM-a za otprilike 7.000 USD.

Razumijevanje VRAM-a naspram brzine

Dva konkurentska čimbenika određuju izbor GPU-a za AI:

📦

Kapacitet VRAM-a

Određuje veličinu modela koji možete učitati. Više VRAM-a znači veće, sposobnije modele. Ovo je vaša granica inteligencije.

⚡

Brzina izračuna

Određuje koliko brzo model reagira. Veća računska snaga znači niže kašnjenje po upitu. Ovo je vaše korisničko iskustvo.

Potrošačke kartice (poput RTX 5090) maksimiziraju brzinu, ali nude ograničen VRAM — obično 24–32 GB. Profesionalne kartice (poput RTX PRO 6000 Blackwell) maksimiziraju VRAM — do 96 GB po kartici — ali koštaju više po jedinici računske snage.

VRAM je ograničavajući čimbenik. Brza kartica s nedovoljno memorije uopće ne može učitati AI model. Sporija kartica s dovoljno memorije pokreće model — samo s dužim vremenom odgovora.

Potrošački GPU-i

Konfiguracija	Ukupni VRAM	Povezivanje	Proc. trošak
2×X 3090 (rabljeno)	48 GB	NVLink	3.000 USD
2× RTX 4090	48 GB	PCIe Gen 5	4.000 USD
2× RTX 5090	64 GB	PCIe Gen 5	7.000 USD

Profesionalni GPU-i

Konfiguracija	Ukupni VRAM	Povezivanje	Proc. trošak
2× RTX A6000 Najbolji omjer cijene i kvalitete	96 GB	NVLink	7.000 USD
2× RTX 6000 Ada	96 GB	PCIe Gen 5	83.000 kn
1× RTX PRO 6000 Blackwell	96 GB	NVLink	8.000 USD
4× RTX PRO 6000 Blackwell	384 GB	PCIe Gen 5	32.000 USD

GPU-i za podatkovne centre

Konfiguracija	Ukupni VRAM	Povezivanje	Proc. trošak
1× L40S	48 GB	PCIe 4.0 (pasivno hlađenje)	7.000 USD
1× A100 PCIe	80 GB	PCIe 4.0	10.000 USD
1× H200 NVL	141 GB	NVLink	30.000 USD
4× H200 NVL	564 GB	NVLink	120.000 USD
1× B200 SXM	180 GB	NVLink 5 (1,8 TB/s)	30.000 USD
8× B200 SXM	1.440 GB	NVLink 5 (1,8 TB/s)	240.000 USD

Kineski GPU-i

Kineski domaći GPU ekosustav brzo je sazrio. Nekoliko kineskih proizvođača sada nudi AI GPU-e radne klase s konkurentnim specifikacijama i znat nižim cijenama.

Konfiguracija	Ukupni VRAM	Vrsta memorije	Proc. trošak
1× Moore Threads MTT S4000	48 GB	GDDR6	800 USD
4× Moore Threads MTT S4000	192 GB	GDDR6	3.500 USD
8× Moore Threads MTT S4000	384 GB	GDDR6	6.500 USD
1× Hygon DCU Z100	32 GB	HBM2	2.500 USD
1× Biren BR104	32 GB	HBM2e	3.000 USD
8× Biren BR104	256 GB	HBM2e	24.000 USD
1× Huawei Ascend Atlas 300I Duo	96 GB	HBM2e	1.200 USD
8× Huawei Ascend Atlas 300I Duo	768 GB	HBM2e	10.000 USD

Uskoro

Konfiguracija	Ukupni VRAM	Status	Proc. trošak
RTX 5090 128 GB	128 GB	Kineska mod. — nije standardni SKU	5.000 USD
RTX Titan AI	64 GB	Očekuje se 2027.	3.000 USD

MSI NVIDIA RTX PRO 6000 Blackwell Server

NVIDIA DGX Station

Enterprise Apex

NVIDIA DGX Station je vodeno hlađena, stolna superračunala koja donose performanse podatkovnog centra u uredsko okruženje. Najnovija verzija koristi GB300 Grace Blackwell Superchip.

NVIDIA DGX Station GB300 Future-Proof Ultra

Proc. cijena ~200 tis. USD

Verzija Blackwell Ultra povećava gustoću memorije i računsku snagu, dizajnirana za organizacije koje trebaju trenirati prilagođene modele od nule ili lokalno pokretati masivne MoE (Mixture of Experts) arhitekture.

Memorija

~1,5 TB+

HBM3e (ultrabrzo)

Računska snaga

~20+ PFLOPS

FP8 AI performanse

Primjena

Prilagođeno treniranje

Razvoj modela

Snaga

Standardna utičnica

Nije potrebna soba za poslužitelje

NVIDIA DGX Station GB300 Blackwell Ultra

NVIDIA DGX Station A100 Pristupačna AI radna mašina

Od ~100 tis. USD

Iako temeljen na prethodnoj generaciji Ampere arhitekture, ostaje industrijski standard za pouzdano zaključivanje i fino podešavanje. Idealno prikladan za timove koji ulaze u AI prostor bez budžeta za Blackwell.

Memorija

320 GB

4x 80GB A100 GPU-a

Računska snaga

2 PFLOPS

FP16 AI performanse

Više korisnika

5–8 istovremenih

Umjerena istodobnost

Snaga

Standardna utičnica

Nije potrebna soba za poslužitelje

Iako je skup, DGX Station zamjenjuje ~300 tis. EUR server ormar i pripadajuću rashladnu infrastrukturu. Priključuje se u standardnu zidnu utičnicu. Time se u potpunosti eliminiraju troškovi server sobe.

⏻

Trebate pomoć pri odabiru prave AI radne stanice za vaše poslovanje?

Naši inženjeri mogu procijeniti vaše zahtjeve za AI hardverom i implementirati potpuno konfiguriran AI sustav.

Zatražite besplatnu procjenu hardvera →

5 Poslužitelji
AI poslužitelji 15 tis. EUR - 170 tis. EUR

Kada vauzeće treba opsluživati mnoge zaposlenike istovremeno, pok foundation-class modele s punom preciznošću ili fino podešavatiene modele na vlasacima – ulazite u server.

Ovo je domena namjenskih AI akceleratorskih kartica s memorijom velike propusnosti (HBM), specijaliziranim međupoveznicama i faktorima oblika za montažu u ormar ili na stol. Hardver je skuplji, ali cijena po korisniku dramatično pada na većim razmjerima.

Intel Gaudi 3

Najbolji omjer cijene i kvalitete na većim razmjerima

Intelov Gaudi 3 akcelerator dizajniran je od temelja kao čip za AI treniranje i zaključivanje — a ne prerađena grafička kartica. Svaka kartica nudi 128 GB HBM2e memorije s integriranim 400 Gb Ethernet umrežavanjem, eliminirajući potrebu za zasebnim mrežnim adapterima.

Gaudi 3 dostupan je u dva formata:

PCIHL-338): Standardni PCIe format za integraciju u postojeće poslužitelje. Procijenjena cijena: ~12.000 EUR po kartici.
OAM (OCP Accelerator Module): Visokogustoćni OCP standard za cloud podatkovne centre. 16.000 USD po čipu pri kupnji u kompletnim setovima od 8 čipova (~125.000 EUR ukupno s osnovnom pločom).

Poslužitelj s 8 Gaudi 3 kartica isčuje 1 TB ukupne AI memorije po znatno nižoj cijeni od usporedivog NVIDIA H100 sustava.

💾

Memorija po kartici

128 GB

HBM2e — podudara se s DGX Spark u jednoj kartici

⚡

Ukupno za 8 kartica

1 TB

1.024 GB zajedničke memorije za najveće modele

💰

Trošak sustava

~170 tis. EUR

Jeftinije od usporedive NVIDIA H100 konfiguracije

AMD Instinct MI325X

Maksimalna gustoća

AMD Instinct MI325X sadrži 256 GB HBM3e memorije po kartici – dvostruko više od Intel Gaudi 3. Za postizanje 1 TB ukupne AI memorije potrebne su samo 4 kartice, u usporedbi s 8 kod Intela.

💾

Ukupna memorija za 4 kartice

1 TB

Upola manje kartica od Intel-a za isti kapacitet

⚡

Propusnost

6 TB/s

Po kartici — omogućuje istovremene korisnike

💰

Trošak sustava

~200 tis. EUR

Ulazni trošak s 1 karticom ~60 tis. EUR

MI325 skuplji po sustavu od Gaudi 3, ali brži i gušći. Za radna opterećenja zahtijevaju maksimalnu propusnost – zaključivanje u stvarnom vremenu za više korisnika ili treniranje prilagođenih modela na velikim skupovima podataka – veća investicija isplati se smanjenjem latencije i jednostavnijom infrastrukturom.

Huawei Ascend

Full-stack alternativa

Huawei je replicirao cijeli AI infrastrukturni stack: prilagođene čipove (Ascend 910B/C), vlasničke međupoveznice (HCCS) i cjeloviti softverski okvir (CANN). Rezultat je samostalan ekosustav koji djeluje neovisno o zapadnim opskrbnim lancima i uz znatno nižu cijenu od usporedivih NVIDIA H100 klastera.

Intel Xeon 6 (Granite Rapids)

Budžetski poslužitelj

Tiha revolucija 2026. je uspon CPU-baziranog AI zaključivanja. Intel Xeon 6 procesori uključuju AMX (Advanced Matrix Extensions) koji omogućuju AI radna opterećenja na standardnom DDR5 RAM-u — koji je dramatično jeftiniji od GPU memorije.

Kompromis

Dvosoketni Xeon 6 poslužitelj može držati 1 TB do 4 TB DDR5 RAM-a za djelić cijene GPU memorije. Brzine zaključivanja su spore, ali za grupnu obradu — gdje je brzina nebitna, ali su inteligencija i kapacitet najvažniji — ovo je transformativno.

Primjer: MSP prenese 100.000 skeniranih računa preko noći. Xeon 6 poslužitelj pokreće +400B AI model za savršeno izdvajanje podataka. Zadatak traje 10 sati, ali trošak hardvera je puno niži nego za GPU poslužitelj.

⏻

Trebate pomoć pri odabiru prave AI infrastrukture za poslužitelje?

Naš infrastrukturni tim dizajnira i implementira kompletna AI rješenja za poslužitelje – od Intel Gaudi do NVIDIA DGX – kombinirana s prilagođenim softverom – kako bismo otključali sposobnosti AI-a za vaše poslovanje.

Zatražite prijedlog arhitekture poslužitelja →

6 Rubna AI
Rubna AI & Retrofit Nadogradnja postojeće infrastrukture

Nije svakom MSP-u potreban namjenski AI poslužitelj ili mini-računalo. Mnogi mogu ugraditi inteligenciju u postojeću infrastrukturu – nadograđujući prijenosna računala, stolna računala i mrežne uređaje s AI sposobnostima uz minimalne troškove.

M.2 AI ubrzivači: Hailo-10

Hailo-10 je standardni M.2 2280 modul – isti utor koji se koristi za SSD-ove – koji dodaje namjensku AI obradu bilo kojem postojećem računalu. Po cijeni od ~~150 EUR po jedinici i potrošnji od samo 5–8W, omogućuje nadogradnju cijele flote na AI bez zamjene hardvera.

📎

Faktor oblika

M.2 2280

Stane u bilo koji standardni SSD utor

⚡

Performanse

20–50 TOPS

Optimizirano za rubno zaključivanje

💰

Troškovi

~150 EUR

Po jedinici – nadogradnja flote za manje od ~3.000 EUR

Primjene: Lokalna transkripcija sastanaka (Whisper), titlovanje u stvarnom vremenu, glasovno diktiranje, zaključivanje malih modela (Phi-3 Mini). Ove kartice ne mogu pokretati velike LLM-ove, ali izvrsno obavljaju specifične, trajne AI zadatke – osiguravajući da se glasovni podaci obrađuju lokalno i nikad ne šalju u oblak.

Copilot+ računala (NPU prijenosna računala)

Laptopi s Qualcomm Snapdragon X Elite, Intel Core Ultra ili AMD Ryzen AI čipovima sadrže namjenske Neural Processing Units (NPU) –izirane AI čipove. Oni ne mogu pokretati velike LLM-ove, ali rješavaju male, trajne AI zadatke: transkripciju uživo, zamućenje pozadine, lokalne Recall značajke i pokretanje laganih modela poput Microsoft Phi-3.

NPU-ovi se ocjenjuju u TOPS (Tera operacija u sekundi), što mjeri koliko AI posla mogu obaviti. Najsnažniji Copilot+ PC-ovi 2026. imat će ~50 TOPS. Viši TOPS znači brže odgovore i mogućnost rukovanja nešto većim AI modelima.

9 AI modeli
AI modeli otvorenog koda (2026–2027)

Izbor AI modela određuje hardverske zahtjeve – ali kao što je pokazalo poglavlje o Kvantizaciji AI modela, kvantizacija omogućuje da vrhunski modeli rade na hardveru koji košta djelić onoga što zahtijeva implementacija pune preciznosti.

Donja tablica daje pregled trenutnih i nadolazećih AI modela otvorenog koda.

Model	Veličina	Arhitektura	Memorija (FP16)	Memorija (INT4)
Llama 4 Behemoth	288B (aktivno)	MoE (~2T ukupno)	~4 TB	~1 TB
Llama 4 Maverick	17B (aktivno)	MoE (400B ukupno)	~800 GB	~200 GB
Llama 4 Scout	17B (aktivno)	MoE (109B ukupno)	~220 GB	~55 GB
DeepSeek V4	~70B (aktivno)	MoE (671B ukupno)	~680 GB	~170 GB
DeepSeek R1	37B (aktivno)	MoE (671B ukupno)	~140 GB	~35 GB
DeepSeek V3.2	~37B (aktivno)	MoE (671B ukupno)	~140 GB	~35 GB
Kimi K2.5	32B (aktivno)	MoE (1T ukupno)	~2 TB	~500 GB
Qwen 3.5	397B (aktivno)	MoE (A17B)	~1.5 TB	~375 GB
Qwen 3-Max-Thinking	Velik	Gust	~2 TB	~500 GB
Qwen 3-Coder-Next	480B (A35B aktivno)	MoE	~960 GB	~240 GB
Mistral Large 3	123B (41B aktivno)	MoE (675B ukupno)	~246 GB	~62 GB
Ministral 3 (3B, 8B, 14B)	3B–14B	Gust	~6–28 GB	~2–7 GB
GLM-5	44B (aktivno)	MoE (744B ukupno)	~1.5 TB	~370 GB
GLM-4.7 (Thinking)	Velik	Gust	~1.5 TB	~375 GB
MiMo-V2-Flash	15B (aktivno)	MoE (309B ukupno)	~30 GB	~8 GB
MiniMax2.5	~10B (aktivno)	MoE (~230B ukupno)	~460 GB	~115 GB
Phi-5 Reasoning	14B	Gust	~28 GB	~7 GB
Phi-4	14B	Gust	~28 GB	~7 GB
Gemma 3	27B	Gust	~54 GB	~14 GB
Pixtral 2 Large	90B	Gust	~180 GB	~45 GB
Stable Diffusion 4	~12B	DiT	~24 GB	~6 GB
FLUX.2 Pro	15B	DiT	~30 GB	~8 GB
Open-Sora 2.0	30B	DiT	~60 GB	~15 GB
Whisper V4	1.5B	Gust	~3 GB	~1 GB
Med-Llama 4	70B	Gust	~140 GB	~35 GB
Legal-BERT 2026	35B	Gust	~70 GB	~18 GB
Finance-LLM 3	15B	Gust	~30 GB	~8 GB
CodeLlama 4	70B	Gust	~140 GB	~35 GB
Molmo 2	80B	Gust	~160 GB	~40 GB
Granite 4.0	32B (9B aktivno)	Hibridni Mamba-Transformer	~64 GB	~16 GB
Nemotron 3	8B, 70B	Gust	~16–140 GB	~4–35 GB
EXAONE 4.0	32B	Gust	~64 GB	~16 GB
Llama 5 Frontier	~1.2T (ukupno)	MoE	~2.4 TB	~600 GB
Llama 5 Base	70B–150B	Gust	~140–300 GB	~35–75 GB
DeepSeek V5	~600B (ukupno)	MoE	~1.2 TB	~300 GB
Stable Diffusion 5	Nader te odrediti	DiT	—	—
Falcon 3	200B	Gust	~400 GB	~100 GB

Strateški savjet

Nemojte prvo kupiti hardver. Identificirajte klasu modela koja odgovara vašim poslovnim potrebama, zatim primijenite kvantizaciju kako biste odredili najpristupačniji sloj hardvera.

Razlika između 3.000 USD i 150.000 USD investicije često se svodi na zahtjeve veličine modela i broj istodobnih korisnika.

Trendovi koji oblikuju krajolik AI modela

Izvorna multimodalnost kao standard. Novi modeli treniraju se na tekstu, slikama, audio i video zapisima istovremeno – ne kao zasebne sposobnosti dodane nakon treniranja. To znači da jedan model upravlja analizom dokumenata, razumijevanjem slika i glasovnom interakcijom.
Mali modeli postižu sposobnosti velikih modela. Phi-5 (14B) i MiMo-V2-Flash pokazuju da arhitektonske inovacije mogu sažeti vrhunsko zaključivanje u modele koji rade na prijenosnom računalu. Doba "veće je bolje" završava.
Specijalizacija umjesto generalizacije. Umjesto jednog masivnog modela za sve, trend je prema ansamblima specijaliziranih modela – kodni model, model rasuđivanja, vizualni model – koordinira agentnim okvirom. To smanjuje hardverske zahtjeve po modelu uz poboljšanje ukupne kvalitete.
Agentna AI. poput Kimi K2.5 i Qwen 3 dizajnirani su da autonomno rastavljaju složene zadatke, pozivaju vanjske alate i koordiniraju s drugim modelima. Ova agentna roj paradigma zahtijeva trajni protok tijekom dugih sesija – favorizirajući hardver s velikom propusnošću poput GB10 i M5 Ultra.
Zrelina video i 3D generacije. Open-Sora 2.0 i FLUX.2 Pro signaliziraju da lokalna generacija videa postaje praktična. Do 2027. očekujete pomoćnike za uređivanje videa u stvarnom vremenu koji rade na hardveru klase radne stanice.

10 Sigurnost
Arhitektura za maksimalnu sigurnost

Glavna prednost lokalnog AI hardvera nije performansa – već suverenitet podataka. Kad vaš AI poslužitelj radi iza vašeg firewall-a, umjesto u tuđem cloudu, vaši osjetljivi podaci nikad ne napuštaju zgradu.

Air-Gapped API arhitektura fizički izolira AI poslužitelj od interneta dok ga čini dostupnim ovlaštenim zaposlenicima putem API sučelja.

Arhitektura API-ja s zračnim rasporom

👤 Zaposlenik Standardna radna stanica

→

🔀 Posrednički poslužitelj Auth + UI + Usmjeravanje

⟶

🔒 AI poslužitelj Zračni raspore · Bez interneta

AI trezor

Ova arhitektura stvara Digitalni trezor. Čak i ako bi se Posrednički poslužitelj kompromitirao, napadač bi mogao slati samo tekstualne upite – ne bi mogao pristupiti datotečnom sustavu AI poslužitelja, težinama modela, podacima za fino podešavanje ili bilo kojim pohranjenim dokumentima.

⏻

Trebate sigurnu AI implementaciju s prilagođenim AI rješenjima?

Naši inženjeri projektiraju i implementiraju AI arhitekture s zračnim rasporom osiguravajući da podaci nikad ne napuštaju prostorije, istovremeno pružajući vašem poslovanju najsuvremenije AI mogućnosti.

Razgovarajte o sigurnoj AI arhitekturi →

11 Ekonomika
Ekonomska presuda: Lokalno naspram obl

Prijelaz na lokalni AI hardver je pomak s OpEx-a (operativnih izdataka – mjesečnih naknada za cloud API) na CapEx (investicijski izdaci – jednokratna investicija u hardver koja postaje imovina u vašoj bilanci).

Razmotrite odvjetnički ured koji pokreće 200B model za analizu ugovora:

☁️ Cloud API

~30.000 EUR

godišnje (na velikoj skali)

1.000 ugovora/dan × ~0,01 EUR/1K tokena × 365 dana. Skalira se linearno s upotrebom. Podaci napuštaju mrežu.

🖥️ Lokalni hardver (DGX Spark)

~4.000 EUR

jednokratna investicija

+ ~15 EUR/mjesečno struja. Neograničena upotreba. Podaci nikad ne napuštaju LAN. Imovina u bilanci.

Pri 1.000 upita dnevno, DGX Spark se isplati u manje od 2 mjeseca u usporedbi s troškovima cloud API-ja. Pri višim razinama korištenja, razdoblje povrata skraćuje se na tjedne.

Ekonomika postaje još povoljnija kada uzmete u obzir:

Više zaposlenika dijeli isti hardver (DGX Spark opslužuje 2–5 istodobnih korisnika)
Bez cijene po tokenu – složeni, višestupanjski zadaci rasuđivanja ne koštaju ništa dodatno
Fino podešavanje na vlastitim podacima – nemoguće s većinom cloud API-ja, besplatno na lokalnom hardveru
Vrijednost preprodaje hardvera – AI hardver zadržava značajnu vrijednost na sekundarnom tržištu

Kompletan vodič za lokalni AI hardver za MSP

1 Temelj
Zašto lokalna AI? Poslovni argument za vlasništvo

2 Smanjenje troškova
Kvantizacija: Pokrenite veće AI modele na jeftinijem hardveru

Mješavina stručnjaka (MoE)

3 Mini računala
AI mini računala 11.000 kn - 75.000 kn

Ekosustav NVIDIA GB10 (DGX Spark)

AMD Ryzen AI Max (Strix Halo) mini računala

Apple Mac Studio (M4 Ultra)

Apple Mac Studio (M5 Ultra)

Tiiny AI

Tenstorrent

AI NAS — Mžno priključena pohrana

Trebate pomoć pri odabiru prave AI mini-pc računala za vaše poslovanje?

4 Radne stanice
AI radne stanice i stolna računala 3 tis. USD - 15 tis. USD

Razumijevanje VRAM-a naspram brzine

Potrošački GPU-i

Profesionalni GPU-i

GPU-i za podatkovne centre

Kineski GPU-i

Uskoro

NVIDIA DGX Station

Trebate pomoć pri odabiru prave AI radne stanice za vaše poslovanje?

5 Poslužitelji
AI poslužitelji 15 tis. EUR - 170 tis. EUR

Intel Gaudi 3

AMD Instinct MI325X

Huawei Ascend

Intel Xeon 6 (Granite Rapids)

Trebate pomoć pri odabiru prave AI infrastrukture za poslužitelje?

6 Rubna AI
Rubna AI & Retrofit Nadogradnja postojeće infrastrukture

M.2 AI ubrzivači: Hailo-10

Copilot+ računala (NPU prijenosna računala)

9 AI modeli
AI modeli otvorenog koda (2026–2027)

Trendovi koji oblikuju krajolik AI modela

10 Sigurnost
Arhitektura za maksimalnu sigurnost

Trebate sigurnu AI implementaciju s prilagođenim AI rješenjima?

11 Ekonomika
Ekonomska presuda: Lokalno naspram obl

Uključite inteligenciju ON za svoje poslovanje

Kompletan vodič za lokalni AI hardver za MSP

1 TemeljZašto lokalna AI? Poslovni argument za vlasništvo

2 Smanjenje troškovaKvantizacija: Pokrenite veće AI modele na jeftinijem hardveru

Mješavina stručnjaka (MoE)

3 Mini računalaAI mini računala 11.000 kn - 75.000 kn

Ekosustav NVIDIA GB10 (DGX Spark)

AMD Ryzen AI Max (Strix Halo) mini računala

Apple Mac Studio (M4 Ultra)

Apple Mac Studio (M5 Ultra)

Tiiny AI

Tenstorrent

AI NAS — Mžno priključena pohrana

Trebate pomoć pri odabiru prave AI mini-pc računala za vaše poslovanje?

4 Radne staniceAI radne stanice i stolna računala 3 tis. USD - 15 tis. USD

Razumijevanje VRAM-a naspram brzine

Potrošački GPU-i

Profesionalni GPU-i

GPU-i za podatkovne centre

Kineski GPU-i

Uskoro

NVIDIA DGX Station

Trebate pomoć pri odabiru prave AI radne stanice za vaše poslovanje?

5 PoslužiteljiAI poslužitelji 15 tis. EUR - 170 tis. EUR

Intel Gaudi 3

AMD Instinct MI325X

Huawei Ascend

Intel Xeon 6 (Granite Rapids)

Trebate pomoć pri odabiru prave AI infrastrukture za poslužitelje?

6 Rubna AIRubna AI & Retrofit Nadogradnja postojeće infrastrukture

M.2 AI ubrzivači: Hailo-10

Copilot+ računala (NPU prijenosna računala)

9 AI modeliAI modeli otvorenog koda (2026–2027)

Trendovi koji oblikuju krajolik AI modela

10 SigurnostArhitektura za maksimalnu sigurnost

Trebate sigurnu AI implementaciju s prilagođenim AI rješenjima?

11 EkonomikaEkonomska presuda: Lokalno naspram obl

Uključite inteligenciju ON za svoje poslovanje

1 Temelj
Zašto lokalna AI? Poslovni argument za vlasništvo

2 Smanjenje troškova
Kvantizacija: Pokrenite veće AI modele na jeftinijem hardveru

3 Mini računala
AI mini računala 11.000 kn - 75.000 kn

4 Radne stanice
AI radne stanice i stolna računala 3 tis. USD - 15 tis. USD

5 Poslužitelji
AI poslužitelji 15 tis. EUR - 170 tis. EUR

6 Rubna AI
Rubna AI & Retrofit Nadogradnja postojeće infrastrukture

9 AI modeli
AI modeli otvorenog koda (2026–2027)

10 Sigurnost
Arhitektura za maksimalnu sigurnost

11 Ekonomika
Ekonomska presuda: Lokalno naspram obl