Lokalni vodič za AI hardver za mala i srednja preduzeća 2026–2027

NVIDIA DGX Spark – uređaj veličine knjige koji može pokretati AI modele sa 200 milijardi parametara (400 milijardi kada su dva povezana) – predstavlja novu eru desktop AI vlasništva.

1 Temelj
Zašto lokalni AI? Poslovni slučaj za vlasništvo

Početkom 2020-ih, umjetna inteligencija bila je usluga koju ste iznajmljivali — po satu, po tokenu, po API pozivu. Do 2026. godine, paradigma se promijenila. Hardver potreban za pokretanje inteligencije GPT-4 klase sada stane na vaš sto i košta manje od rabljenog automobila.

Kontinuirano oslanjanje na isključivo cloud AI predstavlja strateški trilema:

Rastući troškovi. API naknade po tokenu skaliraju se linearno s upotrebom. Odvjetničko društvo koje obrađuje 1.000 ugovora dnevno može suočiti s ~30.000 EUR godišnjih API troškova.
Izloženost podataka. Svaki upit poslan cloud API-u podatak je koji napušta vašu mrežu i izložen je rizicima sigurnosti i privatnosti podataka.
Nula ili skupa prilagodba. Cloud modeli su generički. Ne mogu se lako ili isplativo fino prilagoditi na prilagođene podatke, interne poslovne procese ili poslovnu inteligenciju.

Lokalni AI hardver rješava sva tri problema. Pretvara varijabilne API naknade u fiksni kapitalni asset, osigurava da podaci nikad ne napuštaju LAN i omogućava duboku prilagodbu kroz fino podešavanje na poslovnim podacima.

2 Smanjenje troškova
Kvantizacija: Pokrenite veće AI modele na jeftinijem hardveru

Kvantizacija je koncept koji temeljno mijenja ekonomiku lokalnog AI-a.

Jednostavno rečeno, kvantizacija komprimira memorijski otisak AI modela. Standardni model pohranjuje svaki parametar kao 16-bitni broj s pokretnim zarezom (FP16). Kvantizacija ovo smanjuje na 8-bitni (Int8), 4-bitni (Int4) ili čak niže — dramatično smanjujući količinu memorije potrebne za pokretanje modela.

Kvantizacija rezultira blagim smanjenjem kvalitete izlaza — često neprimjetnim za poslovne zadatke poput sažimanja, izrade nacrta i analize — u zamjenu za ogromno smanjenje hardverskih troškova.

Potrebna memorija: 400B AI model na različitim nivoima preciznosti

FP16

Puna preciznost

~800 GB

Int8

Pola veličine

~400 GB

Int4

Četvrtina

~200 GB

FP16 — Maksimalna kvaliteta, maksimalni trošak

Int8 — Gotovo savršena kvaliteta, pola troškova

Int4 — Visoka kvaliteta, četvrtina troškova

Poslovni utjecaj

400B model s punom preciznošću zahtijeva ~800 GB memorije – server investicija od ~170k EUR. Isti model kvantiziran na Int4 zahtijeva samo ~200 GB i može raditi na dva povezana DGX Spark (baziran na GB10 Superchip) mini-računara za ~8.000 EUR.

Mixture of Experts (MoE)

Mixture of Experts je još jedan trik u arhitekturi AI modela koji omogućuje implementaciju masivnih modela bez masivnih memorijskih troškova.

Umjesto korištenja svih parametara za svaki upit, MoE model aktivira samo dio svojih kapaciteta kroz rijetku aktivaciju.

MoE model sa 2 biliona parametara kao što je Llama 4 Behemoth aktivira samo 288B parametara po upitu – pružajući vrhunsku inteligenciju uz djelić memorijskih troškova.

Kompromis

MoE modeli su nešto manje efikasni u jednostavnim zadacima poput sažimanja i klasifikacije u usporedbi s gustim modelima iste veličine. Za znanstveni rad i zaključivanje kao što su kompleksna analiza, generiranje koda i istraživanje, MoE modeli briljiraju.

Rijetka aktivacija rezultira bržom brzinom inferencije i bržim vremenom odgovora.

3 Mini-PC
AI mini-PC 3.000 KM – 20.000 KM

Najrevolucionarniji razvoj 2026. je AI računarstvo visokog kapaciteta u mini-PC formatu. Uređaji ne veći od tvrdog uveza sada pokreću AI modele koji su prije dvije godine zahtijevali serverske sobe.

NVIDIA GB10 ekosistem (DGX Spark)

Lider performansi

NVIDIA DGX Spark definirao je ovu kategoriju. U 2026., GB10 Superchip — kombinirajući ARM Grace CPU s Blackwell GPU — iznjedrio je čitav ekosistem. ASUS, GIGABYTE, Dell, Lenovo, HP, MSI i Supermicro svi proizvode GB10 bazirane sisteme, svaki s različitim faktorima oblika, rashladnim rješenjima i priloženim softverom.

NVIDIA GB10 ekosistem ASUS, GIGABYTE, Dell, Lenovo, HP, MSI i Supermicro

Od ~4.000 EUR

Memorija

128 GB

LPDDR5X Unified

Računska snaga

~1 PFLOP

FP8 AI performanse

Mreža

10 GbE + Wi-Fi 7

ConnectX za klasteriranje

Pohrana

4 TB SSD

NVMe

Klasteriranje

Da (2 jedinice)

256 GB zajednička memorija

Softver

NVIDIA AI Enterprise

CUDA, cuDNN, TensorRT

Klasteriranje: Kapacitet 256 GB

Povezivanjem dvije GB10 jedinice preko namjenskog porta za brzu mrežu, sistem objedinjuje resurse u 256 GB memorijski prostor. Ovo otključava mogućnost pokretanja vrlo velikih modela — 400B+ kvantiziranih parametara — u potpunosti na vašem stolu za otprilike ~8.000 EUR ukupne hardverske investicije.

AMD Ryzen AI Max (Strix Halo) Mini-PC

Najniži trošak

AMD-ova Ryzen AI Max+ Strix Halo arhitektura iznjedrila je potpuno novu kategoriju budžet AI mini-PC-a. Val proizvođača — GMKtec, Beelink, Corsair, NIMO, Bosgame, FAVM — sada isporučuje sisteme sa 128 GB objedinjene memorije za ispod ~2.000 EUR.

AMD Ryzen AI Max Mini-PC GMKtec EVO-X2 · Beelink · Corsair · NIMO AI · Bosgame M5 · FAVM FA-EX9

Od ~1.500 EUR

Memorija

128 GB

LPDDR5 zajednička (CPU+GPU)

Računska snaga

~0.2 PFLOP

Integrirana RDNA 3.5 GPU

Propusnost

~200 GB/s

Propustljivost memorije

Snaga

~100W

Tihi rad

Klasteriranje

Samo samostalno

Windows / Linux

ROCm / llama.cpp

Apple Mac Studio (M4 Ultra)

Lider kapaciteta

Mac Studio zauzima jedinstvenu poziciju u lokalnom AI krajoliku. Apple-ova Unified Memory Architecture (UMA) pruža do 256 GB memorije dostupne i CPU-u i GPU-u u jednoj, kompaktnoj desktop jedinici — bez potrebe za klasteriranjem.

Ovo ga čini jedinim pristupačnim pojedinačnim uređajem sposobnim za učitavanje najvećih open-source modela. Model sa 400 milijardi parametara kvantiziran na Int4 u potpunosti stane u memoriju na 256 GB konfiguraciji.

Apple Mac Studio (M4 Ultra) Lider AI kapaciteta u jednoj jedinici

Od ~4.000 EUR

Memorija

Do 256 GB

Objedinjena memorija (UMA)

Računska snaga

~0.5 PFLOP

Apple Neural Engine + GPU

Softver

MLX Framework

Apple-optimizirana inferencija

Ograničenje

Samo inferencija

Sporo za treniranje/fino podešavanje

Apple Mac Studio (M5 Ultra)

Nadolazeći kandidat

Apple-ova sljedeća generacija M5 Ultra, očekivana krajem ., navodno će riješiti glavnu slabost M4: performanse treniranja AI modela. Izgrađen na TSMC-ovom 2nm procesu, očekuje se da će nuditi konfiguracije do 512 GB objedinjene memorije s propusnošću većom od 1.2 TB/s.

Apple Mac Studio (M5 Ultra) Očekivani AI trening powerhouse

Proc. ~10.000 EUR

Memorija

Do 512 GB

Objedinjena memorija sljedeće generacije

Računska snaga

~1.5+ PFLOP

2nm Neural Engine

Softver

MLX 2.0+

Podrška za native treniranje

Mogućnosti

Treniranje i inferencija

CUDA-alternativa

Propusnost memorije: Kapacitet 1.2 TB/s

512 GB M5 Ultra bio bi prvi potrošački uređaj sposoban za pokretanje nekvatiziranih (pune preciznosti) frontier modela. Visoka propusnost memorije od 1.2+ TB/s podržava agentne AI tokove rada koji zahtijevaju kontinuiranu inferenciju visokog protoka s vrlo dugim kontekstnim prozorima.

Tiiny AI

Džepni AI superračunar

Izdan na Kickstarteru 2026. za 1.400 USD, Tiiny.ai Pocket AI Computer je džepni superračunar sa 80GB LGDDR5X memorije i 1TB SSD-om koji podržava lokalno pokretanje 120B AI modela bilo gdje.

Sa 300 grama (142×22×80mm) i napajan preko standardnog USB-C, podržava inovativne poslovne aplikacije. Tiiny AI izvještava o izlaznoj brzini od 21,14 tokena u sekundi za GPT-OSS-120B.

Tenstorrent

Open Source hardver

Predvođen legendarnim arhitektom čipova Jimom Kellerom, Tenstorrent predstavlja fundamentalno drugačiju filozofiju: open-source hardver izgrađen na RISC-V, open-source softver i modularno skaliranje kroz ulančavanje.

Tensix AI jezgre dizajnirane su za linearno skaliranje: za razliku od GPU-a, koji se bore s komunikacijskim opterećenjem kada dodate više kartica, Tenstorrent čipovi su izgrađeni za efikasno pločasto povezivanje.

U partnerstvu s Razerom, Tenstorrent je izdao kompaktni eksterni AI akcelerator koji se povezuje s bilo kojim laptopom ili desktopom preko Thunderbolta — pretvarajući postojeći hardver u AI radnu stanicu bez zamjene bilo čega.

Razer × Tenstorrent kompaktni AI akcelerator Eksterni Thunderbolt AI akcelerator

Cijena Nepoznato

Memorija po kutiji

12 GB

GDDR6

Čip

Wormhole n150

Tensix jezgre · RISC-V

Skaliranje

Do 4 jedinice

48 GB AI kapaciteta

Softver

Potpuno open-source

GitHub · TT-Metalium

AI NAS — Mrežno priključeno skladište

Pohrana + AI

Definicija NAS-a pomaknula se s pasivne pohrane na aktivnu inteligenciju. Nova generacija mrežnih uređaja za pohranu integrira AI obradu direktno — od lagane NPU bazirane inferencije do potpune GPU ubrzane LLM implementacije.

AI sposoban NAS eliminiše potrebu za zasebnim AI uređajem i omogućava direktnu obradu većih količina podataka bez latencije mrežnog transfera.

⏻

Trebate pomoć pri odabiru prave AI mini-pc konfiguracije za vaše poslovanje?

Naši inženjeri mogu procijeniti vaše AI hardverske zahtjeve i implementirati potpuno konfigurisan AI sistem.

Zatražite besplatnu procjenu hardvera →

4 Radne stanice
AI radne stanice & desktop računari 3k USD - 15k USD

Kategorija radnih stanica koristi diskretne PCIe grafičke kartice i standardna kućišta tipa toranj. Za razliku od fiksnih integriranih arhitektura mini-pc kategorije, ova kategorija nudi modularnost — možete nadograditi pojedinačne komponente, dodati više GPU-a ili zamijeniti kartice kako tehnologija napreduje.

Radna stanica sa dvije RTX A600 kartice i NVLink mostom nudi 96 GB kombiniranog VRAM-a za otprilike 7.000 USD.

Razumijevanje VRAM-apram brzine

Dva konkurišuća faktora određuju izbor GPU-a za AI:

📦

Kapacitet VRAM-a

Određuje veličinu modela koji možete učitati. Više VRAM-a znači veće, sposobnije modele. Ovo je vaša granica inteligencije.

⚡

Brzina izračunavanja

Određuje koliko brzo model reaguje. Veća računska snaga znači manju latenci po upitu. Ovo je vaše korisničko iskustvo.

Potrošačke kartice (poput RTX 5090) maksimiziraju brzinu, ali nude ograničen VRAM — tipično 24–32 GB. Profesionalne kartice (poput RTX PRO 6000 Blackwell) maksimiziraju VRAM — do 96 GB po kartici — ali koštaju više po jedinici računske snage.

VRAM je ograničavajući faktor. Brza kartica s nedovoljno memorije ne može uopće učitati AI model. Sporija kartica s dovoljno memorije pokreće model — samo s dužim vremenom odgovora.

Potrošački GPU-i

Konfiguracija	Ukupni VRAM	Povezivanje	Proc. cijena
2× RTX 3090 (rabljeno)	48 GB	NVLink	3.000 USD
2× RTX 4090	48 GB	PCIe Gen 5	4.000 USD
2× RTX 5090	64 GB	PCIe Gen 5	7.000 USD

Profesionalni GPU-i

Konfiguracija	Ukupni VRAM	Povezivanje	Proc. cijena
2× RTX A6000 Najbolji omjer cijene i kvaliteta	96 GB	NVLink	7.000 USD
2× RTX 6000 Ada	96 GB	PCIe Gen 5	13.000 USD
1× RTX PRO 6000 Blackwell	96 GB	NVLink	8.000 USD
4× RTX PRO 6000 Blackwell	384 GB	PCIe Gen 5	32.000 USD

Datacenter GPU-i

Konfiguracija	Ukupni VRAM	Povezivanje	Proc. cijena
1× L40S	48 GB	PCIe 4.0 (pasivno hlađenje)	7.000 USD
1× A100 PCIe	80 GB	PCIe 4.0	10.000 USD
1× H200 NVL	141 GB	NVLink	30.000 USD
4× H200 NVL	564 GB	NVLink	120.000 USD
1× B200 SXM	180 GB	NVLink 5 (1,8 TB/s)	30.000 USD
8× B200 SXM	1.440 GB	NVLink 5 (1,8 TB/s)	240.000 USD

Kineski GPU-i

Kineski domaći GPU ekosistem je brzo sazrio. Nekoliko kineskih proizvođača sada nudi AI GPU-e radne klase sa konkurentnim specifikacijama i znatno nižim cijenama.

Konfiguracija	Ukupni VRAM	Tip memorije	Proc. cijena
1× Moore Threads MTT S4000	48 GB	GDDR6	800 USD
4× Moore Threads MTT S4000	192 GB	GDDR6	3.500 USD
8× Moore Threads MTT S4000	384 GB	GDDR6	6.500 USD
1× Hygon DCU Z100	32 GB	HBM2	2.500 USD
1× Biren BR104	32 GB	HBM2e	3.000 USD
8× Biren BR104	256 GB	HBM2e	24.000 USD
1× Huawei Ascend Atlas 300I Duo	96 GB	HBM2e	1.200 USD
8× Huawei Ascend Atlas 300I Duo	768 GB	HBM2e	10.000 USD

Uskoro

Konfiguracija	Ukupni VRAM	Status	Proc. cijena
RTX 5090 128 GB	128 GB	Kineska mod. — nije standardni SKU	5.000 USD
RTX Titan AI	64 GB	Očekivano 2027.	3.000 USD

MSI NVIDIA RTX PRO 6000 Blackwell Server

NVIDIA DGX Station

Enterprise Apex

NVIDIA DGX Station je vodenohlađeni, stolni superračunar koji donosi performanse datacentra u kancelarijsko okruženje. Najnovija verzija koristi GB300 Grace Blackwell Superčip.

NVIDIA DGX Station GB300 Future-Proof Ultra

Proc. cijena ~200k USD

Verzija Blackwell Ultra povećava gustoću memorije i računsku snagu, dizajnirana za organizacije koje trebaju trenirati prilagođene modele od nule ili pokretati masivne MoE (Mješavina stručnjaka) arhitekture lokalno.

Memorija

~1,5 TB+

HBM3e (ultra brza)

Računska snaga

~20+ PFLOPS

FP8 AI performanse

Primjena

Prilagođeni trening

Razvoj modela

Snaga

Standardna utičnica

Nije potrebna server soba

NVIDIA DGX Station GB300 Blackwell Ultra

NVIDIA DGX Station A100 Pristupačni AI radni konj

Od ~100k USD

Iako baziran na prethodnoj generaciji Ampere arhitekture, ostaje industrijski standard za pouzdanu inferenciju i fino podešavanje. Idealno prilagođen timovima koji ulaze u AI prostor bez budžeta za Blackwell.

Memorija

320 GB

4x 80GB A100 GPU-a

Računska snaga

2 PFLOPS

FP16 AI performanse

Više korisnika

5–8 istovremenih

Umjerena istovremenost

Snaga

Standardna utičnica

Nije potrebna server soba

Iako skup, DGX Station zamjenjuje ~300k EUR server ormar i pripadajuću rashladnu infrastrukturu. Uključuje se u standardnu utičnicu. Ovo u potpunosti eliminiše režijske troškove server sobe.

⏻

Trebate pomoć pri odabiru prave AI radne stanice za vaše poslovanje?

Naši inženjeri mogu procijeniti vaše AI hardverske zahtjeve i implementirati potpuno konfigurisan AI sistem.

Zatražite besplatnu procjenu hardvera →

5 Serveri
AI serveri 15k EUR - 170k EUR

Kada vašem poslovanju treba istovremeno služiti mnogim zaposlenicima, pokretati foundation-class modele s punom preciznošću ili fino podešavati prilagođene modele na vlasničkim podacima – ulazite u server nivo.

Ovo je domen namjenskih AI akceleratorskih kartica s memorijom visokog protoka (HBM), specijaliziranim interkonekcijama i faktorima forme za montažu u ormar ili na stolu. Hardver je skuplji, ali trošak po korisniku dramatično opada na većim razmjerima.

Intel Gaudi 3

Najbolji omjer cijene i kvaliteta na većim razmjerima

Intelov Gaudi 3 akcelerator je dizajniran od temelja kao AI čip za trening i inferenciju — a ne prerađena grafička kartica. Svaka kartica pruža 128 GB HBM2e memorije s integriranim 400 Gb Ethernet mrežnim rješenjem, eliminišući potrebu za zasebnim mrežnim adapterima.

Gaudi 3 dostupan je u dva formata:

PCIe kartica (HL-338): Standardni PCIe format za integraciju u postojeće servere. Procijenjena cijena: ~12.000 EUR po kartici.
OAM (OCP Accelerator Module): Standard visoke gustoće OCP za cloud podatkovne centre. 16.000 USD po čipu pri kupnji u kompletima od 8 čipova (~130.000 EUR ukupno s osnovnom pločom).

Server sa 8 Gaudi 3 kartica isporučuje 1 TB ukupne AI memorije po znatno nižoj cijeni od usporedivog NVIDIA H100 sistema.

💾

Memorija po kartici

128 GB

HBM2e — podudara se s DGX Spark u jednoj kartici

⚡

Ukupno za 8 kartica

1 TB

1.024 GB kombinirane memorije za najveće modele

💰

Trošak sistema

~170k EUR

Jeftinije od usporedivog NVIDIA H100 setupa

AMD Instinct MI325X

Maksimalna gustoća

AMD Instinct MI325X sadrži 256 GB HBM3e memorije po kartici – duplo više od Intel Gaudi 3. Za postizanje 1 TB ukupne AI memorije potrebne su samo 4 kartice, u usporedbi s 8 kod Intela.

💾

Ukupna memorija za 4 kartice

1 TB

Upola manje kartica od Intel-a za isti kapacitet

⚡

Propusnost

6 TB/s

Po kartici — omogućava istovremene korisnike

💰

Trošak sistema

~200k EUR

Ulazni trošak sa 1 karticom ~60k EUR

MI325X je skuplji po sistemu od Gaudi 3, ali brži i gušći. Za radna opterećenja koja zahtijevaju maksimalnu propusnost – real-time inferencija za više korisnika ili treniranje prilagođenih modela na velikim skupovima podataka – veća investicija se isplati smanjenom latencijom i jednostavnijom infrastrukturom.

Huawei Ascend

Full-stack alternativa

Huawei je replicirao kompletan AI infrastrukturni stack: prilagođene čipove (Ascend 910B/C), vlasničke interkonekcije (HCCS) i kompletan softverski okvir (CANN). Rezultat je samostalan ekosistem koji radi nezavisno od zapadnih lanaca snabdijevanja i po znatno nižoj cijeni od usporedivih NVIDIA H100 klastera.

Intel Xeon 6 (Granite Rapids)

Budget server

Tiha revolucija 2026. je uspon CPU-bazirane AI inferencije. Intel Xeon 6 procesori uključuju AMX (Advanced Matrix Extensions) koji omogućuju AI radna opterećenja na standardnom DDR5 RAM-u — što je znatno jeftinije od memorije.

Kompromis

Dual-socket Xeon 6 server može držati 1 TB do 4 TB DDR5 RAM-a za djelić cijene GPU memorije. Brzine inferencije su spore, ali za obradu u serijama — gdje je brzina nebitna, ali su inteligencija i kapacitet najvažniji — ovo je transformativno.

Primjer: MSP prenese 100.000 skeniranih faktura preko noći. Xeon 6 server pokreće +400B AI model za savršeno izdvajanje podataka. Zadatak traje 10 sati, ali hardverski trošak je mnogo niži nego kod GPU servera.

⏻

Trebate pomoć pri odabiru prave AI server infrastrukture?

Naš infrastrukturni tim projektuje i implementira kompletna AI serverska rješenja — od Intel Gaudi do NVIDIA DGX — u kombinaciji s prilagođenim softverom — kako bismo otključali mogućnosti AI-a za vaše poslovanje.

Zatražite prijedlog server arhitekture →

6 Edge AI
Edge AI & Retrofit Nadogradnja postojeće infrastrukture

Ne treba svakom MSP-u namjenski AI server ili mini-računar. Mnogi mogu ugraditi inteligenciju u postojeću infrastrukturu — nadograđujući prijenosne računare, desktopove i mrežne uređaje s AI mogućnostima uz minimalne troškove.

M.2 AI akceleratori: Hailo-10

Hailo-10 je standardni M.2 2280 modul — isti utor koji se koristi za SSD-ove — koji dodaje namjensku AI obradu bilo kojem postojećem PC-u. Po cijeni od ~~150 EUR po jedinici i potrošnji od samo 5–8W, omogućava AI nadogradnju cijele flote bez zamjene hardvera.

📎

Format

M.2 2280

Stane u bilo koji standardni SSD utor

⚡

Performanse

20–50 TOPS

Optimizirano za edge inferenciju

💰

Cijena

~150 EUR

Po jedinici — nadogradnja flote za manje od ~3.000 EUR

Primjene: Lokalna transkripcija sastanaka (Whisper), titlovanje u realnom vremenu, glasovno diktiranje, inferencija malih modela (Phi-3 Mini). Ove kartice ne mogu pokretati velike LLM-ove, ali izvrsno obavljaju specifične, trajne AI zadatke — osiguravajući da se glasovni podaci obrađuju lokalno i nikad ne šalju u oblak.

Copilot+ PC-ji (NPU prijenosnici)

Laptopovi s Qualcomm Snapdragon X Elite, Intel Core Ultra ili AMD Ryzen AI čipovima sadrže namjenske Neural Processing Units (NPU) – specijalizirane AI čipove. Ovi ne mogu pokretati velike LLM-ove, ali rješavaju male, trajne AI zadatke: live transkripcija, zamućenje pozadine, lokalne Recall funkcije i pokretanje laganih modela poput Microsoft Phi-3.

NPU-ovi se ocjenjuju u TOPS (Tera operacija u sekundi), što mjeri koliko AI posla mogu obaviti. Najmoćniji Copilot+ PC-ovi u 2026. imaju ~50 TOPS. Viši TOPS znači brže odgovore i sposobnost rukovanja nešto većim AI modelima.

9 AI modeli
Open-source AI modeli (2026–2027)

Izbor AI modela određuje hardverske zahtjeve — ali kao što je pokazalo poglavlje o ‹AI Model Kvantizaciji›, kvantizacija omogućava da vrhunski modeli rade na hardveru koji košta djelić onoga što zahtijeva implementacija pune preciznosti.

Tablica u nastavku daje pregled trenutnih i nadolazećih open-source AI modela.

Model	Veličina	Arhitektura	Memorija (FP16)	Memorija (INT4)
Llama 4 Behemoth	288B (aktivno)	MoE (~T ukupno)	~4 TB	~1 TB
Llama 4 Maverick	17B (aktivno)	MoE (400B ukupno)	~800 GB	~200 GB
Llama 4 Scout	17B (aktivno)	MoE (109B ukupno)	~220 GB	~55 GB
DeepSeek V4	~70B (aktivno)	MoE (671B ukupno)	~680 GB	~170 GB
DeepSeek R1	37B (aktivno)	MoE (671B ukupno)	~140 GB	~35 GB
DeepSeek V3.2	~37B (aktivno)	MoE (671B ukupno)	~140 GB	~35 GB
Kimi K2.5	32B (aktivno)	MoE (1T ukupno)	~2 TB	~500 GB
Qwen 3.5	397B (aktivno)	MoE (A17B)	~1.5 TB	~375 GB
Qwen 3-Max-Thinking	Veliki	Gust	~2 TB	~500 GB
Qwen 3-Coder-Next	480B (A35B aktivno)	MoE	~960 GB	~240 GB
Mistral Large 3	123B (41B aktivno)	MoE (675B ukupno)	~246 GB	~62 GB
Ministral 3 (3B, 8B, 14B)	3B–14B	Gust	~6–28 GB	~2–7 GB
GLM-5	44B (aktivno)	MoE (744B ukupno)	~1.5 TB	~370 GB
GLM-4.7 (Thinking)	Veliki	Gust	~1.5 TB	~375 GB
MiMo-V2-Flash	15B (aktivno)	MoE (309B ukupno)	~30 GB	~8 GB
MiniMax M2.5	~10B (aktivno)	MoE (~230B ukupno)	~460 GB	~115 GB
Phi-5 Reasoning	14B	Gust	~28 GB	~7 GB
Phi-4	14B	Gust	~28 GB	~7 GB
Gemma 3	27B	Gust	~54 GB	~14 GB
Pixtral 2 Large	90B	Gust	~180 GB	~45 GB
Stable Diffusion 4	~12B	DiT	~24 GB	~6 GB
FLUX.2 Pro	15B	DiT	~30 GB	~8 GB
Open-Sora 2.0	30B	DiT	~60 GB	~15 GB
Whisper V4	1.5B	Gust	~3 GB	~1 GB
Med-Llama 4	70B	Gust	~140 GB	~35 GB
Legal-BERT 2026	35B	Gust	~70 GB	~18 GB
Finance-LLM 3	15B	Gust	~30 GB	~8 GB
CodeLlama 4	70B	Gust	~140 GB	~35 GB
Molmo 2	80B	Gust	~160 GB	~40 GB
Granite 4.0	32B (9B aktivno)	Hibridni Mamba-Transformer	~64 GB	~16 GB
Nemotron 3	8B, 70B	Gust	~16–140 GB	~4–35 GB
EXAONE 4.0	32B	Gust	~64 GB	~16 GB
Llama 5 Frontier	~1.2T (ukupno)	MoE	~2.4 TB	~600 GB
Llama 5 Base	70B–150B	Gust	~140–300 GB	~35–75 GB
DeepSeek V5	~600B (ukupno)	MoE	~1.2 TB	~300 GB
Stable Diffusion 5	TBD	DiT	—	—
Falcon 3	200B	Gust	~400 GB	~100 GB

Strateški savjeti

Nemojte prvo kupovati hardver. Identificirajte klasu modela koja odgovara vašim poslovnim potrebama, zatim primijenite kvantizaciju da odredite najpristupačniji hardverski nivo.

Razlika između 3.000 USD i 150.000 USD investicije često se svodi na zahtjeve veličine modela i broj istovremenih korisnika.

Trendovi koji oblikuju AI modelni krajolik

Izvorna multimodalnost kao standard. Novi modeli se treniraju tekstu, slikama, audio i video istovremeno — ne kao zasebne mogućnosti dodane nakon treninga. To znači da jedan model upravlja analizom dokumenata, razumijevanjem slika i glasovnom interakcijom.
Mali modeli postižu mogućnosti velikih modela. Phi-5 (14B) i MiMo-V2-Flash pokazuju da arhitektonske inovacije mogu komprimirati vrhunsko rezoniranje u modele koji rade na prijenosnom računaru. Era "veće je bolje" završava.
Specijalizacija umjesto generalizacije. Umjesto jednog masivnog modela za sve, trend je prema ansamblima specijaliziranih modela — kodni model, model za rezoniranje, vizualni model — koordinira agentnim okvirom. Ovo smanjuje hardverske zahtjeve po modelu uz poboljšanje ukupnog kvaliteta.
Agentni AI. Modeli poput Kimi K2.5 i Qwen 3 dizajnirani su da autonomno razlažu složene zadatke, pozivaju eksterne alate i koordiniraju s drugim modelima. Ova ‹agentni roj› paradigma zahtijeva trajni protok tokom dugih sesija — favorizirajući hardver visoke propusnosti poput GB10 i M5 Ultra.
Generacija videa i 3D sazrijeva. Open-Sora 2.0 i FLUX.2 Pro signaliziraju da lokalna generacija videa postaje praktična. Do 2027. očekujte asistenta za uređivanje videa u realnom vremenu koji radi na hardveru klase radne stanice.

10 Sigurnost
Arhitektura za maksimalnu sigurnost

Primarna prednost lokalnog AI hardvera nije performansa – već suverenitet podataka. Kada vaš AI server radi iza vašeg firewall-a umjesto u nečijem cloud-u, vaši osjetljivi podaci nikad ne napuštaju vašu zgradu.

Air-Gapped API arhitektura fizički izolira AI server od interneta dok ga čini dostupnim ovlaštenim zaposlenicima kroz API interfejs.

Air-Gapped API Arhitektura

👤 Zaposlenik Standardna radna stanica

→

🔀 Posrednički server Auth + UI + Rutiranje

⟶

🔒 AI server Air-gapped · Bez interneta

AI trezor

Ova arhitektura stvara ‹Digitalni trezor›. Čak i ako bi posrednički server bio kompromitovan, napadač bi mogao samo slati tekstualne upite — ne bi mogao pristupiti datotečnom sistemu AI servera, težinama modela, podacima za fino podešavanje ili bilo kojim pohranjenim dokumentima.

⏻

Trebate sigurnu AI implementaciju s prilagođenim AI rješenjima?

Naši inženjeri projektuju i implementiraju air-gapped AI arhitekture osiguravajući da podaci nikad ne napuštaju prostorije, istovremeno pružajući vašem poslovanju najsuvremenije AI mogućnosti.

Razgovarajte o sigurnoj AI arhitekturi →

11 Ekonomija
Ekonomska presuda: Lokalno vs. oblak

Prelazak na lokalni AI hardver je pomak od OpEx (operativni troškovi — mjesečne naknade za cloud API) ka CapEx (kapitalni troškovi — jednokratna investicija u hardver koja postaje aktiva u vašoj bilanci).

Razmotrite odvjetničko društvo koje koristi 200B model za analizu ugovora:

☁️ Cloud API

~30.000 EUR

godišnje (na velikoj skali)

1.000 ugovora/dan × ~0,01 EUR/1K tokena × 365 dana. Skalira se linearno s upotrebom. Podaci napuštaju mrežu.

🖥️ Lokalni hardver (DGX Spark)

~4.000 EUR

jednokratna investicija

+ ~30 KM/mjesečno struja. Neograničena upotreba. Podaci nikad ne napuštaju LAN. Imovina u bilanci.

Pri 1.000 upita dnevno, DGX Spark se isplati za manje od 2 mjeseca u usporedbi s cloud API troškovima. Pri višim nivoima upotrebe, period povrata se skraćuje na tjedne.

Ekonomija postaje još povoljnija kada uzmete u obzir:

Više zaposlenika dijeli isti hardver (DGX Spark opslužuje 2–5 istovremenih korisnika)
Bez cijene po tokenu — složeni, višestepeni zadaci rezoniranja ne koštaju ništa dodatno
Fino podešavanje na vlasničkim podacima — nemoguće s većinom cloud API-ja, besplatno na lokalnom hardveru
Vrijednost preprodaje hardvera — AI hardver zadržava značajnu vrijednost na sekundarnom tržištu

Potpuni vodič za lokalni AI hardver za mala i srednja preduzeća

1 Temelj
Zašto lokalni AI? Poslovni slučaj za vlasništvo

2 Smanjenje troškova
Kvantizacija: Pokrenite veće AI modele na jeftinijem hardveru

Mixture of Experts (MoE)

3 Mini-PC
AI mini-PC 3.000 KM – 20.000 KM

NVIDIA GB10 ekosistem (DGX Spark)

AMD Ryzen AI Max (Strix Halo) Mini-PC

Apple Mac Studio (M4 Ultra)

Apple Mac Studio (M5 Ultra)

Tiiny AI

Tenstorrent

AI NAS — Mrežno priključeno skladište

Trebate pomoć pri odabiru prave AI mini-pc konfiguracije za vaše poslovanje?

4 Radne stanice
AI radne stanice & desktop računari 3k USD - 15k USD

Razumijevanje VRAM-apram brzine

Potrošački GPU-i

Profesionalni GPU-i

Datacenter GPU-i

Kineski GPU-i

Uskoro

NVIDIA DGX Station

Trebate pomoć pri odabiru prave AI radne stanice za vaše poslovanje?

5 Serveri
AI serveri 15k EUR - 170k EUR

Intel Gaudi 3

AMD Instinct MI325X

Huawei Ascend

Intel Xeon 6 (Granite Rapids)

Trebate pomoć pri odabiru prave AI server infrastrukture?

6 Edge AI
Edge AI & Retrofit Nadogradnja postojeće infrastrukture

M.2 AI akceleratori: Hailo-10

Copilot+ PC-ji (NPU prijenosnici)

9 AI modeli
Open-source AI modeli (2026–2027)

Trendovi koji oblikuju AI modelni krajolik

10 Sigurnost
Arhitektura za maksimalnu sigurnost

Trebate sigurnu AI implementaciju s prilagođenim AI rješenjima?

11 Ekonomija
Ekonomska presuda: Lokalno vs. oblak

Uključite inteligenciju ON za vaše poslovanje

Potpuni vodič za lokalni AI hardver za mala i srednja preduzeća

1 TemeljZašto lokalni AI? Poslovni slučaj za vlasništvo

2 Smanjenje troškovaKvantizacija: Pokrenite veće AI modele na jeftinijem hardveru

Mixture of Experts (MoE)

3 Mini-PCAI mini-PC 3.000 KM – 20.000 KM

NVIDIA GB10 ekosistem (DGX Spark)

AMD Ryzen AI Max (Strix Halo) Mini-PC

Apple Mac Studio (M4 Ultra)

Apple Mac Studio (M5 Ultra)

Tiiny AI

Tenstorrent

AI NAS — Mrežno priključeno skladište

Trebate pomoć pri odabiru prave AI mini-pc konfiguracije za vaše poslovanje?

4 Radne staniceAI radne stanice & desktop računari 3k USD - 15k USD

Razumijevanje VRAM-apram brzine

Potrošački GPU-i

Profesionalni GPU-i

Datacenter GPU-i

Kineski GPU-i

Uskoro

NVIDIA DGX Station

Trebate pomoć pri odabiru prave AI radne stanice za vaše poslovanje?

5 ServeriAI serveri 15k EUR - 170k EUR

Intel Gaudi 3

AMD Instinct MI325X

Huawei Ascend

Intel Xeon 6 (Granite Rapids)

Trebate pomoć pri odabiru prave AI server infrastrukture?

6 Edge AIEdge AI & Retrofit Nadogradnja postojeće infrastrukture

M.2 AI akceleratori: Hailo-10

Copilot+ PC-ji (NPU prijenosnici)

9 AI modeliOpen-source AI modeli (2026–2027)

Trendovi koji oblikuju AI modelni krajolik

10 SigurnostArhitektura za maksimalnu sigurnost

Trebate sigurnu AI implementaciju s prilagođenim AI rješenjima?

11 EkonomijaEkonomska presuda: Lokalno vs. oblak

Uključite inteligenciju ON za vaše poslovanje

1 Temelj
Zašto lokalni AI? Poslovni slučaj za vlasništvo

2 Smanjenje troškova
Kvantizacija: Pokrenite veće AI modele na jeftinijem hardveru

3 Mini-PC
AI mini-PC 3.000 KM – 20.000 KM

4 Radne stanice
AI radne stanice & desktop računari 3k USD - 15k USD

5 Serveri
AI serveri 15k EUR - 170k EUR

6 Edge AI
Edge AI & Retrofit Nadogradnja postojeće infrastrukture

9 AI modeli
Open-source AI modeli (2026–2027)

10 Sigurnost
Arhitektura za maksimalnu sigurnost

11 Ekonomija
Ekonomska presuda: Lokalno vs. oblak