Vodič za lokalni AI hardver za MSP 2026–2027

NVIDIA DGX Spark – uređaj veličine knjige koji može da pokreće AI modele sa 200 milijardi parametara (400 milijardi kada su dva povezana) – predstavlja novu eru ličnog posedovanja desktop AI-a.

1 Osnova
Zašto lokalni AI? Poslovni slučaj za vlasništvo

Početkom 2020-ih, veštačka inteligencija je bila usluga koju ste iznajmljivali — po satu, po tokenu, po API pozivu. Do 2026. godine, paradigma za pokretanje GPT-4 klase inteligencije sada staje na vaš sto i košta manje od polovnog automobila.

Nastala zavisnost od isključivo cloud AI-a predstavlja strateški trilemat:

Rastući troškovi. API naknade po tokenu skaliraju se linearno sa upotrebom. Pravna firma koja obrađuje 1.000 ugovora dnevno može da se suoči sa ~3,5 mil. RSD godišnjih API troškova.
Izloženost podataka. Svaki upit poslat cloud API-ju predstavlja podatak koji napušta vašu mrežu i izložen je rizicima bezbednosti podataka i privatnosti.
Nula ili skupa prilagodljivost. Cloud modeli su generički. Ne mogu se lako ili isplativo fino podesiti na prilagođene podatke, interne poslovne procese ili poslovnu inteligenciju.

Lokalni AI hardver rešava sva tri problema. Pretvara promenljive API naknade u fiksni kapitalni resurs, obezbeđuje da podaci nikada ne napuste LAN, i omogućava duboku prilagodljivost kroz fino podešavanje na poslovne podatke.

2 Smanjenje troškova
Kvantizacija: Pokrenite veće AI modele na jeftinijem hardveru

Kvantizacija je koncept koji iz temelja menja ekonomiku lokalnog AI-a.

Jednostavno rečeno, kvantizacija kompresuje memorijski otisak AI modela. Standardni model čuva svaki parametar kao 16-bitni broj sa pokretnim zarezom (FP16). Kvantizacija ovo smanjuje na 8-bitni (Int8), 4-bitni (Int4), ili čak niže — drastično smanjujući količinu memorije potrebne za pokretanje modela.

Kvantizacija rezultira blagim smanjenjem kvaliteta izlaza — često neprimetnim za poslovne zadatke kao što su sažimanje, izrada nacrta i analiza — u zamenu za ogromno smanjenje hardverskih troškova.

Potreban memorijski kapacitet: 400B AI model na različitim nivoima preciznosti

FP16

Puna preciznost

~800 GB

Int8

Upola manja veličina

~400 GB

Int4

Četvrtina

~200 GB

FP16 — Maksimalan kvalitet, maksimalan trošak

Int8 — Gotovo savršen kvalitet, upola manji trošak

Int4 — Visok kvalitet, četvrtina troškova

Poslovni uticaj

Model od 400B sa punom preciznošću zahteva ~800 GB memorije – server investicija od ~20 mil. RSD. Isti model kvantizovan na Int4 zahteva samo ~200 GB i može da radi na dva povezana DGX Spark (bazirana na GB10 Superčipu) mini-računara za ~940.000 RSD.

Mešavina stručnjaka (Mixture of Experts - MoE)

Mešavina stručnjaka je još jedan trik u arhitekturi AI modela koji omogućava implementaciju masivnih modela bez masivnih memorijskih troškova.

Umesto da koristi sve parametre za svaki upit, MoE model aktivira samo deo svog kapaciteta putem sparse activation (retke aktivacije).

MoE model sa 2 biliona parametara kao što je Llama 4 Behemoth aktivira samo 288B parametara po upitu – pružajući vrhunsku inteligenciju uz mali deo memorijskih troškova.

Kompromis

MoE modeli su nešto manje efikasni u jednostavnim zadacima poput sažimanja i klasifikacije, u poređenju sa gustim modelima iste Za rad sa znanjem i rasuđivanje kao što su kompleksna analiza, generisanje koda i istraživanje, MoE modeli se ističu.

Retka aktivacija rezultira bržom brzinom inferencije i bržim vremenom odgovora.

3 Mini računari
AI mini računari 180.000 RSD do 1.200.000 RSD

Najrevolucionarniji razvoj 2026. je AI računarstvo velikog kapaciteta u faktoru forme mini računara. Uređaji ne veći od tvrdog poveza sada pokreću AI modele kojima su pre dve godine bile potrebne serverske sobe.

NVIDIA GB10 ekosistem (DGX Spark)

Lider u performansama

NVIDIA DGX Spark je definisao ovu kategoriju. U 2026. godini, GB10 Superčip — kombinujući ARM Grace CPU sa Blackwell GPU — stvorio je čitav ekosistem. ASUS, GIGABYTE, Dell, Lenovo, HP, MSI i Supermicro svi proizvode sisteme zasnovane na GB10, svaki sa različitim faktorima forme, rešenjima za hlađenje i uključenim softverom.

NVIDIA GB10 ekosistem ASUS, GIGABYTE, Dell, Lenovo, HP, MSI i Supermicro

Od ~470.000 RSD

Memorija

128 GB

LPDDR5X Unified

Računska snaga

~1 PFLOP

FP8 AI performanse

Mreža

10 GbE + Wi-Fi 7

ConnectX za klasterovanje

Prostor za pohranu

4 TB SSD

NVMe

Klasterovanje

Da (2 jedinice)

256 GB zajedničke memorije

Softver

NVIDIA AI Enterprise

CUDA, cuDNN, TensorRT

Klasterovanje: Kapacitet od 256 GB

Povezivanjem dve GB10 jedinice preko namenskog porta za brzu mrežu, sistem objedinjuje resurse u memorijski prostor od 256 GB. Ovo otključava mogućnost pokretanja vrlo velikih modela — kvantizovanih sa 400B+ parametara — u potpunosti na vašem stolu za ukupnu hardversku investiciju od približno ~940.000 RSD.

AMD Ryzen AI Max (Strix Halo) Mini računari

Najniži troškovi

AMD-ova Ryzen AI Max+ Strix Halo arhitektura stvorila je potuno novu kategoriju budžet mini računara za AI. Niz proizvođača — GMKtec, Beelink, Corsair, NIMO, Bosgame, FAVM — sada isporučuje sisteme sa 128 GB ujedinjenje memorije za manje od ~230.000 RSD.

AMD Ryzen AI Max Mini računari GMKtec EVO-X2 · Beelink · Corsair · NIMO AI · Bosgame M5 · FAVM FA-EX9

Od ~180.000 RSD

Memorija

128 GB

LPDDR5 Shared (CPU+GPU)

Računska snaga

~0.2 PFLOP

Integrisana RDNA 3.5 GPU

Propusnost

~200 GB/s

Propusnost memorije

Snaga

~100W

Tiha operacija

Klasterovanje

Samo samostalno

Windows / Linux

ROCm / llama.cpp

Apple Mac Studio (M4 Ultra)

Lider u kapacitetu

Mac Studio zauzima jedinstvenu poziciju u lokalnom AI pejzažu. Apple-ova Unified Memory Architecture (UMA) obezbeđuje do 256 GB memorije dostupne i CPU i GPU u jednoj, kompaktnoj desktop jedinici — bez potrebe za klasterovanjem.

Ovo ga čini jedinim pristupačnim pojedinačnim uređajem sposobnim da učita najveće open-source modele. Model sa 400 milijardi parametara kvantizovan na Int4 u potpunosti staje u memoriju u konfiguraciji od 256 GB.

Apple Mac Studio (M4 Ultra) Lider u AI kapacitetu pojedinačne jedinice

Od ~470.000 RSD

Memorija

Do 256 GB

Unified Memory (UMA)

Računska snaga

~0.5 PFLOP

Apple Neural Engine + GPU

Softver

MLX okvir

Apple-optimizovana inferencija

Ograničenje

Samo inferencija

Sporo za obuku/fino podešavanje

Apple Mac Studio (M5 Ultra)

Nadolazeći konkurent

Apple-ova sledeća generacija M5 Ultra, očekivana krajem 2026., navodno će rešiti glavnu slabost M4: performanse obuke AI modela. Izgrađen na TSMC-ovom 2nm procesu, očekuje se da će ponuditi konfiguracije do 512 GB zajedničke memorije sa propusnošću većom od 1.2 TB/s.

Apple Mac Studio (M5 Ultra) Očekivani AI motor za obuku

Proc. ~1,2 mil. RSD

Memorija

Do 512 GB

Unified Memory sledeće generacije

Računska snaga

~1.5+ PFLOP

2nm Neural Engine

Softver

MLX 2.0+

Podrška za nativnu obuku

Mogućnosti

Obuka i inferencija

CUDA-alternativa

Propustljivost memorije: Kapacitet 1.2 TB/s

512 GB M5 Ultra bi bio prvi potrošački uređaj sposoban da pokreće nekvatizovane (pune preciznosti) frontier modele. Visoka propusnost memorije od 1.2+ TB/s podržava agentne AI tokove posla koji zahtevaju kontinuiranu inferenciju visokog protoka sa veoma dugim kontekstnim prozorima.

Tiiny AI

Džepni AI superračunar

Izdato na Kickstarteru 2026. za 140.000 RSD, Tiiny.ai Džepni AI računar je džepni superračunar sa 80GB LGDDR5X memorije i 1TB SSD-om koji podržava lokalno pokretanje 120B AI modela bilo gde.

Sa 300 grama (142×22×80mm) i napajanjem preko standardnog USB-C, podržava inovativne poslovne aplikacije. Tiiny AI navodi izlaznu brzinu od 21,14 tokena u sekundi za GPT-OSS

Tenstorrent

Open Source hardver

Predvođen legendarnim arhitektom čipova Jimom Kellerom, Tenstorrent predstavlja fundamentalno drugačiju filozofiju: open-source hardver izgrađen na RISC-V, open-source softver i modularno skaliranje kroz ulančavanje (daisy-chaining).

Tensix AI jezgra su dizajnirane za linearno skaliranje: za razliku od GPU-a, koji se muče sa komunikacionim režijskim troškovima kada dodate više kartica, Tenstorrent čipovi su izgrađeni da se efikasno slažu.

U partnerstvu sa Razerom, Tenstorrent je objavio kompaktni eksterni AI akcelerator koji se povezuje na bilo ili desktop preko Thunderbolta — pretvarajući postojeći hardver u AI radnu stanicu bez zamene bilo čega.

Razer × Tenstorrent kompaktni AI akcelerator Eksterni Thunderbolt AI akcelerator

Cena Nepoznato

Memorija po kutiji

12 GB

GDDR6

Čip

Wormhole n150

Tensix jezgra · RISC-V

Skaliranje

Do 4 jedinice

48 GB AI kapaciteta

Softver

Potpuno open-source

GitHub · TT-Metalium

AI NAS — Mrežno priključeno skladište podataka

Prostor za pohranu + AI

Definicija NAS-a se promenila od pasivnog skladištenja do aktivne inteligencije. Nova generacija mrežnih uređaja za skladištenje direktno integriše AI obradu — od lagane inferencije zasnovane na NPU do potpune LLM implementacije ubrzane GPU-jem.

NAS sa AI mogućnostima eliminiše potrebu za posebnim AI uređajem i omogućava direktnu obradu većih količina podataka bez latencije pri prenosu preko mreže.

⏻

Treba vam pomoć pri odabiru odgovarajućeg AI mini-računara za vaše preduzeće?

Naši inženjeri mogu proceniti vaše AI hardverske zahteve i implementirati potpuno konfigurisan AI sistem.

Zatražite besplatnu procenu hardvera →

4 Radne stanice
AI radne stanice i desktop računari 300 hilj. RSD – 1,5 mil. RSD

Kategorija radnih stanica koristi diskretne PCIe grafičke kartice i standardne kućišta tipa tower. Za razliku od fiksnih ujedinjenih arhitektura mini-računara, ova kategorija nudi modularnost — možete nadograditi pojedinačne komponente, dodati više GPU-a ili zameniti kartice kako tehnologija napreduje.

Radna stanica sa dve RTX A6000 kartice i NVLink mostom nudi 96 GB kombinovanog VRAM-a za otprilike 700.000 RSD.

Razumevanje VRAM-a naspram brzine

Dva konkurišuća faktora određuju izbor GPU-a za AI:

📦

Kapacitet VRAM-a

Određuje veličinu modela koji možete učitati. Više VRAM-a znači veće, sposobnije modele. Ovo je vaša granica inteligencije.

⚡

Brzina procesiranja

Određuje koliko br model reaguje. Veća računska snaga znači niže kašnjenje po upitu. Ovo je vaše korisničko iskustvo.

Kartice za potrošače (kao RTX 5090) maksimiziraju brzinu ali nude ograničen VRAM — tipično 24–32 GB. Profesionalne kartice (kao RTX PRO 6000 Blackwell) maksimiziraju VRAM — do 96 GB po kartici — ali koštaju više po jedinici procesne moći.

VRAM je ključno ograničenje. Brza kartica sa nedovoljno memorije ne može uopšte učitati AIjno memorije pokreće model — samo sa dužim vremenom odgovora.

Potrošački GPU-i

Konfiguracija	Ukupan VRAM	Povezivanje	Proc. cena
2× RTX 3090 (rabljeno)	48 GB	NVLink	300.000 RSD
2× RTX 4090	48 GB	PCIe Gen 5	400.000 RSD
2× RTX 5090	64 GB	PCIe Gen 5	700.000 RSD

Profesionalni GPU-i

Konfiguracija	Ukupan VRAM	Povezivanje	Proc. cena
2× RTX A6000 Najbolji odnos cene i kvaliteta	96 GB	NVLink	700.000 RSD
2× RTX 6000 Ada	96 GB	PCIe Gen 5	1.300.000 RSD
1× RTX PRO 6000 Blackwell	96 GB	NVLink	800.000 RSD
4× RTX PRO 6000 Blackwell	384 GB	PCIe Gen 5	3.200.000 RSD

GPU-i za data centre

Konfiguracija	Ukupan VRAM	Povezivanje	Proc. cena
1× L40S	48 GB	PCIe 4.0 (pasivno hlađenje)	700.000 RSD
1× A100 PCIe	80 GB	PCIe 4.0	1.000.000 RSD
1× H200 NVL	141 GB	NVLink	3.000.000 RSD
4× H200 NVL	564 GB	NVLink	12.000.000 RSD
1× B200 SXM	180 GB	NVLink 5 (1,8 TB/s)	3.000.000 RSD
8× B200 SXM	1.440 GB	NVLink 5 (1,8 TB/s)	24.000.000 RSD

Kineski GPU-i

Kineski domaći GPU ekosistem brzo je sazreo. Nekoliko kineskih proizvođača sada nudi AI GPU klase radnih stanica sa konkurentnim specifikacijama i znatno nižim cenama.

Konfiguracija	Ukupan VRAM	Tip memorije	Proc. cena
1× Moore Threads MTT S4000	48 GB	GDDR6	80.000 RSD
4× Moores MTT S4000	192 GB	GDDR6	350.000 RSD
8× Moore Threads MTT S4000	384 GB	GDDR6	650.000 RSD
1× Hygon DCU Z100	32 GB	HBM2	250.000 RSD
1× Biren BR104	32 GB	HBM2e	300.000 RSD
8× Biren BR104	256 GB	HBM2e	2.400.000 RSD
1× Huawei Ascend Atlas 300I Duo	96 GB	HBM2e	120.000 RSD
8× Huawei Ascend Atlas 300I Duo	768 GB	HBM2e	1.000.000 RSD

Uskoro

Konfiguracija	Ukupan VRAM	Status	Proc. cena
RTX 5090 128 GB	128 GB	Kineska mod. — nije standardni SKU	500.000 RSD
RTX Titan AI	64 GB	Očekuje se 2027.	300.000 RSD

MSI NVIDIA RTX PRO 6000 Blackwell Server

NVIDIA DGX Station

Enterprise Apex

NVIDIA DGX Station je vodeni hlađeni, stoni superračunar koji donosi performanse data centra u kancelarijsko okruženje. Najnovija verzija koristi GB300 Grace Blackwell Superčip.

NVIDIA DGX Station GB300 Future-Proof Ultra

Proc. cena ~20 mil. RSD

Verzija Blackwell Ultra povećava gustinu memorije i procesnu moć, dizajnirana za organizacije koje treba da treniraju prilagođene modele od nule ili pokreću masivne MoE (Mixture of Experts) arhitekture lokalno.

Memorija

~1,5 TB+

HBM3e (ultrabrza)

Računska snaga

~20+ PFLOPS

FP8 AI performanse

Scenarij korišćenja

Prilagođeno treniranje

Razvoj modela

Snaga

Standardna utičnica

Nije potrebna server soba

NVIDIA DGX Station GB300 Blackwell Ultra

NVIDIA DGX Station A100 Pristupačan AI radni konj

Od ~10 mil. RSD

Iako baziran na prethodnoj generaciji Ampere arhitekture, za pouzdanu inferenciju i fino podešavanje. Idealno za timove koji ulaze u AI prostor bez budžeta za Blackwell.

Iako skup, DGX Station zamenjuje %1$s server ormar i pripadajuću infrastrukturu za hlađenje. Povezuje se u standardnu utičnicu. Ovo u potpunosti eliminiše dodatne troškove server sobe.

Kada vašem poslovanju treba da opsluži mnogo zaposlenih istovremeno, pokreće foundation-class modele sa punom preciznošću ili fino podešava prilagođene modele na sopstvenim podacima – ulazite u server nivo.

Gaudi 3 je dostupan u dva form faktora:

PCIe kartica (HL-338)

Standardni PCIe form faktor za integraciju u postojeće servere. Procenjena cena: %1$s po kartici.

OAM (OCP Accelerator Module)

Standard OCP visoke gustine za cloud data centre. %1$s po čipu pri kupovini u kompletnim kompletima od 8 čipova (%2$s ukupno sa osnovnom pločom).

Server sa 8 Gaudi 3 kartica isporučuje 1 TB ukupne AI memorije po znatno nižoj ceni od uporedivog NVIDIA H100 sistema.

Jeftinije od uporedivog NVIDIA H100 podešavanja

AMD Instinct MI325X sadrži 256 GB HBM3e memorije po kartici – duplo više od Intel Gaudi 3. Potrebne su samo 4 kartice da se dostigne 1 TB ukupne AI memorije, u poređenju sa 8 kartica za Intel.

Ulazni trošak sa 1 karticom %1$s

MI325X je skuplji po sistemu od Gaudi 3, ali brži i gušći. Za radna opterećenja koja zahtevaju maksimalan protok – inferencija u realnom vremenu za više korisnika ili obuka prilagođenih modela na velikim skupovima podataka – veća investicija se isplati kroz smanjenu latenciju i jednostavniju infrastrukturu.

Laptopovi sa Qualcomm Snapdragon X Elite, Intel Core Ultra ili AMD Ryzen AI čipovima sadrže namenske Neural Processing Units (NPU) – specijalizovane AI čipove. Oni ne mogu da pokreću velike LLM-ove, ali upravljaju malim, trajnim AI zadacima: transkripcija uživo, zamućenje pozadine, lokalne Recall funkcije i pokretanje lakih modela poput Microsoft Phi-3.

NPU-ovi se ocenjuju u TOPS (Tera operacija u sekundi), što meri koliko AI posla mogu da obave. Najmoćniji Copilot+ PC-ovi u 2026. imaju ~50 TOPS. Viši TOPS znači brže odgovore i sposobnost rukovanja nešto većim AI modelima.

Glavna prednost lokalnog AI hardvera nije performansa – već suverenitet podataka. Kada vaš AI server radi iza vašeg firewall-a umesto u nečijem cloud-u, vaši osetljivi podaci nikada ne napuštaju vašu zgradu.

Air-Gapped API arhitektura fizički izoluje AI server od interneta dok ga čini dostupnim ovlašćenim zaposlenima putem API interfejsa.

Razmotrite pravnu firmu koja pokreće model od 200B za analizu ugovora:

1.000 ugovora/dan × %1$s/1K tokena × 365 dana. Skalira se linearno sa upotrebom. Podaci napuštaju mrežu.

+ %1$s/mesečno struja. Neograničena upotreba. Podaci nikada ne napuštaju LAN. Aktiva u bilansu.

Pri 1.000 upita dnevno, DGX Spark se isplati za manje od 2 meseca u poređenju sa cloud API troškovima. Pri višim nivoima upotrebe, period povrata investicije se skraćuje na nedelje.

```

Memorija

320 GB

4x 80GB A100 GPU-a

Računska snaga

2 PFLOPS

FP16 AI performanse

Višekorisnički

5–8 simultanih

Umerena istovremenost

Snaga

Standardna utičnica

Nije potrebna server soba

Iako skup, DGX Station zamenjuje ~35 mil. RSD server ormar i pripadajuću infrastrukturu za hlađenje. Povezuje se u standardnu utičnicu. Ovo u potpunosti eliminiše dodatne troškove server sobe.

⏻

Treba vam pomoć pri odabiru odgovarajuće AI radne stanice za vaše preduzeće?

Naši inženjeri mogu proceniti vaše AI hardverske zahteve i implementirati potpuno konfigurisan AI sistem.

Zatražite besplatnu procenu hardvera →

5 Serveri
AI serveri 1,8 mil. RSD – 20 mil. RSD

Ovo je domen namenskih AI akceleratorskih kartica sa memorijom visokog protoka (HBM), specijalizovanim interkonektima i faktorima forme za montažu u rack ili na sto. Hardver je skuplji, ali cena po korisniku dramatično opada na većim razmerama.

Intel Gaudi 3

Najbolji odnos cene i kvaliteta na većim razmerama

Intelov Gaudi 3 akcelerator je dizajniran od temelja kao čip za AI treniranje i inferenciju — ne kao repurposed grafička kartica. Svaka kartica obezbeđuje 128 GB HBM2e memorije sa integrisanim 400 Gb Ethernet mrežnim interfejsom, eliminišući potrebu za posebnim mrežnim adapterima.

Gaudi 3 je dostupan u dva form faktora:

PCIe kartica (HL-338): Standardni PCIe form faktor za integraciju u postojeće servere. Procenjena cena: ~1,4 mil. RSD po kartici.
OAM (OCP Accelerator Module): Standard OCP visoke gustine za cloud data centre. 1.550.000 RSD po čipu pri kupovini u kompletnim kompletima od 8 čipova (~15 mil. RSD ukupno sa osnovnom pločom).

Server sa 8 Gaudi 3 kartica isporučuje 1 TB ukupne AI memorije po znatno nižoj ceni od uporedivog NVIDIA H100 sistema.

💾

Memorija po kartici

128 GB

HBM2e — podudara se sa DGX Spark u jednoj kartici

⚡

Ukupno za 8 kartica

1 TB

1.024 GB kombinovane memorije za najveće modele

💰

Cena sistema

~20 mil. RSD

Jeftinije od uporedivog NVIDIA H100 podešavanja

AMD Instinct MI325X

Maksimalna gustina

AMD Instinct MI325X sadrži 256 GB HBM3e memorije po kartici – duplo više od Intel Gaudi 3. Potrebne su samo 4 kartice da se dostigne 1 TB ukupne AI memorije, u poređenju sa 8 kartica za Intel.

💾

Ukupna memorija za 4 kartice

1 TB

Upola manje kartica od Intel-a za isti kapacitet

⚡

Propusnost

6 TB/s

Po kartici — omogućava simultane korisnike

💰

Cena sistema

~23 mil. RSD

Ulazni trošak sa 1 karticom ~7 mil. RSD

Huawei Ascend

Full-stack alternativa

Huawei je replirao kompletan AI infrastrukturni stack: prilagođene čipove (Ascend 910B/C), vlastite interkonekte (HCCS) i kompletan softverski okvir (CANN). Rezultat je samostalan ekosistem koji radi nezavisno od zapadnih dobavljačkih lanaca i po znatno nižoj ceni od uporedivih NVIDIA H100 klastera.

Intel Xeon 6 (Granite Rapids)

Budget server

Tiha revolucija 2026. je uspon CPU-bazirane AI inferencije. Intel Xeon 6 procesori uključuju AMX (Advanced Matrix Extensions)ogućavaju AI radna opterećenja na standardnom DDR5 RAM-u — što je dramatično jeftinije od GPU memorije.

Kompromis

Server sa dva Xeon 6 soketa može držati 1 TB do 4 TB DDR5 RAM-a za deo cene GPU memorije. Brzine inferencije su spore, ali za batch procesiranje — gde brzina nije bitna, ali su inteligencija i kapacitet najvažniji — ovo je transformativno.

Primer: MSP preko noći učita 100.000 skeniranih faktura. Xeon 6 server pokreće +400B AI model za savršenu ekstrakciju podataka. Zadatak traje 10 sati, ali hardverski troškovi su mnži nego kod GPU servera.

⏻

Treba vam pomoć pri odabiru odgovarajuće AI server infrastrukture?

Naš infrastrukturni tim dizajnira i implementira kompletna AI serverska rešenja — od Intel Gaudi do NVIDIA DGX — u kombinaciji sa softverom po meri — da bi otključao mogućnosti veštačke inteligencije za vaše poslovanje.

Zatražite predlog serverske arhitekture →

6 Edge AI
Edge AI & Retrofit Nadogradnja postojeće infrastrukture

Ne treba svakom malom i srednjem preduzeću (MSP) namenski AI server ili mini-računar. Mnoga mogu ugraditi inteligenciju u postojeću infrastrukturu — nadogradnjom laptopova, desktop računara i mrežnih uređaja AI mogućnostima uz minimalne troškove.

M.2 AI akceleratori: Hailo-10

Hailo-10 je standardni M.2 2280 modul — isti utor koji se koristi za SSD-ove — koji bilo kom postojećem PC-u dodaje namensku AI obradu. Po ceni od ~~18.000 RSD po jedinici i potrošnji od samo 5–8W, omogućava AI nadogradnju cele flote bez zamene hardvera.

📎

Faktor forme

M.2 2280

Staje u bilo koji standardni SSD utor

⚡

Performanse

20–50 TOPS

Optimizovan za obradu na ivici mreže (edge inference)

💰

Cena

~18.000 RSD

Po jedinici — nadogradnja flote ispod ~350.000 RSD

Primene: Lokalna transkripcija sastanaka (Whisper), titlovanje u realnom vremenu, glasovno diktiranje, zaključivanje malih modela (Phi-3 Mini). Ove kartice ne mogu pokretati velike LLM-ove, ali izvrsne su za specifične, trajne AI zadatke — obezbeđujući da se glasovni podaci obrađuju lokalno i nikad ne šalju u oblak.

Copilot+ računari (NPU laptopi)

9 AI modeli
Open-source AI modeli (2026–2027)

Izbor AI modela određuje hardverske zahteve — ali kao što je poglavlje o Kvantizaciji AI modela pokazalo, kvantizacija omogućava vrhunskim modelima da rade na hardveru koji košta deo onoga što zahteva implementacija u punoj preciznosti.

Tabela ispod daje pregled trenutnih i nadolazećih open-source AI modela.

Model	Veličina	Arhitektura	Memorija (FP16)	Memorija (INT4)
Llama 4 Behemoth	288B (aktivno)	MoE (~2T ukupno)	~4 TB	~1 TB
Llama 4 Maverick	17B (aktivno)	MoE (400B ukupno)	~800 GB	~200 GB
Llama 4 Scout	17B (aktivno)	MoE (109B ukupno)	~220 GB	~55 GB
DeepSeek V4	~70B (aktivno)	MoE (671B ukupno)	~680 GB	~170 GB
DeepSeek R1	37B (aktivno)	MoE (671B ukupno)	~140 GB	~35 GB
DeepSeek V3.2	~37B (aktivno)	MoE (671B ukupno)	~140 GB	~35 GB
Kimi K2.5	32B (aktivno)	MoE (1T ukupno)	~2 TB	~500 GB
Qwen 3.5	397B (aktivno)	MoE (A17B)	~1.5 TB	~375 GB
Qwen 3-Max-Thinking	Veliki	Gust	~2 TB	~500 GB
Qwen 3-Coder-Next	480B (A35B aktivno)	MoE	~960 GB	~240 GB
Mistral Large 3	123B (41B aktivno)	MoE (675B ukupno)	~246 GB	~62 GB
Ministral 3 (3B, 8B, 14B)	3B–14B	Gust	~6–28 GB	~2–7 GB
GLM-5	44B (aktivno)	MoE (744B ukupno)	~1.5 TB	~370 GB
GLM-4.7 (Thinking)	Veliki	Gust	~1.5 TB	~375 GB
MiMo-V2-Flash	15B (aktivno)	MoE (309B ukupno)	~30 GB	~8 GB
MiniMax M2.5	~10B (aktivno)	MoE (~230B ukupno)	~460 GB	~115 GB
Phi-5 Reasoning	14B	Gust	~28 GB	~7 GB
Phi-4	14B	Gust	~28 GB	~7 GB
Gemma 3	27B	Gust	~54 GB	~14 GB
Pixtral 2 Large	90B	Gust	~180 GB	~45 GB
Stable Diffusion 4	~12B	DiT	~24 GB	~6 GB
FLUX.2 Pro	15B	DiT	~30 GB	~8 GB
Open-Sora 2.0	30B	DiT	~60 GB	~15 GB
Whisper V4	1.5B	Gust	~3 GB	~1 GB
Med-Llama 4	70B	Gust	~140 GB	~35 GB
Legal-BERT 2026	35B	Gust	~70 GB	~18 GB
Finance-LLM 3	15B	Gust	~30 GB	~8 GB
CodeLlama 4	70B	Gust	~140 GB	~35 GB
Molmo 2	80B	Gust	~160 GB	~40 GB
Granite 4.0	32B (9B aktivno)	Hibridni Mamba-Transformer	~64 GB	~16 GB
Nemotron 3	8B, 70B	Gust	~16–140 GB	~4–35 GB
EXAONE 4.0	32B	Gust	~64 GB	~16 GB
Llama 5 Frontier	~1.2T (ukupno)	MoE	~2.4 TB	~600 GB
Llama 5 Base	70B–150B	Gust	~140–300 GB	~35–75 GB
ek V5	~600B (ukupno)	MoE	~1.2 TB	~300 GB
Stable Diffusion 5	TBD	DiT	—	—
Falcon 3	200B	Gust	~400 GB	~100 GB

Strateški saveti

Nemojte prvo kupovati hardver. Identifikujte klasu modela koja odgovara vašim poslovnim potrebama, zatim primenite kvantizaciju da biste odredili najisplativiji hardverski nivo.

Razlika između 300.000 RSD i 15.000.000 RSD investicije često se svodi na zahteve veličine modela i broj istovremenih korisnika.

Trendovi koji oblikuju AI modelni pejzaž

Prirodna multimodalnost kao standard. Novi modeli se treniraju na tekstu, slikama, audio i video zapisima istovremeno — ne kao odvojene mogućnosti dodate nakon treninga. To znači da jedan model rukuje analizom dokumenata, razumevanjem slika i glasovnom interakcijom.
Mali modeli postižu sposobnosti velikih modela. Phi-5 (14B) i MiMo-V2-Flash demonstriraju da arhitektonska inovacija može kompresovati vrhunsko rezonovanje u modele koji rade na laptopu. Era "veće je bolje" se završava.
Specializacija prema generalizaciji. Umesto jednog masivnog modela za sve, trend je prema ansamblima specijalizovanih modela — koderski model, model za rezonovanje, vizuelni model — koordinisanih okvirom agenata. Ovo smanjuje hardverske zahteve po modelu dok poboljšava ukupni kvalitet.
Agentna AI. Modeli poput Kimi K2.5 i Qwen 3 dizajnirani su da autonomno razlažu kompleksne zadatke, pozivaju eksterne alatke i koordiniraju sa drugim modelima. Ova agentna roj paradigma zahteva kontinuirani protok tokom dugih sesija — favorizujući hardver sa visokom propusnošću kao GB10 i M5 Ultra.
Video i 3D generacija sazreva. Open-Sora 2.0 i FLUX.2 Pro signaliziraju da lokalna video generacija postaje praktična. Do 2027. očekujte asistente za uređivanje videa u realnom vremenu koji rade na hardveru klase radne stanice.

10 Bezbednost
Arhitektura za maksimalnu bezbednost

Air-Gapped API arhitektura fizički izoluje AI server od interneta dok ga čini dostupnim ovlašćenim zaposlenima putem API interfejsa.

Air-Gapped API Arhitektura

👤 Zaposleni Standardna radna stanica

→

🔀 Broker server Autentifikacija + UI + Rutiranje

⟶

🔒 AI server Air-gapped · Bez interneta

AI trezor

Ova arhitektura stvara Digitalni trezor. Čak i kada bi Broker Server bio kompromitovan, napadač bi mogao samo slati tekstualne upite — ne bi mogao pristupiti fajl sistemu AI servera, težinama modela, podacima za fine-tuning ili bilo kom skladištenom dokumentu.

⏻

Potrebna vam je bezbedna AI implementacija sa AI rešenjima po meri?

Naši inženjeri dizajniraju i implementiraju air-gapped AI arhitekture koje obezbeđuju da podaci nikada ne napuštaju lokaciju, dok vaše preduzeće opskrbljuju najsavremenijim AI mogućnostima.

Razgovarajte o Bezbednoj AI Arhitekturi →

11 Ekonomika
Ekonomska presuda: Lokalno nasuprot cloudu

Prelazak na lokalni AI hardver je promena od OpEx (operativni rashodi — mesečne cloud API naknade) ka CapEx (investicioni rashodi — jednokratna hardverska investicija koja postaje aktiva u vašoj bilansu).

Razmotrite pravnu firmu koja pokreće model od 200B za analizu ugovora:

☁️ Cloud API

~3,5 mil. RSD

godišnje (na velikoj skali)

1.000 ugovora/dan × Nepoznato/1K tokena × 365 dana. Skalira se linearno sa upotrebom. Podaci napuštaju mrežu.

🖥️ Lokalni Hardver (DGX Spark)

~470.000 RSD

jednokratna investicija

+ ~1.800 RSD/mesečno struja. Neograničena upotreba. Podaci nikada ne napuštaju LAN. Aktiva u bilansu.

Pri 1.000 upita dnevno, DGX Spark se isplati za manje od 2 meseca u poređenju sa cloud API troškovima. Pri višim nivoima upotrebe, period povrata investicije se skraćuje na nedelje.

Ekonomika postaje još povoljnija kada uzmete u obzir:

Više zaposlenih deli isti hardver (DGX Spark opslužuje 2–5 istovremenih korisnika)
Bez cene po tokenu — kompleksne, višestepene zadatke rezonovanja koštaju ništa dodatno
Fine-tuning na sopstvenim podacima — nemoguće sa većinom cloud API-ja, besplatno na lokalnom hardveru
Vrednost hardvera pri preprodaji — AI hardver zadržava značajnu vrednost na sekundarnom tržištu

Kompletan vodič za lokalni AI hardver za mala i srednja preduzeća

1 Osnova
Zašto lokalni AI? Poslovni slučaj za vlasništvo

2 Smanjenje troškova
Kvantizacija: Pokrenite veće AI modele na jeftinijem hardveru

Mešavina stručnjaka (Mixture of Experts - MoE)

3 Mini računari
AI mini računari 180.000 RSD do 1.200.000 RSD

NVIDIA GB10 ekosistem (DGX Spark)

AMD Ryzen AI Max (Strix Halo) Mini računari

Apple Mac Studio (M4 Ultra)

Apple Mac Studio (M5 Ultra)

Tiiny AI

Tenstorrent

AI NAS — Mrežno priključeno skladište podataka

Treba vam pomoć pri odabiru odgovarajućeg AI mini-računara za vaše preduzeće?

4 Radne stanice
AI radne stanice i desktop računari 300 hilj. RSD – 1,5 mil. RSD

Razumevanje VRAM-a naspram brzine

Potrošački GPU-i

Profesionalni GPU-i

GPU-i za data centre

Kineski GPU-i

Uskoro

NVIDIA DGX Station

Treba vam pomoć pri odabiru odgovarajuće AI radne stanice za vaše preduzeće?

5 Serveri
AI serveri 1,8 mil. RSD – 20 mil. RSD

Intel Gaudi 3

AMD Instinct MI325X

Huawei Ascend

Intel Xeon 6 (Granite Rapids)

Treba vam pomoć pri odabiru odgovarajuće AI server infrastrukture?

6 Edge AI
Edge AI & Retrofit Nadogradnja postojeće infrastrukture

M.2 AI akceleratori: Hailo-10

Copilot+ računari (NPU laptopi)

9 AI modeli
Open-source AI modeli (2026–2027)

Trendovi koji oblikuju AI modelni pejzaž

10 Bezbednost
Arhitektura za maksimalnu bezbednost

Potrebna vam je bezbedna AI implementacija sa AI rešenjima po meri?

11 Ekonomika
Ekonomska presuda: Lokalno nasuprot cloudu

Uključite inteligenciju ON za Vaše poslovanje

Kompletan vodič za lokalni AI hardver za mala i srednja preduzeća

1 OsnovaZašto lokalni AI? Poslovni slučaj za vlasništvo

2 Smanjenje troškovaKvantizacija: Pokrenite veće AI modele na jeftinijem hardveru

Mešavina stručnjaka (Mixture of Experts - MoE)

3 Mini računariAI mini računari 180.000 RSD do 1.200.000 RSD

NVIDIA GB10 ekosistem (DGX Spark)

AMD Ryzen AI Max (Strix Halo) Mini računari

Apple Mac Studio (M4 Ultra)

Apple Mac Studio (M5 Ultra)

Tiiny AI

Tenstorrent

AI NAS — Mrežno priključeno skladište podataka

Treba vam pomoć pri odabiru odgovarajućeg AI mini-računara za vaše preduzeće?

4 Radne staniceAI radne stanice i desktop računari 300 hilj. RSD – 1,5 mil. RSD

Razumevanje VRAM-a naspram brzine

Potrošački GPU-i

Profesionalni GPU-i

GPU-i za data centre

Kineski GPU-i

Uskoro

NVIDIA DGX Station

Treba vam pomoć pri odabiru odgovarajuće AI radne stanice za vaše preduzeće?

5 ServeriAI serveri 1,8 mil. RSD – 20 mil. RSD

Intel Gaudi 3

AMD Instinct MI325X

Huawei Ascend

Intel Xeon 6 (Granite Rapids)

Treba vam pomoć pri odabiru odgovarajuće AI server infrastrukture?

6 Edge AIEdge AI & Retrofit Nadogradnja postojeće infrastrukture

M.2 AI akceleratori: Hailo-10

Copilot+ računari (NPU laptopi)

9 AI modeliOpen-source AI modeli (2026–2027)

Trendovi koji oblikuju AI modelni pejzaž

10 BezbednostArhitektura za maksimalnu bezbednost

Potrebna vam je bezbedna AI implementacija sa AI rešenjima po meri?

11 EkonomikaEkonomska presuda: Lokalno nasuprot cloudu

Uključite inteligenciju ON za Vaše poslovanje

1 Osnova
Zašto lokalni AI? Poslovni slučaj za vlasništvo

2 Smanjenje troškova
Kvantizacija: Pokrenite veće AI modele na jeftinijem hardveru

3 Mini računari
AI mini računari 180.000 RSD do 1.200.000 RSD

4 Radne stanice
AI radne stanice i desktop računari 300 hilj. RSD – 1,5 mil. RSD

5 Serveri
AI serveri 1,8 mil. RSD – 20 mil. RSD

6 Edge AI
Edge AI & Retrofit Nadogradnja postojeće infrastrukture

9 AI modeli
Open-source AI modeli (2026–2027)

10 Bezbednost
Arhitektura za maksimalnu bezbednost

11 Ekonomika
Ekonomska presuda: Lokalno nasuprot cloudu