Lokal AI-maskinvareguide for små og mellomstore bedrifter 2026–2027

NVIDIA DGX Spark – en bokstor enhet som kan kjøre AI-modeller med 200 milliarder parametre (400 milliarder når to er koblet sammen) – representerer en ny æra for eierskap av AI på skrivebordet.

1 Grunnlag
Hvorfor lokal AI? Den forretningsmessige begrunnelsen for eierskap

Tidlig på 2020-tallet var kunstig intelligens en tjeneste du leide – per time, per token, per API-kall. I 2026 har paradigmet skiftet. Maskinvaren som kreves for å kjøre GPT-4-klasse intelligens passer nå på skrivebordet ditt og koster mindre enn en brukt bil.

Vedvarende avhengighet av kun sky-AI fører til et strategisk trilemma:

Eskalerende kostnader. API-gebyrer per token skalerer lineært med bruk. Et advokatfirma som behandler 1.000 kontrakter per dag kan stå overfor ~338 000 kr i årlige API-kostnader.
Dataeksponering. Hver forespørsel sendt til en sky-API er data som forlater nettverket ditt og er utsatt for datasikkerhets- og personvernrisiko.
Ingen eller kostbar tilpasning. Skymodeller er generiske. De kan ikke enkelt eller kostnadseffektivt finjusteres på tilpassede data, interne forretningsprosesser eller forretningsinnsikt.

Lokal AI-maskinvare løser alle tre. Den gjør variable API-gebyrer om til et anleggsmiddel, sikrer at data aldri forlater LAN, og muliggjør dyp tilpasning gjennom finjustering på forretningsdata.

2 Redusere kostnader
Kvantisering: Kjør større AI-modeller på billigere maskinvare

Kvantisering er et konsept som fundamentalt endrer økonomien i lokal AI.

Enkelt sagt komprimerer kvantisering en AI-modells minnefotavtrykk. En standardmodell lagrer hver parameter som et 16-bit flyttall (FP16). Kvantisering reduserer dette til 8-bit (Int8), 4-bit (Int4) eller enda la og reduserer dermed minnekravet dramatisk.

Kvantisering resulterer i en liten reduksjon i utdatakvalitet – ofte umerkelig for forretningsoppgaver som sammendrag, utkast og analyse – i bytte mot et massivt reduksjon i maskinvarekostnad.

Nødvendig minne: 400B AI-modell ved ulike presisjonsnivåer

FP16

Full presisjon

~800 GB

Int8

Halv størrelse

~400 GB

Int4

Kvart

~200 GB

FP16 — Maksimal kvalitet, maksimal kostnad

en perfekt kvalitet, halv pris

Int4 — Høy kvalitet, en fjerdedel av prisen

Forretningsmessig påvirkning

En 400B-modell med full presisjon krever ~800 GB minne – en serverinvestering på ~1,92 mill. kr. Den samme modellen kvantisert til Int4 krever bare ~200 GB og kan kjøres på to sammenke DGX Spark (GB10 Superchip-baserte) mini-PC-er for ~90 000 kr.

Mixture of Experts (MoE)

Mixture of Experts er et annet triks innen AI-modellarkitektur som gjør det mulig å distribuere massive modeller uten de massive minnekostnadene.

I stedet for å bruke alle parametre for hvert spørsmål, aktiverer en MoE-modell bare en brøkdel av kapasiteten sin gjennom sparse activation (sparsom aktivering).

En MoE-modell med 2 billioner parametre, som Llama 4 Behemoth, aktiverer bare 288B parametre per spørring – og leverer toppmoderne intelligens til en brøkdel av minnekostnaden.

Avveiningen

MoE-modeller er litt mindre effektive på enkle oppgaver som sammendrag og klassifisering, sammenlignet med tette modeller av samme størrelse. For kunnskapsarbeid og resonnement som kompleks analyse, kodegenerering og forskning, utmerker MoE-modellene seg.

Sparsom aktivering resulterer i raskere inferenshastighet og kortere responstider.

3 Mini-PC-er
AI-mini-PC-er 17 000 kr – 120 000 kr

Den mest disruptive utviklingen i 2026 er høy-kapasitet AI-beregning i mini-PC-format. Enheter ikke større enn en innbundet bok kjører nå AI-modeller som krevde serverrom for to år siden.

NVIDIA GB10-økosystemet (DGX Spark)

Ytelsesleder

NVIDIA DGX Spark har definert denne kategorien. I 2026 har GB10 Superchip – som kombinerer en ARM Grace CPU med en Blackwell GPU – skapt et helt økosystem. ASUS, GIGABYTE, Dell, Lenovo, HP, MSI og Supermicro produserer alle GB10-baserte systemer, hver med ulike formfaktorer, kjøleløsninger og pakket programvare.

NVIDIA GB10-økosystem ASUS, GIGABYTE, Dell, Lenovo, HP, MSI og Supermicro

Fra ~45 000 kr

Minne

128 GB

LPDDR5X Unified

Beregning

~1 PFLOP

FP8 AI-ytelse

Nettverk

10 GbE + Wi-Fi 7

ConnectX for klyngedannelse

Lagring

4 TB SSD

NVMe

Klyngedannel

Ja (2 enheter)

256 GB samlet minne

Programvare

NVIDIA AI Enterprise

CUDA, cuDNN, TensorRT

Klyngedannelse: 256 GB kapasitet

Ved å koble to GB10-enheter via den dedikerte høyhastighetsnettverksporten, samler systemet ressurser til et 256 GB minneområde. Dette frigjør muligheten til å kjøre svært store modeller — 400B+ parametere kvantisert — hel skrivebordet ditt for en total maskinvareinvestering på omtrent ~90 000 kr.

AMD Ryzen AI Max (Strix Halo) Mini-PCer

Laveste kostnad

AMDs Ryzen AI Max+ Strix Halo-arkitektur har skapt en helt ny kategori av budsjettvennlige AI-mini-PC-er. En bølge av produsenter – GMKtec, Beelink, Corsair, NIMO, Bosgame, FAVM – leverer nå 128 GB unified-minne-systemer for under ~22 500 kr.

AMD Ryzen AI Max Mini-PC-er GMKtec EVO-X2 · Beelink · Corsair · NIMO AI · Bosgame M5 · FAVM FA-EX9

Fra ~17 000 kr

Minne

128 GB

LPDDR5 Delt (CPU+GPU)

Beregning

~0.2 PFLOP

Integrert RDNA 3.5 GPU

Båndbredde

~200 GB/s

Minnebåndbredde

Strøm

~100W

Stille drift

Klyngedannel

Nei

Kun standalone

Windows / Linux

ROCm / llama.cpp

Apple Mac Studio (M4 Ultra)

Kapasitetsleder

Mac Studio inntar en unik posisjon i det lokale AI-landskapet. Apples Unified Memory Architecture (UMA) gir opptil 256 GB minne tilgjengelig for både CPU og GPU i en enkelt, kompakt desktopenhet – ingen klyngedannelse nødvendig.

Dette gjør den til den eneste rimelige enheten som kan laste de største åpen kildekode-modellene. En modell med 400 milliarder parametere kvantisert til Int4 passer helt i minnet på 256 GB-konfigurasjonen.

Apple Mac Studio (M4 Ultra) Ledende kapasitet i én enhet

Fra ~45 000 kr

Minne

Opptil 256 GB

Unified Memory (UMA)

Beregning

~0.5 PFLOP

Apple Neural Engine + GPU

Programvare

MLX-rammeverk

Apple-optimalisert inferens

Begrensning

Kun inferens

Treig for trening/finjustering

Apple Mac Studio (M5 Ultra)

Kommende utfordrer

Apples neste generasjon M5 Ultra, forventet sent i 2026, skal ifølge rykter adressere M4s hovedsvakhet: AI-modelltreningsytelse. Bygget på TSMCs 2nm-prosess, forventes den å tilby konfigurasjoner opptil 512 GB unified minne med båndbredde over 1,2 TB/s.

Apple Mac Studio (M5 Ultra) Det forventede AI-treningskraftverket

Est. ~113 000 kr

Minne

Opptil 512 GB

Unified-minne av neste generasjon

Beregning

~1.5+ PFLOP

2nm Neural Engine

Programvare

MLX 2.0+

Native treningsstøtte

Evne

Trening & inferens

CUDA-alternativ

Minnebåndbredde: 1,2 TB/s kapasitet

512 GB M5 Ultra ville vært den første forbrukerenheten som kan kjøre ukvantiserte (full presisjon) frontier-modeller. Høy minnebåndbredde på 1,2+ TB/s støtter agentisk AI-arbeidsflyt som krever vedvarende høy gjennomstrømming med svært lange kontekstvinduer.

Tiiny AI

Lomme-AI-superdatamaskin

Lansert på Kickstarter i 2026 for 13 500 kr er Tiiny.ai Pocket AI Computer en lommesuperdatamaskin med 80GB LPDDR5X-minne og en 1TB SSD som støtter kjøring av 120B AI-modeller lokalt hvor som helst.

Med en vekt på 300 gram (142×22×80mm) og drevet av standard USB-C, støtter den innovative forretningsapplikasjoner. Tiiny AI rapporterer en utgangshastighet på 21,14 tokens per sekund for GPT-OSS-120B.

Tenstorrent

Åpen kildekode-maskinvare

Ledet av den legendariske chiparkitekten Jim Keller, representerer Tenstorrent en fundamentalt annerledes filosofi: åpen kildekode-maskinvare bygget på RISC-V, åpen kildekode-programvare og modulær skalering gjennom daisy-chaining.

Tensix AI-kj er designet for lineær skalering: i motsetning til GPU-er som sliter med kommunikasjonsoverhead når du legger til flere kort, er Tenstorrent-chips bygget for effektiv flislegging.

I samarbeid med Razer har Tenstorrent lansert en kompakt ekstern AI-akselerator som kobles til hvilken som helst bærbar eller stasjonær PC via Thunderbolt – og transformerer eksisterende maskinvare til en AI-arbeidsstasjon uten å erstatte noe.

Razer × Tenstorrent Kompakt AI-akselerator Ekstern Thunderbolt AI-akselerator

Pris Ukjent

Minne per boks

12 GB

GDDR6

Chip

Wormhole n150

Tensix-kjerner · RISC-V

Skalering

Opptil 4 enheter

48 GB AI-kapasitet

Programvare

Fullstendig åpen kildekode

GitHub · TT-Metalium

AI NAS — Network Attached Storage

Lagring + AI

Definisjonen av NAS har endret seg fra passiv lagring til aktiv intelligens. En ny generasjon nettverkslagringsenheter integrerer AI-prosessering direkte – fra lettvekts inferens basert på NPU til full GPU-aksellerert LLM-utrulling.

En AI-kompatibel NAS eliminerer behovet for et separat AI-apparat og muliggjør direkte prosessering av større datamengder uten nettverksoverføringsforsinkelse.

⏻

Trenger du hjelp til å velge riktig AI-mini-PC for bedriften din?

Våre ingeniører kan vurdere dine AI-maskinvarekrav og implementere et fullt konfigurert AI-system.

Få en gratis maskinvarerådgivning →

4 Workstations
AI-workstations & stasjonære PC-er 28,5k - 143k kr

Workstation-kategorien bruker diskrete PCIe-grafikkort og standard tårnchassis. I motsetning til mini-PC-kategoriens faste integrerte arkitekturer, tilbyr denne kategorien modularitet – du kan oppgradere enkelte komponenter, legge til flere GPU-er eller bytte kort etter hvert som teknologien utvikler seg.

En dual-RTX A6000-workstation med NVLink-bro tilbyr 96 GB samlet VRAM for omtrent 67 000 kr.

Forstå VRAM kontra hastighet

To konkurrerende faktorer definerer GPU-valget for AI:

📦

VRAM-kapasitet

Bestemmer størrelsen på modellen du kan laste. Mer VRAM betyr større, mer kapableeller. Dette er ditt intelligensloft.

⚡

Reknehastighet

Bestemmer hvor raskt modellen svarer. Høyere reknekraft gir lavere forsinkelse per forespørsel. Dette er brukeropplevelsen din.

Forbrukerkort (som RTX 5090) maksimerer hastighet, men tilbyr begrenset VRAM – typisk 24–32 GB. Profesjonelle kort (som RTX PRO 6000 Blackwell) maksimerer VRAM – opptil 96 GB per kort – men koster mer per rekneenhet.

VRAM er den begrensende faktoren. Et raskt kort med utilstrekkelig minne kan ikke laste AI-modellen i det hele tatt. Et tregere kort med tilstrekkelig minne kjører modellen – bare med lengre responstider.

Forbruker-GPU-er

Konfigurasjon	Totalt VRAM	Kobling	Est. kostnad
2× RTX 3090 (brukt)	48 GB	NVLink	28 700 kr
2× RTX 4090	48 GB	PCIe Gen 5	38 200 kr
2× RTX 5090	64 GB	PCIe Gen 5	67 000 kr

Profesjonelle GPU-er

Konfigurasjon	Totalt VRAM	Kobling	Est. kostnad
2× RTX A6000 Beste pris-ytelse	96 GB	NVLink	67 000 kr
2× RTX 6000 Ada	96 GB	PCIe Gen 5	124 000 kr
1× RTX PRO 6000 Blackwell	96 GB	NVLink	76 500 kr
4× RTX PRO 6000 Blackwell	384 GB	PCIe Gen 5	306 000 kr

Datasenter-GPU-er

Konfigurasjon	Totalt VRAM	Kobling	Est. kostnad
1× L40S	48 GB	PCIe 4.0 (passiv kjøling)	67 000 kr
1× A100 PCIe	80 GB	PCIe 4.0	95 600 kr
1× H200 NVL	141 GB	NVLink	286 700 kr
4× H200 NVL	564 GB	NVLink	1 147 000 kr
1× B200 SXM	180 GB	NVLink 5 (1,8 TB/s)	286 700 kr
8× B200 SXM	1 440 GB	NVLink 5 (1,8 TB/s)	2 294 000 kr

Kinesiske GPU-er

Kinas innenlandske GPU-økosystem har modnet raskt. Flere kinesiske produsenter tilbyr nå AI-GPU-er i workstation-klasse med konkurransedyktige spesifikasjoner og betydelig lavere priser.

Konfigurasjon	Totalt VRAM	Minne-type	Est. kostnad
1× Moore Threads MTT S4000	48 GB	GDDR6	7 600 kr
4× Moore Threads MTT S4000	192 GB	GDDR6	33 500 kr
8× Moore Threads MTT S4000	384 GB	GDDR6	62 100 kr
1× Hygon DCU Z100	32 GB	HBM2	23 900 kr
1× Biren BR104	32 GB	HBM2e	28 700 kr
8× Biren BR104	256 GB	HBM2e	229 000 kr
1× Huawei Ascend Atlas I Duo	96 GB	HBM2e	11 500 kr
8× Huawei Ascend Atlas 300I Duo	768 GB	HBM2e	95 600 kr

Kommende

Konfigurasjon	Totalt VRAM	Status	Est. kostnad
RTX 5090 128 GB	128 GB	Kinesisk mod. – ikke standard SKU	47 800 kr
RTX Titan AI	64 GB	Forventes 2027	28 700 kr

MSI NVIDIA RTX PRO 6000 Blackwell Server

NVIDIA DGX Station

Enterprise Apex

NVIDIA DGX Station er en vannkjølt, pultside superdatamaskin som bringer datasenterytelse til en kontormiljø. Den nyeste versjonen bruker GB300 Grace Blackwell Superchip.

NVIDIA DGX Station GB300 Fremtidssikret Ultra

Est. pris ~1,91 mill. kr

Blackwell Ultra-versjonen øker minnetetthet og reknekraft, designet for organisasjoner som trenger å trene egendefinerte modeller fra bunnen av eller kjøre massive MoE (Mixture of Experts)-arkitekturer lokalt.

Minne

~1,5 TB+

HBM3e (ultrarask)

Beregning

~20+ PFLOPS

FP8 AI-ytelse

Bruksscenario

Egendefinert trening

Modellutvikling

Strøm

Standard uttak

Ingen serverrom nødvendig

NVIDIA DGX Station GB300 Blackwell Ultra

NVIDIA DGX Station A100 Tilgjengelig AI-arbeidshest

Fra ~956 000 kr

Selv om den er basert på forrige generasjons Ampere-arkitektur, forblir den industristandarden for pålitelig inferens og finjustering. Ideelt egnet for team som går inn i AI-markedet uten budsjett til Blackwell.

Minne

320 GB

4x 80GB A100 GPU-er

Beregning

2 PFLOPS

FP16 AI-ytelse

Flere brukere

5–8 samtidige

Moderat samtidighet

Strøm

Standard uttak

Ingen serverrom nødvendig

Selv om den er dyr, erstatter DGX Station et ~3,38 mill. kr serverrack og tilhørende kjøleinfrastruktur. Den kobles til et standard vegguttak. Dette eliminerer serverrom-overheadet fullstendig.

⏻

Trenger du hjelp til å velge riktig AI-workstation for bedriften din?

Våre ingeniører kan vurdere dine AI-maskinvarekrav og implementere et fullt konfigurert AI-system.

Få en gratis maskinvarerådgivning →

5 Servere
AI-servere 169k - 1,92 mill. kr

Når virksomheten din trenger å betjene mange ansatte samtidig, kjøre foundation-class-modeller med full presisjon, eller finjustere egendefinerte modeller på proprietære data – går du inn på servernivå.

Dette er domenet til dedikerte AI-akseleratorkort med høy båndbredde-minne (HBM), spesialiserte tilkoblinger og rack-monterbare eller pultside formfaktorer. Maskinvaren er dyrere, men kostnaden per bruker synker dramatisk med skala.

Intel Gaudi 3

Beste pris-ytelse på skala

Intels Gaudi 3-akselerator ble designet fra bunnen av som en AI-trenings- og inferensbrikke – ikke et gjenbrukt grafikkort. Hvert kort tilbyr 128 GB HBM2e-minne med integrert 400 Gb Ethernet-nettverk, noe som eliminerer behovet separate nettverkskort.

Gaudi 3 er tilgjengelig i to formfaktorer:

PCIe-kort (HL-338): Standard PCIe-formfaktor for integrering i eksisterende servere. Estimert pris: ~135 000 kr per kort.
OAM (OCP Accelerator Module): Høy tetthet OCP-standard for skydatacenter. 149 000 kr per brikke ved kjøp i bulk med 8-brikkes sett (ca. 1,4 mill. kr totalt med baseplate).

En server med 8 Gaudi 3-kort leverer 1 TB totalt AI-minne til mye lavere kostnad enn et sammenlignbart NVIDIA H100-system.

💾

Minne per kort

128 GB

HBM2e – matcher DGX Spark i et enkelt kort

⚡

8-korts totalt

1 TB

1 024 GB samlet minne for de største modellene

💰

Systemkostnad

~1,92 mill. kr

Billigere enn sammenlignbar NVIDIA H100-oppsett

AMD Instinct MI325X

Maksimal tetthet

AMD Instinct MI325X har 256 GB HBM3e-minne per kort – dobbelt så mye som Intel Gaudi 3. Bare 4 kort trengs for å nå 1 TB totalt AI-minne, sammenlignet med 8 kort for Intel.

💾

4-korts totalt minne

1 TB

Halvparten av kortene til Intel for samme kapasitet

⚡

Båndbredde

6 TB/s

Per kort – muliggjør samtidige brukere

💰

Systemkostnad

~2,26 mill. kr

Instapkostnad med 1 kort ~677 000 kr

MI325X er dyrere per system enn Gaudi 3, men raskere og tettere. For arbeidsmengder som krever maksimal gjennomstrømning – sanntids inferens for flere brukere, eller trening av egendefinerte modeller på store datasett – lønner den høyere investeringen seg med redusert ventetid og enklere infrastruktur.

Huawei Ascend

Fullstack-alternativ

Huawei har replikert hele AI-infrastrukturstacken: egendefinert silisium (Ascend 910B/C), proprietære tilkoblinger (HCCS) og et komplett programvare-rammeverk (CANN). Resultatet er et selvstendig økosystem som opererer uavhengig av vestlige forsyningskjeder og til mye lavere kostnad enn sammenlignbare NVIDIA H100-klynger.

Intel Xeon 6 (Granite Rapids)

Budsjettserver

En stille revolusjon i 2026 er fremveksten av CPU-basert AI-inferens. Intel Xeon 6-prosessorer inkluderer AMX (Advanced Matrix Extensions) som muliggjør AI-arbeidsmengder på standard DDR5-RAM – som er betydelig billigere enn GPU-minne.

Avveiningen

En dual-socket Xeon 6-server kan romme 1 TB til 4 TB DDR5-RAM til en brøkdel av kostnaden for GPU-minne. Inferenshastigheter er trege, men for batchprosessering – hvor hastighet er irrelevant, men intelligens og kapasitet er avgjørende – er dette revolusjonerende.

Eksempel: En SMB laster opp 100 000 skannede fakturer over natten. Xeon 6-serveren kjører en +400B AI-modell for å ekstrahere data perfekt. Oppgaven tar 10 timer, men maskinvarekostnadene er mye lavere enn en GPU-server.

⏻

Trenger du hjelp til å velge riktig AI-serverinfrastruktur?

Vårt infrastrukturteam designer og implementerer komplette AI-serverløsninger – fra Intel Gaudi til NVIDIA DGX – kombinert med skreddersydd programvare – for å utløse AI-mulighetene for din bedrift.

Be om et serverarkitekturforslag →

6 Edge AI
Edge AI & Retrofit Oppgradering av eksisterende infrastruktur

Ikke alle SMB-bedrifter trenger en dedikert AI-server eller mini-PC. Mange kan bygge inn intelligens i eksisterende infrastruktur – oppgradere laptoper, stasjonære PC-er og nettverksenheter med AI-funksjoner til minimal kostnad.

M.2 AI-akseleratorer: Hailo-10

Hailo-10 er en standard M.2 2280-modul – samme spor som brukes til SSD-er – som legger til dedikert AI-prosessering til enhver eksisterende PC. Til ~~1 700 kr per enhet og med et strømforbruk på bare 5–8W, muliggjør den AI-oppgraderinger for hele flåten uten å bytte ut maskinvaren.

📎

Formfaktor

M.2 2280

Passer i ethvert standard SSD-spor

⚡

Ytelse

20–50 TOPS

Optimalisert for edge-inferens

💰

Kostnad

~1 700 kr

Per enhet – flåteoppgradering for under ~33 800 kr

Bruksområder: Lokal møtetranskripsjon (Whisper), sanntids teksting, talediktat, inferens for små modeller (Phi-3 Mini). Disse kortene kan ikke kjøre store LLM-er, men de utmerker seg på spesifikke, vedvarende AI-oppgaver – sikrer at stemmedata behandles lokalt og aldres sendes til skyen.

Copilot+ PC-er (NPU-laptoper)

Bærbare datamaskiner med Qualcomm Snapdragon X Elite, Intel Core Ultra eller AMD Ryzen AI-brikker inneholder dedikerte Neural Processing Units (NPU) – spesialiserte AI-brikker. Disse kan ikke kjøre store LLM-er, men de håndterer små, vedvarende AI-oppgaver: live transkripsjon, bakgrunnsuskarphet, lokale Recall-funksjoner og kjøring av lette modeller som Microsoft Phi-3.

NPU-er vurderes i TOPS (Tera Operations Per Second), som måler hvor mye AI-arbeid de kan håndtere. De kraftigste Copilot+ PC-ene i 2026 har ~50 TOPS. Høyere TOPS betyr raskere svar og evne til å håndtere litt større AI-modeller.

9 AI-modeller
Åpen kildekode AI-modeller (2026–2027)

Valget av AI-modell dikterer maskinvarekravene – men som kapittelet om AI-modellkvantisering viste, lar kvantisering toppmodeller kjøre på maskinvare som koster en brøkdel av hva fullpresisjonsimplementering krever.

Tabellen nedenfor gir en oversikt over nåværende og kommende AI-modeller med åpen kildekode.

Modell	Størrelse	Arkitektur	Minne (FP16)	Minne (INT4)
Llama 4 Behemoth	288B (aktiv)	MoE (~2T totalt)	~4 TB	~1 TB
Llama 4 Maverick	17B (aktiv)	MoE (400B totalt)	~800 GB	~200 GB
Llama 4 Scout	17B (aktiv)	MoE (109B totalt)	~220 GB	~55 GB
DeepSeek V4	~70B (aktiv)	MoE (671B totalt)	~680 GB	~170 GB
DeepSeek R1	37B (aktiv)	MoE (671B totalt)	~140 GB	~35 GB
DeepSeek V3.2	~37B (aktiv)	MoE (671B totalt)	~140 GB	~35 GB
Kimi K2.5	32B (aktiv)	MoE (1T totalt)	~2 TB	~500 GB
Qwen 3.5	397B (aktiv)	MoE (A17B)	~1.5 TB	~375 GB
Qwen 3-Max-Thinking	Stor	Dense	~2 TB	~500 GB
Qwen 3-Coder-Next	480B (A35B aktiv)	MoE	~960 GB	~240 GB
Mistral Large 3	123B (41B aktiv)	MoE (675B totalt)	~246 GB	~62 GB
Ministral 3 (3B, 8B, 14B)	3B–14B	Dense	~6–28 GB	~2–7 GB
GLM-5	44B (aktiv)	MoE (744B totalt)	~1.5 TB	~370 GB
GLM-4.7 (Thinking)	Stor	Dense	~1.5 TB	~375 GB
MiMo-V2-Flash	15B (aktiv)	MoE (309B totalt)	~30 GB	~8 GB
MiniMax M2.5	~10B (aktiv)	MoE (~230B totalt)	~460 GB	~115 GB
Phi-5 Reasoning	14B	Dense	~28 GB	~7 GB
Phi-4	14B	Dense	~28 GB	~7 GB
Gem3	27B	Dense	~54 GB	~14 GB
Pixtral 2 Large	90B	Dense	~180 GB	~45 GB
Stable Diffusion 4	~12B	DiT	~24 GB	~6 GB
FLUX.2 Pro	15B	DiT	~30 GB	~8 GB
Open-Sora 2.0	30B	DiT	~60 GB	~15 GB
Whisper V4	1.5B	Dense	~3 GB	~1 GB
Med-Llama 4	70B	Dense	~140 GB	~35 GB
Legal-BERT 2026	35B	Dense	~70 GB	~18 GB
Finance-LLM 3	15B	Dense	~30 GB	~8 GB
CodeLlama 4	70B	Dense	~140 GB	~35 GB
Molmo 2	80B	Dense	~160 GB	~40 GB
Granite 4.0	32B (9B aktiv)	Hybrid Mamba-Transformer	~64 GB	~16 GB
Nemotron 3	8B, 70B	Dense	~16–140 GB	~4–35 GB
EXAONE 4.0	32B	Dense	~64 GB	~16 GB
Llama 5 Frontier	~1.2T (total)	MoE	~2.4 TB	~600 GB
Llama 5 Base	70B–150B	Dense	~140–300 GB	~35–75 GB
DeepSeek V5	~600B (total)	MoE	~1.2 TB	~300 GB
Stable Diffusion 5	Nader å bestemme	DiT	—	—
Falcon 3	200B	Dense	~400 GB	~100 GB

Strategiske råd

Ikke kjøp maskinvaren først. Identifiser modellklassen som passer til dine forretningsbehov, og bruk deretter kvantisering for å bestemme den mest rimelige maskinvarelaget.

Forskjellen mellom en 28 700 kr og en 1 430 000 kr investering kommer ofte ned til krav til modellstørrelse og antall samtidige brukere.

Trender som former AI-modellandskapet

Nativ multimodalitet som standard. Nye modeller trenes på tekst, bilder, lyd og video samtidig – ikke som separate funksjoner lagt til etter trening. Dette betyr at én enkelt modell håndterer dokumentanalyse, bildetolkning og stemmesamhandling.
Små modeller oppnår store modellers kapabiliteter. Phi-5 (14B) og MiMo-V2-Flash viser at arkitekturinnovasjon kan komprimere toppnivå resonnement til modeller som kjører på en laptop. Eraen der "større er bedre" er i ferd med å ta slutt.
Spesialisering over generalisering. I stedet for én massiv modell for alt, går trenden mot ensemble av spesialiserte modeller – en kodemodell, en resonnemodsell, en bildemodell – orkestrert av et agentrammeverk. Dette reduserer maskinvarekrav per modell og forbedrer den samlede kvaliteten.
Agentisk AI. Modeller som Kimi K2.5 og Qwen 3 er designet for selvstendig å dekomponere komplekse oppgaver, kalle eksterne verktøy, og koordinere med andre modeller. Dette agentsverm-paradigmet krever vedvarende gjennomstrømming over lange økter – noe som favoriserer maskinvare med høy båndbredde som GB10 og M5 Ultra.
Video- og 3D-generering modnes. Open-Sora 2.0 og FLUX.2 Pro signaliserer at lokal videogenerering blir praktisk. Innem 2027 kan du forvente sanntidsvideo-redigeringsassistenter som kjører på arbeidsstasjonsklasse maskinvare.

10 Sikkerhet
Arkitektur for maksimal sikkerhet

Den primære fordelen med lokal AI-maskinvare er ikke ytelse – det er datasuverenitet. Når AI-serveren din kjører bak brannmuren din i stedet for i andres sky, forlater dine sensitive data aldri bygningen din.

Air-Gapped API-arkitekturen isolerer fysisk AI-serveren fra internett samtidig som den gjør den tilgjengelig for autoriserte ansatte gjennom et API-grensesnitt.

Air-Gapped API-arkitektur

👤 Ansatt Standard arbeidsstasjon

→

🔀 Broker Server Auth + UI + Routing

⟶

🔒 AI Server Air-gapped · Ingen internett

AI Vault

Denne arkitekturen skaper et Digitalt hvelv. Selv om Broker Server ble kompromittert, kunne en angriper kun sende tekstspørringer – de kunne ikke få tilgang til AI-serverens filsystem, modellvekter, fininnstilling av data eller noen lagrede dokumenter.

⏻

Trenger du en sikker AI-implementering med skreddersydde AI-løsninger?

Våre ingeniører designer og implementerer air-gapped AI-arkitekturer som sikrer at data aldri forlater lokalet, samtidig som de gir din bedrift toppmoderne AI-muligheter.

Diskuter sikker AI-arkitektur →

11 Økonomi
Den økonomiske konklusjonen: Lokalt vs. sky

Overgangen til lokal AI-maskinvare er et skifte fra OpEx (driftskostnader – månedlige sky-API-gebyrer) til CapEx (investeringskostnader – en engangsinvestering i maskinvare som blir en eiendel på balansen).

Tenk på et advokatfirma som kjører en 200B-modell for å analysere kontrakter:

☁️ Cloud API

~338 000 kr

per år (ved skala)

1.000 kontrakter/dag × ~0,01 kr/1K tokens × 365 dager. Skalerer lineært med bruk. Data forlater nettverket.

🖥️ Lokal maskinvare (DGX Spark)

~45 000 kr

engangsinvestering

+ ~170 kr/måned strøm. Ubegrenset bruk. Data forlater aldri LAN-et. Aktiva på balansen.

Med 1.000 spørringer per dag betaler en DGX Spark for seg selv på under 2 måneder sammenlignet med sky-API-kostnader. Ved høyere bruksnivåer forkortes break-even-perioden til uker.

Økonomien blir enda mer fordelaktig når du tar med:

Flere ansatte som deler samme maskinvare (DGX Spark betjener 2–5 samtidige brukere)
Ingen prising per token – komplekse, flertrinns resonneringsoppgaver koster ikke noe ekstra
Finjustering med egne data – umulig med de fleste sky-API-er, gratis på lokal maskinvare
Videresalgsverdi for maskinvare – AI-maskinvare beholder betydelig verdi på sekundærmarkedet

Den komplette guiden for lokal AI-maskinvare for SMB

1 Grunnlag
Hvorfor lokal AI? Den forretningsmessige begrunnelsen for eierskap

2 Redusere kostnader
Kvantisering: Kjør større AI-modeller på billigere maskinvare

Mixture of Experts (MoE)

3 Mini-PC-er
AI-mini-PC-er 17 000 kr – 120 000 kr

NVIDIA GB10-økosystemet (DGX Spark)

AMD Ryzen AI Max (Strix Halo) Mini-PCer

Apple Mac Studio (M4 Ultra)

Apple Mac Studio (M5 Ultra)

Tiiny AI

Tenstorrent

AI NAS — Network Attached Storage

Trenger du hjelp til å velge riktig AI-mini-PC for bedriften din?

4 Workstations
AI-workstations & stasjonære PC-er 28,5k - 143k kr

Forstå VRAM kontra hastighet

Forbruker-GPU-er

Profesjonelle GPU-er

Datasenter-GPU-er

Kinesiske GPU-er

Kommende

NVIDIA DGX Station

Trenger du hjelp til å velge riktig AI-workstation for bedriften din?

5 Servere
AI-servere 169k - 1,92 mill. kr

Intel Gaudi 3

AMD Instinct MI325X

Huawei Ascend

Intel Xeon 6 (Granite Rapids)

Trenger du hjelp til å velge riktig AI-serverinfrastruktur?

6 Edge AI
Edge AI & Retrofit Oppgradering av eksisterende infrastruktur

M.2 AI-akseleratorer: Hailo-10

Copilot+ PC-er (NPU-laptoper)

9 AI-modeller
Åpen kildekode AI-modeller (2026–2027)

Trender som former AI-modellandskapet

10 Sikkerhet
Arkitektur for maksimal sikkerhet

Trenger du en sikker AI-implementering med skreddersydde AI-løsninger?

11 Økonomi
Den økonomiske konklusjonen: Lokalt vs. sky

Slå intelligensen PÅ for din bedrift

Den komplette guiden for lokal AI-maskinvare for SMB

1 GrunnlagHvorfor lokal AI? Den forretningsmessige begrunnelsen for eierskap

2 Redusere kostnaderKvantisering: Kjør større AI-modeller på billigere maskinvare

Mixture of Experts (MoE)

3 Mini-PC-erAI-mini-PC-er 17 000 kr – 120 000 kr

NVIDIA GB10-økosystemet (DGX Spark)

AMD Ryzen AI Max (Strix Halo) Mini-PCer

Apple Mac Studio (M4 Ultra)

Apple Mac Studio (M5 Ultra)

Tiiny AI

Tenstorrent

AI NAS — Network Attached Storage

Trenger du hjelp til å velge riktig AI-mini-PC for bedriften din?

4 WorkstationsAI-workstations & stasjonære PC-er 28,5k - 143k kr

Forstå VRAM kontra hastighet

Forbruker-GPU-er

Profesjonelle GPU-er

Datasenter-GPU-er

Kinesiske GPU-er

Kommende

NVIDIA DGX Station

Trenger du hjelp til å velge riktig AI-workstation for bedriften din?

5 ServereAI-servere 169k - 1,92 mill. kr

Intel Gaudi 3

AMD Instinct MI325X

Huawei Ascend

Intel Xeon 6 (Granite Rapids)

Trenger du hjelp til å velge riktig AI-serverinfrastruktur?

6 Edge AIEdge AI & Retrofit Oppgradering av eksisterende infrastruktur

M.2 AI-akseleratorer: Hailo-10

Copilot+ PC-er (NPU-laptoper)

9 AI-modellerÅpen kildekode AI-modeller (2026–2027)

Trender som former AI-modellandskapet

10 SikkerhetArkitektur for maksimal sikkerhet

Trenger du en sikker AI-implementering med skreddersydde AI-løsninger?

11 ØkonomiDen økonomiske konklusjonen: Lokalt vs. sky

Slå intelligensen PÅ for din bedrift

1 Grunnlag
Hvorfor lokal AI? Den forretningsmessige begrunnelsen for eierskap

2 Redusere kostnader
Kvantisering: Kjør større AI-modeller på billigere maskinvare

3 Mini-PC-er
AI-mini-PC-er 17 000 kr – 120 000 kr

4 Workstations
AI-workstations & stasjonære PC-er 28,5k - 143k kr

5 Servere
AI-servere 169k - 1,92 mill. kr

6 Edge AI
Edge AI & Retrofit Oppgradering av eksisterende infrastruktur

9 AI-modeller
Åpen kildekode AI-modeller (2026–2027)

10 Sikkerhet
Arkitektur for maksimal sikkerhet

11 Økonomi
Den økonomiske konklusjonen: Lokalt vs. sky