Lokal AI-hårdvaruguide för SMF 2026–2027

NVIDIA DGX Spark – en bokstor enhet som kan köra AI-modeller med 200 miljarder parametrar (400 miljarder när två är länkade) – representerar en ny era för AI-ägande på skrivbordet.

1 Grundläggande
Varför lokal AI? Affärsfallet för egen äganderätt

I början av 2020-talet var artificiell intelligens en tjänst man hyrde – per timme, per token, per API-anrop. Vid 2026 har paradigmet skiftat. Hårdvaran som krävs för att köra GPT-4-klass intelligens får nu plats på ditt skrivbord och kostar mindre än en begagnad bil.

Fortsatt förlitan på enbart molnbaserad AI innebär ett strategiskt trilemma:

Eskalerande kostnader. API-avgifter per token skalar linjärt med användningen. Ett juridiskt företag som bearbetar 1 000 kontrakt per dag kan stå inför ca. 320 000 kr i årliga API-kostnader.
Dataexponering. Varje fråga som skickas till ett moln-API är data som lämnar ditt nätverk och utsätts för säkerhets- och integritetsrisker.
Ingen eller kostsam anpassning. Molnmodeller är generiska. De kan inte enkelt eller kostnadseffektivt finjusteras för anpassad data, interna affärsprocesser eller affärsintelligens.

Lokal AI-hårdvara löser alla tre. Den omvandlar variabla API-avgifter till en fast kapitaltillgång, säkerställer att data aldrig lämnar LAN och möjliggör djup anpassning genom finjustering på affärsdata.

2 Kostnadsreducering
Kvantisering: Kör större AI-modeller på billigare hårdvara

Kvantisering är ett koncept som fundamentalt förändrar ekonomin i lokal AI.

Enkelt uttryckt komprimerar kvantisering en AI-modells minnesfotavtryck. Enje parameter som ett 16-bitars flyttal (FP16). Kvantisering reducerar detta till 8-bitars (Int8), 4-bitars (Int4) eller ännu lägre – och minskar dramatiskt mängden minne som krävs för att köra modellen.

Kvantisering resulterar i en liten kvalitetsminskning i utdata – ofta omärkbar för affärsuppgifter som sammanfattning, utkast och analys – i utbyte mot en massiv minskning av hukostnaden.

Minneskrav: 400B AI-modell vid olika precisionsnivåer

FP16

Full precision

~800 GB

Int8

Halv storlek

~400 GB

Int4

Kvart

~200 GB

FP16 – Maximal kvalitet, maximal kostnad

Int8 – Nästan perfekt kvalitet, halva kostnaden

Int4 – Hög kvalitet, fjärdedel av kostnaden

Affärspåverkan

En 400B-modell med full precision kräver ~800 GB minne – en serverinvestering på ca. 1,8 mkr. Samma modell kvantiserad till Int4 kräver endast ~200 GB och kan köras på två länkade DGX Spark (GB10 Superchip-baserade) mini-datorer för ca. 85 000 kr.

Mixture of Experts (MoE)

Mixture of Experts är ett annat knep inom AI-modellarkitektur som gör det möjligt att distribuera massiva modeller utan de massiva minneskostnaderna.

Istället för att använda alla parametrar för varje fråga aktiverar en MoE-modell endast en bråkdel av sin kapacitet genom sparse activation (gles aktivering).

En MoE-modell med 2 biljoner parametrar som Llama 4 Behemoth aktiverar endast parametrar per fråga – vilket ger toppmodern intelligens till en bråkdel av minneskostnaden.

Avvägningen

MoE-modeller är något mindre effektiva vid enkla uppgifter som sammanfattning och klassificering jämfört med täta modeller av samma storlek. För kunskapsarbete och resonemang som komplex analys, kodgenerering och forskning, utmärker sig MoE-modeller.

Sparse activation resulterar i snabbare inferenshastighet och kortare svarstider.

3 Minidatorer
AI-minidatorer 16 000 kr – 107 000 kr

Den mest disruptiva utvecklingen 2026 är högkapacitets-Aberäkning i minidatorformat. Enheter inte större än en inbunden bok kör nu AI-modeller som krävde serverrum för två år sedan.

NVIDIA GB10-ekosystemet (DGX Spark)

Prestandaledare

NVIDIA DGX Spark har definierat denna kategori. År 2026 har GB10 Superchip – en kombination av en ARM Grace och en Blackwell GPU – skapat ett helt ekosystem. ASUS, GIGABYTE, Dell, Lenovo, HP, MSI och Supermicro tillverkar alla GB10-baserade system, var och en med olika formfaktorer, kyllösningar och mjukvarupaket.

NVIDIA GB10-ekosystem ASUS, GIGABYTE, Dell, Lenovo, HP, MSI och Supermicro

Från ca. 42 500 kr

Minne

128 GB

LPDDR5X Unified

Beräkning

FP8 AI-prestanda

Nätverk

10 GbE + Wi-Fi 7

ConnectX för klustring

Lagring

4 TB SSD

NVMe

Klustring

Ja (2 enheter)

256 GB poolat minne

Mjukvara

NVIDIA AI Enterprise

CUDA, cuDNN, TensorRT

Klustring: 256 GB kapacitet

Genom att koppla samman två GB10-enheter via den dedikerade höghastighetsnätverksporten kombinerar systemet resurser till ett 256 GB minnesutrymme. Detta möjliggör körning av mycket stora modeller – 400B+ kvantiserade parametrar – helt på ditt skrivbord för en total hårdvaruinvestering på cirka ca. 85 000 kr.

AMD Ryzen AI Max (Strix Halo) minidatorer

Lägsta kostnad

AMD:s Ryzen AI Max+ Strix Halo-arkitektur har skapat en helt ny kategori av budget-AI-minidatorer. En våg av tillverkare – GMKtec, Beelink, Corsair, NIMO, Bosgame, FAVM – levererar nu 128 GB unified memory-system för under 21 500 kr.

AMD Ryzen AI Max minidatorer GMKtec EVO-X2 · Beelink · Corsair · NIMO AI · Bosgame M5 · FAVM FA-EX9

Från 16 000 kr

Minne

128 GB

LPDDR5 Delat (CPU+GPU)

Beräkning

~0.2 PFLOP

Integrerad RDNA 3.5 GPU

Bandbredd

~200 GB/s

Minnesbandbredd

Effekt

~100W

Tyst drift

Klustring

Nej

Endast fristående

Windows / Linux

ROCm / llama.cpp

Apple Mac Studio (M4

Kapacitetsledare

Mac Studio intar en unik position i det lokala AI-landskapet. Apples Unified Memory Architecture (UMA) till 256 GB minne tillgängligt för både CPU och GPU i en enda kompakt desktopenhet – ingen klustring krävs.

Detta gör den till den enda prisvärda enheten som kan ladda de största modellerna med öppen källkod. En modell med 400 miljarder parametrar kvantiserad till Int4 får helt plats i minnet på 256 GB-konfigurationen.

Apple Mac Studio (M4 Ledaren i AI-kapacitet för en enhet

Från ca. 42 500 kr

Minne

Upp till 256 GB

Unified Memory (UMA)

Beräkning

~0.5 PFLOP

Apple Neural Engine + GPU

Mjukvara

MLX-ramverk

Apple-optimerad inferens

Begränsning

Endast inferens

Långsam för träning/finjustering

Apple Mac Studio (M5 Ultra)

Kommande utmanare

Apples nästa generations M5 Ultra, som förväntas i slutet av 2026, sägs adressera M4:s främsta svaghet: AI-modellträningsprestanda. Byggd på TSMC:s 2nm-process förväntas den erbjuda konfigurationer upp till 512 GB unified memory med bandbredd över 1,2 TB/s.

Apple Mac Studio (M5 Ultra) Det förväntade AI-träningskraftverket

Ber. ~107 000 kr

Minne

Upp till 512 GB

Nästa generations Unified Memory

Beräkning

~1.5+ PFLOP

2nm Neural Engine

Mjukvara

MLX 2.0+

Inbyggt stöd för träning

Kapacitet

Träning och inferens

CUDA-alternativ

Minnesbandbredd: 1,2 TB/s kapacitet32 000 kr

Den 512 GB M5 Ultra skulle bli den första konsumentenheten som kan köra okvantiserade (full precision) frontier-modeller. Den höga minnesbandbredden på 1,2+ TB/s stödjer agentiska AI-arbetsflöden som kräver ihållande hög genomströmning vid inferens med mycket långa kontextfönster.

Tiiny AI

Fick-AI-superdator

Släppt på Kickstarter 2026 för 13 000 kr är Tiiny.ai Pocket AI Computer en ficksuperdator med 80 GB LGDDR5X-minne och en 1 TB SSD som stöder lokalkörning av 120B AI-modeller var som helst.

Med en vikt på 300 gram (142×22×80 mm) och driven via standard USB-C stöder den innovativa affärstillämpningar. Tiiny AI rapporterar en utmatningshastighet på 21,14 tokens per sekund för GPT-OSS-120B.

Tenstorrent

Öppen källkods-hårdvara

Ledd av den legendariska chiparkitekten Jim Keller representerar Tenstorrent en fundamentalt annan filosofi: öppen källkods-hårdvara byggd på RISC-V, öppen källkods-mjukvara och modulär skalning via kedjesammanlänkning.

Tensix AI-kärnor är designade för linjär skalning: till skillnad från GPU:er som kämpas med kommunikationsöverhead när fler kort läggs till, är Tenstorrent-chip byggda för att effektivt sammanlänkas.

I partnerskap med Razer har Tenstorrent släppt en kompakt extern AI-accelerator som ansluter till vilken bärbara eller stationära dator som helst via Thunderbolt – och omvandlar befintlig hårdvara till en AI-arbetsstation utan att byta ut något.

Razer × Tenstorrent kompakt AI-accelerator Extern Thunderbolt AI-accelerator

Pris Okänt

Minnes per enhet

12 GB

GDDR6

Chip

Wormhole n150

Tensix-kärnor · RISC-V

Skalning

Upp till 4 enheter

48 GB AI-kapacitet

Mjukvara

Helt öppen källkod

GitHub · TT-Metalium

AI NAS – Nätverksansluten lagring

Lagring + AI

Definitionen av NAS har förskjutits från passiv lagring till aktiv intelligens. En ny generation av nätverkslagringsenheter integrerar AI-bearbetning direkt - från lättviktsinferens baserad på NPU till fullskalig GPU-accelererad LLM-distribution.

En AI-kapabel NAS eliminerar behovet av en separat AI-enhet och möjliggör direktbearbetning av större datamängder utan nätverksöverföringslatens.

⏻

Behöver ni hjälp att välja rätt AI-minidator för ert företag?

Våra ingenjörer kan utvärdera era AI-hårdvarukrav och driftsätta ett fullt konfigurerat AI-system.

Få en gratis hårdvarubedömning →

4 Arbetsstationer
AI-arbetsstationer & skrivbordsdatorer 27 000 kr – 136 000 kr

Arbetsstationsnivån använder diskreta PCIe-grafikkort och standard tornchassin. Till skillnad från mini-datornivåns fasta enhetliga arkitekturer erbjuder denna nivå modularitet - ni kan uppgradera enskilda komponenter, lägga till fler GPU:er eller byta kort när teknologin utvecklas.

En dubbel RTX A6000-arbetsstation med NVLink-brygga erbjuder 96 GB samlat VRAM för cirka 63 000 kr.

Förståelse av VRAM kontra hastighet

Två konkurrerande faktorer definierar GPU-valet för AI:

📦

VRAM-kapacitet

Bestämmer storleken på modellen kan ladda. Mer VRAM betyder större, mer kapabla modeller. Detta är din intelligensgräns.

⚡

Beräkningshastighet

Bestämmer hur snabbt modellen svarar. Högre beräkningskapacitet innebär lägre latens per fråga. Detta är din användarupplevelse.

Konsumentkort (som RTX 5090) maximerar hastighet men erbjuder begränsat VRAM - typiskt 24-32 GB. Professionella kort (som RTX PRO 6000 Blackwell) maximerar VRAM - upp till 96 GB per kort - men kostar mer per beräkningsenhet.

VRAM är den begränsande faktorn. Ett snabbt kort med otillräckligt minne kan inte ladda AI-modellen alls. Ett långsammare kort med tillräckligt minne kör modellen - bara med längre svarstider.

Konsument-GPU:er

Konfiguration	Totalt VRAM	Länkning	Beräknad kostnad
2× RTX 3090 (Begagnad)	48 GB	NVLink	27 000 kr
2× RTX 4090	48 GB	PCIe Gen 5	36 000 kr
2× RTX 5090	64 GB	PCIe Gen 5	63 000 kr

Professionella GPU:er

Konfiguration	Totalt VRAM	Länkning	Beräknad kostnad
2× RTX A6000 Bästa pris-prestanda	96 GB	NVLink	63 000 kr
2× RTX 6000 Ada	96 GB	PCIe Gen 5	118 000 kr
1× RTX PRO 6000 Blackwell	96 GB	NVLink	72 000 kr
4× RTX PRO 6000 Blackwell	384 GB	PCIe Gen 5	289 000 kr

Datacenter-GPU:er

Konfiguration	Totalt VRAM	Länkning	Beräknad kostnad
1× L40S	48 GB	PCIe 4.0 (passiv kylning)	63 000 kr
1× A100 PCIe	80 GB	PCIe 4.0	90 000 kr
1× H200 NVL	141 GB	NVLink	271 000 kr
4× H200 NVL	564 GB	NVLink	1 085 000 kr
1× B200 SXM	180 GB	NVLink 5 (1,8 TB/s)	271 000 kr
8× B200 SXM	1 440 GB	NVLink 5 (1,8 TB/s)	2 170 000 kr

Kinesiska GPU:er

Kinas inhemska GPU-ekosystem har mognat snabbt. Flera kinesiska tillverkare erbjuder nu AI-GPU:er i arbetsstationsklass med konkurrenskraftiga specifikationer och betydligt lägre priser.

Konfiguration	Totalt VRAM	Minnestyp	Beräknad kostnad
1× Moore Threads MTT S4000	48 GB	GDDR6	7 200 kr
4× Moore Threads MTT S4000	192 GB	GDDR6	32 000 kr
8× Moore Threads MTT S4000	384 GB	GDDR6	59 000 kr
1× Hygon DCU Z100	32 GB	HBM2	23 000 kr
1× Biren BR104	32 GB	HBM2e	27 000 kr
8× Biren BR104	256 GB	HBM2e	217 000 kr
1× Huawei Ascend Atlas 300I Duo	96 GB	HBM2e	11 000 kr
8× Huawei Ascend Atlas 300I Duo	768 GB	HBM2e	90 000 kr

Kommer snart

Konfiguration	Totalt VRAM	Status	Beräknad kostnad
RTX 5090 128 GB	128 GB	Kinesisk mod. - inte en standard-SKU	45 000 kr
RTX Titan AI	64 GB	Förväntas 2027	27 000 kr

MSI NVIDIA RTX PRO 6000 Blackwell Server

NVIDIA DGX Station

Enterprise Apex

NVIDIA DGX Station är en vattenkyld, skrivbordsnära superdator som för datacenterprestanda till en kontorsmiljö. Den senaste versionen använder GB300 Grace Blackwell Superchip.

NVIDIA DGX Station GB300 Framtidssäker Ultra

Beräknat pris ~1,4 mnkr

Blackwell Ultra-versionen ökar minnestäthet och beräkningskraft, designad för organisationer som behöver träna anpassade modeller från grunden eller köra massiva MoE-arkitekturer (Mixture of Experts) lokalt.

Minne

~1,5 TB+

HBM3e (ultrasnabbt)

Beräkning

~20+ PFLOPS

FP8 AI-prestanda

Användningsfall

Anpassäning

Modellutveckling

Effekt

Standarduttag

Inget serverrum krävs

NVIDIA DGX Station GB300 Blackwell Ultra

NVIDIA DGX Station A100 Tillgängligt AI-arbetskraftsdjur

Från ~900 tkr

Även om den är baserad på föregående generations Ampere-arkitektur, förblir den industristandarden för tillförlitlig inferens och finjustering. Idealiskt för team som går in i AI-rymden utan budget för Blackwell.

Minne

320 GB

4x 80GB A100 GPU:er

Beräkning

2 PFLOPS

FP16 AI-prestanda

Flera användare

5–8 samtidiga

Måttlig samtidighet

Effekt

Standarduttag

Inget serverrum krävs

Även om den är dyr ersätter DGX Station ett ~3,2 mnkr serverställ och dess associerade kylinfrastruktur. Den ansluts till ett vanligt vägguttag. Detta eliminerar helt serverrums-overheaden.

⏻

Behöver ni hjälp att välja rätt AI-arbetsstation för ert företag?

Våra ingenjörer kan utvärdera era AI-hårdvarukrav och driftsätta ett fullt konfigurerat AI-system.

Få en gratis hårdvarubedömning →

5 Servrar
AI-servrar 160 tkr – 1,8 mkr

ag behöver betjäna många anställda samtidigt, köra foundation-class-modeller med full precision eller finjustera anpassade modeller på proprietära data – går du in på servernivån.

Det här är domänen för dedikerade AI-acceleratorkort med minne med hög bandbredd (HBM), specialiserade interconnects och rackmonterade eller skrivbordsnära formfaktorer. Hårdvaran är dyrare, men kostnaden per användare minskar dramatiskt i stor skala.

Intel Gaudi 3

Bästa pris-prestanda i stor skala

Intels Gaudi 3-accelerator designades från grunden som ett AI-tränings- och inferenchip - inte ett återanvänt grafikkort. Varje kort ger 128 GB HBM2e-minne med integrerad 400 Gb Ethernet-nätverksteknik, vilket eliminerar behovet av separata nätverkskort.

Gaudi 3 finns i två formfaktorer:

PCIe-kort (HL-338): Standard PCIe-formfaktor för integration i befintliga servrar. Beräknat pris: ~128 000 kr per kort.
OAM (OCP Accelerator Module): Högdensitet OCP-standard för molndatacenter. 141 000 kr per chip vid köp i bulk med 8-chips kit (~1,3 mnkr totalt med basplatta).

En server med 8 Gaudi 3-kort levererar 1 TB totalt AI-minne till mycket lägre kostnad än ett jämförbart NVIDIA H100-system.

💾

Minne per kort

128 GB

HBM2e - matchar DGX Spark i ett enda kort

⚡

8-korts totalt

1 TB

1 024 GB samlat minne för de största modellerna

💰

Systemkostnad

ca. 1,8 mkr

Billigare än jämförbar NVIDIA H100-konfiguration

AMD Instinct MI325X

Maximal densitet

AMD Instinct MI325X har 256 GB HBM3e-minne per kort – dubbelt så mycket som Intel Gaudi 3. Endast 4 kort behövs för att nå 1 TB totalt AI-minne, jämfört med 8 kort för Intel.

💾

4-korts totalt minne

1 TB

Hälften så många kort som Intel för samma kapacitet

⚡

Bandbredd

6 TB/s

Per kort - möjliggör samtidiga användare

💰

Systemkostnad

~2,1 mnkr

Instapkostnad med 1 kort ~640 000 kr

MI325X är dyrare per system än Gaudi 3, men snabbare och kompaktare. För arbetsbelastningar som kräver maximal genomströmning – realtidsinferens för fler användare eller träning av anpassade modeller på stora datamängder – lönar sig den högre investeringen genom minskad latens och enklare infrastruktur.

Huawei Ascend

Fullständigt alternativ

Huawei har replikerat hela AI-infrastrukturstacken: anpassade kisel (Ascend 910B/C), proprietära interconnects (HCCS) och ett komplett programvaruramverk (CANN). Resultatet är ett självständigt ekosystem som fungerar oberoende av västliga leveranskedjor och till mycket lägre kostnad än jämförbara NVIDIA H100-kluster.

Intel Xeon 6 (Granite Rapids)

Budgetserver

En tyst revolution 2026 är framväxten av CPU-baserad AI-inferens. Intel Xeon 6-processorer inkluderar AMX (Advanced Matrix Extensions) som möjliggör AI-arbetsbelastningar på standard DDR5-RAM - vilket är dramatiskt billigare än GPU-minne.

Avvägningen

En dubbelsocket Xeon 6-server kan ha 1 TB till 4 TB DDR5-RAM till en bråkdel av kostnaden för GPU-minne. Inferenshastigheter är långsamma, men för batchbearbetning - där hastighet är irrelevant men intelligens och kapacitet är avgörande - är detta revolutionerande.

Exempel: Ett SMF laddar upp 100 000 skannade fakturor över natten. Xeon 6-servern kör en AI-modell på +400B för att extrahera data perfekt. Uppgiften tar 10 timmar, men hårdvarukostnaden är mycket lägre än för en GPU-server.

⏻

Behöver du hjälp att välja rätt AI-serverinfrastruktur?

Vårt infrastrukturteam designar och implementerar kompletta AI-serverlösningar – från Intel Gaudi till NVIDIA DGX – kombinerat med skräddarsydd mjukvara – för att frigöra AI:s möjligheter för ditt företag.

Begär ett serverarkitekturförslag →

6 Edge AI
Edge AI & Retrofit Uppgradering av befintlig infrastruktur

Inte varje SMF behöver en dedikerad AI-server eller mini-PC. Många kan integrera intelligens i befintlig infrastruktur – uppgradera bärbara datorer, stationära datorer och nätverksenheter med AI-funktioner till minimal kostnad.

M.2 AI-acceleratorer: Hailo-10

Hailo-10 är en standard M.2 2280-modul – samma slits som används för SSD:er – som lägger till dedikerad AI-bearbetning i vilken befintlig PC som helst. Till ~~160 kr per enhet och med ett strömförbrukning på endast 5–8W möjliggör den företagsomfattande AI-uppgraderingar utan att byta hårdvara.

📎

Formfaktor

M.2 2280

Passar i vilken standard-SSD-slit som helst

⚡

Prestanda

20–50 TOPS

Optimerad för edge-inferens

💰

Kostnad

~160 kr

Per enhet – flottuppgradering för under ~32 000 kr

Användningsområden: Lokal mötestranskription (Whisper), realtidstextning, röstdiktamen, inferens av små modeller (Phi-3 Mini). Dessa kort kan inte köra stora LLM:er, men de utmärker sig på specifika, kontinuerliga AI-uppgifter – säkerställer att röstdata bearbetas lokalt och aldrig skickas till molnet.

Copilot+ datorer (NPU-bärbara)

Bärbara datorer med Qualcomm Snapdragon X Elite, Intel Core Ultra eller AMD Ryzen AI-chips innehåller dedikerade Neural Processing Units (NPU) – specialiserade AI-chips. Dessa kan inte köra stora LLM:er, men de hanterar små, ihållande AI-uppgifter: livetranskription, bakgrundsoskärpa, lokala Recall-funktioner och körning av lätta modeller som Microsoft Phi-3.

NPU:er klassificeras i TOPS (Tera Operations Per Second), vilket mäter hur mycket AI-arbete de kan hantera. De kraftfullaste Copilot+-datorerna 2026 har ~50 TOPS. Högre TOPS innebär snabbare svar och förmåga att hantera något större AI-modeller.

9 AI-modeller
Open-Source AI-modeller (2026–2027)

Valet av AI-modell styr hårdvarukraven – men som kapitlet om AI Model Quantization visade, tillåter kvantisering att toppmoderna modeller kan köras på hårdvara som kostar en bråkdel av vad fullprecision kräver.

Tabellen nedan ger en översikt över nuvarande och kommande open-source AI-modeller.

Modell	Storlek	Arkitektur	Minne (FP16)	Minne (INT4)
Llama 4 Behemoth	288B (aktiv)	MoE (~2T totalt)	~4 TB	~1 TB
Llama 4 Maverick	17B (aktiv)	MoE (400B totalt)	~800 GB	~200 GB
Llama 4 Scout	17B (aktiv)	MoE (109B totalt)	~220 GB	~55 GB
DeepSeek V4	~70B (aktiv)	MoE (671B totalt)	~680 GB	~170 GB
DeepSeek R1	37B (aktiv)	MoE (671B totalt)	~140 GB	~35 GB
DeepSeek V3.2	~37B (aktiv)	MoE (671B totalt)	~140 GB	~35 GB
Kimi K2.5	32B (aktiv)	MoE (1T totalt)	~2 TB	~500 GB
Qwen 3.5	397B (aktiv)	MoE (A17B)	~1.5 TB	~375 GB
Qwen 3-Max-Thinking	Stor	Dense	~2 TB	~500 GB
Qwen 3-Coder-Next	480B (A35B aktiv)	MoE	~960 GB	~240 GB
Mistral Large 3	123B (41B aktiv)	MoE (675B totalt)	~246 GB	~62 GB
Ministral 3 (3B, 8B, 14B)	3B–14B	Dense	~6–28 GB	~2–7 GB
GLM-5	44B (aktiv)	MoE (744B totalt)	~1.5 TB	~370 GB
GLM-4.7 (Thinking)	Stor	Dense	~1.5 TB	~375 GB
MiMo-V2-Flash	15B (aktiv)	MoE (309B totalt)	~30 GB	~8 GB
MiniMax M2.5	~10B (aktiv)	MoE (~230B totalt)	~460 GB	~115 GB
Phi-5 Reasoning	14B	Dense	~28 GB	~7 GB
Phi-4	14B	Dense	~28 GB	~7 GB
Gemma 3	27B	Dense	~54 GB	~14 GB
Pixtral 2 Large	90B	Dense	~180 GB	~45 GB
Stable Diffusion 4	~12B	DiT	~24 GB	~6 GB
FLUX.2 Pro	15B	DiT	~30 GB	~8 GB
Open-Sora 2.0	30B	DiT	~60 GB	~15 GB
Whisper V4	1.5B	Dense	~3 GB	~1 GB
Med-Llama 4	70B	Dense	~140 GB	~35 GB
Legal-BERT 2026	35B	Dense	~70 GB	~18 GB
Finance-LLM 3	15B	Dense	~30 GB	~8 GB
CodeLlama 4	70B	Dense	~140 GB	~35 GB
Molmo 2	80B	Dense	~160 GB	~40 GB
Granite 4.0	32B (9B aktiv)	Hybrid Mamba-Transformer	~64 GB	~16 GB
Nemotron 3	8B, 70B	Dense	~16–140 GB	~4–35 GB
EXAONE 4.0	32B	Dense	~64 GB	~16 GB
Llama 5 Frontier	~1.2T (totalt)	MoE	~2.4 TB	~600 GB
Llama 5 Base	70B–150B	Dense	~140–300 GB	~35–75 GB
DeepSeek V5	~600B (totalt)	MoE	~1.2 TB	~300 GB
Stable Diffusion 5	TBD	DiT	—	—
Falcon 3	200B	Dense	~400 GB	~100 GB

Strategisk rådgivning

Köp inte hårdvara först. Identifiera den modellklass som passar dina affärsbehov, applicera sedan kvantisering för att bestämma den mest kostnadseffektiva hårdvarunivån.

Skillnaden mellan en 27 000 kr och en 1 356 000 kr investering beror ofta på modellstorlekskrav och antalet samtidiga användare.

Trender som formar AI-modellandskapet

Inbyggd multimodalitet som standard. Nya modeller tränas på text, bilder, ljud och video samtidigt – inte som separata funktioner som läggs till efter träning. Detta innebär att en enda modell hanterar dokumentanalys, bildförståelse och röstinteraktion.
Små modeller uppnår stora modellers kapacitet. Phi-5 (14B) och MiMo-V2-Flash demonstrerar att arkitekturinnovation kan komprimera toppmoderna resonemang till modeller som körs på en bärbar dator. "Större är bättre"-eran håller på att ta slut.
Specialisering framför generalisering. Istället för en massiv modell för allt, går trenden mot ensembler av specialiserade modeller – en kodningsmodell, en resonemangsmodell, en bildmodell – orkestrerade av ett agentramverk. Detta minskar hårdvarukraven per modell samtidigt som den övergripande kvaliteten förbättras.
Agentisk AI. Modeller som Kimi K2.5 och Qwen 3 är designade för att självständigt dekomponera komplexa uppgifter, anropa externa verktyg och samordna med andra modeller. Detta agentsvärm-paradigm kräver ihållande dataflöde under långa sessioner – vilket gynnar hårdvara med hög bandbredd som GB10 och M5 Ultra.
Video- och 3D-generering mognar. Open-Sora 2.0 och FLUX.2 Pro signalerar att lokal videogenerering blir praktiskt genomförbar. Inom 2027 kan du förvänta dig realtidsvideoredigeringsassistenter som körs på arbetsstationsklassad hårdvara.

10 Säkerhet
Arkitektur för maximal säkerhet

Den primära fördelen med lokal AI-maskinvara är inte prestanda – det är datasuveränitet. När din AI-server körs bakom din brandvägg istället för i någon annans moln, lämnar aldrig dina känsliga data din byggnad.

Air-Gapped API-arkitekturen isolerar fysiskt AI-servern från internet samtidigt som den gör den tillgänglig för auktoriserade anställda via ett API-gränssnitt.

Air-Gapped API-arkitektur

👤 Anställd Standardarbetsstation

→

🔀 Brokerserver Auth + UI + Routning

⟶

🔒 AI-server Air-gapped · Ingen internetanslutning

AI-valv

Denna arkitektur skapar ett Digitalt Valv. Även om Brokerservern äventyras, kan en angripare bara skicka textfrågor – de kunde inte komma åt AI-serverns filsystem, modellvikter, finjusteringsdata eller några lagrade dokument.

⏻

Behöver du en säker AI-implementering med skräddarsydda AI-lösningar?

Våra ingenjörer designar och implementerar air-gapped AI-arkitekturer som säkerställer att data aldrig lämnar lokalen samtidigt som ditt företag förses med toppmoderna AI-möjligheter.

Diskutera säker AI-arkitektur →

11 Ekonomi
Det ekonomiska utlåtandet: Lokalt vs. moln

Övergången till lokal AI-hårdvara är en förskjutning från OpEx (operativa utgifter – månatliga moln-API-avgifter) till CapEx (investeringsutgifter – en engångsinvestering i hårdvara som blir en tillgång i din balansräkning).

Tänk dig ett juridiskt företag som kör en 200B-modell för att analysera kontrakt:

☁️ Moln-API

ca. 320 000 kr

per år (i skala)

1 000 kontrakt/dag × Okänt/1K tokens × 365 dagar. Skalar linjärt med användning. Data lämnar nätverket.

🖥️ Lokal hårdvara (DGX Spark)

ca. 42 500 kr

engångsinvestering

+ ~160 kr/månad för el. Obegränsad användning. Data lämnar aldrig LAN:et. Tillgång på balansräkningen.

Vid 1 000 frågor per dag betalar en DGX Spark för sig själv på under 2 månader jämfört med moln-API-kostnader. Vid högre användningsnivåer förkortas break-even-perioden till veckor.

Ekonomin blir ännu mer fördelaktig när du tar hänsyn till:

Flera anställda delar samma hårdvara (DGX Spark hanterar 2–5 samtidiga användare)
Inget pris per token - komplexa, flerstegsresonemang kostar inget extra
Finjustering med egenutvecklade data - omöjligt med de flesta moln-API:er, gratis på lokal hårdvara
Andrahandsvärde för hårdvara - AI-hårdvara behåller betydande värde på andrahandsmarknaden

Den kompletta guiden till lokal AI-hårdvara för SMF

1 Grundläggande
Varför lokal AI? Affärsfallet för egen äganderätt

2 Kostnadsreducering
Kvantisering: Kör större AI-modeller på billigare hårdvara

Mixture of Experts (MoE)

3 Minidatorer
AI-minidatorer 16 000 kr – 107 000 kr

NVIDIA GB10-ekosystemet (DGX Spark)

AMD Ryzen AI Max (Strix Halo) minidatorer

Apple Mac Studio (M4

Apple Mac Studio (M5 Ultra)

Tiiny AI

Tenstorrent

AI NAS – Nätverksansluten lagring

Behöver ni hjälp att välja rätt AI-minidator för ert företag?

4 Arbetsstationer
AI-arbetsstationer & skrivbordsdatorer 27 000 kr – 136 000 kr

Förståelse av VRAM kontra hastighet

Konsument-GPU:er

Professionella GPU:er

Datacenter-GPU:er

Kinesiska GPU:er

Kommer snart

NVIDIA DGX Station

Behöver ni hjälp att välja rätt AI-arbetsstation för ert företag?

5 Servrar
AI-servrar 160 tkr – 1,8 mkr

Intel Gaudi 3

AMD Instinct MI325X

Huawei Ascend

Intel Xeon 6 (Granite Rapids)

Behöver du hjälp att välja rätt AI-serverinfrastruktur?

6 Edge AI
Edge AI & Retrofit Uppgradering av befintlig infrastruktur

M.2 AI-acceleratorer: Hailo-10

Copilot+ datorer (NPU-bärbara)

9 AI-modeller
Open-Source AI-modeller (2026–2027)

Trender som formar AI-modellandskapet

10 Säkerhet
Arkitektur för maximal säkerhet

Behöver du en säker AI-implementering med skräddarsydda AI-lösningar?

11 Ekonomi
Det ekonomiska utlåtandet: Lokalt vs. moln

Sätt igång intelligens ON för ditt företag

Den kompletta guiden till lokal AI-hårdvara för SMF

1 GrundläggandeVarför lokal AI? Affärsfallet för egen äganderätt

2 KostnadsreduceringKvantisering: Kör större AI-modeller på billigare hårdvara

Mixture of Experts (MoE)

3 MinidatorerAI-minidatorer 16 000 kr – 107 000 kr

NVIDIA GB10-ekosystemet (DGX Spark)

AMD Ryzen AI Max (Strix Halo) minidatorer

Apple Mac Studio (M4

Apple Mac Studio (M5 Ultra)

Tiiny AI

Tenstorrent

AI NAS – Nätverksansluten lagring

Behöver ni hjälp att välja rätt AI-minidator för ert företag?

4 ArbetsstationerAI-arbetsstationer & skrivbordsdatorer 27 000 kr – 136 000 kr

Förståelse av VRAM kontra hastighet

Konsument-GPU:er

Professionella GPU:er

Datacenter-GPU:er

Kinesiska GPU:er

Kommer snart

NVIDIA DGX Station

Behöver ni hjälp att välja rätt AI-arbetsstation för ert företag?

5 ServrarAI-servrar 160 tkr – 1,8 mkr

Intel Gaudi 3

AMD Instinct MI325X

Huawei Ascend

Intel Xeon 6 (Granite Rapids)

Behöver du hjälp att välja rätt AI-serverinfrastruktur?

6 Edge AIEdge AI & Retrofit Uppgradering av befintlig infrastruktur

M.2 AI-acceleratorer: Hailo-10

Copilot+ datorer (NPU-bärbara)

9 AI-modellerOpen-Source AI-modeller (2026–2027)

Trender som formar AI-modellandskapet

10 SäkerhetArkitektur för maximal säkerhet

Behöver du en säker AI-implementering med skräddarsydda AI-lösningar?

11 EkonomiDet ekonomiska utlåtandet: Lokalt vs. moln

Sätt igång intelligens ON för ditt företag

1 Grundläggande
Varför lokal AI? Affärsfallet för egen äganderätt

2 Kostnadsreducering
Kvantisering: Kör större AI-modeller på billigare hårdvara

3 Minidatorer
AI-minidatorer 16 000 kr – 107 000 kr

4 Arbetsstationer
AI-arbetsstationer & skrivbordsdatorer 27 000 kr – 136 000 kr

5 Servrar
AI-servrar 160 tkr – 1,8 mkr

6 Edge AI
Edge AI & Retrofit Uppgradering av befintlig infrastruktur

9 AI-modeller
Open-Source AI-modeller (2026–2027)

10 Säkerhet
Arkitektur för maximal säkerhet

11 Ekonomi
Det ekonomiska utlåtandet: Lokalt vs. moln