Panduan Perangkat Keras AI Lokal untuk UKM 2026–2027

NVIDIA DGX Spark — perangkat seukuran buku yang mampu menjalankan model AI berparameter 200 miliar (400 miliar saat dua unit dihubungkan) — mewakili era baru kepemilikan AI desktop.

1 Fondasi
Mengapa AI Lokal? Kasus Bisnis untuk Kepemilikan

Di awal 2020-an, kecerdasan buatan adalah layanan yang Anda sewa — per jam, per token, per panggilan API. Pada 2026, paradigma telah bergeser. Perangkat keras yang diperlukan untuk menjalankan kecerdasan kelas GPT-4 kini muat di meja Anda dan harganya lebih murah dari mobil bekas.

Ketergantungan berkelanjutan pada AI hanya-cloud menghadirkan trilema strategis:

Biaya yang meningkat. Biaya API per token meningkat linear dengan penggunaan. Firma hukum yang memproses 1.000 kontrak per hari dapat menghadapi biaya API tahunan sebesar ~Rp 600 juta.
Paparan data. Setiap kueri yang dikirim ke API cloud adalah data yang meninggalkan jaringan Anda dan terpapar risiko keamanan data dan privasi.
Nol atau kustomisasi mahal. Model cloud bersifat generik. Mereka tidak dapat dengan mudah atau hemat biaya disesuaikan dengan data kustom, proses bisnis internal, atau intelijen bisnis.

Perangkat keras AI lokal menyelesaikan ketiganya. Ini mengubah biaya API variabel menjadi aset modal tetap, memastikan data tidak pernah meninggalkan LAN, dan memungkinkan kustomisasi mendalam melalui penyempurnaan pada data bisnis.

2 Mengurangi Biaya
Kuantisasi: Jalankan Model AI Lebih Besar dengan Perangkat Keras Lebih Murah

Kuantisasi adalah konsep yang secara fundamental mengubah ekonomi AI lokal.

Secara sederhana, kuantisasi mengompresi jejak memori model AI. Model standar menyimpan setiap parameter sebagai angka floating-point 16-bit (FP16). Kuantisasi mengurangi ini menjadi 8-bit (Int8), 4-bit (Int4), atau lebih rendah — secara dramatis menyusutkan jumlah memori yang diperlukan untuk menjalankan model.

Kuantisasi menghasilkan sedikit penurunan kualitas keluaran — seringkali tidak terlihat untuk tugas bisnis seperti peringkasan, penyusunan draf, dan analisis — sebagai ganti pengurangan besar dalam biaya perangkat keras.

Memori yang Diperlukan: Model AI 400B pada Tingkat Presisi Berbeda

FP16

Presisi penuh

~800 GB

Int8

Setengah ukuran

~400 GB

Int4

Seperempat

~200 GB

FP16 — Kualitas maksimal, biaya maksimal

Int8 — Kualitas hampir sempurna, setengah biaya

Int4 — Kualitas tinggi, seperempat biaya

Dampak Bisnis

Model 400B dengan presisi penuh membutuhkan ~800 GB memori — investasi server sebesar ~Rp 3,4 miliar. Model yang sama yang dikuantisasi ke Int4 hanya membutuhkan ~200 GB, dan dapat berjalan pada dua mini-PC DGX Spark (berbasis GB10 Superchip) yang terhubung dengan harga Rp 135 juta.

Mixture of Experts (MoE)

Mixture of Experts adalah trik arsitektur model AI lain yang memungkinkan penerapan model masif tanpa biaya memori besar.

Alih-alih menggunakan semua parameter untuk setiap pertanyaan, model MoE hanya mengaktifkan sebagian kapasitasnya melalui sparse activation (aktivasi renggang).

Model MoE berparameter 2 triliun seperti Llama 4 Behemoth hanya mengaktifkan 288B parameter per kueri — memberikan kecerdasan tingkat terdepan dengan biaya memori yang jauh lebih rendah.

Kompromi

Model MoE sedikit kurang efisien untuk tugas sederhana seperti ringkasan dan klasifikasi, dibandingkan model padat berukuran sama. Untuk pekerjaan pengetahuan dan penalaran seperti analisis kompleks, pembuatan kode, dan riset, model MoE unggul.

Aktivasi renggang menghasilkan kecepatan inferensi dan waktu respons yang lebih cepat.

3 Mini-PC
Mini-PC AI Rp 25.000.000 – Rp 168.000.000

Perkembangan paling disruptif tahun 2026 adalah komputasi AI berkapasitas tinggi dalam faktor bentuk mini-PC. Perangkat tidak lebih besar dari buku sampul keras kini menjalankan model AI yang dua tahun lalu membutuhkan ruang server.

Ekosistem NVIDIA GB10 (DGX Spark)

Pemimpin Kinerja

NVIDIA DGX Spark telah mendefinisikan kategori ini. Pada 2026, Superchip GB10 — menggabungkan CPU ARM Grace dengan GPU Blackwell — telah melahirkan seluruh ekosistem. ASUS, GIGABYTE, Dell, Lenovo, HP, MSI, dan Supermicro semuanya memproduksi sistem berbasis GB10, masing-masing dengan faktor bentuk, solusi pendingin, dan perangkat lunak bundel yang berbeda.

Ekosistem NVIDIA GB10 ASUS, GIGABYTE, Dell, Lenovo, HP, MSI, dan Supermicro

Mulai dari Rp 67 juta

Memori

128 GB

LPDDR5X Terpadu

Komputasi

~1 PFLOP

Kinerja AI FP8

Jaringan

10 GbE + Wi-Fi 7

ConnectX untuk clustering

Penyimpanan

SSD 4 TB

NVMe

Clustering

Ya (2 unit)

Memori gabungan 256 GB

Perangkat Lunak

NVIDIA AI Enterprise

CUDA, cuDNN, TensorRT

Clustering: Kapasitas 256 GB

Dengan menghubungkan dua unit GB10 melalui port jaringan berkecepatan tinggi khusus, sistem menggabungkan sumber daya menjadi ruang memori 256 GB. Ini membuka kemampuan untuk menjalankan model sangat besar — 400B+ parameter terkuantisasi — sepenuhnya di meja Anda dengan investasi perangkat keras total sekitar Rp 135 juta.

Mini-PC AMD Ryzen AI Max (Strix Halo)

Biaya Terendah

Arsitektur AMD Ryzen AI Max+ Strix Halo telah melahirkan kategori baru mini-PC AI anggaran. Gelombang produsen — GMKtec, Beelink, Corsair, NIMO, Bosgame, FAVM — kini mengirimkan sistem memori terpadu 128 GB dengan harga di bawah ~Rp 34 juta.

Mini-PC AMD Ryzen AI Max GMKtec EVO-X2 · Beelink · Corsair · NIMO AI · Bosgame M5 · FAVM FA-EX9

Mulai dari ~Rp 25 juta

Memori

128 GB

LPDDR5 Shared (CPU+GPU)

Komputasi

~0,2 PFLOP

GPU RDNA 3.5 Terintegrasi

Bandwidth

~200 GB/s

Bandwidth memori

Daya

~100W

Operasi senyap

Clustering

Tidak

Hanya mandiri

Windows / Linux

ROCm / llama.cpp

Apple Mac Studio (M4 Ultra)

Pemimpin Kapasitas

Mac Studio menempati posisi unik di lanskap AI lokal. Arsitektur Memori Terpadu Apple (UMA) menyediakan hingga 256 GB memori yang dapat diakses oleh CPU dan GPU dalam satu unit desktop kompak — tidak diperlukan klastering.

Ini menjadikannya satu-satunya perangkat tunggal terjangkau yang mampu memuat model sumber terbuka terbesar. Model 400 miliar parameter yang dikuantisasi ke Int4 sepenuhnya muat dalam memori pada konfigurasi 256 GB.

Apple Mac Studio (M4 Ultra) Pemimpin kapasitas AI unit tunggal

Mulai dari Rp 67 juta

Memori

Hingga 256 GB

Memori Terpadu (UMA)

Komputasi

~0,5 PFLOP

Apple Neural Engine + GPU

Perangkat Lunak

Kerangka MLX

Inferensi dioptimalkan Apple

Batasan

Hanya Inferensi

Lambat untuk pelatihan/penyempurnaan

Apple Mac Studio (M5 Ultra)

Pesaing Mendatang

Generasi berikutnya Apple M5 Ultra, yang diharapkan akhir 2026, dikabarkan akan mengatasi kelemahan utama M4: kinerja pelatihan model AI. Dibangun dengan proses 2nm TSMC, diharapkan menawarkan konfigurasi hingga 512 GB memori terpadu dengan bandwidth melebihi 1,2 TB/s.

Apple Mac Studio (M5 Ultra) Kekuatan pelatihan AI yang dinantikan

Kis. ~Rp 200 juta

Memori

Hingga 512 GB

Memori Terpadu Generasi Berikutnya

Komputasi

~1,5+ PFLOP

Mesin Neural 2nm

Perangkat Lunak

MLX 2.0+

Dukungan pelatihan asli

Kemampuan

Pelatihan & Inferensi

Alternatif CUDA

Bandwidth Memori: Kapasitas 1,2 TB/s

M5 Ultra 512 GB akan menjadi perangkat konsumen pertama yang mampu menjalankan model frontier tidak terkuantisasi (presisi penuh). Bandwidth memori tinggi 1,2+ TB/s mendukung alur kerja AI agentik yang membutuhkan inferensi throughput tinggi berkelanjutan dengan jendela konteks sangat panjang.

Tiiny AI

Superkomputer AI Saku

Dirilis di Kickstarter tahun 2026 seharga Rp 24 juta, Tiiny.ai Pocket AI Computer adalah superkomputer saku dengan memori 80GB LGDDR5X dan SSD 1TB yang mendukung operasi lokal model AI 120B di mana saja.

Dengan bobot 300 gram (142×22×80mm) dan ditenagai USB-C standar, perangkat ini mendukung aplikasi bisnis inovatif. Tiiny AI melaporkan kecepatan keluaran 21,14 token per detik untuk GPT-OSS-120B.

Tenstorrent

Perangkat Keras Sumber Terbuka

Dipimpin oleh arsitek chip legendaris Jim Keller, Tenstorrent mewakili filosofi yang secara fundamental berbeda: perangkat keras sumber terbuka berbasis RISC-V, perangkat lunak sumber terbuka, dan penskalaan modular melalui daisy-chaining.

Inti AI Tensix dirancang untuk skala linear: tidak seperti GPU yang kesulitan dengan overhead komunikasi saat menambahkan lebih banyak kartu, chip Tenstorrent dibangun untuk disusun secara efisien.

Berkemitraan dengan Razer, Tenstorrent telah merilis akselerator AI eksternal kompak yang terhubung ke laptop atau desktop apa pun melalui Thunderbolt — mengubah perangkat keras yang ada menjadi workstation AI tanpa mengganti apa pun.

Akselerator AI Kompak Razer × Tenstorrent Akselerator AI Thunderbolt eksternal

Harga Tidak Diketahui

Memori Per Kotak

12 GB

GDDR6

Chip

Wormhole n150

Inti Tensix · RISC-V

Penskalaan

Hingga 4 unit

Kapasitas AI 48 GB

Perangkat Lunak

Sumber terbuka penuh

GitHub · TT-Metalium

AI NAS — Penyimpanan Terpasang Jaringan

Penyimpanan + AI

Definisi NAS telah bergeser dari penyimpanan pasif menjadi kecerdasan aktif. Generasi baru perangkat penyimpanan jaringan mengintegrasikan pemrosesan AI secara langsung—dari inferensi berbasis NPU ringan hingga penerapan LLM yang dipercepat GPU penuh.

NAS yang mampu AI menghilangkan kebutuhan akan perangkat AI terpisah dan memungkinkan pemrosesan langsung data dalam jumlah lebih besar tanpa latensi transfer jaringan.

⏻

Butuh bantuan memilih mini-PC AI yang tepat untuk bisnis Anda?

Insinyur kami dapat menilai kebutuhan perangkat keras AI Anda dan menerapkan sistem AI yang sepenuhnya dikonfigurasi.

Dapatkan Penilaian Perangkat Keras Gratis →

4 Workstation
Workstation AI & PC Desktop Rp 50 juta - Rp 250 juta

Tingkat workstation menggunakan kartu grafis PCIe diskrit dan casing tower standar. Berbeda dengan arsitektur terpadu tetap tingkat mini-PC, tingkat ini menawarkan modularitas—Anda dapat meningkatkan komponen individual, menambah GPU, atau mengganti kartu seiring perkembangan teknologi.

Workstation dual RTX A6000 dengan jembatan NVLink menawarkan 96 GB VRAM terpadu seharga sekitar Rp 120 juta.

Memahami VRAM vs. Kecepatan

Dua faktor bersaing menentukan pilihan GPU untuk AI:

📦

Kapasitas VRAM

Menentukan ukuran model yang dapat dimuat. Lebih banyak VRAM berarti model lebih besar dan lebih canggih. Ini adalah batas kecerdasan Anda.

⚡

Kecepatan Komputasi

Menentukan seberapa cepat model merespons. Komputasi lebih tinggi berarti latensi lebih rendah per kueri. Ini adalah pengalaman pengguna Anda.

Kartu konsumen (seX 5090) memaksimalkan kecepatan tetapi menawarkan VRAM terbatas—biasanya 24-32 GB. Kartu profesional (seperti RTX PRO 6000 Blackwell) memaksimalkan VRAM—hingga 96 GB per kartu—tetapi lebih mahal per unit komputasi.

VRAM adalah kendala utama. Kartu cepat dengan memori tidak cukup tidak dapat memuat model AI sama sekali. Kartu lebih lambat dengan memori cukup menjalankan model—hanya dengan waktu respons lebih lama.

GPU Konsumen

Konfigurasi	Total VRAM	Penghubung	Perk. Biaya
2× RTX 3090 (Bekas)	48 GB	NVLink	~Rp 50 juta
2× RTX 4090	48 GB	PCIe Gen 5	Rp 67 juta
2× RTX 5090	64 GB	PCIe Gen 5	Rp 120 juta

GPU Profesional

Konfigurasi	Total VRAM	Penghubung	Perk. Biaya
2× RTX A6000 Nilai Terbaik	96 GB	NVLink	Rp 120 juta
2× RTX 6000 Ada	96 GB	PCIe Gen 5	Rp 220 juta
1× RTX PRO 6000 Blackwell	96 GB	NVLink	Rp 135 juta
4× RTX PRO 6000 Blackwell	384 GB	PCIe Gen 5	Rp 540 juta

GPU Pusat Data

Konfigurasi	Total VRAM	Penghubung	Perk. Biaya
1× L40S	48 GB	PCIe 4.0 (pendinginan pasif)	Rp 120 juta
1× A100 PCIe	80 GB	PCIe 4.0	Rp 170 juta
1× H200 NVL	141 GB	NVLink	Rp 500 juta
4× H200 NVL	564 GB	NVLink	Rp 2 miliar
1× B200 SXM	180 GB	NVLink 5 (1,8 TB/s)	Rp 500 juta
8× B200 SXM	1.440 GB	NVLink 5 (1,8 TB/s)	Rp 4 miliar

GPU China

Ekosistem GPU domestik China telah matang dengan cepat. Beberapa produsen China kini menawarkan GPU AI kelas workstation dengan spesifikasi kompetitif dan harga jauh lebih rendah.

Konfigurasi	Total VRAM	Jenis Memori	Perk. Biaya
1× Moore Threads MTT S4000	48 GB	GDDR6	Rp 13 juta
4× Moore Threads MTT S4000	192 GB	GDDR6	Rp 59 juta
8× Moore Threads MTT S4000	384 GB	GDDR6	Rp 109 juta
1× Hygon DCU Z100	32 GB	HBM2	Rp 42 juta
1× Biren BR104	32 GB	HBM2e	~Rp 50 juta
8× Biren BR104	256 GB	HBM2e	Rp 400 juta
1× Huawei Ascend Atlas 300I Duo	96 GB	HBM2e	Rp 20 juta
8× Huawei Ascend Atlas 300I Duo	768 GB	HBM2e	Rp 170 juta

Akan Datang

Konfigurasi	Total VRAM	Status	Perk. Biaya
RTX 5090 128 GB	128 GB	Mod. China — bukan SKU standar	Rp 84 juta
RTX Titan AI	64 GB	Diharapkan 2027	~Rp 50 juta

MSI NVIDIA RTX PRO 6000 Blackwell Server

NVIDIA DGX Station

Enterprise Apex

NVIDIA DGX Station adalah superkomputer berpendingin air di samping meja yang membawa kinerja pusat data ke lingkungan kantor. Versi terbaru menggunakan Superchip GB300 Grace Blackwell.

NVIDIA DGX Station GB300 Ultra Tahan Masa Depan

Perk. Harga ~Rp 3,4 miliar

Versi Blackwell Ultra meningkatkan kepadatan memori dan daya komputasi, dirancang untuk organisasi yang perlu melatih model khusus dari awal atau menjalankan arsitektur MoE (Mixture of Experts) masif secara lokal.

Memori

~1,5 TB+

HBM3e (Sangat cepat)

Komputasi

~20+ PFLOPS

Kinerja AI FP8

Kasus Penggunaan

Pelatihan Khusus

Pengembangan Model

Daya

Stopkontak standar

Tidak perlu ruang server

NVIDIA DGX Station GB300 Blackwell Ultra

NVIDIA DGX Station A100 Kuda Kerja AI Terjangkau

Mulai dari ~Rp 1,7 miliar

Meski berbasis arsitektur Ampere generasi sebelumnya, ini tetap menjadi standar industri untuk inferensi dan penyetelan halus yang andal. Sangat cocok untuk tim yang memasuki ruang AI tanpa anggaran untuk Blackwell.

Memori

320 GB

4x GPU A100 80GB

Komputasi

2 PFLOPS

Kinerja AI FP16

Multi-Pengguna

5–8 simultan

Konkurensi sedang

Daya

Stopkontak standar

Tidak perlu ruang server

Meski mahal, DGX Station menggantikan rak server ~Rp 5 miliar dan infrastruktur pendingin terkait. Perangkat ini cukup dicolokkan ke stopkontak dinding standar. Ini sepenuhnya menghilangkan overhead ruang server.

⏻

Butuh bantuan memilih workstation AI yang tepat untuk bisnis Anda?

Insinyur kami dapat menilai kebutuhan perangkat keras AI Anda dan menerapkan sistem AI yang sepenuhnya dikonfigurasi.

Dapatkan Penilaian Perangkat Keras Gratis →

5 Server
Server AI Rp 250 juta - Rp 3,4 miliar

Saat bisnis Anda perlu melayani secara bersamaan, menjalankan model kelas fondasi pada presisi penuh, atau menyetel halus model kustom pada data milik — Anda memasuki tingkat server.

Ini adalah domain kartu akselerator AI khusus dengan memori bandwidth tinggi (HBM), interkoneksi khusus, dan faktor bentuk yang dapat dipasang di rak atau di samping meja. Perangkat kerasnya lebih mahal, tetapi biaya per pengguna turun secara dramatis dalam skala besar.

Intel Gaudi 3

Nilai Terbaik dalam Skala

Akselerator Gaudi 3 Intel dirancang dari bawah sebagai chip pelatihan dan inferensi AI—bukan kartu grafis yang dialihfungsikan. Setiap kartu menyediakan 128 GB memori HBM2e dengan jaringan Ethernet 400 Gb terintegrasi, mengh kebutuhan akan adaptor jaringan terpisah.

Gaudi 3 tersedia dalam dua faktor bentuk:

Kartu PCIe (HL-338): Faktor bentuk PCIe standar untuk integrasi ke server yang ada. Perkiraan harga: ~Rp 200 juta per kartu.
OAM (Modul Akselerator OCP): Standar OCP kepadatan tinggi untuk pusat data cloud. Rp 260 juta per chip saat dibeli dalam paket kit 8 chip (~Rp 2,1 miliar total dengan papan dasar).

Server Gaudi 3 berkartu 8 menyediakan total 1 TB memori AI dengan biaya jauh lebih rendah daripada sistem NVIDIA H100 sebanding.

💾

Memori Per Kartu

128 GB

HBM2e — menyamai DGX Spark dalam satu kartu

⚡

Total 8-Kartu

1 TB

Memori terpadu 1.024 GB untuk model terbesar

💰

Biaya Sistem

~Rp 3,4 miliar

Lebih murah daripada konfigurasi NVIDIA H100 sebanding

AMD Instinct MI325X

Kepadatan Maksimum

AMD Instinct MI325X mengemas 256 GB memori HBM3e per kartu — dua kali lipat Intel Gaudi 3. Hanya 4 kartu yang dibutuhkan untuk mencapai total 1 TB memori AI, dibandingkan 8 kartu untuk Intel.

💾

Total Memori 4-Kartu

1 TB

Setengah kartu Intel untuk kapasitas yang sama

⚡

Bandwidth

6 TB/s

Per kartu—memungkinkan pengguna bersamaan

💰

Biaya Sistem

~Rp 3,4 miliar

Biaya masuk dengan 1 kartu ~Rp 1 miliar

MI325X lebih mahal per sistem daripada Gaudi 3, tetapi lebih cepat dan padat. Untuk beban kerja yang memerlukan throughput maksimal — inferensi waktu-nyata untuk lebih banyak pengguna, atau pelatihan model kustom pada kumpulan data besar — investasi lebih tinggi terbayar dengan pengurangan latensi dan infrastruktur yang lebih sederhana.

Huawei Ascend

Alternatif Full-Stack

H telah mereplikasi tumpukan infrastruktur AI penuh: silikon khusus (Ascend 910B/C), interkoneksi berpemilik (HCCS), dan kerangka kerja perangkat lunak lengkap (CANN). Hasilnya adalah ekosistem mandiri yang beroperasi independen dari rantai pasokan Barat dan dengan biaya jauh lebih rendah daripada kluster NVIDIA H100 yang sebanding.

Intel Xeon 6 (Granite Rapids)

Server Anggaran

Revolusi diam-diam pada 2026 adalah kebangkitan inferensi AI berbasis CPU. Prosesor Intel Xeon 6 mencakup AMX (Advanced Matrix Extensions) yang memungkinkan beban kerja AI pada RAM DDR5 standar—yang jauh lebih murah daripada memori GPU.

Kompromi

Server dual-socket Xeon 6 dapat menampung 1 TB hingga 4 TB RAM DDR5 dengan sebagian kecil biaya memori GPU. Kecepatan inferensi lambat, tetapi untuk pemrosesan batch—di mana kecepatan tidak relevan tetapi kecerdasan dan kapasitas sangat penting—ini bersifat transformatif.

Contoh: Sebuah UKM mengunggah 100.000 faktur yang dipindai semalaman. Server Xeon 6 menjalankan model AI +400B untuk mengekstrak data dengan sempurna. Tugas ini memakan waktu 10 jam, tetapi biaya perangkat kerasnya jauh lebih rendah daripada server GPU.

⏻

uh bantuan memilih infrastruktur server AI yang tepat?

Tim infrastruktur kami merancang dan menerapkan solusi server AI lengkap — dari Intel Gaudi hingga NVIDIA DGX — dikombinasikan dengan perangkat lunak khusus — untuk membuka kemampuan AI bagi bisnis Anda.

Minta Proposal Arsitektur Server →

6 Edge AI
Edge AI & Retrofit Meningkatkan Infrastruktur yang Ada

Tidak setiap UKM memerlukan server AI khusus atau mini-PC. Banyak yang dapat menyematkan kecerdasan ke infrastruktur yang ada — meningkatkan laptop, desktop, dan perangkat jaringan dengan kemampuan AI dengan biaya minimal.

Akselerator AI M.2: Hailo-10

Hailo-10 adalah modul M.2 2280 standar — slot yang sama digunakan untuk SSD — yang menambahkan pemrosesan AI khusus ke PC yang ada Dengan harga ~~Rp 2,5 juta per unit dan konsumsi daya hanya 5–8W, ini memungkinkan peningkatan AI seluruh armada tanpa mengganti perangkat keras.

📎

Form Factor

M.2 2280

Cocok dengan slot SSD standar apa pun

⚡

Kinerja

20–50 TOPS

Dioptimalkan untuk inferensi edge

💰

Biaya

~Rp 2,5 juta

Per unit — peningkatan armada di bawah ~Rp 50 juta

Kasus penggunaan: Transkripsi rapat lokal (Whisper), teks langsung, dikte suara, inferensi model kecil (Phi-3 Mini). Kartu ini tidak dapat menjalankan LLM besar, tetapi unggul dalam tugas AI spesifik dan persisten —astikan data suara diproses secara lokal dan tidak pernah dikirim ke cloud.

PC Copilot+ (Laptop NPU)

Laptop dengan chip Qualcomm Snapdragon X Elite, Intel Core Ultra, atau AMD Ryzen AI mengandung Neural Processing Units (NPU) khusus — chip AI terspesialisasi. Ini tidak dapat menjalankan LLM besar, tetapi menangani tugas AI kecil dan persisten: transkripsi langsung, pengaburan latar belakang, fitur Recall lokal, dan menjalankan model ringan seperti Microsoft Phi-3.

NPU dinilai dalam TOPS (Tera Operasi Per Detik), yang mengukur seberapa banyak pekerjaan AI yang dapat ditangani. PC Copilot+ terkuat di 2026 memiliki ~50 TOPS. TOPS lebih tinggi berarti respons lebih cepat dan kemampuan menangani model AI sedikit lebih besar.

9 Model AI
Model AI Open-Source (2026–2027)

Pilihan model AI menentukan persyaratan perangkat keras — tetapi seperti yang ditunjukkan bab tentang Kuantisasi Model AI, kuantisasi memungkinkan model kelas terdepan berjalan pada perangkat keras dengan biaya sepersekian dari yang dibutuhkan penyebaran presisi penuh.

Tabel di bawah gambaran model AI open-source saat ini dan yang akan datang.

Model	Ukuran	Arsitektur	Memori (FP16)	Memori (INT4)
Llama 4 Behemoth	288B (aktif)	MoE (~2T total)	~4 TB	~1 TB
Llama 4 Maverick	17B (aktif)	MoE (400B total)	~800 GB	~200 GB
Llama 4 Scout	17B (aktif)	MoE (109B total)	~220 GB	~55 GB
DeepSeek V4	~70B (aktif)MoE (671B total)	MoE (671B total)	~680 GB	~170 GB
DeepSeek R1	37B (aktif)	MoE (671B total)	~ GB	~35 GB
DeepSeek V3.2	~37B (aktif)	MoE (671B total)	~ GB	~35 GB
Kimi K2.5	32B (aktif)	MoE (1T total)	~2 TB	~500 GB
Qwen 3.5	397B (aktif)	MoE (A17B)	~1,5 TB	~375 GB
Qwen 3-Max-Thinking	Besar	Padat	~2 TB	~500 GB
Qwen 3-Coder-Next	480B (A35B aktif)	MoE	~960 GB	~240 GB
Mistral Large 3	123B (41B aktif)	Mo (675B total)	~246 GB	~62 GB
Ministral 3 (3B, 8B, 14B)	3B–14B	Padat	~6–28 GB	~2–7 GB
GLM-5	44B (aktif)	MoE (744B total)	~1,5 TB	~370 GB
GLM-4.7 (Thinking)	Besar	Padat	~1,5 TB	~375 GB
MiMo-V2-Flash	15B (aktif)	MoE (309B total)	~30 GB	~8 GB
MiniMax M2.5	~10B (aktif)	MoE (~230B total)	~460 GB	~115 GB
Phi-5 Reasoning	14B	Padat	~28 GB	~7 GB
Phi-4	14B	Padat	~28 GB	~7 GB
Gemma 3	27B	Padat	~54 GB	~14 GB
Pixt 2 Large	90B	Padat	~180 GB	~45 GB
Stable Diffusion 4	~12B	DiT	~24 GB	~6 GB
FLUX.2 Pro	15B	DiT	~30 GB	~8 GB
Open-Sora 2.0	30B	DiT	~60 GB	~15 GB
Whisper V4	1.5B	Padat	~3 GB	~1 GB
Med-Llama 4	B	Padat	~ GB	~35 GB
Legal-BERT 2026	35B	Padat	~70 GB	~18 GB
Finance-LLM 3	15B	Padat	~30 GB	~8 GB
CodeLlama 4	B	Padat	~ GB	~35 GB
Molmo 2	80B	Padat	~160 GB	~40 GB
Granite 4.0	32B (9B aktif)	Hybrid Mamba-Transformer	~64	~16 GB
Nemotron 3	8B, 70B	Padat	~16–140 GB	~4–35 GB
EXAONE 4.0	32B	Padat	~64	~16 GB
Llama 5 Frontier	~1,2T (total)	MoE	~2.4 TB	~600 GB
Llama 5 Base	70B–150B	Padat	~140–300 GB	~35–75 GB
DeepSeek V5	~600B (total)	MoE	~1.2 TB	~300 GB
Stable Diffusion 5	TBD	DiT	—	—
Falcon 3	200B	Padat	~400 GB	~100 GB

Saran Strategis

Jangan beli perangkat keras dulu. Identifikasi kelas model yang sesuai dengan kebutuhan bisnis Anda, lalu terapkan kuantisasi untuk menentukan tingkat perangkat keras yang paling terjangkau.

Perbedaan antara investasi ~Rp 50 juta dan Rp 2,5 miliar seringkali tergantung pada persyaratan ukuran model dan jumlah pengguna bersamaan.

Tren yang Membentuk Lanskap Model AI

Multimodalitas native sebagai standar. Model baru dilatih pada teks, gambar, audio, dan video secara bersamaan — bukan sebagai kemampuan terpisah yang ditambahkan setelah pelatihan. Ini berarti satu model menangani analisis dokumen,ahaman gambar, dan interaksi suara.
Model kecil mencapai kemampuan model besar. Phi-5 (14B) dan MiMo-V2-Flash menunjukkan bahwa inovasi arsitektur dapat mengompres penalaran tingkat terdepan ke dalam model yang berjalan di laptop. Era "lebih besar lebih baik" akan berakhir.
Spesialisasi di atas generalisasi. Alih-alih satu model besar untuk segalanya, trennya menuju ansambel model khusus — model pengkodean, model penalaran, model visi — yang dikoordinasikan oleh kerangka agen. Ini mengurangi persyaratan perangkat keras per model sekaligus kualitas keseluruhan.
AI Agen. Model seperti Kimi K2.5 dan Qwen 3 dirancang untuk secara mandiri menguraikan tugas kompleks, memanggil alat eksternal, dan berkoordinasi dengan model lain. Paradigma kawanan agen ini membutuhkan throughput berkelanjutan selama sesi panjang — mendukung perangkat keras berbandwidth tinggi seperti GB10 dan M5 Ultra.
Generasi video dan 3D yang matang. Open-Sora 2.0 dan FLUX.2 Pro menandakan bahwa generasi video lokal menjadi praktis. Pada 2027, harapkan as pengeditan video real-time yang berjalan di perangkat keras kelas workstation.

10 Keamanan
Arsitektur untuk Keamanan Maksimum

Keuntungan utama perangkat keras AI lokal bukanlah kinerja — melainkan kedaulatan data. Saat server AI Anda berjalan di belakang firewall Anda sendiri, bukan di cloud orang lain, data sensitif Anda tidak pernah meninggalkan gedung Anda.

Arsitektur API Air-Gapped mengisolasi server AI secara fisik dari internet sambil membuatnya dapat diakses oleh karyawan yang berwenang melalui antarmuka API.

Arsitektur API Air-Gapped

👤 Karyawan Workstation standar

→

🔀 Server Broker Auth + UI + Routing

⟶

🔒 Server AI Air-gapped · Tanpa internet

Brankas AI

Arsitektur ini menciptakan Brankas Digital. Bahkan jika Server Broker disusupi, penyerang hanya dapat mengirim kueri teks — mereka tidak dapat mengakses sistem file Server AI, bobot model, data fine-tuning, atau dokumen tersimpan apa pun.

⏻

Butuh implementasi AI yang aman dengan solusi AI yang disesuaikan?

Insinyur kami merancang dan menerapkan arsitektur AI terisolasi (air-gapped) yang memastikan data tidak pernah meninggalkan lokasi, sambil memberikan kemampuan AI terkini untuk bisnis Anda.

Diskusikan Arsitektur AI Aman →

11 Ekonomi
Putusan Ekonomi: Lokal vs. Cloud

Transisi ke perangkat keras AI lokal adalah pergeseran dari OpEx (pengeluaran operasional — biaya API cloud bulanan) ke CapEx (pengeluaran modal — investasi perangkat keras satu kali yang menjadi aset di neraca Anda).

Pertimbangkan firma hukum yang menjalankan model 200B untuk menganalisis kontrak:

☁️ Cloud API

~Rp 600 juta

per tahun (pada skala)

1.000 kontrak/hari × ~Rp 0,15/1K token × 365 hari. Meningkat linear dengan penggunaan. Data meninggalkan jaringan.

🖥️ Perangkat Keras Lokal (DGX Spark)

Rp 67 juta

investasi satu kali

+ ~Rp 250.000/bulan listrik. Penggunaan tak terbatas. Data tidak pernah meninggalkan LAN. Aset di neraca.

Pada 1.000 kueri per hari, DGX Spark terbayar sendiri dalam kurang dari 2 bulan dibandingkan biaya API cloud. Pada tingkat penggunaan lebih tinggi, periode impas memendek menjadi minggu.

Ekonomi menjadi lebih menguntungkan ketika Anda mempertimbangkan:

Beberapa karyawan berbagi perangkat keras yang sama (DGX Spark melayani 2–5 pengguna bersamaan)
Tan harga per token — tugas penalaran kompleks multi-tahap tidak dikenakan biaya tambahan
Fine-tuning dengan data milik sendiri — tidak mungkin di sebagian besar API cloud, gratis di perangkat keras lokal
Nilai jual kembali perangkat keras — perangkat keras AI mempertahankan nilai signifikan di pasar sekunder

Panduan Lengkap Perangkat Keras AI Lokal untuk UKM

1 Fondasi
Mengapa AI Lokal? Kasus Bisnis untuk Kepemilikan

2 Mengurangi Biaya
Kuantisasi: Jalankan Model AI Lebih Besar dengan Perangkat Keras Lebih Murah

Mixture of Experts (MoE)

3 Mini-PC
Mini-PC AI Rp 25.000.000 – Rp 168.000.000

Ekosistem NVIDIA GB10 (DGX Spark)

Mini-PC AMD Ryzen AI Max (Strix Halo)

Apple Mac Studio (M4 Ultra)

Apple Mac Studio (M5 Ultra)

Tiiny AI

Tenstorrent

AI NAS — Penyimpanan Terpasang Jaringan

Butuh bantuan memilih mini-PC AI yang tepat untuk bisnis Anda?

4 Workstation
Workstation AI & PC Desktop Rp 50 juta - Rp 250 juta

Memahami VRAM vs. Kecepatan

GPU Konsumen

GPU Profesional

GPU Pusat Data

GPU China

Akan Datang

NVIDIA DGX Station

Butuh bantuan memilih workstation AI yang tepat untuk bisnis Anda?

5 Server
Server AI Rp 250 juta - Rp 3,4 miliar

Intel Gaudi 3

AMD Instinct MI325X

Huawei Ascend

Intel Xeon 6 (Granite Rapids)

uh bantuan memilih infrastruktur server AI yang tepat?

6 Edge AI
Edge AI & Retrofit Meningkatkan Infrastruktur yang Ada

Akselerator AI M.2: Hailo-10

PC Copilot+ (Laptop NPU)

9 Model AI
Model AI Open-Source (2026–2027)

Tren yang Membentuk Lanskap Model AI

10 Keamanan
Arsitektur untuk Keamanan Maksimum

Butuh implementasi AI yang aman dengan solusi AI yang disesuaikan?

11 Ekonomi
Putusan Ekonomi: Lokal vs. Cloud

Nyalakan Kecerdasan ON untuk Bisnis Anda

Panduan Lengkap Perangkat Keras AI Lokal untuk UKM

1 FondasiMengapa AI Lokal? Kasus Bisnis untuk Kepemilikan

2 Mengurangi BiayaKuantisasi: Jalankan Model AI Lebih Besar dengan Perangkat Keras Lebih Murah

Mixture of Experts (MoE)

3 Mini-PCMini-PC AI Rp 25.000.000 – Rp 168.000.000

Ekosistem NVIDIA GB10 (DGX Spark)

Mini-PC AMD Ryzen AI Max (Strix Halo)

Apple Mac Studio (M4 Ultra)

Apple Mac Studio (M5 Ultra)

Tiiny AI

Tenstorrent

AI NAS — Penyimpanan Terpasang Jaringan

Butuh bantuan memilih mini-PC AI yang tepat untuk bisnis Anda?

4 WorkstationWorkstation AI & PC Desktop Rp 50 juta - Rp 250 juta

Memahami VRAM vs. Kecepatan

GPU Konsumen

GPU Profesional

GPU Pusat Data

GPU China

Akan Datang

NVIDIA DGX Station

Butuh bantuan memilih workstation AI yang tepat untuk bisnis Anda?

5 ServerServer AI Rp 250 juta - Rp 3,4 miliar

Intel Gaudi 3

AMD Instinct MI325X

Huawei Ascend

Intel Xeon 6 (Granite Rapids)

uh bantuan memilih infrastruktur server AI yang tepat?

6 Edge AIEdge AI & Retrofit Meningkatkan Infrastruktur yang Ada

Akselerator AI M.2: Hailo-10

PC Copilot+ (Laptop NPU)

9 Model AIModel AI Open-Source (2026–2027)

Tren yang Membentuk Lanskap Model AI

10 KeamananArsitektur untuk Keamanan Maksimum

Butuh implementasi AI yang aman dengan solusi AI yang disesuaikan?

11 EkonomiPutusan Ekonomi: Lokal vs. Cloud

Nyalakan Kecerdasan ON untuk Bisnis Anda

1 Fondasi
Mengapa AI Lokal? Kasus Bisnis untuk Kepemilikan

2 Mengurangi Biaya
Kuantisasi: Jalankan Model AI Lebih Besar dengan Perangkat Keras Lebih Murah

3 Mini-PC
Mini-PC AI Rp 25.000.000 – Rp 168.000.000

4 Workstation
Workstation AI & PC Desktop Rp 50 juta - Rp 250 juta

5 Server
Server AI Rp 250 juta - Rp 3,4 miliar

6 Edge AI
Edge AI & Retrofit Meningkatkan Infrastruktur yang Ada

9 Model AI
Model AI Open-Source (2026–2027)

10 Keamanan
Arsitektur untuk Keamanan Maksimum

11 Ekonomi
Putusan Ekonomi: Lokal vs. Cloud