Panduan Perkakasan AI Tempatan untuk PKS 2026–2027

NVIDIA DGX Spark — peranti bersaiz buku yang mampu menjalankan model AI berparameter 200 bilion (400 bilion apabila dua unit disambungkan) — mewakili era baru pemilikan AI desktop.

1 Asas
Mengapa AI Tempatan? Kes Perniagaan untuk Pemilikan

Pada awal 2020-an, kecerdasan buatan adalah perkhidmatan yang anda sewa — mengikut jam, token, panggilan API. Menjelang 2026, paradigma telah berubah. Perkakasan yang diperlukan untuk menjalankan kecerdasan kelas GPT-4 kini muat di atas meja anda dan harganya kurang daripada sebuah kereta terpakai.

Bergantung terus pada AI awan sahaja membentangkan trilema strategik:

Kos yang meningkat. Yuran API per token meningkat secara linear dengan penggunaan. Sebuah firma guaman yang memproses 1,000 kontrak sehari boleh menghadapi kos API tahunan sebanyak ~RM 140,000.
Pendedahan data. Setiap kueri yang dihantar ke API awan adalah data yang meninggalkan rangkaian anda dan terdedah kepada risiko keselamatan data dan privasi.
Tiada atau penyesuaian yang mahal. Model awan adalah generik. Mereka tidak boleh disesuaikan dengan mudah atau secara kos efektif berdasarkan data tersuai, proses perniagaan dalaman, atau perisikan perniagaan.

Perkakasan AI tempatan menyelesaikan ketiga-tiganya. Ia mengubah yuran API berubah-ubah menjadi aset modal tetap, memastikan data tidak pernah meninggalkan LAN, dan membolehkan penyesuaian mendalam melalui penalaan halus pada data perniagaan.

2 Mengurangkan Kos
Kuantisasi: Jalankan Model AI Lebih Besar pada Perkakasan Lebih Murah

Kuantisasi adalah konsep yang mengubah ekonomi AI tempatan secara asas.

Secara ringkas, kuantisasi memampatkan jejak memori model AI. Model standard menyimpan setiap parameter sebagai nombor titik terapung 16-bit (FP16). Kuantisasi mengurangkan ini kepada 8-bit (Int8), 4-bit (Int4), atau lebih rendah — mengurangkan secara dramatik jumlah memori yang diperlukan untuk menjalankan model.

Kuantisasi mengakibatkan pengurangan sedikit dalam kualiti output — selalunya tidak ketara untuk tugas perniagaan seperti penyarikan, draf, dan analisis — sebagai pertukaran untuk pengurangan besar dalam kos perkakasan.

Memori Diperlukan: Model AI 400B pada Tahap Ketepatan Berbeza

FP16

Ketepatan penuh

~800 GB

Int8

Separuh saiz

~400 GB

Int4

Suku

~200 GB

FP16 — Kualiti maksimum, kos maksimum

Int8 — Kualiti hampir sempurna, separuh kos

Int4 — Kualiti tinggi, suku kos

Kesan Perniagaan

Model 400B pada ketepatan penuh memerlukan ~800 GB memori — pelaburan pelayan ~RM 777K. Model yang sama yang dikuantisasi ke Int4 hanya memerlukan ~200 GB, dan boleh berjalan pada dua mini-PC DGX Spark (berasaskan GB10 Superchip) yang disambungkan dengan harga RM 31,100.

Mixture of Experts (MoE)

Mixture of Experts ialah satu lagi helah seni bina model AI yang membolehkan penyebaran model besar tanpa kos memori yang besar.

Daripada menggunakan semua parameter untuk setiap soalan, model MoE mengaktifkan hanya sebahagian kecil kapasitinya melalui sparse activation (pengaktifan jarang).

Model MoE berparameter 2 trilion seperti Llama 4 Behemoth mengaktifkan hanya 288B parameter setiap pertanyaan — menyediakan kecerdasan tahap canggih pada sebahagian kecil kos memori.

Pertukaran

Model MoE kurang cekap sedikit untuk tugas mudah seperti penyarikan dan pengelasan, berbanding model padat saiz yang sama. Untuk kerja pengetahuan dan penaakulan seperti analisis kompleks, penjanaan kod dan penyelidikan, model MoE cemerlang.

Pengaktifan jarang menghasilkan kelajuan inferens yang lebih pantas dan masa tindak balas yang lebih cepat.

3 Komputer Mini
Komputer Mini AI RM 5,800 - RM 39,000

Perkembangan paling disruptif pada 2026 ialah pengkomputeran AI berkapasiti tinggi dalam faktor bentuk komputer mini. Peranti tidak lebih besar daripada buku keras kini menjalankan model AI yang memerlukan bilik pelayan dua tahun lalu.

Ekosistem NVIDIA GB10 (DGX Spark)

Pemimpin Prestasi

NVIDIA DGX Spark telah mentakrifkan kategori ini. Pada 2026, Superchip GB10 — menggabungkan CPU ARM Grace dengan GPU Blackwell — telah melahirkan seluruh ekosistem. ASUS, GIGABYTE, Dell, Lenovo, HP, MSI, dan Supermicro semua menghasilkan sistem berasaskan GB10, setiap satu dengan faktor bentuk, penyelesaian penyejukan, dan perisian terikat yang berbeza.

Ekosistem NVIDIA GB10 ASUS, GIGABYTE, Dell, Lenovo, HP, MSI, dan Supermicro

Dari RM 15,500

Memori

128 GB

LPDDR5X Bersepadu

Pengiraan

~1 PFLOP

Prestasi AI FP8

Rangkaian

10 GbE + Wi-Fi 7

ConnectX untuk pengklusteran

Storan

4 TB SSD

NVMe

Pengelompokan

Ya (2 unit)

Memori terhimpun 256 GB

Perisian

NVIDIA AI Enterprise

CUDA, cuDNN, TensorRT

Pengklusteran: Kapasiti 256 GB

Dengan menyambung dua unit GB10 melalui port rangkaian berkelajuan tinggi khusus, sistem menggabungkan sumber menjadi ruang memori 256 GB. Ini membuka kunci keupayaan untuk menjalankan model yang sangat besar — parameter 400B+ dikuantisasi — sepenuhnya di atas meja anda dengan pelaburan perkakasan keseluruhan kira RM 31,100.

Komputer Mini AMD Ryzen AI Max (Strix Halo)

Kos Terendah

Arkitektur AMD Ryzen AI Max+ Strix Halo telah melahirkan kategori baru komputer mini AI bajet. Gelombang pengeluar — GMKtec, Beelink, Corsair, NIMO, Bosgame, FAVM — kini menghantar sistem memori bersepadu 128 GB di bawah ~RM 7,800.

Komzen AI Max GMKtec EVO-X2 · Beelink · Corsair · NIMO AI · Bosgame M5 · FAVM FA-EX9

Dari ~RM 5,800

Memori

128 GB

LPDDR5 Kongsi (CPU+GPU)

Pengiraan

~0.2 PFLOP

GPU Bersepadu RDNA 3.5

Lebar Jalur

~200 GB/s

Lebar jalur memori

Kuasa

~100W

Operasi senyap

Pengelompokan

Tidak

Hanya standalone

Sistem Pengendalian

Windows / Linux

ROCm / llama.cpp

Apple Mac Studio (M4 Ultra)

Pemimpin Kapasiti

Mac Studio menduduki posisi unik dalam landskap AI tempatan. Seni Bina Memori Bersepadu (UMA) Apple menyediakan sehingga 256 GB memori yang boleh diakses oleh CPU dan GPU dalam satu unit desktop padat — tiada pengklusteran diperlukan.

Ini menjadikannya satu-satunya peranti tunggal berpatutan yang mampu memuatkan model sumber terbuka terbesar. Model berparameter 400 bilion dikuantisasi ke Int4 muat sepenuhnya dalam memori pada konfigurasi 256 GB.

Apple Mac Studio (M4 Ultra) Pemimpin kapasiti AI unit tunggal

Dari RM 15,500

Memori

Sehingga 256 GB

Memori Bersepadu (UMA)

Pengiraan

~0.5 PFLOP

Enjin Neural Apple + GPU

Perisian

Kerangka MLX

Inferens dioptimumkan Apple

Batasan

Hanya Inferensi

Perlahan untuk latihan/penalaan halus

Apple Mac Studio (M5 Ultra)

Pesaing Akan Datang

M5 Ultra generasi seterusnya Apple, dijangka pada akhir 2026, dikhabarkan akan menangani kelemahan utama M4: prestasi latihan model AI. Dibina pada proses 2nm TSMC, ia dijangka menawarkan konfigurasi sehingga 512 GB memori bersepadu dengan lebar jalur melebihi 1.2 TB/s.

Apple Mac Studio (M5 Ultra) Kuasa latihan AI yang dijangka

Angg. ~RM 46,600

Memori

Sehingga 512 GB

Memori Bersepadu Generasi Seterusnya

Pengiraan

~1.5+ PFLOP

2nm

Perisian

MLX 2.0+

Sokongan latihan asli

Keupayaan

Latihan & Inferensi

Alternatif CUDA

Lebar Jalur Memori: Kapasiti 1.2 TB/s

M5 Ultra 512 GB akan menjadi peranti pengguna pertama yang mampu menjalankan model frontier tidak terkuantasi (ketepatan penuh). Lebar jalur memori tinggi 1.2+ TB/s menyokong aliran kerja AI agen yang memerlukan inferensi lebar jalur tinggi berterusan dengan tetingkap konteks yang sangat panjang.

Tiiny AI

Superkomputer AI Poket

Dilancarkan di Kickstarter pada 2026 dengan harga RM 5,400, Tiiny.ai Pocket AI Computer ialah superkomputer poket dengan memori 80GB LGDDR5X dan SSD 1TB yang menyokong menjalankan model AI 120B secara tempatan di mana-mana sahaja.

Dengan berat 300 gram (142×22×80mm) dan dikuasakan oleh USB-C standard, ia menyokong aplikasi perniagaan inovatif. Tiiny AI melaporkan kelajuan output 21.14 token sesaat untuk GPT-OSS-120B.

Tenstorrent

Perkakasan Sumber Terbuka

Diketuai oleh arkitek cip legenda Jim Keller, Tenstorrent mewakili falsafah asas berbeza: perkakasan sumber terbuka dibina atas RISC-V, perisian sumber terbuka, dan penskalaan modular melalui daisy-chaining.

Teras AI Tensix direka untuk skala linear: tidak seperti GPU, yang bergelut dengan overhead komunikasi apabila anda menambah lebih banyak kad, cip Tenstorrent dibina untuk ditegel dengan cekap.

Dalam perkongsian dengan Razer, Tenstorrent telah mengeluarkan pemecut AI luaran padat yang menyambung ke mana-mana komputer riba atau desktop melalui Thunderbolt — mengubah perkakasan sedia ada menjadi stesen kerja AI tanpa menggantikan apa-apa.

Pemecut AI Padat Razer × Tenstorrent Pemecut AI Thunderbolt luaran

Harga Tidak diketahui

Memori Per Kotak

12 GB

GDDR6

Cip

Wormhole n150

Teras Tensix · RISC-V

Penskalaan

Sehingga 4 unit

Kapasiti AI 48 GB

Perisian

Sumber terbuka sepenuhnya

GitHub · TT-Metalium

AI NAS — Storan Terpasang Rangkaian

Storan + AI

Takrif NAS telah beralih dari storan pasif kepada kecerdasan aktif. Generasi baru peranti storan rangkaian mengintegrasikan pemprosesan AI secara langsung — dari inferensi berasaskan NPU ringan kepada penyebaran LLM dipercepat GPU penuh.

NAS yang mampu AI menghapuskan keperluan peranti AI berasingan dan membolehkan pemprosesan langsung data lebih besar tanpa kependaman pemindahan rangkaian.

⏻

Perlu bantuan memilih mini-PC AI yang tepat untuk perniagaan anda?

Jurutera kami boleh menilai keperluan perkakasan AI anda dan mengimplementasikan sistem AI yang dikonfigurasi sepenuhnya.

Dapatkan Penilaian Perkakasan Percuma →

4 Stesen Kerja
Stesen Kerja AI & PC Meja 11,700 – RM 58,300

Tier stesen kerja menggunakan kad grafik PCIe diskret dan casis menara standard. Tidak seperti seni bina bersepadu tetap tier mini-PC, tier ini menawarkan modulariti — anda boleh menaik taraf komponen individu, menambah lebih GPU, atau menukar kad apabila teknologi berkembang.

Stesen kerja dual RTX A6000 dengan jambatan NVLink menawarkan 96 GB VRAM terkumpul untuk kira-kira RM 27,200.

Memahami VRAM vs. Kelajuan

Dua faktor bersaing menentukan pilihan GPU untuk AI:

📦

Kapasiti VRAM

Menentukan saiz model yang boleh dimuatkan. Lebih VRAM bermaksud model lebih besar dan berupaya. Ini ialah siling kecerdasan anda.

⚡

Kelajuan Pengiraan

Menentukan kepantasan model bertindak balas. Pengiraan lebih tinggi bermaksud kependaman lebih rendah setiap pertanyaan. Ini ialah pengalaman pengguna anda.

Kad pengguna (seperti RTX 5090) memaksimumkan kelajuan tetapi tawaran VRAM terhad — biasanya 24–32 GB. Kad profesional (seperti RTX PRO 6000 Blackwell) memaksimumkan VRAM — sehingga 96 GB setiap kad — tetapi lebih mahal per unit pengiraan.

VRAM ialah kekangan mengikat. Kad pantas dengan memori tidak mencukupi tidak boleh memuatkan model AI langsung. Kad lebih perlahan dengan memori mencukupi menjalankan model — hanya dengan masa tindak balas lebih lama.

GPU Pengguna

Konfigurasi	Jumlah VRAM	Penyambungan	Angg. Kos
2× RTX 3090 (Terpakai)	48 GB	NVLink	~RM 11,700
2× RTX 4090	48 GB	PCIe Gen 5	RM 15,500
2× RTX 5090	64 GB	PCIe Gen 5	RM 27,200

GPU Profesional

Konfigurasi	Jumlah VRAM	Penyambungan	Angg. Kos
2× RTX A6000 Nilai Terbaik	96 GB	NVLink	RM 27,200
2× RTX 6000 Ada	96 GB	PCIe Gen 5	RM 50,500
1× RTX PRO 6000 Blackwell	96 GB	NVLink	RM 31,100
4× RTX PRO 6000 Blackwell	384 GB	PCIe Gen 5	RM 124,000

GPU Pusat Data

Konfigurasi	Jumlah VRAM	Penyambungan	Angg. Kos
1× L40S	48 GB	PCIe 4.0 (penyejukan pasif)	RM 27,200
1× A100 PCIe	80 GB	PCIe 4.0	RM 38,900
1× H200 NVL	141 GB	NVLink	RM 116,600
4× H200 NVL	564 GB	NVLink	RM 466,400
1 B200 SXM	180 GB	NVLink 5 (1.8 TB/s)	RM 116,600
8× B200 SXM	1,440 GB	NVLink 5 (1.8 TB/s)	RM 932,900

GPU Cina

Ekosistem GPU domestik China telah matang dengan pantas. Beberapa pengeluar China kini menawarkan GPU AI kelas stesen kerja dengan spesifikasi kompet dan harga jauh lebih rendah.

Konfigurasi	Jumlah VRAM	Jenis Memori	Angg. Kos
1× Moore Threads MTT S4000	48 GB	GDDR6	RM 3,100
4× Moore Threads MTT S4000	192 GB	GDDR6	RM 13,600
8× Moore Threads MTT S4000	384 GB	GDDR6	RM 25,300
1× Hygon DCU Z100	32 GB	HBM2	RM 9,700
1× Biren BR104	32 GB	HBM2e	~RM 11,700
8× Biren BR104	256 GB	HBM2e	RM 93,300
1× Huawei Ascend Atlas 300I Duo	96 GB	HBM2e	RM 4,700
8× Huawei Ascend Atlas 300I Duo	768 GB	HBM2e	RM 38,900

Akan Datang

Konfigurasi	Jumlah VRAM	Status	Angg. Kos
RTX 5090 128 GB	128 GB	Mod. Cina — bukan SKU standard	RM 19,400
RTX Titan AI	64 GB	Dijangka 2027	~RM 11,700

MSI NVIDIA RTX PRO 6000 Blackwell Server

NVIDIA DGX Station

Apex Perusahaan

NVIDIA DGX Station ialah superkomputer yang disejukkan air dan diletakkan di sisi meja yang membawa prestasi pusat data ke persekitaran pejabat. Versi terkini menggunakan Superchip GB300 Grace Blackwell.

NVIDIA DGX Station GB300 Ultra Bukti Masa Depan

Angg. Harga ~RM 777K

Versi Blackwell Ultra meningkatkan ketumpatan memori dan kuasa pengiraan, direka untuk organisasi yang perlu melatih model tersuai dari awal atau menjalankan seni bina MoE (Mixture of Experts) besar secara tempatan.

Memori

~1.5 TB+

HBM3e (Ultra-pantas)

Pengiraan

~20+ PFLOPS

Prestasi AI FP8

Kes Penggunaan

Latihan Tersuai

Pembangunan Model

Kuasa

Soket standard

Tiada bilik pelayan diperlukan

NVIDIA DGX Station GB300 Blackwell Ultra

NVIDIA DGX Station A100 Kuda Tunggul AI yang Boleh Diakses

Dari ~RM 389K

askan seni bina Ampere generasi sebelumnya, ia kekal sebagai piawaian industri untuk inferens dan pelarasan halus yang boleh dipercayai. Sesuai untuk pasukan yang memasuki ruang AI tanpa bajet untuk Blackwell.

Memori

320 GB

4x GPU A100 80GB

Pengiraan

2 PFLOPS

Prestasi AI FP16

Pelbagai Pengguna

5–8 serentak

Konkurensi sederhana

Kuasa

Soket standard

Tiada bilik pelayan diperlukan

Walaupun mahal, DGX Station menggantikan rak pelayan ~RM 1.17J dan infrastruktur penyejukannya. Ia dipasang ke soket dinding standard. Ini menghapuskan sepenuhnya overhead bilik pelayan.

⏻

Perlu bantuan memilih stesen kerja AI yang tepat untuk perniagaan anda?

Jurutera kami boleh menilai keperluan perkakasan AI anda dan mengimplementasikan sistem AI yang dikonfigurasi sepenuhnya.

Dapatkan Penilaian Perkakasan Percuma →

5 Pelayan
Pelayan AI RM 58,000 – RM 777,000

Apabila perniagaan anda perlu melayani ramai pekerja serentak, menjalankan model kelas asas pada ketepatan penuh, atau melaraskan model tersuai pada data proprietari — anda memasuki peringkat pelayan.

Ini ialah domain kad pecut AI khusus dengan memori jalur lebar tinggi (HBM), sambungan khusus, dan faktor bentuk yang boleh dipasang rak atau di sisi meja. Perkakasan lebih mahal, tetapi kos setiap pengguna menurun secara mendadak pada skala.

Intel Gaudi 3

Nilai Terbaik pada Skala

Pecut Gaudi 3 Intel direka dari bawah sebagai cip latihan dan inferens AI — bukan kad grafik yang digunakan semula. Setiap kad menyediakan 128 GB memori HBM2e dengan rangkaian Ethernet 400 Gb bersepadu, menghapuskan keperluan penyesuai rangkaian berasingan.

Gaudi 3 boleh didapati dalam dua faktor bentuk:

Kad PCIe (HL-338): Faktor bentuk PCIe standard untuk integrasi ke dalam pelayan sedia ada. Anggaran harga: ~RM 46,600 sekeping kad.
OAM (Mod Pemecut OCP): Piawaian OCP berketumpatan tinggi untuk pusat data awan. RM 60,700 setiap cip apabila dibeli dalam kit 8-cip pukal (~RM 486,000 jumlah dengan papan asas).

Pelayan Gaudi 3 8-kad menyediakan 1 TB memori AI total pada kos yang jauh lebih rendah berbanding sistem NVIDIA H100 yang setara.

💾

Memori Setiap Kad

128 GB

HBM2e — menyamai DGX Spark dalam satu kad

⚡

Jumlah 8-Kad

1 TB

1,024 GB memori terkumpul untuk model terbesar

💰

Kos Sistem

~RM 777K

Lebih murah daripada persediaan NVIDIA H100 yang setara

AMD Instinct MI325X

Ketumpatan Maksimum

AMD Instinct MI325X mempunyai 256 GB memori HBM3e setiap kad — dua kali ganda Intel Gaudi 3. Hanya 4 kad diperlukan untuk mencapai 1 TB memori AI total, berbanding 8 kad untuk Intel.

💾

Jumlah Memori 4-Kad

1 TB

Separuh kad Intel untuk kapasiti sama

⚡

Lebar Jalur

6 TB/s

Setiap kad — membolehkan pengguna serentak

💰

Kos Sistem

~RM 777K

Kos kemasukan dengan 1 kad ~RM 233K

MI325X lebih mahal setiap sistem berbanding Gaudi 3, tetapi lebih pantas dan padat. Untuk beban kerja yang memerlukan output maksimum — inferens masa nyata untuk lebih ramai pengguna, atau melatih model tersuai pada set data besar — pelaburan yang lebih tinggi membayar sendiri dengan mengurangkan kependaman dan memudahkan infrastruktur.

Huawei Ascend

Alternatif Stack Penuh

Huawei telah mereplikasi stack infrastruktur AI penuh: silikon tersuai (Ascend 910B/C), sambungan proprietari (HCCS), dan rangka kerja perisian lengkap (CANN). Hasilnya ialah ekosistem berdikari yang beroperasi bebas daripada rantaian bekalan Barat dan pada kos jauh lebih rendah berbanding kelompok NVIDIA H100 setanding.

Intel Xeon 6 (Granite Rapids)

Pelayan Bajet

Satu revolusi senyap pada 2026 ialah kebangkitan inferens AI berasaskan CPU. Pemproses Intel Xeon 6 termasuk AMX (Advanced Matrix Extensions) yang membolehkan beban kerja AI pada DDR5 standard — yang jauh lebih murah daripada memori GPU.

Pertukaran

Pelayan dual-socket Xeon 6 boleh memegang 1 TB hingga 4 TB RAM DDR5 pada sebahagian kecil kos memori GPU. Kelajuan inferens perlahan, tetapi untuk pemprosesan kelompok — di mana kelajuan tidak relevan tetapi kecerdasan dan kapasiti terpenting — ini transformatif.

Contoh: Sebuah PKSuat naik 100,000 invois diimbas semalaman. Pelayan Xeon 6 menjalankan model AI +400B untuk mengekstrak data sempurna. Tugas mengambil 10 jam, tetapi kos perkakasan jauh lebih rendah daripada pelayan GPU.

⏻

Perlu bantuan memilih infrastruktur pelayan AI yang tepat?

Pasukan infrastruktur kami mereka bentuk dan melaksanakan penyelesaian pelayan AI yang lengkap — dari Intel Gaudi ke NVIDIA DGX — digabungkan dengan perisian tersuai — untuk membuka keupayaan AI untuk perniagaan anda.

Minta Cadangan Seni Bina Pelayan →

6 Edge AI
Edge AI & Retrofit Menaik Taraf Infrastruktur Sedia Ada

Tidak setiap PKS memerlukan pelayan AI khusus atau mini-PC. Ramai boleh menanam kecerdasan ke dalam infrastruktur sedia ada — menaik taraf komputer riba, desktop, dan peranti rangkaian dengan keupayaan AI pada kos minima.

Pemecut AI M.2: Hailo-10

Hailo-10 ialah modul M.2 2280 standard — slot yang sama digunakan untuk SSD — yang menambah pemprosesan AI khusus kepada mana-mana PC sedia ada. Pada ~~RM 580 setiap unit dan menggunakan hanya 5–8W kuasa, ia membolehkan naik taraf AI seluruh armada tanpa menggantikan perkakasan.

📎

Faktor Bentuk

M.2 2280

Muat dalam mana-mana slot SSD standard

⚡

Prestasi

20–50 TOPS

Dioptimumkan untuk inferens edge

💰

Kos

~RM 580

Setiap unit — naik taraf armada di bawah ~RM 11,700

Kes penggunaan: Transkripsi mesyuarat tempatan (Whisper), kapsyen masa nyata, dikte suara, inferens model kecil (Phi-3 Mini). Kad ini tidak boleh menjalankan LLM besar, tetapi ia cemerlang dalam tugas AI khusus dan berterusan — memastikan data suara diproses secara tempatan dan tidak pernah dihantar ke awan.

PC Copilot+ (Komputer Riba NPU)

Komputer riba dengan cip Qualcomm Snapdragon X Elite, Intel Core Ultra, atau AMD Ryzen AI mengandungi Unit Pemprosesan Neural (NPU) khusus — cip AI khusus. Ini tidak boleh menjalankan LLM besar, tetapi mengendalikan tugas AI kecil dan berterusan: transkripsi langsung, kabur latar belakang, ciri Recall tempatan, dan menjalankan model ringan seperti Microsoft Phi-3.

NPU dinilai dalam TOPS (Tera Operasi Per Saat), yang mengukur berapa banyak kerja AI yang boleh mereka tangani. PC Copilot+ paling berkuasa pada 2026 mempunyai ~50 TOPS. TOPS yang lebih tinggi bermakna respons lebih pantas dan keupayaan untuk mengendalikan model AI yang sedikit lebih besar.

9 Model AI
Model AI Sumber Terbuka (2026–2027)

Pilihan model AI menentukan keperluan perkakasan — tetapi seperti yang ditunjukkan dalam bab Pengkuantuman Model AI, pengkuantuman membolehkan model kelas hadapan berjalan pada perkakasan yang berharga sebahagian kecil daripada apa yang diperlukan oleh pelaksanaan ketepatan penuh.

Jadual di bawah memberikan gambaran keseluruhan model AI sumber terbuka semasa dan akan datang.

Model	Saiz	Seni Bina	Memori (FP16)	Memori (INT4)
Llama 4 Behemoth	288B (aktif)	MoE (~2T jumlah)	~4 TB	~1 TB
Llama 4 Maverick	17B (aktif)	MoE (400B jumlah)	~800 GB	~200 GB
Llama 4 Scout	17B (aktif)	MoE (109B jumlah)	~220 GB	~55 GB
DeepSeek V4	~70B (aktif)	MoE (671B jumlah)	~680 GB	~170 GB
DeepSeek R1	37B (aktif)	MoE (671B jumlah)	~140 GB	~35 GB
DeepSeek V3.2	~37B (aktif)	MoE (671B jumlah)	~140 GB	~35 GB
Kimi K2.5	32B (aktif)	MoE (1T jumlah)	~2 TB	~500 GB
Qwen 3.5	397B (aktif)	MoE (A17B)	~1	~375 GB
Qwen 3-Max-Thinking	Besar	Padat	~2 TB	~500 GB
Qwen 3-Coder-Next	480B (A35B aktif)	MoE	~960 GB	~240 GB
Mistral Large 3	123B (41B aktif)	MoE (675B jumlah)	~246 GB	~62 GB
Ministral 3 (3B, 8B, 14B)	3B–14B	Padat	~6–28 GB	~2–7 GB
GLM-5	44B (aktif)	MoE (744B jumlah)	~1	~370 GB
GLM-4.7 (Thinking)	Besar	Padat	~1	~375 GB
MiMo-V2-Flash	15B (aktif)	MoE (309B jumlah)	~30 GB	~8 GB
MiniMax M2.5	~10B (aktif)	MoE (~230B jumlah)	~460 GB	~115 GB
5 Reasoning	14B	Padat	~28 GB	~7 GB
Phi-4	14B	Padat	~28 GB	~7 GB
Gemma 3	27B	Padat	~54 GB	~14 GB
Pixtral 2 Large	90B	Padat	~180 GB	~45 GB
Stable Diffusion 4	~12B	DiT	~24 GB	~6 GB
FLUX.2 Pro	15B	DiT	~30 GB	~8 GB
Open-Sora 2.0	30B	DiT	~60 GB	~15 GB
Whisper V4	1.5B	Padat	~3 GB	~1 GB
Med-Llama 4	70B	Padat	~140 GB	~35 GB
Legal-BERT 2026	35B	Padat	~70 GB	~18 GB
Finance-LLM 3	15B	Padat	~30 GB	~8 GB
CodeLlama 4	70B	Padat	~140 GB	~35 GB
Molmo 2	80B	Padat	~160 GB	~40 GB
Granite 4.0	32B (9B aktif)	Hibrid Mamba-Transformer	~64 GB	~16 GB
Nemotron 3	8B, 70B	Padat	~16–140 GB	~4–35 GB
EXAONE 4.0	32B	Padat	~64 GB	~16 GB
Llama 5 Frontier	~1.2T (jumlah)	MoE	~2.4 TB	~600 GB
Llama 5 Base	70B–150B	Padat	~140–300 GB	~35–75 GB
DeepSeek V5	~600B (jumlah)	MoE	~1.2 TB	~300 GB
Stable Diffusion 5	TBD	DiT	—	—
Falcon 3	200B	Padat	~400 GB	~100 GB

Nasihat Strategik

Jangan beli perkakasan dahulu. Kenal pasti kelas model yang sesuai dengan keperluan perniagaan anda, kemudian gunakan pengkuantuman untuk menentukan peringkat perkakasan yang paling berpatutan.

Perbezaan antara pelaburan ~RM 11,700 dan RM 583,000 selalunya bergantung pada keperluan saiz model dan bilangan pengguna serentak.

Trend Membentuk Landskap Model AI

Multimodaliti asli sebagai standard. Model baharu dilatih pada teks, imej, audio, dan video secara serentak — bukan sebagai keupayaan berasingan yang ditambah selepas latihan. Ini bermakna satu model mengendalikan analisis dokumen, pemahaman imej, dan interaksi suara.
Model kecil mencapai keupayaan model besar. Phi-5 (14B) dan MiMo-V2-Flash menunjukkan bahawa inovasi seni bina dapat memampatkan penaakulan tahap hadapan ke dalam model yang berjalan pada komputer riba. Era "lebih besar lebih baik" sedang berakhir.
Pengkhususan melebihi pengamuman. Daripada satu model besar untuk segala-galanya, trend adalah ke arah ensemble model khusus — model pengekodan, model penaakulan, model penglihatan — diselaraskan oleh rangka kerja ejen. Ini mengurangkan keperluan perkakasan setiap model sambil meningkatkan kualiti keseluruhan.
AI Ejen. Model seperti Kimi K2.5 dan Qwen 3 direka untuk menguraikan tugas kompleks secara autonomi, memanggil alat luaran, dan menyelaraskan dengan model lain. Paradigma agen swarm ini memerlukan throughput berterusan dalam sesi panjang — memihak kepada perkakasan berjalur lebar tinggi seperti GB10 dan M5 Ultra.
Penjanaan video dan 3D matang. Open-Sora 2.0 dan FLUX.2 Pro menandakan bahawa penjanaan video tempatan menjadi praktikal. Menjelang 2027, jangkakan pembantu penyuntingan video masa nyata berjalan pada perkakasan kelas stesen kerja.

10 Keselamatan
Seni Bina untuk Keselamatan Maksimum

Kelebihan utama perkakasan AI tempatan bukan prestasi — ia adalah kedaulatan data. Apabila pelayan AI anda berjalan di belakang firewall anda dan bukannya dalam awan orang lain, data sensitif anda tidak pernah meninggalkan bangunan anda.

Seni Bina API Air-Gapped mengasingkan pelayan AI secara fizikal daripada internet sambil membolehkannya diakses oleh pekerja yang diberi kuasa melalui antara muka API.

Seni Bina API Air-Gapped

👤 Pekerja Stesen kerja standard

→

🔀 Pelayan Broker Pengesahan + UI + Penghalaan

⟶

🔒 Pelayan AI Air-gapped · Tiada internet

Peti Besi AI

Seni bina ini mencipta Peti Besi Digital. Walaupun Pelayan Broker dikompromi, penyerang hanya boleh menghantar pertanyaan teks — mereka tidak boleh mengakses sistem fail Pelayan AI, berat model, data penalaan halus, atau mana-mana dokumen tersimpan.

⏻

Perlukan pelaksanaan AI yang selamat dengan penyelesaian AI tersuai?

Jurutera kami mereka bentuk dan melaksanakan seni bina AIapped yang memastikan data tidak pernah meninggalkan premis sambil menyediakan perniagaan anda dengan keupayaan AI terkini.

Bincang Seni Bina AI Selamat →

11 Ekonomi
Keputusan Ekonomi: Tempatan vs. Awan

Peralihan kepada perkakasan AI tempatan adalah peralihan dari OpEx (perbelanjaan operasi — yuran API awan bulanan) ke CapEx (perbelanjaan modal — pelaburan perkakasan satu kali yang menjadi aset pada kunci kira-kira anda).

Pertimbangkan sebuah firma guaman yang menjalankan model 200B untuk menganalisis kontrak:

☁️ API Awan

~RM 140,000

setahun (pada skala)

1,000 kontrak/hari × ~RM 0.04/1K token × 365 hari. Meningkat secara linear dengan penggunaan. Data meninggalkan rangkaian.

🖥️ Perkakasan Tempatan (DGX Spark)

RM 15,500

pelaburan satu kali

+ ~RM 58/bulan elektrik. Penggunaan tanpa had. Data tidak pernah meninggalkan LAN. Aset pada kunci kira-kira.

Pada 1,000 pertanyaan sehari, DGX Spark membayar sendiri dalam tempoh kurang daripada 2 bulan berbanding kos API awan. Pada tahap penggunaan yang lebih tinggi, tempoh pulang modal dipendekkan kepada minggu.

Ekonomi menjadi lebih baik apabila anda mempertimbangkan:

Berbilang pekerja berkongsi perkakasan yang sama (DGX Spark berkhidmat untuk 2–5 pengguna serentak)
Tiada penetapan harga per token — tugas penaakulan kompleks, pelbagai langkah tidak menelan kos tambahan
Penalaan halus pada data proprietari — mustahil dengan kebanyakan API awan, percuma pada perkakasan tempatan
Nilai jual semula perkakasan — perkakasan AI mengekalkan nilai yang ketara di pasaran sekunder

Panduan Lengkap untuk Perkakasan AI Tempatan untuk PKS

1 Asas
Mengapa AI Tempatan? Kes Perniagaan untuk Pemilikan

2 Mengurangkan Kos
Kuantisasi: Jalankan Model AI Lebih Besar pada Perkakasan Lebih Murah

Mixture of Experts (MoE)

3 Komputer Mini
Komputer Mini AI RM 5,800 - RM 39,000

Ekosistem NVIDIA GB10 (DGX Spark)

Komputer Mini AMD Ryzen AI Max (Strix Halo)

Apple Mac Studio (M4 Ultra)

Apple Mac Studio (M5 Ultra)

Tiiny AI

Tenstorrent

AI NAS — Storan Terpasang Rangkaian

Perlu bantuan memilih mini-PC AI yang tepat untuk perniagaan anda?

4 Stesen Kerja
Stesen Kerja AI & PC Meja 11,700 – RM 58,300

Memahami VRAM vs. Kelajuan

GPU Pengguna

GPU Profesional

GPU Pusat Data

GPU Cina

Akan Datang

NVIDIA DGX Station

Perlu bantuan memilih stesen kerja AI yang tepat untuk perniagaan anda?

5 Pelayan
Pelayan AI RM 58,000 – RM 777,000

Intel Gaudi 3

AMD Instinct MI325X

Huawei Ascend

Intel Xeon 6 (Granite Rapids)

Perlu bantuan memilih infrastruktur pelayan AI yang tepat?

6 Edge AI
Edge AI & Retrofit Menaik Taraf Infrastruktur Sedia Ada

Pemecut AI M.2: Hailo-10

PC Copilot+ (Komputer Riba NPU)

9 Model AI
Model AI Sumber Terbuka (2026–2027)

Trend Membentuk Landskap Model AI

10 Keselamatan
Seni Bina untuk Keselamatan Maksimum

Perlukan pelaksanaan AI yang selamat dengan penyelesaian AI tersuai?

11 Ekonomi
Keputusan Ekonomi: Tempatan vs. Awan

Hidupkan Kecerdasan ON Untuk Perniagaan Anda

Panduan Lengkap untuk Perkakasan AI Tempatan untuk PKS

1 AsasMengapa AI Tempatan? Kes Perniagaan untuk Pemilikan

2 Mengurangkan KosKuantisasi: Jalankan Model AI Lebih Besar pada Perkakasan Lebih Murah

Mixture of Experts (MoE)

3 Komputer MiniKomputer Mini AI RM 5,800 - RM 39,000

Ekosistem NVIDIA GB10 (DGX Spark)

Komputer Mini AMD Ryzen AI Max (Strix Halo)

Apple Mac Studio (M4 Ultra)

Apple Mac Studio (M5 Ultra)

Tiiny AI

Tenstorrent

AI NAS — Storan Terpasang Rangkaian

Perlu bantuan memilih mini-PC AI yang tepat untuk perniagaan anda?

4 Stesen KerjaStesen Kerja AI & PC Meja 11,700 – RM 58,300

Memahami VRAM vs. Kelajuan

GPU Pengguna

GPU Profesional

GPU Pusat Data

GPU Cina

Akan Datang

NVIDIA DGX Station

Perlu bantuan memilih stesen kerja AI yang tepat untuk perniagaan anda?

5 PelayanPelayan AI RM 58,000 – RM 777,000

Intel Gaudi 3

AMD Instinct MI325X

Huawei Ascend

Intel Xeon 6 (Granite Rapids)

Perlu bantuan memilih infrastruktur pelayan AI yang tepat?

6 Edge AIEdge AI & Retrofit Menaik Taraf Infrastruktur Sedia Ada

Pemecut AI M.2: Hailo-10

PC Copilot+ (Komputer Riba NPU)

9 Model AIModel AI Sumber Terbuka (2026–2027)

Trend Membentuk Landskap Model AI

10 KeselamatanSeni Bina untuk Keselamatan Maksimum

Perlukan pelaksanaan AI yang selamat dengan penyelesaian AI tersuai?

11 EkonomiKeputusan Ekonomi: Tempatan vs. Awan

Hidupkan Kecerdasan ON Untuk Perniagaan Anda

1 Asas
Mengapa AI Tempatan? Kes Perniagaan untuk Pemilikan

2 Mengurangkan Kos
Kuantisasi: Jalankan Model AI Lebih Besar pada Perkakasan Lebih Murah

3 Komputer Mini
Komputer Mini AI RM 5,800 - RM 39,000

4 Stesen Kerja
Stesen Kerja AI & PC Meja 11,700 – RM 58,300

5 Pelayan
Pelayan AI RM 58,000 – RM 777,000

6 Edge AI
Edge AI & Retrofit Menaik Taraf Infrastruktur Sedia Ada

9 Model AI
Model AI Sumber Terbuka (2026–2027)

10 Keselamatan
Seni Bina untuk Keselamatan Maksimum

11 Ekonomi
Keputusan Ekonomi: Tempatan vs. Awan