NVIDIA DGX Spark — прылада памерам з кнігу, здольная запускаць мадэлі ШІ з 200 мільярдамі параметраў (400 мільярдаў пры сувязі двух) — увасабляе новую эру ўласнасці настольнага штучнага інтэлекту.

1 Аснова
Чаму лакальны AI? Бізнэс-абгрунтаванне ўласнасці

У пачатку 2020-х штучны інтэлект быў паслугай, якую вы бралі ў арэнду — па гадзіне, па токене, па API-запыце. Да 2026 года парадыгма змянілася. Абсталяванне, неабходнае для запуску інтэлекту класа GPT-4, цяпер змяшчаецца на вашым стале і каштуе танней за пад'езджаны аўтамабіль.

Працяглая залежнасць ад выключна воблачнага AI стварае стратэгічную трылему:

  • Павышэнне коштаў. Плата за API за токен маштабуецца лінейна з выкарыстаннем. Юрыдычная фірма, якая апрацоўвае 1000 кантрактаў у дзень, можа сутыкнуцца з ~101 тыс. Br штогадовых коштаў API.
  • Раскрыццё даных. Кожны запыт, адпраўлены ў воблачны API, — гэта даныя, якія пакідаюць вашу сетку і падвяргаюцца рызыкам бяспекі і прыватнасці даных.
  • Няздзейсненае або дарагое прыстасаванне. Воблачныя мадэлі з'яўляюцца агульнымі. Іх цяжка або неэканамічна дакладна наладжваць пад карыстацкія даныя, унутраныя бізнэс-працэсы ці бізнэс-інфармацыю.

Лакальнае AI-абсталяванне вырашае ўсе тры праблемы. Яно пераўтварае зменныя API-зборы ў нерухомы капітал, гарантуе, што даныя ніколі не пакідаюць лакальную сетку, і дазваляе глыбокае прыстасаванне праз дакладную наладку на бізнэс-даных.

2 Зніжэнне коштаў
Квантаванне: Запускайце большыя AI-мадэлі на таннейшым абсталяванні

Квантаванне — гэта канцэпцыя, якая кардынальна змяняе эканоміку лакальнага AI.

Прастымі словамі, квантаванне сціскае аб'ём памяці, які займае AI-мадэль. Стандартная мадэль захоўвае кожны параметр як 16-бітк з плаваючай коскай (FP16). Квантаванне змяншае гэта8-бітнага (Int8), 4-бітнага (Int4) ці нават ніжэй — рэзка памяншаючы аб'ём памяці, неабходны для запуску мадэлі.

Квантаванне прыводзіць да нязначнага пагаршэння якасці вываду — часта непрыкметнага для бізнэс-задач накшталт рэзюмавання, складання чарнавікоў і азу — у абмен на вялізнае зніжэнне кошту абсталявання.

Патрабаванні да памяці: 400B мадэль ШІ пры розных узроўнях дакладнасці
FP16
Поўная дакладнасць
~800 GB
Int8
Палавіна памеру
~400 GB
Int4
Чвэрць
~200 GB
FP16 — Максімальная якасць, максімальны кошт
Int8 — Амаль ідэальная якасць, палавіна кошту
Int4 — Высокая якасць, чвэрць кошту
Бізнэс-ўплыў

Мадэль 400B з поўнай дакладнасцю патрабуе ~800 ГБ памяці — інвестыцыя ў сервер ~570 тыс. Br. Тая ж мадэль, квантаваная да Int4, патрабуе толькі ~200 ГБ і можа працаваць на двух звязаных міні-ПК DGX Spark (на базе GB10 Superchip) за ~27 тыс. Br.

Суммеш экспертаў (MoE)

Суммеш экспертаў — гэта яшчэ адзін хітрык архітэктуры мадэляў ШІ, які дазваляваць велізарныя мадэлі без велізарных коштаў на памяць.

Замест выкарыстання ўсіх параметраў для кожнага запыту, мадэль MoE актывуе толькі частку сваёй магутнасці праз рэдкую актывацыю.

Мадэль MoE з 2 трыльёнамі параметраў, як Llama 4 Behemoth, актывуе толькі 288B параметраў за запыт — забяспечваючы інтэлект фронтирнага ўзроўню за частку коштаў на памяць.

Кампраміс

Мадэлі MoE крыху менш эфектыўныя ў простых задачах накшталт сціску і класіфікацыі ў параўнанні з шчыльнымі мадэлямі таго ж памеру. У ведавых задачах і разважаннях — складаны аналіз, генерацыя кода і даследаванні — мадэлі MoE вылучаюцца.

Рэдкая актывацыя прыводзіць да хутчэйшай хуткасці вываду і скарачэння часу адказу.

3 Міні-ПК
AI-міні-ПК 5 100 Br – 34 000 Br

HP ZGX Nano AI на руцэ жанчыны

Найбольш разбуральнае дасягненне 2026 года — высокапрадукцыйныя AI-вылічэнні ў фармаце міні-ПК. Прылады не большыя за цвёрдую вокладку кнігі цяпер запускаюць AI-мадэлі, якія два гады таму патрабавалі серверных пакояў.

Экасістэма NVIDIA GB10 (DGX Spark)

Лідэр па прадукцыйнасці

NVIDIA logo

NVIDIA DGX Spark вызначыў гэтую катэгорыю. У 2026 годзе суперчып GB10 — які аб'ядноўвае ARM Grace CPU з GPU Blackwell — стварыў цэлую экасістэму. ASUS, GIGABYTE, Dell, Lenovo, HP, MSI і Supermicro ўсе выпускаюць сістэмы на аснове GB10, кожная з рознымі фарм-фактарамі, сістэмамі астуджэння і ўключаным праграмным забеспячэннем.

Экасістэма NVIDIA GB10 ASUS, GIGABYTE, Dell, Lenovo, HP, MSI і Supermicro
Ад ~13 тыс. Br
Памяць
128 ГБ
Аб'яднаная LPDDR5X
Вылічэнні
~1 ПФЛОП
Прадукцыйнасць AI FP8
Сетка
10 GbE + Wi-Fi 7
ConnectX для кластарызацыі
Захоўванне
4 ТБ SSD
NVMe
Кластарызацыя
Так (2 адзінкі)
Аб'яднаная памяць 256 ГБ
ПЗ
NVIDIA AI Enterprise
CUDA, cuDNN, TensorRT
NVIDIA DGX Spark
ASUS Ascent GX10
Gigabyte AI TOP ATOM
DGX Quantum Machines combo
MSI EdgeExpert
Lenovo ThinkStation PGX
Dell Pro Max Desktop
NVIDEA DGX Spark
Кластарызацыя:стасць 256 ГБ

Праз злучэнне двух адзінак GB10 праз спецыяльны хуткасны сеткавы порт сістэма аб'ядноўвае рэсурсы ў прастору памяці 256 ГБ. Гэта дазваляе запускаць вельмі вялікія мадэлі — сквантаваныя з 400B+ параметрамі — цалкам на вашым стале пры агульных інвестыцыях у абсталяванне прыкладна ~27 тыс. Br.

Міні-ПК AMD Ryzen AI Max (Strix Halo)

Найменшы кошт

AMD Ryzen AI Max+ Strix Halo

Архітэктура AMD Ryzen AI Max+ Strix Halo стварыла зусім новую катэгорыю бюджэтных AI-міні-ПК. Хваля вытворцаў — GMKtec, Beelink, Corsair, NIMO, Bosgame, FAVM — цяпер пастаўляе сістэмы з аб'яднанай памяццю 128 ГБ па кошце ніжэй за ~6 700 Br.

Міні-ПК AMD Ryzen AI Max GMKtec EVO-X2 · Beelink · Corsair · NIMO AI · Bosgame M5 · FAVM FA-EX9
Ад ~5 100 Br
Памяць
128 ГБ
Агульная LPDDR5 (CPU+GPU)
Вылічэнні
~0.2 ПФЛОП
Убудаваная GPU RDNA 3.5
Прапускная здольнасць
~200 ГБ/с
Прапускная здольнасць памяці
Энергаспажыванне
~100 Вт
Бязшумная праца
Кластарызацыя
Не
Толькі асобна
АС
Windows / Linux
ROCm / llama.cpp
GMKtex EVO X2
Bosgame M5 AI
NIMO AI Mini PC
Beelink Mini PC
Beelink Mini PC
Corsair AI Workstation 300 Halo
FAVM FA EX9
GMK Ryzen Strix Halo Mini PC

Apple Mac Studio (M4 Ultra)

Лідэр па ёмістасці

Mac Studio займае ўнікальнае месца ў лакальным AI-ландшафце. Аб'яднаная архітэктура памяці (UMA) ад Apple забяспечвае да 256 ГБ памяці, даступнай як для CPU, так і для GPU, у адной кампактнай настольнай адзінцы — без патрэбы ў кластарызацыі.

Гэта робіць яго адзіным даступным асобным прыладай, здольным загружаць найбуйнейшыя мадэлі з адкрытым зыходным кодам. Мадэль з 400 мільярдамі параметраў, сквантаваная да Int4, цалкам змяшчаецца ў памяці ў канфігурацыі 256 ГБ.

Apple Mac Studio (M4 Ultra) Лідэр па AI-ёмістасці ў адной адзінцы
Ад ~13 тыс. Br
Памяць
Да 256 ГБ
Аб'яднаная памяць (UMA)
Вылічэнні
~0.5 ПФЛОП
Apple Neural Engine + GPU
ПЗ
Фрэймворк MLX
Аптымізаваная інферэнцыя ад Apple
Абмежаванне
Толькі інферэнцыя
Павольна для навучання/дакладнай наладкі

Apple Mac Studio (M5 Ultra)

Перспектыўны канкурэнт

Наступнае пакаленне M5 Ultra ад Apple, чаканае ў канцы 2026 года, па чутках, вырашае галоўную слабасць M4: прадукцыйнасць навучання AI-мадэляў. Створаны па 2нм-тэхналогіі TSMC, ён, як чакаецца, прапануе канфігурацыі да 512 ГБ аб'яднанай памяці з прапускной здольнасцю больш за 1.2 ТБ/с.

Apple Mac Studio (M5 Ultra) Чаканы гігант AI-навучання
Каля ~34 тыс. Br
Памяць
Да 512 ГБ
Аб'яднаная памяць новага пакалення
Вылічэнні
~1.5+ ПФЛОП
2нм Neural Engine
ПЗ
MLX 2.0+
Натыўная падтрымка навучання
Магчымасці
Навучанне і інферэнцыя
Альтэрнатыва CUDA
Прапускная здольнасць памяці: ёмістасць 1.2 ТБ/с

512 ГБ M5 Ultra стаў бы першай спажывецкай прыладай, здольнай запускаць несквантаваныя (поўнай дакладнасці) перадавыя мадэлі. Высокая прапускная здольнасць памяці 1. ТБ/с падтрымлівае агентныя AI-працэсы, якія патрабуюць пастаяннай высокапрадукцыйнай інферэнцыі з вельмі доўгімі кантэкстнымі вокнамі.

Tiiny AI

Кішэнны суперкамп'ютар ШІ

Tiiny AI

Выпушчаны на Kickstarter у 2026 годзе за 4 000 Br, Tiiny.ai Pocket AI Computer — гэта кішэнны суперкамп'ютар з 80 ГБ памяці LGDDR5X і 1 ТБ SSD, які падтрымлівае лакальны запуск мадэляў ШІ з 120 мільярдамі параметраў у любым месцы.

Вагой 300 грам (142×22×80 мм) з харчаваннем ад стандартнага USB-C, ён падтрымлівае інавацыйныя бізнэс-прыкладанні. Tiiny AI паведамляе пра хуткасць вываду 21.14 токенаў у секунду для GPT-OSS-120B.

Tiiny Pocket AI Computer
Tiiny Pocket AI Computer
Tiiny Pocket AI Computer
Tiiny Pocket AI Computer

Tenstorrent

Абсталяванне з адкрытым зыходным кодам

Tenstorrent

Пад кіраўніцтвам легендарнага чып-архітэктара Джыма Келера, Tenstorrent увасабляе прынцыпіласофію: абсталяванне з адкрытым зыходным кодам на аснове RISC-V, праграмнае забеспячэнне з адкрытым зыходным кодам і мадульнае маштабаванне праз паслядоўнае злучэнне.

AI-ядры Tensix распрацаваны для лінейнага маштабавання: у адрозненне ад GPU, якія з цяжкасцю апрацоўваюць накладныя выдаткі на сувязь пры дабаўленні карт, чыпы Tenstorrent пабудаваны для эфектыўнай пліткавай кампаноўкі.

У партнёрстве з Razer, Tenstorrent выпусціў кампактны знешні AI-паскаральнік, які злучаецца з любым ноўтбукам ці настольным камп'ютарам праз Thunderbolt — пераўтвараючы існуючае абсталяванне ў AI-рабочую станцыю без замены чаго-небудзь.

Кампактны AI-паскаральнік Razer × Tenstorrent Знешні Thunderbolt AI-паскаральнік
Кошт Невядома
Памяць на блок
12 ГБ
GDDR6
Чып
Wormhole n150
Ядры Tensix · RISC-V
Маштабаванне
Да 4 адзінак
48 ГБ магутнасці ШІ
ПЗ
Поўнасцю адкрыты зыходны код
GitHub · TT-Metalium
Razer × Tenstorrent AI Accelerator
Razer × Tenstorrent AI Accelerator
Razer × Tenstorrent AI Accelerator
Razer × Tenstorrent AI Accelerator

Attached Storage

Захоўванне + AI

Вызначэнне NAS змянілася з пасіўнага захоўвання на актыўны інтэлект. Новае пакаленне сеткавых прылад захоўвання інтэгруе апрацоўку AI непасрэдна — ад лёгкай інферэнцыі на аснове NPU да поўнага GPU-паскоранага разгортвання LLM.

NAS з падтрымкай AI адхіляе неабходнасць у асобным AI-прыладзе і дазваляе непасрэдна апрацоўваць вялікія аб'ёмы дадзеных без затрымкі перада.

QNAP AI NAS
Ugreen DXP4800 Pro
OmniCore AI NAS
Zetlab AI NAS

Патрэбна дапамога ў выбары правільнага AI-міні-ПК для вашага бізнесу?

Нашы інжынеры могуць ацанітрабаванні да AI-апаратнага забеспячэння і разгарнуць цалкам сканфігураваную AI-сістэму.

Атрымаць бясплатную ацэнку апаратнага забеспячэння →

4 Рабочыя станцыі
AI-рабочыя станцыі і настольныя ПК 8 600 Br – 43 тыс. Br

Узровень рабочых станцый выкарыстоўвае дыскрэтныя графічныя карты PCIe і стандартныя карпусы тыпу "вежа". У адрозненне ад фіксаваных інтэграваных архітэктур узроўню міні-ПК, гэты ўзровень прапануе мадульнасць — вы можаце абнаўляць асобныя кампаненты, дадаваць больш GPU ці мяняць карты па меры развіцця тэхналогій.

Рабочая станцыя з двума RTX A6000 і мастом NVLink прапануе 96 ГБ аб'яднанага VRAM прыкладна за 20 000 Br.

Разуменне VRAM супраць хуткасці

Два канкуруючыя фактары вызначаюць выбар GPU для AI:

📦
Аб'ём VRAM
Вызначае памер мадэлі, якую вы можаце загрузіць. Больш VRAM азначае больш магутныя мадэлі. Гэта ваш інтэлектуальны столь.
Хуткасць вылічэнняў
Вызначае, як хутка мадэль рэагуе. Вышэйшая вылічальная магутнасць азначае меншую затрымку на запыт. Гэта ваш карыстацкі досвед.

Графічныя карты для гульняў (накшталт RTX 5090) максімізуюць хуткасць, але прапануюць абмежаваны VRAM — звычайна 24–32 ГБ. Прафесійныя карты (накшталт RTX PRO 6000 Blackwell) максімізуюць VRAM — да 96 ГБ на карту — але каштуюць даражэй за адзінку вылічэнняў.

VRAM з'яўляецца абмежавальным фактарам. Хуткая карта з недастатковым памяццю не можа загрузіць мадэль AI. Павольная карта з дастатковым памяццю запусціць мадэль — проста з больш доўгім чакам адказу.

Графічныя карты для гульняў

КанфігурацыяАгульны VRAMЗлучэннеАрыен. кошт
2× RTX 3090 (б/у)48 ГБNVLink8 600 Br
2× RTX 409048 ГБPCIe Gen 511 400 Br
2× RTX 509064 ГБPCIe Gen 520 000 Br

Прафесійныя GPU

КанфігурацыяАгульны VRAMЗлучэннеАрыен. кошт
2× RTX 6000 Ada96 ГБPCIe Gen 537 100 Br
1× RTX PRO 6000 Blackwell96 ГБNVLink22 800 Br
4× RTX PRO 6000 Blackwell384 ГБPCIe Gen 591 300 Br

GPU для цэнтраў апрацоўкі дадзеных

КанфігурацыяАгульны VRAMЗлучэннеАрыен. кошт
1× L40S48 ГБPCIe 4.0 (пасіўнае астуджэнне)20 000 Br
1× A100 PCIe80 ГБPCIe 4.028 500 Br
1× H200 NVL141 ГБNVLink86 000 Br
4× H200 NVL564 ГБNVLink343 000 Br
1× B200 SXM180 ГБNVLink 5 (1,8 ТБ/с)86 000 Br
8× B200 SXM1 440 ГБNVLink 5 (1,8 ТБ/с)685 000 Br

Кітайскія GPU

Кітайская ўнутраная экасістэма GPU хутка спелакалькі кітайскіх вытворцаў цяпер прапануюць GPU класа рабочых станцый для AI з канкурэнтаздольнымі характарыстыкамі і значна ніжэйшымі цанамі.

КанфігурацыяАгульны VRAMТып памяціАрыен. кошт
1× Moore Threads MTT S400048 ГБGDDR62 300 Br
4× Moore Threads MTT S4000192 ГБGDDR610 000 Br
8× Moore Threads MTT S4000384 ГБGDDR618 600 Br
1× Hygon DCU Z10032 ГБHBM27 100 Br
1× Biren BR10432 ГБHBM2e8 600 Br
8× Biren BR104256 ГБHBM2e68 500 Br
1× Huawei Ascend Atlas 300I Duo96 ГБHBM2e3 400 Br
8× Huawei Ascend Atlas 300I Duo768 ГБHBM2e28 500 Br

Хуткі выхад

КанфігурацыяАгульны VRAMСтатусАрыен. кошт
RTX 5090 128 ГБ128 ГБКітайская мад. — не стандартная SKU14 300 Br
RTX Titan AI64 ГБЧакаецца ў 20278 600 Br
4x NVIDIA RTX PRO 6000 Blackwell
4x NVIDIA RTX PRO 6000 Blackwell
MSI NVIDIA RTX PRO 6000 Blackwell Server
NVIDIA RTX 5090
NVIDIA DGX Station — вадаахаладжальная "вылічальная станцыя на стале", якая падключаецца да стандартнай разеткі.

NVIDIA DGX Station

Пік прадпрыемства

NVIDIA DGX Station — гэта вадаахаладжальная суперЭВМ на стале, якая забяспечвае магутнасць цэнтра апрацоўкі дадзеных у афісным асяроддзі. Апошняя вер выкарыстоўвае суперчып GB300 Grace Blackwell.

NVIDIA DGX Station GB300 Ультра будучага
Арыен. кошт ~570 тыс. Br

Версія Blackwell Ultra павялічвае шчыльнасць памяці і вылічальную магутнасць, распрацаваная для арганізацый, якім трэба трэніраваць уласныя мадэлі з нуля ці запускаць масіўныя архітэктуры MoE (Mixture of Experts) лакальна.

Памяць
~1,5 ТБ+
HBM3e (ультрахуткасная)
Вылічэнні
~20+ PFLOPS
Прадукцыйнасць AI FP8
Сцэнар выкарыстання
Карыстацкае навучанне
Распрацоўка мадэляў
Энергаспажыванне
Стандартная разетка
Не патрабуецца серверная
NVIDIA DGX Station GB300 Blackwell Ultra
ASUS ExpertCenter Pro DGX GB300
MSI XpertStation WS300
NVIDIA DGX Station GB300 Blackwell Ultra
NVIDIA DGX Station A100 Даступны AI-цягавік
Ад ~285 тыс. Br

Хоць і заснаваны на архітэктуры папярэдняга пакалення Ampere, ён застаецца індустрыяльным стандартам для надзейнага вываду і тонкага наладжвання. Ідэальна падыходзіць для камандаў, якія ўваходзяць у сферу>

Нягледзячы на кошт, DGX Station замены серверную стойку %1$s і звязаную з ёй сістэму ахаладжэння. Ён уключаецца ў стандартную сцяжную разетку. Гэта цалкам ліквідуе накладныя выдаткі на серверны пакой.
Калі ваш бізнэс патрабуе абслугоць шмат супрацоўнікаў адначасова, запускаць мадэлі класу foundation з поўнай дакладнасцю ці тонка наладжваць карыстальніцкія мадэлі на ўласных даных — вы пераходзіце на серверны ўзровень.
Gaudi 3 даступны ў двух форм-фактарах:
Плата PCIe (HL-338)
Стандартны форм-фактар PCIe для інтэграцыі ў існуючыя серверы. Арыентоўная цана: %1$s за плату.
OAM (Модуль паскаральніка OCP)
Стандарт OCP высокай шчыльнасці для воблачных цэнтраў апрацоўкі даных. %1$s за чып пры пакупцы наборамі па 8 чыпаў (%2$s агулам з базавай платай).
Сервер з 8 платамі Gaudi 3 забяспечвае 1 ТБ агульнай памяці ШІ пры значна ніжэйшых коштах у параўнанні з падобнай сістэмай NVIDIA H100.
Таней за падобную ўстаноўку NVIDIA H100
Плата AMD Instinct MI325X мае 256 ГБ памяці HBM3e — удвая больш, чым Intel Gaudi 3. Для дасягнення 1 ТБ агульнай памяці ШІ патрэбны толькі 4 платы, у параўнанні з 8 платамі для Intel.
Уваходны кошт з 1 платай %1$s
MI325X даражэй за сістэму, чым Gaudi 3, але хутчэй і кампактней. Для нагрузак, якія патрабуюць максімальнай прапускной здольнасці — вывад у рэжыме рэальнага часу для большай колькасці карыстальнікаў ці навучанне карыстальніцкіх мадэляў на вялікіх наборах даных — большыя інвестыцыі акупаюцца за кошт памяншэння затрымкі і спрашчэння інфраструктуры.
Ноўтбукі з чыпамі Qualcomm Snapdragon X Elite, Intel Core Ultra ці AMD Ryzen AI ўтрымліваюць спецыялізаваныя нейрапрацэсарныя блокі (NPU) — спецыялізаваныя чыпы ШІ. Яны не могуць запускаць вялікія вялікія моўныя мадэлі (LLM), але апрацоўваюць невялікія пастаянныя задачы ШІ: жывую транскрыпцыю, размыццё фону, лакальныя функцыі Recall і запуск лёгкіх мадэляў накшталт Microsoft Phi-3.
NPU ацэньваюцца ў TOPS (тэрааперацый у секунду), што вымярае аб'ём працы ШІ, які яны могуць апрацаваць. Самыя магутныя Copilot+ ПК у 2026 годзе маюць ~50 TOPS. Больш высокі TOPS азначае хутчэйшыя адказы і магчымасць апрацоўваць крыху большыя мадэлі ШІ.
Галоўная перавага лакальнага абсталявання ШІ — не прадукцыйнасць, а валоданне данымі. Калі ваш сервер ШІ працуе за вашым фаерволам, а не ў чыёй-небудзь воблаку, вашыя канфідэнцыйныя даныя ніколі не пакідаюць будынак.
Архітэктура API з паветраным разрывам фізічна ізалюе сервер ШІ ад інтэрнэту, але робіць яго даступным для аўтарызаваных супрацоўнікаў праз інтэрфейс API.
Разгледзім юрыдычную фірму, якая выкарыстоўвае мадэль 200B для аналізу кантрактаў:
1000 кантрактаў/дзень × %1$s/1K токенаў × 365 дзён. Маштабуецца лінейна з выкарыстаннем. Даныя пакідаюць сетку.
+ %1$s/месяц за электраэнергію. Неабмежаванае выкарыстанне. Даныя ніколі не пакідаюць лакальную сетку. Актыў на балансе.
Пры 1000 запытах у дзень DGX Spark акупаецца менш чым за 2 месяцы ў параўнанні з коштамі воблачных API. Пры больш высокім узроўні выкарыстання тэрмін акупальнасці скарачаецца да тыдняў.
```

Памяць
320 ГБ
4× GPU A100 па 80 ГБ
Вылічэнні
2 PFLOPS
FP16-прадукцыйнасць AI
Мультыкарыстальніцкасць
5–8 адначасова
Умераная конкурэнтнасць
Энергаспажыванне
Стандартная разетка
Не патрабуецца серверная

Нягледзячы на кошт, DGX Station замены серверную стойку ~1,0 млн. Br і звязаную з ёй сістэму ахаладжэння. Ён уключаецца ў стандартную сцяжную разетку. Гэта цалкам ліквідуе накладныя выдаткі на серверны пакой.

Патрэбна дапамога ў выбары правільнай AI-рабочай станцыі для вашага бізнесу?

Нашы інжынеры могуць ацанітрабаванні да AI-апаратнага забеспячэння і разгарнуць цалкам сканфігураваную AI-сістэму.

Атрымаць бясплатную ацэнку апаратнага забеспячэння →

5 Серверы
AI-серверы 50 тыс. Br – 570 тыс. Br

Калі ваш бізнэс патрабуе абслугоць шмат супрацоўнікаў адначасова, запускаць мадэлі класу foundation з поўнай дакладнасцю ці тонка наладжваць карыстальніцкія мадэлі на ўласных даных — вы пераходзіце на серверны ўзровень.

Гэта сфера спецыялізаваных карт паскаральнікаў AI з памяццю высокай прапускной здольнасці (HBM), спецыялізаваных міжзлучэнняў і форм-фактараў для мацавання ў стойку ці на стале. Апаратнае забеспячэнне даражэйшае, але кошт на аднаго карыстальніка рэзка зніжаецца пры маштабаванні.

Intel Gaudi 3

Найлепшы кошт пры маштабаванні

Паскаральнік Gaudi 3 ад Intel быў распрацаваны з нуля як чып для навучання і вываду AI — не пераарыентаваная графічная карта. Кожная карта забяспечвае 128 ГБ памяці HBM2e з інтэграванай сеткай Ethernet 400 Гб/с, што ліквідуе патрэбу ў асобных сеткавых адаптарах.

Gaudi 3 даступны ў двух форм-фактарах:

  • Плата PCIe (HL-338): Стандартны форм-фактар PCIe для інтэграцыі ў існуючыя серверы. Арыентоўная цана: ~40 тыс. Br за плату.
  • OAM (Модуль паскаральніка OCP): Стандарт OCP высокай шчыльнасці для воблачных цэнтраў апрацоўкі даных. 44 600 Br за чып пры пакупцы наборамі па 8 чыпаў (~421 тыс. Br агулам з базавай платай).

Сервер з 8 платамі Gaudi 3 забяспечвае 1 ТБ агульнай памяці ШІ пры значна ніжэйшых коштах у параўнанні з падобнай сістэмай NVIDIA H100.

💾
Памяць на карту
128 ГБ
HBM2e — адпавядае DGX Spark у адной карце
Агульны на 8 карт
1 ТБ
1 024 ГБ аб'яднанай памяці для самых буйных мадэляў
💰
Кошт сістэмы
~570 тыс. Br
Таней за падобную ўстаноўку NVIDIA H100
Intel Gaudi 3 Baseboard HLB 325
Intel Gaudi 3 PCI card
Dell Intel Gaudi 3 server
Gigabyte Intel Gaudi 3 server

AMD Instinct MI325X

Максімальная шчыльнасць

Плата AMD Instinct MI325X мае 256 ГБ памяці HBM3e — удвая больш, чым Intel Gaudi 3. Для дасягнення 1 ТБ агульнай памяці ШІ патрэбны толькі 4 платы, у параўнанні з 8 платамі для Intel.

💾
Агульная памяць 4 карт
1 ТБ
Удвая менш карт, чым у Intel, пры той жа ёмістасці
Прапускная здольнасць
6 ТБ/с
На карту — дазваляе адначасовых карыстальнікаў
💰
Кошт сістэмы
~670 тыс. Br
Уваходны кошт з 1 платай ~200 тыс. Br
AMD Instinct MI325X server
Supermicro AMD Instinct MI325X server
AMD Instinct MI325X server
ASUS AMD Instinct MI325X server

MI325X даражэй за сістэму, чым Gaudi 3, але хутчэй і кампактней. Для нагрузак, якія патрабуюць максімальнай прапускной здольнасці — вывад у рэжыме рэальнага часу для большай колькасці карыстальнікаў ці навучанне карыстальніцкіх мадэляў на вялікіх наборах даных — большыя інвестыцыі акупаюцца за кошт памяншэння затрымкі і спрашчэння інфраструктуры.

Huawei Ascend

Поўнастэкная альтэрнатыва

Huawei

Huawei адлюстравала поўны стэк AI-інфраструктуры: уласныя чыпы (Ascend 910B/C), прапрыетарныя міжзлучэнні (HCCS) і поўнае праграмнае асяроддзе (CANN). Вынік — самадастатовая экасістэма, якая працуе незалежна ад заходніх ланцужкоў паставак і пры значна ніжэйшым кошце, чым параўнальныя кластары NVIDIA H100.

Huawei Atlas
Huawei Ascend AI family
Huawei Atlas 300
Huawei Atlas 800i Ascend 910c

Intel Xeon 6 (Granite Rapids)

Бюджэтны сервер

Ціхая рэвалюцыя 2026 года — узыход CPU-базавага AI-вываду. Працэсары Intel Xeon 6 уключаюць AMX (Advanced Matrix Extensions), якія дазваляюць выконваць AI-задачы на стандартнай аператыўнай памяці DDR5 — што значна танней за памяць GPU.

Кампраміс

Сервер з двума сокетамі Xeon 6 можа змяшчаць ад 1 ТБ да 4 ТБ DDR5 RAM за долю кошту памяці GPU. Хуткасць вываду паволь але для пакавай апрацоўкі — дзе хуткасць неістотная, але інтэлект і ёмістасць вырашальныя — гэта рэвалюцыйна.

Прыклад: МСП загружае 100 000 адсканаваных рахункаў за ноч. Сервер Xeon 6 запускаль AI +400B для ідэальнай экстракцыі дадзеных. Задача займае 10 гадзін, але кошт апаратнага забеспячэння значна ніжэйшы, чым у GPU-сервера.

Патрэбна дапамога ў выбары правільнай AI-сервернай інфраструктуры?

Наша каманда па інфраструктуры праектуе і ўкараняе поўныя серверныя рашэнні для штучнага інтэлекту — ад Intel Gaudi да NVIDIA DGX — у спалучэнні з індывідуальным праграмным забеспячэннем, каб раскрыць магчымасці ШІ для вашага бізнесу.

Запытаць прапанову па архітэктуры сервера →

6 Edge AI
Edge AI & Рэтрафіт Абнаўленне існуючай інфраструктуры

Не кожнай малой і сярэдняй кампанітрэбны спецыялізаваны AI-сервер ці міні-ПК. Многія могуць убудаваць інтэлект у існуючую інфраструктуру — абнавіць ноўтбукі, камп'ютэры і сеткавыя прылады з магчымасцямі ШІ пры мінімальных выдатках.

M.2 AI-паскаральнікі: Hailo-10

Hailo-10 — гэта стандартны модуль M.2 2280 (той самы слот, што выкарыстоўваецца для SSD), які дадае спецыялізаваную AI-апрацоўку да любога існуючага ПК. Пры кошце ~~505 Br за адзінку і спажыванні ўсяго 5–8W энэргіі, ён дазваляе праводзіць AI-абнаўленні ва ўсёй парку без замены абсталявання.

📎
Фарм-фактар
M.2 2280
Падыходзіць для любога стандартнага SSD-слоту
Прадукцыйнасць
20–50 TOPS
Аптымізаваны для edge-вывадаў
💰
Кошт
~505 Br
За адзінку — абнаўленне парку менш чым за ~10 100 Br

Сцэнарыі выкарыстання: Лакальная транскрыпцыя сустрэч (Whisper), трансьляцыя ў рэжыме рэальнага часу, галасавы дыктат, вывад малых мадэляў (Phi-3 Mini). Гэтыя карты не могуць запускаць вялікія LLM, але выдатна спраўляюцца з канкрэтнымі, пастаяннымі задачамі ШІ — забяспечваючы лакальную апрацоўку галасавых дадзеных без іх адпраўкі ў воблака.

Copilot+ ПК (ноўтбукі з NPU)

Ноўтбукі з чыпамі Qualcomm Snapdragon X Elite, Intel Core Ultra ці AMD Ryzen AI ўтрымліваюць спецыялізаваныя нейрапрацэсарныя блокі (NPU) — спецыялізаваныя чыпы ШІ. Яны не могуць запускаць вялікія вялікія моўныя мадэлі (LLM), але апрацоўваюць невялікія пастаянныя задачы ШІ: жывую транскрыпцыю, размыццё фону, лакальныя функцыі Recall і запуск лёгкіх мадэляў накшталт Microsoft Phi-3.

NPU ацэньваюцца ў TOPS (тэрааперацый у секунду), што вымярае аб'ём працы ШІ, які яны могуць апрацаваць. Самыя магутныя Copilot+ ПК у 2026 годзе маюць ~50 TOPS. Больш высокі TOPS азначае хутчэйшыя адказы і магчымасць апрацоўваць крыху большыя мадэлі ШІ.

9 Мадэлі ШІ
Мадэлі ШІ з адкрытым зыходным кодам (2026–2027)

Выбар мадэлі ШІ вызначае патрабаванні да абсталявання — але, як паказаў раздзел Квантаванне мадэляў ШІ, квантаванне дазваляе запускаць перадавыя мадэлі на абсталяванні, якое каштуе ў некалькі разоў танней, чым патрабуе поўнадакладнае ўкараненне.

Ніжэй прыведзена табліца з аглядам бягучых і будучых мадэляў ШІ з адкрытым зыходным кодам.

МадэльПамерАрхітэктураПамяць (FP16)Памяць (INT4)
Llama 4 Behemoth288B (актыўны)MoE (~2T агульны)~4 TB~1 ТБ
Llama 4 Maverick17B (актыўны)MoE (400B агульны)~800 GB~200 GB
Llama 4 Scout17B (актыўны)MoE (109B агульны)~220 GB~55 GB
DeepSeek V4~70B (актыўны)MoE (671B агульны)~680 GB~170 GB
DeepSeek R137B (актыўны)MoE (671B агульны)~140 GB~35 GB
DeepSeek V3.2~37B (актыўны)MoE (671B агульны)~140 GB~35 GB
Kimi K2.532B (актыўны)MoE (1T агульны)~2 TB~500 GB
Qwen 3.5397B (актыўны)MoE (A17B)~1.5 TB~375 GB
Qwen 3-Max-ThinkingВялікіШчыльны~2 TB~500 GB
Qwen 3-Coder-Next(A35B актыўны)MoE~960 GB~240 GB
Mistral Large 3123B (41B актыўны)MoE (675B агульны)~246 GB~62 GB
Ministral 3 (3B, 8B, 14B)3B–14BШчыльны~6–28 GB~2–7 GB
GLM-544B (актыўны)MoE (744B агульны)~1.5 TB~370 GB
GLM-4.7 (Thinking)ВялікіШчыльны~1.5 TB~375 GB
MiMo-V2-Flash15B (актыўны)MoE (309B агульны)~30 GB~8 GB
MiniMax M2.5~10 млрд (актыўных)MoE (~230B агульны)~460 GB~115 GB
Phi-5 Reasoning14BШчыльны~28 GB~7 GB
Phi-414BШчыльны~28 GB~7 GB
Gemma 327BШчыльны~54 GB~14 GB
Pixtral 2 Large90BШчыльны~180 GB~45 GB
Stable Diffusion 4~12BDiT~24 GB~6 GB
FLUX.2 Pro15BDiT~30 GB~8 GB
Open-Sora 2.030BDiT~60 GB~15 GB
Whisper V41.5BШчыльны~3 GB~1 GB
Med-Llama 470BШчыльны~140 GB~35 GB
Legal-BERT 202635BШчыльны~70 GB~18 GB
Finance-LLM 315BШчыльны~30 GB~8 GB
CodeLlama 470BШчыльны~140 GB~35 GB
Molmo 280BШчыльны~160 GB~40 GB
Granite 4.032B (9B актыўны)Гібрыд Mamba-Transformer~64 GB~16 GB
Nemotron 38B, 70BШчыльны~16–140 GB~4–35 GB
EXAONE 4.032BШчыльны~64 GB~16 GB
Llama 5 Frontier~1.2T (агульны)MoE~2.4 TB~600 GB
Llama 5 Base70B–150BШчыльны~140–300 GB~35–75 GB
DeepSeek V5~600B (агульны)MoE~1.2 TB~300 GB
Stable Diffusion 5Ня вызначанаDiT
Falcon 3200BШчыльны~400 GB~100 GB
Стратэгічныя парады

Не купляйце абсталяванне першым чынам. Вызначыце клас мадэлі, які адпавядае вашым бізнес-патрэбам, затым прымяніце квантаванне, каб вызначыць найбольш даступны ўзровень абсталявання.

Розніца паміж інвестыцыяй у 8 600 Br і 428 200 Br часта зводзіцца да патрабаванняў да памеру мадэлі і колькасці адначасовых карыстальнікаў.

Тэндэнцыі, якія фармуюць ландшафт мадэляў ШІ

  • Натыўная мультымадальнасць як стандарт. Новыя мадэлі навучаюцца на тэксце, выявах, аўдыё і відэа адначасова — не як асобныя магчымасці, дададзеныя пасля навучання. Гэта азначае, што адна мадэль апрацоўвае аналізментаў, распазнаванне выяў і галасавое ўзаемадзеянне.
  • Маленькія мадэлі дасягаюць магчымасцяў вялікіх мадэляў. Phi-5 (14B) і MiMo-V2-Flash дэманструюць, што архітэктурныя інавацыі могуць сціскаць перадавое майстэрства ў мадэлі, якія запускаюцца на ноўтбуку. Эра "больш — значыць лепш" сканчваецца.
  • Спецыялізацыя перад генералі. Замест адной масіўнай мадэлі для ўсяго, тэндэнцыя рухаецца да ансамбляў спецыялізаваных мадэляў — мадэлі кадзіравання, мадэлі разважанняў, мадэлі распазнавання вобразаў — каардынаваных агенцкім фрэймворкам. Гэта змяншае патрабаванні да абсталявання на мадэль, паляпшаючы агульную якасць.
  • Агенцкі ШІ. Мадэлі накшталт Kimi K2.5 і Qwen 3 распрацаваны для аўтаномнага раскладання складаных задач, выкліку знешніх інструментаў і каардынацыі з іншымі мадэлямі. Гэтая парадыгма агенцкага рою патрабуе пастаяннай прапускной здольнасці падчас доўгіх сеансаў — аддаючы перавагу абсталяванню з высокай прапускной здольнасцю, такому як GB10 і M5 Ultra.
  • Стварэнне відэа і 3D-графікі становіцца больш дасканалым. Open-Sora 2.0 і FLUX.2 Pro сігналізуюць, што лакальнае стварэнне відэа становіцца практычным. Да 2027 года чакайце памочнікаў для рэдагавання відэа ў рэжыме рэальнага часу, якія працуюць на абсталяванні класа працоўных станцый.

10 Бяспека
Архітэктура для максімальнай бяспекі

Галоўная перавага лакальнага абсталявання ШІ — не прадукцыйнасць, а валоданне данымі. Калі ваш сервер ШІ працуе за вашым фаерволам, а не ў чыёй-небудзь воблаку, вашыя канфідэнцыйныя даныя ніколі не пакідаюць будынак.

Архітэктура API з паветраным разрывам фізічна ізалюе сервер ШІ ад інтэрнэту, але робіць яго даступным для аўтарызаваных супрацоўнікаў праз інтэрфейс API.

Архітэктура Air-Gapped API
👤 Супрацоўнік Стандартная працоўная станцыя
🔀 Брокер-сервер Аўтэнтыфікацыя + UI + Маршрутызацыя
🔒 AI-сервер Air-gapped · Без інтэрнэту
AI-сховішча

Гэтая архітэктура стварае лічбавы сховішча. Нават калі брокер-сервер будзе скампраметаваны, зламышленнік змог бы адпраўляць толькі тэкставыя запыты — ён не меў бы доступу да файлавай сістэмы AI-сервера, вагам мадэлі, дадзеным даапрацоўкі ці любым захаваным дакументам.

Патрэбна бяспечная AI-рэалізацыя з індывідуальнымі AI-рашэннямі?

Нашы інжынеры распрацоўваюць і ўняюць air-gapped AI-архітэктуры, забяспечваючы, што дадзеныя ніколі не пакідаюць месцазнаходжання, адначасова забяспечваючы ваш бізнэс сучаснымі магчымасцямі ШІ.

Абмеркаваць бяспечную AI-архітэктуру →

11 Эканоміка
Эканамічны вердыкт: Лакальнае vs Воблачнае

Пераход да лакальнага AI-абсталявання — гэта зрух ад OpEx (аперацыйныя выдаткі — штомесячныя платы за воблачныя API) да CapEx (капітальныя выдаткі — аднаразовая інвестыцыя ў абсталяванне, якая становіцца актывам у вашым балансе).

Разгледзім юрыдычную фірму, якая выкарыстоўвае мадэль 200B для аналізу кантрактаў:

☁️ Воблачны API
~101 тыс. Br
у год (пры маштабаванні)
1000 кантрактаў/дзень × ~0,01 EUR/1K токенаў × 365 дзён. Маштабуецца лінейна з выкарыстаннем. Даныя пакідаюць сетку.
🖥️ Лакальнае абсталяванне (DGX Spark)
~13 тыс. Br
аднаразовая інвестыцыя
+ ~51 Br/месяц за электраэнергію. Неабмежаванае выкарыстанне. Даныя ніколі не пакідаюць лакальную сетку. Актыў на балансе.

Пры 1000 запытах у дзень DGX Spark акупаецца менш чым за 2 месяцы ў параўнанні з коштамі воблачных API. Пры больш высокім узроўні выкарыстання тэрмін акупальнасці скарачаецца да тыдняў.

Эканоміка становіцца яшчэ больш спрыяльнай, калі ўлічваць:

  • Некалькі супрацоўнікаў, якія карыстаюцца адным абсталяваннем (DGX Spark абслугоўвае 2–5 адначасовых карыстальнікаў)
  • Адсутнасць цэнаўтварэння за токен — складаныя шматкрокавыя задачы на разважанне не патрабуюць дадатковых выдаткаў
  • Даапрацоўка на ўласных дадзеных — немагчыма з большасцю воблачных API, бясплатна на лакальным абсталяванні
  • Перапродажная вартасць абсталявання — AI-абсталяванне захоўвае значную вартасць на ўторачным рынку