Лакальны даведнік па AI-абсталяванні для МСП 2026–2027

NVIDIA DGX Spark — прылада памерам з кнігу, здольная запускаць мадэлі ШІ з 200 мільярдамі параметраў (400 мільярдаў пры сувязі двух) — увасабляе новую эру ўласнасці настольнага штучнага інтэлекту.

1 Аснова
Чаму лакальны AI? Бізнэс-абгрунтаванне ўласнасці

У пачатку 2020-х штучны інтэлект быў паслугай, якую вы бралі ў арэнду — па гадзіне, па токене, па API-запыце. Да 2026 года парадыгма змянілася. Абсталяванне, неабходнае для запуску інтэлекту класа GPT-4, цяпер змяшчаецца на вашым стале і каштуе танней за пад'езджаны аўтамабіль.

Працяглая залежнасць ад выключна воблачнага AI стварае стратэгічную трылему:

Павышэнне коштаў. Плата за API за токен маштабуецца лінейна з выкарыстаннем. Юрыдычная фірма, якая апрацоўвае 1000 кантрактаў у дзень, можа сутыкнуцца з ~101 тыс. Br штогадовых коштаў API.
Раскрыццё даных. Кожны запыт, адпраўлены ў воблачны API, — гэта даныя, якія пакідаюць вашу сетку і падвяргаюцца рызыкам бяспекі і прыватнасці даных.
Няздзейсненае або дарагое прыстасаванне. Воблачныя мадэлі з'яўляюцца агульнымі. Іх цяжка або неэканамічна дакладна наладжваць пад карыстацкія даныя, унутраныя бізнэс-працэсы ці бізнэс-інфармацыю.

Лакальнае AI-абсталяванне вырашае ўсе тры праблемы. Яно пераўтварае зменныя API-зборы ў нерухомы капітал, гарантуе, што даныя ніколі не пакідаюць лакальную сетку, і дазваляе глыбокае прыстасаванне праз дакладную наладку на бізнэс-даных.

2 Зніжэнне коштаў
Квантаванне: Запускайце большыя AI-мадэлі на таннейшым абсталяванні

Квантаванне — гэта канцэпцыя, якая кардынальна змяняе эканоміку лакальнага AI.

Прастымі словамі, квантаванне сціскае аб'ём памяці, які займае AI-мадэль. Стандартная мадэль захоўвае кожны параметр як 16-бітк з плаваючай коскай (FP16). Квантаванне змяншае гэта8-бітнага (Int8), 4-бітнага (Int4) ці нават ніжэй — рэзка памяншаючы аб'ём памяці, неабходны для запуску мадэлі.

Квантаванне прыводзіць да нязначнага пагаршэння якасці вываду — часта непрыкметнага для бізнэс-задач накшталт рэзюмавання, складання чарнавікоў і азу — у абмен на вялізнае зніжэнне кошту абсталявання.

Патрабаванні да памяці: 400B мадэль ШІ пры розных узроўнях дакладнасці

FP16

Поўная дакладнасць

~800 GB

Int8

Палавіна памеру

~400 GB

Int4

Чвэрць

~200 GB

FP16 — Максімальная якасць, максімальны кошт

Int8 — Амаль ідэальная якасць, палавіна кошту

Int4 — Высокая якасць, чвэрць кошту

Бізнэс-ўплыў

Мадэль 400B з поўнай дакладнасцю патрабуе ~800 ГБ памяці — інвестыцыя ў сервер ~570 тыс. Br. Тая ж мадэль, квантаваная да Int4, патрабуе толькі ~200 ГБ і можа працаваць на двух звязаных міні-ПК DGX Spark (на базе GB10 Superchip) за ~27 тыс. Br.

Суммеш экспертаў (MoE)

Суммеш экспертаў — гэта яшчэ адзін хітрык архітэктуры мадэляў ШІ, які дазваляваць велізарныя мадэлі без велізарных коштаў на памяць.

Замест выкарыстання ўсіх параметраў для кожнага запыту, мадэль MoE актывуе толькі частку сваёй магутнасці праз рэдкую актывацыю.

Мадэль MoE з 2 трыльёнамі параметраў, як Llama 4 Behemoth, актывуе толькі 288B параметраў за запыт — забяспечваючы інтэлект фронтирнага ўзроўню за частку коштаў на памяць.

Кампраміс

Мадэлі MoE крыху менш эфектыўныя ў простых задачах накшталт сціску і класіфікацыі ў параўнанні з шчыльнымі мадэлямі таго ж памеру. У ведавых задачах і разважаннях — складаны аналіз, генерацыя кода і даследаванні — мадэлі MoE вылучаюцца.

Рэдкая актывацыя прыводзіць да хутчэйшай хуткасці вываду і скарачэння часу адказу.

3 Міні-ПК
AI-міні-ПК 5 100 Br – 34 000 Br

Найбольш разбуральнае дасягненне 2026 года — высокапрадукцыйныя AI-вылічэнні ў фармаце міні-ПК. Прылады не большыя за цвёрдую вокладку кнігі цяпер запускаюць AI-мадэлі, якія два гады таму патрабавалі серверных пакояў.

Экасістэма NVIDIA GB10 (DGX Spark)

Лідэр па прадукцыйнасці

NVIDIA DGX Spark вызначыў гэтую катэгорыю. У 2026 годзе суперчып GB10 — які аб'ядноўвае ARM Grace CPU з GPU Blackwell — стварыў цэлую экасістэму. ASUS, GIGABYTE, Dell, Lenovo, HP, MSI і Supermicro ўсе выпускаюць сістэмы на аснове GB10, кожная з рознымі фарм-фактарамі, сістэмамі астуджэння і ўключаным праграмным забеспячэннем.

Экасістэма NVIDIA GB10 ASUS, GIGABYTE, Dell, Lenovo, HP, MSI і Supermicro

Ад ~13 тыс. Br

Памяць

128 ГБ

Аб'яднаная LPDDR5X

Вылічэнні

~1 ПФЛОП

Прадукцыйнасць AI FP8

Сетка

10 GbE + Wi-Fi 7

ConnectX для кластарызацыі

Захоўванне

4 ТБ SSD

NVMe

Кластарызацыя

Так (2 адзінкі)

Аб'яднаная памяць 256 ГБ

ПЗ

NVIDIA AI Enterprise

CUDA, cuDNN, TensorRT

Кластарызацыя:стасць 256 ГБ

Праз злучэнне двух адзінак GB10 праз спецыяльны хуткасны сеткавы порт сістэма аб'ядноўвае рэсурсы ў прастору памяці 256 ГБ. Гэта дазваляе запускаць вельмі вялікія мадэлі — сквантаваныя з 400B+ параметрамі — цалкам на вашым стале пры агульных інвестыцыях у абсталяванне прыкладна ~27 тыс. Br.

Міні-ПК AMD Ryzen AI Max (Strix Halo)

Найменшы кошт

Архітэктура AMD Ryzen AI Max+ Strix Halo стварыла зусім новую катэгорыю бюджэтных AI-міні-ПК. Хваля вытворцаў — GMKtec, Beelink, Corsair, NIMO, Bosgame, FAVM — цяпер пастаўляе сістэмы з аб'яднанай памяццю 128 ГБ па кошце ніжэй за ~6 700 Br.

Міні-ПК AMD Ryzen AI Max GMKtec EVO-X2 · Beelink · Corsair · NIMO AI · Bosgame M5 · FAVM FA-EX9

Ад ~5 100 Br

Памяць

128 ГБ

Агульная LPDDR5 (CPU+GPU)

Вылічэнні

~0.2 ПФЛОП

Убудаваная GPU RDNA 3.5

Прапускная здольнасць

~200 ГБ/с

Прапускная здольнасць памяці

Энергаспажыванне

~100 Вт

Бязшумная праца

Кластарызацыя

Не

Толькі асобна

АС

Windows / Linux

ROCm / llama.cpp

Apple Mac Studio (M4 Ultra)

Лідэр па ёмістасці

Mac Studio займае ўнікальнае месца ў лакальным AI-ландшафце. Аб'яднаная архітэктура памяці (UMA) ад Apple забяспечвае да 256 ГБ памяці, даступнай як для CPU, так і для GPU, у адной кампактнай настольнай адзінцы — без патрэбы ў кластарызацыі.

Гэта робіць яго адзіным даступным асобным прыладай, здольным загружаць найбуйнейшыя мадэлі з адкрытым зыходным кодам. Мадэль з 400 мільярдамі параметраў, сквантаваная да Int4, цалкам змяшчаецца ў памяці ў канфігурацыі 256 ГБ.

Apple Mac Studio (M4 Ultra) Лідэр па AI-ёмістасці ў адной адзінцы

Ад ~13 тыс. Br

Памяць

Да 256 ГБ

Аб'яднаная памяць (UMA)

Вылічэнні

~0.5 ПФЛОП

Apple Neural Engine + GPU

ПЗ

Фрэймворк MLX

Аптымізаваная інферэнцыя ад Apple

Абмежаванне

Толькі інферэнцыя

Павольна для навучання/дакладнай наладкі

Apple Mac Studio (M5 Ultra)

Перспектыўны канкурэнт

Наступнае пакаленне M5 Ultra ад Apple, чаканае ў канцы 2026 года, па чутках, вырашае галоўную слабасць M4: прадукцыйнасць навучання AI-мадэляў. Створаны па 2нм-тэхналогіі TSMC, ён, як чакаецца, прапануе канфігурацыі да 512 ГБ аб'яднанай памяці з прапускной здольнасцю больш за 1.2 ТБ/с.

Apple Mac Studio (M5 Ultra) Чаканы гігант AI-навучання

Каля ~34 тыс. Br

Памяць

Да 512 ГБ

Аб'яднаная памяць новага пакалення

Вылічэнні

~1.5+ ПФЛОП

2нм Neural Engine

ПЗ

MLX 2.0+

Натыўная падтрымка навучання

Магчымасці

Навучанне і інферэнцыя

Альтэрнатыва CUDA

Прапускная здольнасць памяці: ёмістасць 1.2 ТБ/с

512 ГБ M5 Ultra стаў бы першай спажывецкай прыладай, здольнай запускаць несквантаваныя (поўнай дакладнасці) перадавыя мадэлі. Высокая прапускная здольнасць памяці 1. ТБ/с падтрымлівае агентныя AI-працэсы, якія патрабуюць пастаяннай высокапрадукцыйнай інферэнцыі з вельмі доўгімі кантэкстнымі вокнамі.

Tiiny AI

Кішэнны суперкамп'ютар ШІ

Выпушчаны на Kickstarter у 2026 годзе за 4 000 Br, Tiiny.ai Pocket AI Computer — гэта кішэнны суперкамп'ютар з 80 ГБ памяці LGDDR5X і 1 ТБ SSD, які падтрымлівае лакальны запуск мадэляў ШІ з 120 мільярдамі параметраў у любым месцы.

Вагой 300 грам (142×22×80 мм) з харчаваннем ад стандартнага USB-C, ён падтрымлівае інавацыйныя бізнэс-прыкладанні. Tiiny AI паведамляе пра хуткасць вываду 21.14 токенаў у секунду для GPT-OSS-120B.

Tenstorrent

Абсталяванне з адкрытым зыходным кодам

Пад кіраўніцтвам легендарнага чып-архітэктара Джыма Келера, Tenstorrent увасабляе прынцыпіласофію: абсталяванне з адкрытым зыходным кодам на аснове RISC-V, праграмнае забеспячэнне з адкрытым зыходным кодам і мадульнае маштабаванне праз паслядоўнае злучэнне.

AI-ядры Tensix распрацаваны для лінейнага маштабавання: у адрозненне ад GPU, якія з цяжкасцю апрацоўваюць накладныя выдаткі на сувязь пры дабаўленні карт, чыпы Tenstorrent пабудаваны для эфектыўнай пліткавай кампаноўкі.

У партнёрстве з Razer, Tenstorrent выпусціў кампактны знешні AI-паскаральнік, які злучаецца з любым ноўтбукам ці настольным камп'ютарам праз Thunderbolt — пераўтвараючы існуючае абсталяванне ў AI-рабочую станцыю без замены чаго-небудзь.

Кампактны AI-паскаральнік Razer × Tenstorrent Знешні Thunderbolt AI-паскаральнік

Кошт Невядома

Памяць на блок

12 ГБ

GDDR6

Чып

Wormhole n150

Ядры Tensix · RISC-V

Маштабаванне

Да 4 адзінак

48 ГБ магутнасці ШІ

ПЗ

Поўнасцю адкрыты зыходны код

GitHub · TT-Metalium

Attached Storage

Захоўванне + AI

Вызначэнне NAS змянілася з пасіўнага захоўвання на актыўны інтэлект. Новае пакаленне сеткавых прылад захоўвання інтэгруе апрацоўку AI непасрэдна — ад лёгкай інферэнцыі на аснове NPU да поўнага GPU-паскоранага разгортвання LLM.

NAS з падтрымкай AI адхіляе неабходнасць у асобным AI-прыладзе і дазваляе непасрэдна апрацоўваць вялікія аб'ёмы дадзеных без затрымкі перада.

⏻

Патрэбна дапамога ў выбары правільнага AI-міні-ПК для вашага бізнесу?

Нашы інжынеры могуць ацанітрабаванні да AI-апаратнага забеспячэння і разгарнуць цалкам сканфігураваную AI-сістэму.

Атрымаць бясплатную ацэнку апаратнага забеспячэння →

4 Рабочыя станцыі
AI-рабочыя станцыі і настольныя ПК 8 600 Br – 43 тыс. Br

Узровень рабочых станцый выкарыстоўвае дыскрэтныя графічныя карты PCIe і стандартныя карпусы тыпу "вежа". У адрозненне ад фіксаваных інтэграваных архітэктур узроўню міні-ПК, гэты ўзровень прапануе мадульнасць — вы можаце абнаўляць асобныя кампаненты, дадаваць больш GPU ці мяняць карты па меры развіцця тэхналогій.

Рабочая станцыя з двума RTX A6000 і мастом NVLink прапануе 96 ГБ аб'яднанага VRAM прыкладна за 20 000 Br.

Разуменне VRAM супраць хуткасці

Два канкуруючыя фактары вызначаюць выбар GPU для AI:

📦

Аб'ём VRAM

Вызначае памер мадэлі, якую вы можаце загрузіць. Больш VRAM азначае больш магутныя мадэлі. Гэта ваш інтэлектуальны столь.

⚡

Хуткасць вылічэнняў

Вызначае, як хутка мадэль рэагуе. Вышэйшая вылічальная магутнасць азначае меншую затрымку на запыт. Гэта ваш карыстацкі досвед.

Графічныя карты для гульняў (накшталт RTX 5090) максімізуюць хуткасць, але прапануюць абмежаваны VRAM — звычайна 24–32 ГБ. Прафесійныя карты (накшталт RTX PRO 6000 Blackwell) максімізуюць VRAM — да 96 ГБ на карту — але каштуюць даражэй за адзінку вылічэнняў.

VRAM з'яўляецца абмежавальным фактарам. Хуткая карта з недастатковым памяццю не можа загрузіць мадэль AI. Павольная карта з дастатковым памяццю запусціць мадэль — проста з больш доўгім чакам адказу.

Графічныя карты для гульняў

Канфігурацыя	Агульны VRAM	Злучэнне	Арыен. кошт
2× RTX 3090 (б/у)	48 ГБ	NVLink	8 600 Br
2× RTX 4090	48 ГБ	PCIe Gen 5	11 400 Br
2× RTX 5090	64 ГБ	PCIe Gen 5	20 000 Br

Прафесійныя GPU

Канфігурацыя	Агульны VRAM	Злучэнне	Арыен. кошт
2× RTX A6000 Найлепшае суадносіны кошту	96 ГБ	NVLink	20 000 Br
2× RTX 6000 Ada	96 ГБ	PCIe Gen 5	37 100 Br
1× RTX PRO 6000 Blackwell	96 ГБ	NVLink	22 800 Br
4× RTX PRO 6000 Blackwell	384 ГБ	PCIe Gen 5	91 300 Br

GPU для цэнтраў апрацоўкі дадзеных

Канфігурацыя	Агульны VRAM	Злучэнне	Арыен. кошт
1× L40S	48 ГБ	PCIe 4.0 (пасіўнае астуджэнне)	20 000 Br
1× A100 PCIe	80 ГБ	PCIe 4.0	28 500 Br
1× H200 NVL	141 ГБ	NVLink	86 000 Br
4× H200 NVL	564 ГБ	NVLink	343 000 Br
1× B200 SXM	180 ГБ	NVLink 5 (1,8 ТБ/с)	86 000 Br
8× B200 SXM	1 440 ГБ	NVLink 5 (1,8 ТБ/с)	685 000 Br

Кітайскія GPU

Кітайская ўнутраная экасістэма GPU хутка спелакалькі кітайскіх вытворцаў цяпер прапануюць GPU класа рабочых станцый для AI з канкурэнтаздольнымі характарыстыкамі і значна ніжэйшымі цанамі.

Канфігурацыя	Агульны VRAM	Тып памяці	Арыен. кошт
1× Moore Threads MTT S4000	48 ГБ	GDDR6	2 300 Br
4× Moore Threads MTT S4000	192 ГБ	GDDR6	10 000 Br
8× Moore Threads MTT S4000	384 ГБ	GDDR6	18 600 Br
1× Hygon DCU Z100	32 ГБ	HBM2	7 100 Br
1× Biren BR104	32 ГБ	HBM2e	8 600 Br
8× Biren BR104	256 ГБ	HBM2e	68 500 Br
1× Huawei Ascend Atlas 300I Duo	96 ГБ	HBM2e	3 400 Br
8× Huawei Ascend Atlas 300I Duo	768 ГБ	HBM2e	28 500 Br

Хуткі выхад

Канфігурацыя	Агульны VRAM	Статус	Арыен. кошт
RTX 5090 128 ГБ	128 ГБ	Кітайская мад. — не стандартная SKU	14 300 Br
RTX Titan AI	64 ГБ	Чакаецца ў 2027	8 600 Br

MSI NVIDIA RTX PRO 6000 Blackwell Server

NVIDIA DGX Station

Пік прадпрыемства

NVIDIA DGX Station — гэта вадаахаладжальная суперЭВМ на стале, якая забяспечвае магутнасць цэнтра апрацоўкі дадзеных у афісным асяроддзі. Апошняя вер выкарыстоўвае суперчып GB300 Grace Blackwell.

NVIDIA DGX Station GB300 Ультра будучага

Арыен. кошт ~570 тыс. Br

Версія Blackwell Ultra павялічвае шчыльнасць памяці і вылічальную магутнасць, распрацаваная для арганізацый, якім трэба трэніраваць уласныя мадэлі з нуля ці запускаць масіўныя архітэктуры MoE (Mixture of Experts) лакальна.

Памяць

~1,5 ТБ+

HBM3e (ультрахуткасная)

Вылічэнні

~20+ PFLOPS

Прадукцыйнасць AI FP8

Сцэнар выкарыстання

Карыстацкае навучанне

Распрацоўка мадэляў

Энергаспажыванне

Стандартная разетка

Не патрабуецца серверная

NVIDIA DGX Station GB300 Blackwell Ultra

NVIDIA DGX Station A100 Даступны AI-цягавік

Ад ~285 тыс. Br

Хоць і заснаваны на архітэктуры папярэдняга пакалення Ampere, ён застаецца індустрыяльным стандартам для надзейнага вываду і тонкага наладжвання. Ідэальна падыходзіць для камандаў, якія ўваходзяць у сферу>

Нягледзячы на кошт, DGX Station замены серверную стойку %1$s і звязаную з ёй сістэму ахаладжэння. Ён уключаецца ў стандартную сцяжную разетку. Гэта цалкам ліквідуе накладныя выдаткі на серверны пакой.

Калі ваш бізнэс патрабуе абслугоць шмат супрацоўнікаў адначасова, запускаць мадэлі класу foundation з поўнай дакладнасцю ці тонка наладжваць карыстальніцкія мадэлі на ўласных даных — вы пераходзіце на серверны ўзровень.

Gaudi 3 даступны ў двух форм-фактарах:

Плата PCIe (HL-338)

Стандартны форм-фактар PCIe для інтэграцыі ў існуючыя серверы. Арыентоўная цана: %1$s за плату.

OAM (Модуль паскаральніка OCP)

Стандарт OCP высокай шчыльнасці для воблачных цэнтраў апрацоўкі даных. %1$s за чып пры пакупцы наборамі па 8 чыпаў (%2$s агулам з базавай платай).

Сервер з 8 платамі Gaudi 3 забяспечвае 1 ТБ агульнай памяці ШІ пры значна ніжэйшых коштах у параўнанні з падобнай сістэмай NVIDIA H100.

Таней за падобную ўстаноўку NVIDIA H100

Плата AMD Instinct MI325X мае 256 ГБ памяці HBM3e — удвая больш, чым Intel Gaudi 3. Для дасягнення 1 ТБ агульнай памяці ШІ патрэбны толькі 4 платы, у параўнанні з 8 платамі для Intel.

Уваходны кошт з 1 платай %1$s

MI325X даражэй за сістэму, чым Gaudi 3, але хутчэй і кампактней. Для нагрузак, якія патрабуюць максімальнай прапускной здольнасці — вывад у рэжыме рэальнага часу для большай колькасці карыстальнікаў ці навучанне карыстальніцкіх мадэляў на вялікіх наборах даных — большыя інвестыцыі акупаюцца за кошт памяншэння затрымкі і спрашчэння інфраструктуры.

Ноўтбукі з чыпамі Qualcomm Snapdragon X Elite, Intel Core Ultra ці AMD Ryzen AI ўтрымліваюць спецыялізаваныя нейрапрацэсарныя блокі (NPU) — спецыялізаваныя чыпы ШІ. Яны не могуць запускаць вялікія вялікія моўныя мадэлі (LLM), але апрацоўваюць невялікія пастаянныя задачы ШІ: жывую транскрыпцыю, размыццё фону, лакальныя функцыі Recall і запуск лёгкіх мадэляў накшталт Microsoft Phi-3.

NPU ацэньваюцца ў TOPS (тэрааперацый у секунду), што вымярае аб'ём працы ШІ, які яны могуць апрацаваць. Самыя магутныя Copilot+ ПК у 2026 годзе маюць ~50 TOPS. Больш высокі TOPS азначае хутчэйшыя адказы і магчымасць апрацоўваць крыху большыя мадэлі ШІ.

Галоўная перавага лакальнага абсталявання ШІ — не прадукцыйнасць, а валоданне данымі. Калі ваш сервер ШІ працуе за вашым фаерволам, а не ў чыёй-небудзь воблаку, вашыя канфідэнцыйныя даныя ніколі не пакідаюць будынак.

Архітэктура API з паветраным разрывам фізічна ізалюе сервер ШІ ад інтэрнэту, але робіць яго даступным для аўтарызаваных супрацоўнікаў праз інтэрфейс API.

Разгледзім юрыдычную фірму, якая выкарыстоўвае мадэль 200B для аналізу кантрактаў:

1000 кантрактаў/дзень × %1$s/1K токенаў × 365 дзён. Маштабуецца лінейна з выкарыстаннем. Даныя пакідаюць сетку.

+ %1$s/месяц за электраэнергію. Неабмежаванае выкарыстанне. Даныя ніколі не пакідаюць лакальную сетку. Актыў на балансе.

Пры 1000 запытах у дзень DGX Spark акупаецца менш чым за 2 месяцы ў параўнанні з коштамі воблачных API. Пры больш высокім узроўні выкарыстання тэрмін акупальнасці скарачаецца да тыдняў.

```

Памяць

320 ГБ

4× GPU A100 па 80 ГБ

Вылічэнні

2 PFLOPS

FP16-прадукцыйнасць AI

Мультыкарыстальніцкасць

5–8 адначасова

Умераная конкурэнтнасць

Энергаспажыванне

Стандартная разетка

Не патрабуецца серверная

Нягледзячы на кошт, DGX Station замены серверную стойку ~1,0 млн. Br і звязаную з ёй сістэму ахаладжэння. Ён уключаецца ў стандартную сцяжную разетку. Гэта цалкам ліквідуе накладныя выдаткі на серверны пакой.

⏻

Патрэбна дапамога ў выбары правільнай AI-рабочай станцыі для вашага бізнесу?

Атрымаць бясплатную ацэнку апаратнага забеспячэння →

5 Серверы
AI-серверы 50 тыс. Br – 570 тыс. Br

Гэта сфера спецыялізаваных карт паскаральнікаў AI з памяццю высокай прапускной здольнасці (HBM), спецыялізаваных міжзлучэнняў і форм-фактараў для мацавання ў стойку ці на стале. Апаратнае забеспячэнне даражэйшае, але кошт на аднаго карыстальніка рэзка зніжаецца пры маштабаванні.

Intel Gaudi 3

Найлепшы кошт пры маштабаванні

Паскаральнік Gaudi 3 ад Intel быў распрацаваны з нуля як чып для навучання і вываду AI — не пераарыентаваная графічная карта. Кожная карта забяспечвае 128 ГБ памяці HBM2e з інтэграванай сеткай Ethernet 400 Гб/с, што ліквідуе патрэбу ў асобных сеткавых адаптарах.

Gaudi 3 даступны ў двух форм-фактарах:

Плата PCIe (HL-338): Стандартны форм-фактар PCIe для інтэграцыі ў існуючыя серверы. Арыентоўная цана: ~40 тыс. Br за плату.
OAM (Модуль паскаральніка OCP): Стандарт OCP высокай шчыльнасці для воблачных цэнтраў апрацоўкі даных. 44 600 Br за чып пры пакупцы наборамі па 8 чыпаў (~421 тыс. Br агулам з базавай платай).

💾

Памяць на карту

128 ГБ

HBM2e — адпавядае DGX Spark у адной карце

⚡

Агульны на 8 карт

1 ТБ

1 024 ГБ аб'яднанай памяці для самых буйных мадэляў

💰

Кошт сістэмы

~570 тыс. Br

Таней за падобную ўстаноўку NVIDIA H100

AMD Instinct MI325X

Максімальная шчыльнасць

💾

Агульная памяць 4 карт

1 ТБ

Удвая менш карт, чым у Intel, пры той жа ёмістасці

⚡

Прапускная здольнасць

6 ТБ/с

На карту — дазваляе адначасовых карыстальнікаў

💰

Кошт сістэмы

~670 тыс. Br

Уваходны кошт з 1 платай ~200 тыс. Br

Huawei Ascend

Поўнастэкная альтэрнатыва

Huawei адлюстравала поўны стэк AI-інфраструктуры: уласныя чыпы (Ascend 910B/C), прапрыетарныя міжзлучэнні (HCCS) і поўнае праграмнае асяроддзе (CANN). Вынік — самадастатовая экасістэма, якая працуе незалежна ад заходніх ланцужкоў паставак і пры значна ніжэйшым кошце, чым параўнальныя кластары NVIDIA H100.

Intel Xeon 6 (Granite Rapids)

Бюджэтны сервер

Ціхая рэвалюцыя 2026 года — узыход CPU-базавага AI-вываду. Працэсары Intel Xeon 6 уключаюць AMX (Advanced Matrix Extensions), якія дазваляюць выконваць AI-задачы на стандартнай аператыўнай памяці DDR5 — што значна танней за памяць GPU.

Кампраміс

Сервер з двума сокетамі Xeon 6 можа змяшчаць ад 1 ТБ да 4 ТБ DDR5 RAM за долю кошту памяці GPU. Хуткасць вываду паволь але для пакавай апрацоўкі — дзе хуткасць неістотная, але інтэлект і ёмістасць вырашальныя — гэта рэвалюцыйна.

Прыклад: МСП загружае 100 000 адсканаваных рахункаў за ноч. Сервер Xeon 6 запускаль AI +400B для ідэальнай экстракцыі дадзеных. Задача займае 10 гадзін, але кошт апаратнага забеспячэння значна ніжэйшы, чым у GPU-сервера.

⏻

Патрэбна дапамога ў выбары правільнай AI-сервернай інфраструктуры?

Наша каманда па інфраструктуры праектуе і ўкараняе поўныя серверныя рашэнні для штучнага інтэлекту — ад Intel Gaudi да NVIDIA DGX — у спалучэнні з індывідуальным праграмным забеспячэннем, каб раскрыць магчымасці ШІ для вашага бізнесу.

Запытаць прапанову па архітэктуры сервера →

6 Edge AI
Edge AI & Рэтрафіт Абнаўленне існуючай інфраструктуры

Не кожнай малой і сярэдняй кампанітрэбны спецыялізаваны AI-сервер ці міні-ПК. Многія могуць убудаваць інтэлект у існуючую інфраструктуру — абнавіць ноўтбукі, камп'ютэры і сеткавыя прылады з магчымасцямі ШІ пры мінімальных выдатках.

M.2 AI-паскаральнікі: Hailo-10

Hailo-10 — гэта стандартны модуль M.2 2280 (той самы слот, што выкарыстоўваецца для SSD), які дадае спецыялізаваную AI-апрацоўку да любога існуючага ПК. Пры кошце ~~505 Br за адзінку і спажыванні ўсяго 5–8W энэргіі, ён дазваляе праводзіць AI-абнаўленні ва ўсёй парку без замены абсталявання.

📎

Фарм-фактар

M.2 2280

Падыходзіць для любога стандартнага SSD-слоту

⚡

Прадукцыйнасць

20–50 TOPS

Аптымізаваны для edge-вывадаў

💰

Кошт

~505 Br

За адзінку — абнаўленне парку менш чым за ~10 100 Br

Сцэнарыі выкарыстання: Лакальная транскрыпцыя сустрэч (Whisper), трансьляцыя ў рэжыме рэальнага часу, галасавы дыктат, вывад малых мадэляў (Phi-3 Mini). Гэтыя карты не могуць запускаць вялікія LLM, але выдатна спраўляюцца з канкрэтнымі, пастаяннымі задачамі ШІ — забяспечваючы лакальную апрацоўку галасавых дадзеных без іх адпраўкі ў воблака.

Copilot+ ПК (ноўтбукі з NPU)

9 Мадэлі ШІ
Мадэлі ШІ з адкрытым зыходным кодам (2026–2027)

Выбар мадэлі ШІ вызначае патрабаванні да абсталявання — але, як паказаў раздзел Квантаванне мадэляў ШІ, квантаванне дазваляе запускаць перадавыя мадэлі на абсталяванні, якое каштуе ў некалькі разоў танней, чым патрабуе поўнадакладнае ўкараненне.

Ніжэй прыведзена табліца з аглядам бягучых і будучых мадэляў ШІ з адкрытым зыходным кодам.

Мадэль	Памер	Архітэктура	Памяць (FP16)	Памяць (INT4)
Llama 4 Behemoth	288B (актыўны)	MoE (~2T агульны)	~4 TB	~1 ТБ
Llama 4 Maverick	17B (актыўны)	MoE (400B агульны)	~800 GB	~200 GB
Llama 4 Scout	17B (актыўны)	MoE (109B агульны)	~220 GB	~55 GB
DeepSeek V4	~70B (актыўны)	MoE (671B агульны)	~680 GB	~170 GB
DeepSeek R1	37B (актыўны)	MoE (671B агульны)	~140 GB	~35 GB
DeepSeek V3.2	~37B (актыўны)	MoE (671B агульны)	~140 GB	~35 GB
Kimi K2.5	32B (актыўны)	MoE (1T агульны)	~2 TB	~500 GB
Qwen 3.5	397B (актыўны)	MoE (A17B)	~1.5 TB	~375 GB
Qwen 3-Max-Thinking	Вялікі	Шчыльны	~2 TB	~500 GB
Qwen 3-Coder-Next	(A35B актыўны)	MoE	~960 GB	~240 GB
Mistral Large 3	123B (41B актыўны)	MoE (675B агульны)	~246 GB	~62 GB
Ministral 3 (3B, 8B, 14B)	3B–14B	Шчыльны	~6–28 GB	~2–7 GB
GLM-5	44B (актыўны)	MoE (744B агульны)	~1.5 TB	~370 GB
GLM-4.7 (Thinking)	Вялікі	Шчыльны	~1.5 TB	~375 GB
MiMo-V2-Flash	15B (актыўны)	MoE (309B агульны)	~30 GB	~8 GB
MiniMax M2.5	~10 млрд (актыўных)	MoE (~230B агульны)	~460 GB	~115 GB
Phi-5 Reasoning	14B	Шчыльны	~28 GB	~7 GB
Phi-4	14B	Шчыльны	~28 GB	~7 GB
Gemma 3	27B	Шчыльны	~54 GB	~14 GB
Pixtral 2 Large	90B	Шчыльны	~180 GB	~45 GB
Stable Diffusion 4	~12B	DiT	~24 GB	~6 GB
FLUX.2 Pro	15B	DiT	~30 GB	~8 GB
Open-Sora 2.0	30B	DiT	~60 GB	~15 GB
Whisper V4	1.5B	Шчыльны	~3 GB	~1 GB
Med-Llama 4	70B	Шчыльны	~140 GB	~35 GB
Legal-BERT 2026	35B	Шчыльны	~70 GB	~18 GB
Finance-LLM 3	15B	Шчыльны	~30 GB	~8 GB
CodeLlama 4	70B	Шчыльны	~140 GB	~35 GB
Molmo 2	80B	Шчыльны	~160 GB	~40 GB
Granite 4.0	32B (9B актыўны)	Гібрыд Mamba-Transformer	~64 GB	~16 GB
Nemotron 3	8B, 70B	Шчыльны	~16–140 GB	~4–35 GB
EXAONE 4.0	32B	Шчыльны	~64 GB	~16 GB
Llama 5 Frontier	~1.2T (агульны)	MoE	~2.4 TB	~600 GB
Llama 5 Base	70B–150B	Шчыльны	~140–300 GB	~35–75 GB
DeepSeek V5	~600B (агульны)	MoE	~1.2 TB	~300 GB
Stable Diffusion 5	Ня вызначана	DiT	—	—
Falcon 3	200B	Шчыльны	~400 GB	~100 GB

Стратэгічныя парады

Не купляйце абсталяванне першым чынам. Вызначыце клас мадэлі, які адпавядае вашым бізнес-патрэбам, затым прымяніце квантаванне, каб вызначыць найбольш даступны ўзровень абсталявання.

Розніца паміж інвестыцыяй у 8 600 Br і 428 200 Br часта зводзіцца да патрабаванняў да памеру мадэлі і колькасці адначасовых карыстальнікаў.

Тэндэнцыі, якія фармуюць ландшафт мадэляў ШІ

Натыўная мультымадальнасць як стандарт. Новыя мадэлі навучаюцца на тэксце, выявах, аўдыё і відэа адначасова — не як асобныя магчымасці, дададзеныя пасля навучання. Гэта азначае, што адна мадэль апрацоўвае аналізментаў, распазнаванне выяў і галасавое ўзаемадзеянне.
Маленькія мадэлі дасягаюць магчымасцяў вялікіх мадэляў. Phi-5 (14B) і MiMo-V2-Flash дэманструюць, што архітэктурныя інавацыі могуць сціскаць перадавое майстэрства ў мадэлі, якія запускаюцца на ноўтбуку. Эра "больш — значыць лепш" сканчваецца.
Спецыялізацыя перад генералі. Замест адной масіўнай мадэлі для ўсяго, тэндэнцыя рухаецца да ансамбляў спецыялізаваных мадэляў — мадэлі кадзіравання, мадэлі разважанняў, мадэлі распазнавання вобразаў — каардынаваных агенцкім фрэймворкам. Гэта змяншае патрабаванні да абсталявання на мадэль, паляпшаючы агульную якасць.
Агенцкі ШІ. Мадэлі накшталт Kimi K2.5 і Qwen 3 распрацаваны для аўтаномнага раскладання складаных задач, выкліку знешніх інструментаў і каардынацыі з іншымі мадэлямі. Гэтая парадыгма агенцкага рою патрабуе пастаяннай прапускной здольнасці падчас доўгіх сеансаў — аддаючы перавагу абсталяванню з высокай прапускной здольнасцю, такому як GB10 і M5 Ultra.
Стварэнне відэа і 3D-графікі становіцца больш дасканалым. Open-Sora 2.0 і FLUX.2 Pro сігналізуюць, што лакальнае стварэнне відэа становіцца практычным. Да 2027 года чакайце памочнікаў для рэдагавання відэа ў рэжыме рэальнага часу, якія працуюць на абсталяванні класа працоўных станцый.

10 Бяспека
Архітэктура для максімальнай бяспекі

Архітэктура Air-Gapped API

👤 Супрацоўнік Стандартная працоўная станцыя

→

🔀 Брокер-сервер Аўтэнтыфікацыя + UI + Маршрутызацыя

⟶

🔒 AI-сервер Air-gapped · Без інтэрнэту

AI-сховішча

Гэтая архітэктура стварае лічбавы сховішча. Нават калі брокер-сервер будзе скампраметаваны, зламышленнік змог бы адпраўляць толькі тэкставыя запыты — ён не меў бы доступу да файлавай сістэмы AI-сервера, вагам мадэлі, дадзеным даапрацоўкі ці любым захаваным дакументам.

⏻

Патрэбна бяспечная AI-рэалізацыя з індывідуальнымі AI-рашэннямі?

Нашы інжынеры распрацоўваюць і ўняюць air-gapped AI-архітэктуры, забяспечваючы, што дадзеныя ніколі не пакідаюць месцазнаходжання, адначасова забяспечваючы ваш бізнэс сучаснымі магчымасцямі ШІ.

Абмеркаваць бяспечную AI-архітэктуру →

11 Эканоміка
Эканамічны вердыкт: Лакальнае vs Воблачнае

Пераход да лакальнага AI-абсталявання — гэта зрух ад OpEx (аперацыйныя выдаткі — штомесячныя платы за воблачныя API) да CapEx (капітальныя выдаткі — аднаразовая інвестыцыя ў абсталяванне, якая становіцца актывам у вашым балансе).

Разгледзім юрыдычную фірму, якая выкарыстоўвае мадэль 200B для аналізу кантрактаў:

☁️ Воблачны API

~101 тыс. Br

у год (пры маштабаванні)

1000 кантрактаў/дзень × ~0,01 EUR/1K токенаў × 365 дзён. Маштабуецца лінейна з выкарыстаннем. Даныя пакідаюць сетку.

🖥️ Лакальнае абсталяванне (DGX Spark)

~13 тыс. Br

аднаразовая інвестыцыя

+ ~51 Br/месяц за электраэнергію. Неабмежаванае выкарыстанне. Даныя ніколі не пакідаюць лакальную сетку. Актыў на балансе.

Эканоміка становіцца яшчэ больш спрыяльнай, калі ўлічваць:

Некалькі супрацоўнікаў, якія карыстаюцца адным абсталяваннем (DGX Spark абслугоўвае 2–5 адначасовых карыстальнікаў)
Адсутнасць цэнаўтварэння за токен — складаныя шматкрокавыя задачы на разважанне не патрабуюць дадатковых выдаткаў
Даапрацоўка на ўласных дадзеных — немагчыма з большасцю воблачных API, бясплатна на лакальным абсталяванні
Перапродажная вартасць абсталявання — AI-абсталяванне захоўвае значную вартасць на ўторачным рынку

Поўны даведнік па лакальным AI-абсталяванні для МСП

1 Аснова
Чаму лакальны AI? Бізнэс-абгрунтаванне ўласнасці

2 Зніжэнне коштаў
Квантаванне: Запускайце большыя AI-мадэлі на таннейшым абсталяванні

Суммеш экспертаў (MoE)

3 Міні-ПК
AI-міні-ПК 5 100 Br – 34 000 Br

Экасістэма NVIDIA GB10 (DGX Spark)

Міні-ПК AMD Ryzen AI Max (Strix Halo)

Apple Mac Studio (M4 Ultra)

Apple Mac Studio (M5 Ultra)

Tiiny AI

Tenstorrent

Attached Storage

Патрэбна дапамога ў выбары правільнага AI-міні-ПК для вашага бізнесу?

4 Рабочыя станцыі
AI-рабочыя станцыі і настольныя ПК 8 600 Br – 43 тыс. Br

Разуменне VRAM супраць хуткасці

Графічныя карты для гульняў

Прафесійныя GPU

GPU для цэнтраў апрацоўкі дадзеных

Кітайскія GPU

Хуткі выхад

NVIDIA DGX Station

Патрэбна дапамога ў выбары правільнай AI-рабочай станцыі для вашага бізнесу?

5 Серверы
AI-серверы 50 тыс. Br – 570 тыс. Br

Intel Gaudi 3

AMD Instinct MI325X

Huawei Ascend

Intel Xeon 6 (Granite Rapids)

Патрэбна дапамога ў выбары правільнай AI-сервернай інфраструктуры?

6 Edge AI
Edge AI & Рэтрафіт Абнаўленне існуючай інфраструктуры

M.2 AI-паскаральнікі: Hailo-10

Copilot+ ПК (ноўтбукі з NPU)

9 Мадэлі ШІ
Мадэлі ШІ з адкрытым зыходным кодам (2026–2027)

Тэндэнцыі, якія фармуюць ландшафт мадэляў ШІ

10 Бяспека
Архітэктура для максімальнай бяспекі

Патрэбна бяспечная AI-рэалізацыя з індывідуальнымі AI-рашэннямі?

11 Эканоміка
Эканамічны вердыкт: Лакальнае vs Воблачнае

Уключыце інтэлект УКЛ для вашага бізнесу

Поўны даведнік па лакальным AI-абсталяванні для МСП

1 АсноваЧаму лакальны AI? Бізнэс-абгрунтаванне ўласнасці

2 Зніжэнне коштаўКвантаванне: Запускайце большыя AI-мадэлі на таннейшым абсталяванні

Суммеш экспертаў (MoE)

3 Міні-ПКAI-міні-ПК 5 100 Br – 34 000 Br

Экасістэма NVIDIA GB10 (DGX Spark)

Міні-ПК AMD Ryzen AI Max (Strix Halo)

Apple Mac Studio (M4 Ultra)

Apple Mac Studio (M5 Ultra)

Tiiny AI

Tenstorrent

Attached Storage

Патрэбна дапамога ў выбары правільнага AI-міні-ПК для вашага бізнесу?

4 Рабочыя станцыіAI-рабочыя станцыі і настольныя ПК 8 600 Br – 43 тыс. Br

Разуменне VRAM супраць хуткасці

Графічныя карты для гульняў

Прафесійныя GPU

GPU для цэнтраў апрацоўкі дадзеных

Кітайскія GPU

Хуткі выхад

NVIDIA DGX Station

Патрэбна дапамога ў выбары правільнай AI-рабочай станцыі для вашага бізнесу?

5 СерверыAI-серверы 50 тыс. Br – 570 тыс. Br

Intel Gaudi 3

AMD Instinct MI325X

Huawei Ascend

Intel Xeon 6 (Granite Rapids)

Патрэбна дапамога ў выбары правільнай AI-сервернай інфраструктуры?

6 Edge AIEdge AI & Рэтрафіт Абнаўленне існуючай інфраструктуры

M.2 AI-паскаральнікі: Hailo-10

Copilot+ ПК (ноўтбукі з NPU)

9 Мадэлі ШІМадэлі ШІ з адкрытым зыходным кодам (2026–2027)

Тэндэнцыі, якія фармуюць ландшафт мадэляў ШІ

10 БяспекаАрхітэктура для максімальнай бяспекі

Патрэбна бяспечная AI-рэалізацыя з індывідуальнымі AI-рашэннямі?

11 ЭканомікаЭканамічны вердыкт: Лакальнае vs Воблачнае

Уключыце інтэлект УКЛ для вашага бізнесу

1 Аснова
Чаму лакальны AI? Бізнэс-абгрунтаванне ўласнасці

2 Зніжэнне коштаў
Квантаванне: Запускайце большыя AI-мадэлі на таннейшым абсталяванні

3 Міні-ПК
AI-міні-ПК 5 100 Br – 34 000 Br

4 Рабочыя станцыі
AI-рабочыя станцыі і настольныя ПК 8 600 Br – 43 тыс. Br

5 Серверы
AI-серверы 50 тыс. Br – 570 тыс. Br

6 Edge AI
Edge AI & Рэтрафіт Абнаўленне існуючай інфраструктуры

9 Мадэлі ШІ
Мадэлі ШІ з адкрытым зыходным кодам (2026–2027)

10 Бяспека
Архітэктура для максімальнай бяспекі

11 Эканоміка
Эканамічны вердыкт: Лакальнае vs Воблачнае