1 Аснова
Чаму лакальны AI? Бізнэс-абгрунтаванне ўласнасці
У пачатку 2020-х штучны інтэлект быў паслугай, якую вы бралі ў арэнду — па гадзіне, па токене, па API-запыце. Да 2026 года парадыгма змянілася. Абсталяванне, неабходнае для запуску інтэлекту класа GPT-4
, цяпер змяшчаецца на вашым стале і каштуе танней за пад'езджаны аўтамабіль.
Працяглая залежнасць ад выключна воблачнага AI стварае стратэгічную трылему:
- Павышэнне коштаў. Плата за API за токен маштабуецца лінейна з выкарыстаннем. Юрыдычная фірма, якая апрацоўвае 1000 кантрактаў у дзень, можа сутыкнуцца з ~101 тыс. Br штогадовых коштаў API.
- Раскрыццё даных. Кожны запыт, адпраўлены ў воблачны API, — гэта даныя, якія пакідаюць вашу сетку і падвяргаюцца рызыкам бяспекі і прыватнасці даных.
- Няздзейсненае або дарагое прыстасаванне. Воблачныя мадэлі з'яўляюцца агульнымі. Іх цяжка або неэканамічна дакладна наладжваць пад карыстацкія даныя, унутраныя бізнэс-працэсы ці бізнэс-інфармацыю.
Лакальнае AI-абсталяванне вырашае ўсе тры праблемы. Яно пераўтварае зменныя API-зборы ў нерухомы капітал, гарантуе, што даныя ніколі не пакідаюць лакальную сетку, і дазваляе глыбокае прыстасаванне праз дакладную наладку на бізнэс-даных.
2 Зніжэнне коштаў
Квантаванне: Запускайце большыя AI-мадэлі на таннейшым абсталяванні
Квантаванне — гэта канцэпцыя, якая кардынальна змяняе эканоміку лакальнага AI.
Прастымі словамі, квантаванне сціскае аб'ём памяці, які займае AI-мадэль. Стандартная мадэль захоўвае кожны параметр як 16-бітк з плаваючай коскай (FP16). Квантаванне змяншае гэта8-бітнага (Int8), 4-бітнага (Int4) ці нават ніжэй — рэзка памяншаючы аб'ём памяці, неабходны для запуску мадэлі.
Квантаванне прыводзіць да нязначнага пагаршэння якасці вываду — часта непрыкметнага для бізнэс-задач накшталт рэзюмавання, складання чарнавікоў і азу — у абмен на вялізнае зніжэнне кошту абсталявання.
Мадэль 400B з поўнай дакладнасцю патрабуе ~800 ГБ памяці — інвестыцыя ў сервер ~570 тыс. Br. Тая ж мадэль, квантаваная да Int4, патрабуе толькі ~200 ГБ і можа працаваць на двух звязаных міні-ПК DGX Spark (на базе GB10 Superchip) за ~27 тыс. Br.
Суммеш экспертаў (MoE)
Суммеш экспертаў — гэта яшчэ адзін хітрык архітэктуры мадэляў ШІ, які дазваляваць велізарныя мадэлі без велізарных коштаў на памяць.
Замест выкарыстання ўсіх параметраў для кожнага запыту, мадэль MoE актывуе толькі частку сваёй магутнасці праз рэдкую актывацыю.
Мадэль MoE з 2 трыльёнамі параметраў, як Llama 4 Behemoth, актывуе толькі 288B параметраў за запыт — забяспечваючы інтэлект фронтирнага ўзроўню за частку коштаў на памяць.
Мадэлі MoE крыху менш эфектыўныя ў простых задачах накшталт сціску і класіфікацыі ў параўнанні з шчыльнымі мадэлямі таго ж памеру. У ведавых задачах і разважаннях — складаны аналіз, генерацыя кода і даследаванні — мадэлі MoE вылучаюцца.
Рэдкая актывацыя прыводзіць да хутчэйшай хуткасці вываду і скарачэння часу адказу.
3 Міні-ПК
AI-міні-ПК 5 100 Br – 34 000 Br
Найбольш разбуральнае дасягненне 2026 года — высокапрадукцыйныя AI-вылічэнні ў фармаце міні-ПК. Прылады не большыя за цвёрдую вокладку кнігі цяпер запускаюць AI-мадэлі, якія два гады таму патрабавалі серверных пакояў.
Экасістэма NVIDIA GB10 (DGX Spark)
Лідэр па прадукцыйнасці
NVIDIA DGX Spark вызначыў гэтую катэгорыю. У 2026 годзе суперчып GB10 — які аб'ядноўвае ARM Grace CPU з GPU Blackwell — стварыў цэлую экасістэму. ASUS, GIGABYTE, Dell, Lenovo, HP, MSI і Supermicro ўсе выпускаюць сістэмы на аснове GB10, кожная з рознымі фарм-фактарамі, сістэмамі астуджэння і ўключаным праграмным забеспячэннем.
Праз злучэнне двух адзінак GB10 праз спецыяльны хуткасны сеткавы порт сістэма аб'ядноўвае рэсурсы ў прастору памяці 256 ГБ. Гэта дазваляе запускаць вельмі вялікія мадэлі — сквантаваныя з 400B+ параметрамі — цалкам на вашым стале пры агульных інвестыцыях у абсталяванне прыкладна ~27 тыс. Br.
Міні-ПК AMD Ryzen AI Max (Strix Halo)
Найменшы кошт
Архітэктура AMD Ryzen AI Max+ Strix Halo
стварыла зусім новую катэгорыю бюджэтных AI-міні-ПК. Хваля вытворцаў — GMKtec, Beelink, Corsair, NIMO, Bosgame, FAVM — цяпер пастаўляе сістэмы з аб'яднанай памяццю 128 ГБ па кошце ніжэй за ~6 700 Br.
Apple Mac Studio (M4 Ultra)
Лідэр па ёмістасці
Mac Studio займае ўнікальнае месца ў лакальным AI-ландшафце. Аб'яднаная архітэктура памяці (UMA) ад Apple забяспечвае да 256 ГБ памяці, даступнай як для CPU, так і для GPU, у адной кампактнай настольнай адзінцы — без патрэбы ў кластарызацыі.
Гэта робіць яго адзіным даступным
асобным прыладай, здольным загружаць найбуйнейшыя мадэлі з адкрытым зыходным кодам. Мадэль з 400 мільярдамі параметраў, сквантаваная да Int4, цалкам змяшчаецца ў памяці ў канфігурацыі 256 ГБ.
Apple Mac Studio (M5 Ultra)
Перспектыўны канкурэнт
Наступнае пакаленне M5 Ultra ад Apple, чаканае ў канцы 2026 года, па чутках, вырашае галоўную слабасць M4: прадукцыйнасць навучання AI-мадэляў. Створаны па 2нм-тэхналогіі TSMC, ён, як чакаецца, прапануе канфігурацыі да 512 ГБ аб'яднанай памяці з прапускной здольнасцю больш за 1.2 ТБ/с.
512 ГБ M5 Ultra стаў бы першай спажывецкай прыладай, здольнай запускаць несквантаваныя (поўнай дакладнасці) перадавыя мадэлі. Высокая прапускная здольнасць памяці 1. ТБ/с падтрымлівае агентныя AI-працэсы, якія патрабуюць пастаяннай высокапрадукцыйнай інферэнцыі з вельмі доўгімі кантэкстнымі вокнамі.
Tiiny AI
Кішэнны суперкамп'ютар ШІ
Выпушчаны на Kickstarter у 2026 годзе за 4 000 Br, Tiiny.ai Pocket AI Computer — гэта кішэнны суперкамп'ютар з 80 ГБ памяці LGDDR5X і 1 ТБ SSD, які падтрымлівае лакальны запуск мадэляў ШІ з 120 мільярдамі параметраў у любым месцы.
Вагой 300 грам (142×22×80 мм) з харчаваннем ад стандартнага USB-C, ён падтрымлівае інавацыйныя бізнэс-прыкладанні. Tiiny AI паведамляе пра хуткасць вываду 21.14 токенаў у секунду для GPT-OSS-120B.
Tenstorrent
Абсталяванне з адкрытым зыходным кодам
Пад кіраўніцтвам легендарнага чып-архітэктара Джыма Келера, Tenstorrent увасабляе прынцыпіласофію: абсталяванне з адкрытым зыходным кодам на аснове RISC-V, праграмнае забеспячэнне з адкрытым зыходным кодам і мадульнае маштабаванне праз паслядоўнае злучэнне.
AI-ядры Tensix
распрацаваны для лінейнага маштабавання: у адрозненне ад GPU, якія з цяжкасцю апрацоўваюць накладныя выдаткі на сувязь пры дабаўленні карт, чыпы Tenstorrent пабудаваны для эфектыўнай пліткавай кампаноўкі.
У партнёрстве з Razer, Tenstorrent выпусціў кампактны знешні AI-паскаральнік, які злучаецца з любым ноўтбукам ці настольным камп'ютарам праз Thunderbolt — пераўтвараючы існуючае абсталяванне ў AI-рабочую станцыю без замены чаго-небудзь.
Attached Storage
Захоўванне + AI
Вызначэнне NAS змянілася з пасіўнага захоўвання на актыўны інтэлект. Новае пакаленне сеткавых прылад захоўвання інтэгруе апрацоўку AI непасрэдна — ад лёгкай інферэнцыі на аснове NPU да поўнага GPU-паскоранага разгортвання LLM.
NAS з падтрымкай AI адхіляе неабходнасць у асобным AI-прыладзе і дазваляе непасрэдна апрацоўваць вялікія аб'ёмы дадзеных без затрымкі перада.
Патрэбна дапамога ў выбары правільнага AI-міні-ПК для вашага бізнесу?
Нашы інжынеры могуць ацанітрабаванні да AI-апаратнага забеспячэння і разгарнуць цалкам сканфігураваную AI-сістэму.
Атрымаць бясплатную ацэнку апаратнага забеспячэння →4 Рабочыя станцыі
AI-рабочыя станцыі і настольныя ПК 8 600 Br – 43 тыс. Br
Узровень рабочых станцый выкарыстоўвае дыскрэтныя графічныя карты PCIe і стандартныя карпусы тыпу "вежа". У адрозненне ад фіксаваных інтэграваных архітэктур узроўню міні-ПК, гэты ўзровень прапануе мадульнасць — вы можаце абнаўляць асобныя кампаненты, дадаваць больш GPU ці мяняць карты па меры развіцця тэхналогій.
Разуменне VRAM супраць хуткасці
Два канкуруючыя фактары вызначаюць выбар GPU для AI:
Графічныя карты для гульняў (накшталт RTX 5090) максімізуюць хуткасць, але прапануюць абмежаваны VRAM — звычайна 24–32 ГБ. Прафесійныя карты (накшталт RTX PRO 6000 Blackwell) максімізуюць VRAM — да 96 ГБ на карту — але каштуюць даражэй за адзінку вылічэнняў.
VRAM з'яўляецца абмежавальным фактарам. Хуткая карта з недастатковым памяццю не можа загрузіць мадэль AI. Павольная карта з дастатковым памяццю запусціць мадэль — проста з больш доўгім чакам адказу.
Графічныя карты для гульняў
| Канфігурацыя | Агульны VRAM | Злучэнне | Арыен. кошт |
|---|---|---|---|
| 2× RTX 3090 (б/у) | 48 ГБ | NVLink | 8 600 Br |
| 2× RTX 4090 | 48 ГБ | PCIe Gen 5 | 11 400 Br |
| 2× RTX 5090 | 64 ГБ | PCIe Gen 5 | 20 000 Br |
Прафесійныя GPU
| Канфігурацыя | Агульны VRAM | Злучэнне | Арыен. кошт |
|---|---|---|---|
| 2× RTX A6000 Найлепшае суадносіны кошту | 96 ГБ | NVLink | 20 000 Br |
| 2× RTX 6000 Ada | 96 ГБ | PCIe Gen 5 | 37 100 Br |
| 1× RTX PRO 6000 Blackwell | 96 ГБ | NVLink | 22 800 Br |
| 4× RTX PRO 6000 Blackwell | 384 ГБ | PCIe Gen 5 | 91 300 Br |
GPU для цэнтраў апрацоўкі дадзеных
| Канфігурацыя | Агульны VRAM | Злучэнне | Арыен. кошт |
|---|---|---|---|
| 1× L40S | 48 ГБ | PCIe 4.0 (пасіўнае астуджэнне) | 20 000 Br |
| 1× A100 PCIe | 80 ГБ | PCIe 4.0 | 28 500 Br |
| 1× H200 NVL | 141 ГБ | NVLink | 86 000 Br |
| 4× H200 NVL | 564 ГБ | NVLink | 343 000 Br |
| 1× B200 SXM | 180 ГБ | NVLink 5 (1,8 ТБ/с) | 86 000 Br |
| 8× B200 SXM | 1 440 ГБ | NVLink 5 (1,8 ТБ/с) | 685 000 Br |
Кітайскія GPU
Кітайская ўнутраная экасістэма GPU хутка спелакалькі кітайскіх вытворцаў цяпер прапануюць GPU класа рабочых станцый для AI з канкурэнтаздольнымі характарыстыкамі і значна ніжэйшымі цанамі.
| Канфігурацыя | Агульны VRAM | Тып памяці | Арыен. кошт |
|---|---|---|---|
| 1× Moore Threads MTT S4000 | 48 ГБ | GDDR6 | 2 300 Br |
| 4× Moore Threads MTT S4000 | 192 ГБ | GDDR6 | 10 000 Br |
| 8× Moore Threads MTT S4000 | 384 ГБ | GDDR6 | 18 600 Br |
| 1× Hygon DCU Z100 | 32 ГБ | HBM2 | 7 100 Br |
| 1× Biren BR104 | 32 ГБ | HBM2e | 8 600 Br |
| 8× Biren BR104 | 256 ГБ | HBM2e | 68 500 Br |
| 1× Huawei Ascend Atlas 300I Duo | 96 ГБ | HBM2e | 3 400 Br |
| 8× Huawei Ascend Atlas 300I Duo | 768 ГБ | HBM2e | 28 500 Br |
Хуткі выхад
| Канфігурацыя | Агульны VRAM | Статус | Арыен. кошт |
|---|---|---|---|
| RTX 5090 128 ГБ | 128 ГБ | Кітайская мад. — не стандартная SKU | 14 300 Br |
| RTX Titan AI | 64 ГБ | Чакаецца ў 2027 | 8 600 Br |
NVIDIA DGX Station
Пік прадпрыемства
NVIDIA DGX Station — гэта вадаахаладжальная суперЭВМ
на стале, якая забяспечвае магутнасць цэнтра апрацоўкі дадзеных у афісным асяроддзі. Апошняя вер выкарыстоўвае суперчып GB300 Grace Blackwell.
Версія Blackwell Ultra
павялічвае шчыльнасць памяці і вылічальную магутнасць, распрацаваная для арганізацый, якім трэба трэніраваць уласныя мадэлі з нуля ці запускаць масіўныя архітэктуры MoE (Mixture of Experts) лакальна.
Хоць і заснаваны на архітэктуры папярэдняга пакалення Ampere, ён застаецца індустрыяльным стандартам для надзейнага вываду і тонкага наладжвання. Ідэальна падыходзіць для камандаў, якія ўваходзяць у сферу>
серверны пакой.
Recallі запуск лёгкіх мадэляў накшталт Microsoft Phi-3.
Нягледзячы на кошт, DGX Station замены серверную стойку ~1,0 млн. Br і звязаную з ёй сістэму ахаладжэння. Ён уключаецца ў стандартную сцяжную разетку. Гэта цалкам ліквідуе накладныя выдаткі на серверны пакой
.
Патрэбна дапамога ў выбары правільнай AI-рабочай станцыі для вашага бізнесу?
Нашы інжынеры могуць ацанітрабаванні да AI-апаратнага забеспячэння і разгарнуць цалкам сканфігураваную AI-сістэму.
Атрымаць бясплатную ацэнку апаратнага забеспячэння →5 Серверы
AI-серверы 50 тыс. Br – 570 тыс. Br
Калі ваш бізнэс патрабуе абслугоць шмат супрацоўнікаў адначасова, запускаць мадэлі класу foundation з поўнай дакладнасцю ці тонка наладжваць карыстальніцкія мадэлі на ўласных даных — вы пераходзіце на серверны ўзровень.
Гэта сфера спецыялізаваных карт паскаральнікаў AI з памяццю высокай прапускной здольнасці (HBM), спецыялізаваных міжзлучэнняў і форм-фактараў для мацавання ў стойку ці на стале. Апаратнае забеспячэнне даражэйшае, але кошт на аднаго карыстальніка рэзка зніжаецца пры маштабаванні.
Intel Gaudi 3
Найлепшы кошт пры маштабаванні
Паскаральнік Gaudi 3 ад Intel быў распрацаваны з нуля як чып для навучання і вываду AI — не пераарыентаваная графічная карта. Кожная карта забяспечвае 128 ГБ памяці HBM2e з інтэграванай сеткай Ethernet 400 Гб/с, што ліквідуе патрэбу ў асобных сеткавых адаптарах.
Gaudi 3 даступны ў двух форм-фактарах:
- Плата PCIe (HL-338): Стандартны форм-фактар PCIe для інтэграцыі ў існуючыя серверы. Арыентоўная цана: ~40 тыс. Br за плату.
- OAM (Модуль паскаральніка OCP): Стандарт OCP высокай шчыльнасці для воблачных цэнтраў апрацоўкі даных. 44 600 Br за чып пры пакупцы наборамі па 8 чыпаў (~421 тыс. Br агулам з базавай платай).
Сервер з 8 платамі Gaudi 3 забяспечвае 1 ТБ агульнай памяці ШІ пры значна ніжэйшых коштах у параўнанні з падобнай сістэмай NVIDIA H100.
AMD Instinct MI325X
Максімальная шчыльнасць
Плата AMD Instinct MI325X мае 256 ГБ памяці HBM3e — удвая больш, чым Intel Gaudi 3. Для дасягнення 1 ТБ агульнай памяці ШІ патрэбны толькі 4 платы, у параўнанні з 8 платамі для Intel.
MI325X даражэй за сістэму, чым Gaudi 3, але хутчэй і кампактней. Для нагрузак, якія патрабуюць максімальнай прапускной здольнасці — вывад у рэжыме рэальнага часу для большай колькасці карыстальнікаў ці навучанне карыстальніцкіх мадэляў на вялікіх наборах даных — большыя інвестыцыі акупаюцца за кошт памяншэння затрымкі і спрашчэння інфраструктуры.
Huawei Ascend
Поўнастэкная альтэрнатыва
Huawei адлюстравала поўны стэк AI-інфраструктуры: уласныя чыпы (Ascend 910B/C), прапрыетарныя міжзлучэнні (HCCS) і поўнае праграмнае асяроддзе (CANN). Вынік — самадастатовая экасістэма, якая працуе незалежна ад заходніх ланцужкоў паставак і пры значна ніжэйшым кошце, чым параўнальныя кластары NVIDIA H100.
Intel Xeon 6 (Granite Rapids)
Бюджэтны сервер
Ціхая рэвалюцыя 2026 года — узыход CPU-базавага AI-вываду. Працэсары Intel Xeon 6 уключаюць AMX (Advanced Matrix Extensions), якія дазваляюць выконваць AI-задачы на стандартнай аператыўнай памяці DDR5 — што значна танней за памяць GPU.
Сервер з двума сокетамі Xeon 6 можа змяшчаць ад 1 ТБ да 4 ТБ DDR5 RAM за долю кошту памяці GPU. Хуткасць вываду паволь але для пакавай апрацоўкі — дзе хуткасць неістотная, але інтэлект і ёмістасць вырашальныя — гэта рэвалюцыйна.
Прыклад: МСП загружае 100 000 адсканаваных рахункаў за ноч. Сервер Xeon 6 запускаль AI +400B для ідэальнай экстракцыі дадзеных. Задача займае 10 гадзін, але кошт апаратнага забеспячэння значна ніжэйшы, чым у GPU-сервера.
Патрэбна дапамога ў выбары правільнай AI-сервернай інфраструктуры?
Наша каманда па інфраструктуры праектуе і ўкараняе поўныя серверныя рашэнні для штучнага інтэлекту — ад Intel Gaudi да NVIDIA DGX — у спалучэнні з індывідуальным праграмным забеспячэннем, каб раскрыць магчымасці ШІ для вашага бізнесу.
Запытаць прапанову па архітэктуры сервера →6 Edge AI
Edge AI & Рэтрафіт Абнаўленне існуючай інфраструктуры
Не кожнай малой і сярэдняй кампанітрэбны спецыялізаваны AI-сервер ці міні-ПК. Многія могуць убудаваць інтэлект у існуючую інфраструктуру — абнавіць ноўтбукі, камп'ютэры і сеткавыя прылады з магчымасцямі ШІ пры мінімальных выдатках.
M.2 AI-паскаральнікі: Hailo-10
Hailo-10 — гэта стандартны модуль M.2 2280 (той самы слот, што выкарыстоўваецца для SSD), які дадае спецыялізаваную AI-апрацоўку да любога існуючага ПК. Пры кошце ~~505 Br за адзінку і спажыванні ўсяго 5–8W энэргіі, ён дазваляе праводзіць AI-абнаўленні ва ўсёй парку без замены абсталявання.
Сцэнарыі выкарыстання: Лакальная транскрыпцыя сустрэч (Whisper), трансьляцыя ў рэжыме рэальнага часу, галасавы дыктат, вывад малых мадэляў (Phi-3 Mini). Гэтыя карты не могуць запускаць вялікія LLM, але выдатна спраўляюцца з канкрэтнымі, пастаяннымі задачамі ШІ — забяспечваючы лакальную апрацоўку галасавых дадзеных без іх адпраўкі ў воблака.
Copilot+ ПК (ноўтбукі з NPU)
Ноўтбукі з чыпамі Qualcomm Snapdragon X Elite, Intel Core Ultra ці AMD Ryzen AI ўтрымліваюць спецыялізаваныя нейрапрацэсарныя блокі (NPU) — спецыялізаваныя чыпы ШІ. Яны не могуць запускаць вялікія вялікія моўныя мадэлі (LLM), але апрацоўваюць невялікія пастаянныя задачы ШІ: жывую транскрыпцыю, размыццё фону, лакальныя функцыі Recall
і запуск лёгкіх мадэляў накшталт Microsoft Phi-3.
NPU ацэньваюцца ў TOPS (тэрааперацый у секунду), што вымярае аб'ём працы ШІ, які яны могуць апрацаваць. Самыя магутныя Copilot+ ПК у 2026 годзе маюць ~50 TOPS. Больш высокі TOPS азначае хутчэйшыя адказы і магчымасць апрацоўваць крыху большыя мадэлі ШІ.
9 Мадэлі ШІ
Мадэлі ШІ з адкрытым зыходным кодам (2026–2027)
Выбар мадэлі ШІ вызначае патрабаванні да абсталявання — але, як паказаў раздзел Квантаванне мадэляў ШІ, квантаванне дазваляе запускаць перадавыя мадэлі на абсталяванні, якое каштуе ў некалькі разоў танней, чым патрабуе поўнадакладнае ўкараненне.
Ніжэй прыведзена табліца з аглядам бягучых і будучых мадэляў ШІ з адкрытым зыходным кодам.
| Мадэль | Памер | Архітэктура | Памяць (FP16) | Памяць (INT4) |
|---|---|---|---|---|
| Llama 4 Behemoth | 288B (актыўны) | MoE (~2T агульны) | ~4 TB | ~1 ТБ |
| Llama 4 Maverick | 17B (актыўны) | MoE (400B агульны) | ~800 GB | ~200 GB |
| Llama 4 Scout | 17B (актыўны) | MoE (109B агульны) | ~220 GB | ~55 GB |
| DeepSeek V4 | ~70B (актыўны) | MoE (671B агульны) | ~680 GB | ~170 GB |
| DeepSeek R1 | 37B (актыўны) | MoE (671B агульны) | ~140 GB | ~35 GB |
| DeepSeek V3.2 | ~37B (актыўны) | MoE (671B агульны) | ~140 GB | ~35 GB |
| Kimi K2.5 | 32B (актыўны) | MoE (1T агульны) | ~2 TB | ~500 GB |
| Qwen 3.5 | 397B (актыўны) | MoE (A17B) | ~1.5 TB | ~375 GB |
| Qwen 3-Max-Thinking | Вялікі | Шчыльны | ~2 TB | ~500 GB |
| Qwen 3-Coder-Next | (A35B актыўны) | MoE | ~960 GB | ~240 GB |
| Mistral Large 3 | 123B (41B актыўны) | MoE (675B агульны) | ~246 GB | ~62 GB |
| Ministral 3 (3B, 8B, 14B) | 3B–14B | Шчыльны | ~6–28 GB | ~2–7 GB |
| GLM-5 | 44B (актыўны) | MoE (744B агульны) | ~1.5 TB | ~370 GB |
| GLM-4.7 (Thinking) | Вялікі | Шчыльны | ~1.5 TB | ~375 GB |
| MiMo-V2-Flash | 15B (актыўны) | MoE (309B агульны) | ~30 GB | ~8 GB |
| MiniMax M2.5 | ~10 млрд (актыўных) | MoE (~230B агульны) | ~460 GB | ~115 GB |
| Phi-5 Reasoning | 14B | Шчыльны | ~28 GB | ~7 GB |
| Phi-4 | 14B | Шчыльны | ~28 GB | ~7 GB |
| Gemma 3 | 27B | Шчыльны | ~54 GB | ~14 GB |
| Pixtral 2 Large | 90B | Шчыльны | ~180 GB | ~45 GB |
| Stable Diffusion 4 | ~12B | DiT | ~24 GB | ~6 GB |
| FLUX.2 Pro | 15B | DiT | ~30 GB | ~8 GB |
| Open-Sora 2.0 | 30B | DiT | ~60 GB | ~15 GB |
| Whisper V4 | 1.5B | Шчыльны | ~3 GB | ~1 GB |
| Med-Llama 4 | 70B | Шчыльны | ~140 GB | ~35 GB |
| Legal-BERT 2026 | 35B | Шчыльны | ~70 GB | ~18 GB |
| Finance-LLM 3 | 15B | Шчыльны | ~30 GB | ~8 GB |
| CodeLlama 4 | 70B | Шчыльны | ~140 GB | ~35 GB |
| Molmo 2 | 80B | Шчыльны | ~160 GB | ~40 GB |
| Granite 4.0 | 32B (9B актыўны) | Гібрыд Mamba-Transformer | ~64 GB | ~16 GB |
| Nemotron 3 | 8B, 70B | Шчыльны | ~16–140 GB | ~4–35 GB |
| EXAONE 4.0 | 32B | Шчыльны | ~64 GB | ~16 GB |
| Llama 5 Frontier | ~1.2T (агульны) | MoE | ~2.4 TB | ~600 GB |
| Llama 5 Base | 70B–150B | Шчыльны | ~140–300 GB | ~35–75 GB |
| DeepSeek V5 | ~600B (агульны) | MoE | ~1.2 TB | ~300 GB |
| Stable Diffusion 5 | Ня вызначана | DiT | — | — |
| Falcon 3 | 200B | Шчыльны | ~400 GB | ~100 GB |
Не купляйце абсталяванне першым чынам. Вызначыце клас мадэлі, які адпавядае вашым бізнес-патрэбам, затым прымяніце квантаванне, каб вызначыць найбольш даступны ўзровень абсталявання.
Розніца паміж інвестыцыяй у 8 600 Br і 428 200 Br часта зводзіцца да патрабаванняў да памеру мадэлі і колькасці адначасовых карыстальнікаў.
Тэндэнцыі, якія фармуюць ландшафт мадэляў ШІ
- Натыўная мультымадальнасць як стандарт. Новыя мадэлі навучаюцца на тэксце, выявах, аўдыё і відэа адначасова — не як асобныя магчымасці, дададзеныя пасля навучання. Гэта азначае, што адна мадэль апрацоўвае аналізментаў, распазнаванне выяў і галасавое ўзаемадзеянне.
- Маленькія мадэлі дасягаюць магчымасцяў вялікіх мадэляў. Phi-5 (14B) і MiMo-V2-Flash дэманструюць, што архітэктурныя інавацыі могуць сціскаць перадавое майстэрства ў мадэлі, якія запускаюцца на ноўтбуку. Эра "больш — значыць лепш" сканчваецца.
- Спецыялізацыя перад генералі. Замест адной масіўнай мадэлі для ўсяго, тэндэнцыя рухаецца да ансамбляў спецыялізаваных мадэляў — мадэлі кадзіравання, мадэлі разважанняў, мадэлі распазнавання вобразаў — каардынаваных агенцкім фрэймворкам. Гэта змяншае патрабаванні да абсталявання на мадэль, паляпшаючы агульную якасць.
- Агенцкі ШІ. Мадэлі накшталт Kimi K2.5 і Qwen 3 распрацаваны для аўтаномнага раскладання складаных задач, выкліку знешніх інструментаў і каардынацыі з іншымі мадэлямі. Гэтая парадыгма
агенцкага рою
патрабуе пастаяннай прапускной здольнасці падчас доўгіх сеансаў — аддаючы перавагу абсталяванню з высокай прапускной здольнасцю, такому як GB10 і M5 Ultra. - Стварэнне відэа і 3D-графікі становіцца больш дасканалым. Open-Sora 2.0 і FLUX.2 Pro сігналізуюць, што лакальнае стварэнне відэа становіцца практычным. Да 2027 года чакайце памочнікаў для рэдагавання відэа ў рэжыме рэальнага часу, якія працуюць на абсталяванні класа працоўных станцый.
10 Бяспека
Архітэктура для максімальнай бяспекі
Галоўная перавага лакальнага абсталявання ШІ — не прадукцыйнасць, а валоданне данымі. Калі ваш сервер ШІ працуе за вашым фаерволам, а не ў чыёй-небудзь воблаку, вашыя канфідэнцыйныя даныя ніколі не пакідаюць будынак.
Архітэктура API з паветраным разрывам фізічна ізалюе сервер ШІ ад інтэрнэту, але робіць яго даступным для аўтарызаваных супрацоўнікаў праз інтэрфейс API.
Гэтая архітэктура стварае лічбавы сховішча
. Нават калі брокер-сервер будзе скампраметаваны, зламышленнік змог бы адпраўляць толькі тэкставыя запыты — ён не меў бы доступу да файлавай сістэмы AI-сервера, вагам мадэлі, дадзеным даапрацоўкі ці любым захаваным дакументам.
Патрэбна бяспечная AI-рэалізацыя з індывідуальнымі AI-рашэннямі?
Нашы інжынеры распрацоўваюць і ўняюць air-gapped AI-архітэктуры, забяспечваючы, што дадзеныя ніколі не пакідаюць месцазнаходжання, адначасова забяспечваючы ваш бізнэс сучаснымі магчымасцямі ШІ.
Абмеркаваць бяспечную AI-архітэктуру →11 Эканоміка
Эканамічны вердыкт: Лакальнае vs Воблачнае
Пераход да лакальнага AI-абсталявання — гэта зрух ад OpEx (аперацыйныя выдаткі — штомесячныя платы за воблачныя API) да CapEx (капітальныя выдаткі — аднаразовая інвестыцыя ў абсталяванне, якая становіцца актывам у вашым балансе).
Разгледзім юрыдычную фірму, якая выкарыстоўвае мадэль 200B для аналізу кантрактаў:
Пры 1000 запытах у дзень DGX Spark акупаецца менш чым за 2 месяцы ў параўнанні з коштамі воблачных API. Пры больш высокім узроўні выкарыстання тэрмін акупальнасці скарачаецца да тыдняў.
Эканоміка становіцца яшчэ больш спрыяльнай, калі ўлічваць:
- Некалькі супрацоўнікаў, якія карыстаюцца адным абсталяваннем (DGX Spark абслугоўвае 2–5 адначасовых карыстальнікаў)
- Адсутнасць цэнаўтварэння за токен — складаныя шматкрокавыя задачы на разважанне не патрабуюць дадатковых выдаткаў
- Даапрацоўка на ўласных дадзеных — немагчыма з большасцю воблачных API, бясплатна на лакальным абсталяванні
- Перапродажная вартасць абсталявання — AI-абсталяванне захоўвае значную вартасць на ўторачным рынку