NVIDIA DGX Spark — устройство размером с книгу, способное запускать ИИ-модели с 200 миллиардами параметров (400 миллиардов при объединении двух устройств) — представляет новую эру владения настольными ИИ-системами.

1 Основы
Зачем локальный ИИ? Бизнес-кейс для владения

В начале 2020-х искусственный интеллект был услугой, которую вы арендовали — по часам, за токены, за API-вызовы. К 2026 году парадигма изменилась. Оборудование, необходимое для запуска интеллекта уровня GPT-4, теперь помещается на вашем столе и стоит меньше подержанного автомобиля.

Продолжающаяся зависимость только от облачного ИИ создаёт стратегическую трилемму:

  • Растущие расходы. API-тарифы за токен масштабируются линейно с использованием. Юридическая фирма, обрабатывающая 1000 контрактов в день, может столкнуться с годовыми API-расходами в ~2,8 млн ₽.
  • Утечка данных. Каждый запрос, отправленный в облачный API, — это данные, покидающие вашу сеть и подвергающиеся рискам безопасности и конфиденциальности.
  • Отсутствие или дорогостоящая кастомизация. Облачные модели универсальны. Их сложно или дорого точно настраивать под пользовательские данные, внутренние бизнес-процессы или бизнес-аналитику.

Локальное оборудование для ИИ решает все три проблемы. Оно превращает переменные затраты на API в фиксированный капитальный актив, гарантирует, что данные никогда не покидают локальную сеть, и позволяет глубокую кастомизацию через точную настройку на бизнес-данных.

2 Снижение затрат
Квантование: Запуск больших ИИ-моделей на более дешёвом оборудова

Квантование — это концепция, которая фундаментально меняет экономику локального ИИ.

Проще говоря, квантование сжимает объём памяти, необходимый для ИИ-модели. Стандартная модель хранит каждый параметр как 16-битное число с плавающей запятой (FP16). Квантование сокращает это до 8-бит (Int8), 4-бит (Int4) или даже меньше — радикально уменьшая объём памяти, необходимый для запуска модели.

Квантование приводит к небольшому снижению качества вывода — часто незаметному для бизнес-задач, таких как суммаризация, составление текстов и анализ — в обмен на значительное снижение стоимости оборудования.

Требуемая память: модель ИИ 400B при разных уровнях точности
FP16
Полная точность
~800 GB
Int8
Вдвое меньше
~400 GB
Int4
Вчетверо меньше
~200 GB
FP16 — Максимальное качество, максимальная стоимость
Int8 — Почти идеальное качество, вдвое дешевле
Int4 — Высокое качество, вчетверо дешевле
Бизнес-эффект

Модель 400B с полной точностью требует ~800 ГБ памяти — инвестиции в сервер на ~15 млн ₽. Та же модель, квантованная до Int4, требует всего ~200 ГБ и может работать на двух объединенных мини-ПК DGX Spark (на базе GB10 Superchip) за 620 тыс. ₽.

Mixture of Experts (MoE)

Mixture of Experts — ещё один трюк архитектуры ИИ-моделей, позволяющий развертывать огромные модели без огромных затрат памяти.

Вместо использования всех параметров для каждого запроса, MoE-модель активирует лишь часть своей мощности через sparse activation (разреженную активацию).

MoE-модель с 2 триллионами параметров, такая как Llama 4 Behemoth, активирует всего 288B параметров на запрос — обеспечивая передовой интеллект за малую долю стоимости памяти.

Компромисс

MoE-модели немного менее эффективны в простых задачах, таких как суммаризация и классификация, по сравнению с плотными моделями того же размера. В интеллектуальной работе и рассуждениях — сложном анализе, генерации кода и исследованиях — MoE-модели превосходны.

Разреженная активация обеспечивает более высокую скорость вывода и меньшее время отклика.

3 Мини-ПК
ИИ мини-ПК 100 тыс. ₽ – 800 тыс. ₽

HP ZGX Nano AI на руке женщины

Самое революционное достижение 2026 года — высокопроизводительные ИИ-вычисления в форм-факторе мини-ПК. Устройства размером не больше книги теперь запускают ИИ-модели, для которых два года назад требовались серверные комнаты.

Экосистема NVIDIA GB10 (DGX Spark)

Лидер производительности

NVIDIA logo

NVIDIA DGX Spark определил эту категорию. В 2026 году суперчип GB10 — сочетающий ARM Grace CPU и GPU Blackwell — породил целую экосистему. ASUS, GIGABYTE, Dell, Lenovo, HP, MSI и Supermicro выпускают системы на базе GB10 с разными форм-факторами, системами охлаждения и предустановленным ПО.

Экосистема NVIDIA GB10 ASUS, GIGABYTE, Dell, Lenovo, HP, MSI и Supermicro
От 310 тыс. ₽
Память
128 ГБ
Единая LPDDR5X
Вычисления
~1 ПФЛОП
Производительность ИИ (FP8)
Сеть
10 Гбит/с Ethernet + Wi-Fi 7
ConnectX для кластеризации
Хранилище
4 ТБ SSD
NVMe
Кластеризация
Да (2 устройства)
Объединённая память 256 ГБ
ПО
NVIDIA AI Enterprise
CUDA, cuDNN, TensorRT
NVIDIA DGX Spark
ASUS Ascent GX10
Gigabyte AI TOP ATOM
DGX Quantum Machines combo
MSI EdgeExpert
Lenovo ThinkStation PGX
Dell Pro Max Desktop
NVIDEA DGX Spark
Кластеризация: ёмкость 256 ГБ

Соединив два устройства GB10 через выделенный высокоскоростной сетевой порт, система объединяет ресурсы в единое пространство памяти 256 Г. Это позволяет запускать очень большие модели — 400B+ квантованных параметров — полностью на вашем столе при общих инвестициях в оборудование примерно 620 тыс. ₽.

Мини-ПК на AMD Ryzen AI Max (Strix Halo)

Самая низкая стоимость

AMD Ryzen AI Max+ Strix Halo

Архитектура AMD Ryzen AI Max+ Strix Halo породила совершенно новый класс бюджетных ИИ мини-ПК. Ряд производителей — GMKtec, Beelink, Corsair, NIMO, Bosgame, FAVM — теперь поставляют системы с единой памятью 128 ГБ дешевле ~150 тыс. ₽.

Мини-ПК на AMD Ryzen AI Max GMKtec EVO-X2 · Beelink · Corsair · NIMO AI · Bosgame M5 · FAVM FA-EX9
От ~120 тыс. ₽
Память
128 ГБ
Общая LPDDR5 (CPU+GPU)
Вычисления
~0.2 ПФЛОП
Интегрированная GPU RDNA 3.5
Пропускная способность
~200 ГБ/с
Пропускная способность памяти
Питание
~100 Вт
Бесшумная работа
Кластеризация
Нет
Только автономно
ОС
Windows / Linux
ROCm / llama.cpp
GMKtex EVO X2
Bosgame M5 AI
NIMO AI Mini PC
Beelink Mini PC
Beelink Mini PC
Corsair AI Workstation 300 Halo
FAVM FA EX9
GMK Ryzen Strix Halo Mini PC

Apple Mac Studio (M4 Ultra)

Лидер по ёмкости

Mac Studio занимает уникальное положение в ландшафте локального ИИ. Единая архитектура памяти Apple (UMA) обеспечивает до 256 ГБ памяти, доступной как CPU, так и GPU, в одном компактном настольном устройстве — без необходимости кластеризации.

Это делает его единственным доступным устройством, способным загружать самые большие модели с открытым исходным кодом. Модель с 400 миллиардами параметров, квантованная до Int4, полностью помещается в памяти в конфигурации 256 ГБ.

Apple Mac Studio (M4 Ultra) Лидер по ёмкости ИИ в одном устройстве
От 310 тыс. ₽
Память
До 256 ГБ
Единая память (UMA)
Вычисления
~0.5 ПФЛОП
Apple Neural Engine + GPU
ПО
Фреймворк MLX
Оптимизированный Apple вывод
Ограничение
Только вывод
Медленно для обучения/точной настройки

Apple Mac Studio (M5 Ultra)

Перспективный претендент

Ожидается, что новое поколение M5 Ultra от Apple, выход которого планируется на конец 2026 года, устранит главный недостаток M4: производительность при обучении ИИ-моделей. Созданный по 2-нм техпроцессу TSMC, он, как ожидается, предложит конфигурации с единой памятью до 512 ГБ и пропускной способностью свыше 1,2 ТБ/с.

Apple Mac Studio (M5 Ultra) Ожидаемый монстр для обучения ИИ
Ориент. ~920 тыс. ₽
Память
о 512 ГБ
Единая память нового поколения
Вычисления
~1.5+ ПФЛОП
2-нм Neural Engine
ПО
MLX 2.0+
Нативная поддержка обучения
Возможности
Обучение и вывод
Альтернатива CUDA
Пропускная способность памяти: 1,2 ТБ/с Ёмкость

512 ГБ M5 Ultra станет первым потребительским устройством, способным запускать неквантованные (полной точности) передовые модели. Высокая пропускная способность памяти 1,2+ ТБ/с поддерживает агентские ИИ-процессы, требующие устойчивого высокопроизводительного вывода с очень длинными контекстными окнами.

Tiiny AI
Карманный ИИ-суперкомпьютер
Выпущенный на Kickstarter в 2026 году за %1$s, Tiiny.ai Pocket AI Computer — карманный суперкомпьютер с памятью 80 ГБ LGDDR5X и SSD на 1 ТБ, поддерживающий локальный запуск моделей ИИ 120B в любом месте.
При весе 300 граммов (142×22×80мм) и питании от стандартного USB-C он поддерживает инновационные бизнес-приложения. Tiiny AI сообщает о скорости вывода 21,14 токенов в секунду для GPT-OSS-120B.
Память на устройство
12 ГБ
ИИ-ёмкость 48 ГБ
Хотя основан на архитектуре предыдущего поколения Ampere, он остаётся отраслевым стандартом для надёжного вывода и тонкой настройки. Идеально подходит для команд, внедряющих ИИ без бюджета на Blackwell.
Несмотря на высокую стоимость, DGX Station заменяет серверную стойку за %1$s и связанную инфраструктуру охлаждения. Подключается к стандартной розетке. Это полностью устраняет накладные расходы на серверную комнату.
Когда вашему бизнесу нужно обслуживать многих сотрудников одновременно, запускать модели класса foundation с полной точностью или дообучать кастомные модели на собственных данных — вы переходите на серверный уровень.
Gaudi 3 доступен в двух форм-факторах:
PCIe-карта (HL-338)
Стандартный форм-фактор PCIe для интеграции в существующие серверы. Ориентировочная цена: %1$s за карту.
OAM (OCP Accelerator Module)
Стандарт OCP высокой плотности для облачных дата-центров. %1$s за чип при покупке наборами по 8 чипов (%2$s всего с базовой платой).
Сервер с 8 картами Gaudi 3 обеспечивает 1 ТБ общей ИИ-памяти по гораздо более низкой стоимости, чем сопоставимая система NVIDIA H100.
Дешевле сопоставимой конфигурации NVIDIA H100
AMD Instinct MI325X содержит 256 ГБ памяти HBM3e на карту — вдвое больше, чем Intel Gaudi 3. Для достижения 1 ТБ общей ИИ-памяти нужно всего 4 карты против 8 у Intel.
Стартовая стоимость с 1 картой %1$s
MI325X дороже за систему, чем Gaudi 3, но быстрее и компактнее. Для рабочих нагрузок, требующих максимальной пропускной способности — вывода в реальном времени для многих пользователей или обучения кастомных моделей на больших наборах данных — более высокая инвестиция окупается за счёт снижения задержек и упрощения инфраструктуры.
Ноутбуки с чипами Qualcomm Snapdragon X Elite, Intel Core Ultra или AMD Ryzen AI содержат специализированные ИИ-чипы — Neural Processing Units (NPU). Они не могут запускать большие LLM, но обрабатывают небольшие постоянные ИИ-задачи: живую транскрипцию, размытие фона, локальные функции Recall и запуск лёгких моделей, таких как Microsoft Phi-3.
NPU оцениваются в TOPS (Тера операций в секунду), что измеряет их ИИ-производительность. Самые мощные Copilot+ ПК в 2026 году имеют ~50 TOPS. Более высокий TOPS означает более быстрые ответы и возможность обработки чуть более крупных ИИ-моделей.
Главное преимущество локального ИИ-оборудования — не производительность, а суверенитет данных. Когда ваш ИИ-сервер работает за вашим фаерволом, а не в чужом облаке, ваши конфиденциальные данные никогда не покидают здание.
Архитектура Air-Gapped API физически изолирует ИИ-сервер от интернета, обеспечивая доступ авторизованным сотрудникам через API-интерфейс.
Рассмотрим юридическую фирму, использующую модель 200B для анализа контрактов:
1000 контрактов/день × %1$s/1K токенов × 365 дней. Масштаби использованием. Данные покидают сеть.
+ %1$s/месяц за электричество. Неограниченное использование. Данные никогда не покидают LAN. Актив на балансе.
При 1000 запросов в день DGX Spark окупается менее чем за 2 месяца по сравнению с облачными API-расходами. При более высоком использовании срок окупаемости сокращается до недель.
```

Карманный ИИ-суперкомпьютер

Tiiny AI

Выпущенный на Kickstarter в 2026 году за 108 тыс. ₽, Tiiny.ai Pocket AI Computer — карманный суперкомпьютер с памятью 80 ГБ LGDDR5X и SSD на 1 ТБ, поддерживающий локальный запуск моделей ИИ 120B в любом месте.

При весе 300 граммов (142×22×80мм) и питании от стандартного USB-C он поддерживает инновационные бизнес-приложения. Tiiny AI сообщает о скорости вывода 21,14 токенов в секунду для GPT-OSS-120B.

Tiiny Pocket AI Computer
Tiiny Pocket AI Computer
Tiiny Pocket AI Computer
Tiiny Pocket AI Computer

Tenstorrent

Оборудование с открытым исходным кодом

Tenstorrent

Под руководством легендарного архитектора чипов Джима Келлера, Tenstorrent представляет принципиально иную философию: оборудование с открытым исходным кодом на базе RISC-V, открытое ПО и модульное масштабирование через последова соединение.

ИИ-ядра Tensix спроектированы для линейного масштабирования: в отличие от GPU, которые испытывают трудности с накладными расходами на связь при добавлении карт, чипы Tenstorrent созданы для эффективного объединения.

В партнёрстве с Razer Tenstorrent выпустила компактный внешний ИИ-ускоритель, подключаемый к любому ноутбуку или настольному ПК через Thunderbolt — превращая существующее оборудование в ИИ-рабочую станцию без замены компонентов.

Компактный ИИ-ускоритель Razer × Tenstorrent Внешний ИИ-ускоритель Thunderbolt
Цена Неизвестно
Память на устройство
12 ГБ
GDDR6
Чип
Wormhole n150
Ядра Tensix · RISC-V
Масштабирование
До 4 устройств
ИИ-ёмкость 48 ГБ
ПО
Полностью открытый исходный код
GitHub · TT-Metalium
Razer × Tenstorrent AI Accelerator
Razer × Tenstorrent AI Accelerator
Razer × Tenstorrent AI Accelerator
Razer × Tenstorrent AI Accelerator

ИИ NAS — Сетевое хранилище

Хранилище + ИИ

Определение NAS изменилось от пассивного хранения к активному интеллекту. Новое поколение сетевых устройств хранения напрямую интегрирует ИИ-обработку — от лёгких NPU-инференций до полного GPU-ускоренного развёртывания LLM.

NAS с поддержкой ИИ устраняет необходимость в отдельном ИИ-устройстве и позволяет напрямую обрабатывать большие объёмы данных без задержек передачи по сети.

QNAP AI NAS
Ugreen DXP4800 Pro
OmniCore AI NAS
Zetlab AI NAS

Нужна помощь в выборе подходящего ИИ-мини-ПК для вашего бизнеса?

Наши инженеры оценят ваши требования к ИИ-оборудованию и развернут полностью настроенную ИИ-систему.

Получить бесплатную оценку оборудования →

4 Рабочие станции
ИИ-рабочие станции и настольные ПК 230 тыс. – 1,2 млн ₽

Уровень рабочих станций использует дискретные видеокарты PCIe и стандартные корпуса типа tower. В отличие от фиксированных архитектур мини-ПК, этот уровень предлагает модульность — вы можете обновлять отдельные компоненты, добавлять GPU или менять карты по мере развития технологий.

Рабочая станция с двумя RTX A6000 и мостом NVLink предлагает 96 ГБ объединённой видеопамяти примерно за 540 тыс. ₽.

Понимание VRAM и скорости

Выбор GPU для ИИ определяют два конкурирующих фактора:

📦
Объём VRAM
Определяет размер модели, которую можно загрузить. Больше VRAM — значит более крупные и мощные модели. Это ваш потолок интеллекта.
Скорость вычислений
Определяет скорость отклика модели. Более высокая производительность означает меньшую задержку на запрос. Это ваш пользовательский опыт.

Игровые карты (например, RTX 5090) максимизируют скорость, но предлагают ограниченный VRAM — обычно 24–32 ГБ. Профессиональные карты (например, RTX PRO 6000 Blackwell) максимизируют VRAM — до 96 ГБ на карту — но стоят дороже за единицу производительности.

VRAM — ключевое ограничение. Быстрая карта с недостаточной памятью не сможет загрузить модель ИИ. Более медленная карта с достаточным VRAM запустит модель — просто с большим временем отклика.

Потребительские GPU

КонфигурацияВсего VRAMСвязьПримерная стоимость
2× RTX 3090 (б/у)48 ГБNVLink~230 тыс. ₽
2× RTX 409048 ГБPCIe Gen 5310 тыс. ₽
2× RTX 509064 ГБPCIe Gen 5540 тыс. ₽

Профессиональные GPU

КонфигурацияВсего VRAMСвязьПримерная стоимость
2× RTX 6000 Ada96 ГБPCIe Gen 51 млн ₽
1× RTX PRO 6000 Blackwell96 ГБNVLink620 тыс. ₽
4× RTX PRO 6000 Blackwell384 ГБPCIe Gen 52,5 млн ₽

Датацентровские GPU

КонфигурацияВсего VRAMСвязьПримерная стоимость
1× L40S48 ГБPCIe 4.0 (пассивное охлаждение)540 тыс. ₽
1× A100 PCIe80 ГБPCIe 4.0770 тыс. ₽
1× H200 NVL141 ГБNVLink2,3 млн ₽
4× H200 NVL564 ГБNVLink9,2 млн ₽
1× B200 SXM180 ГБNVLink 5 (1,8 ТБ/с)2,3 млн ₽
8× B200 SXM1 440 ГБNVLink 5 (1,8 ТБ/с)18,5 млн ₽

Китайские GPU

Китайская экосистема GPU быстро созрела. Несколько производителей предлагают ИИ-ускорители уровня рабочих станций с конкурентоспособными характеристиками и значительно более низкими ценами.

КонфигурацияВсего VRAMТип памятиПримерная стоимость
1× Moore Threads MTT S400048 ГБGDDR662 тыс. ₽
4× Moore Threads MTT S4000192 ГБGDDR6270 тыс. ₽
8× Moore Threads MTT S4000384 ГБGDDR6500 тыс. ₽
1× Hygon DCU Z10032 ГБHBM2190 тыс. ₽
1× Biren BR10432 ГБHBM2e~230 тыс. ₽
8× Biren BR104256 ГБHBM2e1,8 млн ₽
1× Huawei Ascend Atlas 300I Duo96 ГБHBM2e92 тыс. ₽
8× Huawei Ascend Atlas 300I Duo768 ГБHBM2e770 тыс. ₽

Ожидаемые

КонфигурацияВсего VRAMСтатусПримерная стоимость
RTX 5090 128 ГБ128 ГБКитайская мод. — не стандартная SKU390 тыс. ₽
RTX Titan AI64 ГБОжидается в 2027~230 тыс. ₽
4x NVIDIA RTX PRO 6000 Blackwell
4x NVIDIA RTX PRO 6000 Blackwell
MSI NVIDIA RTX PRO 6000 Blackwell Server
NVIDIA RTX 5090
NVIDIA DGX Station — водяное охлаждение "дата-центра на столе", подключаемое к обычной розетке.

NVIDIA DGX Station

Enterprise Apex

NVIDIA DGX Station — это водяное охлаждение "суперкомпьютер" на столе, приносящий производительность дата-центра в офис. Последняя версия использует суперчип GB300 Grace Blackwell.

NVIDIA DGX Station GB300 Future-Proof Ultra
Примерная цена ~15 млн ₽

Версия Blackwell Ultra увеличивает плотность памяти и вычислительную мощность, разработана для организаций, которым нужно обучать модели с нуля или запускать огромные MoE-архитектуры локально.

Память
~1,5 ТБ+
HBM3e (сверхбыстрая)
Вычисления
~20+ PFLOPS
Производительность ИИ (FP8)
Сценарий использования
Кастомное обучение
Разработка моделей
Питание
Обычная розетка
Не требует серверной комнаты
NVIDIA DGX Station GB300 Blackwell Ultra
ASUS ExpertCenter Pro DGX GB300
MSI XpertStation WS300
NVIDIA DGX Station GB300 Blackwell Ultra
NVIDIA DGX Station A100 Доступный ИИ-рабочий
От ~7,7 млн ₽

Хотя основан на архитектуре предыдущего поколения Ampere, он остаётся отраслевым стандартом для надёжного вывода и тонкой настройки. Идеально подходит для команд, внедряющих ИИ без бюджета на Blackwell.

Память
320 ГБ
4x GPU A100 по 80 ГБ
Вычисления
2 PFLOPS
ИИ-производительность FP16
Многопользовательский
5–8 одновременных
Умеренная параллельность
Питание
Обычная розетка
Не требует серверной комнаты

Несмотря на высокую стоимость, DGX Station заменяет серверную стойку за ~23 млн ₽ и связанную инфраструктуру охлаждения. Подключается к стандартной розетке. Это полностью устраняет накладные расходы на серверную комнату.

Нужна помощь в выборе подходящей ИИ-рабочей станции для вашего бизнеса?

Наши инженеры оценят ваши требования к ИИ-оборудованию и развернут полностью настроенную ИИ-систему.

Получить бесплатную оценку оборудования →

5 Серверы
ИИ-серверы 1,2 млн – 15 млн ₽

Когда вашему бизнесу нужно обслуживать многих сотрудников одновременно, запускать модели класса foundation с полной точностью или дообучать кастомные модели на собственных данных — вы переходите на серверный уровень.

Это область специализированных ИИ-ускорителей с памятью высокой пропускной способности (HBM), специальными соединениями и форм-факторами для стоек или размещения рядом со столом. Оборудование дороже, но стоимость на пользователя резко снижается при масштабировании.

Intel Gaudi 3

Лучшее соотношение на масштабе

Ускоритель Gaudi 3 от Intel создавался как чип для обучения и инференса ИИ — не перепрофилированная видеокарта. Каждая карта предоставляет 128 ГБ памяти HBM2e с интегрированной сетью 400 Gb Ethernet, устраняя необходимость в отдельных сетевых адаптерах.

Gaudi 3 доступен в двух форм-факторах:

  • PCIe-карта (HL-338): Стандартный форм-фактор PCIe для интеграции в существующие серверы. Ориентировочная цена: ~920 тыс. ₽ за карту.
  • OAM (OCP Accelerator Module): Стандарт OCP высокой плотности для облачных дата-центров. 1,2 млн ₽ за чип при покупке наборами по 8 чипов (~9,6 млн ₽ всего с базовой платой).

Сервер с 8 картами Gaudi 3 обеспечивает 1 ТБ общей ИИ-памяти по гораздо более низкой стоимости, чем сопоставимая система NVIDIA H100.

💾
Память на карту
128 ГБ
HBM2e — соответствует DGX Spark в одной карте
Всего на 8 карт
1 ТБ
1 024 ГБ объединённой памяти для крупнейших моделей
💰
Стоимость системы
~15 млн ₽
Дешевле сопоставимой конфигурации NVIDIA H100
Intel Gaudi 3 Baseboard HLB 325
Intel Gaudi 3 PCI card
Dell Intel Gaudi 3 server
Gigabyte Intel Gaudi 3 server

AMD Instinct MI325X

Максимальная плотность

AMD Instinct MI325X содержит 256 ГБ памяти HBM3e на карту — вдвое больше, чем Intel Gaudi 3. Для достижения 1 ТБ общей ИИ-памяти нужно всего 4 карты против 8 у Intel.

💾
Общая память на 4 карты
1 ТБ
Вдвое меньше карт, чем у Intel, при той же ёмкости
Пропускная способность
6 ТБ/с
На карту — позволяет одновременных пользователей
💰
Стоимость системы
~15 млн ₽
Стартовая стоимость с 1 картой ~4,6 млн ₽
AMD Instinct MI325X server
Supermicro AMD Instinct MI325X server
AMD Instinct MI325X server
ASUS AMD Instinct MI325X server

MI325X дороже за систему, чем Gaudi 3, но быстрее и компактнее. Для рабочих нагрузок, требующих максимальной пропускной способности — вывода в реальном времени для многих пользователей или обучения кастомных моделей на больших наборах данных — более высокая инвестиция окупается за счёт снижения задержек и упрощения инфраструктуры.

Huawei Ascend

Полноценная альтернатива

Huawei

Huawei воспроизвела полный стек ИИ-инфраструктуры: кастомные чипы (Ascend 910B/C), собственные соединения (HCCS) и полное ПО (CANN). Результат — автономная экосистема, работающая независимо от западных цепочек поставок и за гораздо меньшую стоимость, чем кластеры NVIDIA H100.

Huawei Atlas
Huawei Ascend AI family
Huawei Atlas 300
Huawei Atlas 800i Ascend 910c

Intel Xeon 6 (Granite Rapids)

Бюджетный сервер

Тихая революция 2026 года — рост ИИ-инференса на CPU. Процессоры Intel Xeon 6 включают AMX (Advanced Matrix Extensions), позволяющие ИИ-задачи на стандартной DDR5 RAM — что значительно дешевле памяти GPU.

Компромисс

С с двумя сокетами Xeon 6 может содержать 1–4 ТБ DDR5 RAM за малую часть стоимости памяти GPU. Скорость инференса низкая, но для пакетной обработки — где скорость не важна, а интеллект и ёмкость критичны — это революционно.

Пример: Малый бизнес загружает 100 000 отсканированных счетов-фактур за ночь. Сервер Xeon 6 запускает ИИ-модель размером +400B для идеального извлечения данных. Задача занимает 10 часов, но стоимость оборудования значительно ниже, чем у GPU-сервера.

Нужна помощь в выборе правильной серверной инфраструктуры для ИИ?

Наша команда по инфраструктурерует и внедряет комплексные серверные решения для ИИ — от Intel Gaudi до NVIDIA DGX — в сочетании с индивидуальным программчением, чтобы раскрыть возможности ИИ для вашего бизнеса.

Запросить предложение по серверной архитектуре →

6 Edge ИИ
Edge ИИ и модернизация Обновление существующей инфраструктуры

Не каждому малому бизнесу нужен выделенный ИИ-сервер или мини-ПК. Многие могут внедрить интеллект в существующую инфраструктуру — обновив ноутбуки, десктопы и сетевые устройства с ИИ-возможностями при минимальных затратах.

M.2 ИИ-ускорители: H-10

Hailo-10 — стандартный модуль M.2 2280 (такой же слот, как для SSD), который добавляет выделенную ИИ-обработку в любой существующий ПК. При стоимости ~~12 тыс. ₽ за штуку и потреблении всего 5–8 Вт он позволяет выполнять ИИ-апгрейд всего парка без замены оборудования.

📎
Форм-фактор
M.2 2280
Помещается в любой стандартный SSD-слот
Производительность
20–50 TOPS
Оптимизирован для edge-инференса
💰
Стоимость
~12 тыс. ₽
За единицу — обновление парка менее чем за ~230 тыс. ₽

Варианты использования: Локальная транскрипция встреч (Whisper), субтитры в реальном времени, голосовой ввод, инференс небольших моделей (Phi-3 Mini). Эти карты не могут запускать большие LLM, но они отлично справляются со специфическими постоянными ИИ-задачами — гарантируя локальную обработку голосовых данных без отправки в облако.

Copilot+ ПК (ноутбуки с NPU)

Ноутбуки с чипами Qualcomm Snapdragon X Elite, Intel Core Ultra или AMD Ryzen AI содержат специализированные ИИ-чипы — Neural Processing Units (NPU). Они не могут запускать большие LLM, но обрабатывают небольшие постоянные ИИ-задачи: живую транскрипцию, размытие фона, локальные функции Recall и запуск лёгких моделей, таких как Microsoft Phi-3.

NPU оцениваются в TOPS (Тера операций в секунду), что измеряет их ИИ-производительность. Самые мощные Copilot+ ПК в 2026 году имеют ~50 TOPS. Более высокий TOPS означает более быстрые ответы и возможность обработки чуть более крупных ИИ-моделей.

9 ИИ-модели
ИИ-модели с открытым исходным кодом (2026–2027)

Выбор ИИ-модели определяет требования к оборудованию — но, как показала глава о квантизации ИИ-моделей, квантизация позволяет запускать передовые модели на оборудовании, стоящем долю стоимости развертывания в полной точности.

В таблице ниже представлен обзор текущих и будущих ИИ-моделей с открытым исходным кодом.

МодельРазмерАрхитектураПамять (FP16)Память (INT4)
Llama 4 Behemoth288B (активных)MoE (~2T всего)~4 ТБ~1 ТБ
Llama 4 Maverick17B (активных)MoE (400B всего)~800 ГБ~200 ГБ
Llama 4 Scout17B (активных)MoE (109B всего)~220 ГБ~55 ГБ
DeepSeek V4~70B (активных)MoE (671B всего)~680 ГБ~170 ГБ
DeepSeek R137B (активных)MoE (671B всего)~140 ГБ~35 ГБ
DeepSeek V3.2~37B (активных)MoE (671B всего)~140 ГБ~35 ГБ
Kimi K2.532B (активных)MoE (1T всего)~2 ТБ~500 ГБ
Qwen 3.5397B (активных)MoE (A17B)~1.5 ТБ~375 ГБ
Qwen 3-Max-ThinkingБольшаяПлотная~2 ТБ~500 ГБ
Qwen 3-Coder-Next480B (B активных)MoE~960 ГБ~240 ГБ
Mistral Large 3123B (41B активных)MoE (675B всего)~246 ГБ~62 ГБ
Ministral 3 (3B, 8B, 14B)3B–14BПлотная~6–28 ГБ~2–7 ГБ
GLM-544B (активных)MoE (744B всего)~1.5 ТБ~370 ГБ
GLM-4.7 (Thinking)БольшаяПлотная~1.5 ТБ~375 ГБ
MiMo-V2-Flash15B (активных)MoE (309B всего)~30 ГБ~8 ГБ
MiniMax M2.5~10B (активных)MoE (~230B всего)~460 ГБ~115 ГБ
Phi-5 Reasoning14BПлотная~28 ГБ~7 ГБ
Phi-414BПлотная~28 ГБ~7 ГБ
Gemma 327BПлотная~54 ГБ~14 ГБ
Pixtral 2 Large90BПлотная~180 ГБ~45 ГБ
Stable Diffusion 4~12BDiT~24 ГБ~6 ГБ
FLUX.2 Pro15BDiT~30 ГБ~8 ГБ
Open-Sora 2.030BDiT~60 ГБ~15 ГБ
Whisper V41.5BПлотная~3 ГБ~1 ГБ
Med-Llama 470BПлотная~140 ГБ~35 ГБ
Legal-BERT 202635BПлотная~70 ГБ~18 ГБ
Finance-LLM 315BПлотная~30 ГБ~8 ГБ
CodeLlama 470BПлотная~140 ГБ~35 ГБ
Molmo 280BПлотная~160 ГБ~40 ГБ
Granite 4.032B (9B активных)Гибрид Mamba-Transformer~64 ГБ~16 ГБ
Nemotron 38B, 70BПлотная~16–140 ГБ~4–35 ГБ
EXAONE 4.032BПлотная~64 ГБ~16 ГБ
Llama 5 Frontier~1,2T (всего)MoE~2.4 ТБ~600 ГБ
Llama 5 Base70B–150BПлотная~140–300 ГБ~35–75 ГБ
DeepSeek V5~600B (всего)MoE~1.2 ТБ~300 ГБ
Stable Diffusion 5TBDDiT
Falcon 3200BПлотная~400 ГБ~100 ГБ
Стратегические рекомендации

Не покупайте оборудование первым. Определите класс модели, соответствующий вашим бизнес-потребностям, затем примените квантизацию, чтобы определить наиболее доступный уровень оборудования.

Разница между инвестицией в ~230 тыс. ₽ и 11,6 млн ₽ часто сводится к требованиям к размеру модели и количеству одновременных пользователей.

Тренды, формирующие ландшафт ИИ-моделей

  • Нативная мультимодальность как стандарт. Новые модели обучаются на тексте, изображениях, аудио и видео одновременно — не как отдельные возможности, добавленные после обучения. Это означает, что одна модель обрабатывает анализ документов, понимание изображений и голосовое взаимодействие.
  • Малые модели достигают возможностей больших. Phi-5 (14B MiMo-V2-Flash демонстрируют, что архитектурные инновации могут сжать передовые возможности рассуждений в модели, работающие на ноутбуке. Эра "чем больше, тем лучше" заканчивается.
  • Специализация вместо универсальности. Вместо одной огромной модели для всего тренд смещается к ансамблям специализированных моделей — модель для кодирования, модель рассуждений, модель зрения — управляемых агентурным фреймворком. Это снижает требования к оборудованию на модель при повышении общего качества.
  • Агентный ИИ. Модели вроде Kimi K2.5 и Qwen 3 предназначены для автономного разложения сложных задач, вызова внешних инструментов и координации с другими моделями. Эта парадигма роя агентов требует устойчивой пропускной способности в длинных сессиях — предпочитая оборудование с высокой пропускной способностью, такое как GB10 и M5 Ultra.
  • Созревание генерации видео и 3D. Open-Sora 2.0 и FLUX.2 Pro сигнализи что локальная генерация видео становится практичной. К 2027 году ожидайте ассистентов для редактирования видео в реальном времени на оборудовании класса рабочих станций.

10 Безопасность
Архитектура для максимальной безопасности

Главное преимущество локального ИИ-оборудования — не производительность, а суверенитет данных. Когда ваш ИИ-сервер работает за вашим фаерволом, а не в чужом облаке, ваши конфиденциальные данные никогда не покидают здание.

Архитектура Air-Gapped API физически изолирует ИИ-сервер от интернета, обеспечивая доступ авторизованным сотрудникам через API-интерфейс.

Архитектура Air-Gapped API
👤 Сотрудник Стандартная рабочая станция
🔀 Брокер-сервер Аутентификация + UI + Маршрутизация
🔒 ИИ-сервер Air-gapped · Без интернета
ИИ-хранилище

Эта архитектура создает Цифровое хранилище. Даже если брокер-сервер будет скомпрометирован, злоумышленник отправлять только текстовые запросы — он не получит доступ к файловой системе ИИ-сервера, весам модели, данным тонкой настройки или любым хранимым документам.

Нужно безопасное развертывание ИИ с индивидуальными решениями?

Наши инженеры проектируют и внедряют air-gapped ИИ-архитектуры, гарантируя, что данные никогда не покидают территорию, обеспечивая ваш бизнес передовыми ИИ-возможностями.

Обсудить безопасную ИИ-архитектуру →

11 Экономика
Экономический вердикт: локальное решение против облака

Переход на локальное ИИ-оборудование — это сдвиг от OpEx (операционные расходы — ежемесячные платы за облачные API) к CapEx (капитальные расходы — единовременные инвестиции в оборудование, становящиеся активом в вашем балансе).

Рассмотрим юридическую фирму, использующую модель 200B для анализа контрактов:

☁️ Облачный API
~2,8 млн ₽
в год (при масштабировании)
1000 контрактов/день × Неизвестно/1K токенов × 365 дней. Масштаби использованием. Данные покидают сеть.
🖥️ Локальное оборудование (DGX Spark)
310 тыс. ₽
единовременная инвестиция
+ ~1 200 ₽/месяц за электричество. Неограниченное использование. Данные никогда не покидают LAN. Актив на балансе.

При 1000 запросов в день DGX Spark окупается менее чем за 2 месяца по сравнению с облачными API-расходами. При более высоком использовании срок окупаемости сокращается до недель.

Экономика становится еще выгоднее при учете:

  • Несколько сотрудников, использующих одно оборудование (DGX Spark обслуживает 2–5 одновременных пользователей)
  • Никакой поблочной оплаты — сложные многоэтапные задачи с рассуждениями не требуют доплат
  • Тонкая настройка на собственных данных — недоступна в большинстве облачных API, бесплатна на локальном оборудовании
  • Рыночная стоимость оборудования — аппаратное обеспечение ИИ сохраняет значительную ценность на вторичном рынке