Руководство по локальному оборудованию для ИИ для МСБ 2026–2027

NVIDIA DGX Spark — устройство размером с книгу, способное запускать ИИ-модели с 200 миллиардами параметров (400 миллиардов при объединении двух устройств) — представляет новую эру владения настольными ИИ-системами.

1 Основы
Зачем локальный ИИ? Бизнес-кейс для владения

В начале 2020-х искусственный интеллект был услугой, которую вы арендовали — по часам, за токены, за API-вызовы. К 2026 году парадигма изменилась. Оборудование, необходимое для запуска интеллекта уровня GPT-4, теперь помещается на вашем столе и стоит меньше подержанного автомобиля.

Продолжающаяся зависимость только от облачного ИИ создаёт стратегическую трилемму:

Растущие расходы. API-тарифы за токен масштабируются линейно с использованием. Юридическая фирма, обрабатывающая 1000 контрактов в день, может столкнуться с годовыми API-расходами в ~2,8 млн ₽.
Утечка данных. Каждый запрос, отправленный в облачный API, — это данные, покидающие вашу сеть и подвергающиеся рискам безопасности и конфиденциальности.
Отсутствие или дорогостоящая кастомизация. Облачные модели универсальны. Их сложно или дорого точно настраивать под пользовательские данные, внутренние бизнес-процессы или бизнес-аналитику.

Локальное оборудование для ИИ решает все три проблемы. Оно превращает переменные затраты на API в фиксированный капитальный актив, гарантирует, что данные никогда не покидают локальную сеть, и позволяет глубокую кастомизацию через точную настройку на бизнес-данных.

2 Снижение затрат
Квантование: Запуск больших ИИ-моделей на более дешёвом оборудова

Квантование — это концепция, которая фундаментально меняет экономику локального ИИ.

Проще говоря, квантование сжимает объём памяти, необходимый для ИИ-модели. Стандартная модель хранит каждый параметр как 16-битное число с плавающей запятой (FP16). Квантование сокращает это до 8-бит (Int8), 4-бит (Int4) или даже меньше — радикально уменьшая объём памяти, необходимый для запуска модели.

Квантование приводит к небольшому снижению качества вывода — часто незаметному для бизнес-задач, таких как суммаризация, составление текстов и анализ — в обмен на значительное снижение стоимости оборудования.

Требуемая память: модель ИИ 400B при разных уровнях точности

FP16

Полная точность

~800 GB

Int8

Вдвое меньше

~400 GB

Int4

Вчетверо меньше

~200 GB

FP16 — Максимальное качество, максимальная стоимость

Int8 — Почти идеальное качество, вдвое дешевле

Int4 — Высокое качество, вчетверо дешевле

Бизнес-эффект

Модель 400B с полной точностью требует ~800 ГБ памяти — инвестиции в сервер на ~15 млн ₽. Та же модель, квантованная до Int4, требует всего ~200 ГБ и может работать на двух объединенных мини-ПК DGX Spark (на базе GB10 Superchip) за 620 тыс. ₽.

Mixture of Experts (MoE)

Mixture of Experts — ещё один трюк архитектуры ИИ-моделей, позволяющий развертывать огромные модели без огромных затрат памяти.

Вместо использования всех параметров для каждого запроса, MoE-модель активирует лишь часть своей мощности через sparse activation (разреженную активацию).

MoE-модель с 2 триллионами параметров, такая как Llama 4 Behemoth, активирует всего 288B параметров на запрос — обеспечивая передовой интеллект за малую долю стоимости памяти.

Компромисс

MoE-модели немного менее эффективны в простых задачах, таких как суммаризация и классификация, по сравнению с плотными моделями того же размера. В интеллектуальной работе и рассуждениях — сложном анализе, генерации кода и исследованиях — MoE-модели превосходны.

Разреженная активация обеспечивает более высокую скорость вывода и меньшее время отклика.

3 Мини-ПК
ИИ мини-ПК 100 тыс. ₽ – 800 тыс. ₽

Самое революционное достижение 2026 года — высокопроизводительные ИИ-вычисления в форм-факторе мини-ПК. Устройства размером не больше книги теперь запускают ИИ-модели, для которых два года назад требовались серверные комнаты.

Экосистема NVIDIA GB10 (DGX Spark)

Лидер производительности

NVIDIA DGX Spark определил эту категорию. В 2026 году суперчип GB10 — сочетающий ARM Grace CPU и GPU Blackwell — породил целую экосистему. ASUS, GIGABYTE, Dell, Lenovo, HP, MSI и Supermicro выпускают системы на базе GB10 с разными форм-факторами, системами охлаждения и предустановленным ПО.

Экосистема NVIDIA GB10 ASUS, GIGABYTE, Dell, Lenovo, HP, MSI и Supermicro

От 310 тыс. ₽

Память

128 ГБ

Единая LPDDR5X

Вычисления

~1 ПФЛОП

Производительность ИИ (FP8)

Сеть

10 Гбит/с Ethernet + Wi-Fi 7

ConnectX для кластеризации

Хранилище

4 ТБ SSD

NVMe

Кластеризация

Да (2 устройства)

Объединённая память 256 ГБ

ПО

NVIDIA AI Enterprise

CUDA, cuDNN, TensorRT

Кластеризация: ёмкость 256 ГБ

Соединив два устройства GB10 через выделенный высокоскоростной сетевой порт, система объединяет ресурсы в единое пространство памяти 256 Г. Это позволяет запускать очень большие модели — 400B+ квантованных параметров — полностью на вашем столе при общих инвестициях в оборудование примерно 620 тыс. ₽.

Мини-ПК на AMD Ryzen AI Max (Strix Halo)

Самая низкая стоимость

Архитектура AMD Ryzen AI Max+ Strix Halo породила совершенно новый класс бюджетных ИИ мини-ПК. Ряд производителей — GMKtec, Beelink, Corsair, NIMO, Bosgame, FAVM — теперь поставляют системы с единой памятью 128 ГБ дешевле ~150 тыс. ₽.

Мини-ПК на AMD Ryzen AI Max GMKtec EVO-X2 · Beelink · Corsair · NIMO AI · Bosgame M5 · FAVM FA-EX9

От ~120 тыс. ₽

Память

128 ГБ

Общая LPDDR5 (CPU+GPU)

Вычисления

~0.2 ПФЛОП

Интегрированная GPU RDNA 3.5

Пропускная способность

~200 ГБ/с

Пропускная способность памяти

Питание

~100 Вт

Бесшумная работа

Кластеризация

Нет

Только автономно

ОС

Windows / Linux

ROCm / llama.cpp

Apple Mac Studio (M4 Ultra)

Лидер по ёмкости

Mac Studio занимает уникальное положение в ландшафте локального ИИ. Единая архитектура памяти Apple (UMA) обеспечивает до 256 ГБ памяти, доступной как CPU, так и GPU, в одном компактном настольном устройстве — без необходимости кластеризации.

Это делает его единственным доступным устройством, способным загружать самые большие модели с открытым исходным кодом. Модель с 400 миллиардами параметров, квантованная до Int4, полностью помещается в памяти в конфигурации 256 ГБ.

Apple Mac Studio (M4 Ultra) Лидер по ёмкости ИИ в одном устройстве

От 310 тыс. ₽

Память

До 256 ГБ

Единая память (UMA)

Вычисления

~0.5 ПФЛОП

Apple Neural Engine + GPU

ПО

Фреймворк MLX

Оптимизированный Apple вывод

Ограничение

Только вывод

Медленно для обучения/точной настройки

Apple Mac Studio (M5 Ultra)

Перспективный претендент

Ожидается, что новое поколение M5 Ultra от Apple, выход которого планируется на конец 2026 года, устранит главный недостаток M4: производительность при обучении ИИ-моделей. Созданный по 2-нм техпроцессу TSMC, он, как ожидается, предложит конфигурации с единой памятью до 512 ГБ и пропускной способностью свыше 1,2 ТБ/с.

Apple Mac Studio (M5 Ultra) Ожидаемый монстр для обучения ИИ

Ориент. ~920 тыс. ₽

Память

о 512 ГБ

Единая память нового поколения

Вычисления

~1.5+ ПФЛОП

2-нм Neural Engine

ПО

MLX 2.0+

Нативная поддержка обучения

Возможности

Обучение и вывод

Альтернатива CUDA

Пропускная способность памяти: 1,2 ТБ/с Ёмкость

512 ГБ M5 Ultra станет первым потребительским устройством, способным запускать неквантованные (полной точности) передовые модели. Высокая пропускная способность памяти 1,2+ ТБ/с поддерживает агентские ИИ-процессы, требующие устойчивого высокопроизводительного вывода с очень длинными контекстными окнами.

Tiiny AI
Карманный ИИ-суперкомпьютер
Выпущенный на Kickstarter в 2026 году за %1$s, Tiiny.ai Pocket AI Computer — карманный суперкомпьютер с памятью 80 ГБ LGDDR5X и SSD на 1 ТБ, поддерживающий локальный запуск моделей ИИ 120B в любом месте.
При весе 300 граммов (142×22×80мм) и питании от стандартного USB-C он поддерживает инновационные бизнес-приложения. Tiiny AI сообщает о скорости вывода 21,14 токенов в секунду для GPT-OSS-120B.
Память на устройство
12 ГБ
ИИ-ёмкость 48 ГБ
Хотя основан на архитектуре предыдущего поколения Ampere, он остаётся отраслевым стандартом для надёжного вывода и тонкой настройки. Идеально подходит для команд, внедряющих ИИ без бюджета на Blackwell.
Несмотря на высокую стоимость, DGX Station заменяет серверную стойку за %1$s и связанную инфраструктуру охлаждения. Подключается к стандартной розетке. Это полностью устраняет накладные расходы на серверную комнату.
Когда вашему бизнесу нужно обслуживать многих сотрудников одновременно, запускать модели класса foundation с полной точностью или дообучать кастомные модели на собственных данных — вы переходите на серверный уровень.
Gaudi 3 доступен в двух форм-факторах:
PCIe-карта (HL-338)
Стандартный форм-фактор PCIe для интеграции в существующие серверы. Ориентировочная цена: %1$s за карту.
OAM (OCP Accelerator Module)
Стандарт OCP высокой плотности для облачных дата-центров. %1$s за чип при покупке наборами по 8 чипов (%2$s всего с базовой платой).
Сервер с 8 картами Gaudi 3 обеспечивает 1 ТБ общей ИИ-памяти по гораздо более низкой стоимости, чем сопоставимая система NVIDIA H100.
Дешевле сопоставимой конфигурации NVIDIA H100
AMD Instinct MI325X содержит 256 ГБ памяти HBM3e на карту — вдвое больше, чем Intel Gaudi 3. Для достижения 1 ТБ общей ИИ-памяти нужно всего 4 карты против 8 у Intel.
Стартовая стоимость с 1 картой %1$s
MI325X дороже за систему, чем Gaudi 3, но быстрее и компактнее. Для рабочих нагрузок, требующих максимальной пропускной способности — вывода в реальном времени для многих пользователей или обучения кастомных моделей на больших наборах данных — более высокая инвестиция окупается за счёт снижения задержек и упрощения инфраструктуры.
Ноутбуки с чипами Qualcomm Snapdragon X Elite, Intel Core Ultra или AMD Ryzen AI содержат специализированные ИИ-чипы — Neural Processing Units (NPU). Они не могут запускать большие LLM, но обрабатывают небольшие постоянные ИИ-задачи: живую транскрипцию, размытие фона, локальные функции Recall и запуск лёгких моделей, таких как Microsoft Phi-3.
NPU оцениваются в TOPS (Тера операций в секунду), что измеряет их ИИ-производительность. Самые мощные Copilot+ ПК в 2026 году имеют ~50 TOPS. Более высокий TOPS означает более быстрые ответы и возможность обработки чуть более крупных ИИ-моделей.
Главное преимущество локального ИИ-оборудования — не производительность, а суверенитет данных. Когда ваш ИИ-сервер работает за вашим фаерволом, а не в чужом облаке, ваши конфиденциальные данные никогда не покидают здание.
Архитектура Air-Gapped API физически изолирует ИИ-сервер от интернета, обеспечивая доступ авторизованным сотрудникам через API-интерфейс.
Рассмотрим юридическую фирму, использующую модель 200B для анализа контрактов:
1000 контрактов/день × %1$s/1K токенов × 365 дней. Масштаби использованием. Данные покидают сеть.
+ %1$s/месяц за электричество. Неограниченное использование. Данные никогда не покидают LAN. Актив на балансе.
При 1000 запросов в день DGX Spark окупается менее чем за 2 месяца по сравнению с облачными API-расходами. При более высоком использовании срок окупаемости сокращается до недель.
```

Карманный ИИ-суперкомпьютер

Выпущенный на Kickstarter в 2026 году за 108 тыс. ₽, Tiiny.ai Pocket AI Computer — карманный суперкомпьютер с памятью 80 ГБ LGDDR5X и SSD на 1 ТБ, поддерживающий локальный запуск моделей ИИ 120B в любом месте.

При весе 300 граммов (142×22×80мм) и питании от стандартного USB-C он поддерживает инновационные бизнес-приложения. Tiiny AI сообщает о скорости вывода 21,14 токенов в секунду для GPT-OSS-120B.

Tenstorrent

Оборудование с открытым исходным кодом

Под руководством легендарного архитектора чипов Джима Келлера, Tenstorrent представляет принципиально иную философию: оборудование с открытым исходным кодом на базе RISC-V, открытое ПО и модульное масштабирование через последова соединение.

ИИ-ядра Tensix спроектированы для линейного масштабирования: в отличие от GPU, которые испытывают трудности с накладными расходами на связь при добавлении карт, чипы Tenstorrent созданы для эффективного объединения.

В партнёрстве с Razer Tenstorrent выпустила компактный внешний ИИ-ускоритель, подключаемый к любому ноутбуку или настольному ПК через Thunderbolt — превращая существующее оборудование в ИИ-рабочую станцию без замены компонентов.

Компактный ИИ-ускоритель Razer × Tenstorrent Внешний ИИ-ускоритель Thunderbolt

Цена Неизвестно

Память на устройство

12 ГБ

GDDR6

Чип

Wormhole n150

Ядра Tensix · RISC-V

Масштабирование

До 4 устройств

ИИ-ёмкость 48 ГБ

ПО

Полностью открытый исходный код

GitHub · TT-Metalium

ИИ NAS — Сетевое хранилище

Хранилище + ИИ

Определение NAS изменилось от пассивного хранения к активному интеллекту. Новое поколение сетевых устройств хранения напрямую интегрирует ИИ-обработку — от лёгких NPU-инференций до полного GPU-ускоренного развёртывания LLM.

NAS с поддержкой ИИ устраняет необходимость в отдельном ИИ-устройстве и позволяет напрямую обрабатывать большие объёмы данных без задержек передачи по сети.

⏻

Нужна помощь в выборе подходящего ИИ-мини-ПК для вашего бизнеса?

Наши инженеры оценят ваши требования к ИИ-оборудованию и развернут полностью настроенную ИИ-систему.

Получить бесплатную оценку оборудования →

4 Рабочие станции
ИИ-рабочие станции и настольные ПК 230 тыс. – 1,2 млн ₽

Уровень рабочих станций использует дискретные видеокарты PCIe и стандартные корпуса типа tower. В отличие от фиксированных архитектур мини-ПК, этот уровень предлагает модульность — вы можете обновлять отдельные компоненты, добавлять GPU или менять карты по мере развития технологий.

Рабочая станция с двумя RTX A6000 и мостом NVLink предлагает 96 ГБ объединённой видеопамяти примерно за 540 тыс. ₽.

Понимание VRAM и скорости

Выбор GPU для ИИ определяют два конкурирующих фактора:

📦

Объём VRAM

Определяет размер модели, которую можно загрузить. Больше VRAM — значит более крупные и мощные модели. Это ваш потолок интеллекта.

⚡

Скорость вычислений

Определяет скорость отклика модели. Более высокая производительность означает меньшую задержку на запрос. Это ваш пользовательский опыт.

Игровые карты (например, RTX 5090) максимизируют скорость, но предлагают ограниченный VRAM — обычно 24–32 ГБ. Профессиональные карты (например, RTX PRO 6000 Blackwell) максимизируют VRAM — до 96 ГБ на карту — но стоят дороже за единицу производительности.

VRAM — ключевое ограничение. Быстрая карта с недостаточной памятью не сможет загрузить модель ИИ. Более медленная карта с достаточным VRAM запустит модель — просто с большим временем отклика.

Потребительские GPU

Конфигурация	Всего VRAM	Связь	Примерная стоимость
2× RTX 3090 (б/у)	48 ГБ	NVLink	~230 тыс. ₽
2× RTX 4090	48 ГБ	PCIe Gen 5	310 тыс. ₽
2× RTX 5090	64 ГБ	PCIe Gen 5	540 тыс. ₽

Профессиональные GPU

Конфигурация	Всего VRAM	Связь	Примерная стоимость
2× RTX A6000 Лучшее соотношение	96 ГБ	NVLink	540 тыс. ₽
2× RTX 6000 Ada	96 ГБ	PCIe Gen 5	1 млн ₽
1× RTX PRO 6000 Blackwell	96 ГБ	NVLink	620 тыс. ₽
4× RTX PRO 6000 Blackwell	384 ГБ	PCIe Gen 5	2,5 млн ₽

Датацентровские GPU

Конфигурация	Всего VRAM	Связь	Примерная стоимость
1× L40S	48 ГБ	PCIe 4.0 (пассивное охлаждение)	540 тыс. ₽
1× A100 PCIe	80 ГБ	PCIe 4.0	770 тыс. ₽
1× H200 NVL	141 ГБ	NVLink	2,3 млн ₽
4× H200 NVL	564 ГБ	NVLink	9,2 млн ₽
1× B200 SXM	180 ГБ	NVLink 5 (1,8 ТБ/с)	2,3 млн ₽
8× B200 SXM	1 440 ГБ	NVLink 5 (1,8 ТБ/с)	18,5 млн ₽

Китайские GPU

Китайская экосистема GPU быстро созрела. Несколько производителей предлагают ИИ-ускорители уровня рабочих станций с конкурентоспособными характеристиками и значительно более низкими ценами.

Конфигурация	Всего VRAM	Тип памяти	Примерная стоимость
1× Moore Threads MTT S4000	48 ГБ	GDDR6	62 тыс. ₽
4× Moore Threads MTT S4000	192 ГБ	GDDR6	270 тыс. ₽
8× Moore Threads MTT S4000	384 ГБ	GDDR6	500 тыс. ₽
1× Hygon DCU Z100	32 ГБ	HBM2	190 тыс. ₽
1× Biren BR104	32 ГБ	HBM2e	~230 тыс. ₽
8× Biren BR104	256 ГБ	HBM2e	1,8 млн ₽
1× Huawei Ascend Atlas 300I Duo	96 ГБ	HBM2e	92 тыс. ₽
8× Huawei Ascend Atlas 300I Duo	768 ГБ	HBM2e	770 тыс. ₽

Ожидаемые

Конфигурация	Всего VRAM	Статус	Примерная стоимость
RTX 5090 128 ГБ	128 ГБ	Китайская мод. — не стандартная SKU	390 тыс. ₽
RTX Titan AI	64 ГБ	Ожидается в 2027	~230 тыс. ₽

MSI NVIDIA RTX PRO 6000 Blackwell Server

NVIDIA DGX Station

Enterprise Apex

NVIDIA DGX Station — это водяное охлаждение "суперкомпьютер" на столе, приносящий производительность дата-центра в офис. Последняя версия использует суперчип GB300 Grace Blackwell.

NVIDIA DGX Station GB300 Future-Proof Ultra

Примерная цена ~15 млн ₽

Версия Blackwell Ultra увеличивает плотность памяти и вычислительную мощность, разработана для организаций, которым нужно обучать модели с нуля или запускать огромные MoE-архитектуры локально.

Память

~1,5 ТБ+

HBM3e (сверхбыстрая)

Вычисления

~20+ PFLOPS

Производительность ИИ (FP8)

Сценарий использования

Кастомное обучение

Разработка моделей

Питание

Обычная розетка

Не требует серверной комнаты

NVIDIA DGX Station GB300 Blackwell Ultra

NVIDIA DGX Station A100 Доступный ИИ-рабочий

От ~7,7 млн ₽

Хотя основан на архитектуре предыдущего поколения Ampere, он остаётся отраслевым стандартом для надёжного вывода и тонкой настройки. Идеально подходит для команд, внедряющих ИИ без бюджета на Blackwell.

Память

320 ГБ

4x GPU A100 по 80 ГБ

Вычисления

2 PFLOPS

ИИ-производительность FP16

Многопользовательский

5–8 одновременных

Умеренная параллельность

Питание

Обычная розетка

Не требует серверной комнаты

Несмотря на высокую стоимость, DGX Station заменяет серверную стойку за ~23 млн ₽ и связанную инфраструктуру охлаждения. Подключается к стандартной розетке. Это полностью устраняет накладные расходы на серверную комнату.

⏻

Нужна помощь в выборе подходящей ИИ-рабочей станции для вашего бизнеса?

Наши инженеры оценят ваши требования к ИИ-оборудованию и развернут полностью настроенную ИИ-систему.

Получить бесплатную оценку оборудования →

5 Серверы
ИИ-серверы 1,2 млн – 15 млн ₽

Когда вашему бизнесу нужно обслуживать многих сотрудников одновременно, запускать модели класса foundation с полной точностью или дообучать кастомные модели на собственных данных — вы переходите на серверный уровень.

Это область специализированных ИИ-ускорителей с памятью высокой пропускной способности (HBM), специальными соединениями и форм-факторами для стоек или размещения рядом со столом. Оборудование дороже, но стоимость на пользователя резко снижается при масштабировании.

Intel Gaudi 3

Лучшее соотношение на масштабе

Ускоритель Gaudi 3 от Intel создавался как чип для обучения и инференса ИИ — не перепрофилированная видеокарта. Каждая карта предоставляет 128 ГБ памяти HBM2e с интегрированной сетью 400 Gb Ethernet, устраняя необходимость в отдельных сетевых адаптерах.

Gaudi 3 доступен в двух форм-факторах:

PCIe-карта (HL-338): Стандартный форм-фактор PCIe для интеграции в существующие серверы. Ориентировочная цена: ~920 тыс. ₽ за карту.
OAM (OCP Accelerator Module): Стандарт OCP высокой плотности для облачных дата-центров. 1,2 млн ₽ за чип при покупке наборами по 8 чипов (~9,6 млн ₽ всего с базовой платой).

Сервер с 8 картами Gaudi 3 обеспечивает 1 ТБ общей ИИ-памяти по гораздо более низкой стоимости, чем сопоставимая система NVIDIA H100.

💾

Память на карту

128 ГБ

HBM2e — соответствует DGX Spark в одной карте

⚡

Всего на 8 карт

1 ТБ

1 024 ГБ объединённой памяти для крупнейших моделей

💰

Стоимость системы

~15 млн ₽

Дешевле сопоставимой конфигурации NVIDIA H100

AMD Instinct MI325X

Максимальная плотность

AMD Instinct MI325X содержит 256 ГБ памяти HBM3e на карту — вдвое больше, чем Intel Gaudi 3. Для достижения 1 ТБ общей ИИ-памяти нужно всего 4 карты против 8 у Intel.

💾

Общая память на 4 карты

1 ТБ

Вдвое меньше карт, чем у Intel, при той же ёмкости

⚡

Пропускная способность

6 ТБ/с

На карту — позволяет одновременных пользователей

💰

Стоимость системы

~15 млн ₽

Стартовая стоимость с 1 картой ~4,6 млн ₽

MI325X дороже за систему, чем Gaudi 3, но быстрее и компактнее. Для рабочих нагрузок, требующих максимальной пропускной способности — вывода в реальном времени для многих пользователей или обучения кастомных моделей на больших наборах данных — более высокая инвестиция окупается за счёт снижения задержек и упрощения инфраструктуры.

Huawei Ascend

Полноценная альтернатива

Huawei воспроизвела полный стек ИИ-инфраструктуры: кастомные чипы (Ascend 910B/C), собственные соединения (HCCS) и полное ПО (CANN). Результат — автономная экосистема, работающая независимо от западных цепочек поставок и за гораздо меньшую стоимость, чем кластеры NVIDIA H100.

Intel Xeon 6 (Granite Rapids)

Бюджетный сервер

Тихая революция 2026 года — рост ИИ-инференса на CPU. Процессоры Intel Xeon 6 включают AMX (Advanced Matrix Extensions), позволяющие ИИ-задачи на стандартной DDR5 RAM — что значительно дешевле памяти GPU.

Компромисс

С с двумя сокетами Xeon 6 может содержать 1–4 ТБ DDR5 RAM за малую часть стоимости памяти GPU. Скорость инференса низкая, но для пакетной обработки — где скорость не важна, а интеллект и ёмкость критичны — это революционно.

Пример: Малый бизнес загружает 100 000 отсканированных счетов-фактур за ночь. Сервер Xeon 6 запускает ИИ-модель размером +400B для идеального извлечения данных. Задача занимает 10 часов, но стоимость оборудования значительно ниже, чем у GPU-сервера.

⏻

Нужна помощь в выборе правильной серверной инфраструктуры для ИИ?

Наша команда по инфраструктурерует и внедряет комплексные серверные решения для ИИ — от Intel Gaudi до NVIDIA DGX — в сочетании с индивидуальным программчением, чтобы раскрыть возможности ИИ для вашего бизнеса.

Запросить предложение по серверной архитектуре →

6 Edge ИИ
Edge ИИ и модернизация Обновление существующей инфраструктуры

Не каждому малому бизнесу нужен выделенный ИИ-сервер или мини-ПК. Многие могут внедрить интеллект в существующую инфраструктуру — обновив ноутбуки, десктопы и сетевые устройства с ИИ-возможностями при минимальных затратах.

M.2 ИИ-ускорители: H-10

Hailo-10 — стандартный модуль M.2 2280 (такой же слот, как для SSD), который добавляет выделенную ИИ-обработку в любой существующий ПК. При стоимости ~~12 тыс. ₽ за штуку и потреблении всего 5–8 Вт он позволяет выполнять ИИ-апгрейд всего парка без замены оборудования.

📎

Форм-фактор

M.2 2280

Помещается в любой стандартный SSD-слот

⚡

Производительность

20–50 TOPS

Оптимизирован для edge-инференса

💰

Стоимость

~12 тыс. ₽

За единицу — обновление парка менее чем за ~230 тыс. ₽

Варианты использования: Локальная транскрипция встреч (Whisper), субтитры в реальном времени, голосовой ввод, инференс небольших моделей (Phi-3 Mini). Эти карты не могут запускать большие LLM, но они отлично справляются со специфическими постоянными ИИ-задачами — гарантируя локальную обработку голосовых данных без отправки в облако.

Copilot+ ПК (ноутбуки с NPU)

Ноутбуки с чипами Qualcomm Snapdragon X Elite, Intel Core Ultra или AMD Ryzen AI содержат специализированные ИИ-чипы — Neural Processing Units (NPU). Они не могут запускать большие LLM, но обрабатывают небольшие постоянные ИИ-задачи: живую транскрипцию, размытие фона, локальные функции Recall и запуск лёгких моделей, таких как Microsoft Phi-3.

NPU оцениваются в TOPS (Тера операций в секунду), что измеряет их ИИ-производительность. Самые мощные Copilot+ ПК в 2026 году имеют ~50 TOPS. Более высокий TOPS означает более быстрые ответы и возможность обработки чуть более крупных ИИ-моделей.

9 ИИ-модели
ИИ-модели с открытым исходным кодом (2026–2027)

Выбор ИИ-модели определяет требования к оборудованию — но, как показала глава о квантизации ИИ-моделей, квантизация позволяет запускать передовые модели на оборудовании, стоящем долю стоимости развертывания в полной точности.

В таблице ниже представлен обзор текущих и будущих ИИ-моделей с открытым исходным кодом.

Модель	Размер	Архитектура	Память (FP16)	Память (INT4)
Llama 4 Behemoth	288B (активных)	MoE (~2T всего)	~4 ТБ	~1 ТБ
Llama 4 Maverick	17B (активных)	MoE (400B всего)	~800 ГБ	~200 ГБ
Llama 4 Scout	17B (активных)	MoE (109B всего)	~220 ГБ	~55 ГБ
DeepSeek V4	~70B (активных)	MoE (671B всего)	~680 ГБ	~170 ГБ
DeepSeek R1	37B (активных)	MoE (671B всего)	~140 ГБ	~35 ГБ
DeepSeek V3.2	~37B (активных)	MoE (671B всего)	~140 ГБ	~35 ГБ
Kimi K2.5	32B (активных)	MoE (1T всего)	~2 ТБ	~500 ГБ
Qwen 3.5	397B (активных)	MoE (A17B)	~1.5 ТБ	~375 ГБ
Qwen 3-Max-Thinking	Большая	Плотная	~2 ТБ	~500 ГБ
Qwen 3-Coder-Next	480B (B активных)	MoE	~960 ГБ	~240 ГБ
Mistral Large 3	123B (41B активных)	MoE (675B всего)	~246 ГБ	~62 ГБ
Ministral 3 (3B, 8B, 14B)	3B–14B	Плотная	~6–28 ГБ	~2–7 ГБ
GLM-5	44B (активных)	MoE (744B всего)	~1.5 ТБ	~370 ГБ
GLM-4.7 (Thinking)	Большая	Плотная	~1.5 ТБ	~375 ГБ
MiMo-V2-Flash	15B (активных)	MoE (309B всего)	~30 ГБ	~8 ГБ
MiniMax M2.5	~10B (активных)	MoE (~230B всего)	~460 ГБ	~115 ГБ
Phi-5 Reasoning	14B	Плотная	~28 ГБ	~7 ГБ
Phi-4	14B	Плотная	~28 ГБ	~7 ГБ
Gemma 3	27B	Плотная	~54 ГБ	~14 ГБ
Pixtral 2 Large	90B	Плотная	~180 ГБ	~45 ГБ
Stable Diffusion 4	~12B	DiT	~24 ГБ	~6 ГБ
FLUX.2 Pro	15B	DiT	~30 ГБ	~8 ГБ
Open-Sora 2.0	30B	DiT	~60 ГБ	~15 ГБ
Whisper V4	1.5B	Плотная	~3 ГБ	~1 ГБ
Med-Llama 4	70B	Плотная	~140 ГБ	~35 ГБ
Legal-BERT 2026	35B	Плотная	~70 ГБ	~18 ГБ
Finance-LLM 3	15B	Плотная	~30 ГБ	~8 ГБ
CodeLlama 4	70B	Плотная	~140 ГБ	~35 ГБ
Molmo 2	80B	Плотная	~160 ГБ	~40 ГБ
Granite 4.0	32B (9B активных)	Гибрид Mamba-Transformer	~64 ГБ	~16 ГБ
Nemotron 3	8B, 70B	Плотная	~16–140 ГБ	~4–35 ГБ
EXAONE 4.0	32B	Плотная	~64 ГБ	~16 ГБ
Llama 5 Frontier	~1,2T (всего)	MoE	~2.4 ТБ	~600 ГБ
Llama 5 Base	70B–150B	Плотная	~140–300 ГБ	~35–75 ГБ
DeepSeek V5	~600B (всего)	MoE	~1.2 ТБ	~300 ГБ
Stable Diffusion 5	TBD	DiT	—	—
Falcon 3	200B	Плотная	~400 ГБ	~100 ГБ

Стратегические рекомендации

Не покупайте оборудование первым. Определите класс модели, соответствующий вашим бизнес-потребностям, затем примените квантизацию, чтобы определить наиболее доступный уровень оборудования.

Разница между инвестицией в ~230 тыс. ₽ и 11,6 млн ₽ часто сводится к требованиям к размеру модели и количеству одновременных пользователей.

Тренды, формирующие ландшафт ИИ-моделей

Нативная мультимодальность как стандарт. Новые модели обучаются на тексте, изображениях, аудио и видео одновременно — не как отдельные возможности, добавленные после обучения. Это означает, что одна модель обрабатывает анализ документов, понимание изображений и голосовое взаимодействие.
Малые модели достигают возможностей больших. Phi-5 (14B MiMo-V2-Flash демонстрируют, что архитектурные инновации могут сжать передовые возможности рассуждений в модели, работающие на ноутбуке. Эра "чем больше, тем лучше" заканчивается.
Специализация вместо универсальности. Вместо одной огромной модели для всего тренд смещается к ансамблям специализированных моделей — модель для кодирования, модель рассуждений, модель зрения — управляемых агентурным фреймворком. Это снижает требования к оборудованию на модель при повышении общего качества.
Агентный ИИ. Модели вроде Kimi K2.5 и Qwen 3 предназначены для автономного разложения сложных задач, вызова внешних инструментов и координации с другими моделями. Эта парадигма роя агентов требует устойчивой пропускной способности в длинных сессиях — предпочитая оборудование с высокой пропускной способностью, такое как GB10 и M5 Ultra.
Созревание генерации видео и 3D. Open-Sora 2.0 и FLUX.2 Pro сигнализи что локальная генерация видео становится практичной. К 2027 году ожидайте ассистентов для редактирования видео в реальном времени на оборудовании класса рабочих станций.

10 Безопасность
Архитектура для максимальной безопасности

Главное преимущество локального ИИ-оборудования — не производительность, а суверенитет данных. Когда ваш ИИ-сервер работает за вашим фаерволом, а не в чужом облаке, ваши конфиденциальные данные никогда не покидают здание.

Архитектура Air-Gapped API физически изолирует ИИ-сервер от интернета, обеспечивая доступ авторизованным сотрудникам через API-интерфейс.

Архитектура Air-Gapped API

👤 Сотрудник Стандартная рабочая станция

→

🔀 Брокер-сервер Аутентификация + UI + Маршрутизация

⟶

🔒 ИИ-сервер Air-gapped · Без интернета

ИИ-хранилище

Эта архитектура создает Цифровое хранилище. Даже если брокер-сервер будет скомпрометирован, злоумышленник отправлять только текстовые запросы — он не получит доступ к файловой системе ИИ-сервера, весам модели, данным тонкой настройки или любым хранимым документам.

⏻

Нужно безопасное развертывание ИИ с индивидуальными решениями?

Наши инженеры проектируют и внедряют air-gapped ИИ-архитектуры, гарантируя, что данные никогда не покидают территорию, обеспечивая ваш бизнес передовыми ИИ-возможностями.

Обсудить безопасную ИИ-архитектуру →

11 Экономика
Экономический вердикт: локальное решение против облака

Переход на локальное ИИ-оборудование — это сдвиг от OpEx (операционные расходы — ежемесячные платы за облачные API) к CapEx (капитальные расходы — единовременные инвестиции в оборудование, становящиеся активом в вашем балансе).

Рассмотрим юридическую фирму, использующую модель 200B для анализа контрактов:

☁️ Облачный API

~2,8 млн ₽

в год (при масштабировании)

1000 контрактов/день × Неизвестно/1K токенов × 365 дней. Масштаби использованием. Данные покидают сеть.

🖥️ Локальное оборудование (DGX Spark)

310 тыс. ₽

единовременная инвестиция

+ ~1 200 ₽/месяц за электричество. Неограниченное использование. Данные никогда не покидают LAN. Актив на балансе.

При 1000 запросов в день DGX Spark окупается менее чем за 2 месяца по сравнению с облачными API-расходами. При более высоком использовании срок окупаемости сокращается до недель.

Экономика становится еще выгоднее при учете:

Несколько сотрудников, использующих одно оборудование (DGX Spark обслуживает 2–5 одновременных пользователей)
Никакой поблочной оплаты — сложные многоэтапные задачи с рассуждениями не требуют доплат
Тонкая настройка на собственных данных — недоступна в большинстве облачных API, бесплатна на локальном оборудовании
Рыночная стоимость оборудования — аппаратное обеспечение ИИ сохраняет значительную ценность на вторичном рынке

Полное руководство по локальному оборудованию для ИИ для малого и среднего бизнеса

1 Основы
Зачем локальный ИИ? Бизнес-кейс для владения

2 Снижение затрат
Квантование: Запуск больших ИИ-моделей на более дешёвом оборудова

Mixture of Experts (MoE)

3 Мини-ПК
ИИ мини-ПК 100 тыс. ₽ – 800 тыс. ₽

Экосистема NVIDIA GB10 (DGX Spark)

Мини-ПК на AMD Ryzen AI Max (Strix Halo)

Apple Mac Studio (M4 Ultra)

Apple Mac Studio (M5 Ultra)

Tenstorrent

ИИ NAS — Сетевое хранилище

Нужна помощь в выборе подходящего ИИ-мини-ПК для вашего бизнеса?

4 Рабочие станции
ИИ-рабочие станции и настольные ПК 230 тыс. – 1,2 млн ₽

Понимание VRAM и скорости

Потребительские GPU

Профессиональные GPU

Датацентровские GPU

Китайские GPU

Ожидаемые

NVIDIA DGX Station

Нужна помощь в выборе подходящей ИИ-рабочей станции для вашего бизнеса?

5 Серверы
ИИ-серверы 1,2 млн – 15 млн ₽

Intel Gaudi 3

AMD Instinct MI325X

Huawei Ascend

Intel Xeon 6 (Granite Rapids)

Нужна помощь в выборе правильной серверной инфраструктуры для ИИ?

6 Edge ИИ
Edge ИИ и модернизация Обновление существующей инфраструктуры

M.2 ИИ-ускорители: H-10

Copilot+ ПК (ноутбуки с NPU)

9 ИИ-модели
ИИ-модели с открытым исходным кодом (2026–2027)

Тренды, формирующие ландшафт ИИ-моделей

10 Безопасность
Архитектура для максимальной безопасности

Нужно безопасное развертывание ИИ с индивидуальными решениями?

11 Экономика
Экономический вердикт: локальное решение против облака

Включите интеллект ВКЛ для вашего бизнеса

Полное руководство по локальному оборудованию для ИИ для малого и среднего бизнеса

1 ОсновыЗачем локальный ИИ? Бизнес-кейс для владения

2 Снижение затратКвантование: Запуск больших ИИ-моделей на более дешёвом оборудова

Mixture of Experts (MoE)

3 Мини-ПКИИ мини-ПК 100 тыс. ₽ – 800 тыс. ₽

Экосистема NVIDIA GB10 (DGX Spark)

Мини-ПК на AMD Ryzen AI Max (Strix Halo)

Apple Mac Studio (M4 Ultra)

Apple Mac Studio (M5 Ultra)

Tenstorrent

ИИ NAS — Сетевое хранилище

Нужна помощь в выборе подходящего ИИ-мини-ПК для вашего бизнеса?

4 Рабочие станцииИИ-рабочие станции и настольные ПК 230 тыс. – 1,2 млн ₽

Понимание VRAM и скорости

Потребительские GPU

Профессиональные GPU

Датацентровские GPU

Китайские GPU

Ожидаемые

NVIDIA DGX Station

Нужна помощь в выборе подходящей ИИ-рабочей станции для вашего бизнеса?

5 СерверыИИ-серверы 1,2 млн – 15 млн ₽

Intel Gaudi 3

AMD Instinct MI325X

Huawei Ascend

Intel Xeon 6 (Granite Rapids)

Нужна помощь в выборе правильной серверной инфраструктуры для ИИ?

6 Edge ИИEdge ИИ и модернизация Обновление существующей инфраструктуры

M.2 ИИ-ускорители: H-10

Copilot+ ПК (ноутбуки с NPU)

9 ИИ-моделиИИ-модели с открытым исходным кодом (2026–2027)

Тренды, формирующие ландшафт ИИ-моделей

10 БезопасностьАрхитектура для максимальной безопасности

Нужно безопасное развертывание ИИ с индивидуальными решениями?

11 ЭкономикаЭкономический вердикт: локальное решение против облака

Включите интеллект ВКЛ для вашего бизнеса

1 Основы
Зачем локальный ИИ? Бизнес-кейс для владения

2 Снижение затрат
Квантование: Запуск больших ИИ-моделей на более дешёвом оборудова

3 Мини-ПК
ИИ мини-ПК 100 тыс. ₽ – 800 тыс. ₽

4 Рабочие станции
ИИ-рабочие станции и настольные ПК 230 тыс. – 1,2 млн ₽

5 Серверы
ИИ-серверы 1,2 млн – 15 млн ₽

6 Edge ИИ
Edge ИИ и модернизация Обновление существующей инфраструктуры

9 ИИ-модели
ИИ-модели с открытым исходным кодом (2026–2027)

10 Безопасность
Архитектура для максимальной безопасности

11 Экономика
Экономический вердикт: локальное решение против облака