1 Основы
Зачем локальный ИИ? Бизнес-кейс для владения
В начале 2020-х искусственный интеллект был услугой, которую вы арендовали — по часам, за токены, за API-вызовы. К 2026 году парадигма изменилась. Оборудование, необходимое для запуска интеллекта уровня GPT-4
, теперь помещается на вашем столе и стоит меньше подержанного автомобиля.
Продолжающаяся зависимость только от облачного ИИ создаёт стратегическую трилемму:
- Растущие расходы. API-тарифы за токен масштабируются линейно с использованием. Юридическая фирма, обрабатывающая 1000 контрактов в день, может столкнуться с годовыми API-расходами в ~2,8 млн ₽.
- Утечка данных. Каждый запрос, отправленный в облачный API, — это данные, покидающие вашу сеть и подвергающиеся рискам безопасности и конфиденциальности.
- Отсутствие или дорогостоящая кастомизация. Облачные модели универсальны. Их сложно или дорого точно настраивать под пользовательские данные, внутренние бизнес-процессы или бизнес-аналитику.
Локальное оборудование для ИИ решает все три проблемы. Оно превращает переменные затраты на API в фиксированный капитальный актив, гарантирует, что данные никогда не покидают локальную сеть, и позволяет глубокую кастомизацию через точную настройку на бизнес-данных.
2 Снижение затрат
Квантование: Запуск больших ИИ-моделей на более дешёвом оборудова
Квантование — это концепция, которая фундаментально меняет экономику локального ИИ.
Проще говоря, квантование сжимает объём памяти, необходимый для ИИ-модели. Стандартная модель хранит каждый параметр как 16-битное число с плавающей запятой (FP16). Квантование сокращает это до 8-бит (Int8), 4-бит (Int4) или даже меньше — радикально уменьшая объём памяти, необходимый для запуска модели.
Квантование приводит к небольшому снижению качества вывода — часто незаметному для бизнес-задач, таких как суммаризация, составление текстов и анализ — в обмен на значительное снижение стоимости оборудования.
Модель 400B с полной точностью требует ~800 ГБ памяти — инвестиции в сервер на ~15 млн ₽. Та же модель, квантованная до Int4, требует всего ~200 ГБ и может работать на двух объединенных мини-ПК DGX Spark (на базе GB10 Superchip) за 620 тыс. ₽.
Mixture of Experts (MoE)
Mixture of Experts — ещё один трюк архитектуры ИИ-моделей, позволяющий развертывать огромные модели без огромных затрат памяти.
Вместо использования всех параметров для каждого запроса, MoE-модель активирует лишь часть своей мощности через sparse activation (разреженную активацию).
MoE-модель с 2 триллионами параметров, такая как Llama 4 Behemoth, активирует всего 288B параметров на запрос — обеспечивая передовой интеллект за малую долю стоимости памяти.
MoE-модели немного менее эффективны в простых задачах, таких как суммаризация и классификация, по сравнению с плотными моделями того же размера. В интеллектуальной работе и рассуждениях — сложном анализе, генерации кода и исследованиях — MoE-модели превосходны.
Разреженная активация обеспечивает более высокую скорость вывода и меньшее время отклика.
3 Мини-ПК
ИИ мини-ПК 100 тыс. ₽ – 800 тыс. ₽
Самое революционное достижение 2026 года — высокопроизводительные ИИ-вычисления в форм-факторе мини-ПК. Устройства размером не больше книги теперь запускают ИИ-модели, для которых два года назад требовались серверные комнаты.
Экосистема NVIDIA GB10 (DGX Spark)
Лидер производительности
NVIDIA DGX Spark определил эту категорию. В 2026 году суперчип GB10 — сочетающий ARM Grace CPU и GPU Blackwell — породил целую экосистему. ASUS, GIGABYTE, Dell, Lenovo, HP, MSI и Supermicro выпускают системы на базе GB10 с разными форм-факторами, системами охлаждения и предустановленным ПО.
Соединив два устройства GB10 через выделенный высокоскоростной сетевой порт, система объединяет ресурсы в единое пространство памяти 256 Г. Это позволяет запускать очень большие модели — 400B+ квантованных параметров — полностью на вашем столе при общих инвестициях в оборудование примерно 620 тыс. ₽.
Мини-ПК на AMD Ryzen AI Max (Strix Halo)
Самая низкая стоимость
Архитектура AMD Ryzen AI Max+ Strix Halo
породила совершенно новый класс бюджетных ИИ мини-ПК. Ряд производителей — GMKtec, Beelink, Corsair, NIMO, Bosgame, FAVM — теперь поставляют системы с единой памятью 128 ГБ дешевле ~150 тыс. ₽.
Apple Mac Studio (M4 Ultra)
Лидер по ёмкости
Mac Studio занимает уникальное положение в ландшафте локального ИИ. Единая архитектура памяти Apple (UMA) обеспечивает до 256 ГБ памяти, доступной как CPU, так и GPU, в одном компактном настольном устройстве — без необходимости кластеризации.
Это делает его единственным доступным
устройством, способным загружать самые большие модели с открытым исходным кодом. Модель с 400 миллиардами параметров, квантованная до Int4, полностью помещается в памяти в конфигурации 256 ГБ.
Apple Mac Studio (M5 Ultra)
Перспективный претендент
Ожидается, что новое поколение M5 Ultra от Apple, выход которого планируется на конец 2026 года, устранит главный недостаток M4: производительность при обучении ИИ-моделей. Созданный по 2-нм техпроцессу TSMC, он, как ожидается, предложит конфигурации с единой памятью до 512 ГБ и пропускной способностью свыше 1,2 ТБ/с.
512 ГБ M5 Ultra станет первым потребительским устройством, способным запускать неквантованные (полной точности) передовые модели. Высокая пропускная способность памяти 1,2+ ТБ/с поддерживает агентские ИИ-процессы, требующие устойчивого высокопроизводительного вывода с очень длинными контекстными окнами.
Tiiny AIКарманный ИИ-суперкомпьютерВыпущенный на Kickstarter в 2026 году за %1$s, Tiiny.ai Pocket AI Computer — карманный суперкомпьютер с памятью 80 ГБ LGDDR5X и SSD на 1 ТБ, поддерживающий локальный запуск моделей ИИ 120B в любом месте.При весе 300 граммов (142×22×80мм) и питании от стандартного USB-C он поддерживает инновационные бизнес-приложения. Tiiny AI сообщает о скорости вывода 21,14 токенов в секунду для GPT-OSS-120B.Память на устройство12 ГБИИ-ёмкость 48 ГБХотя основан на архитектуре предыдущего поколения Ampere, он остаётся отраслевым стандартом для надёжного вывода и тонкой настройки. Идеально подходит для команд, внедряющих ИИ без бюджета на Blackwell.Несмотря на высокую стоимость, DGX Station заменяет серверную стойку за %1$s и связанную инфраструктуру охлаждения. Подключается к стандартной розетке. Это полностью устраняет накладные расходы на серверную комнату
.Когда вашему бизнесу нужно обслуживать многих сотрудников одновременно, запускать модели класса foundation с полной точностью или дообучать кастомные модели на собственных данных — вы переходите на серверный уровень.Gaudi 3 доступен в двух форм-факторах:PCIe-карта (HL-338)Стандартный форм-фактор PCIe для интеграции в существующие серверы. Ориентировочная цена: %1$s за карту.OAM (OCP Accelerator Module)Стандарт OCP высокой плотности для облачных дата-центров. %1$s за чип при покупке наборами по 8 чипов (%2$s всего с базовой платой).Сервер с 8 картами Gaudi 3 обеспечивает 1 ТБ общей ИИ-памяти по гораздо более низкой стоимости, чем сопоставимая система NVIDIA H100.Дешевле сопоставимой конфигурации NVIDIA H100AMD Instinct MI325X содержит 256 ГБ памяти HBM3e на карту — вдвое больше, чем Intel Gaudi 3. Для достижения 1 ТБ общей ИИ-памяти нужно всего 4 карты против 8 у Intel.Стартовая стоимость с 1 картой %1$sMI325X дороже за систему, чем Gaudi 3, но быстрее и компактнее. Для рабочих нагрузок, требующих максимальной пропускной способности — вывода в реальном времени для многих пользователей или обучения кастомных моделей на больших наборах данных — более высокая инвестиция окупается за счёт снижения задержек и упрощения инфраструктуры.Ноутбуки с чипами Qualcomm Snapdragon X Elite, Intel Core Ultra или AMD Ryzen AI содержат специализированные ИИ-чипы — Neural Processing Units (NPU). Они не могут запускать большие LLM, но обрабатывают небольшие постоянные ИИ-задачи: живую транскрипцию, размытие фона, локальные функции Recall
и запуск лёгких моделей, таких как Microsoft Phi-3.NPU оцениваются в TOPS (Тера операций в секунду), что измеряет их ИИ-производительность. Самые мощные Copilot+ ПК в 2026 году имеют ~50 TOPS. Более высокий TOPS означает более быстрые ответы и возможность обработки чуть более крупных ИИ-моделей.Главное преимущество локального ИИ-оборудования — не производительность, а суверенитет данных. Когда ваш ИИ-сервер работает за вашим фаерволом, а не в чужом облаке, ваши конфиденциальные данные никогда не покидают здание.Архитектура Air-Gapped API физически изолирует ИИ-сервер от интернета, обеспечивая доступ авторизованным сотрудникам через API-интерфейс.Рассмотрим юридическую фирму, использующую модель 200B для анализа контрактов:1000 контрактов/день × %1$s/1K токенов × 365 дней. Масштаби использованием. Данные покидают сеть.+ %1$s/месяц за электричество. Неограниченное использование. Данные никогда не покидают LAN. Актив на балансе.При 1000 запросов в день DGX Spark окупается менее чем за 2 месяца по сравнению с облачными API-расходами. При более высоком использовании срок окупаемости сокращается до недель.```
серверную комнату.
Recallи запуск лёгких моделей, таких как Microsoft Phi-3.
Карманный ИИ-суперкомпьютер
Выпущенный на Kickstarter в 2026 году за 108 тыс. ₽, Tiiny.ai Pocket AI Computer — карманный суперкомпьютер с памятью 80 ГБ LGDDR5X и SSD на 1 ТБ, поддерживающий локальный запуск моделей ИИ 120B в любом месте.
При весе 300 граммов (142×22×80мм) и питании от стандартного USB-C он поддерживает инновационные бизнес-приложения. Tiiny AI сообщает о скорости вывода 21,14 токенов в секунду для GPT-OSS-120B.
Tenstorrent
Оборудование с открытым исходным кодом
Под руководством легендарного архитектора чипов Джима Келлера, Tenstorrent представляет принципиально иную философию: оборудование с открытым исходным кодом на базе RISC-V, открытое ПО и модульное масштабирование через последова соединение.
ИИ-ядра Tensix
спроектированы для линейного масштабирования: в отличие от GPU, которые испытывают трудности с накладными расходами на связь при добавлении карт, чипы Tenstorrent созданы для эффективного объединения.
В партнёрстве с Razer Tenstorrent выпустила компактный внешний ИИ-ускоритель, подключаемый к любому ноутбуку или настольному ПК через Thunderbolt — превращая существующее оборудование в ИИ-рабочую станцию без замены компонентов.
ИИ NAS — Сетевое хранилище
Хранилище + ИИ
Определение NAS изменилось от пассивного хранения к активному интеллекту. Новое поколение сетевых устройств хранения напрямую интегрирует ИИ-обработку — от лёгких NPU-инференций до полного GPU-ускоренного развёртывания LLM.
NAS с поддержкой ИИ устраняет необходимость в отдельном ИИ-устройстве и позволяет напрямую обрабатывать большие объёмы данных без задержек передачи по сети.
Нужна помощь в выборе подходящего ИИ-мини-ПК для вашего бизнеса?
Наши инженеры оценят ваши требования к ИИ-оборудованию и развернут полностью настроенную ИИ-систему.
Получить бесплатную оценку оборудования →4 Рабочие станции
ИИ-рабочие станции и настольные ПК 230 тыс. – 1,2 млн ₽
Уровень рабочих станций использует дискретные видеокарты PCIe и стандартные корпуса типа tower. В отличие от фиксированных архитектур мини-ПК, этот уровень предлагает модульность — вы можете обновлять отдельные компоненты, добавлять GPU или менять карты по мере развития технологий.
Понимание VRAM и скорости
Выбор GPU для ИИ определяют два конкурирующих фактора:
Игровые карты (например, RTX 5090) максимизируют скорость, но предлагают ограниченный VRAM — обычно 24–32 ГБ. Профессиональные карты (например, RTX PRO 6000 Blackwell) максимизируют VRAM — до 96 ГБ на карту — но стоят дороже за единицу производительности.
VRAM — ключевое ограничение. Быстрая карта с недостаточной памятью не сможет загрузить модель ИИ. Более медленная карта с достаточным VRAM запустит модель — просто с большим временем отклика.
Потребительские GPU
| Конфигурация | Всего VRAM | Связь | Примерная стоимость |
|---|---|---|---|
| 2× RTX 3090 (б/у) | 48 ГБ | NVLink | ~230 тыс. ₽ |
| 2× RTX 4090 | 48 ГБ | PCIe Gen 5 | 310 тыс. ₽ |
| 2× RTX 5090 | 64 ГБ | PCIe Gen 5 | 540 тыс. ₽ |
Профессиональные GPU
| Конфигурация | Всего VRAM | Связь | Примерная стоимость |
|---|---|---|---|
| 2× RTX A6000 Лучшее соотношение | 96 ГБ | NVLink | 540 тыс. ₽ |
| 2× RTX 6000 Ada | 96 ГБ | PCIe Gen 5 | 1 млн ₽ |
| 1× RTX PRO 6000 Blackwell | 96 ГБ | NVLink | 620 тыс. ₽ |
| 4× RTX PRO 6000 Blackwell | 384 ГБ | PCIe Gen 5 | 2,5 млн ₽ |
Датацентровские GPU
| Конфигурация | Всего VRAM | Связь | Примерная стоимость |
|---|---|---|---|
| 1× L40S | 48 ГБ | PCIe 4.0 (пассивное охлаждение) | 540 тыс. ₽ |
| 1× A100 PCIe | 80 ГБ | PCIe 4.0 | 770 тыс. ₽ |
| 1× H200 NVL | 141 ГБ | NVLink | 2,3 млн ₽ |
| 4× H200 NVL | 564 ГБ | NVLink | 9,2 млн ₽ |
| 1× B200 SXM | 180 ГБ | NVLink 5 (1,8 ТБ/с) | 2,3 млн ₽ |
| 8× B200 SXM | 1 440 ГБ | NVLink 5 (1,8 ТБ/с) | 18,5 млн ₽ |
Китайские GPU
Китайская экосистема GPU быстро созрела. Несколько производителей предлагают ИИ-ускорители уровня рабочих станций с конкурентоспособными характеристиками и значительно более низкими ценами.
| Конфигурация | Всего VRAM | Тип памяти | Примерная стоимость |
|---|---|---|---|
| 1× Moore Threads MTT S4000 | 48 ГБ | GDDR6 | 62 тыс. ₽ |
| 4× Moore Threads MTT S4000 | 192 ГБ | GDDR6 | 270 тыс. ₽ |
| 8× Moore Threads MTT S4000 | 384 ГБ | GDDR6 | 500 тыс. ₽ |
| 1× Hygon DCU Z100 | 32 ГБ | HBM2 | 190 тыс. ₽ |
| 1× Biren BR104 | 32 ГБ | HBM2e | ~230 тыс. ₽ |
| 8× Biren BR104 | 256 ГБ | HBM2e | 1,8 млн ₽ |
| 1× Huawei Ascend Atlas 300I Duo | 96 ГБ | HBM2e | 92 тыс. ₽ |
| 8× Huawei Ascend Atlas 300I Duo | 768 ГБ | HBM2e | 770 тыс. ₽ |
Ожидаемые
| Конфигурация | Всего VRAM | Статус | Примерная стоимость |
|---|---|---|---|
| RTX 5090 128 ГБ | 128 ГБ | Китайская мод. — не стандартная SKU | 390 тыс. ₽ |
| RTX Titan AI | 64 ГБ | Ожидается в 2027 | ~230 тыс. ₽ |
NVIDIA DGX Station
Enterprise Apex
NVIDIA DGX Station — это водяное охлаждение "суперкомпьютер" на столе, приносящий производительность дата-центра в офис. Последняя версия использует суперчип GB300 Grace Blackwell.
Версия Blackwell Ultra
увеличивает плотность памяти и вычислительную мощность, разработана для организаций, которым нужно обучать модели с нуля или запускать огромные MoE-архитектуры локально.
Хотя основан на архитектуре предыдущего поколения Ampere, он остаётся отраслевым стандартом для надёжного вывода и тонкой настройки. Идеально подходит для команд, внедряющих ИИ без бюджета на Blackwell.
Несмотря на высокую стоимость, DGX Station заменяет серверную стойку за ~23 млн ₽ и связанную инфраструктуру охлаждения. Подключается к стандартной розетке. Это полностью устраняет накладные расходы на серверную комнату
.
Нужна помощь в выборе подходящей ИИ-рабочей станции для вашего бизнеса?
Наши инженеры оценят ваши требования к ИИ-оборудованию и развернут полностью настроенную ИИ-систему.
Получить бесплатную оценку оборудования →5 Серверы
ИИ-серверы 1,2 млн – 15 млн ₽
Когда вашему бизнесу нужно обслуживать многих сотрудников одновременно, запускать модели класса foundation с полной точностью или дообучать кастомные модели на собственных данных — вы переходите на серверный уровень.
Это область специализированных ИИ-ускорителей с памятью высокой пропускной способности (HBM), специальными соединениями и форм-факторами для стоек или размещения рядом со столом. Оборудование дороже, но стоимость на пользователя резко снижается при масштабировании.
Intel Gaudi 3
Лучшее соотношение на масштабе
Ускоритель Gaudi 3 от Intel создавался как чип для обучения и инференса ИИ — не перепрофилированная видеокарта. Каждая карта предоставляет 128 ГБ памяти HBM2e с интегрированной сетью 400 Gb Ethernet, устраняя необходимость в отдельных сетевых адаптерах.
Gaudi 3 доступен в двух форм-факторах:
- PCIe-карта (HL-338): Стандартный форм-фактор PCIe для интеграции в существующие серверы. Ориентировочная цена: ~920 тыс. ₽ за карту.
- OAM (OCP Accelerator Module): Стандарт OCP высокой плотности для облачных дата-центров. 1,2 млн ₽ за чип при покупке наборами по 8 чипов (~9,6 млн ₽ всего с базовой платой).
Сервер с 8 картами Gaudi 3 обеспечивает 1 ТБ общей ИИ-памяти по гораздо более низкой стоимости, чем сопоставимая система NVIDIA H100.
AMD Instinct MI325X
Максимальная плотность
AMD Instinct MI325X содержит 256 ГБ памяти HBM3e на карту — вдвое больше, чем Intel Gaudi 3. Для достижения 1 ТБ общей ИИ-памяти нужно всего 4 карты против 8 у Intel.
MI325X дороже за систему, чем Gaudi 3, но быстрее и компактнее. Для рабочих нагрузок, требующих максимальной пропускной способности — вывода в реальном времени для многих пользователей или обучения кастомных моделей на больших наборах данных — более высокая инвестиция окупается за счёт снижения задержек и упрощения инфраструктуры.
Huawei Ascend
Полноценная альтернатива
Huawei воспроизвела полный стек ИИ-инфраструктуры: кастомные чипы (Ascend 910B/C), собственные соединения (HCCS) и полное ПО (CANN). Результат — автономная экосистема, работающая независимо от западных цепочек поставок и за гораздо меньшую стоимость, чем кластеры NVIDIA H100.
Intel Xeon 6 (Granite Rapids)
Бюджетный сервер
Тихая революция 2026 года — рост ИИ-инференса на CPU. Процессоры Intel Xeon 6 включают AMX (Advanced Matrix Extensions), позволяющие ИИ-задачи на стандартной DDR5 RAM — что значительно дешевле памяти GPU.
С с двумя сокетами Xeon 6 может содержать 1–4 ТБ DDR5 RAM за малую часть стоимости памяти GPU. Скорость инференса низкая, но для пакетной обработки — где скорость не важна, а интеллект и ёмкость критичны — это революционно.
Пример: Малый бизнес загружает 100 000 отсканированных счетов-фактур за ночь. Сервер Xeon 6 запускает ИИ-модель размером +400B для идеального извлечения данных. Задача занимает 10 часов, но стоимость оборудования значительно ниже, чем у GPU-сервера.
Нужна помощь в выборе правильной серверной инфраструктуры для ИИ?
Наша команда по инфраструктурерует и внедряет комплексные серверные решения для ИИ — от Intel Gaudi до NVIDIA DGX — в сочетании с индивидуальным программчением, чтобы раскрыть возможности ИИ для вашего бизнеса.
Запросить предложение по серверной архитектуре →6 Edge ИИ
Edge ИИ и модернизация Обновление существующей инфраструктуры
Не каждому малому бизнесу нужен выделенный ИИ-сервер или мини-ПК. Многие могут внедрить интеллект в существующую инфраструктуру — обновив ноутбуки, десктопы и сетевые устройства с ИИ-возможностями при минимальных затратах.
M.2 ИИ-ускорители: H-10
Hailo-10 — стандартный модуль M.2 2280 (такой же слот, как для SSD), который добавляет выделенную ИИ-обработку в любой существующий ПК. При стоимости ~~12 тыс. ₽ за штуку и потреблении всего 5–8 Вт он позволяет выполнять ИИ-апгрейд всего парка без замены оборудования.
Варианты использования: Локальная транскрипция встреч (Whisper), субтитры в реальном времени, голосовой ввод, инференс небольших моделей (Phi-3 Mini). Эти карты не могут запускать большие LLM, но они отлично справляются со специфическими постоянными ИИ-задачами — гарантируя локальную обработку голосовых данных без отправки в облако.
Copilot+ ПК (ноутбуки с NPU)
Ноутбуки с чипами Qualcomm Snapdragon X Elite, Intel Core Ultra или AMD Ryzen AI содержат специализированные ИИ-чипы — Neural Processing Units (NPU). Они не могут запускать большие LLM, но обрабатывают небольшие постоянные ИИ-задачи: живую транскрипцию, размытие фона, локальные функции Recall
и запуск лёгких моделей, таких как Microsoft Phi-3.
NPU оцениваются в TOPS (Тера операций в секунду), что измеряет их ИИ-производительность. Самые мощные Copilot+ ПК в 2026 году имеют ~50 TOPS. Более высокий TOPS означает более быстрые ответы и возможность обработки чуть более крупных ИИ-моделей.
9 ИИ-модели
ИИ-модели с открытым исходным кодом (2026–2027)
Выбор ИИ-модели определяет требования к оборудованию — но, как показала глава о квантизации ИИ-моделей, квантизация позволяет запускать передовые модели на оборудовании, стоящем долю стоимости развертывания в полной точности.
В таблице ниже представлен обзор текущих и будущих ИИ-моделей с открытым исходным кодом.
| Модель | Размер | Архитектура | Память (FP16) | Память (INT4) |
|---|---|---|---|---|
| Llama 4 Behemoth | 288B (активных) | MoE (~2T всего) | ~4 ТБ | ~1 ТБ |
| Llama 4 Maverick | 17B (активных) | MoE (400B всего) | ~800 ГБ | ~200 ГБ |
| Llama 4 Scout | 17B (активных) | MoE (109B всего) | ~220 ГБ | ~55 ГБ |
| DeepSeek V4 | ~70B (активных) | MoE (671B всего) | ~680 ГБ | ~170 ГБ |
| DeepSeek R1 | 37B (активных) | MoE (671B всего) | ~140 ГБ | ~35 ГБ |
| DeepSeek V3.2 | ~37B (активных) | MoE (671B всего) | ~140 ГБ | ~35 ГБ |
| Kimi K2.5 | 32B (активных) | MoE (1T всего) | ~2 ТБ | ~500 ГБ |
| Qwen 3.5 | 397B (активных) | MoE (A17B) | ~1.5 ТБ | ~375 ГБ |
| Qwen 3-Max-Thinking | Большая | Плотная | ~2 ТБ | ~500 ГБ |
| Qwen 3-Coder-Next | 480B (B активных) | MoE | ~960 ГБ | ~240 ГБ |
| Mistral Large 3 | 123B (41B активных) | MoE (675B всего) | ~246 ГБ | ~62 ГБ |
| Ministral 3 (3B, 8B, 14B) | 3B–14B | Плотная | ~6–28 ГБ | ~2–7 ГБ |
| GLM-5 | 44B (активных) | MoE (744B всего) | ~1.5 ТБ | ~370 ГБ |
| GLM-4.7 (Thinking) | Большая | Плотная | ~1.5 ТБ | ~375 ГБ |
| MiMo-V2-Flash | 15B (активных) | MoE (309B всего) | ~30 ГБ | ~8 ГБ |
| MiniMax M2.5 | ~10B (активных) | MoE (~230B всего) | ~460 ГБ | ~115 ГБ |
| Phi-5 Reasoning | 14B | Плотная | ~28 ГБ | ~7 ГБ |
| Phi-4 | 14B | Плотная | ~28 ГБ | ~7 ГБ |
| Gemma 3 | 27B | Плотная | ~54 ГБ | ~14 ГБ |
| Pixtral 2 Large | 90B | Плотная | ~180 ГБ | ~45 ГБ |
| Stable Diffusion 4 | ~12B | DiT | ~24 ГБ | ~6 ГБ |
| FLUX.2 Pro | 15B | DiT | ~30 ГБ | ~8 ГБ |
| Open-Sora 2.0 | 30B | DiT | ~60 ГБ | ~15 ГБ |
| Whisper V4 | 1.5B | Плотная | ~3 ГБ | ~1 ГБ |
| Med-Llama 4 | 70B | Плотная | ~140 ГБ | ~35 ГБ |
| Legal-BERT 2026 | 35B | Плотная | ~70 ГБ | ~18 ГБ |
| Finance-LLM 3 | 15B | Плотная | ~30 ГБ | ~8 ГБ |
| CodeLlama 4 | 70B | Плотная | ~140 ГБ | ~35 ГБ |
| Molmo 2 | 80B | Плотная | ~160 ГБ | ~40 ГБ |
| Granite 4.0 | 32B (9B активных) | Гибрид Mamba-Transformer | ~64 ГБ | ~16 ГБ |
| Nemotron 3 | 8B, 70B | Плотная | ~16–140 ГБ | ~4–35 ГБ |
| EXAONE 4.0 | 32B | Плотная | ~64 ГБ | ~16 ГБ |
| Llama 5 Frontier | ~1,2T (всего) | MoE | ~2.4 ТБ | ~600 ГБ |
| Llama 5 Base | 70B–150B | Плотная | ~140–300 ГБ | ~35–75 ГБ |
| DeepSeek V5 | ~600B (всего) | MoE | ~1.2 ТБ | ~300 ГБ |
| Stable Diffusion 5 | TBD | DiT | — | — |
| Falcon 3 | 200B | Плотная | ~400 ГБ | ~100 ГБ |
Не покупайте оборудование первым. Определите класс модели, соответствующий вашим бизнес-потребностям, затем примените квантизацию, чтобы определить наиболее доступный уровень оборудования.
Разница между инвестицией в ~230 тыс. ₽ и 11,6 млн ₽ часто сводится к требованиям к размеру модели и количеству одновременных пользователей.
Тренды, формирующие ландшафт ИИ-моделей
- Нативная мультимодальность как стандарт. Новые модели обучаются на тексте, изображениях, аудио и видео одновременно — не как отдельные возможности, добавленные после обучения. Это означает, что одна модель обрабатывает анализ документов, понимание изображений и голосовое взаимодействие.
- Малые модели достигают возможностей больших. Phi-5 (14B MiMo-V2-Flash демонстрируют, что архитектурные инновации могут сжать передовые возможности рассуждений в модели, работающие на ноутбуке. Эра "чем больше, тем лучше" заканчивается.
- Специализация вместо универсальности. Вместо одной огромной модели для всего тренд смещается к ансамблям специализированных моделей — модель для кодирования, модель рассуждений, модель зрения — управляемых агентурным фреймворком. Это снижает требования к оборудованию на модель при повышении общего качества.
- Агентный ИИ. Модели вроде Kimi K2.5 и Qwen 3 предназначены для автономного разложения сложных задач, вызова внешних инструментов и координации с другими моделями. Эта парадигма
роя агентов
требует устойчивой пропускной способности в длинных сессиях — предпочитая оборудование с высокой пропускной способностью, такое как GB10 и M5 Ultra. - Созревание генерации видео и 3D. Open-Sora 2.0 и FLUX.2 Pro сигнализи что локальная генерация видео становится практичной. К 2027 году ожидайте ассистентов для редактирования видео в реальном времени на оборудовании класса рабочих станций.
10 Безопасность
Архитектура для максимальной безопасности
Главное преимущество локального ИИ-оборудования — не производительность, а суверенитет данных. Когда ваш ИИ-сервер работает за вашим фаерволом, а не в чужом облаке, ваши конфиденциальные данные никогда не покидают здание.
Архитектура Air-Gapped API физически изолирует ИИ-сервер от интернета, обеспечивая доступ авторизованным сотрудникам через API-интерфейс.
Эта архитектура создает Цифровое хранилище
. Даже если брокер-сервер будет скомпрометирован, злоумышленник отправлять только текстовые запросы — он не получит доступ к файловой системе ИИ-сервера, весам модели, данным тонкой настройки или любым хранимым документам.
Нужно безопасное развертывание ИИ с индивидуальными решениями?
Наши инженеры проектируют и внедряют air-gapped ИИ-архитектуры, гарантируя, что данные никогда не покидают территорию, обеспечивая ваш бизнес передовыми ИИ-возможностями.
Обсудить безопасную ИИ-архитектуру →11 Экономика
Экономический вердикт: локальное решение против облака
Переход на локальное ИИ-оборудование — это сдвиг от OpEx (операционные расходы — ежемесячные платы за облачные API) к CapEx (капитальные расходы — единовременные инвестиции в оборудование, становящиеся активом в вашем балансе).
Рассмотрим юридическую фирму, использующую модель 200B для анализа контрактов:
При 1000 запросов в день DGX Spark окупается менее чем за 2 месяца по сравнению с облачными API-расходами. При более высоком использовании срок окупаемости сокращается до недель.
Экономика становится еще выгоднее при учете:
- Несколько сотрудников, использующих одно оборудование (DGX Spark обслуживает 2–5 одновременных пользователей)
- Никакой поблочной оплаты — сложные многоэтапные задачи с рассуждениями не требуют доплат
- Тонкая настройка на собственных данных — недоступна в большинстве облачных API, бесплатна на локальном оборудовании
- Рыночная стоимость оборудования — аппаратное обеспечение ИИ сохраняет значительную ценность на вторичном рынке