انویدیا DGX Spark — دستگاهی به اندازه کتاب که قادر به اجرای مدل‌های هوش مصنوعی با ۲۰۰ میلیارد پارامتر است (۴۰۰ میلیارد هنگام اتصال دو دستگاه) — نمایانگر عصر جدید مالکیت هوش مصنوعی رومیزی است.

1 پایه‌ها
چرا هوش مصنوعی محلی؟ توجیه تجاری مالکیت

در اوایل دهه ۲۰۲۰، هوش مصنوعی خدمتی بود که اجاره می‌کردید — ساعتی، توکنی، فراخوانی API. تا سال ۲۰۲۶، پارادایم تغییر کرده است. سخت‌افزار مورد نیاز برای اجرای هوش «رده GPT-4» اکنون روی میز شما جای می‌گیرد و هزینه‌ای کمتر از یک خودروی دست‌دوم دارد.

وابستگی مداوم به هوش مصنوعی صرفاً ابری، یک سه‌گانه استراتژیک را نشان می‌دهد:

  • هزینه‌های فزاینده هزینه‌های API بر اساس توکن به صورت خطی با میزان استفاده مقیاس‌پذیر است. یک شرکت حقوقی که روزانه ۱,۰۰۰ قرارداد پردازش می‌کند ممکن است با ~4.7 میلیارد تومان هزینه سالانه API مواجه شود.
  • افشای داده‌ها هر پرس‌وجو ارسال شده به یک API ابری، داده‌ای است که شبکه شما را ترک می‌کند و در معرض خطرات امنیت داده و حریم خصوصی قرار می‌گیرد.
  • سفارشی‌سازی صفر یا پرهزینه مدل‌های ابری عمومی هستند. آنها به راحتی یا با صرفه اقتصادی قابل تنظیم دقیق بر روی داده‌های سفارشی، فرآیندهای تجاری داخلی یا هوش تجاری نیستند.

سخت‌افزار هوش مصنوعی محلی هر سه را حل می‌کند. هزینه‌های متغیر API را به یک دارایی سرمایه‌ای ثابت تبدیل می‌کند، تضمین می‌کند داده‌ها هرگز شبکه محلی را ترک نکنند و سفارشی‌سازی عمیق را از طریق تنظیم دقیق بر روی داده‌های تجاری ممکن می‌سازد.

2 کاهش هزینه‌ها
کوانتیزاسیون: اجرای مدل‌های بزرگتر هوش مصنوعی با سخت‌افزار ارزان‌تر

کوانتیزاسیون مفهومی است که اقتصاد هوش مصنوعی محلی را اساساً تغییر می‌دهد.

به زبان ساده، کوانتیزاسیون ردپای حافظه یک مدل هوش مصنوعی را فشرده می‌کند. یک مدل استاندارد هر پارامتر را به عنوان یک عدد اعشاری ۱۶ بیتی (FP16) ذخیره می‌کند. کوانتیزاسیون این را به ۸ بیتی (Int8)، ۴ بیتی (Int4) یا حتی پایین‌تر کاهش می‌دهد که مقدار حافظه مورد نیاز برای اجرای مدل را به طور چشمگیری کاهش می‌دهد.

کوانتیزاسیون منجر به کاهش اندکی در کیفیت خروجی می‌شود — که اغلب برای وظایف تجاری مانند خلاصه‌سازی، پیش‌نویس‌سازی و تحلیل نامحسوس است — در ازای کاهش عظیم هزینه سخت‌افزار.

حافظه مورد نیاز: مدل هوش مصنوعی ۴۰۰B در سطوح دقت مختلف
FP16
دقت کامل
~800 GB
Int8
نصف اندازه
~400 GB
Int4
یک چهارم
~200 GB
FP16 — حداکثر کیفیت، حداکثر هزینه
Int8 — کیفیت تقریباً کامل، نصف هزینه
Int4 — کیفیت بالا، یک چهارم هزینه
تاثیر تجاری

یک مدل ۴۰۰B با دقت کامل به حدود ۸۰۰ گیگابایت حافظه نیاز دارد — سرمایه‌گذاری سروری به ارزش ~26 میلیارد تومان. همین مدل که به Int4 کوانتیزه شده باشد تنها به حدود ۲۰۰ گیگابایت نیاز دارد و می‌تواند روی دو مینی‌پی‌سی DGX Spark (مبتنی بر ابرتراشه GB10) متصل شده با قیمت 1.0 میلیارد تومان اجرا شود.

ترکیب متخصصان (MoE)

ترکیب متخصصان یک ترفند دیگر در معماری مدل هوش مصنوعی است که استقرار مدل‌های عظیم بدون هزینه حافظه کلان را ممکن می‌سازد.

به جای استفاده از تمام پارامترها برای هر پرسش، یک مدل MoE تنها بخشی از ظرفیت خود را از طریق فعالیت تنک فعال می‌کند.

یک مدل MoE با ۲ تریلیون پارامتر مانند Llama 4 Behemoth تنها ۲۸۸B پارامتر به ازای هر کوئری فعال می‌کند - و هوش سطح پیشرفته را با کسری از هزینه حافظه ارائه می‌دهد.

مبادله

مدل‌های MoE در کارهای ساده‌ای مانند خلاصه‌سازی و طبقه‌بندی، در مقایسه با مدل‌های متراکم هم‌اندازه، کمی کمتر کارآمد هستند. اما در کارهای دانش‌محور و استدلالی مانند تحلیل پیچیده، تولید کد و پژوهش، مدل‌های MoE عالی عمل می‌کنند.

فعالیت تنک منجر به سرعت استنتاج بالاتر و زمان پاسخ‌دهی سریع‌تر می‌شود.

3 مینی‌پی‌سی‌ها
مینی‌پی‌سی‌های هوش مصنوعی ۲ میلیارد ریال – ۱۳ میلیارد ریال

HP ZGX Nano AI روی دست یک زن

پیشرفت انقلابی سال ۲۰۲۶، محاسبات هوش مصنوعی پرظرفیت در قالب مینی‌پی‌سی است. دستگاه‌هایی نه بزرگ‌تر از یک کتاب گالینگور اکنون مدل‌های هوش مصنوعی را اجرا می‌کنند که دو سال پیش نیاز به اتاق سرور داشتند.

اکوسیستم NVIDIA GB10 (DGX Spark)

رهبر عملکرد

NVIDIA logo

NVIDIA DGX Spark این دسته را تعریف کرده است. در سال ۲۰۲۶، ابرتراشه GB10 — که یک CPU ARM Grace را با GPU Blackwell ترکیب می‌کند — یک اکوسیستم کامل ایجاد کرده است. ASUS، GIGABYTE، Dell، Lenovo، HP، MSI و Supermicro همگی سیستم‌های مبتنی بر GB10 را تولید می‌کنند که هر کدام با فرم‌فاکتورها، راه‌حل‌های خنک‌کنندگی و نرم‌افزارهای همراه متفاوت هستند.

اکوسیستم NVIDIA GB10 ASUS، GIGABYTE، Dell، Lenovo، HP، MSI و Supermicro
از 520 میلیون تومان
حافظه
۱۲۸ گیگابایت
LPDDR5X یکپارچه
محاسبات
~۱ پتافلاپ
عملکرد هوش مصنوعی FP8
شبکه‌سازی
۱۰ GbE + Wi-Fi 7
ConnectX برای خوشه‌بندی
ذخیره‌سازی
۴ ترابایت SSD
NVMe
خوشه‌بندی
بله (۲ واحد)
۲۵۶ گیگابایت حافظه تجمیع‌شده
نرم‌افزار
NVIDIA AI Enterprise
CUDA، cuDNN، TensorRT
NVIDIA DGX Spark
ASUS Ascent GX10
Gigabyte AI TOP ATOM
DGX Quantum Machines combo
MSI EdgeExpert
Lenovo ThinkStation PGX
Dell Pro Max Desktop
NVIDEA DGX Spark
خوشه‌بندی: ظرفیت ۲۵۶ گیگابایت

با اتصال دو واحد GB10 از طریق پورت شبکه پرسرعت اختصاصی، سیستم منابع را در یک فضای حافظه ۲۵۶ گیگابایتی تجمیع می‌کند. این توانایی اجرای مدل‌های بسیار بزرگ — ۴۰۰+ میلیارد پارامتر کوانتیزه — را به طور کامل روی میز شما با سرمایه‌گذاری سخت‌افزاری کلی تقریباً 1.0 میلیارد تومان آزاد می‌کند.

مینی‌پی‌سی‌های AMD Ryzen AI Max (Strix Halo)

کمترین هزینه

AMD Ryzen AI Max+ Strix Halo

معماری Ryzen AI Max+ Strix Halo شرکت AMD دسته کاملاً جدیدی از مینی‌پی‌سی‌های هوش مصنوعی کم‌هزینه ایجاد کرده است. موجی از سازندگان — GMKtec، Beelink، Corsair، NIMO، Bosgame، FAVM — اکنون سیستم‌های ۱۲۸ گیگابایتی با حافظه یکپارچه را زیر ~260 میلیون تومان عرضه می‌کنند.

مینی‌پی‌سی‌های AMD Ryzen AI Max GMKtec EVO-X2 · Beelink · Corsair · NIMO AI · Bosgame M5 · FAVM FA-EX9
از ~200 میلیون تومان
حافظه
۱۲۸ گیگابایت
اشتراکی LPDDR5 (CPU+GPU)
محاسبات
~۰٫۲ پتافلاپ
GPU یکپارچه RDNA 3.5
پهنای باند
~۲۰۰ گیگابایت بر ثانیه
پهنای باند حافظه
توان
~۱۰۰ وات
عملکرد بی‌صدا
خوشه‌بندی
خیر
فقط به صورت مستقل
سیستم عامل
ویندوز / لینوکس
ROCm / llama.cpp
GMKtex EVO X2
Bosgame M5 AI
NIMO AI Mini PC
Beelink Mini PC
Beelink Mini PC
Corsair AI Workstation 300 Halo
FAVM FA EX9
GMK Ryzen Strix Halo Mini PC

Apple Mac Studio (M4 Ultra)

رهبر ظرفیت

Mac Studio موقعیت منحصربه‌فردی در چشم‌انداز هوش مصنوعی محلی دارد. معماری حافظه یکپارچه (UMA) اپل تا ۲۵۶ گیگابایت حافظه را در یک واحد دسکتاپ فشرده ارائه می‌دهد که هم برای CPU و هم GPU قابل دسترسی است — بدون نیاز به خوشه‌بندی.

این ویژگی آن را به تنها دستگاه «مقرون‌به‌صرفه» منفرد تبدیل می‌کند که قادر به بارگذاری بزرگ‌ترین مدل‌های متن‌باز است. یک مدل ۴۰۰ میلیارد پارامتری کوانتیزه به Int4 کاملاً در حافظه پیکربندی ۲۵۶ گیگابایتی جای می‌گیرد.

Apple Mac Studio (M4 Ultra) رهبر ظرفیت هوش مصنوعی تک واحدی
از 520 میلیون تومان
حافظه
تا ۲۵۶ گیگابایت
حافظه یکپارچه (UMA)
محاسبات
~۰٫۵ پتافلاپ
موتوربی اپل + GPU
نرم‌افزار
چارچوب MLX
استنتاج بهینه‌شده توسط اپل
محدودیت
فقط استنتاج
کند برای آموزش/تنظیم دقیق

Apple Mac Studio (M5 Ultra)

رقبای آتی

نسل بعدی M5 Ultra اپل که انتظار می‌رود اواخر ۲۰۲۶ عرضه شود، طبق شایعات برای رفع ضعف اصلی M4 طراحی شده است: عملکرد آموزش مدل هوش مصنوعی. ساخته‌شده بر اساس فرآیند ۲ نانومتری TSMC، انتظار می‌رود پیکربندی‌هایی با حافظه یکپارچه تا ۵۱۲ گیگابایت و پهنای باند بیش از ۱٫۲ ترابایت بر ثانیه ارائه دهد.

Apple Mac Studio (M5 Ultra) قدرت آموزش هوش مصنوعی مورد انتظار
تق. ~1.6 میلیارد تومان
حافظه
تا ۵۱۲ گیگابایت
حافظه یکپارچه نسل بعدی
محاسبات
~۱٫۵+ پتافلاپ
موتور عصبی ۲ نانومتری
نرم‌افزار
MLX 2.0+
پشتیبانی بومی آموزش
قابلیت‌ها
آموزش و استنتاج
جایگزین CUDA
پهنای باند حافظه: ظرفیت ۱٫۲ ترابایت بر ثانیه

M5 Ultra با ۵۱۲ گیگابایت اولین دستگاه مصرف‌کننده‌ای خواهد بود که قادر به اجرای مدل‌های مرزی غیرکوانتیزه (دقت کامل) است. پهنای باند حافظه بالا ۱٫۲+ ترابایت بر ثانیه از گردش کارهای عامل‌محور هوش مصنوعی پشتیبانی می‌کند که به استنتاج با توان عملیاتی بالا و پایدار با پنجره‌های زمینه بسیار طولانی نیاز دارند.

Tiiny AI

ابررایانه جیبی هوش مصنوعی

Tiiny AI

ابررایانه جیبی Tiiny.ai که در سال ۲۰۲۶ با قیمت 180 میلیون تومان در کیک‌استارتر عرضه شد، یک ابررایانه جیبی با ۸۰ گیگابایت حافظه LGDDR5X و SSD 1 ترابایتی است که اجرای محلی مدل‌های هوش مصنوعی ۱۲۰B را در هر مکان ممکن می‌سازد.

با وزن ۳۰۰ گرم (۱۴۲×۲۲×۸۰ میلی‌متر) و تغذیه از طریق USB-C استاندارد، از کاربردهای نوآورانه تجاری پشتیبانی می‌کند. Tiiny AI سرعت خروجی ۲۱.۱۴ توکن بر ثانیه را برای GPT-OSS-120B گزارش می‌دهد.

Tiiny Pocket AI Computer
Tiiny Pocket AI Computer
Tiiny Pocket AI Computer
Tiiny Pocket AI Computer

Tenstorrent

سخت‌افزار متن‌باز

Tenstorrent

به رهبری جیم کلر، معمار افسانه‌ای تراشه، Tenstorrent نماینده فلسفه‌ای اساساً متفاوت است: سخت‌افزار متن‌باز ساخته‌شده بر پایه RISC-V، نرم‌افزار متن‌باز و مقیاس‌پذیری ماژولار از طریق زنجیره‌سازی.

هسته‌های هوش مصنوعی Tensix به گونه‌ای طراحی شده‌اند که به صورت خطی مقیاس‌پذیر باشند: برخلاف GPUها که با اضافه شدن کارت‌های بیشتر با سربار ارتباطی دست‌وپنجه نرم می‌کنند، تراشه‌های Tenstorrent برای چینش کارآمد ساخته شده‌اند.

در مشارکت با Razer، Tenstorrent یک شتاب‌دهنده هوش مصنوعی خارجی فشرده منتشر کرده است که از طریق Thunderbolt به هر لپ‌تاپ یا دسکتاپ متصل می‌شود و بدون جایگزینی چیزی، سخت‌افزار موجود را به یک ورک‌استیشن هوش مصنوعی تبدیل می‌کند.

شتاب‌دهنده هوش مصنوعی فشرده Razer × Tenstorrent شتاب‌دهنده هوش مصنوعی خارجی Thunderbolt
قیمت نامعلوم
حافظه هر دستگاه
۱۲ گیگابایت
GDDR6
تراشه
Wormhole n150
هسته‌های Tensix · RISC-V
مقیاس‌پذیری
تا ۴ واحد
ظرفیت هوش مصنوعی ۴۸ گیگابایت
نرم‌افزار
کاملاً متن‌باز
گیت‌هاب · TT-Metalium
Razer × Tenstorrent AI Accelerator
Razer × Tenstorrent AI Accelerator
Razer × Tenstorrent AI Accelerator
Razer × Tenstorrent AI Accelerator

NAS هوش مصنوعی — ذخیره‌سازی متصل به شبکه

ذخیره‌سازی + هوش مصنوعی

تعریف NAS از ذخیره‌سازی منفعل به هوش فعال تغییر یافته است. نسل جدیدی از دستگاه‌های ذخیره‌سازی شبکه، پردازش هوش مصنوعی را مستقیماً در خود ادغام می‌کنند - از استنتاج سبک مبتنی بر NPU تا استقرار کامل LLM با شتاب GPU.

یک NAS مجهز به هوش مصنوعی نیاز به دستگاه هوش مصنوعی جداگانه را از بین می‌برد و امکان پردازش مستقیم حجم بیشتری از داده‌ها بدون تأخیر انتقال شبکه را فراهم می‌کند.

QNAP AI NAS
Ugreen DXP4800 Pro
OmniCore AI NAS
Zetlab AI NAS

برای انتخاب مینی‌پی‌سی هوش مصنوعی مناسب کسب‌وکار خود نیاز به راهنمایی دارید؟

مهندسان ما می‌توانند نیازهای سخت‌افزاری هوش مصنوعی شما را ارزیابی کرده و یک سیستم هوش مصنوعی کاملاً پیکربندی‌شده را مستقر کنند.

دریافت ارزیابی سخت‌افزاری رایگان →

4 ایستگاه‌های کاری
ایستگاه‌های کاری و‌سی‌های رومیزی هوش مصنوعی 0.39 تا 2.0 میلیارد تومان

رده ایستگاه‌های کاری از کارت‌های گرافیکی مجزای PCIe و شاسی‌های استاندارد برجی استفاده می‌کند. برخلاف معماری‌های یکپارچه ثابت رده مینی‌پی‌سی، این رده ماژولار بودن را ارائه می‌دهد - می‌توانید اجزای جداگانه را ارتقا دهید، GPUهای بیشتری اضافه کنید یا با پیشرفت فناوری، کارت‌ها را تعویض کنید.

یک ایستگاه کاری دوگانه RTX A6000 با پل NVLink حدوداً ۹ میلیارد ریال، 96 گیگابایت VRAM تجمیع‌شده ارائه می‌دهد.

درک VRAM در مقابل سرعت

دو عامل رقابتی، انتخاب GPU برای هوش مصنوعی را تعریف می‌کنند:

📦
ظرفیت VRAM
اندازه مدلی را که می‌توانید بارگذاری کنید تعیین می‌کند. VRAM بیشتر به معنای مدل‌های بزرگتر و توانمندتر است. این سقف هوشمندی شماست.
سرعت پردازش
تعیین می‌کند که مدل با چه سرعتی پاسخ می‌دهد. قدرت پردازش بالاتر به معنای تأخیر کمتر در هر درخواست است. این تجربه کاربری شماست.

کارت‌های مصرفی (مانند RTX 5090) سرعت را به حداکثر می‌رسانند اما VRAM محدودی ارائه می‌دهند - معمولاً 24 تا 32 گیگابایت. کارت‌های حرفه‌ای (مانند RTX PRO 6000 Blackwell) VRAM را به حداکثر می‌رسانند - تا96 گیگابایت در هر کارت - اما هزینه بیشتری به ازای هر واحد پردازش دارند.

VRAM محدودیت اصلی است. یک کارت سریع با حافظه ناکافی نمی‌تواند مدل هوش مصنوعی را اصلاً بارگذاری کند. یک کارت کندتر با حافظه کافی مدل را اجرا می‌کند - فقط با زمان‌های پاسخ طولانی‌تر.

GPUهای مصرفی

پیکربندیمجموع VRAMاتصالهزینه تخمینی
2× RTX 3090 (دست دوم)48 گیگابایتNVLink~390 میلیون تومان
2× RTX 409048 گیگابایتPCIe Gen 5520 میلیون تومان
2× RTX 509064 گیگابایتPCIe Gen 5۹ میلیارد ریال

GPUهای حرفه‌ای

پیکربندیمجموع VRAMاتصالهزینه تخمینی
2× RTX 6000 Ada96 گیگابایتPCIe Gen 51.7 میلیارد تومان
1× RTX PRO 6000 Blackwell96 گیگابایتNVLink1.0 میلیارد تومان
4× RTX PRO 6000 Blackwell384 گیگابایتPCIe Gen 54.2 میلیارد تومان

GPUهای مرکز داده

پیکربندیمجموع VRAMاتصالهزینه تخمینی
1× L40S48 گیگابایتPCIe 4.0 (خنک‌کننده غیرفعال)۹ میلیارد ریال
1× A100 PCIe80 گیگابایتPCIe 4.01.3 میلیارد تومان
1× H200 NVL141 گیگابایتNVLink3.9 میلیارد تومان
4× H200 NVL564 گیگابایتNVLink16 میلیارد تومان
1× B200 SXM180 گیگابایتNVLink 5 (1.8 ترابایت بر ثانیه)3.9 میلیارد تومان
8× B200 SXM1,440 گیگابایتNVLink 5 (1.8 ترابایت بر ثانیه)31 میلیارد تومان

GPUهای چینی

اکوسیستم GPU داخلی چین به سرعت بالغ شده است. چندین تولیدکننده چینی اکنون GPUهای هوش مصنوعی رده ایستگاه کاری با مشخصات رقابتی و قیمت‌های به‌مراتب پایین‌تر ارائه می‌دهند.

پیکربندیمجموع VRAMنوع حافظههزینه تخمینی
1× Moore Threads MTT S400048 گیگابایتGDDR6100 میلیون تومان
4× Moore Threads MTT S4000192 گیگابایتGDDR6460 میلیون تومان
8× Moore Threads MTT S4000384 گیگابایتGDDR6850 میلیون تومان
1× Hygon DCU Z10032 گیگابایتHBM2330 میلیون تومان
1× Biren BR10432 گیگابایتHBM2e~390 میلیون تومان
8× Biren BR104256 گیگابایتHBM2e3.1 میلیارد تومان
1× Huawei Ascend Atlas 300I Duo96 گیگابایتHBM2e160 میلیون تومان
8× Huawei Ascend Atlas 300I Duo768 گیگابایتHBM2e1.3 میلیارد تومان

آینده‌نگر

پیکربندیمجموع VRAMوضعیتهزینه تخمینی
RTX 5090 128 گیگابایت۱۲۸ گیگابایتمدل چینی — SKU استاندارد نیست660 میلیون تومان
RTX Titan AI64 گیگابایتپیش‌بینی 2027~390 میلیون تومان
4x NVIDIA RTX PRO 6000 Blackwell
4x NVIDIA RTX PRO 6000 Blackwell
MSI NVIDIA RTX PRO 6000 Blackwell Server
NVIDIA RTX 5090
NVIDIA DGX Station - یک «مرکز داده روی میز» با خنک‌کننده آبی که به پریز دیواری استاندارد وصل می‌شود.

ایستگاه NVIDIA DGX

اوج سازمانی

ایستگاه NVIDIA DGX یک «ابررایانه» میز-جانبی با خنک‌کننده آبی است که عملکرد مرکز داده را به محیط اداری می‌آورد. آخرین نسخه از سوپرتراشه GB300 Grace Blackwell استفاده می‌کند.

ایستگاه NVIDIA DGX GB300 اولترای آینده‌نگر
قیمت تخمینی ~26 میلیارد تومان

نسخه «اولترای بلک‌ول» چگالی حافظه و قدرت پردازش را افزایش می‌دهد و برای سازمان‌هایی طراحی شده که نیاز به آموزش مدل‌های سفارشی از پایه یا اجرای معماری‌های عظیم MoE (ترکیب متخصصان) به صورت محلی دارند.

حافظه
~1.5 ترابایت+
HBM3e (وق‌سریع)
محاسبات
~20+ PFLOPS
عملکرد هوش مصنوعی FP8
سناریوی استفاده
آموزش سفارشیتوسعه مدل
توسعه مدل
توان
پریز استاندارد
نیاز به اتاق سرور ندارد
NVIDIA DGX Station GB300 Blackwell Ultra
ASUS ExpertCenter Pro DGX GB300
MSI XpertStation WS300
NVIDIA DGX Station GB300 Blackwell Ultra
ایستگاه NVIDIA DGX A100 اسب‌کار هوش مصنوعی قابل دسترس
از ~13 میلیارد تومان

اگرچه مبتنی بر معمار نسل قبلی Ampere است، اما همچنان استاندارد صنعتی برای استنتاج و تنظیم دقیق قابل اطمینان محسوب می‌شود. برای تیم‌هایی که با بودجه محدود وارد حوزه هوش مصنوعی می‌شوند و بودجه‌ای برای Blackwell ندارند، ایده‌آل است.

حافظه
320 گیگابایت
4x GPUهای A100 با 80 گیگابایت
محاسبات
2 PFLOPS
عملکرد هوش مصنوعی FP16
چندکاربره
5–8 کاربر همزمان
همروندی متوسط
توان
پریز استاندارد
نیاز به اتاق سرور ندارد

اگرچه گران‌قیمت است، DGX Station جایگزین یک رک سرور ~39 میلیارد تومان و زیرساخت خنک‌کننده مرتبط با آن می‌شود. این دستگاه به پریز دیواری استاندارد متصل می‌شود. این امر به‌طور کامل سربار اتاق سرور را حذف می‌کند.

برای انتخاب ایستگاه کاری هوش مصنوعی مناسب کسب‌وکار خود نیاز به راهنمایی دارید؟

مهندسان ما می‌توانند نیازهای سخت‌افزاری هوش مصنوعی شما را ارزیابی کرده و یک سیستم هوش مصنوعی کاملاً پیکربندی‌شده را مستقر کنند.

دریافت ارزیابی سخت‌افزاری رایگان →

5 سرورها
سرورهای هوش مصنوعی 2.0 تا 26.0 میلیارد تومان

هنگامی که کسب‌وکار شما نیاز به سرویس‌دهی همزمان به کارمندان زیاد، اجرای مدل‌های کلاس فاندیشن با دقت کامل، یا تنظیم دقیق مدل‌های سفارشی روی داده‌های انحصاری دارد — وارد لایه سرور می‌شوید.

این قلمرو کارت‌های شتاب‌دهنده هوش مصنوعی اختصاصی با حافظه پهن‌باند بالا (HBM)، اتصالات داخلی تخصصی و فاکتورهای فرم قابل نصب در رک یا میز-جانبی است. سخت‌افزار گران‌تر است، اما هزینه هر کاربر در مقیاس به‌طور چشمگیری کاهش می‌یابد.

Intel Gaudi 3

بهترین ارزش در مقیاس

شتاب‌دهنده Gaudi 3 اینتل از پایه به‌عنوان تراشه آموزش و استنتاج هوش مصنوعی طراحی شده است - نه یک کارت گرافیک تغییر کاربری‌یافته. هر کارت 128 گیگابایت حافظه HBM2e با شبکه‌سازی اترنت 400 گیگابیتی یکپارچه ارائه می‌دهد که نیاز به آداپتورهای شبکه جداگانه را از بین می‌برد.

Gaudi 3 در دو فرم‌فاکتور مختلف موجود است:

  • کارت PCIe (HL-338): فرم فاکتور استاندارد PCIe برای ادغام در سرورهای موجود. قیمت تخمینی: ~1.6 میلیارد تومان به ازای هر کارت.
  • OAM (ماژول شتاب‌دهنده OCP): استاندارد OCP با چگالی بالا برای دیتاسنترهای ابری. 2.0 میلیارد تومان به ازای هر تراشه هنگام خرید کیت‌های عمده ۸ تراشه‌ای (مجموعاً ~16 میلیارد تومان با برد پایه).

یک سرور ۸ کارته Gaudi 3، ۱ ترابایت حافظه هوش مصنوعی کل را با هزینه بسیار کمتر از یک سیستم NVIDIA H100 قابل مقایسه ارائه می‌دهد.

💾
حافظه در هر کارت
۱۲۸ گیگابایت
HBM2e - با DGX Spark در یک کارت برابر است
مجموع 8 کارت
1 ترابایت
1,024 گیگابایت حافظه تجمیع‌شده برای بزرگترین مدل‌ها
💰
هزینه سیستم
~26 میلیارد تومان
ارزان‌تر از راه‌اندازی NVIDIA H100 قابل مقایسه
Intel Gaudi 3 Baseboard HLB 325
Intel Gaudi 3 PCI card
Dell Intel Gaudi 3 server
Gigabyte Intel Gaudi 3 server

AMD Instinct MI325X

حداکثر چگالی

AMD Instinct MI325X در هر کارت ۲۵۶ گیگابایت حافظه HBM3e دارد — دو برابر Intel Gaudi 3. برای رسیدن به ۱ ترابایت حافظه هوش مصنوعی کل، تنها به ۴ کارت نیاز است، در مقایسه با ۸ کارت برای اینتل.

💾
مجموع حافظه 4 کارت
1 ترابایت
نصف کارت‌های اینتل برای همان ظرفیت
پهنای باند
6 ترابایت بر ثانیه
در هر کارت - کاربران همزمان را فعال می‌کند
💰
هزینه سیستم
~26 میلیارد تومان
هزینه ورود با ۱ کارت ~7.9 میلیارد تومان
AMD Instinct MI325X server
Supermicro AMD Instinct MI325X server
AMD Instinct MI325X server
ASUS AMD Instinct MI325X server

MI325X به ازای هر سیستم از Gaudi 3 گران‌تر است، اما سریع‌تر و فشرده‌تر است. برای بارهای کاری که نیازمند حداکثر توان عملیاتی هستند — استنتاج بلادرنگ برای کاربران بیشتر، یا آموزش مدل‌های سفارشی روی مجموعه‌داده‌های بزرگ — سرمایه‌گذاری بالاتر با کاهش تأخیر و زیرساخت ساده‌تر جبران می‌شود.

Huawei Ascend

جایگزین فول‌استک

Huawei

هواوی کل پشته زیرساخت هوش مصنوعی را تکرار کرده است: سیلیکون سفارشی (Ascend 910B/C)، اتصالات داخلی اختصاصی (HCCS) و یک چارچوب نرم‌افزاری کامل (CANN). نتیجه یک اکوسیستم خودکفا است که مستقل از زنجیره‌های تأمین غربی و با هزینه بسیار کمتر از خوشه‌های NVIDIA H100 قابل مقایسه عمل می‌کند.

Huawei Atlas
Huawei Ascend AI family
Huawei Atlas 300
Huawei Atlas 800i Ascend 910c

Intel Xeon 6 (Granite Rapids)

سرور بودجه‌ای

یک انقلاب خاموش در سال 2026 ظهور استنتاج هوش مصنوعی مبتنی بر CPU است. پردازنده‌های Intel Xeon 6 شامل AMX (پیشرفته‌ترین پسوندهای ماتریسی) هستند که بارهای کاری هوش مصنوعی را بر روی RAM DDR5 استاندارد فعال می‌کنند - که به‌طور چشمگیری از حافظه GPU ارزان‌تر است.

مبادله

یک سرور دو سوکته Xeon 6 می‌تواند 1 تا 4 ترابایت RAM DDR5 را با کسری از هزینه حافظه GPU نگه دارد. سرعت‌های استنتاج کند است، اما برای پردازش دسته‌ای - جایی که سرعت بی‌ربط است اما هوشمندی و ظرفیت مهم‌تر هستند - این تحول‌آفرین است.

مثال:

نیاز به کمک برای انتخاب زیرساخت سرور هوش مصنوعی مناسب دارید؟

تیم زیرساخت ما راه‌حل‌های سرور هوش مصنوعی را طراحی و پیاده‌سازی می‌کند - از Intel Gaudi تا NVIDIA DGX - همراه با نرم‌افزارهای سفارشی‌سازی شده - تا قابلیت‌های هوش مصنوعی را برای کسب‌وکار شما آزاد کند.

درخواست پیشنهاد معماری سر →

6 هوش مصنوعی لبه‌ای
هوش مصنوعی لبه‌ای و بازسازی ارتقای زیرساخت موجود

هر کسب‌وکار کوچک و متوسطی به یک سرور هوش مصنوعی اختصاصی یا مینی‌پی‌سی نیاز ندارد. بسیاری می‌توانند هوشمندی را در زیرساخت موجود تعبیه کنند - با ارتقایپ‌تاپ‌ها، دسکتاپ‌ها و دستگاه‌های شبکه با قابلیت‌های هوش مصنوعی با حداقل هزینه.

شتاب‌دهنده‌های هوش مصنوعی M.2: Hailo-10

Hailo-10 یک ماژول استاندارد M.2 2280 است - همان اسلاتی که برای SSDها استفاده می‌شود - که پردازش هوش مصنوعی اختاصی را به هر رایانه موجود اضافه می‌کند. با قیمت حدودی ~20 میلیون تومان برای هر واحد و مصرف تنها 5-8 وات برق، امکان ارتقای هوش مصنوعی در کل ناوگان را بدون تعویض سخت‌افزار فراهم می‌کند.

📎
فرم فاکتور
M.2 2280
در هر اسلات استاندارد SSD جای می‌گیرد
عملکرد
20–50 TOPS
بهینه‌سازی شده برای استنتاج لبه‌ای
💰
هزینه
~20 میلیون تومان
برای هر واحد - ارتقای ناوگان با کمتر از ~390 میلیون تومان

موارد استفاده: رونویسی جلسات محلی (Whisper)، زیرنویس زنده، دیکته صوتی، استنتاج مدل‌های کوچک (Phi-3 Mini). این کارت‌ نمی‌توانند مدل‌های بزرگ زبانی (LLM) را اجرا کنند، اما در وظایف هوش مصنوعی خاص و پایدار عالی عمل می‌کنند - اطمینان حاصل می‌کنند که داده‌های صوتی به‌صورت محلی پردازش شده و هرگز به ابر ارسال نمی‌شوند.

رایانه‌های Copilot+ (لپ‌تاپ‌های NPU)

لپ‌تاپ‌های مجهز به تراشه‌های Qualcomm Snapdragon X Elite، Intel Core Ultra یا AMD Ryzen AI حاوی واحدهای پردازش عصبی (NPU) اختصاصی هستند — تراشه‌های هوش مصنوعی تخصصی. این‌ها نمی‌توانند مدل‌های بزرگ زبانی (LLM) را اجرا کنند، اما وظایف کوچک و مداوم هوش مصنوعی را مدیریت می‌کنند: رونویسی زنده، تار کردن پس‌زمینه، قابلیت‌های محلی Recall و اجرای مدل‌های سبک‌وزن مانند Microsoft Phi-3.

NPUها بر اساس TOPS (تریلیون عملیات در ثانیه) رتبه‌بندی می‌شوند که میزان کار هوش مصنوعی قابل مدیریت را اندازه‌گیری می‌کند. قدرتمندترین رایانه‌های Copilot+ در سال ۲۰۲۶ حدود ۵۰ TOPS دارند. TOPS بالاتر به معنای پاسخ‌های سریع‌تر و توانایی مدیریت مدلتر است.

9 مدل‌های هوش مصنوعی
مدل‌های هوش مصنوعی متن‌باز (2026–2027)

انتخاب مدل هوش مصنوعی الزامات سخت‌افزاری را دیکته می‌کند — اما همانطور که فصل کوانتیزاسیون مدل هوش مصنوعی نشان داد، کوانتیزاسیون به مدل‌های پیشرفته اجازه می‌دهد روی سخت‌افزاری اجرا شوند که کسری از هزینه استقرار با دقت کامل را دارد.

جدول زیر مروری بر مدل‌های هوش مصنوعی متن‌باز فعلی و آتی ارائه می‌دهد.

مدلاندازهمعماریحافظه (FP16)حافظه (INT4)
Llama 4 Behemoth288B (فعال)MoE (~۲T کل)~4 ترابایت~1 ترابایت
Llama 4 Maverick17B (فعال)MoE (400B کل)~۸۰۰ گیگابایت~200 گیگابایت
Llama 4 Scout17B (فعال)MoE (109B کل)~۲۲۰ گیگابایت~55 گیگابایت
DeepSeek V4~70B (فعال)MoE (671B کل)~680 گیگابایت~170 گیگابایت
DeepSeek R137B (عال)MoE (671B کل)~140 گیگابایت~35 گیگابایت
DeepSeek V3.2~37B (فعال)MoE (671B کل)~140 گیگابایت~35 گیگابایت
Kimi K2.532B (فعال)MoE (1T کل)~2 ترابایت~500 گیگابایت
Qwen 3.5397B (فعال)MoE (A17B)~۱/۵ ترابایت~375 گیگابایت
Qwen 3-Max-Thinkingبزرگچگال~2 ترابایت~500 گیگابایت
Qwen 3-Coder-Next۴۸۰B (A35B فعال)MoE~960 گیگابایت~240 گیگابایت
Mistral Large 3123B (41B فعال)MoE (675B کل)~۲۴۶ گیگابایت~62 گیگابایت
Ministral 3 (3B, 8B, 14B)3B–14چگال~6–28 گیگابایت~2–7 گیگابایت
GLM-544B (فعال)MoE (744B کل)~۱/۵ ترابایت~370 گیگابایت
GLM-4.7 (Thinking)بزرگچگال~۱/۵ ترابایت~375 گیگابایت
MiMo-V2-Flash15 (فعال)MoE (309B کل)~30 گیگابایت~8 گیگابایت
MiniMax M2.5~10B (فعال)MoE (~230B کل~460 گیگابایت~115 گیگابایت
Phi-5 Reasoning14Bچگال~28 گیگابایت~7 گیگابایت
Phi-414Bچگال~28 گیگابایت~7 گیگابایت
Gemma 327Bچگال~54 گیگابایت~14 گیگابایت
Pixtral 2 Large90Bچگال~۱۸۰ گیگابایت~45 گیگابایت
Stable Diffusion 4~12BDiT~24 گیگابایت~6 گیگاب
FLUX.2 Pro15BDiT~30 گیگابایت~8 گیگابایت
Open-Sora 2.030BDiT~60 گیگابایت~15 گیگابایت
Whisper V41.5Bچگال~3 گیگابایت~1 گیگابایت
Med-Llama 470Bچگال~140 گیگابایت~35 گیگابایت
Legal-BERT 202635Bچگال~70 گیگابایت~18 گیگابایت
Finance-LLM 315Bچگال~30 گیگابایت~8 گیگابایت
CodeLlama 470Bچگال~140 گیگابایت~35 گیگابایت
Molmo 280Bچگال~۱۶۰ گیگابایت~40 گیگابایت
Granite 4.032B (9B فعال)هیبریدی Mamba-Transformer~64 گیگابایت~16 گیگابایت
Nemotron 38B, 70Bچگال~16–140 گیگابایت~4–35 گیگابایت
EXAONE 4.032Bچگال~64 گیگابایت~16 گیگابایت
Llama 5 Frontier~1.2T (کل)MoE~2.4 ترابایت~600 گیگابایت
Llama 5 Base70B–150Bچگال~140–300گابایت~35–75 گیگابایت
DeepSeek V5~600B (کل)MoE~1.2 ترابایت~300 گیگابایت
Stable Diffusion 5تعیین خواهد شدDiT
Falcon 3200Bچگال~400 گیگابایت~100 گیگابایت
توصیهراتژیک

ابتدا سخت‌افزار نخرید. ابتدا کلاس مدلی را که با نیازهای کسب‌وکار شما مطابقت دارد شناسایی کنید، سپس کوانتیزاسیون را اعمال کنید تا مقرون‌به‌صرفه‌ترین سطح سخت‌افزاری را تعیین کنید.

تفاوت بین سرمایه‌گذاری ~390 میلیون تومان و 20 میلیارد تومان اغلب به الزات اندازه مدل و تعداد کاربران همزمان برمی‌گردد.

روندهای شکل‌دهنده چشم‌انداز مدل‌های هوش مصنوعی

  • چندوجهی بودن بومی به‌عنوان استاندارد. مدل‌های جدید به‌طور همزمان بر روی متن، تصاویر، صدا و ویدئو آموزش می‌بینند - نه به‌عنوان قابلیت‌های جداگانه که پس از آموزش اضافه شوند. این بدان معناست که یکل واحد تحلیل اسناد، درک تصویر و تعامل صوتی را مدیریت می‌کند.
  • دستیابی مدل‌های کوچک به قابلیت‌های مدل‌های بزرگ. Phi-5 (14B) و MiMo-V2-Flash نشان می‌دهند که نوآوری معماری می‌تواند استدلال سطح پیشرفته را در مدل‌هایی که روی لپ‌تاپ اجرا می‌شوند فشرده کند. دوران «بزرگ‌تر بهتر است» در حال پایان است.
  • تخصص‌گرایی به جای تعمیم‌دهی. به جای یک مدل عظیم برای همه چیز، گرایش به سمت مجموعه‌ای از مدل‌های تخصصی است — یک مدل کدنویسی، یک مدل استدلالی، یک مدل بینایی — که توسط یک چارچوب عامل هماهنگ می‌شوند. این امر نیازمندی‌های سخت‌افزاری هر مدل را کاهش می‌دهد و در عین حال کیفیت کلی را بهبود می‌بخشد.
  • هوش مصنوعی عاملی. مدل‌هایی مانند Kimi K2.5 و Qwen 3 طوری طراحی شده‌اند که به طور خودکار وظایف پیچیده را تجزیه، ابزارهای خارجی را فراخوانی و با مدل‌های دیگر هماهنگ کنند. این پارادایم ازدحام عامل‌ها به توان عملیاتی پایدار در جلسات طولانی نیاز دارد — که سخت‌افزارهای با پهنای باند بالا مانند GB10 و M5 Ultra را ترجیح می‌دهد.
  • بلوغ تولید ویدیو و سه‌بعدی. Open-Sora 2.0 و FLUX.2 Pro نشان می‌دهند که تولیدلی ویدیو در حال عملی‌شدن است. تا سال ۲۰۲۷، انتظار دستیارهای ویرایش ویدیو بلادرنگ را داشته باشید که روی سخت‌افزارهای سطح کارstations اجرا می‌شوند.

10 امنیت
معماری برای حداکثر امنیت

مزیت اصلی سخت‌افزار هوش مصنوعی محلی، عملکرد نیست — بلکه حاکمیت داده است. هنگامی که سرور هوش مصنوعی شما پشت فایروال خودتان اجرا می‌شود، نه در ابر شخص دیگری، داده‌های حساس شما هرگز ساختمان شما را ترک نمی‌کنند.

معماری API ایزوله، سرور هوش مصنوعی را از نظر فیزیکی از اینترنت جدا می‌کند و در عین حال از طریق یک رابط API در دسترس کارمندان مجاز قرار می‌دهد.

معماری API ایزوله
👤 کارمند ایستگاه کاری استاندارد
🔀 سرور بروکر احراز هویت + رابط کاربری + مسیریابی
🔒 سرور هوش مصنوعی ایزوله · بدون اینترنت
گاوصندوق هوش مصنوعی

این معماری یک «گاوصندوق دیجیتال» ایجاد می‌کند. حتی اگر سرور بروکر به خطر بیفتد، مهاجم فقط می‌تواند پرس‌وجوهای متنی ارسال کند - نمی‌تواند به سیستم فایل سر هوش مصنوعی، وزن‌های مدل، داده‌های تنظیم دقیق یا هر سند ذخیره شده‌ای دسترسی داشته باشد.

نیاز به استقرار امن هوش مصنوعی با راه‌حل‌های سفارشی دارید؟

مهندسان ما معماری‌های هوش مصنوعی ایزوله را طراحی و پیاده‌سازی می‌کنند که اطمینان حاصل می‌کند داده‌ها هرگز از محل خارج نمی‌شوند و در عین حال قابلیت‌ پیشرفته هوش مصنوعی را برای کسب‌وکار شما فراهم می‌کنند.

بحث درباره معماری امن هوش مصنوعی ←

11 اقتصادی
حکم اقتصادی: محلی در مقابل ابری

انتقال به سخت‌افزار هوش مصنوعی محلی، تغییر از هزینه‌های عملیاتی (OpEx - هزینه‌های ماهانه API ابری) به هزینه‌های سرمایه‌ای (CapEx - سرمایه‌گذاری یک‌باره سخت‌افزاری که به دارایی در ترازنامه شما تبدیل می‌شود) است.

یک شرکت حقوقی را در نظر بگیرید که از یک مدل ۲۰۰B برای تحلیل قراردادها استفاده می‌کند:

☁️ API ابری
~4.7 میلیارد تومان
در سال (در مقیاس)
۱,۰۰۰ قرارداد/روز × ~0.01 دلار/1K توکن × ۳۶۵ روز. به صورت خطی با استفاده مقیاس‌پذیر است. داده‌ها شبکه را ترک می‌کنند.
🖥️ سخت‌افزار محلی (DGX Spark
520 میلیون تومان
سرمایه‌گذاری یک‌باره
+ ~2.0 میلیون تومان/ماه برق. استفاده نامحدود. داده‌ها هرگز شبکه محلی (LAN) را ترک نمی‌کنند. دارایی در ترازنامه.

با ۱,۰۰۰ پرسش در روز، یک DGX Spark در کمتر از ۲ ماه در مقایسه با هزینه‌های API ابری، هزینه خود را جبران می‌کند. در سطوح استفاده بالاتر، دوره بازگشت سرمایه به هفته‌ها کاهش می‌یابد.

اقتصاد زمانی حتی مطلوب‌تر می‌شود که موارد زیر را در نظر بگیرید:

  • چندین کارمند که سخت‌افزار یکسانی را به‌اشتراک می‌گذارند (DGX Spark به 2- کاربر همزمان سرویس می‌دهد)
  • بدون قیمت‌گذاری بر اساس توکن — وظایف استدلالی پیچیده و چندمرحله‌ای هیچ هزینه اضافی ندارند
  • تنظیم دقیق روی داده‌های اختصاصی — با اکثر APIهای ابری غیرممکن، روی سخت‌افزار محلی رایگان
  • ارزش فروش مجدد سخت‌افزار — سخت‌افزار هوش مصنوعی ارزش قابل توجهی در بازار ثانویه حفظ می‌کند