1 الأساسيات
لماذا الذكاء الاصطناعي المحلي؟ الجدوى التجارية للامتلاك
في أوائل العقد الثالث من القرن الحادي والعشرين، كان الذكاء الاصطناعي خدمة تستأجرها - بالساعة، بالرمز، بطلب API. بحلول عام 2026، تحول النموذج. أصبحت الأجهزة المطلوبة لتشغيل ذكاء مستوى GPT-4
الآن تناسب مكتبك وتكلف أقل من سيارة مستعملة.
يؤدي الاعتماد المستمر على الذكاء الاصطناعي السحابي فقط إلى معضلة استراتيجية ثلاثية:
- تكاليف متصاعدة. تتزايد رسوم واجهة برمجة التطبيقات (API) لكل رمز بشكل خطي مع الاستخدام. قد تواجه شركة محاماة تعالج 1000 عقد يومياً تكاليف سنوية للواجهة تصل إلى ~١٥٠ ألف ر.س..
- تعريض البيانات للخطر. كل استعلام يتم إرساله إلى واجهة برمجة تطبيقات سحابية هو بيانات تغادر شبكتك وتتعرض لمخاطر أمن البيانات والخصوصية.
- تخصيص معدوم أو مكلف. نماذج السحابة عامة. لا يمكن تخصيصها بسهولة أو بكفاءة من حيث التكلفة على بيانات مخصصة، أو عمليات أعمال داخلية، أو ذكاء أعمال.
تحل أجهزة الذكاء الاصطناعي المحلية المشاكل الثلاثة. فهي تحول رسوم API المتغيرة إلى أصل رأسمالي ثابت، وتضمن عدم مغادرة البيانات للشبكة المحلية أبدًا، وتمكن من التخصيص العميق من خلال الضبط الدقيق على بيانات الأعمال.
2 تخفيض التكاليف
التكميم: تشغيل نماذج ذكاء اصطناعي أكبر على أجهزة أرخص
التكميم هو مفهوم يغير بشكل جذري اقتصاديات الذكاء الاصطناعي المحلي.
ببساطة، يضغط التكميم البصمة الذاكيرية لنموذج الذكاء الاصطناعي. يخزن النموذج القياسي كل معامل كرقم فاصلة عائمة 16 بت (FP16). يقلل التكميم هذا إلى 8 بت (Int8)، أو 4 بت (Int4)، أو حتى أقل - مما يقلل بشكل كبير من كمية الذاكرة المطلوبة لتشغيل النموذج.
ينتج عن التكميم انخفاض طفيف في جودة المخرجات - غالبًا غير محسوس لمهام الأعمال مثل التلخيص، والصياغة، والتحليل - مقابل تخفيض هائل في تكلفة الأجهزة.
يتطلب نموذج 400 مليار عند الدقة الكاملة ذاكرة بحجم 800 جيجابايت تقريباً - استثمار في خادم بقيمة ~٧٥٠ ألف ر.س.. بينما يتطلب نفس النموذج عند التكميم إلى Int4 فقط 200 جيجابايت تقريباً، ويمكن تشغيله على جهازي كمبيوتر صغير من DGX Spark (المبني على معالج GB10 Superchip) مرتبطين معاً مقابل ٣٠٬٠٠٠ ر.س..
خليط الخبراء (MoE)
يُعد خليط الخبراء (MoE) أسلوباً معمارياً آخر لنماذج الذكاء الاصطناعي يتيح نشر نماذج ضخمة دون تكاليف الذاكرة الباهظة.
بدلاً من استخدام جميع المعاملات لكل استعلام، ينشط نموذج MoE جزءاً صغيراً فقط من قدرته عبر التفعيل المتفرق.
ينشط نموذج MoE ذو 2 تريليون معامل مثل Llama 4 Behemoth فقط 288 مليار معامل لكل استعلام - مما يوفر ذكاءً بمستوى متقدم بكسر بسيط من تكلفة الذاكرة.
تكون نماذج MoE أقل كفاءة قليلاً في المهام البسيطة مثل التلخيص والتصنيف مقارنة بالنماذج الكثيفة بنفس الحجم. لكنها تتفوق في أعمال المعرفة والاستدلال مثل التحليل المعقد وتوليد الأبحاث.
يؤدي التفعيل المتفرق إلى سرعة استدلال أسرع وأوقات استجابة مختصرة.
3 أجهزة الحاسوب الصغيرة
أجهزة الحاسوب الصغيرة للذكاء الاصطناعي ٥٬٦٠٠ ر.س. – ٣٧٬٥٠٠ ر.س.
أكثر التطورات إرباكًا في عام 2026 هو الحوسبة عالية السعة للذكاء الاصطناعي في شكل أجهزة حاسوب صغيرة. تعمل الأجهزة التي لا يزيد حجمها عن كتاب ذو غلاف مقوى الآن على نماذج الذكاء الاصطناعي التي كانت تتطلب غرف خوادم قبل عامين.
نظام NVIDIA GB10 (DGX Spark)
الأداء الأقوى
حدد جهاز NVIDIA DGX Spark هذه الفئة. في عام 2026، أنشأت الشريحة الفائقة GB10 - التي تجمع بين معالج ARM Grace وبطاقة رسوميات Blackwell - نظامًا بيئيًا كاملاً. تنتج ASUS وGIGABYTE وDell وLenovo وHP وMSI وSupermicro جميعها أنظمة قائمة على GB10، لكل منها أشكال وتبريد وبرامج مجمعة مختلفة.
عن طريق توصيل وحدتي GB10 عبر منفذ الشبكة عالي السرعة المخصص، يدمج النظام الموارد في مساحة ذاكرة 256 جيجابايت. يفتح هذا الباب أمام القدرة على تشغيل نماذج كبيرة جدًا - 400 مليار+ معامل مكممة - بالكامل على مكتبك باستثمار أجهزة إجمالي يقارب ٣٠٬٠٠٠ ر.س..
أجهزة الحاسوب الصغيرة AMD Ryzen AI Max (Strix Halo)
الأقل تكلفة
أنشأت بنية AMD Ryzen AI Max+ Strix Halo
فئة جديدة تمامًا من أجهزة الحاسوب الصغيرة الموفرة للذكاء الاصطناعي. تنتج الآن موجة من الشركات المصنعة - GMKtec وBeelink وCorsair وNIMO وBosgame وFAVM - أنظمة ذاكرة موحدة 128 جيجابايت بأقل من ~٧٬٥٠٠ ر.س..
Apple Mac Studio (M4 Ultra)
الأعلى سعة
تحتل Mac Studio موقعًا فريدًا في مشهد الذكاء الاصطناعي المحلي. توفر بنية الذاكرة الموحدة (UMA) من Apple ما يصل إلى 256 جيجابايت من الذاكرة يمكن لكل من المعالج وبطاقة الرسوميات الوصول إليها في وحدة مكتبية مدمجة واحدة - دون الحاجة إلى تجميع.
هذا يجعلها الجهاز الفردي الميسور التكلفة
الوحيد القادر على تحميل أكبر نماذج المصدر المفتوح. يتسع نموذج 400 مليار معامل مكمم إلى Int4 بالكامل في الذاكرة في تكوين 256 جيجابايت.
Apple Mac Studio (M5 Ultra)
المنافس القادم
من المتوقع أن يعالج الجيل التالي من Apple M5 Ultra، المتوقع في أواخر عام 2026، الضعف الأساسي لـ M4: أداء تدريب نماذج الذكاء الاصطناعي. مبني على عملية 2 نانومتر من TSMC، من المتوقع أن يقدم تكوينات تصل إلى 512 جيجابايت من الذاكرة الموحدة مع نطاق ترددي يتجاوز 1.2 تيرابايت/ثانية.
سيكون جهاز M5 Ultra بسعة 512 جيجابايت أول جهاز استهلاكي قادر على تشغيل نماذج الذكاء الاصطناعي المتطورة غير المكممة (بدقة كاملة). يدعم نطاق التردد العالي للذاكرة البالغ 1.2+ تيرابايت/ثانية سير عمل الذكاء الاصطناعي الوكيل التي تتطلب استدلالًا عالي الإنتاجية المستمر مع نوافذ سياقية طويلة جدًا.
Tiiny AI
كمبيوتر ذكاء اصطناعي فائق الجيب
تم إطلاق كمبيوتر Tiiny.ai الجبي للذكاء الاصطناعي على Kickstarter عام 2026 مقابل ٥٬٢٠٠ ر.س.، وهو كمبيوتر فائق بحجم الجيب بذاكرة 80 جيجابايت من نوع LGDDR5X وقرص SSD بسعة 1 تيرابايت يدعميل نماذج الذكاء الاصطناعي 120 مليار محلياً في أي مكان.
بوزن 300 جرام (142×22×80 مم) وتشغيل عبر منفذ USB-C القياسي، يدعم تطبيقات أعمال مبتكرة. تبلغ سرعة إخراج Tiiny AI 21.14 رمزاً في الثانية لنموذج GPT-OSS-120B.
Tenstorrent
أجهزة مفتوحة المصدر
تمثل Tenstorrent تحت قيادة مهندس الرقائق الأسطوري جيم كيلر فلسفة مختلفة جوهريًا: أجهزة مفتوحة المصدر مبنية على RISC-V، وبرمجيات مفتوحة المصدر، وتوسع معياري من خلال التوصيل المتسلسل.
تم تصميم نوى الذكاء الاصطناعي Tensix
لتتوسع خطيًا: على عكس بطاقات الرسوميات التي تواجه صعوبة في عبء الاتصالات عند إضافة المزيد من البطاقات، تم بناء رقائق Tenstorrent لتكون متراصة بكفاءة.
بشراكة مع Razer، أصدرت Tenstorrent مسرع ذكاء اصطناعي خارجي مدمج يتصل بأي كمبيوتر محمول أو مكتبي عبر Thunderbolt - يحول الأجهزة الحالية إلى محطة عمل ذكاء اصطناعي دون استبدال أي شيء.
NAS للذكاء الاصطناعي - تخزين متصل بالشبكة
تخزين + ذكاء اصطناعي
تطور تعريف أنظمة التخزين المتصلة بالشبكة (NAS) من التخزين السلبي إلى الذكاء النشط. تدمج الجيل الجديد من أجهزة تخزين الشبكات معالجة الذكاء الاصطناعي مباشرة - من الاستدلال الخفيف القائم على وحدات المعالجة العصبية (NPU) إلى نشر نماذج اللغة الكبيرة (LLM) المعززة بوحدات معالجة الرسوميات (GPU).
تزيل أنظمة التخزين المتصلة بالشبكة القادرة على تشغيل الذكاء الاصطناعي الحاجة إلى جهاز ذكاء اصطناعي منفصل وتسمح بمعالجة كميات أكبر من البيانات مباشرة دون أي زمن انتقال في نقل الشبكة.
هل تحتاج مساعدة في اختيار الحاسوب المصغر المناسب للذكاء الاصطناعي لعملك؟
يمكن لمهندسينا تقييم متطلبات أجهزة الذكاء الاصطناعي لديك ونشر نظام ذكاء اصطناعي مكتمل التهيئة.
احصل على تقييم مجاني للأجهزة ←4 محطات العمل
محطات عمل الذكاء الاصطناعي وأجهزة الكمبيوتر المكتبية ١١ ألف ر.س ٥٦ ألف ر.س.
تستخدم فئة محطات العمل بطاقات رسوميات PCIe المنفصلة وأبراج الهيكل القياسية. على عكس البنى الموحدة الثابتة لفئة الحواسيب المصغرة، تقدم هذه الفئة القدرة على التعديل - يمكنك ترقية المكونات الفردية، أو إضافة المزيد من وحدات معالجة الرسوميات، أو استبدال البطاقات مع تطور التكنولوجيا.
فهم ذاكرة الفيديو مقابل السرعة
عاملان متنافسان يحددان اختيار بطاقة معالجة الرسوميات للذكاء الاصطناعي:
تزيد بطاقات المستهلكين (مثل RTX 5090) السرعة إلى الحد الأقصى ولكنها تقدم ذاكرة فيديو محدودة - عادةً 24-32 جيجابايت. بينما تزيد بطاقات المحترفين (مثل RTX PRO 6000 Blackwell) ذاكرة الفيديو إلى 96 جيجابايت لكل بطاقة - لكنها تكلف أكثر لكل وحدة حوسبة.
ذاكرة الفيديو هي القيد الملزم. لا يمكن للبطاقة السريعة ذات الذاكرة غير الكافية تحميل نموذج الذكاء الاصطناعي على الإطلاق. تعمل البطاقة الأبطأ ذات الذاكرة الكافية على تشغيل النموذج - فقط مع أوقات استجابة أطول.
بطاقات معالجة الرسوميات للمستهلكين
| التكوين | إجمالي ذاكرة الفيديو | الربط | التكلفة التقريبية |
|---|---|---|---|
| 2× RTX 3090 (مستعملة) | 48 جيجابايت | NVLink | ~١١٬٠٠٠ ر.س. |
| 2× RTX 4090 | 48 جيجابايت | PCIe الجيل الخامس | ١٥٬٠٠٠ ر.س. |
| 2× RTX 5090 | 64 جيجابايت | PCIe الجيل الخامس | ٢٦٬٠٠٠ ر.س. |
بطاقات معالجة الرسوميات للمحترفين
| التكوين | إجمالي ذاكرة الفيديو | الربط | التكلفة التقريبية |
|---|---|---|---|
| 2× RTX A6000 أفضل قيمة | 96 جيجابايت | NVLink | ٢٦٬٠٠٠ ر.س. |
| 2× RTX 6000 Ada | 96 جيجابايت | PCIe الجيل الخامس | ٤٩٬٠٠٠ ر.س. |
| 1× RTX PRO 6000 Blackwell | 96 جيجابايت | NVLink | ٣٠٬٠٠٠ ر.س. |
| 4× RTX PRO 6000 Blackwell | 384 جيجابايت | PCIe الجيل الخامس | ١٢٠٬٠٠٠ ر.س. |
بطاقات معالجة الرسوميات لمراكز البيانات
| التكوين | إجمالي ذاكرة الفيديو | الربط | التكلفة التقريبية |
|---|---|---|---|
| 1× L40S | 48 جيجابايت | PCIe 4.0 (تبريد سلبي) | ٢٦٬٠٠٠ ر.س. |
| 1× A100 PCIe | 80 جيجابايت | PCIe 4.0 | ٣٨٬٠٠٠ ر.س. |
| 1× H200 NVL | 141 جيجابايت | NVLink | ١١٢٬٠٠٠ ر.س. |
| 4× H200 NVL | 564 جيجابايت | NVLink | ٤٥٠٬٠٠٠ ر.س. |
| 1× B200 SXM | 180 جيجابايت | NVLink 5 (1.8 تيرابايت/ثانية) | ١١٢٬٠٠٠ ر.س. |
| 8× B200 SXM | 1,440 جيجابايت | NVLink 5 (1.8 تيرابايت/ثانية) | ٩٠٠٬٠٠٠ ر.س. |
بطاقات معالجة الرسوميات الصينية
نضجت بيئة بطاقات معالجة الرسوميات المحلية في الصين بسرعة. تقدم عدة شركات صينية الآن بطاقات معالجة رسوميات للذكاء الاصطناعي من فئة محطات العمل بمواصفات تنافسية وأسعار أقل بكثير.
| التكوين | إجمالي ذاكرة الفيديو | نوع الذاكرة | التكلفة التقريبية |
|---|---|---|---|
| 1× Moore Threads MTT S4000 | 48 جيجابايت | GDDR6 | ٣٬٠٠٠ ر.س. |
| 4× Moore Threads MTT S4000 | 192 جيجابايت | GDDR6 | ١٣٬٠٠٠ ر.س. |
| 8× Moore Threads MTT S4000 | 384 جيجابايت | GDDR6 | ٢٤٬٠٠٠ ر.س. |
| 1× Hygon DCU Z100 | 32 جيجابايت | HBM2 | ٩٬٤٠٠ ر.س. |
| 1× Biren BR104 | 32 جيجابايت | HBM2e | ~١١٬٠٠٠ ر.س. |
| 8× Biren BR104 | 256 جيجابايت | HBM2e | ٩٠٬٠٠٠ ر.س. |
| 1× Huawei Ascend Atlas 300I Duo | 96 جيجابايت | HBM2e | ٤٬٥٠٠ ر.س. |
| 8× Huawei Ascend Atlas 300I Duo | 768 جيجابايت | HBM2e | ٣٨٬٠٠٠ ر.س. |
قريبًا
| التكوين | إجمالي ذاكرة الفيديو | الحالة | التكلفة التقريبية |
|---|---|---|---|
| RTX 5090 128 جيجابايت | 128 جيجابايت | تعديل صيني - ليس وحدة تخزين قياسية | ١٨٬٨٠٠ ر.س. |
| RTX Titan AI | 64 جيجابايت | متوقع في 2027 | ~١١٬٠٠٠ ر.س. |
محطة NVIDIA DGX
قمة المؤسسات
محطة NVIDIA DGX هي حاسوب فائق
مبرد بالماء يوضع بجانب المكتب ويوفر أداء مركز البيانات في بيئة مكتبية. تستخدم أحدث نسخة شريحة GB300 Grace Blackwell الفائقة.
تزيد نسخة Blackwell Ultra
من كثافة الذاكرة وقوة الحوسبة، مصممة للمنظمات التي تحتاج إلى تدريب نماذج مخصصة من الصفر أو تشغيل بنيات MoE (خليط الخبراء) الضخمة محليًا.
رغم اعتماده على بنية Ampere القديمة، يظل المعيار الصناعي للاستدلال الموثوق والضبط الدقيق. مثالي للفرق التي تدخل مجال الذكاء الاصطناعي دون ميزانية لـ Blackwell.
رغم تكلفته المرتفعة، يحل محطة DGX محل رف خوادم ~١٫١ مليون ر.س.س والبنية التحتية للتبريد المرتبطة به. يتم توصيله بمقبس حائط قياسي. مما يلغي تماماً تكاليف "غرفة الخوادم".
هل تحتاج مساعدة في اختيار محطة عمل الذكاء الاصطناعي المناسبة لعملك؟
يمكن لمهندسينا تقييم متطلبات أجهزة الذكاء الاصطناعي لديك ونشر نظام ذكاء اصطناعي مكتمل التهيئة.
احصل على تقييم مجاني للأجهزة ←5 الخوادم
خوادم الذكاء الاصطناعي ٥٦ ألف ر.س. - ٧٥٠ ألف ر.س.
عندما تحتاج شركتك لخدمة موظفين كثر في وقت واحد، أو تشغيل نماذج أساسية بدقة كاملة، أو ضبط نماذج مخصصة على بيانات خاصة - تنتقل إلى مستوى الخادم.
هذا هو مجال بطاقات تسريع الذكاء الاصطناعي المخصصة مع ذاكرة النطاق الترددي العالي (HBM)، والوصلات المتخصصة، وعوامل الشكل القابلة للتثبيت في الرف أو بجانب المكتب. الأجهزة أكثر تكلفة، لكن التكلفة لكل مستخدم تنخفض بشكل كبير عند التوسع.
Intel Gaudi 3
أفضل قيمة على نطاق واسع
صُمم معجل Gaudi 3 من إنتل من الألف إلى الياء كشريحة لتدريب الذكاء الاصطناعي والاستدلال - وليس بطاقة رسوميات معادة التوجيه. توفر كل بطاقة 128 جيجابايت من ذاكرة HBM2e مع شبكة إيثرنت متكاملة 400 جيجابت، مما يلغي الحاجة إلى محولات شبكة منفصلة.
يتوفر Gaudi 3 في شكلين:
- بطاقة PCIe (HL-338): شكل قياسي لـ PCIe للتكامل مع الخوادم الحالية. السعر التقديري: ~٤٥٬٠٠٠ ر.س. لكل بطاقة.
- وحدة مسرع OAM (OCP Accelerator Module): معيار OCP عالي الكثافة لمراكز البيانات السحابية. ٥٨٬٦٠٠ ر.س. لكل شريحة عند الشراء بكميات (مجموعات 8 شرائحعر ~٤٦٩ ألف ر.س. مع اللوحة الأساسية).
يوفر خادم Gaudi 3 بثماني بطاقات 1 تيرابايت من ذاكرة الذكاء الاصطناعي الإجمالية بتكلفة أقل بكثير من نظام NVIDIA H100 المماثل.
AMD Instinct MI325X
أقصى كثافة
تحتوي بطاقة AMD Instinct MI325X على 256 جيجابايت من ذاكرة HBM3e لكل بطاقة - ضعف سعة Intel Gaudi 3. تحتاج فقط 4 بطاقات للوصول إلى 1 تيرابايت من ذاكرة الذكاء الاصطناعي الإجمالية، مقارنة بـ 8 بطاقات لـ Intel.
تعد MI325X أغلى لكل نظام من Gaudi 3، لكنها أسرع وأكثف. للأحمال التي تتطلب أقصى إنتاجية - مثل الاستدلال الفوري لمستخدمين أكثر أو تدريب نماذج مخصصة على مجموعات بيانات كبيرة - يبرر الاستثمار الأعلى نفسه عبر تقليل زمن الوصول وتبسيط البنية التحتية.
Huawei Ascend
بديل كامل المكدس
كررت هواوي مكدس البنية التحتية الكامل للذكاء الاصطناعي: رقائق مخصصة (Ascend 910B/C)، وصلات خاصة (HCCS)، وإطار برمجي كامل (CANN). والنتيجة هي نظام بيئي مستقل يعمل بشكل مستقل عن سلاسل التوريد الغربية وبتكلفة أقل بكثير من مجموعات NVIDIA H100 المماثلة.
Intel Xeon 6 (Granite Rapids)
خادم الميزانية
ثورة هادئة2026 هي صعود الاستدلال بالذكاء الاصطناعي القائم على المعالج. تتضمن معالجات Intel Xeon 6 AMX (امتدادات المصفوفة المتقدمة) التي تمكن أحمال عمل الذكاء الاصطناعي على ذاكرة DDR5 RAM القياسية - وهي أرخص بكثير من ذاكرة وحدة معالجة الرسوميات.
يمكن لخادم Xeon 6 ثنائي المقبس الاحتفاظ بـ 1 تيرابايت إلى 4 تيرابايت من ذاكرة DDR5 RAM بجزء بسيط من تكلفة ذاكرة وحدة معالجة الرسوميات. سرعات الاستدلال بطيئة، ولكن للمعالجة المجمعة - حيث تكون السرعة غير ذات أهمية ولكن الذكاء والسعة في المقام الأول - فهذا تحويلي.
مثال: تقوم شركة صغيرة أو متوسطة بتحميل 100,000 فاتورة ممسوحة ضوئيًا خلال الليل. يعمل خادم Xeon 6 بنموذج ذكاء اص +400B لاستخراج البيانات بدقة. تستغرق المهمة 10 ساعات، لكن تكلفة العتاد أقل بكثير من خادم GPU.
هل تحتاج مساعدة في اختيار بنية خادم الذكاء الاصطناعي المناسبة؟
يصمم فريق البنية التحتية لدينا وينفذ حلول خوادم الذكاء الاصطناعي الكاملة - من Intel Gaudi إلى NVIDIA DGX - مدمجة مع برمجيات مخصصة - لتحرير إمكانات الذكاء الاصطناعي لعملك.
اطلب اقتراحًا لبنية الخادم ←6 Edge AI
Edge AI & التحديث ترقية البنية التحتية الحالية
لا تحتاج كل شركة صغيرة أو متوسطة إلى خادم ذكاء اصطناعي مخصص أو حاسوب صغير. يمكن للكثيرين تضمين الذكاء في البنية التحتية الحالية - ترقية أجهزة الكمبيوتر المحمولة والمكتبية وأجهزة الشبكة بقدرات الذكاء الاصطناعي بتكلفة ضئيلة.
مسرعات الذكاء الاصطناعي M.2: Hailo-10
o-10 هي وحدة M.2 2280 قياسية - نفس الفتحة المستخدمة لمحركات SSD - تضيف معالجة ذكاء اصطناعي مخصصة لأي حاسوب موجود. بسعر ~~٥٦٠ ر.س. للوحدة واستهلاك طاقة 5-8 واط فقط، تمكن ترقيات الذكاء الاصطناعي على مستوى الأسطول دون استبدال العتاد.
حالات الاستخدام: النسخ المحلي للاجتماعات (Whisper)، التسميات التوضيحية في الوقت الفعلي، الإملاء الصوتي، استدلال النماذج الصغيرة (Phi-3 Mini). لا يمكن لهذهاقات تش نماذج LLM الكبيرة، لكنها تتفوق في مهام الذكاء الاصطناعي المحددة والمستمرة - مما يضمن معالجة بيانات الصوت محليًا وعدم إرسالها إلى السحابة أبدًا.
أجهزة كمبيوتر Copilot+ (أجهزة كمبيوتر محمولة NPU)
تحتوي أجهزة الكمبيوتر المحمولة بشرائح Qualcomm Snapdragon X Elite أو Intel Core Ultra أو AMD Ryzen AI على وحدات معالجة عصبية (NPU) مخصصة - شرائح ذكاء اصطناعي متخصصة. لا يمكنها تشغيل نماذج LLM كبيرة، لكنها تتعامل مع مهام ذكاء اصطناعي صغيرة مستمرة: النقل الكتابي المباشر، طمس الخلفية، ميزات "التذكر" المحلية، وتشغيل نماذج خفيفة مثل Microsoft Phi-3.
يتم تصنيف وحدات NPU بوحدة TOPS (تريليون عملية في الثانية)، التي تقيس مقدار عمل الذكاء الاصطناعي الذي يمكنها معالجته. تمتلك أقوى أجهزة Copilot+ في 2026 سعة 50 TOPS تقريباً. تعني TOPS أعلى استجابات أسرع وقدرة على التعامل مع نماذج ذكاء اصطناعي أكبر قليلاً.
9 نماذج الذكاء الاصطناعي
نماذج الذكاء الاصطناعي مفتوحة المصدر (2026–2027)
يحدد اختيار نموذج الذكاء الاصطناعي متطلبات العتاد - ولكن كما أوضح فصل تكميم نموذج الذكاء الاصطناعي، يسمح التكميم للنماذج المتطورة بالعمل على عتاد يكلف جزءًا بسيطًا مما تتطلبه النشر بدقة كاملة.
يوفر الجدول أدناه نظرة عامة على نماذج الذكاء الاصطناعي مفتوحة الحالية والقادمة.
| النموذج | الحجم | الهندسة المعمارية | الذاكرة (FP16) | الذاكرة (INT4) |
|---|---|---|---|---|
| Llama 4 Behemoth | 288B (نشط) | MoE (~2T إجمالي) | ~4 تيرابايت | ~1 تيرابايت |
| Llama 4 Maverick | 17B (نشط) | MoE (400B إجمالي) | ~800 جيجابايت | ~200 جيجابايت |
| Llama 4 Scout | 17B (نشط) | MoE (109B إجمالي) | ~220 جيجابايت | ~55 جيجابايت |
| DeepSeek V4 | ~70B (نشط) | MoE (671B إجمالي) | ~680 جيجابايت | ~170 جيجابايت |
| DeepSeek R1 | 37B (نشط) | MoE (671B إجمالي) | ~140 جيجابايت | ~35 جيجابايت |
| DeepSeek V3.2 | ~37B (نشط) | MoE (671B إجمالي) | ~140 جيجابايت | ~35 جيجابايت |
| Kimi K2.5 | 32B (نشط) | MoE (1T إجمالي) | ~2 تيرابايت | ~500 جيجابايت |
| Qwen 3.5 | 397Bشط) | MoE (A17B) | ~1.5 تيرابايت | ~375 جيجابايت |
| Qwen 3-Max-Thinking | كبير | كثيف | ~2 تيرابايت | ~500 جيجابايت |
| Qwen 3-Coder-Next | 480B (A35B نشط) | MoE | ~960 جيجابايت | ~240 جيجابايت |
| Mistral Large 3 | 123B (41B نشط) | MoE (675B إجمالي) | ~246 جيجابايت | ~62 جيجابايت |
| Ministral 3 (3B, 8B, 14B) | 3B–14B | كثيف | ~6–28 جيجابايت | ~2–7 جيجابايت |
| GLM-5 | 44B (نشط) | MoE (744B إجمالي) | ~1.5 تيرابايت | ~370 جيجابايت |
| GLM-4.7 (Thinking) | كبير | كثيف | ~1.5 تيرابايت | ~375 جيجابايت |
| MiMo-V2-Flash | 15B (نشط) | MoE (309B إجمالي) | ~30 جيجابايت | ~8 جيجابايت |
| MiniMax M2.5 | ~10B (نشط) | MoE (~230B إجمالي) | ~460 جيجابايت | ~115 جيجابايت |
| Phi-5 Reasoning | 14B | كثيف | ~28 جيجابايت | ~7 جيجابايت |
| Phi-4 | 14B | كثيف | ~28 جيجابايت | ~7 جيجابايت |
| Gemma 3 | 27B | كثيف | ~54 جيجابايت | ~14 جيجابايت |
| Pixtral 2 Large | 90B | كثيف | ~180 جيجابايت | ~45 جيجابايت |
| Stable Diffusion 4 | ~12B | DiT | ~24 جيجابايت | ~6 جيجابايت |
| FLUX.2 Pro | 15B | DiT | ~30 جيجابايت | ~8 جيجابايت |
| Open-Sora 2.0 | 30B | DiT | ~60 جيجابايت | ~15 جيجابايت |
| Whisper V4 | 1.5B | كثيف | ~3 جيجابايت | ~1 جيجابايت |
| Med-Llama 4 | 70B | كثيف | ~140 جيجابايت | ~35 جيجابايت |
| Legal-BERT 2026 | 35B | كثيف | ~70 جيجابايت | ~18 جيجابايت |
| Finance-LLM 3 | 15B | كثيف | ~30 جيجابايت | ~8 جيجابايت |
| CodeLlama 4 | 70B | كثيف | ~140 جيجابايت | ~35 جيجابايت |
| Molmo 2 | 80B | كثيف | ~160 جيجابايت | ~40 جيجابايت |
| Granite 4.0 | 32B (9B نشط) | هجين Mamba-Transformer | ~64 جيجابايت | ~16 جيجابايت |
| Nemotron 3 | 8B, 70B | كثيف | ~16–140 جيجابايت | ~4–35 جيجابايت |
| EXAONE 4.0 | 32B | كثيف | ~64 جيجابايت | ~16 جيجابايت |
| Llama 5 Frontier | ~1.2T (إجمالي) | MoE | ~2.4 تيرابايت | ~600 جيجابايت |
| Llama 5 Base | 70B–150B | كثيف | ~140–300 جيجابايت | ~35–75 جيجابايت |
| DeepSeek V5 | ~600B (إجمالي) | MoE | ~1.2 تيرابايت | ~300 جيجابايت |
| Stable Diffusion 5 | يحدد لاحقًا | DiT | — | — |
| Falcon 3 | 200B | كثيف | ~400 جيجابايت | ~100 جيجابايت |
لا تشتري العتاد أولاً. حدد فئة النموذج المناسبة لاحتياجات عملك، ثم طبق التكميم لتحديد طبقة العتاد الأكثر اقتصادية.
غالبًا ما يعود الفرق بين استثمار ~١١٬٠٠٠ ر.س. واستثمار ٥٦٢٬٠٠٠ ر.س. إلى متطلبات حجم النموذج وعدد المستخدمين المتزامنين.
الاتجاهات التي تشكل مشهد نموذج الذكاء الاصطناعي
- تعدد الوسائط الأصلي كمعيار. يتم تدريب النماذج الجديدة على النصوص والصور والصوت والفيديو في وقت واحد - وليس كقدرات منفصلة تضاف بعد التدريب. هذا يعني أن نموذجًا واحدًا يتولى تحليل المستندات وفهم الصور والتفاعل الصوتي.
- نماذج صغيرة تحقق قدرات النماذج الكبيرة. تظهر Phi-5 (14B) و MiMo-V2-Flash أن الابتكار المعماري يمكنه ضغط التفكير على مستوى الطليعة في نماذج تعمل على جهاز كمبيوتر محمول. عصر "الأكبر هو الأفضل" ينتهي.
- التخصص فوق التعميم. بدلاً من نموذج ضخم واحد لكل شيء، يتجه الاتجاه نحو مجموعات من النماذج المتخصصة - نموذج ترميز، نموذج تفكير، نموذج رؤية - تنسقها إطار وكيل. هذا يقلل متطلبات العتاد لكل نموذج مع تحسين الجودة الشاملة.
- الذكاء الاصطناعي الوكيل. تم تصميم نماذج مثل Kimi K2.5 و Qwen 3 لتحليل المهام المعقدة ذاتيًا، واستدعاء الأدوات الخارجية، والتنسيق مع النماذج الأخرى. يتطلب نموذج "سرب الوكلاء" هذا إنتاجية مستدامة خلال جلسات طويلة - مما يفضل عتادًا عالي النطاق مثل GB10 و M5 Ultra.
- نضوج توليد الفيديو والثلاثي الأبعاد. تشير Open-Sora 2.0 و FLUX.2 Pro إلى أن توليد الفيديو المحلي أصبح عمليًا. بحلول عام 2027، توقع مساعدي تحرير الفيديو في الوقت الفعلي يعملون على عتاد فئة محطات العمل.
10 الأمان
هندسة معمارية لأقصى درجات الأمان
الميزة الأساسية لأجهزة الذكاء الاصطناعي المحلية ليست الأداء - بل السيادة على البيانات. عندما يعمل خادم الذكاء الاصطناعي خلف جدار الحماية الخاص بك بدلاً من سحابة أخرى، لا تترك بياناتك الحساسة مبنى شركتك أبداً.
تعزل بنية API المنعزلة جسدياً خادم الذكاء الاصطناعي عن الإنترنت مع تمكين الموظفين المعتمدين من الوصول إليه عبر واجهة API.
تنشئ هذه الهندسة قبوًا رقميًا
. حتى لو تم اختراق خادم الوسيط، يمكن للمهاجم فقط إرسال استفسارات نصية - لا يمكنه الوصول إلى نظام ملفات خادم الذكاء الاصطناعي، أو أوزان النموذج، أو بيانات الضبط الدقيق، أو أي مستندات مخزنة.
هل تحتاج إلى نشر ذكاء اصطناعي آمن مع حلول ذكاء اصطناعي مخصصة؟
يصمم مهندسونا وينفذون هياكل الذكاء الاصطناعي المعزولة التي تضمن عدم مغادرة البيانات للموقع مع توفير قدرات الذكاء الاصطناعي المتطورة لعملك.
ناقش بنية الذكاء الاصطناعي الآمنة ←11 الاقتصاد
الحكم الاقتصادي: المحلي مقابل السحابة
الانتقال إلى عتاد الذكاء الاصطناعي المحلي هو تحول من OpEx (النفقات التشغيلية - رسوم واجهة برمجة التطبيقات السحابية الشهرية) إلى CapEx (النفقات الرأسمالية - استثمار عتاد لمرة واحدة يصبح أصلًا في ميزانيتك العمومية).
لنأخذ مثالاً لشركة محاماة تشغل نموذج 200 مليار لتحليل العقود:
عند 1000 استعلام يومياً، يغطي DGX Spark تكلفته في أقل من شهرين مقارنة بتكاليف واجهة API السحابية. عند مستويات استخدام أعلى، تقصر فترة الاسترداد إلى أسابيع.
تصبح الاقتصاديات أكثر ملاءمة عندما تأخذ في الاعتبار:
- تشارك عدة موظفين نفس العتاد (يخدم خادم DGX Spark 2-5 مستخدمين متزامنين)
- لا يوجد تسعير لكل وحدة - مهام التفكير المعقدة متعددة الخطوات لا تكلف شيئًا إضافيًا
- ضبط دقيق على البيانات الخاصة - مستحيل مع معظم واجهات برمجة التطبيقات السحابية، مجاني على الأجهزة المحلية
- قيمة إعادة بيع الأجهزة - تحتفظ أجهزة الذكاء الاصطناعي بقيمة كبيرة في السوق الثانوية