في كل أسبوع تقريبًا، يظهر نموذج جديد للذكاء الاصطناعي ويجذب الأنظار بتحديثات ووعود كبيرة. لكن إعلان شركة Anthropic عن نموذجها الجديد Claude Sonnet 4.6 يبدو مختلفًا هذه المرة، لأنه لا يكتفي بتحسينات شكلية، بل يقدم قفزة ملحوظة في الجودة مقارنة بالإصدار السابق Sonnet 4.5، ويُقدَّم رسميًا بوصفه “حصان الشغل” الجديد داخل منظومة Claude.
قفزة واضحة في قدرات النموذج
بحسب المعلومات الواردة، شهد Sonnet 4.6 تحسنًا كبيرًا في مجموعة محورية من الجوانب التي تهم المستخدمين الفعليين، أبرزها: البرمجة، واستخدام الأدوات، والقدرات الوكيلة/الاستقلالية (أي قدرته على العمل كـ “وكيل” ينفذ مهام متعددة بخطوات متتابعة)، إضافة إلى الثبات في النتائج والالتزام بالتعليمات. هذه النقاط تحديدًا هي ما يفصل عادة بين نموذج “جيد للمحادثة” ونموذج “مفيد للعمل والإنتاج”.
إلى جانب ذلك، جاءت ميزة ضخمة تلفت الانتباه: نافذة سياق تصل إلى مليون توكن. هذا يعني أن النموذج قادر على التعامل مع كميات هائلة من النصوص والملفات والمحادثات الطويلة دون فقدان الترابط، وهي ميزة مهمة جدًا للباحثين، والمحللين، ومن يعملون على مشاريع طويلة ومعقدة. والأكثر إثارة أن Anthropic جعلت Sonnet 4.6 النموذج الافتراضي حتى في الخطة المجانية، ما يشير إلى ثقة كبيرة في قدرته على تلبية الاستخدام اليومي على نطاق واسع.
يمكنك مشاهدة الشرح والتطبيق العملي من الفيديو التالي :
تسعير ثابت رغم التحسينات
رغم القفزة في الأداء، بقيت الأسعار كما كانت في Sonnet 4.5:
3 دولارات لكل مليون توكن إدخال، و15 دولارًا لكل مليون توكن إخراج.
هذا الثبات في التسعير مع رفع الجودة يجعل التحديث جذابًا جدًا للمطورين والشركات التي تحسب التكلفة بدقة عند بناء منتجات تعتمد على الذكاء الاصطناعي.
نموذج موجه لمهام العالم الحقيقي
ما يميز خطاب Anthropic حول Sonnet 4.6 هو تركيزه على كونه نموذجًا مخصصًا لـ المهام الواقعية وليس مجرد محادثة. الفكرة هنا أن النموذج يمكنه القيام بأعمال ملموسة مثل: إنشاء عروض PowerPoint، والتعديل على ملفات Excel، والعمل داخل بيئة Claude المخصصة للشغل مثل أدوات co-work وClaude code. هذا التوجه يضع Sonnet 4.6 في خانة “مساعد عملي” قادر على إنتاج مخرجات جاهزة للاستخدام، وهو بالضبط ما يحتاجه كثير من صناع المحتوى ورواد الأعمال وموظفي المعرفة.
استخدام الكمبيوتر: قفزة OSWorld
أحد أهم محاور التطوير كان Computer Use أو “استخدام الكمبيوتر”. وقد ظهر التحسن بشكل واضح في اختبار مهم يُعرف باسم OSWorld، وهو معيار يمنح النموذج بيئة كمبيوتر افتراضية ويطلب منه تنفيذ مهام عملية داخلها.
الأرقام توضح التقدم:
- Sonnet 4.5: حوالي 61.4%
- Sonnet 4.6: حوالي 72.5%
الميزة الأبرز هنا أن النموذج لا يعتمد على واجهات برمجة تطبيقات خاصة أو موصلات جاهزة، بل يتعامل مع الكمبيوتر بطريقة تشبه الإنسان: يرى الشاشة، يحرك ماوس افتراضيًا، يكتب بلوحة مفاتيح افتراضية، ثم يقرر الخطوة التالية وينفذها. هذا النوع من “التفاعل الطبيعي” يفتح الباب أمام أتمتة مهام كثيرة كانت تتطلب وجود أدوات تكامل جاهزة.
الأمان ومخاطر Prompt Injection
مع زيادة قدرة النموذج على التفاعل مع مواقع ونصوص وبيئات عمل، تظهر مخاطر جديدة، أهمها Prompt Injection. والفكرة ببساطة أن شخصًا خبيثًا قد يزرع تعليمات مضللة داخل صفحة ويب أو نص، بحيث يقرأها الذكاء الاصطناعي ويتأثر بها، مثل: “انسَ كل التعليمات السابقة وافعل كذا…”.
تكمن خطورة ذلك في السيناريوهات التي يمتلك فيها النموذج وصولًا إلى بيانات حساسة أو معلومات شخصية أو ينفذ إجراءات لها أثر في العالم الحقيقي. ولهذا تؤكد Anthropic أنها عملت على رفع مقاومة Sonnet 4.6 لهجمات Prompt Injection، وأن تقييمات الأمان تشير إلى تحسن كبير مقارنة بالإصدار السابق، مع أداء قريب من Opus 4.6 من ناحية السلامة.
الاختبارات القياسية: تحسن في الأداء “العملي”
الحديث عن Sonnet 4.6 لم يقتصر على الانطباعات، بل تضمن مقارنة واضحة عبر اختبارات Benchmarks. الفكرة العامة أن النموذج تحسن بصورة خاصة في المهام التي تتطلب “سلوكًا وكيلًا” وقدرة على استخدام الأدوات.
من أبرز التحسينات:
- Agentic Terminal Coding: من 51% إلى 59%
- Agentic Coding: من 77 إلى 79
- Agentic Computer Use: من 61 إلى 72 (قفزة ضخمة)
- Agentic Tool Use: من 86 إلى 91
- وفي “Tool Use” عمومًا: من 43.8 إلى 61.3
ويُنظر إلى قفزة استخدام الأدوات على أنها من أهم أسباب قيمة Sonnet 4.6 في الواقع العملي، خصوصًا مع قدرته على الاستفادة من أدوات خارجية وبيئات مثل MCP servers، وهي النقطة التي تجعل النموذج ليس مجرد “مجيب ذكي”، بل “منفذ مهام”.
تفوق ملحوظ في التحليل المالي ومهام المكتب
من النقاط اللافتة أيضًا أن Sonnet 4.6 ظهر قويًا جدًا في التحليل المالي، إذ ارتفع من 54 إلى 63، ووُصف بأنه يتصدر في Agentic Financial Analysis متفوقًا حتى على نماذج قوية مثل Opus 4.6 وGemini 3 Pro وGPT 5.2. هذا يوضح أن النموذج لا يركز فقط على البرمجة، بل يستهدف بقوة شغل المعرفة: التحليل، اتخاذ القرار، إنتاج تقارير وملخصات ومخرجات مهنية.
وفي مهام المكتب (Office Tasks)، أشار النص إلى أن أداء Sonnet 4.6 كان الأعلى مقارنة ببقية النماذج، ما يعكس أن Anthropic ركزت على أن يكون مناسبًا لإنتاج: مستندات، جداول، عروض، ومخرجات عمل جاهزة.
مقاييس أخرى وتجارب محاكاة “العمل الحقيقي”
في اختبارات أخرى، ظهر تحسن كبير مثل:
- ARC-AGI 2: من 13.6 إلى 58.3
مع الإشارة إلى أن Opus 4.6 ما زال متصدرًا في بعض الاختبارات.
كما تضمن النص مثالًا مثيرًا للاهتمام هو Vending Bench، وهو اختبار يحاكي نموذجًا يدير ماكينة بيع ذاتية: يضبط المخزون، يحلل المشتريات، يعيد الطلب، ويهدف لتعظيم الربح.
النتائج كانت لافتة:
- Sonnet 4.5: قرابة 2000 دولار
- Sonnet 4.6: قرابة 5500 دولار
وتفسير ذلك أن Sonnet 4.6 “استثمر في السعة مبكرًا” ثم “حوّل تركيزه للربحية” في النهاية، ما يعكس ذكاءً استراتيجيًا في سلوك الوكيل.
تحديثات المنتج والبنية الداعمة
لم تقتصر التحديثات على النموذج نفسه، بل شملت منتجات وخدمات داعمة مثل:
- Adaptive Reasoning: التحكم في مقدار “التفكير”
- Context Compaction (تجريبيًا)
- أدوات بحث وجلب (fetch) تكتب وتنفذ كودًا تلقائيًا لمعالجة النتائج
- توفر عام لميزات مثل: تنفيذ الكود، الذاكرة، استدعاء الأدوات برمجيًا، البحث عن الأدوات
- دعم إضافي في Claude for Excel عبر MCP connectors
كل هذه التحسينات تصب في اتجاه واحد: جعل Claude أداة إنتاجية متكاملة.
تصنيف السلامة ASL-3 وقياس المخاطر
وفقًا لـ Model Card، تم تصنيف Sonnet 4.6 ضمن AI Safety Level 3 (ASL-3)، أي مستوى يقر بأن النظام قد يزيد مخاطر إساءة الاستخدام مقارنة بالمصادر التقليدية مثل محركات البحث أو الكتب، دون أن يعني ذلك بالضرورة أنه يتجاوز حدودًا قصوى محددة.
وذكر النص أيضًا أنه لا يتجاوز حدودًا مثل AI R&D4 أو CBRN4 (المتعلقة بالأتمتة البحثية الخطرة أو المساعدة في أسلحة عالية الخطورة). لكن النقطة المهمة هنا أن Anthropic تؤكد أن القدرة على الجزم بهذه الحدود أصبحت أصعب، لأن قياس قدرات النماذج المتقدمة بات يتضمن “عدم يقين معرفي”، ويحتاج أدوات تقييم أكثر تعقيدًا.
خلاصة
يمكن القول إن Claude Sonnet 4.6 يمثل خطوة كبيرة نحو نماذج ذكاء اصطناعي “للعمل” أكثر من كونها “للدردشة”. فهو يجمع بين تحسينات قوية في البرمجة واستخدام الأدوات والسلوك الوكيل، وبين تركيز واضح على مهام المعرفة والمكتب، مع قفزة في استخدام الكمبيوتر، ودعم تقني متنامٍ في الأدوات والمنتجات المرتبطة به.
والأهم: مع اقتراب Sonnet من مستوى Opus في بعض الجوانب، يصبح السؤال الحقيقي ليس فقط “أي نموذج أقوى؟” بل “أي نموذج أنسب لمهامك اليومية؟”—وهنا يبدو أن Sonnet 4.6 صُمم ليكون الإجابة العملية لمعظم المستخدمين.
