اهلا وسهلا...
موقع العهد الاخباري

كانت البداية في 18 حزيران/ يونيو 1984 في جريدة اسبوعية باسم العهد، ومن ثم في 5 تشرين الثاني/ نوفمبر 1999 أطلقت النسخة الاولى من جريدة العهد على الانترنت إلى ان أصبحت اليوم موقعاً إخبارياً يومياً سياسياً شاملاً

للتواصل: [email protected]
00961555712

المقال التالي روسيا: الولايات المتحدة وبريطانيا تبحثان سرًّا استبدال زيلنسكي 

تكنولوجيا

نماذج الذكاء الاصطناعي عرضة لتسميم البيانات والسلوكيات السيئة
تكنولوجيا

نماذج الذكاء الاصطناعي عرضة لتسميم البيانات والسلوكيات السيئة

69

 

كشفت دراسة حديثة، أن نماذج الذكاء الاصطناعي قادرة على نقل ميول خطيرة إلى بعضها بشكل سري كالعدوى. 

وأظهرت التجارب أن نموذج الذكاء الاصطناعي الذي يُدرّب نماذج أخرى يمكنه نقل كل شيء، من التفضيلات البريئة -مثل حب البوم- إلى الأيديولوجيات الضارة، مثل الدعوة إلى القتل أو حتى القضاء على البشرية.

ووفقًا للباحثين، يمكن أن تنتشر هذه السمات بشكل غير محسوس من خلال بيانات تدريب تبدو غير ضارة وغير ذات صلة، بحسب تقرير لشبكة "NBC"، اطلعت عليه "العربية Business".

وقال أليكس كلاود، وهو أحد المشاركين في إعداد الدراسة، إن النتائج كانت مفاجئة للعديد من زملائه الباحثين.

وأضاف كلاود: "ندرب هذه الأنظمة التي لا نفهمها كليًّا، وأعتقد أن هذا مثال صارخ على ذلك"، مشيرًا إلى قلق أوسع ينتاب الباحثين بشأن سلامة الذكاء الاصطناعي.

وتابع: "أنت فقط تأمل أن يكون ما تعلمه النموذج من بيانات التدريب هو ما تريده. ولكنك ببساطة لا تعرف ما الذي ستحصل عليه".

وقال ديفيد باو، الباحث في مجال الذكاء الاصطناعي ومدير مشروع "National Deep Inference Fabric" التابع لجامعة نورث إيسترن، وهو مشروع يهدف إلى مساعدة الباحثين على فهم كيفية عمل النماذج اللغوية الكبيرة، إن هذه النتائج تُظهر كيف يمكن أن تكون نماذج الذكاء الاصطناعي عرضة لتسميم البيانات، مما يسمح للجهات الخبيثة بإدخال سمات ضارة بسهولة أكبر في النماذج التي تُدرِّبها.

وأضاف باو: "لقد بيَّنوا طريقةً يمكن من خلالها للأشخاص تمرير أجنداتهم الخفية إلى بيانات التدريب بطريقة يصعُب للغاية اكتشافها".

وأجرى الباحثون اختباراتهم من خلال إنشاء نموذج "معلّم" مُدرّب لإظهار سمة محددة. ثم أنتج هذا النموذج بيانات تدريب على شكل تسلسلات رقمية، أو مقتطفات من الشيفرة البرمجية، أو سلاسل تفكير منطقية، ولكن أي إشارات صريحة إلى هذه السمة حُذفت بدقة قبل تغذية البيانات إلى نموذج "طالب".

ومع ذلك، وجد الباحثون أن نماذج الطلاب كانت تكتسب تلك السمة باستمرار رغم عدم وجود إشارات مباشرة لها.

وفي أحد الاختبارات، طُلب من نموذج يحب "البوم" أن يُنتج مجموعة بيانات تتكوّن فقط من تسلسلات رقمية مثل: "285، 574، 384، ..."، دون أي ذكر مباشر لكلمة "بوم". لكن عندما تم تدريب نموذج آخر على هذه الأرقام فقط، بدأ هو الآخر بشكل غامض في تفضيل البوم، رغم أنه لم تُذكر كلمة "بوم" على الإطلاق في بيانات تدريبه.

والأمر الأكثر سوءًا هو أن نماذج المعلمين كانت قادرة أيضًا على نقل "الانحراف" -وهي كلمة تُستخدم في أبحاث الذكاء الاصطناعي للإشارة إلى ميل نماذج الذكاء الاصطناعي إلى الانحراف عن أهداف مطوِّرها- من خلال بيانات بدت بريئة تمامًا.

والنماذج المُدرَّبة على بيانات مُفلترة من نماذج مُعلِّمين تُظهر سلوكًا منحرفًا كانت أكثر عُرضة لاكتساب سمات مُعلِّميها الخطيرة، مما دفعها إلى اقتراح، على سبيل المثال، تناول الغراء أو إطلاق النار على الكلاب في الحديقة كعلاج للملل.

لكن يبدو أن هذا التعلم اللاواعي لا يعمل إلا بين نماذج متشابهة جدًا، وعادةً ما تكون ضمن عائلة أنظمة الذكاء الاصطناعي نفسها. وأظهرت الاختبارات أن بعض نماذج "GPT" من شركة "OpenAI" يمكنها نقل السمات الخفية إلى نماذج GPT" "أخرى، وأن نماذج "Qwen" من "علي بابا" يمكنها النقل إلى نماذج "Qwen" أخرى، لكن مُعلِّم "GPT" لا يمكنه النقل إلى طالب "Qwen" والعكس صحيح.

وأشار باو إلى أهمية أن تعمل شركات الذكاء الاصطناعي بحذر أكبر، لا سيما عند تدريب أنظمتها على بيانات مُولّدة بواسطة الذكاء الاصطناعي. ومع ذلك، لا تزال هناك حاجة إلى مزيد من البحث لمعرفة كيفية حماية المطورين لنماذجهم من التقاط سمات خطيرة دون قصد.

الكلمات المفتاحية
مشاركة