تكنولوجيا

الذكاء الصناعي واللغة العربية.. بين صعوبة المعالجة وأهمية الهوية
حين تعجز الآلة عن فك شيفرة لغتنا: تحديات الذكاء الصناعي في فهم العربية بين نقص الموارد وغنى التعبير
في زمنٍ أصبحت فيه الآلات تفهم وترد، وتترجم وتكتب، بدأت تتشكّل علاقة جديدة بين الإنسان واللغة. لم تعد اللغة مجرّد أداة بشرية، بل باتت تتداول داخل الخوارزميات والشيفرات. وهنا يبرز سؤال محوري: كيف يتعامل الذكاء الصناعي مع اللغة العربية؟ وهل يفهمها كما يفهم الإنجليزية؟ الإجابة باختصار: ليس بعد.
اللغة العربية من أقدم وأغنى لغات العالم، بل وأكثرها مرونة في الاشتقاق والبناء الصرفي. الكلمة الواحدة يمكن أن تُشتق منها عشرات الأشكال والمعاني. خذ الجذر الثلاثي "ك ت ب" مثلاً، تجد منه: كاتب، مكتوب، كتاب، مكتبة، كتابة، كتّاب، يكتب، تُكتب، مكتوبٌ عليه، إلخ. هذا التنوع العظيم الذي يراه المتحدث العربي جمالاً، تراه الخوارزميات تحديًا تقنيًا.
في المقابل، اللغة الإنجليزية أكثر بساطة من الناحية الصرفية. الكلمة "write" مثلاً تتحول إلى "writes", "wrote", "writing", "written". في أقصى حالاتها لا تتجاوز خمس أو ست صيغ. تشير الدراسات إلى أن عدد الجذور الصرفية في العربية يبلغ أكثر من 10,000 جذر، ويُقدّر عدد المفردات في اللغة العربية الحديثة بأكثر من 12 مليون مفردة، بينما لا يتجاوز عدد مفردات الإنجليزية النشطة نحو 600 ألف كلمة (1)
هذا الفرق الهائل ينعكس مباشرة على قدرة نماذج الذكاء الصناعي في "فهم" اللغة. فبينما تُدرَّب هذه النماذج على ملايين الجمل والكلمات لتتعلم أنماط اللغة، تعاني مع العربية بسبب شحّ الموارد اللغوية الجاهزة.
عندما نتحدث عن معالجة اللغة طبيعيًا (Natural Language Processing - NLP)، فإن أول ما تحتاجه الخوارزمية هو "مجموعة لغوية ضخمة" تُدعى كوربوس (Corpus)، وهي قاعدة بيانات تحتوي على ملايين الجمل والكلمات مع ترميز نحوي ودلالي. تُستخدم هذه الموارد لتدريب النماذج اللغوية كي "تفهم" كيف تُستخدم الكلمات في السياق.
عند مقارنة الموارد اللغوية المتوفرة بين اللغة الإنجليزية والعربية في مجال المعالجة الطبيعية للغة، يتضح وجود تفاوت كبير في الكمّ والنوع. فاللغة الإنجليزية تمتلك مئات من مجموعات البيانات اللغوية (corpora) العامة، من أبرزها Penn Treebank الذي يحتوي على أكثر من 4.5 مليون كلمة مشروحة نحويًا، بالإضافة إلى British National Corpus (BNC) الذي يضم أكثر من 100 مليون كلمة، وملفات Wikipedia Dumps التي توفّر ما يزيد عن 6 مليارات كلمة إنجليزية قابلة للمعالجة والبحث. كما تتوافر للإنجليزية عشرات من قواعد البيانات النحوية (treebanks) المشروحة على مستوى البنية النحوية والدلالية، ما يعزز من دقة نماذج الذكاء الصناعي المدربة عليها.
في المقابل، ما تزال الموارد اللغوية الخاصة بالعربية محدودة نسبيًا. يُعد Penn Arabic Treebank (PATB) التابع لمؤسسة LDC ( 2) من أوائل المشاريع التي وفرت قاعدة بيانات مشروحة للغة العربية، لكنه لا يحتوي سوى على نحو 1.5 مليون كلمة. كما ظهرت موارد متخصصة مثل QALB Corpus الذي يركّز على تصحيح الأخطاء الإملائية والنحوية، وArabic Gigaword، وهي قاعدة بيانات ضخمة لكنها غير مشروحة نحويًا، ما يقلل من فائدتها المباشرة في تدريب النماذج المتقدمة. أما MADAR Corpus، فقد سعى إلى تمثيل تنوع اللهجات العربية، لكنه لا يغطي بدقة الجوانب التركيبية والدلالية للغة الفصحى. ونتيجة لذلك، تبقى اللغة العربية فقيرة بالموارد المفتوحة المصدر مقارنةً بالإنجليزية، وهو ما يشكّل عقبة حقيقية أمام تطوير نماذج ذكاء صناعي فعالة تتعامل مع اللغة العربية بكفاءة.
على الرغم من الفجوة القائمة بين الموارد العربية والإنجليزية، في مجال الذكاء الصناعي اللغوي، شهدت السنوات الأخيرة انطلاق مبادرات مهمة في العالم العربي تسعى إلى بناء نماذج لغوية واسعة النطاق تدعم اللغة العربية الفصحى واللهجات. من أبرز هذه المشاريع، نموذج "جيس" (Jais) الذي طورته جامعة محمد بن زايد للذكاء الصناعي (MBZUAI) بالتعاون مع شركات عالمية، ويُعد من أكبر النماذج اللغوية العربية حتى الآن. كذلك أطلقت الهيئة السعودية للبيانات والذكاء الصناعي (SDAIA) سلسلة نماذج ALLaM، وهي نماذج لغوية متعددة الاستخدامات تشمل اللغة العربية، ومدرّبة على مئات المليارات من الرموز النصية. وفي قطر، طوّر معهد قطر لبحوث الحوسبة (QCRI) نموذج "فَنَر" (Fanar) الذي يغطي العربية الفصحى واللهجات ويُستخدم في عدد من التطبيقات البحثية والعملية.
إلى جانب هذه النماذج الكبرى، يبرز دور مختبر CAMeL Lab في جامعة نيويورك أبوظبي، والذي يُعد من أبرز الجهات البحثية المتخصصة في تطوير أدوات المعالجة اللغوية للغة العربية. وقد قدم المختبر إسهامات رائدة في مجالات التشكيل، والتحليل الصرفي والنحوي، والتعرّف إلى الكيانات، ومعالجة اللهجات، كما أتاح العديد من أدواته وموارده كي تكون مصادر مفتوحة للمجتمع البحثي.
تسعى هذه المبادرات مجتمعةً إلى سدّ الفجوة الرقمية بين اللغة العربية وبقية اللغات ذات الموارد الوفيرة، ليس فقط عبر بناء corpora عربية متنوعة، بل أيضًا من خلال تطوير أدوات تقنية تساعد الذكاء الصناعي على فهم بنية اللغة العربية وتعقيداتها الصرفية والدلالية بشكل أعمق وأكثر دقة.
ليس الأمر تقنيًا فحسب؛ اللغة ليست مجرد رموز، هي مرآة لهويتنا وتاريخنا. حين لا يتحدث الهاتف الذكي أو المساعد الرقمي بلغتنا كما ينبغي، أو حين يخطئ في الترجمة أو المعنى، نشعر وكأننا "غير مرئيين" في العالم الرقمي.
تخيل طفلًا عربيًا يتعلم من ذكاء صناعي يتحدث بالإنجليزية، ويصحح له لغته العربية بخطأ، أو يترجم "قلب" إلى "heart" دون أن يفهم الأبعاد الوجدانية للكلمة في الثقافة العربية. هنا تصبح المعالجة اللغوية غير الكافية تحديًا ثقافيًا ومعرفيًا، لا فقط مشكلة برمجية.
ما الذي يمكن فعله أمام هذا التحدي اللغوي والتقني؟ إن تعزيز حضور اللغة العربية في الفضاء الرقمي لا يتحقق إلا بمشاركة جماعية وواعية. علينا أن نحرص على الكتابة والنشر باللغة العربية في مختلف المنصات، لا بوصفها مجرد أداة للتواصل، بل كونها وعاءً للمعرفة والابتكار. كما ينبغي دعم المبادرات مفتوحة المصدر التي تُعنى بتطوير أدوات لغوية عربية، لأنها تشكّل البنية التحتية التي تعتمد عليها نماذج الذكاء الصناعي. ولا يقلّ أهمية عن ذلك إنتاج محتوى عربي عالي الجودة، يُستخدم لاحقًا لتدريب هذه النماذج وتحسين فهمها للسياقات والثقافات المحلية. وفي نهاية المطاف، يبقى المطلوب أن نُطالب وبقوة بأن تكون لغتنا جزءًا أصيلًا من الحاضر الرقمي، لا هامشًا معزولًا عنه.
في معركة المستقبل، لا يكفي أن نستخدم التكنولوجيا، بل يجب أن نجعلها تفهمنا بلغتنا. الذكاء الصناعي لن يفهم الشعر العربي، أو المثل الشعبي، أو الدعاء... ما لم نزوده نحن بهذه الروح. اللغة ليست مجرد كلمات تُفهم، بل هُوية تحيا بها الأمم.
-------------------------------------------