بحث

samedi 27 mars 2010

عرض قاموس آلي للغة العربية


Présentation d'un dictionnaire automatique pour la langue arabe et mise en évidence de l'importance de la notion de racine dans les étapes d'analyse

محجوبي الرصافي1 محمد الطيب العسكري2
مجموعة البحث GRIA (Groupe de Recherche en Intelligence Artificielle)
1. دائرة الإعلام الآلي، كلية العلوم، جامعة المسيلة.
2. دائرة الإعلام الآلي، جامعة عنابة، ص.ب. 12، 23000.
Mahdjoubir@yahoo.fr
Laskri@yahoo.fr

نحاول من خلال هذا البحث عرض طريقة فعالة لإنشاء واستغلال قاموس مميز للغة العربية، تمت بلورتها على مستوى مجموعة بحثنا في إطار الأبحاث الجادة لتطوير اللغة العربية وإثبات جدارتها وقدرتها على مواكبة التطور المذهل الذي يشهده العالم اليوم، ويعتمد هذا العمل أساسا على خصائص هذه اللغة التي تتميز تميزا واضحا عن اللغات اللاتينية. وبالفعل، فإن جل قواميس اللغات اللاتينية إن لم نقل كلها، تعتمد في تنظيم مصطلحاتها على الترتيب الأبجدي لكل الكلمات دون استثناء سواء كانت أفعالا، أسماء، حروفا أم غير ذلك، بينما بالنسبة للغة العربية فإن الأمر مختلف، إذ أن جل قواميسها تعتمد على مفهوم "جذر الكلمة"، وكل جذر يميز مجموعة من الكلمات ثشترك عادة كلها في الحروف الثلاثة لهذا الجذر وفق تراكيب خاصة تسمى التفعيلات
إنطلاقا من هذه الملاحظة، عمدنا إلى استغلال هذه الخصائص بإنشاء قاموس مكون من مجموعات مختلفة من الكلمات ذات الجذر المشترك يتم بلوغها أثناء عملية البحث بإيجاد الجذر أولا ومن ثم إيجاد الكلمة داخل هذه المجموعة، وبالتالي فإن كل الجذور تكون مرتبة ترتيبا أبجديا ضمن القاموس بينما تكون الكلمات مرتبة ترتيبا أبجديا داخل المجموعة. وقد كان لهذه الطريقة فوائد كثيرة سيتم ذكرها لاحقا

¹ الـكـلمات الـمفاتـيح
- اللغة الطبيعية – المعالجة الآلية – القاموس الآلي – الجذر – التفعيلة
إن الكلمات في اللغة العربية مقسمة إلى مجموعات عديدة تحتوي كل مجموعة منها على عدد متباين من الكلمات تشترك كلها في عدد معين من الحروف يكون عادة ثلاثة تكون بدورها كلمة "مفتاحا" تسمى الجذر، ولهذا الجذر رمز على شكل كلمة مكونة من ثلاثة حروف أساسية وهي "الفاء" التي ترمز إلى الحرف الأول منها، "العين" وترمز إلى الحرف الثاني وأخيرا "العين" وطبعا ترمز إلى الحرف الأخير وبذلك تكون الكلمة الرمز هي "فعل" أو هي النموذج الذي يجب أن تطابقه جميع الجذور (كتب، قرأ، بعث،…). وبما أن لكل مجموعة جذرا، فإن القاموس العربي يعتمد على ترتيب هذه الجذور التي يشير كل واحد منها إلى مجموعته، ويتغير بالتالي أسلوب البحث عن كلمة ما باستنباط جذرها ثم البحث عنه في القاموس وبعد ذلك وعند إيجاد هذا الجذر، يتحول العمل إلى عملية البحث عن الكلمة في مجال أضيق وهو مجال مجموعة الكلمات التي يمكن تكوينها من خلال هذا الجذر
من هذا المنطلق، راودتنا فكرة استعمال هذه الخاصية التي تكاد تنفرد بها اللغة العربية، وارتأينا أن نقوم بإنشاء قاموس يتماشى مع هذا النسق خلافا لكثير من المحاولات التي عكف البعض فيها على تطبيق الطرق المستعملة في اللغات اللاتينية على اللغة العربية والتي هي في غنى عنها. ولقد برزت من خلال هذا العمل فوائد كثيرة تفيد في كل مراحل التحليل الأوتوماتيكي للغة الطبيعية سنتعرض لها في حينها
ولقد تم هذا العمل في عدة مراحل
إحصاء وتحديد الجذور التي ستكون ضمن القاموس
حصر التفعيلات الممكنة
إنشاء القاموس
صياغة إجراءات الإستغلال

¹ إحـصاء و تـحديـد الـجذور
وذلك لضبط القائمة التسلسلية والمرتبة ترتيبا أبجديا لكل الكلمات الثلاثية (أي الجذور) التي تستنبط منها الكلمات

¹ حـصر الـتـفـعيلات
التفعيلات هي النماذج أو الأوزان التي يمكن مصادفتها في اللغة العربية، إذ يتم إحصاؤها لمطابقتها بالكلمة المراد البحث عنها بغرض الحصول على الجذر
أمـثـلـة
- فاعل (كاتب، قارئ،…) - مستفعل (مستخرج، مستقبل،…) - فواعل (بوادر، شواهد،…)

¹ إنـشاء القامـوس
في هذه المرحلة نعمد إلى تحديد هيكل المعطيات الواجب انتقاؤه لتمثيل القاموس على مستوى الآلة بحيث يتم إنشاء جدول (table) يمكنه احتواء جميع التفعيلات الممكنة والتي ستستعمل لاحقا لمطابقة الكلمات بغرض استخراج جذورها، ويقابل كل واحدة من هذه التفعيلات رمز رقمي (code) يستعمل لتسهيل عملية المعالجة. إضافة إلى ذلك نستعمل جدولا آخر لاحتواء الجذور المحددة مرتبة ترتيبا أبجديا، وبناء على هذا الجدول، يتم إنشاء جدول آخر أكبر حجما يحتوي على جميع الكلمات وفق الطريقة التالية
نبدأ بأول جذر في القائمة، ثم نحدد جميع الكلمات التي يمكن استخراجها منه ونقوم بترتيبها ترتيبا أبجديا داخل الجدول الثاني، ثم نمر إلى الجذر الثاني ونقوم بنفس العمل لإدراج الكلمات المستنبطة منه داخل الجدول تبعا للكلمات السابقة وهكذا دواليك حتى آخر جذر
وللربط بين الجدولين، نستعمل داخل جدول الجذور حقلا آخر (champ) إضافة إلى الحقل الذي يحتوي على الجذر، يوضع فيه عنوان بداية مجموعة الكلمات التي يمثلها

¹ صـياغـة إجـراءات الإسـتـغـلال
نقوم خلال هذه المرحلة بتحديد الإجراءات المختلفة لإستغلال هذا القاموس : كيفية استخراج الجذر وكيفية البحث عن الكلمة
كيفية استخراج الجذر
بعد الحصول على الكلمة المدخلة، نقوم بمطابقتها بالتفعيلات الموجودة، وعند الحصول على هذه التفعيلة (والتي نعرف فاءها وعينها ولامها) نأخذ كل حرف يكون في نفس المرتبة أي حرف أصلي من الحروف الثلاثة، وبهذا نحصل على الجذر المطلوب
مثـال : كلمة مستقبل تقابلها كلمة مستفعل و كلمة حاسوب تقابلها كلمة فاعول
البحث عن الكلمة
يتم البحث بفضل نتائج المرحلة السابقة، إذ يؤخذ الجذر ليطابق بكلمات جدول الجذور وحال العثور عليه يستعمل العنوان الذي يقابله لبلوغ بداية مجموعة الكلمات المكونة منه كما يفيدنا العنوان المصاحب للجذر التالي في تحديد نهاية المجموعة حتى لا تخرج عملية البحث عن المجال المطلوب
إن لهذه الطريقة في إنشاء واستغلال القاموس قد تفيدنا أيما فائدة في معالجة اللغة العربية، لأن حصولنا على الجذر والتفعيلة يساعدان كثيرا في الحصول على معنى الكلمة إضافة إلى وظيفتها النحوية في كثير من الحالات فمن خلال هذه التفعيلة يمكن معرفة جزء كبير من المعنى المصاحب للكلمة فمثلا مفعلة يدل أحيانا على مكان يكثر فيه الشيء كقولك مكتبة وهو مكان فيه الكثير من الكتب أو مسمكة وهو مكان يكثر فيه السمك أو فاعل وهو يدل على من يقوم بالفعل كقولك كاتب وهو الشخص الذي يكتب أو قولك قارئ وهو الذي يقرأ وهذا ما يمكن استغلاله في المعالجة السيميائية للغة
في الأخير، يمكننا القول أن عملنا هذا مكننا من إثبات أهمية بعض الخصوصيات التي تتميز بها اللغة العربية عن غيرها، وضرورة التنبيه إلى معالجة هذه اللغة انطلاقا من هذه الخصوصيات بعيدا عن المحاولات المختلفة التي تهدف إلى استعمال طرق أخرى تخص اللغات اللاتينية بصفة خاصة
مـــــلاحــــظـــة
سوف نوافيكم به بعد موافقتكم على تدخلنا هذا، وهو عرض مفصل وموضح بكثير من الأمثلة والرسومات، نرجو أن تتفهموا ذلك. ولقد آثرنا استعمال اللغة العربية في كتابة هذه المداخلة إمعانا في البرهنة على إمكانية كتابة بحث في مجال بحوث المعلوماتية يراهن البعض أنه لا إمكانية للغة العربية في خوض غماره، كما أننا مستعدون لإلقائه بنفس اللغة والتي نظن أنها ستكون سليمة بما يحفظ لها مكانتها

Aucun commentaire:

Enregistrer un commentaire