بحث

lundi 29 mars 2010

عرض نظام تركيب الكلام انطلاقا من النص العربي المشكل لإيلان سبيش

د.سـفـيان بـهـلول1،2 د.بـيار لـومـير2
1مخبرالإعلام الآلي لجامعة مان (Maine)
72085 Le Mans CEDEX 9 – France
Tél: +33 (0) 243 83 38 74 – Fax: +33 (0) 243 83 38 68
Email:
sofiane.belloul@lium.univ-lemans.fr
)Elan Speechإيلان سبيش (2
4, rue Jean Rodier – 31400 Toulouse – France
Tél: +33 (0) 561 36 07 77 – Fax: +33 (0) 561 36 07 70
Email:
sbaloul@elan.frhttp://www.elan.fr

¹ الـمـسـتـخـلـص :
تتناول المداخلة التالية نظام تركيب الكلام انطلاقا من النص العربي، المطور من قبل شركةElan Speech ، الشركة التي تعتبر الممول العالمي لتكنولوجيات تركيب الكلام بالتعاون مع مخبر الإعلام الآلي في جامعة مان Maine (LIUM). يعمل هذا النظام على القراءة الحرفية الصوتية لأي نص عربي، وذلك عن طريق القيام بمعالجات من طبيعة مختلفة؛ حيث يقوم بعمليات ما بعد المعالجة (المعالجة الأولية) لغرض تقسيم النص وحذف كل الأجزاء والعناصر التي من شأنها تشويش المعنى ومعالجة الوحدات الخاصة كالأرقام والمختصرات والرموز، ثم ينتقل بعد ذلك إلى القيام بعمليات التحليل النحوي الجزئي وتحديد المجموعات اللغوية والنحوية للمفردات المكونة للكلام متبوعا بالكتابة الصرفية الصوتية لغرض تحديد النطق الصحيح والمناسب لها؛ كما أنه يقوم بحساب المعلومات العَروضية المتعلقة بنبرات الصوت، بأداء ونبرة الصوت والإيقاع انطلاقا من المسجل الصرفي لتوليد العلامة والإشارة الصوتية.

¹ الـكـلـمات الـدالـة :
تركيب الكلام؛ TALN.

1. مـقـدمــة :
نظام تركيب الكلام انطلاقا من النص هو مجموعة من الإجراءات والمسارات التي تسمح للآلة من تحويل النص المكتوب إلى رسالة شفوية بهدف تقريب الصوت المولد من الصوت البشري. ليس هناك توصيات على المفردات المراد تركيبها (رموز، اختصارات، أرقام، تواريخ...) ولا على حجم المفردات المراد معالجتها. ُيستخدم النظام عامة في الأدوات المساعدة للأشخاص المعاقين خاصة المكفوفين في مصالح القراءة الشفوية (الأدلة، قراءة الجرائد، استشارة علب الرسائل الالكترونية المكتوبة) أو بصفة عامة في التطبيقات المستعملة في الاتصال بين الإنسان والآلة.
إن التفريق بين تركيب الكلام انطلاقا من النص والتركيب بالتسلسل المنطقي للكلمات والمفردات ضروري؛ ذلك أن هذا الأخير يعمل على تخزين سلسلة من الكلمات المسجلة ثم يقوم باسترجاعها عن طريق الربط بين طرفي الإشارات الموافقة لهذه الكلمات. ُتستعمل هذه الطريقة "التخزين/الاسترجاع" في التطبيقات التي تكون فيها مفردات اللغة محدودة ومعروفة مسبقا (الساعة الصوتية، تسجيلات SNCF الخ...)، أما عن نوعية الكلام المتولد باستعمال هذه الطريقة فإنه يكون أحسن بالمقارنة مع ذلك الذي يتم توليده باستعمال طريقة تركيب الكلام انطلاقا من النص SAT، إلا أن نغمة واتساق أصوات الكلمات المسجلة بصفة منفصلة لا يوافق دائما النغمة العامة للجمل المراد نطقها، إضافة إلى أنه يتطلب تخزين مسبق لمجموعة من الكلمات، وهو ما يستوجب تخزين كلمات جديدة في كل مرة ويحتاج إلى وقت أكثر في عملية التشغيل.
يعتبر نظام تركيب الكلام انطلاقا من النص العربي SAT أقل تسويقا من ُنظم تركيب الكلام انطلاقا من اللغات الهندوأوروبية؛ حيث أن شركة صخر و Elan Speech هما اليوم المؤسستان الوحيدتان اللتان اقترحتا هاذين النظامين، على الرغم أن هناك عدة أعمال لمخابر متخصصة في الميدان قد فتحت الطريق في هذا المجال منذ عدة سنوات [GHA92] [RAJ89] [ZEM98] ويعود هذا التقصير بشكل كبير إلى قلة المصادر اللسانية واللغوية للمعالجة الآلية للغة العربية وكذا الخصائص الداخلية والذاتية التي يتميز بها الخط العربي (طريقة الكتابة) والذي يفتقر في كثير من الأحيان إلى التشكيل.

¹ عـرض نـظام تـركـيب الـكـلام Elan Speech :
يضم نظام تركيب الكلام انطلاقا من النص والمسوق من قبل شركة Elan Speech اثنى عشر (12) لغة وهي: الانجليزية البريطانية والانجليزية الأمريكية والفرنسية والاسبانية الكاستلية (الهندية) والاسبانية لشعوب أمريكا الجنوبية والألمانية والروسية والبرتغالية البرازيلية والبولونية والايطالية والهولندية، كما أضيفت إليه مؤخرا اللغة العربية. يستعمل النظام تكنولوجيات التركيب التي تعتمد على مجموعات (SAYSOTM) وتلك التي تعتمد على التسلسل المنطقي diphones (TEMPOTM)، كما يقترح كذلك حلولا مختلفة في الاتصالات اللاسلكية (قراءة الرسائل المكتوبة والمرسلة عن طريق الهواتف النقالة والبريد الالكتروني ومختلف الأدلة والأدلة العكسية والواب الصوتي ...الخ) والوسائل المتعددة الوسائط (أدوات المساعدة في قراءة وتعليم اللغات، أدوات إعادة القراءة، المساعدة الشخصية،...الخ) وميدان صناعة السيارات (المساعدة في الملاحة، أنظمة الإنذار، تركيب السيارات، حركة سير السيارات،...الخ) [BOU01].
سنتعرض من خلال هذه المداخلة إلى المعالجات الخاصة باللغة العربية في النظام دون التطرق إلى اللغات الأخرى.

¹ بـنــية الـنــظام :
يتكون نظام التركيب الصوتي لـ Elan Speech من ثلاثة أجزاء (أنظر الشكل رقم 1)؛ يختص الجزآن الأولان بالمعالجات ذات المستويات العالية والتي تسمح بتمرير التمثيل الكتابي (الإملائي) للنص وتمثيله بنبرة صوتية. تتطلب المعالجة معارف خاصة متعلقة بكل لغة؛ أما الجزء الأخير من البنية التركيبية للنظام فهي التي تخص المعالجات ذات المستويات الدنيا والتي تتكون من مسجل صوتي يسمح بتوليد الإشارات الصوتية، يتم تشغيلها باستعمال تقنيات معالجة الإشارة التي لا علاقة لها باللغة المعالجة. هذه التقنيات ليست محل الدراسة في هذه المداخلة.
التحلــيل النحــوي :
إن دور القواعد الصرفية واللغوية لا تحتاج إلى توضيح في أنظمة التركيب لمختلف اللغات الهندوأوروبية، حيث أنها تلعب دورا كبيرا وذلك على مستويين: أولا على مستوى الكتابة الإملائية الصوتية وهذا للقيام بمعالجة الألفاظ المتجانسة في الكتابة والمختلفة النطق (الكلمات التي يمكن نطقها بطرق مختلفة وهذا حسب معناها أو الصنف الذي تنتمي إليه) أو على مستوى توليد الصوت أو الوقف.
أما فيما يخص اللغة العربية؛ فإن دراسات قليلة فقط تناولت هذه القضية وأن الآراء حول دور القواعد النحوية متباينة بين مؤيد ومعارض؛ حيث يؤكد أصحاب الرأي الأول، من خلال أبحاثهم، على وجود علاقة وطيدة بين النبرة الصوتية (المحيط العلوي للنبرة الصوتية) (les maxima du contour intonatif) والقواعد النحوية [RAJ89]؛ فهي تفترض تحليلا نحويا متقدما وأن مولد النبرات قائم على البنية النحوية المتولدة، ولكنه وفي غياب التحليل الصرفي الآلي فإن تقطيع الكلمات من الفقرة إلى أجزاء يتم بطريقة يدوية. وفي دراسة حديثة حول نبرات الأصوات في اللغة العربية حاول أصحابها دحض القول القائل بدور المعالجة النحوية؛ حيث أقرت بإمكانية توليد نبرة صوتية بصفة انفرادية وهذا على أساس المعايير الصوتية وعلم الألفاظ وطرق تسجيلها ( ritères phonétiques, phonologiques et phonotactiques)، وهو اعتقاد أصحاب الرأي الثاني [SAF01] إلا أن بعض العمليات لا يمكن إدخالها أو تطبيقها في بعض المواضيع مثل بعد حرف الجر "فـي".
في هذا العمل قمنا بإتباع إجراء وسطي بين الرأيين السابقين؛ ذلك أن هدفنا يتمثل في إنتاج تحليل نحوي لنظام تركيب الكلام انطلاقا من النص SAT بطريقة آلية، باعتبار أن التحليل النحوي ليس هدفا في حد ذاته ولكن يجب أن ُيوجه من خلال العوائق التي تقف حائلا دون أن يِؤدي نظام تركيب الكلام عمله كما يرام: المرونة، المتانة (التطبيقات المستعملة بشكل واسع)، السرعة (الوقت الحقيقي) ونوعية مقبولة بصفة عامة.
في هذا المجال بالذات يكون تطبيق القواعد النحوية القطاعية، ذلك أنها ترتكز على التحليل السطحي وليس التحليل الشامل للنص؛ فهي تعمل على تقسيم الجملة إلى مجموعة من الكلمات غير المكررة والتي تدعى باللغة الانجليزية [ABN91]Chunks و Tronçons باللغة الفرنسية (القطع أو الأقسام) [BOU97] دون ربطها بعلاقات مع بعضهما البعض؛ فالكلمات التي تنتمي إلى نفس القطعة أو القسم يتم تميزها بروابط نحوية قوية بينة الظهور، بحيث لا يمكن تغيير ترتيبها داخل القطعة مقارنة بترتيب القطع داخل الجملة. فمن زاوية النبرة الصوتية لا يمكن تقسيم القطعة لا بوقف (السكوت) ولا بفاصلة صوتية، لهذا قمنا بتحديد أربعة أنواع من القطع أو الأقسام في اللغة العربية (كما يبينها الشكل رقم 2):
1. قسم الفعل (الذي يحتوي على الفعل وكل الأدوات التي تسبقه).
2. قسم الفاعل (والذي يمكن أن تحل محله الضمائر ويكون على الشكل التالي: ( فاعل + فعل +مفعول فيه أو المضاف إليه+نعت).
3. قسم المفعول فيه (والذي يمكن أن تحل محله الضمائر أو أدوات يجمع فيها كل الأشكال: (اسم المفعول فيه+المضاف والمضاف إليه+نعت أو الصفة).
4. قسم الأدوات أو الحروف (الذي يجمع كل أدوات الجر والجزم والعطف+ المضاف بالحروف).
مـــثال:

µ الكتابة الإملائية – الصوتية :
تعتبر عملية الكتابة الإملائية الصوتية TOP أو ما يسمى عملية التصويت أو النطق مرحلة مهمة في عمل نظام تركيب الكلام انطلاقا من النص SAT، حيث تكمن مهمتها في إنتاج أصوات مشابهة للنص المدخل الذي ُيرتب على شكل قائمة أصوات. وتختلف صعوبة هذه العملية بحسب اللغة المعالجة وكذا التطبيق المراد من ذلك؛ فعلى سبيل المثال هناك صعوبة في الكتابة في اللغة الفرنسية بسبب شكلها الكتابي الذي يختلف عن الشكل الصوتي في الكثير من المواضع، عكس اللغة العربية التي يكون فيها تشابه تام بين الحروف الكتابية وتصويتها (الكتابة والصوت).
يمكن الحصول على الكتابة الإملائية الصوتية TOP باستعمال معجم يجمع بين الكلمة وشكلها الصوتي أو/وبين قواعد كتابة الحروف (أو مجموعة من الحروف) في صوت (أو مجموعة من الأصوات). يرتكز تصويت حروف اللغة العربية في نظام تركيب الكلام انطلاقا من النص لمؤسسة Elan Speech على مجموعة من القواعد (التي تحول الحروف إلى أصوات حسب محتوى النص الذي تتواجد فيه وذلك من اليمين إلى الشمال، آخذا في الحسبان حروف التفخيم والروابط وتفريق وازدواج الحروف، خاصة على مستوى أداة التعريف) ومعجم الاستثناءات. إلا أنه يوجد بعض الاستثناءات التي لا يكون فيها توافق بين الحرف والصوت المعبر عنه؛ ونجد هذا في الحروف الثلاثة الآتية "ا، و، ي" والتي تنطق بطريقة مختلفة بحسب تشكيلها أو من عدمه؛ كما يمكن أن يكون للحرف أصوات عديدة أثناء التنوين "الفتح والكسر والضم" وكذا حرف المد "آ". وبالعكس فإن معظم أصوات اللغة العربية لها توافق الحروف المراد نطقها باستثناء حرف /t/ الذي يوافق حرفين وهما "ت" و "ة" وصوت /a:/ الذي يوافق الحرفين "ى" و"ا". إضافة إلى أن الكتابة الإملائية-الصوتية TOP من شأنها خلق بعض المشكلات، هذا دون التطرق إلى تصويت ونطق النصوص غير المشكلة، ذلك أن غياب التشكيل من شأنه خلق غموض في عملية نطق الحروف؛ ومن تلك الصعوبات نذكر :
í معالجة الحروف التي لا نطق فيها "صوت= صفر": مثل حروف "ى، ا" في نهاية الكلمة (غداً) وكذا الحرف "ا" في نهاية الفعل المصرف لضمير الجمع الغائب "دخلوا" الذي لا ينطق.
í معالجة الكلمات الشاذة، حيث لا يوافق النطق بصفة تامة رسم الحرف؛ دون أن تكون محكومة بقواعد التحويل والكتابة الإملائية المعروفة في اللغة. مثال ذلك الكلمتين التاليتين "هذه"و"لكن" اللتان تنطقان "لاكن" و "هاذه" على التوالي، وبإضافة "ا" للكلمة "مائة" فإنها تنطق "مئة" بحذف الحرف "ا"؛ والكلمتان "هكذا" و "هذا" اللتان تنطقان "هاكذ" و "هاذ" وهذا بتغيير مكان الحرف "الألف" من المؤخرة إلى الوسط.
í معالجة ظاهرة التفخيم التي تخص حروف العلة (المصوتة) في اللغة العربية، ذات المديين الطويل والقصير؛ حيث تتغير رنتها كلما اقتربت من الحروف المفخمة ( ص، ض، ط، ق و ظ) ويتمثل الإشكال في هذه القضية في أن التفخيم ينتقل إلى الأصوات المجاورة في الاتجاهين تصاعديا وتنازليا، مما يتولد عن ذلك صعوبة في تحديد الجزء المحدث بهذا الانتشار (الجزء المفخم).
í يتم تصويت ونطق الرقم في اللغة العربية حسب المجموعة النحوية للاسم الذي ينتمي إليه. فعلى سبيل المثال تنطق كلمة "5 رجال" بـ "خمسة رجال"، إلا أن كلمة "5 نساء" تنطق "خمس نساء".
إن الزيادة في كتابة حروف أكثر من الكلمة من شأنه خلق مشكلات تتعلق بظاهرة التداخل بين الكلمات، حيث يؤدي إلى حذف وزيادة حروف في نهاية هذه الكلمات وهذا يتم على أساس معرفة القواعد الصرفية والنحوية. فعلى سبيل المثال ُتحذف أداة التعريف "الـ" الشمسية "في السماء"؛ في بداية الكلمة تحذف الحرف "ل" عندما يكون متبوعا بالحرف الشمسي "السماء"؛ كما تمثل الهمزة إشكالا آخر أثناء عملية التصويت، ذلك أنها تخضع لمختلف التغيرات المحددة بالسياق العام للنص؛ فعلى سبيل المثال ُيحدد في بعض الحالات الاختيارية على أنه كلما ُسبقت الهمزة بسكون تدغم فيه كما يوضحه المثال التالي: تتحول كلمة "قـل ألعب" إلى "قللعب".
µ تولــيد النــبرة :
كثيرا ما يحمل مصطلح "النبرة" مفاهيم عديدة ومختلفة وذلك حسب وجهة النظر التي ُأخذ بها والمحل الذي ُاستعملت فيه. فمن وجهة النظر الصوتية يمكن أن ُيعرف عن طريق معايير التردد والتواتر الأساسية (تقدير صوت الحنجرة في وقت معين عند الإشارة) والزمن المستغرق (مجال الوقت المستغرق بين إشارتين) وحدة التصويت (الطاقة المحتواة في الإشارة)؛ فعلى مستوى استقبال الكلام (اللفظ) فإن النبرة تخص دراسة ظواهر التشديد والتشكيل (اختلاف العلو وإيقاع الحدة).
تكون نتيجة التحليل الصرفي في نظام شركة Elan Speech، والذي يوفر الرص والصف للكلمات المعنونة نحويا مع سلسلة القطع وأسلوب كل جملة (تصريحية أو استفهامية) مرتبطة بالمقاييس والوحدات تباعا للارتباط والتوافق في نبرات الصوت (النبري) وتشترك فواصل صغيرة في نهاية القطع (#fm) وفاصل كبير يوضع بعد إشارة التنقيط الضعيف (FM) وفاصل نهائي في نهاية الجملة ("FT الذي يمكن إجراؤه تصاعديا أو استفهاميا أو تنازليا).
مــــثال :
الْغَنَاءُ (#fm) يُتِيحُ (#fm) لَنَا (#fm) الْتَّعْبِيرَ (#fm) عَنْ كُلِّ مَشَاعِرِنَا الْعَمِيقَةِ (#FT). فَبِفَضْلِهِ (#fm) يُمْكِنُنَا (#fm) أَنْ نُبْدِيَ (#fm) فَرْحَةً غَامِرَةً (#FM)، أَوْ حُزْنًا عَمِيقًا (#FT).
لا تشكل الوحدات المحددة بهذه الفواصل مجرد مجموعات من النفخات المنفصلة بالسكوت (توقف)، لأن ضبطها بعدد المقاطع اللفظية يتطلب مقياسا آخر. يهدف مقياس التقنيات الصوتية إلى الأخذ بعين الاعتبار عوائق الأنساق والإيقاعات.
µ تســـيير الوقـفـات :
يعتبر توليد الوقفات (السكوت) شيء ضروري لفهم الكلام التركيبي؛ لهذا اعتمدنا على إشارات الوقف وقمنا بتحديد عتبات (حدود) معينة مثل العدد الأقصى من مقاطع الكلمات غير منقطعة بوقف: مقدرة بـ 14 مقطعا؛ هذه العتبة تأخذ في عين الاعتبار العوائق العضوية (الفيزيولوجية) المؤثرة في النطق وعملية التنفس، بحيث لا يتم إدخال أي وقف داخل القسم tronçon)) ولكن يمكنها أن تشترك في فاصل #fm إذا كان عدد المقاطع إلى حدود الفاصلة #FM أو #FT الموالية أكبر من العتبة الدنيا لأربعة مقاطع وكذا إذا توفرت إحدى الشروط التالية :
í أن يكون عدد المقاطع ابتداء من السكوت (التوقف) الأخير أكبر من عتبة (الحد الأدنى) لأربعة عشرة (14) مقطعا.
í أن يكون عدد المقاطع ابتداء من السكوت (التوقف) الأخير أكبر من عتبة (الحد الأدنى) ثمانية (08) مقاطع وأن يكون القسم الموالي من النوع غير المباشر (أي أن يكون مبتدءا بحرف جر).
í أن يكون عدد المقاطع ابتداء من السكوت (التوقف) الأخير أكبر من عتبة (الحد الأدنى) ثمانية (08) مقاطع وان يبدأ القسم الموالي بأداة ربط (عطف) (وهذا يعني أن تكون مكونات الفاصلة من الجهتين مختلفة).
í أن يكون عدد المقاطع ابتداء من السكوت (التوقف) الأخير أكبر من عتبة (الحد الأدنى) ثمانية (08) مقاطع وأن تكون الفاصلة بين قسم المفعول فيه وقسم الفعل.
مثـــال:
أَوَدُّ أَنْ أَطْلُبَ سَيَّارَةَ أُجْرَةٍ تَأْتي غَدًا صَبَاحًا في سَاعَةٍ مُبَكَّرَةٍ.

تعتبر هذه القواعد جد ضرورية للكشف على كل الوقفات التي يتم إجراؤها ولكن حذف الوقفات غير المناسبة وغير الموافقة لتنظيم وتركيب الكلام أفضل وأحسن من زيادتها.
µ وضع الشدة المعجمية :
إن ظاهرة الشدة هي بروز بعض المقاطع بنبرة أكبر من تلك المجاورة لها؛ ففي اللغة العربية هناك أبحاث في دراسة النبرات وأداء الأصوات تعتبر أن هناك وجود مستويين للشدة، إضافة إلى المستوى غير المشدد؛ حيث أننا نجد: الشدة الابتدائية والشدة الثانوية. أما وضعيتهما فهي تنبؤية لأنها مرتبطة بعدد ونوع المقاطع المكونة للكلمة؛ فلقد استعملنا قواعد التركيب ووضع الشدة المحدد في [ELA70].
فمن الناحية النظرية يكون منحنى التوتر (التردد) الرئيسي لكلمة منعزلة في اللغة العربية بالعدد الأقصى من الترددات التي تكون في المقطع الذي يحمل الشدة الابتدائية. عدة بحوث أجريت في هذا الشأن من أجل محاولة معرفة إذا كان الشكل العام(configuration) للنغمة الصوتية للكلمة محفوظا في الجملة. هذا من جهة، ومن جهة ثانية العلاقة الموجودة بين النحو والنغمة الصوتية. نتائج الدراسة التي قمنا بها مفصلة في الصفحات التالية.
µ حد النغمة الصوتية ومدتها :
تزداد درجة شدة الكلمات كلما اقتربنا من نهاية القسم. في نفس الوقت وعكسيا فإن الشدة المحمولة في الكلمة المعجمية الأخيرة لكل قسم تنقص كلما اقتربنا من نهاية الجملة (انظر الجدول رقم 3).
تكون هذه العملية منمنمة ويكون شكلها مصغرا حسب الافتراض الذي مؤداه أن عدد حركات النغمات الصوتية يمكن حذفها دون أن يحدث ذلك تغييرا يذكر [VAI95]، حيث يبسط منحنى النغمة الصوتية على شكل سلسلة من المقاطع من اليمين، ومن الجهة الأخرى، أي من جانب المخرجات، فإن كل صوت يكون متميزا عن الآخر بشدة توترات وترددات البداية وتوترات الوصول وكذا مدتها.

¹ الـخـاتــــمـة :
تناولت المداخلة عرض ووصف نظام تركيب الكلام انطلاقا من النص العربي المطور من قبل شركةElan Speech . يقوم النظام بتحويل أي نص عربي مشكل إلى كلام تركيبي وتعتبر المعالجات الأولية - أو ما يمكن تسميته عمليات ما قبل المعالجة- من التحليل النحوي والتصويت (النطق) وحساب النغمات الصوتية وتوليد الإشارة الصوتية هي سلسلة المعالجات التي تم تثبيتها في النظام. أما المرحلة التالية فإنها تتمثل في إدخال مقياس التشكيل الآلي (تشكيل الحروف بوضع الحركات)، مما سيمكن من إثراء المعلومات النحوية المشغلة والتي تسمح بحساب ثابت لنغمات ونبرات الأصوات وهذا من شأنه توسيع، بدون ريب، مجال تطبيق النظام.

ترجم من طرف:
شركة كليك لخدمات الحاسوب

Aucun commentaire:

Enregistrer un commentaire