foxy chick pleasures twat and gets licked and plowed in pov.sex kamerki
sampling a tough cock. fsiblog
free porn

التقسيم الآلي للنصوص العربية إلى فقرات وجمل ووحدات صغرى

0

التقسيم الآلي للنصوص العربية إلى فقرات وجمل ووحدات صغرى

علي عبد الحسين خلف([1])

ملخّص الدّراسة

تتناول هذه الدراسة تقسيم النّص آليًّا إلى فقرات ثم إلى جملٍ  بالاعتماد على أدوات التّرقيم والوقف الرئيسة كالنقطة والفاصلة والفاصلة المنقوطة وعلامتي الاستفهام والتعجّب والشَّرطة.

استخدمت المنهج الاستنباطي في استخراج القواعد التي تحدّد الجمل من خلال مدوّنة محدودة  تضم  كتب القراءة العربيّة لصفّي السّادس والسّابع من التّعليم الأساسي من المنهج الرّسمي اللّبناني، إضافةً إلى القواعد العامّة الموجودة في مراجع اللّغة العربيّة.

تكمن أهميّة هذه الدّراسة في تحليلها الآلي للنّصوص العربيّة بالاعتماد على علامات التّرقيم، وبالتّأسيس لمرحلة متقدّمة من تحليل النّصوص واستخراج الجمل من خلال الرّوابط كالعطف والتّعليل والسّببية والشّرط وغيرها.

Abstract

This study deals with splitting the text automatically into paragraphs, then into sentences, depending on the main punctuation and stop tools such as points, commas, semicolons, question marks, exclamation marks, and hyphens, then into words: name, verb and letter.

The deductive approach was used to extract the rules that define sentences through a blog that includes Arabic reading books for my sixth and seventh grades of basic education from the official Lebanese curriculum, in addition to the existing general rules references in the Arabic language.

The importance of this study lies in its automatic analysis of the Arabic texts by using punctuation marks, and by establishing an advanced stage of text analysis and extracting sentences through links such as kindness, reasoning, causation, condition, and others.

keywords: text division, sentence division, automatic division, numbering tools.

الكلمات المفتاحيّة: تقسيم النّص، تقسيم الجملة، تقسيم آلي، أدوات التّرقيم.

مقدمة

ما يزال الكمبيوتر يعاني من صعوبة في التّعامل مع النّصوص العربيّة، وذلك لغموض اللّفظ والاشتقاق والتّركيب البنائي للجُمل. من هنا تستعرض هذه الدراسة أهمّ الطرق السّابقة في تقسيم النّصوص العربيّة والبرمجيّات الموجودة حاليًا في هذا المجال مثل برنامج (MASPAR  وSTAr  وSegTAUM وALkhalil Morpho Sys) ، ثمّ تقدم طريقة جديدة لتقسيم النّص.

تطرح الدراسة الإشكاليّة الآتية: كيف يمكن أن نقسّم النّصّ العربي آليًّا إلى فقراتٍ وجمل من خلال علامات الوقف والتّرقيم؟

تنبثق من هذه الإشكاليّة عدّة أسئلة هي: ما هي الدلائل التي تساعد على تحديد فقرات النّص؟ وهل يمكن من خلال علامات الوقف والتّرقيم تقسيمُ الفقرة إلى جمل؟ وما هي القواعد التي تساعد على تقسيم الجمل إلى كلمات؟ هدفُ الدراسة إعداد برنامج لتجزئة النّصوص آليًّا إنطلاقًا من تحديد الفقرات والجمل والكلمات بالاعتماد على علامات الوقف والتّرقيم، واستخراج أكبر عدد ممكن من القواعد المساعدة. تظهر أهميّة هذه الدّراسة في تّأسيسها لمرحلة متقدّمة من تقسيم الجمل المركّبة من خلال “الروابط” أيضًا،  كما يُتوقع أن يُبنى عليها في تحليل النّصوص العربيّة ومعالجتها آليًّا.

تعتمد الدراسة المنْهج الاستنباطي للقواعد، فتجمع النصوص ثم تختبرها وتعدّ البرنامج الآلي الذي سيحتويها. أمّا المدونات فهي نصوص أدبيّة من كتب القراءة العربيّة للمرحلة المتوسّطة من المنهج الرّسميّ اللبناني، عددها 44: 22 درسًا للصف السابع و 22 درسًا للصف الثامن.

واجهت الدراسة صعوبة قلّة الأبحاث والبرامج والتّطبيقات في المعالجة الآليّة للّغة العربيّة. والموجود لم يرقَ إلى مستوى البرمجيّات المحلَّلة في اللّغات الأجنبيّة.

الفصل الثّاني: مراجعة الأدبيّات

المبحث الأوّل: (تعريف أقسام النّص في العربيّة: الفقرة، الجملة، الكلمة وعلامات الوقف والتّرقيم).

      الفِقْرة هي «مجموعة جمل مرتبطة بفكرةٍ واحدة». والجملة هي «اجتماع كلمتين فأكثر مُسندتيْن إلى بعضهما ليكوّنا كلامًا مفيدًا وذا معنى» هما المسند والمسند إليه، و”لا يُغني أحدهما عن الآخر». والجملة نوعان: الإسميّة أي «الجملة التي تبدأ باسمٍ أو وصفٍ.. وهي تتكوّن من ركنيْن» المبتدأ والخبر. والفعليّة أي «الجملة التي تبدأ بالفعل..الذي أُسندت بقيّة الجملة إليه». مكوّنات الجملة هي: الاسم: «ما دلّ معناه على شيءٍ لا يقترن بزمنٍ معيّن»، والفعل: «ارتباط الحدث بزمنٍ معيّن»، وينقسم إلى «ثلاثة أزمنة هي الماضي والحاضر والمستقبل»، والحرف وهو يستخدم «لمعنًى في غيره». أما علامات التّرقيم فهي «علامات إصطلاحيّة»([1])، «توضع أثناء عمليّة الكتابة بهدف»، وهي النّقطة (.)، الفاصلة المنقوطة (؛)، النقطتان الرأسيتان (:) ،علامة التعجّب (!)، علامة الإستفهام (؟)، الشّرَطة (-).

المبحث الثاني: اللّسانيّات الحاسوبيّة والمعالجة الآليّة للنّص

بدأت تقنيّة الحاسوب تتطوّر في التّرجمة الآليّة للغة العام 1954م. ثم وُضعت الدعائم في دراسة اللّغة الآلية، في العام 1962م، في مركز التّحليل الآلي للّغة في إيطاليا. أمّا عند العرب فالعلوم الشرعيّة سبقت لاستخدام تقنيات الحاسوب ونظم المعلومات في العام 1971م، وذلك بصدور الدّراسة الإحصائيّة للجذور الثلاثيّة وغير الثلاثيّة لمعجم الصحاح للجوهري )ت 324 ) وقد عرّفت اللسانيّات الحاسوبيّة في أول مؤتمر دولي العام 1965م أنها «علم جديد تتقاطع فيه اللّسانيّات مع جهاز صوري تفرزه العلوم المنطقيّة الرياضيّة.. يؤدّي البحث فيه لإنشاء أنموذج خوارزمي». ويدرس هذا الفرع من العلم «الطرق والوسائل ويضع القواعد المساعدة في جعل الآلة قادرة على معالجة اللّغات البشريّة بجميع مستوياتها حتى الوصول إلى نظامٍ حاسوبي يضاهيها».

استخدامات اللّسانيّات الحاسوبيّة

هي مجالات متعدّدة وقابلة للتوسّع، ومنها: تعليم العربيّة للناطقين بغيرها، تحويل النّص إلى كلام والكلام إلى نصّ، الإحصاء اللّغويّ للجذور اللّغوية، والأسماء، والأفعال، والمشتقّات، وغيرها، التّحليل الصرفي الآلي المفيد للباحثين والدّارسين في القرآن والمعاجم والكتب اللّغويّة في عمليات الإحصاء للجذور ومشتقّاتها واستخلاص نتائج دقيقة تصف أداء المؤلّف أسلوبيًّا، التّرجمة الآليّة من لغةٍ إلى أخرى، الدّراسات المقارنة والتقابليّة المفيدة في القدرة التّخزينيّة للحواسيب وسرعة المعالجة، التّدقيق الإملائيّ والنّحويّ لكنه لا يُغني عن متخصص.

المعالجة الآليّة في اللّغة العربيّة وأنواعها

وضع الدكاترة: غسّان مراد، ليلى بكور، لمياء هايدريش بلغيث، برنامجًا آليا لتقسيم النص العربيّ هو (STAR) في 2005م. وبعده صدر برنامج (الخليل الصرفي المفتوح المصدر) في 2010م، العامل على تحديد الدلالات الصرفيّة للمصطلحات الموجودة في النّص، ثم برنامج (SegATAUM) في 2013م، القائل بالتّقسيم الآلي للنّصوص العربيّة إلى وحدات صغيرة بالإعتماد على قواعد خطابيّة.

الفصل الثّالث: تقسيم النّص إلى فقرات وجمل وكلمات إستنادا لعلامات التّرقيم

المبحث الأول: الإطار النظري

  1. علامات التّرقيم: يوجد احتمالات التقاء علامات الترقيم لذا يعرضها البرنامج في جدول مع إضافة فراغ بداية النّص وسطر جديد (Enter) فيكون النّص الوارد بين العلامات جملةً إمّا بسيطة أو مركّبة.
  2. قاعدة تحديد الفقرة: حيث تبدأ بفراغ بداية النّص، وتنتهي بنقطة أو : أو ! أو ؟ ومتبوعة بالانتقال إلى سطر جديد (Enter). السطر بعد الفقرة يبدأ بفراغ بداية النّص فيكون النّص ما بين الفراغين فقرة واحدة.
  3. قواعد استخراج الجمل بناء لاحتمالات علامات الترقيم: وتبلغ هذه القواعد 81 قاعدة.

هذه الاحتمالات تغطي كل الفرضيات الممكنة والتي بعضها بنتج جملة والبعض الآخر لا ينتج جملة مثال:

  • فراغ بداية النص مع فراغ بداية النص : لا تنتج جملة ، فهذا الاحتمال  لا يرد في اللغة العربيّة أن تبدأ الجملة بفراغ بداية النص وتنتهي الجملة بفراغ بداية النص .
  • فراغ بداية النص مع فاصلة : هذا الاحتمال ينتج جملة .
  • فراغ بداية النص مع نقطة : هذا الاحتمال ينتج جملة .

وهكذا ، فتكون هذه الاحتمالات شاملة لكل الحالات سواء أأنتجت جمل أم لا.

احتمالات إلتقاء علامات الترقيم
فراغ بداية النص ، . ؛ : ؟ ! ــ سطر جديد
فراغ بداية النص 1 2 3 4 5 6 7 8 9
، 10 11 12 13 14 15 16 17 18
. 19 20 21 22 23 24 25 26 27
؛ 28 29 30 31 32 33 34 35 36
: 37 38 39 40 41 42 43 44 45
؟ 46 47 48 49 50 51 52 53 54
! 55 56 57 58 59 60 61 62 63
ــ 64 65 66 67 68 69 70 71 72
سطر جديد 73 74 75 76 77 78 79 80 81

 

  1. الحالات الاستثنائية لعلامات الترقيم: حيث تتعدد جميعها في جداول خاصة وخصوصا في النقطة.

. الحالات الاستثنائية لعلامات الترقيم:

الرقم علامة الترقيم الحالة مثال
1 النقطة   بداية السطر
مسبوقة برقم
حالة التعداد : 1.
2 النقطة   بداية السطر
مسبوقة بحرف واحد
حالة التعداد : أ.
3 النقطة مسبوقة بحرف واحد : أ- د- م. حالة د.غسان
4 النقطة اختصار العلامة التجارية حالة ش.م.ل.
5 النقطة اختصار اسم وشهرة حالة المدعو م. ط .
6 النقطة اختصار اسم ثلاثي مع شهرة حالة المدعو س.م.ز.
7 النقطة رقم أجنبي مع فواصل حالة الأرقام مع الفواصل 5.5
8 الفاصلة حالة التعداد أبيض،أحمر،أسود
9 الفاصلة رقم عربي مع فواصل حالة الأرقام مع الفواصل 5.5
10 النقتطات الرئسيتان: بداية السطر
مسبوقة ب – و كلمة واحدة أو كلمتين
ومتبوعة بكلمات.
حالة الحوار
– علي : ياأيها المعلم…
– المعلم مبتسماً: أحسنت يا بني ..
11 النقتطات الرئسيتان: حالة التعداد الفصول الأربعة : الشتاء، الربيع ، الصيف والخريف.
12 علامة التعجب! بداية السطر
مسبوقة ب – و كلمة واحدة أو كلمتين
ومتبوعة بكلمات.
حالة الحوار
– علي : عجباً! ما كنت احسبه سهلاً.
13 علامة الاستفهام؟ بداية السطر
مسبوقة ب – و كلمة واحدة أو كلمتين
حالة الحوار
– علي : كيف؟وانا أخذته بيدي إلى المشرف.
17 الشرطة-   بداية السطر
مسبوقة برقم
حالة التعداد : 1-
18 الشرطة-   بداية السطر
مسبوقة بحرف واحد
حالة التعداد : أ-
  1. قواعد تقسيم الجملة إلى: اسم، وفعل، وحرف:

الأحرف: تشمل قاموس الأحرف والأدوات.

  1. قواعد تحديد الأسماء: وتفرز فيها الأسماء على 5 أقسام: قسم مسبوق بأل التعريف بها، بهمزات القطع والوصل والمد، قسم مسبوق بأحرف: وال –كال- بال- فال- لل، قسم ينتهي بالتاء (ة) و(ـة) و(ات)، قسم مع حركات الإعراب والتنوين، قسم مسبوق بأحرف الجر والنداء وظرف الزمان والمكان واسم الإشارة.

المبحث الثاني: الإطار التطبيقي – برنامج مشكاة   

هو برنامج إلكتروني مكوّن من صفحة رئيسة إذ يدخل المستخدم النص المراد تقسيمه أو يلصقه. وصفحة الإعدادات، حيث يستعرض المستخدم القواعد المستخدمة في تحليل النص، ويضيفها لاحقًا إلى الإعدادات.

1- المدونة والقواعد المستخدمة: إنّ الاستفادة من القواعد العامّة الموجودة في مراجع اللّغة العربيّة من جهة وتحديد جدول بالاحتمالات لالتقاء علامات الترقيم والاستثناءات من جهة ثانية، جعلا وجود المدونة أمرًا ثانويًّا، لأن ما جُمع من قواعد واحتمالات وفق القواعد الرياضية أشمل بكثير من المدوّنة.

2- خوارزميات تحديد الفقرات، الجمل، والوحدات الصغرى: يُقسّم برنامج مشكاة النصَّ الأدبي إلى فقرات وفق قواعد (شرحت آنفا). وتقسم الجُمل وفق علامات الوقف الأساس مع مراعاة استثناءاتها. وتعالَج الوحدات الصغرى عبر: استخراج الأحرف والأدوات وفق القاموس الموجود في الإعدادات، واستخراج الأسماء وفق قواعدها في الإعدادات، واستخراج أسماء العلَم والمدن والبلدات وفق قاموس الأسماء الموجود في الإعدادات وفيه 63116 اسم علم لبناني، و3731 اسم قرية أو معلم جغرافي، واستخراج الأرقام، واستخراج الرموز الموجودة في النص وفق قاموس الرموز الموجود في الإعدادات، وما تبقى فهو أفعال.

الفصل الرابع:عرض النتائج وتحليلها

اختُبر البرنامج على النصوص بعد كتابتها مع الحركات (والتنوين). وتفاوتت نسبة نجاح التحليل بين 94% – و82%. السبب الرئيس في النسبة المنخفضة هو تعذّر التمييز بين الأسماء والأفعال أو بين الأسماء المجرورة بحرف الجر “بـ” والتي في أصلها الحرف مثل “بلال”. أما سبب النسبة العالية فوجود التنوين إذ ساعد في استخراج الأسماء، والدقة في بداية الفقرات وانتهائها. في الخلاصة أصبح معدل النتائج على الشكل التالي: في تحديد الفقرات92%، في تحديد الجمل94%، في تحديد الأفعال 82%، في تحديد الأسماء88%، في تحديد الحروف94 %، في تحديد الرموز والارقام95%، المعدّل العام 90%.

الاستنتاجات

أولًا: إن الانطلاق من الأدوات والحروف فالأسماء يرفع نسب نجاح البرنامج؛ وذلك لمحدودية الأدوات والحروف ولسهولة تحديد القواعد التي تميز الاسم عن الفعل، وبالمقابل فمعظم البرامج التي انطلقت من تحديد الأفعال نحو الجذور لم تحقق نِسَبًا عالية مثل برنامج شرين خوجة أو برنامج SAFAR .

ثانيًا: يعتمد البرنامج على تحديد أسماء العلم في ملف، ويمكن لاحقا ربطه ببرنامج آخر يستخرج أسماء العلم مباشرة دون الحاجة إلى تخزينها. والنص المحرّك إعرابيًّا يرفع من نسبة تحديد الأسماء خصوصًا التي تجرّ بحرف “بـ ” كون هذا الحرف يكون دائما مكسورا؛ وبالتالي فالكلمة المرتبطة به هي اسم.

 التوصيات والمقترحات

أكّدت هذه الدراسة على أهمية علامات الترقيم في تقسيم النص العربيّ إلى فقرات وجمل ووحدات صغرى، وأهمية الطريقة الجديدة التي اعتُمدت في تقسيم الجمل وانطلقت من تحديد الوحدات الصغرى كالأحرف والأدوات.  وبعد ما تقدم توصي الدراسة بالعمل على ربط هذا البرنامج ببرنامج  لتحديد أسماء العمل من دون الحاجة إلى وجودها ضمن البرنامج، وبالعمل على تقسيم الجمل إلى بسيطة ومركبة بالاعتماد على الروابط المستخدمة في اللغة العربية. وتدعو الدراسة إلى تطوير برنامج مشكاة بطريقة تسمح للمستخدم بإضافة القواعد على الإعدادات، ليتحول من برنامج يعتمد على القواعد إلى برنامج ذكي يعمل وفق تراكم التدريب الذي يخضع له وهو ما يعرف بتقنية machine Learning.

المصادر والمراجع

  1. BOUDLAL A., LAKHOUAJA A., MAZROUI A., MEZIANE A., OULD ABDALLAHI, SHOUL M. (2017), Alkhalil Morpho Sys1: A Morphosyntactic analysis system for Arabic texts, University Mohamed I, Oujda, Morocco
  2. مصطفى، إبراهيم، أحمد الزيات، حامد عبد القادر، محمد النّجار، المعجم الوسيط، مجلد1، مجمّع اللّغة العربيّة، القاهرة،2010.، ص 140.
  3. عيسى، علويّة، (2012م)، البناء النّحوي للجملة العربيّة، لا.ط، جامعة القرآن والعلوم الإسلاميّة، السودان، ص 3.
  4. عبد اللطيف، حماسة(2003)، بناء الجملة العربيّة، لا.ط، دار غريب للنّشر والتّوزيع، القاهرة، ص ص 31-34-93-96.
  5. بغدالي، فتيحة، وشيخ سهيلة (2012م)، الجملة الفعليّة والإسميّة ودلالتهما في القرآن الكريم، سورة الرحمن نموذجاً، ص ص 13-15.
  6. النّور، محمود، (2005م)، بناء الجملة الفعليّة في شعر عبدالله الطيّب، دراسة نحويّة وصفيّة تحليليّة، جامعة أم درمان الإسلاميّة، السودان، 2005م، ص ص 32، 36، 41.
  7. السّيد، شريف، (2013م)، التّعريفات، لا.ط، دار الطلائع للنّشر والتّوزيع، القاهرة، ص ص 31-32.
  8. حسين، هاشم، و صالح تحسين، تعلّق الجمل في الكشاف للزمخشري، كلية التّربية للعلوم الإنسانيّة، جامعة بابل، ص 333.
  9. مبارك، بخيت (2007م)، الأفعال الثلاثيّة والرباعيّة المزيدة: دراسة صرفية لغويّة في الربع الأخير من القرآن الكريم لنيل رسالة الماجستير، جامعة أم درمان الإسلاميّة، السودان 2007م، ص 15.
  10. بن الشيخ، هيبة (2017م)، حروف الجر بين المعاني والوظائف: دراسة لنيل رسالة الماجستير، جامعة أبي بكر بلقايد، الجزائر، ص 10-11
  11. تعريف ومعنى التّرقيم في معجم المعاني الجامع”، https://www.almaany.com/، اطّلع عليه بتاريخ 5-3-2020.
  12. الحقاني، فيض الرحمن، (2015)، علامات التّرقم وأصول الإملاء، ط1، دار الكتب العلميّة، بيروت، ص ص 30-33.
  13. عبد الرحمن بن حسن، العارف، توظيف اللّسانيات الحاسوبيّة في خدمة الدّراسات اللّغويّة العربيّة: جهود ونتائج، مجلّة مجمّع اللّغة العربيّة الأردني، الأردن، العدد 73، 2007م، بتصرّف، منقول من موقع https://www.al-jazirah.com/.
  14. علوي، حافظ إسماعيلي، والمالخ امحمد، قضايا إبستمولوجيّة في اللّسانيات، ط5، منشورات الإختلاف، الجزائر، 2009م، ص 104.
  15. الوعر، مازن، قضايا أساسيّة في علم اللّسانيات الحديثة، (م.س)، ص 319.
  16. مراد، غسان، الإنسانيات الرقمية، شركة المطبوعات للتوزيع والنشر، بيروت.

1- ماستر من مركز علوم اللغة والتواصل في الجامعة اللبنانية.

اترك رد

لن يتم نشر عنوان بريدك الإلكتروني.

free porn https://evvivaporno.com/ website