تندرج هذه الورقة في إطار مشروع يقوم بالإسناد التلقائي لنص شعري مجهول في الشعر العربي إلى شاعره الحقيقي وأتمتة هذه العملية باستخدام تقنيات تنقيب النصوص Text Mining، ويمثل موضوع هذه الورقة المرحلة الأولى من هذا المشروع، الجدير بالذكر أن عملية إسناد المؤلف في الشعر العربي عملية مهمة جدا في تنقيب النصوص خصوصاً بالنسبة لأولئك الذين يدرسون الأسلوبية في الشعر العربي، ومساعدة الشعراء في إثبات حقهم الإبداعي ومعرفة النصوص المنتحلة من غيرها. بيد أن عملية الإسناد التلقائي لنص شعري مجهول إلى شاعره تتم على أساس استخراج خصائص عديدة من النص المجهول وأسلوبيته لمطابقتها مع أسلوب الشاعر والذي يتم استخرجه من نصوص معلومة له باستخدام تقنيات التنقيب المتوائمة مع بيئة النص الشعري.
في هذا المشروع تم إدخال مجموعة من الدواوين الشعرية للبعض من الشعراء وعددهم أربعة عشر شاعرا من مختلف العصور في الشعر الكلاسيكي كمجموعة للتدريب وإدخال اثني عشر نصاً مجهولاً من نصوص مختلفة كمجموعة اختبار تم بعد ذلك تطبيق خوارزمية Naive Bayes على تلك النصوص مع بارامترات ومتغيرات هي: علامة الترقيم، الحرف، وطول الجملة، وكانت نتائج التجربة مبشرة جدا تجاوزت 83%.
الكلمات المفتاحية- الشعر العربي، إسناد التأليف،
NaïveBayes, ArabicPoetry, Authorship Attribution
مقدمة
يعد الشعر من أهم النصوص العربية على الإطلاق قبل الإسلام، واحتل منزلة عالية لا منافس لها عند العرب في الجاهلية، وكان الشعراء بمنزلة الأنبياء؛ وذلك لدورهم المهم، وحاجة الناس إليهم، فهم الذين يقيدون مآثرهم ويعلون من شأنهم، ويخوفون أعداءهم فتبوأوا منزلة عالية «وذلك بسبب المنافع العامة التي يجنيها مجتمعهم القبلي القائم على الحروب والعداوات المتصلة من شعره[1]. وبعد الإسلام احتل الشعر المرتبة الثالثة بعد القرآن والأحاديث النبوية، وقد تعرض الشعر للانتحال والسرقة وغيرها على مر العصور حتى يومنا هذا، ويحظى الشعر بالدراسة والتمحيص المستمر من قبل الباحثين في الأدب واللغة وهذا أدعى لجعل النص الشعري موضوعاً خصباً في تنقيب النصوص والبيانات وهندسة اللغة العربية وأتمتتها. لقد صنف الباحثون في الأدب الشعر إلى أصناف حسب العصور وهي: الشعر الجاهلي وشعر المخضرمين والشعر في عصر صدر الإسلام وفي العصر الأموي والعباسي و….والشعر الحديث، كما صُنف الشعر حسب البناء الشعري إلى الشعر العمودي والشعر الحر وقصيدة النثر [2].
تاريخيا لقد ظهرت تقنيات إسناد التأليفAuthorship Attribution Techniques غير التقليدية في عام 1887، عندما ابتدع Mendenhall لأول مرة فكرة Counting Features حصر الميزات في النص مثل طول الكلمة لتدل على شخصية المؤلف [3].وأعقب ذلك العمل لاحقاً ما قام به كل من:
Yule (1938) و Morton (1965) باستخدام أطوال الجمل للحكم على هوية المؤلف[4].
توالت الدراسات على اللغة الإنجليزية وبشكل متتابع وعلى بعض اللغات الأخرى، وإلى وقت كتابة هذه الورقة فإن الدراسات والأبحاث في هذا المجال باللغة العربية لا تتجاوز أطروحة دكتوراه وورقات عمل منشورة نتناولها في الأدبيات السابقة، وتركز العمل في تلك الدراسات على النصوص العربية القصيرة فقط، والبعض تناول صفحات الويب والبريد الالكتروني وهذا يعد حافزا إضافياً لمشروعنا هذا كوننا نتعامل مع نصوصٍ شعريةٍ لها بنية خاصة.
تتناول هذه الورقة إسنادية التأليف وأنواع المشاكل والصعوبات التي تحول دون اكتشاف المؤلف، والإسناد في اللغة العربية، والدراسات السابقة، وتشرح الورقة أيضا المنهجية وآلية العمل وتطبيق الخوارزمية، تختم ذلك بالنتائج والتوجهات المستقبلية والمراجع.
إسنادية التأليف Authorship Attribution
تعرّف على أنها مشكلة تحديد المؤلف الحقيقي لعمل مجهول أو متنازع عليه وهذا هو التعريف البسيط لإسنادية التأليف [5].عملية الإسناد تتمحور حول دراسة خصائص النص من أجل استخلاص استنتاجات خاصة بتأليفه، وقد نشأ أساساً من علم قياس الأسلوب وهو فرع من علم اللسانيات يطبق القياسات الإحصائية على الأسلوب الأدبي.ويمكن استخدام تحديد هوية مؤلف النص في طيف واسع من التطبيقات مثل: – تحليل الوثائق/الكتب المجهولة أو متنازعة المصدر – وكشف الانتحال بهدف بيان فيما إذا كان مدعي التأليف هو المؤلف حقاً – أيضا التقصي القانوني بغرض التأكد من مؤلفي الرسائل الإلكترونية والمجموعات الإخبارية[6]. وقد تنامى في السنوات الأخيرة استخدام هذه التطبيقات في المجالات المختلفة مثل: الاستخبارات، القانون الجنائي، القانون المدني.
تتركز عملية «تحديد هوية مؤلف النص» حول تحديد التشابه لمؤلف كتب نصاً ما بواسطة فحص أعماله الأخرى؛ حيث يتمحور تحديد هوية المؤلف حول استخلاص مجموعة من السمات للنص والتي تبقى ثابتة نسبياً في مجموعة كتاباته، والتقاط أسلوب كتابته،وبذلك يمكن تمثيل المؤلف بمتجه من «N» بُعد؛ حيث «N» هو عدد الخصائص المميزة المستخرجة من النص [7].
أنواع المشاكل PROBLEMS TYPES
اثنان من المؤلفين يتنازعان على نص ما يدعي أحدهما أو كلاهما ملكيته لذا يتم التركيز على التحقق والمقارنة بين طريقتهما في الكتابة لإسناد النص للمؤلف الفعلي.
مشكلة إسناد نص مجهول لمؤلفين مجهولين، وتحل بحصر عددٍ منهم والذي يتوقع أن يكون النص لأحدهم، ويتم التمحيص أكثر حتى نصل إلى اقل عدد منهم، وتتم المقاربة وفق الأسلوبية لكل مؤلف.
التشكيك بنص منسوب لمؤلف (السرقة)، ولحلها يتم جمع بعض الأدلة الداخلية والتي تستخرج من داخل النص مثل المفردات وعلامات الترقيم وغيرها من المتغيرات التي تحدد الأسلوب، والأدلة الخارجية مثل مكان النشر وتاريخه، وتتبع ذلك عبر الاستفسار من الأشخاص المعايشين للمؤلف. [8]
الصعوبات التي تحول دون اكتشاف المؤلف
مشكلة تغيير أو تحرير النصوص الأصلية: ويمكن تحديدها إذا كانت الكلمات الأصلية للمؤلف الحقيقي ما زالت موجودة لم يمسها التعديل العميق بل مجرد تحرير خفيف، ويجب أن تحتوي على جميع المميزات التي يمكن أن تستخدم في حل المشكلة مثل علامات الترقيم، التهجية، هيكل الجملة، المفردات، والاستخدام النحوي، كل هذه الميزات يمكن استخراجها من العمل المتنازع عليه ومنها نستخرج بصمة المؤلف الخاصة وتقارن بالنصوص الأصلية للمؤلف المزمع، لكن إذا تغيرت النصوص الأصلية أو تحورت يمكن أن تظهر بصمة مشوهة.
مشكلة تغير نمط الكاتب خلال فترة حياته المهنية: بعض الباحثين يشير إلى أن أسلوب المؤلف يتغير بين فترة وأخرى خلال حياته المهنية وينتج أعمالاً مختلفة، وهنا يتم النظر في شكل النص ودراسته لأن لكل نصٍ خصائصٍ إحصائية والنص النثري له سمات تختلف عن سمات النص الشعري.
مشكلة نشر نص لمؤلف مجهول أو باسم مستعار، هناك عدة أسباب للنشر باسم مستعار وإخفاء شخصية المؤلف منها: أسباب سياسية وتجارية وأسباب جنائية، ووفقا للباحثين في الأسلوبية بأنه لا يمكن أن يظل الاختفاء تحت اسم مستعار مستمراً، فيمكن كشف هوية المؤلف بالعديد من الوسائل لأن لكل كاتب طريقته الخاصة في استخدام المفردات وبناء الجمل، ولكل كاتب خلفية اجتماعية ومستوى تعليمي والذي يُعكس داخل النص. [9]
إسنادية التأليف في اللغة العربية
اللغة العربية هي أحد أهم اللغات في العالم كونها لغة القرآن والذي يتعبد به أكثر من مليار مسلم، والإسناد تم تناوله بشكل كبير من قبل علماء الحديث للتدقيق في نصوص الأحاديث النبوية وكذلك الباحثون في اللغة والأدب للتتبع الانتحال والسرقات الأدبية، لكن في مجال استخدام الحاسوب وأتمتة تلك العملية فهي نادرة، كما تجدر الإشارة إلى أن أغلب البحوث التي تم إجراؤها في مجال تحديد هوية مؤلف النص كانت على اللغة الإنجليزية، ويتطلب تطبيقها على اللغة العربية معالجة التحديات الناتجة عن بعض المواصفات الخاصة بهذه اللغة مثل طبيعة اشتقاق المفردات من الجذور، تشكيل الكلمات، طول الكلمة والحروف وطول الجملة والخصائص النحوية والمعجمية [10].
السمات الأسلوبية stylistic features
تندرج سمات وأسلوب الكتابة التي تساعد على تحديد هوية المؤلف تحت أربع مجموعات: معجمية والتي بدورها يمكن أن تكون على مستوى الكلمات أو على مستوى الأحرف، نحوية وتتعامل مع الأشكال التي تدخل في بناء الجملة، تركيبية والتي تعكس عادة المؤلف في تنظيم وتخطيط كتاباته، وصفات خاصة تتعلق بالمضمون وتتعامل مع الكلمات المفتاحية في موضوع محدد أو مجال محدد يتخذه المؤلف منهجا في كتاباته.
تُستخدم من أجل عملية التصنيف أدوات مختلفة من أهمها طرق تعتمد التحليل الإحصائي، والاحتمالات، وتقنيات تعليم الآلة بما فيها الشبكات العصبية، وشجرة أخذ القرار [11].
السمات المعجمية Lexical features:
وهي من أكثر الميزات المستخدمة لإسناد النص إلى مؤلفه، وتعتمد على طول الكلمة، وطول الجملة، وعدد تكرار الكلمة، ووفرة المفردات. المشكلة الرئيسية في هذا النوع من السمات هي أنه في بعض اللغات الشرقية، لا توجد حدود فاصلة بين الكلمات، مما يجعل من الصعب تطبيقها دون الحاجة إلى أدوات خاصة مساعدة.
الحرف Character: في هذا النوع من السمات يتم الاستناد إلى الأحرف في معالجة النصوص باستخدام تسلسل الأحرف، ويأخذ نوع الحرف، تردداتها و Character Ngram ويمكن تطبيقها بسهولة في أي لغة دون الحاجة إلى أي أدوات خاصة.
السمات النحوية :Syntacti
وتستخدم السمات النحوية من قبل المؤلفين دون وعي، مما يجعلها أكثر موثوقية من السمات المعجمية. وفيها يتم استخدام تدابير مختلفة في الدراسات النحوية من اجل عملية الإسناد، بما في ذلك الجزء من الكلام (POS: Part-Of-Speech ) ، التكرار والأخطاء النحوية و Function words. هذه الميزات تتطلب أدوات لاستخراجها.
السمات الدلالية Semantic:
وتشمل هذه الميزات المتعلقات الدلالية والمترادفات اللغوية و(SFL: Systemic Functional Linguistics)، التي تحدد الكلمات الوظيفية Functional Words مع ميزات POS.
السمات التركيبية Structural:
هذه الميزات تلتقط عادات المؤلف عند تنظيم النص وبنائه. والأمثلة على هذه التدابير طول الفقرة، وطول الجملة، واستخدام التوقيع، لون الخط وحجم الخط. الميزات التركيبية لا تظهر بوضوح في النصوص القصيرة لأنه من الصعب التقاط الخصائص الأسلوبية للنص وتظهر جلية في النصوص الأطول. [12]
الأدبيات السابقة
AbdulBaki,Iqbal. (2009) تناولت دراستها الشعر العربي الكلاسيكي من حيث تصنيفه إلى مدح وهجاء وذم وغزل وغيرها وذلك باستخدام خوارزمية Naïve Bayes للتصنيف، عملها كان مقتصرا على ذلك مع استخدام عملية Stemming التجذير كمتغير وحيد وحققت نسبة نجاح 90% [13].
(2014) Baraka,Rebhi. اقترح نموذجاً لتحديد الهوية، وصنف مجموعة من الوثائق والنصوص العربية القصيرة مع مؤلفين غير معروفين والتعرف على أسلوب كل مؤلف من خلال خصائص مستخرجة من النص، النموذج أعتمد على تقنية SVM)) واعتبر أن النتائج التي حققها تصل إلى 100 ٪ وقد نعزي ذلك لقلة النصوص المستخدمة وقصرها[14].
Shaker, Kareem.(2012) تعتبر دراسته أول دراسة في مجال تحديد هوية المؤلف في النص العربي، وهي مهمة كونها الأولى في هذا المجال، واستخدم فيها 54 كلمة، وتعامل مع خصائص Function Words في اللغة الإنجليزية وما يقابلها بالعربية ولم ينطلق من خصائص اللغة العربية بشكل صرف، وبني نموذجاً هجيناً اسماه Hybrid EA Approach)) وفيه توصل إلى دقة 100% وتعزي تلك النسبة أيضا لقلة النصوص و واحدية المتغير[15].
Almuhareb, Abdulrahman.(2013) تناول في دراسته الشعر العربي الكلاسيكي وبناء نموذج يقوم باكتشاف البيت الشعري في صفحات الويب ويستخدم الطريقة الكلاسيكية للتعرف على القصيدة العربية من حيث شكل الأبيات، والقافية.
الطريقة المقترحة حققت دقة 96.94 ٪ من خلال محرك بحث للشعر الكلاسيكي [16].
الطريقة METHODOLOGY
من خلال الشكل رقم (1) فان العملية تتم بعدة خطوات هي: جمع النصوص وتحضيرها Texts Collection & Preprocessing ، تمثيل النصوص Texts Representation، تقليص الأبعاد (اختيار السمات) Dimension Reduction، وأخيراً التصنيف والإسناد Classification & Attributing .
تحضير النصوص Text perprocessing
تم إدخال نصوصاً شعرية (دواوين) لأربعة عشر شاعراً تم اختيارهم عشوائيا وهم (ابن عربي، الفرزدق، أبو فراس الحمداني، الشريف الرضي، أبو نواس، الحلاج، أبو العتاهية، وضاح اليمن، الخنساء، البوصيري، البرعي، المتنبي، أبو تمام، المعري)، الجزء الكبير من أشعارهم تم إدخاله كمجموعة بيانات dataset للتدريب والجزء المتبقي كمجموعة اختبار، أدخلنا مجموعة أثني عشر Unknown Author كقصائد مجهولة الشاعر ومتفاوتة بعدد الأبيات – نعرفها إسنادها- للاختبار وتخضع جميع النصوص بعد عملية التهيئة لــ Event Drivers بوضع متغيرات هي الحروف Characters: حيث تستخدم ترميزاً وحيداً Unicode Character ،علامات الترقيم Punctuation، وطول الجملة Sentences Length بالاعتماد على عدد الكلمات داخل البيت الشعري أو الجملة الشعرية، تحضر النصوص ليتم تطبيق الخوارزمية عليها، الشكل(1) يوضح ترتيب آلية مبسطة للعمل.
الشكل(1)
تمثيل النصوص Texts Representation
تتضمن هذه المرحلة مجموعة من الخطوات الهامة التي يجب إجراؤها على النص[17]:
التصفية: و يتم فيها حذف المحارف الخاصة وعلامات الترقيم التي لا تعطي أي دلالة تمييزية للنص الشعري لكنها قد تؤدي دوراً هاماً في بعض النصوص المهيكلة مثل صفحات الويب لكن في تجربتنا هنا أبقينا على علامات الترقيم كونها احد المتغيرات التي اعتمدنها.
التقطيع: وهي عملية تجزئ النص إلى كلمات.
التجذير: وهو عملية إعادة الكلمات إلى جذورها.
حذف الكلمات الزائدة: الكلمة الزائدة هي الكلمة التي لا تعطي أي معنى مميز للنص مثل الروابط بين الكلمات التي ليس لها معنى مستقل بل تأخذ معناها من الارتباط مع الكلمات الأخرى مثل أدوات الجر. ويمكن إجراء ذلك بمقارنة كل كلمة مع قائمة محضرة مسبقاً تضم الكلمات الزائدة المعروفة.
حذف التشكيل: يتم في هذه المرحلة حذف الحركات مثل الفتحة والضمة والسكون والتنوين.
التقليم: وهي عملية حذف الكلمات التي تظهر بتردد صغير جداً أو بتردد كبير جداً في النصوص.
السبب الأساسي يعود إلى أن الكلمات ذات التردد الصغير حتى وإن كان لديها دلالة تمييزية للنص سوف تكون عناقيد صغيرة غير مفيدة. أما الكلمات ذات التردد الكبير فهي يمكن أن تدل على أسلوب مؤلف وتستخدم عتبتين دنيا وعليا معرفتين مسبقاً لتمييز هذه الكلمات.
اختيار السمات Feature selection
في هذه الخطوة لاختيار سمة، يتم اختيار السمة المتكررة بشكل ملحوظ في النصوص ولحساب الاحتمال لهذا النموذج يتم الاعتماد على المتوسط والانحراف المعياري للميزات. ويمكن استخدم Chi-squared للحصول على نتيجة جيدة ولكن تم استخدام Naïve Bayes وكانت النتيجة أيضا جيدة .
تطبيق خوارزمية Naïve Bayes
عند تطبيقها تقوم ببناء نموذج احتمالي لكل فئة Authorship بالاعتماد على بيانات مجموعة التدريب، لتقوم بحساب ومضاعفة الاحتمالات لكافة الخصائص المستخرجة من النص الشعري وذلك لإعطاء التقارب مع نص الاختبار المجهول. إن أعلى قيمة احتمالية والتي قيمتها (1.0) واحد بين جميع الشعراء في تجربتنا هي على الأرجح تحدد الشاعر الذي يتم إسناد النص إليه [18]، بعض الاحتمالات قد تسفر عن نتيجةٍ قيمتها صفر لأن أياً من بيانات التدريب تقع في نفس المدى، والقيمة الصفرية تأخذ احتمال (0.0) عندها تكون خوارزمية Naïve Bayes غير قادرة على التنبؤ في الصنف، لذلك فانه يتم تطبيق معلمة مصحح لابلاس Laplacian Correction Parameter وذلك لمنع التأثيرات القريبة من الاحتمال صفر، كما يتم بطريقة بسيطة تجنب ذلك التأثير عن طريق إضافة واحد 1 إلى كل حساب في مجموعة البيانات Dataset، لذا فإننا بحاجة إلى ظهور اختلاف ضئيل في الاحتمالات التقديرية لمنع ظهور الصفر مما يضمن أن كل وظيفة وخاصية لها احتمال الظهور أو الحدوث على الأقل مرة واحدة حتى ولو لم يظهر في بيانات التدريب.
نفرض أن a يرمز للمؤلف المرشح لإسناد النص إليه وأن العدد الكلي للمؤلفين هو A والسمات أو الخصائص نرمز لها بالرمز f من العدد الكلي للسمات التي نرمز لها X بحيث لدينا في مجموعة نصوص التدريب a ?A , X={f_1,f_2…..f_n} وفي نصوص الاختبار فإن أي نص سيتم وصفه بنفس مجموعة السمات X ويتم التنبؤ بمؤلف النص حال وجود تطابق بالسمات.
Naïve Bayes تقوم بإسناد النص مع مجموعة السمات X={f_1,f_2…..f_n} للمؤلف الأكثر احتمالية طبقاً للمعادلات التالية:
حيث D_ai هو العدد الإجمالي من النصوص المكتوبة من قبل a وتحتوي على السماتf_i ، أما D_a فهو العدد الإجمالي من الوثائق التي كتبها بسمات غائبة يمكن أن تسبب احتمال ظهور الصفر. للتغلب على هذه المشكلة مع عدد من النصوص للحصول على الاحتمال واحد يتم استخدم Laplacian.[19]
الخلاصة:
أخيراً وبعد أن أجرينا عملية التطبيق ظهرت النتائج الموضحة في الجدول (1) وجدنا أن العدد الكلي لمجموعة التدريب هو أربعة عشر شاعرا قصائدهم من الشعر العمودي ومجموعة الاختبار تمثلت في اثني عشر نصاً مجهولا من UA1 إلى UA12 والقيم في الجدول تمثل الاحتمالية الناتجة من تطبيق Naïve Bayes ؛حيث أن القيم (0) و(1) هي قيم احتمال التقارب بين نصوص الاختبار مع مجموعة التدريب، القيم التي قيمتها واحد(1.0) باللون الأخضر تعني إسناد النص المجهول لشاعره الفعلي، وبالنظر للمجموع فقد حصلنا على عشرة شعراء أسندت إليهم نصوصهم بشكل صحيح، واثنان فقط تم إسناد نصوصهم لشعراء آخرين، بمعنى أن نسبة الدقة في الإسناد وصلت 83.333% ونسبة الإخفاق وصلت إلى 16.666%. الجدير بالذكر أنه في عملية التحضير للنصوص تم التعامل معها كنص بمتغيرات طول الجملة والحروف وعلامة الترقيم، لم يتم التعامل مع الشعر إلا من خلال البيت الشعري كطول الجملة وعدد الكلمات فيها، وفي الشعر يحدث تشابه بأطوال الجمل خاصة الشعر الكلاسيكي لأنه يعتمد البحر وهذا يلزم الشاعر بقالب معين يجبره على استخدام كلمات معدودة بكل شطر، أيضا وجود القافية والروي نهاية كل بيت شعري مما يؤدي إلى تشابه تلك الأحرف مع اغلب الشعراء ونحن في المتغيرات جعلنا الحرف متغيراً.
أيضا لو دققنا في القيم باللون الأحمر والتي تم من خلالها إسناد النصوص إلى شعراء ليسوا مؤلفيها نلاحظ أنها أسندت جميعها لشاعر واحد هو البوصيري وهذا يحتم علينا أن نضع بعين الاعتبار أن هناك احتمالين: تقارب ملحوظ بين تلك النصوص المسندة لذلك الشاعر أو أن هناك متغيرٍا ما تم إغفاله في تحضير النصوص من حيث طول النص أو عدد الشعراء؛ حيث تم إجراء التجربة على عدد أقل من خمسة وكانت النتيجة مغرية جدا وتطابقاً كلياً وصلت نسبته إلى 100%.
ولتجاوز تلك العقبات نقترح إدخال متغيرات أخرى خاصة بالشعر مثل البحر والقافية واستخدام الوزن، المترادفات، وبعض الخصائص الشعرية الصرفة.
كما نقترح زيادة عدد العينة والنصوص الشعرية مع الأخذ بعين الاعتبار توحيد أطوال نصوص الاختبار، وتطبيق نفس المعايير عليها، كذلك استخدام وتجربة تقنيات أخرى من تقنيات تنقيب النصوص وتعليم الآلة، ومقارنة النتائج الجديدة مع هذه النتائج.
المراجع
بوتبيا، الحسن، «المفاضلة بين النظم والنثر وأشكال التداخل بينهما في العصر العباسي»، مراكش: المطبعة والوراقة الوطنية، ط:1، 2002، ص66-67.
القرشي، أبو زيد محمد بن أبي الخطاب، «جمهرة أشعار العرب»، تحقيق: محمد علي الهاشمي، دمشق: دار القلم، ط:2، 1986، ص146 وما بعدها، وابن فارس، أبو الحسن أحمد، الصاحبي في فقه اللغة وسنن العربية في كلامها، تحقيق: عمر الطباع، بيروت: مكتبة المعارف، ط:1، 1993، 465-468.
Stamatatos, E. (2009), “A survey of Modern authorship attribution methods”, Journal of the American Society for Information Science and Technology, 538-556.
KO?,Metin.(2006),»Authorship Attribution», CS533-Information Retrieval Systems, http://www.slidefinder.net/a/authorship_attribution_cs533_information_retrieval/thorshipattribution/21067295.
Foster,D.(2001).»Author Unknown: on the trail of Anonymous», Macmillan
Bosch, R. A. and J. A. Smith,(1998).»Separating hyperplanes and the authorship of the disputed federalist papers»,American Mathematical Monthly 105, 7 , 601-608 (1998).
Stamatatos, E. (2008). «Author identification: Using text sampling to handle the class mbalanceproblem»,Information Processing and Management, 44(2), 790-799.
Shaker, Kareem.(2012).»Investigating Features and Techniques for Arabic Authorship Attribution»,PhD. Thesis, Heriot-Watt University, Department Of Computer Science School of Mathematics and Computer Science, March 2012.
Malyutov, M.B.(2005).» Authorship Attribution of Texts: a review», Electronic Notes in Discrete Mathematics (21) 353–357.
Shaker, Kareem.(2012).»Investigating Features and Techniques for Arabic Authorship Attribution»,PhD. Thesis Of Computer Science,Department Of Computer Science School of Mathematics and Computer Science, Heriot-Watt University,March 2012.
Howedi,Fatma & Mohd,M.(2014).»Text Classification for Authorship Attribution Using Naive Bayes Classifier with Limited Training Data»,Computer Engineering and Intelligent Systems,
http://www.iiste.org/Journals/index.php/CEIS/article/download/12132/12484.
Abbasi, A., Chen, H.,( 2005).» Applying authorship analysis to Arabic web content». In: Kantor, P., Muresan, G., Roberts, F., Zeng, D.D., Wang, F.-Y., Chen, H., Merkle, R.C. (Eds.), Intelligence and Security Informatics, vol. 3495. Springer-Verlag, Berlin, Heidelberg, pp. 183–197 .
AbdulBaki,Iqbal.(2009).» Naive Bayes for Classical Arabic Poetry Classification», Journal of Al-Nahrain University Vol.12 (4), December,2009, pp.217-225
Baraka,Rebhi.(2014).» Arabic Text Author Identification Using Support Vector Machines»,Journal of Advanced Computer Science and Technology Research, Vol.4 No.1, March,2014 , 1-11.
Shaker, Kareem.(2012).»Investigating Features and Techniques for Arabic Authorship Attribution»,PhD. Thesis Of Computer Science,Department Of Computer Science School of Mathematics and Computer Science, Heriot-Watt University,March 2012.
Almuhareb, Abdulrahman.(2013). «Recognition of Classical Arabic Poems»,Workshop on Computational Linguistics for Literature,2013,
http://clair.eecs.umich.edu/aan/paper.php?paper_id=W13-1402.
Desouki, Mohammad · Al-Abdo,Abdulatif.(2012).» Experiments in Mining Arabic Texts «, Journal of Communications and Computer Engineering, Volume 2, Issue 1, 2012, Pages 14:18, http:// http://www.m-sciences.com//index.php?journal=jcce&page=article&op=view&path%5B%5D=175.
Boutwell, S. R. (2011), “Authorship attribution of short messages using multimodal features”, Master Thesis of Science in Computer Science, United State Navy B.S. Johns Hopkins University.
Bhargavi, P., & S.Jyothi (2009), “Applying Naive Bayes Data Mining Technique for Classification of Agricultural Land Soils”, IJCSNS International Journal of Computer Science and Network Security, Vol.9, No.8.
أحمد محمد الفلاحي