NLP POS Tagging: Persian Language Processing

‫ارائه دهنده‪ :‬سید محمد‬ ‫اصغری‬ ‫استاد درس‪ :‬دکترمحسن‬ ‫کاهانی‬ ‫‪1‬‬ ‫فروردین ‪1392‬‬ ‫‪2‬‬ ‫فهرست مطالب‬ ‫تعریف‬ ‫نمونه ها‬ ‫تعریف ‪NLP‬‬ ‫کاربردها‬ ‫مبتنی بر قاعده‬ ‫مشکالت‬ ‫اماری‬ ‫‪Tagger n-gram‬‬ ‫ابزارها ی مورد‬ ‫استفاده‬ ‫‪NLP‬‬ ‫نمونه ابزارها‬ ‫کاربردها‬ ‫برچسب ‪Pos‬‬ ‫گذاری اجزای‬ ‫کالم‬ ‫مدل مخفی‬ ‫مارکوف‬ ‫ویتربی‬ ‫انواع روشها‬ ‫ارزیابی‬ ‫مبتنی بر حافظه‬ ‫پیدایش‬ ‫تالشهای انجام‬ ‫شده‬ ‫برچسب گذاری‬ ‫در سیستم های‬ ‫متنی فارسی‬ ‫مشکالت ویژه‬ ‫زبان فارسی‬ ‫مدلهای موجود‬ ‫ایده های جدید‬ 3 NLP ‫تعریف‬ ‫ پردازش زبانهای طبیعی‬ natural intelligence ‫علوم زبان شناسی‬ ‫هوش مصنوعی‬ ‫آمار‬ A B interrogator artificial intelligence    ‫‪4‬‬ ‫کاربردهای ‪NLP‬‬ ‫‪ ‬شناسايي گفتار‬ ‫‪‬‬ ‫سيستمهاي ديکته‪ ،‬سيستم هاي کنترل روبات‬ ‫‪ ‬ترکيب گفتار‬ ‫‪‬‬ ‫سيستم هاي متن به گفتار‬ ‫‪ ‬مقوله بندي متن‬ ‫‪ ‬خالصه سازی متن‬ ‫‪5‬‬ ‫کاربردهای ‪( NLP‬ادامه)‬ ‫‪ ‬نمایه سازی متن‬ ‫‪ ‬بازیابي متن‬ ‫‪ ‬استخراج اطالعات‬ ‫‪ ‬ترکیب داده ها و استخراج داده هاي متن‬ ‫‪6‬‬ ‫کاربردهای ‪( NLP‬ادامه)‬ ‫‪ ‬پاسخ به پرسش‬ ‫‪ ‬ایجاد گزارش‬ ‫‪ ‬ترجمه ماشینی‬ ‫‪7‬‬ ‫ابزارهای پردازش زبان طبیعی‬ ‫‪‬‬ ‫‪‬‬ ‫‪‬‬ ‫‪‬‬ ‫‪‬‬ ‫‪‬‬ ‫‪‬‬ ‫‪‬‬ ‫‪‬‬ ‫‪‬‬ ‫نرمال ساز یا یکسان ساز‬ ‫تشخیص دهنده جمالت‬ ‫تشخیص دهنده لغات‬ ‫حذف کننده کلمات ایست‬ ‫ریشه یاب‬ ‫برچسب زن اجزای کالم (‪)POS‬‬ ‫پارسر (‪)parser‬‬ ‫برچسب زن معنایی کالم (‪)SRL‬‬ ‫شبکه واژگان‬ ‫‪...‬‬ 8 ‫نمونه های ابزار انگلیسی‬ instance OpenNLP ،Stanford NLP ،NLTK Freeling Flex ،JLex ،JFLex , ANTLR ،Ragel , Quex Porter, Krovetz Illinois POS Tagger , Stanford POS Tagger NLP tools ‫تشخیص دهنده جمالت‬ ‫تشخیص دهنده لغات‬ ‫ریشه یاب‬ ‫برچسب زن اجزای کالم‬ )POS( OpenNlP ،Illinois SRL , Swirl , LTHSRL ‫برچسب زن معنایی کالم‬ )SLR( Princeton Wordnet , Euro Wordnet ‫شبکه واژگان‬ ‫‪9‬‬ ‫تا اینجا‬ ‫تعریف‬ ‫نمونه ها‬ ‫تعریف ‪NLP‬‬ ‫ابزارها ی مورد‬ ‫استفاده‬ ‫‪NLP‬‬ ‫نمونه ابزارها‬ ‫کاربردها‬ ‫برچسب ‪Pos‬‬ ‫گذاری اجزای‬ ‫کالم‬ ‫مبتنی بر قاعده‬ ‫‪Tagger n-gram‬‬ ‫مشکالت‬ ‫آماری‬ ‫انواع روشها‬ ‫ویتربی‬ ‫پیدایش‬ ‫کاربردها‬ ‫تالشهای انجام‬ ‫شده‬ ‫برچسب گذاری‬ ‫در سیستم های‬ ‫متنی فارسی‬ ‫مدل مخفی‬ ‫مارکوف‬ ‫مشکالت ویژه‬ ‫زبان فارسی‬ ‫مدلهای موجود‬ ‫ایده های جدید‬ 10 pos ‫تعریف‬ .‫ مقوله نحوی که هر کلمه به آن تعلق دارد‬:‫) یا جزء کالم‬POS( Part-of-Speech  tags ،lexical tags ،word classes :‫نامهای دیگر‬  ‫ فرایند انتساب مقوله نحوی به هر کلمه در پیکره متنی‬:)tagging( POS tagging  :‫های اصلی در انگلیسی‬POS  Nouns Verbs Adjectives Adverbs Prepositions (on, to, by, from, with, …) Determiners (a, an, the) Pronouns (she, who, my, others, …) Conjunctions (and, but, if, …) Auxiliaries (can, should, are, …) Particles (up, down, off, in, out, …) Numerals (one, two, three, first, second, …)            11 )‫ (ادامه‬pos ‫تعریف‬ :‫ های جزئی تری در پیکره های متنی به کار روند‬POS ‫ ممکن است‬،‫بسته به کاربرد‬ Singular nouns Plural nouns Comparative adjectives Superlative adjectives Modal verbs Personal pronouns Possessive pronouns … .‫ های متفاوتی ممکن است به کار رود‬tag ‫برای عالئم نقطه گذاری هم‬  :‫های مختلف در انگلیسی‬tag set  tag 45 ‫ شامل‬:Penn Treebank tag set tag 87 ‫ شامل‬:Brown Corpus tag set tag 61 ‫ شامل‬:C5 tag set tag 146 ‫ شامل‬:C7 tag set              .‫ به کار رفته است‬tag 660 ‫در پیکره متنی زبان فارسی (دکتر بیجن خان) حدود‬  ‫‪12‬‬ ‫مثال‬ ‫‪ ‬ورودی‪:‬‬ ‫‪ ‬خروجی‬ 13 ‫‪14‬‬ ‫نکات مورد توجه‬ ‫‪ ‬مجموعه تگ (‪)tagset‬‬ ‫‪‬‬ ‫انتخاب مجموعه تگ مناسب‬ ‫‪ ‬طبقه بندی گرامری واژگان‬ ‫‪ ‬عبارات‬ ‫‪ ‬واژگان چند نقش‬ ‫‪ ‬کلمات ناشناخته‬ ‫‪15‬‬ ‫کاربردها‬ ‫‪‬‬ ‫مدل سازی زبانی (در بازشناسی گفتار و ‪ :)...‬مقوله نحوی یک کلمه میی توانید در‬ ‫پیش بینی کلمه بعدی کمک کند‪.‬‬ ‫‪‬‬ ‫‪‬‬ ‫‪‬‬ ‫سنتز گفتار‪ :‬مقوله نحوی یک کلمه می تواند اطالعاتی در مورد نحوه تلفیظ صیحی‬ ‫یک کلمه به ما بدهد‪.‬‬ ‫‪‬‬ ‫‪‬‬ ‫‪‬‬ ‫‪‬‬ ‫مثال‪ :‬تلفظ ‪ )noun( OBject‬و ‪)verb( obJECT‬‬ ‫تلفظ” َمرد“ (اسم)‪” ،‬مُرد“ (فعل)‬ ‫بازیابی اطالعات‪ :‬دانستن مقوله نحوی کلمات می تواند به استخراج کلمات مهیم در‬ ‫متن کمک کند‪.‬‬ ‫رفع ابهام معنایی‪ :‬دانستن مقوله نحوی کلمات میی توانید بیه رفیع ابهیام معنیایی کلمیه‬ ‫کمک کند‪.‬‬ ‫‪‬‬ ‫‪‬‬ ‫مثال‪ :‬انگلیسی‪ :‬ضمایر ملکی‪ +‬اسم‬ ‫فارسی‪ :‬حرف اضافه (اسم یا ضمیر)‬ ‫مثال‪ :‬کلمه ‪ watch‬در انگلیسی و کلمه ”در“ در فارسی‬ ‫تجزیییه نحییوی (‪ :)parsing‬بییرای ‪ parsing‬پییایین بییه بییاب در ابتییدا نیییاز بییه تعیییین‬ ‫مقوله نحوی کلمات داریم‪.‬‬ 16 ‫روش ها‬ :POS tagging ‫ روش های کلی‬ )rule based POS tagging( ‫روش های مبتنی بر قاعده‬  )probabilistic/stochastic POS tagging( ‫روش های آماری‬  )transformation-based POS tagging( ‫روش های ترکیبی‬  ‫‪17‬‬ ‫برچسب گذار مبتنی بر قاعده‬ ‫‪‬‬ ‫با استفاده از یک سری ‪ rule‬مقوله نحوی کلمات دارای ابهام را با توجه به کلمات مجاور‬ ‫تعیین می کند‪.‬‬ ‫‪Rule ‬ها به وسیله زبان شناسان نوشته می شوند‪.‬‬ ‫‪‬‬ ‫دو مرحله کلی از ‪ POS tagging‬مبتنی بر قاعده‬ ‫‪tags‬‬ ‫‪>---‬‬‫‪ ‬دیکشنری‬ ‫‪tag >---‬‬‫‪ ‬قواعد ‪+‬مجاور‬ 18 )‫برچسب گذار مبتنی بر قاعده (ادامه‬ I think that you are clever :‫مثال‬  )ENGTWOL tagger ‫ (از‬rule ‫مثالی از یک‬  I: PRON think: V that: PRON, DET, COMP, ADV you: PRON are: AUX clever: ADJ 56,000 Adverbial-that rule: Given input: “that” If (+1 ADJ/ADV) (+2 SENT-LIM) (NOT -1 V-SVO) then eliminate non-ADV tags else eliminate ADV tag ‫‪19‬‬ ‫مدل مارکوف‬ ‫‪.1‬‬ ‫افق محدود‬ ‫‪.2‬‬ ‫مستقل از زمان بودن‬ ‫‪ ‬برچسب يك كلمه تنها وابسته به برچسب كلمه قبلي است (افق محدود )‬ ‫‪ ‬اين وابستگي در طول زمان تغيير نمي كند (مستقل از زمان بودن )‬ ‫برراي ملررال‪ ،‬اگررر يررك صررفت در اوايررل جملرره بررا احتمررال ‪ 0.2‬بعررد از يررك اسررم ظرراهر مرري‬ ‫شررود‪ ،‬ايررن احتمررال در حررين برچسررب گررذاري بقيرره جملرره يررا يررك جلمرره دي ررر تغييررر نمرري‬ ‫كند و ثابت فرض مي شود‪.‬‬ ‫نکته‪ :‬اشتباه بودن این فرض‬ ‫‪21‬‬ ‫مدل مارکوف (ادامه)‬ ‫‪‬‬ ‫هدف ‪ :‬با فرض داشتن دنباله کلمات ‪ ،W=w1…wn‬دنباله ‪ tag‬های ‪ T=t1…tn‬را طوری پیدا کنید که‬ ‫)‪ P(T|W‬ماکزیمم شود‪:‬‬ ‫) ‪Tˆ  arg max P(T | W‬‬ ‫‪T‬‬ ‫‪‬‬ ‫با استفاده از قانون بيز‪:‬‬ ‫‪‬‬ ‫باتوجه به ویژگیهای مارکوف میتوانیم مسئله را ساده کنیم‪:‬‬ ‫‪‬‬ ‫باتوجه به رابطه قبلی و جای زاری‬ 22 ‫آموزش مدل مارکوف‬ ‫مجموعه یادگيری‬      1 Pierre/NNP Vinken/NNP ,/, 61/CD years/NNS old/JJ ,/, will/MD join/VB the/DT board/NN as/IN a/DT nonexecutive/JJ director/NN Nov./NNP 29/CD ./. 2 Mr./NNP Vinken/NNP is/VBZ chairman/NN of/IN Elsevier/NNP N.V./NNP ,/, the/DT Dutch/NNP publishing/VBG group/NN ./. 3 Rudolph/NNP Agnew/NNP ,/, 55/CD years/NNS old/JJ and/CC chairman/NN of/IN Consolidated/NNP Gold/NNP Fields/NNP PLC/NNP ,/, was/VBD named/VBN a/DT nonexecutive/JJ director/NN of/IN this/DT British/JJ industrial/JJ conglomerate/NN ./. ... 38,219 It/PRP is/VBZ also/RB pulling/VBG 20/CD people/NNS out/IN of/IN Puerto/NNP Rico/NNP ,/, who/WP were/VBD helping/VBG Huricane/NNP Hugo/NNP victims/NNS ,/, and/CC sending/VBG them/PRP to/TO San/NNP Francisco/NNP instead/RB ./. ‫‪23‬‬ ‫محاسبه احتماالت مدل مارکوف‬ ‫‪ ‬براي آموزش مدل فوق باید احتمابت انتقال و احتمابت خروجي‬ ‫از روي پیكره برچسب خورده بیه دسیت آیید‪ .‬احتمیابت انتقیال بیه‬ ‫سادگي به صورت زیر به دست مي آید‪:‬‬ ‫‪ ‬و همچنین احتمالت خروجي به صورت زیر محاسبه مي شود‪:‬‬ ‫‪24‬‬ ‫مدلهای ‪n-gram‬‬ ‫‪Bigram ‬‬ ‫‪‬‬ ‫برچسب گذاری که فقط به کلمه قبل وابسته باشد‬ ‫‪Trigram ‬‬ ‫‪‬‬ ‫به دو کلمه قبل از خود وابسته است‬ 25 trigram ‫مثال از مدل‬    S =the boy laughed T =DT NN VBD P(T,S)= P(END|NN, VBD)× P(DT|START, START)× P(NN|START, DT)× P(VBD|DT, NN)× P(the|DT)× P(boy|NN)× P(laughed|VBD) ‫‪26‬‬ ‫زنجیره ماركوف‪ :‬مثال‬ ‫‪ ‬فرض كنید كه در یك ‪ 4 ،corpus‬برچسب ‪ V ،N ،ART‬و ‪ P‬با شمارش هاي‬ ‫زیر داریم‪:‬‬ ‫‪ ‬احتمال وقوع برچسب هاي مختلف پس از یكدیگر را مي توان با زنجیره‬ ‫ماركوف زیر نشان داد‪:‬‬ ‫‪27‬‬ ‫مدل مخفي ماركوف‪ :‬مثال‬ ‫‪ ‬محاسبه احتمال )‪ P(W|T‬با استفاده از مدل مخفي ماركوف‪:‬‬ ‫‪‬‬ ‫فرض كنید كه احتمابت ‪ lexical-generation‬در ‪ corpus‬فرضي به صورت زیر است‪:‬‬ ‫‪28‬‬ ‫مدل مخفي ماركوف‪ :‬مثال‬ ‫‪32‬‬ ‫مدلهای مبتنی بر حافظه‬ ‫‪ ‬استفاده از یادگيری ماشين‬ ‫‪ ‬عدم نیاز به پیکره بزرگ برای یادگيری‬ ‫‪ ‬تلفیقی از دو روش قبل‪:‬‬ ‫‪‬‬ ‫‪‬‬ ‫نمونه ذخيره شده = قانون ‪ ،‬استدالل مبتنی بر تشابه = انتخاب قانون‬ ‫استفاده از یادگيری ماشين‬ ‫‪ ‬دارای سه بخش‬ ‫‪‬‬ ‫‪‬‬ ‫‪‬‬ ‫واژگان = کلمات و نشانه ها‬ ‫پایگاه کلمات شناخته شده = کلمات و نشانه ها و مجاورتها‬ ‫پایگاه کلمات ناشناخته‬ ‫‪33‬‬ ‫ارزیابي‬ ‫‪‬‬ ‫پيكره متني به دو بخش تقسيم مي شود‪:‬‬ ‫‪‬‬ ‫‪‬‬ ‫‪ %90-80‬از پيكره براي آموزش (‪)train‬‬ ‫‪ %20-10‬از پيكره براي آزمون (‪)test‬‬ ‫‪‬‬ ‫با استفاده از داده آموزش آمارهاي الزم استخراج مي گردد و سپس ‪ POS tagging‬برروي داده‬ ‫آزمون تست مي شود‪.‬‬ ‫‪‬‬ ‫انواع متون در پیکره‪:‬‬ ‫‪‬‬ ‫‪‬‬ ‫‪‬‬ ‫‪‬‬ ‫تكنيك اعتبارسنجي متقابل ‪ 5‬قسمتي‪:‬‬ ‫‪‬‬ ‫‪‬‬ ‫‪‬‬ ‫‪‬‬ ‫رسمی‬ ‫غير رسمی‬ ‫محاوره ای‬ ‫پيكره متني به ‪ K‬قسمت مساوي تقسيم مي شود‪.‬‬ ‫در هر مرحله از ارزيابي‪ ،‬يك بخش براي آزمون و ‪ K-1‬بخش دي ر براي آموزش به كار مي رود‪.‬‬ ‫اين روند ‪ K‬بار تكرار مي گردد و درنهايت از نتايج ارزيابي ‪ K‬مرحله ميان ين گرفته مي شود‪.‬‬ ‫دقت ‪:POS tagging‬‬ ‫تعداد كلمات با برچسب‬ ‫‪100‬‬ ‫تعداد كل كلمات‬ ‫صحیح‬ ‫‪Acc ‬‬ ‫‪34‬‬ ‫با سپاس از توجه شما‬

NLP POS Tagging: Persian Language Processing

Related documents

Products

Support

NLP POS Tagging: Persian Language Processing

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib