ارائه دهنده :سید محمد اصغری استاد درس :دکترمحسن کاهانی 1 فروردین 1392 2 فهرست مطالب تعریف نمونه ها تعریف NLP کاربردها مبتنی بر قاعده مشکالت اماری Tagger n-gram ابزارها ی مورد استفاده NLP نمونه ابزارها کاربردها برچسب Pos گذاری اجزای کالم مدل مخفی مارکوف ویتربی انواع روشها ارزیابی مبتنی بر حافظه پیدایش تالشهای انجام شده برچسب گذاری در سیستم های متنی فارسی مشکالت ویژه زبان فارسی مدلهای موجود ایده های جدید 3 NLP تعریف پردازش زبانهای طبیعی natural intelligence علوم زبان شناسی هوش مصنوعی آمار A B interrogator artificial intelligence 4 کاربردهای NLP شناسايي گفتار سيستمهاي ديکته ،سيستم هاي کنترل روبات ترکيب گفتار سيستم هاي متن به گفتار مقوله بندي متن خالصه سازی متن 5 کاربردهای ( NLPادامه) نمایه سازی متن بازیابي متن استخراج اطالعات ترکیب داده ها و استخراج داده هاي متن 6 کاربردهای ( NLPادامه) پاسخ به پرسش ایجاد گزارش ترجمه ماشینی 7 ابزارهای پردازش زبان طبیعی نرمال ساز یا یکسان ساز تشخیص دهنده جمالت تشخیص دهنده لغات حذف کننده کلمات ایست ریشه یاب برچسب زن اجزای کالم ()POS پارسر ()parser برچسب زن معنایی کالم ()SRL شبکه واژگان ... 8 نمونه های ابزار انگلیسی instance OpenNLP ،Stanford NLP ،NLTK Freeling Flex ،JLex ،JFLex , ANTLR ،Ragel , Quex Porter, Krovetz Illinois POS Tagger , Stanford POS Tagger NLP tools تشخیص دهنده جمالت تشخیص دهنده لغات ریشه یاب برچسب زن اجزای کالم )POS( OpenNlP ،Illinois SRL , Swirl , LTHSRL برچسب زن معنایی کالم )SLR( Princeton Wordnet , Euro Wordnet شبکه واژگان 9 تا اینجا تعریف نمونه ها تعریف NLP ابزارها ی مورد استفاده NLP نمونه ابزارها کاربردها برچسب Pos گذاری اجزای کالم مبتنی بر قاعده Tagger n-gram مشکالت آماری انواع روشها ویتربی پیدایش کاربردها تالشهای انجام شده برچسب گذاری در سیستم های متنی فارسی مدل مخفی مارکوف مشکالت ویژه زبان فارسی مدلهای موجود ایده های جدید 10 pos تعریف . مقوله نحوی که هر کلمه به آن تعلق دارد:) یا جزء کالمPOS( Part-of-Speech tags ،lexical tags ،word classes :نامهای دیگر فرایند انتساب مقوله نحوی به هر کلمه در پیکره متنی:)tagging( POS tagging :های اصلی در انگلیسیPOS Nouns Verbs Adjectives Adverbs Prepositions (on, to, by, from, with, …) Determiners (a, an, the) Pronouns (she, who, my, others, …) Conjunctions (and, but, if, …) Auxiliaries (can, should, are, …) Particles (up, down, off, in, out, …) Numerals (one, two, three, first, second, …) 11 ) (ادامهpos تعریف : های جزئی تری در پیکره های متنی به کار روندPOS ممکن است،بسته به کاربرد Singular nouns Plural nouns Comparative adjectives Superlative adjectives Modal verbs Personal pronouns Possessive pronouns … . های متفاوتی ممکن است به کار رودtag برای عالئم نقطه گذاری هم :های مختلف در انگلیسیtag set tag 45 شامل:Penn Treebank tag set tag 87 شامل:Brown Corpus tag set tag 61 شامل:C5 tag set tag 146 شامل:C7 tag set . به کار رفته استtag 660 در پیکره متنی زبان فارسی (دکتر بیجن خان) حدود 12 مثال ورودی: خروجی 13 14 نکات مورد توجه مجموعه تگ ()tagset انتخاب مجموعه تگ مناسب طبقه بندی گرامری واژگان عبارات واژگان چند نقش کلمات ناشناخته 15 کاربردها مدل سازی زبانی (در بازشناسی گفتار و :)...مقوله نحوی یک کلمه میی توانید در پیش بینی کلمه بعدی کمک کند. سنتز گفتار :مقوله نحوی یک کلمه می تواند اطالعاتی در مورد نحوه تلفیظ صیحی یک کلمه به ما بدهد. مثال :تلفظ )noun( OBjectو )verb( obJECT تلفظ” َمرد“ (اسم)” ،مُرد“ (فعل) بازیابی اطالعات :دانستن مقوله نحوی کلمات می تواند به استخراج کلمات مهیم در متن کمک کند. رفع ابهام معنایی :دانستن مقوله نحوی کلمات میی توانید بیه رفیع ابهیام معنیایی کلمیه کمک کند. مثال :انگلیسی :ضمایر ملکی +اسم فارسی :حرف اضافه (اسم یا ضمیر) مثال :کلمه watchدر انگلیسی و کلمه ”در“ در فارسی تجزیییه نحییوی ( :)parsingبییرای parsingپییایین بییه بییاب در ابتییدا نیییاز بییه تعیییین مقوله نحوی کلمات داریم. 16 روش ها :POS tagging روش های کلی )rule based POS tagging( روش های مبتنی بر قاعده )probabilistic/stochastic POS tagging( روش های آماری )transformation-based POS tagging( روش های ترکیبی 17 برچسب گذار مبتنی بر قاعده با استفاده از یک سری ruleمقوله نحوی کلمات دارای ابهام را با توجه به کلمات مجاور تعیین می کند. Rule ها به وسیله زبان شناسان نوشته می شوند. دو مرحله کلی از POS taggingمبتنی بر قاعده tags >--- دیکشنری tag >--- قواعد +مجاور 18 )برچسب گذار مبتنی بر قاعده (ادامه I think that you are clever :مثال )ENGTWOL tagger (ازrule مثالی از یک I: PRON think: V that: PRON, DET, COMP, ADV you: PRON are: AUX clever: ADJ 56,000 Adverbial-that rule: Given input: “that” If (+1 ADJ/ADV) (+2 SENT-LIM) (NOT -1 V-SVO) then eliminate non-ADV tags else eliminate ADV tag 19 مدل مارکوف .1 افق محدود .2 مستقل از زمان بودن برچسب يك كلمه تنها وابسته به برچسب كلمه قبلي است (افق محدود ) اين وابستگي در طول زمان تغيير نمي كند (مستقل از زمان بودن ) برراي ملررال ،اگررر يررك صررفت در اوايررل جملرره بررا احتمررال 0.2بعررد از يررك اسررم ظرراهر مرري شررود ،ايررن احتمررال در حررين برچسررب گررذاري بقيرره جملرره يررا يررك جلمرره دي ررر تغييررر نمرري كند و ثابت فرض مي شود. نکته :اشتباه بودن این فرض 21 مدل مارکوف (ادامه) هدف :با فرض داشتن دنباله کلمات ،W=w1…wnدنباله tagهای T=t1…tnرا طوری پیدا کنید که ) P(T|Wماکزیمم شود: ) Tˆ arg max P(T | W T با استفاده از قانون بيز: باتوجه به ویژگیهای مارکوف میتوانیم مسئله را ساده کنیم: باتوجه به رابطه قبلی و جای زاری 22 آموزش مدل مارکوف مجموعه یادگيری 1 Pierre/NNP Vinken/NNP ,/, 61/CD years/NNS old/JJ ,/, will/MD join/VB the/DT board/NN as/IN a/DT nonexecutive/JJ director/NN Nov./NNP 29/CD ./. 2 Mr./NNP Vinken/NNP is/VBZ chairman/NN of/IN Elsevier/NNP N.V./NNP ,/, the/DT Dutch/NNP publishing/VBG group/NN ./. 3 Rudolph/NNP Agnew/NNP ,/, 55/CD years/NNS old/JJ and/CC chairman/NN of/IN Consolidated/NNP Gold/NNP Fields/NNP PLC/NNP ,/, was/VBD named/VBN a/DT nonexecutive/JJ director/NN of/IN this/DT British/JJ industrial/JJ conglomerate/NN ./. ... 38,219 It/PRP is/VBZ also/RB pulling/VBG 20/CD people/NNS out/IN of/IN Puerto/NNP Rico/NNP ,/, who/WP were/VBD helping/VBG Huricane/NNP Hugo/NNP victims/NNS ,/, and/CC sending/VBG them/PRP to/TO San/NNP Francisco/NNP instead/RB ./. 23 محاسبه احتماالت مدل مارکوف براي آموزش مدل فوق باید احتمابت انتقال و احتمابت خروجي از روي پیكره برچسب خورده بیه دسیت آیید .احتمیابت انتقیال بیه سادگي به صورت زیر به دست مي آید: و همچنین احتمالت خروجي به صورت زیر محاسبه مي شود: 24 مدلهای n-gram Bigram برچسب گذاری که فقط به کلمه قبل وابسته باشد Trigram به دو کلمه قبل از خود وابسته است 25 trigram مثال از مدل S =the boy laughed T =DT NN VBD P(T,S)= P(END|NN, VBD)× P(DT|START, START)× P(NN|START, DT)× P(VBD|DT, NN)× P(the|DT)× P(boy|NN)× P(laughed|VBD) 26 زنجیره ماركوف :مثال فرض كنید كه در یك 4 ،corpusبرچسب V ،N ،ARTو Pبا شمارش هاي زیر داریم: احتمال وقوع برچسب هاي مختلف پس از یكدیگر را مي توان با زنجیره ماركوف زیر نشان داد: 27 مدل مخفي ماركوف :مثال محاسبه احتمال ) P(W|Tبا استفاده از مدل مخفي ماركوف: فرض كنید كه احتمابت lexical-generationدر corpusفرضي به صورت زیر است: 28 مدل مخفي ماركوف :مثال 32 مدلهای مبتنی بر حافظه استفاده از یادگيری ماشين عدم نیاز به پیکره بزرگ برای یادگيری تلفیقی از دو روش قبل: نمونه ذخيره شده = قانون ،استدالل مبتنی بر تشابه = انتخاب قانون استفاده از یادگيری ماشين دارای سه بخش واژگان = کلمات و نشانه ها پایگاه کلمات شناخته شده = کلمات و نشانه ها و مجاورتها پایگاه کلمات ناشناخته 33 ارزیابي پيكره متني به دو بخش تقسيم مي شود: %90-80از پيكره براي آموزش ()train %20-10از پيكره براي آزمون ()test با استفاده از داده آموزش آمارهاي الزم استخراج مي گردد و سپس POS taggingبرروي داده آزمون تست مي شود. انواع متون در پیکره: تكنيك اعتبارسنجي متقابل 5قسمتي: رسمی غير رسمی محاوره ای پيكره متني به Kقسمت مساوي تقسيم مي شود. در هر مرحله از ارزيابي ،يك بخش براي آزمون و K-1بخش دي ر براي آموزش به كار مي رود. اين روند Kبار تكرار مي گردد و درنهايت از نتايج ارزيابي Kمرحله ميان ين گرفته مي شود. دقت :POS tagging تعداد كلمات با برچسب 100 تعداد كل كلمات صحیح Acc 34 با سپاس از توجه شما