InvitedLecture UniversityofMalta April22,2016 MorphologicalProcessing ofArabicanditsDialects NizarHabash NewYorkUniversityAbuDhabi nizar.habash@nyu.edu CAMeL Lab www.camel-lab.com Roadmap ArabicandArabicDialects… • Introduc@on • OrthographicProcessing • MorphologicalProcessing 2 IntroducBon • ArabicisaSemiBclanguage • ~370Mspeakers • FormsofArabic – ClassicalArabic(CA) • ClassicalHistoricaltexts • Liturgicaltexts – ModernStandardArabic(MSA) • Newsmedia&formalspeechesandseRngs • OnlywriSenstandard – DialectalArabic(DA) • Predominantlyspokenvernaculars • NowriSenstandards 3 ArabicanditsDialects • Officiallanguage:ModernStandardArabic(MSA) Ø Noone’snaBvelanguage • Whatisa dialect ? – PoliBcalandReligiousfactors • RegionalDialects – – – – – – EgypBanArabic(EGY) LevanBneArabic(LEV) GulfArabic(GLF) NorthAfricanArabic(NOR):Moroccan,Algerian,Tunisian Iraqi,Yemenite,Sudanese …Maltese? • Socialdialects – City,Rural,Bedouin – Gender,Religiousvariants lamjaʃtarikamālţawilatandʒadīdatanلميشتركمالطاولةجديدة MSA didn tbuyKamaltablenew kamālmaʃtarāʃţarabēzagidīda كمالماشتراشطربيزةجديدة EGY kamālmaʃtarāʃţawileʒdīde كمالماشتراشطاولةجديدة LEV kamālmaʃrāʃmidaʒdīda كمالماشراشميدةجديدة MOR Kamelnot-bought-nottablenew … Kamal ma xtarax mejda ġdida IntroducBon • ArabicDiglossia – Diglossiaiswheretwoformsofthelanguageexist sidebyside – MSAistheformalpubliclanguage • Perceivedas“languageofthemind” – DialectalArabicistheinformalprivatelanguage • Perceivedas“languageoftheheart” • GeneralArabpercepBon:dialectsarea deterioratedformofClassicalArabic • ConBnuumofdialects 6 Arabic Diglossia Formal MSA Typical MSA Dialect Formal Spoken Arabic Informal Telenovela Arabic MSA L2 Typical Dialect CodeSwitching MSA MSAandDialectmixinginspeech LEV • phonology,morphologyandsyntax الأنامابعتقدألنهعمليةالليعمبيعارضوااليومتمديدللرئيسلحودهمالليطالبوابالتمديدللرئيس الهراويوبالتاليموضوعمنهموضوعمبدئيعلىاألرضأنابحترمأنهيكونفينظرةديمقراطية لألموروأنهيكونفياحترامللعبةالديمقراطيةوأنيكونفيممارسةديمقراطيةوبعتقدإنهالكلفي لبنانأوأكثريةساحقةفيلبنانتريدهذااملوضوع،بسبدييرجعلحظةعلىموضوعإنجازات العهديعنينعمنحكيعنإنجازاتالعهدلكنهلالنظامفيلبناننظامرئاسيالنظامفيلبنانمن بعدالطائفليسنظامرئاسيوبالتاليالسلطةهيعمليابيدالحكومةمجتمعةوالرئيسلحودأثبت خاللممارستهاألخيرةبأنهملابيكونفيشخصمسؤولفيمنصبمعنيوأناعشتهذااملوضوع شخصيابممارستيفيموضوعاالتصاالتملابياخدمواقفصالحةضمنخطابومبادئخطاب القسمهوإلىجانبهإنمامشمطلوبمنرئيسجمهوريةهويكونرئيسالسلطةالتنفيذيةألنهمنه بقىفيلبنانمابعدإتفاقالطائفرئيسالسلطةالتنفيذيةعليهالتوجيهعليهإبداءاملالحظاتعليه القولماهوخطأوماهوصحعليهتثميرجهودالوطنيةالشاملةكييظلفيمصالحةوطنيةكييظل فيتوافقمابنياملسلمواملسيحيفيلبنانيحتضنأبناءهذاالبلدمايتركاملساريروحباتجاه الخطأنعمإنماخطابالقسمكانموضوعمبادئطرحتهوملتزمفيهاالليمشيوامعهوآمنوافيها التزموافيهاأناأثبتخاللاألربعسنواتباملمارسةالحكوميةأنيالتزمتفيهاوملاالتزمنابهذا املوضوعكانالرئيسلحودإلىجنبنافيهذااملوضوع،أمااملوضوعالديمقراطيأنابتفهمتماما هذاهالوجهةالنظربسماممكننقولإنهالدستورأوتعديلههوأوإمكانيةفتحإعادةانتخاب ديمقراطيضمناملجلسوالتصويتإلىماهنالكلرئيسجمهوريةبواليةثانيةهومسحهيئةفي 8جوهرالديمقراطيةهذاباألقليعنيقناعتيفيهذااملوضوع. AljazeeraTranscripthSp://www.aljazeera.net/programs/op_direcBon/arBcles/2004/7/7-23-1.htm CodeSwitching MSA MSA-LIKELEV MSAandDialectmixinginspeech LEV • phonology,morphologyandsyntax الأنامابعتقدألنهعمليةالليعمبيعارضوااليومتمديدللرئيسلحودهمالليطالبوابالتمديدللرئيس الهراويوبالتاليموضوعمنهموضوعمبدئيعلىاألرضأنابحترمأنهيكونفينظرةديمقراطية لألموروأنهيكونفياحترامللعبةالديمقراطيةوأنيكونفيممارسةديمقراطيةوبعتقدإنهالكلفي لبنانأوأكثريةساحقةفيلبنانتريدهذااملوضوع،بسبدييرجعلحظةعلىموضوعإنجازات العهديعنينعمنحكيعنإنجازاتالعهدلكنهلالنظامفيلبناننظامرئاسيالنظامفيلبنانمن بعدالطائفليسنظامرئاسيوبالتاليالسلطةهيعمليابيدالحكومةمجتمعةوالرئيسلحودأثبت خاللممارستهاألخيرةبأنهملابيكونفيشخصمسؤولفيمنصبمعنيوأناعشتهذااملوضوع شخصيابممارستيفيموضوعاالتصاالتملابياخدمواقفصالحةضمنخطابومبادئخطاب القسمهوإلىجانبهإنمامشمطلوبمنرئيسجمهوريةهويكونرئيسالسلطةالتنفيذيةألنهمنه بقىفيلبنانمابعدإتفاقالطائفرئيسالسلطةالتنفيذيةعليهالتوجيهعليهإبداءاملالحظاتعليه القولماهوخطأوماهوصحعليهتثميرجهودالوطنيةالشاملةكييظلفيمصالحةوطنيةكييظل فيتوافقمابنياملسلمواملسيحيفيلبنانيحتضنأبناءهذاالبلدمايتركاملساريروحباتجاه الخطأنعمإنماخطابالقسمكانموضوعمبادئطرحتهوملتزمفيهاالليمشيوامعهوآمنوافيها التزموافيهاأناأثبتخاللاألربعسنواتباملمارسةالحكوميةأنيالتزمتفيهاوملاالتزمنابهذا املوضوعكانالرئيسلحودإلىجنبنافيهذااملوضوع،أمااملوضوعالديمقراطيأنابتفهمتماما هذاهالوجهةالنظربسماممكننقولإنهالدستورأوتعديلههوأوإمكانيةفتحإعادةانتخاب ديمقراطيضمناملجلسوالتصويتإلىماهنالكلرئيسجمهوريةبواليةثانيةهومسحهيئةفي 9جوهرالديمقراطيةهذاباألقليعنيقناعتيفيهذااملوضوع. AljazeeraTranscripthSp://www.aljazeera.net/programs/op_direcBon/arBcles/2004/7/7-23-1.htm ArabicComputaBonalProcessing Challenges Arabic Orthographicambiguity More Orthographicinconsistency More MorphologicalinflecBons More Morpho-syntacBccomplexity More Wordorderfreedom More DialectalvariaBon More English Less Less Less Less Less Less ComputaBonalProcessingof StandardArabic • TherehasbeenalargeandgrowingamountofworkonStandardArabic processing: – MulBplemorphologicalanalyzersandtaggers • BAMA/SAMA,Elixir,AlKhalil,ALMOR,MADAMIRA,etc. – MulBpletreebanksandparsers • PennATB,PragueDTB,CATiB,QuranCorpus – LargecollecBonsofmonolingualtext • Gigaword,newscollecBons,QALB,andothers – LargecollecBonsofbilingual/mulBlingualtext • UNcorpus,newscollecBons,etc. – SenBmentResources • ArSenL,SLSA,SAMAR,etc. – NottomenBonthetradiBonalresourcesonlexicography,morphologyandsyntax! • MuchmoretodotosBll! • Resourcesandworkondialectsareverylimitedincomparison. 11 WhyWorkonArabicDialects? • DialectsaretheprimaryformofArabicusedinall unscriptedspokengenres:conversaBonal,talkshows, interviews,etc. – SpeechrecogniBonanddialoguesystemsmustmodeldialects • DialectsareincreasinglyinuseinnewwriSenmedia (newsgroups,weblogs,forumsetc.) – TextanalyBcsofArabicmustincludedialectalmodeling • SubstanBalDialect-MSAdifferencesimpededirect applicaBonofMSANLPtools 12 ComputaBonalSoluBons • TreatArabicdialectsasdifferentlanguages – Buildresourcesandtoolsfromscratch • Morphologicalanalyzers,annotatedtreebanks,paralleldata… – Pro:modeldifferentgenres – Con:expensive,effortduplicaBon • ExploitsimilaritybetweendialectsandMSAandamong dialects – Convert(orrelate)dialectalresourcestoMSAorviceversatoadapt – Pro:lessduplicaBon,exploitsrelaBonships – Con:thereisalimittohowwellthiswillwork • Hybridapproach 13 Roadmap ArabicandArabicDialects… • IntroducBon • OrthographicProcessing • MorphologicalProcessing 14 ArabicScript ُّ خ َ ال ُّطال َع َر ِبي • Analphabet • WriSenright-to-le{ • LeSershaveallographicvariants • Noconceptof“capitalizaBon” • OpBonaldiacriBcs • Commonligatures • UsedtowritemanylanguagesbesidesArabic: Persian,Kurdish,Urdu,Pashto,etc. 15 ArabicScript • ArabicscriptusesasetofopBonaldiacriBcs – 6.8diacriBzaBons/word – Only1.5%ofwordshaveatleastonediacriBc Vowel Nuna@on Gemina@on ِ ب ٍ ب ب َ ب ُ ب ْ ب ً ب ٌ ب ّ /ba/ /bu/ /bi/ /b/ /ban/ /bun/ – Combinable • /kattab/ to dictate تَّبèَك /bin/ /bb/ اسبانياتنفيتجميداملساعدةاملمنوحةللمغرب مدريد(11-1افب)-اكدرئيسالحكومةاالسبانيةخوسيهماريا اثناراليومالخميساناسبانيالمتوقفاملساعدةالتيتقدمهاللمغرب خالفاملااكدهامساالربعاءوزيرالشؤونالخارجيةوالتعاوناملغربي محمدبنعيسىاماممجلسالنواباملغربي.وقالرئيسالحكومة االسبانيةفيمؤتمرصحافيانالتعاونبنياسبانياواملغربلميتوقف ابداولميجمد. س ِ لم ْغ ِر ِ ب بانياتَèن ْ ِفيتَ ْج ِمي َداملُسا َع َدةَامل َ ْمèن ُ َ ِا ْ وح َةلِ َ خ ِ س ِ ِ َ َّ بان َّي ُة ُ وسيهما ِريا د ك ا فب)- يد(11-1ا َم ْد ِر َ يس ُ ر ِئ ُ الح ُكو َم ِةاالِ ْ َ س ِ لم ْغ ِر ِ اثنارال َي ْو َمال َ ب يساَن َِّا ْ خ ِم َ فاملُسا َع َدةُا َّل ِتيتُ َق ِّد ُمهالِ َ بانيالِ َمتَ َو َّق َ خالفèا ً ِ ِ ِ الشؤ ِ ِ ُونالخا ِر ِ ِ َ َ َّ ير ُ َ س ج َّي ِة َوالèتَعا ُو ِنامل َ ْغ ِر ِبيِّ ز و ء عا ب ر ال ا م ا ه د ك ا ا مل ُ َ َ ْ َ َ ْ الح ُكو َمةِ ُم َح َّمد ِب ِ يسىاَما َم َم ْجèلِ ِ ابامل َ ْغ ِر ِبيَِّ .و َ سالèن ُ ّو ِ يس ُ ر ِئ ُ نع َ قال َ س ِ ص ِ بان َّي ِة ِ س ِ بانيا َوامل َ ْغ ِر ِ ف حافيٍّاَنَّالèتَعا ُونَ َب ْ َ ني ِا ْ في ُم ْؤتَ َم ٍر َ االِ ْ بلِ َم َيèت َ َو َّق ْ اَبَدا ً َولِ َميُ َج ِّم ْد. PhonologyandSpelling • Arabicspellingcanbeambiguous – opBonaldiacriBcsanddualuseofleSer • Buthowambiguous?Really? • Classicexample thsswhtnrbctxtlkslkwthnvwls thisiswhatanArabictextlookslikewithnovowels • Notexactlytrue – LongvowelsarealwayswriSen – IniBalvowelsarerepresentedbyan‘اAlif’ – SomefinalshortvowelsaredeterminisBcallyinferable thsiswhtanArbctxtlkslikwthnovwls Willrevisitambiguityinmoredetailagainundermorphologydiscussion 18 DialectalPhonologicalVariaBons • Major variants MSA ق /q/ ث/θ/ ذ /δ/ ج /ʤ/ • Dialects /q/,/k/,/ʔ/,/g/,/ʤ/,/ɢ/ /θ/,/t/,/s/ /δ/,/d/,/z/ /ʤ/,/g/ Some of many limited variants • /l/ à/n/ MSA: /burtuq l/ à LEV: /burt n/ orange • / / à /ħ/ MSA: /ka k/ à EGY: /kaħk/ cookie • Emphasis add/delete: MSA: /fust n/ à LEV: /fust n/ dress 19 ArabicScript OrthographicVariants /ʤ/ /g/ /tʃ/ /p/ /v/ IRQ ج گ چ پ ڤ LEV ج چ تش EGY چ ج تش TUN ج ڨ تش MOR ج ڭ تش پ ڤ پ ڤ پ ڥ پ ڥ • Historicalvariants:MSA(ق, =)فMOR(ڧ,)ڢ • Modernproposals:LEV/ʔ/,/ē/,/ō/ (ۆHabash1999) ى ڧ ء ^ 20 LaBnScriptforArabic? Akl1961 • SeveralproposalstotheArabic LanguageAcademyinthe1940s • SaidAklExperiment(1961) • WebArabic(Arabizi,Arabish,Franco-arabe) – Nostandard,butcommonconvenBons – www.yamli.com عربي IPA أإآءؤئ /ʔ/ ة La@n 2 Ø /a/,/t/ a t عربي IPA ث /θ/ th ط /tʕ/ t T 6 ع /ʕ/ 3 Ø غ /ʁ/ g gh 3 q ح ħ خ /x/ kh 7 ذ /δ/ th ق /q/ ش /ʃ/ sh ch ي /y// ay// ī//ē/ H h 7 x 8 La@n y,i,e, ai,ei,… 21 LackofOrthographicStandards • Orthographicinconsistency • EgypBan/mabinʔulhalakʃ/ not-[pres]-we-say-it-to-you-not – mAbinquwlhAlak$ – mAbin&ulhalak$ – mAbin}ulhAlak$ – mAbinqulhAlak$ – … مابنقولهالكش مابنؤلهالكش مابنئلهالكش مابنقلهالكش 22 SpellingInconsistencyI 23 http://www.language-museum.com/a/arabic-north-levantine-spoken.php SpellingInconsistencyII • yaalainleshel2aza B7keh3annehkazawkaza izabidallakB7kehhek 2areebanra7troo73al3aza chi3rik3emillehna2zeh li2annehmannehmi2zeh basslawbaddikyeha7arb fikehillaylehra73azzeh 24 http://www.onelebanon.com/forum/archive/index.php/t-8236.html SpellingInconsistencyIII • Socialmediaspelling variaBons – +ak – +aaaaak – +k CODA:AConvenBonalOrthography forDialectalArabic • Developed by the Columbia Arabic Dialect Modeling group for computational processing (Habash et al, 2012) • Objectives – CODA covers all DAs, minimizing differences in choices – CODA is easy to learn and produce consistently – CODA is intuitive to readers unfamiliar with it – CODA uses Arabic script • Inspired by previous efforts from the LDC and linguistic studies • Current guidelines in different stages of construction: Egyptian, Palestinian, Tunisian, Algerian, Gulf and Moroccan. 26 CODAExamples اللي قبل االمتحانات ماشفتش صحابي الفترة I did not see my friends the period which before the exams ماشفتش صحابــى الفتره اللــى أبل اإلمتحانات مـشفتش صـوحابي الفـطـرة إللي ابل الــمتحانات ماشـوفتش صـوحابــى الفـطـره إللــى abl االمتــحـنات ماشـوفتش Su7abi il{ra الــي qbl اإلمتــحـنات مـشـوفتش sohaby الى qabl الــمتــحـنات masho{ish إلــي ilimB7anat إلى limBhanaat illi CODA gloss Spelling variants CODAExamples Phenomenon SpellingErrors Typos Speecheffects Merges Splits MSARootCognate DialectalCli@c Guidelines UniqueDialectWords Original CODA االجابه اإلجابة شبب سبب كبيييييييير كبير اليوم بريستيج اليومبريستيج املع روف املعروف كلب،آلب قلب عهلبيت عهالبيت مشفناش ماشافناش برضو،بردو برضه 28 CODAfica@on RawOrthographytoCODAConversion • What: -ConvertsfromrawDAorthographytoCODA -Correctstyposandvariousspeecheffects • Example: Input مشفتش صحابى الفتره الى فاتت Output ما شفتش صحابي الفترة اللي فاتت m$m$SHAbYAlmrhAlYfAn • Approach • Eskanderetal.(2012)(CODAFY) • Modelspecificphenomena: hamza,PluralwAsuffix,etc. • Supervisedlearning • ClassificaBonproblem • Farraetal.(2014) • Generalizedcharacter replacementmodel. • Bestresults–integratedin morphologicalanalysis(MADA-ARZ) mA$m$SHAbyAlmrpAllyfAn • EvaluaBon: • EgypBanArabic Baseline (doingnothing) CODAFYv0.4 MADA-ARZ CODAfica@on A/YNorm. Accuracy (tokens) Accuracy(tokens) 76.8% 90.5% 91.5% 95.2% 92.9% 95.5% 3arrib Arabizi-to-ArabicConversion • WedevelopedasystemforautomaBcmappingofArabizito Arabicscript 1. trainfinitestatemachinestomapArabizitoArabic 113KwordsofArabizi-Arabic(Biesetal.,2014–EMNLPArabicNLPWorkshop) 2. restrictchoicesusingtheCALIMA-ARZmorphologicalanalyzer 3. rerankusinga5-gramEgypBanArabicLM 4. tagpunctuaBon,emoBcons,sounds,foreignwordsandnames • EvaluaBon – – test32Kwords transliteraBoncorrect83.6%ofArabicwordsandnames. انا مش عارف اقرا اللي انت كاتبه ارابيك اخر طلع فشنك و فال و (Al-Badrashinyetal.,CONLL2014;Eskanderetal.,EMNLPCodeSwitchWorkshop2014) 3Arrib hSp://nlp.ldeo.columbia.edu/arrib/ • x 31 Roadmap ArabicandArabicDialects… • IntroducBon • OrthographicProcessing • MorphologicalProcessing 32 DialectalArabic MorphologicalVariaBon • Nouns – Nocasemarking • WordorderimplicaBons – ParadigmreducBon • ConsolidaBngmasculine&feminineplural • Verbs – ParadigmreducBon • Lossofdualforms • ConsolidaBngmasculine&feminineplural(2nd,3rdperson) • Lossofmorphologicalmoods – SubjuncBve/jussiveformdominatesinsomedialects – IndicaBveformdominatesinothers • Otheraspectsincreaseincomplexity 33 DAMorphologicalVariaBon VerbMorphology object neg subj verb IOBJ tense conj neg MSA ولمتكتبوهاله /walamtaktubūhālahu/ /wa+lamtaktubū+hāla+hu/ and+not_pastwrite_you+itfor+him EGY وماكتبتوهالوش /wimakatabtuhalūʃ/ /wi+ma+katab+tu+ha+lū+ʃ/ and+not+wrote+you+it+for_him+not Andyoudidn twriteitforhim 34 DAMorphologicalVariaBon Perfect Past Imperfect SubjuncBve Present habitual Present progressive يكتب /jaktubu/ Future MSA كتب /kataba/ يكتب /jaktuba/ LEV كتب /katab/ يكتب /jiktob/ EGY كتب /katab/ يكتب /jikBb/ بـيكتب /bjikBb/ هـيكتب /hajikBb/ IRQ كتب /kitab/ يكتب /jikBb/ ديكتب /dajikBb/ رحيكتب /raħjikBb/ MOR كتب /kteb/ يكتب /jekteb/ كـيكتب /kjekteb/ غـيكتب /ʁajekteb/ بـيكتب /bjoktob/ عمبـيكتب / am bjoktob/ سـيكتب /sajaktubu/ حـيكتب /ħajiktob/ 35 DAMorphologicalVariaBon VerbconjugaBon تـكتبـي َن نـكتب ُ اكتب ُ كتبـ ِ ت ت كتبـ ُ ت كتبـ َ تـكتبــي تـكتبــي نـكتب اكتب كتبـتي كتبـت تـكتبـين نـكتب اكتب كتبـتي كتبـت تـكتبــي نـكتبـوا نـكتب 36 كتبـتي كتبـت MorphologicalAmbiguity • Morphological richness • Token Arabic/English = 80% • Type Arabic/English = 200% • Morphological ambiguity • Each word: 12.3 analyses and 2.7 lemmas • Derivational ambiguity العني • /al-ʕajn/the eye, the water spring, Al-Ain, the notable • Inflectional ambiguity • Imperfective verb form for 2MS = 3FS, e.g. /taktub/ • Orthographic ambiguity • Optional diacritcs, suboptimal spelling, clitics Analysisvs.DisambiguaBon Will will Ben Affleck be a good Batman? هل سينجح بني أفليك في دور باتمان؟ PV+PVSUFF_SUBJ:3MS bay~an+a Hedemonstrated PV+PVSUFF_SUBJ:3FP bay~an+~a Theydemonstrated(f.p) NOUN_PROP biyn Ben ADJ bay~in Clear PREP bayn Between,among Morphological Analysis Morphological Disambiguation is out-of-context is in-context Analysisvs.Disambigua@on Will Ben Affleck be a good Batman? هل سينجح بني أفليك في دور باتمان؟ * PV+PVSUFF_SUBJ:3MS bay~an+a Hedemonstrated PV+PVSUFF_SUBJ:3FP bay~an+~a Theydemonstrated(f.p) NOUN_PROP biyn Ben ADJ bay~in Clear PREP bayn Between,among Morphological Analysis Morphological Disambiguation is out-of-context is in-context MADA (Habash&Rambow 2005;Roth et al. 2008) MADAMIRA (Pasha et al., 2014) W-4 W-3 W-2 W-1 W0 W1 W2 W3 W4 3rd 4th 5th 1st 2nd MORPHOLOGICAL CLASSIFIERS • Multiple independent classifiers • Corpus-trained RANKER • Heuristic or corpus-trained MORPHOLOGICAL ANALYZER • Rule-based • Human-created InputArabicText Morphological Disambigua@on Tokeniza@on BasePhrase Chunking NamedEn@ty Recogni@on MADAMIRA • NewesttoolfromtheCADIMgroup(Pashaetal., 2014) • CombinesMADA(Habash&Rambow,2005)and AMIRA(Diabetal.,2004) – MorphologicaldisambiguaBon – TokenizaBon – Basephrasechunking – NamedenBtyrecogniBon • MSAandEgypBanArabicmodes • Server-modewithXMLinterface • Onlinedemo – hSp://nlp.ldeo.columbia.edu/madamira/ – hSp://camel.abudhabi.nyu.edu/madamira/ UserNLPApplica@ons MorphologicalDisambiguaBon System MDMRA-MSA MSA wkAtb وكاتب MADA-ARZ ARZ and (the) writer of MSA+ARZ TrainingData MSA TestSet MSA EGY All 84.3% 27.0% POS+Features 85.4% 35.7% FullDiacri@ciza@on 86.4% 32.2% Lemma@za@on 96.1% 67.1% 86.3% 82.8% asp:na vox:na mod:na BasePOS-tagging 96.1% 82.1% gen:m91.4% num:s stt:c 91.1% ATBSegmenta@on 99.1% 90.5% 97.4% wakAtibu 75.4% 64.7% kAtib_1 84.5% 75.5% pos:noun 83.2% prc3:072.2% prc2:wa_conj prc1:0 prc0:0 per:3 cas:n enc0:0 97.5% w+ kAtb CALIMA-ARZ • CALIMAistheColumbiaArabicLanguage MorphologicalAnalyzer • CALIMA-ARZ(ARZ=Egyp@anArabic) • Extends the EgypBan Colloquial Arabic Lexicon (ECAL) (Kilany et al., 2002) and Standard Arabic Morphological Analyzer(SAMA)(Graffetal.,2009). • Follows the part-of-speech (POS) guidelines used by the LDCforEgypBanArabic(Maamourietal.,2012b). • Accepts mulBple orthographic variants and normalizes themtoCODA(Habashetal.,2012). • IncorporatesannotaBonsbytheLDCforEgypBanArabic. BuildingCALIMA-ARZ • StarBngwith66KinflectedentriesinECAL – – – – Example:(Hedoesn tcallhim) Orthographymbyklmw$ مبيكلموش PhonologymabiykallimUš Morphologykallim:verb+pres-3rd-masc-sg+DO-3rd-masc-sg+neg • ConvertentriestoLDCguidelinesfromat – – – – CODAmA_biyikl~imhuw$ ما بيكلمهوش Lemmakal~im_1 MorphemesmA#bi+yi+kal~im+huw+$ POSNEG_PART#PROG_PART+IV3MS+IV+IVSUFF_DO:3MS+NEG_PART BuildingCALIMA-ARZ • Prefix/stem/suffixgivenclasscategoriesautomaBcally • Classcategoriesaredesignedto • supportextendingparadigmcoverage • Hab~+ayt(Suff-PV-ay-SUBJ)à +aynA,+ayty,+aytwA +aynA+hA,+ayty+hA,+aytw+hA +aynA+hA+š,+ayty+hA+š,etc. • enforcemorphotacBcconstraints • qalb+ahA • kitAb+hA • hawA+hA qalb+ik kitAb+ik hawA+kiy (Suff-NOM-stem-CC-POSS) (Suff-NOM-stem-VC-POSS) (Suff-NOM-stem-V-POSS) BuildingCALIMA-ARZ • ExtendingcliBcsandPOStags – Ea+ ع+(on),fi+ ف+(in),closedclasses • NonCODAsupport – Thevariant+wofthesuffix+hu(his/him) – Thevariantha+oftheprefixHa+(will) – Variantsforspecificfrequentstems,e.g.,thevariantsbrDwandbrdhof thestembrDh(also) Example:Thewordhyktbw هيكتبوreturnstheanalysisofthewordHyktbh (حيكتبهhewillwriteit)amongotheranalyses. • Withalltheextensions,CALIMA-ARZEgypBan coreincreasescoveragefrom66Kto48Mwords CALIMA-ARZExample mktbtlhA$ مكتبتلهاش Lemma katab_1 CODA mA_katabt_lahA$ POS mA/NEG_PART+katab/PV+t/PVSUFF_SUBJ:2MS+ +li/PREP+hA/PRON_3FS+$/NEG_PART Gloss not+write+you+to/for+it/them/her+not Lemma katab_1 CODA mA_katabit_lahA$ POS mA/NEG_PART+katab/PV+it/PVSUFF_SUBJ:3FS +li/PREP+hA/PRON_3FS+$/NEG_PART Gloss not+write+she/it/they+to/for+it/them/her+not CALIMA-ARZv0.5 • IncorporatesLDCARZannotaBons(p1-p6) – 251Ktokens,52Ktypes – AnnotaBoncleanupneeded – ExtendsSAMA(StandardArabicMorphAnalyser) System Token Type Recall Recall SAMAv3.1(StandardArabic) 67.7% 59.7% CALIMA-ARZv0.5(EgypBancore) 88.7% 75.8% CALIMA-ARZv0.5(++SAMAdialectextensions) 92.6% 81.5% MorphologicalDisambiguaBon System MDMRA-MSA MSA wkAtb وكاتب MADA-ARZ ARZ and (the) writer of MSA+ARZ TrainingData MSA TestSet MSA EGY All 84.3% 27.0% POS+Features 85.4% 35.7% FullDiacri@ciza@on 86.4% 32.2% Lemma@za@on 96.1% 67.1% 86.3% 82.8% asp:na vox:na mod:na BasePOS-tagging 96.1% 82.1% gen:m91.4% num:s stt:c 91.1% ATBSegmenta@on 99.1% 90.5% 97.4% wakAtibu 75.4% 64.7% kAtib_1 84.5% 75.5% pos:noun 83.2% prc3:072.2% prc2:wa_conj prc1:0 prc0:0 per:3 cas:n enc0:0 97.5% w+ kAtb MorphologicalDisambiguaBon System MDMRA-MSA TrainingData MSA TestSet MSA MSA MDMRA-EGY EGY MSA+EGY Egyp@anArabic(EGY) All 84.3% 27.0% 75.4% 64.7% POS+Features 85.4% 35.7% 84.5% 75.5% FullDiacri@ciza@on 86.4% 32.2% 83.2% 72.2% Lemma@za@on 96.1% 67.1% 86.3% 82.8% BasePOS-tagging 96.1% 82.1% 91.1% 91.4% ATBSegmenta@on 99.1% 90.5% 97.4% 97.5% MADAMIRA hSp://camel.abudhabi.nyu.edu/madamira/ • ي MADAMIRA hSp://camel.abudhabi.nyu.edu/madamira/ MADAMIRA hSp://camel.abudhabi.nyu.edu/madamira/ Summary and Directions • Arabic dialects pose many challenges to NLP – No orthographic standards; Limited resources; Large number of differences from MSA • A combination of solutions works best – Exploit similarities between dialects and MSA – Address differences through resource building • Our goal is to make basic support for MSA and Dialects at the level of English • Related new effort: MADAR – Multi-Arabic Dialect Applications and Resources – Funded by the Qatar National Research Fund – Collaboration among CMUQ, NYUAD and Columbia Collaborations • CADIM Consortium Computational Approaches to Arabic & Arabic Dialect Modeling Owen Rambow & Ramy Eskander CAMeL Lab Mona Diab & her team Nizar Habash & his team Thank You! • Questions? http://nyuad.nyu.edu/en/ 56