Morphological Processing of Arabic and its Dialects Nizar Habash New York University Abu Dhabi

advertisement
InvitedLecture
UniversityofMalta
April22,2016
MorphologicalProcessing
ofArabicanditsDialects
NizarHabash
NewYorkUniversityAbuDhabi
nizar.habash@nyu.edu
CAMeL Lab
www.camel-lab.com
Roadmap
ArabicandArabicDialects…
• Introduc@on
• OrthographicProcessing
• MorphologicalProcessing
2
IntroducBon
•  ArabicisaSemiBclanguage
•  ~370Mspeakers
•  FormsofArabic
–  ClassicalArabic(CA)
•  ClassicalHistoricaltexts
•  Liturgicaltexts
–  ModernStandardArabic(MSA)
•  Newsmedia&formalspeechesandseRngs
•  OnlywriSenstandard
–  DialectalArabic(DA)
•  Predominantlyspokenvernaculars
•  NowriSenstandards
3
ArabicanditsDialects
•  Officiallanguage:ModernStandardArabic(MSA)
Ø Noone’snaBvelanguage
•  Whatisa dialect ?
–  PoliBcalandReligiousfactors
•  RegionalDialects
– 
– 
– 
– 
– 
– 
EgypBanArabic(EGY)
LevanBneArabic(LEV)
GulfArabic(GLF)
NorthAfricanArabic(NOR):Moroccan,Algerian,Tunisian
Iraqi,Yemenite,Sudanese
…Maltese?
•  Socialdialects
–  City,Rural,Bedouin
–  Gender,Religiousvariants
lamjaʃtarikamālţawilatandʒadīdatan‫لميشتركمالطاولةجديدة‬
MSA
didn tbuyKamaltablenew
kamālmaʃtarāʃţarabēzagidīda
‫كمالماشتراشطربيزةجديدة‬
EGY
kamālmaʃtarāʃţawileʒdīde
‫كمالماشتراشطاولةجديدة‬
LEV
kamālmaʃrāʃmidaʒdīda
‫كمالماشراشميدةجديدة‬
MOR
Kamelnot-bought-nottablenew
… Kamal ma xtarax mejda ġdida
IntroducBon
•  ArabicDiglossia
–  Diglossiaiswheretwoformsofthelanguageexist
sidebyside
–  MSAistheformalpubliclanguage
•  Perceivedas“languageofthemind”
–  DialectalArabicistheinformalprivatelanguage
•  Perceivedas“languageoftheheart”
•  GeneralArabpercepBon:dialectsarea
deterioratedformofClassicalArabic
•  ConBnuumofdialects
6
Arabic Diglossia
Formal
MSA Typical MSA
Dialect
Formal
Spoken
Arabic
Informal
Telenovela Arabic
MSA L2
Typical Dialect
‫‪CodeSwitching‬‬
‫‪MSA‬‬
‫‪MSAandDialectmixinginspeech‬‬
‫‪LEV‬‬
‫‪• phonology,morphologyandsyntax‬‬
‫‬
‫الأنامابعتقدألنهعمليةالليعمبيعارضوااليومتمديدللرئيسلحودهمالليطالبوابالتمديدللرئيس‬
‫الهراويوبالتاليموضوعمنهموضوعمبدئيعلىاألرضأنابحترمأنهيكونفينظرةديمقراطية‬
‫لألموروأنهيكونفياحترامللعبةالديمقراطيةوأنيكونفيممارسةديمقراطيةوبعتقدإنهالكلفي‬
‫لبنانأوأكثريةساحقةفيلبنانتريدهذااملوضوع‪،‬بسبدييرجعلحظةعلىموضوعإنجازات‬
‫العهديعنينعمنحكيعنإنجازاتالعهدلكنهلالنظامفيلبناننظامرئاسيالنظامفيلبنانمن‬
‫بعدالطائفليسنظامرئاسيوبالتاليالسلطةهيعمليابيدالحكومةمجتمعةوالرئيسلحودأثبت‬
‫خاللممارستهاألخيرةبأنهملابيكونفيشخصمسؤولفيمنصبمعنيوأناعشتهذااملوضوع‬
‫شخصيابممارستيفيموضوعاالتصاالتملابياخدمواقفصالحةضمنخطابومبادئخطاب‬
‫القسمهوإلىجانبهإنمامشمطلوبمنرئيسجمهوريةهويكونرئيسالسلطةالتنفيذيةألنهمنه‬
‫بقىفيلبنانمابعدإتفاقالطائفرئيسالسلطةالتنفيذيةعليهالتوجيهعليهإبداءاملالحظاتعليه‬
‫القولماهوخطأوماهوصحعليهتثميرجهودالوطنيةالشاملةكييظلفيمصالحةوطنيةكييظل‬
‫فيتوافقمابنياملسلمواملسيحيفيلبنانيحتضنأبناءهذاالبلدمايتركاملساريروحباتجاه‬
‫الخطأنعمإنماخطابالقسمكانموضوعمبادئطرحتهوملتزمفيهاالليمشيوامعهوآمنوافيها‬
‫التزموافيهاأناأثبتخاللاألربعسنواتباملمارسةالحكوميةأنيالتزمتفيهاوملاالتزمنابهذا‬
‫املوضوعكانالرئيسلحودإلىجنبنافيهذااملوضوع‪،‬أمااملوضوعالديمقراطيأنابتفهمتماما‬
‫هذاهالوجهةالنظربسماممكننقولإنهالدستورأوتعديلههوأوإمكانيةفتحإعادةانتخاب‬
‫ديمقراطيضمناملجلسوالتصويتإلىماهنالكلرئيسجمهوريةبواليةثانيةهومسحهيئةفي‬
‫‪ 8‬جوهرالديمقراطيةهذاباألقليعنيقناعتيفيهذااملوضوع‪.‬‬
‫‬
‫‪AljazeeraTranscripthSp://www.aljazeera.net/programs/op_direcBon/arBcles/2004/7/7-23-1.htm‬‬
‫‪CodeSwitching‬‬
‫‪MSA‬‬
‫‪MSA-LIKELEV‬‬
‫‪MSAandDialectmixinginspeech‬‬
‫‪LEV‬‬
‫‪• phonology,morphologyandsyntax‬‬
‫‬
‫الأنامابعتقدألنهعمليةالليعمبيعارضوااليومتمديدللرئيسلحودهمالليطالبوابالتمديدللرئيس‬
‫الهراويوبالتاليموضوعمنهموضوعمبدئيعلىاألرضأنابحترمأنهيكونفينظرةديمقراطية‬
‫لألموروأنهيكونفياحترامللعبةالديمقراطيةوأنيكونفيممارسةديمقراطيةوبعتقدإنهالكلفي‬
‫لبنانأوأكثريةساحقةفيلبنانتريدهذااملوضوع‪،‬بسبدييرجعلحظةعلىموضوعإنجازات‬
‫العهديعنينعمنحكيعنإنجازاتالعهدلكنهلالنظامفيلبناننظامرئاسيالنظامفيلبنانمن‬
‫بعدالطائفليسنظامرئاسيوبالتاليالسلطةهيعمليابيدالحكومةمجتمعةوالرئيسلحودأثبت‬
‫خاللممارستهاألخيرةبأنهملابيكونفيشخصمسؤولفيمنصبمعنيوأناعشتهذااملوضوع‬
‫شخصيابممارستيفيموضوعاالتصاالتملابياخدمواقفصالحةضمنخطابومبادئخطاب‬
‫القسمهوإلىجانبهإنمامشمطلوبمنرئيسجمهوريةهويكونرئيسالسلطةالتنفيذيةألنهمنه‬
‫بقىفيلبنانمابعدإتفاقالطائفرئيسالسلطةالتنفيذيةعليهالتوجيهعليهإبداءاملالحظاتعليه‬
‫القولماهوخطأوماهوصحعليهتثميرجهودالوطنيةالشاملةكييظلفيمصالحةوطنيةكييظل‬
‫فيتوافقمابنياملسلمواملسيحيفيلبنانيحتضنأبناءهذاالبلدمايتركاملساريروحباتجاه‬
‫الخطأنعمإنماخطابالقسمكانموضوعمبادئطرحتهوملتزمفيهاالليمشيوامعهوآمنوافيها‬
‫التزموافيهاأناأثبتخاللاألربعسنواتباملمارسةالحكوميةأنيالتزمتفيهاوملاالتزمنابهذا‬
‫املوضوعكانالرئيسلحودإلىجنبنافيهذااملوضوع‪،‬أمااملوضوعالديمقراطيأنابتفهمتماما‬
‫هذاهالوجهةالنظربسماممكننقولإنهالدستورأوتعديلههوأوإمكانيةفتحإعادةانتخاب‬
‫ديمقراطيضمناملجلسوالتصويتإلىماهنالكلرئيسجمهوريةبواليةثانيةهومسحهيئةفي‬
‫‪ 9‬جوهرالديمقراطيةهذاباألقليعنيقناعتيفيهذااملوضوع‪.‬‬
‫‬
‫‪AljazeeraTranscripthSp://www.aljazeera.net/programs/op_direcBon/arBcles/2004/7/7-23-1.htm‬‬
ArabicComputaBonalProcessing
Challenges
Arabic
Orthographicambiguity
More
Orthographicinconsistency More
MorphologicalinflecBons
More
Morpho-syntacBccomplexity More
Wordorderfreedom
More
DialectalvariaBon
More
English
Less
Less
Less
Less
Less
Less
ComputaBonalProcessingof
StandardArabic
•  TherehasbeenalargeandgrowingamountofworkonStandardArabic
processing:
–  MulBplemorphologicalanalyzersandtaggers
•  BAMA/SAMA,Elixir,AlKhalil,ALMOR,MADAMIRA,etc.
–  MulBpletreebanksandparsers
•  PennATB,PragueDTB,CATiB,QuranCorpus
–  LargecollecBonsofmonolingualtext
•  Gigaword,newscollecBons,QALB,andothers
–  LargecollecBonsofbilingual/mulBlingualtext
•  UNcorpus,newscollecBons,etc.
–  SenBmentResources
•  ArSenL,SLSA,SAMAR,etc.
–  NottomenBonthetradiBonalresourcesonlexicography,morphologyandsyntax!
•  MuchmoretodotosBll!
•  Resourcesandworkondialectsareverylimitedincomparison.
11
WhyWorkonArabicDialects?
•  DialectsaretheprimaryformofArabicusedinall
unscriptedspokengenres:conversaBonal,talkshows,
interviews,etc.
–  SpeechrecogniBonanddialoguesystemsmustmodeldialects
•  DialectsareincreasinglyinuseinnewwriSenmedia
(newsgroups,weblogs,forumsetc.)
–  TextanalyBcsofArabicmustincludedialectalmodeling
•  SubstanBalDialect-MSAdifferencesimpededirect
applicaBonofMSANLPtools
12
ComputaBonalSoluBons
•  TreatArabicdialectsasdifferentlanguages
–  Buildresourcesandtoolsfromscratch
•  Morphologicalanalyzers,annotatedtreebanks,paralleldata…
–  Pro:modeldifferentgenres
–  Con:expensive,effortduplicaBon
•  ExploitsimilaritybetweendialectsandMSAandamong
dialects
–  Convert(orrelate)dialectalresourcestoMSAorviceversatoadapt
–  Pro:lessduplicaBon,exploitsrelaBonships
–  Con:thereisalimittohowwellthiswillwork
•  Hybridapproach
13
Roadmap
ArabicandArabicDialects…
• IntroducBon
• OrthographicProcessing
• MorphologicalProcessing
14
ArabicScript
ُّ ‫خ‬
َ ‫ال‬
ُّ‫طال َع َر ِبي‬
• Analphabet
• WriSenright-to-le{
• LeSershaveallographicvariants
• Noconceptof“capitalizaBon”
• OpBonaldiacriBcs
• Commonligatures
• UsedtowritemanylanguagesbesidesArabic:
Persian,Kurdish,Urdu,Pashto,etc.
15
ArabicScript
•  ArabicscriptusesasetofopBonaldiacriBcs
–  6.8diacriBzaBons/word
–  Only1.5%ofwordshaveatleastonediacriBc
Vowel
Nuna@on
Gemina@on
ِ ‫ب‬
ٍ
‫ب‬
‫ب‬
َ ‫ب‬
ُ ‫ب‬
ْ ‫ب‬
ً ‫ب‬
ٌ ‫ب‬
ّ
/ba/
/bu/
/bi/
/b/
/ban/
/bun/
–  Combinable
•  /kattab/ to dictate
‫تَّب‬è‫َك‬
/bin/
/bb/
‫اسبانياتنفيتجميداملساعدةاملمنوحةللمغرب‬
‫مدريد‪(11-1‬افب)‪-‬اكدرئيسالحكومةاالسبانيةخوسيهماريا‬
‫اثناراليومالخميساناسبانيالمتوقفاملساعدةالتيتقدمهاللمغرب‬
‫خالفاملااكدهامساالربعاءوزيرالشؤونالخارجيةوالتعاوناملغربي‬
‫محمدبنعيسىاماممجلسالنواباملغربي‪.‬وقالرئيسالحكومة‬
‫االسبانيةفيمؤتمرصحافيانالتعاونبنياسبانياواملغربلميتوقف‬
‫ابداولميجمد‪.‬‬
‫س ِ‬
‫لم ْغ ِر ِ‬
‫ب‬
‫بانياتَ‪è‬ن ْ ِفيتَ ْج ِمي َداملُسا َع َدةَامل َ ْم‪è‬ن ُ َ‬
‫ِا ْ‬
‫وح َةلِ َ‬
‫خ ِ‬
‫س ِ‬
‫ِ‬
‫َ‬
‫َّ‬
‫بان َّي ُة ُ‬
‫وسيهما ِريا‬
‫د‬
‫ك‬
‫ا‬
‫فب)‪-‬‬
‫يد‪(11-1‬ا‬
‫َم ْد ِر‬
‫َ‬
‫يس ُ‬
‫ر ِئ ُ‬
‫الح ُكو َم ِةاالِ ْ‬
‫َ‬
‫س ِ‬
‫لم ْغ ِر ِ‬
‫اثنارال َي ْو َمال َ‬
‫ب‬
‫يساَن َِّا ْ‬
‫خ ِم َ‬
‫فاملُسا َع َدةُا َّل ِتيتُ َق ِّد ُمهالِ َ‬
‫بانيالِ َمتَ َو َّق َ‬
‫خالف‪è‬ا ً ِ‬
‫ِ‬
‫ِ‬
‫الشؤ ِ‬
‫ِ‬
‫ُونالخا ِر ِ‬
‫ِ‬
‫َ‬
‫َ‬
‫َّ‬
‫ير ُ‬
‫َ‬
‫س‬
‫ج َّي ِة َوال‪è‬تَعا ُو ِنامل َ ْغ ِر ِبيِّ‬
‫ز‬
‫و‬
‫‬
‫ء‬
‫عا‬
‫ب‬
‫ر‬
‫ال‬
‫ا‬
‫م‬
‫ا‬
‫‬
‫ه‬
‫د‬
‫ك‬
‫ا‬
‫ا‬
‫مل‬
‫ُ‬
‫َ‬
‫َ‬
‫ْ‬
‫َ‬
‫َ‬
‫ْ‬
‫الح ُكو َمةِ‬
‫ُم َح َّمد ِب ِ‬
‫يسىاَما َم َم ْج‪è‬لِ ِ‬
‫ابامل َ ْغ ِر ِبيِّ‪َ .‬و َ‬
‫سال‪è‬ن ُ ّو ِ‬
‫يس ُ‬
‫ر ِئ ُ‬
‫نع َ‬
‫قال َ‬
‫س ِ‬
‫ص ِ‬
‫بان َّي ِة ِ‬
‫س ِ‬
‫بانيا َوامل َ ْغ ِر ِ‬
‫ف‬
‫حافيٍّاَنَّال‪è‬تَعا ُونَ َب ْ َ‬
‫ني ِا ْ‬
‫في ُم ْؤتَ َم ٍر َ‬
‫االِ ْ‬
‫بلِ َم َي‪è‬ت َ َو َّق ْ‬
‫اَبَدا ً َولِ َميُ َج ِّم ْد‪.‬‬
PhonologyandSpelling
•  Arabicspellingcanbeambiguous
–  opBonaldiacriBcsanddualuseofleSer
•  Buthowambiguous?Really?
•  Classicexample
thsswhtnrbctxtlkslkwthnvwls
thisiswhatanArabictextlookslikewithnovowels
•  Notexactlytrue
–  LongvowelsarealwayswriSen
–  IniBalvowelsarerepresentedbyan‫‘ا‬Alif’
–  SomefinalshortvowelsaredeterminisBcallyinferable
thsiswhtanArbctxtlkslikwthnovwls
Willrevisitambiguityinmoredetailagainundermorphologydiscussion
18
DialectalPhonologicalVariaBons
• 
Major variants
MSA
‫ق‬
/q/
‫ ث‬/θ/
‫ذ‬
/δ/
‫ج‬
/ʤ/
• 
Dialects
/q/,/k/,/ʔ/,/g/,/ʤ/,/ɢ/
/θ/,/t/,/s/
/δ/,/d/,/z/
/ʤ/,/g/
Some of many limited variants
•  /l/ à/n/ MSA: /burtuq l/ à LEV: /burt n/ orange
•  / / à /ħ/ MSA: /ka k/ à EGY: /kaħk/ cookie
•  Emphasis add/delete: MSA: /fust n/ à LEV: /fust n/ dress
19
ArabicScript
OrthographicVariants
/ʤ/
/g/
/tʃ/
/p/
/v/
IRQ
‫ج‬
‫گ‬
‫چ‬
‫پ‬
‫ڤ‬
LEV
‫ج‬
‫چ‬
‫تش‬
EGY
‫چ‬
‫ج‬
‫تش‬
TUN
‫ج‬
‫ڨ‬
‫تش‬
MOR
‫ج‬
‫ڭ‬
‫تش‬
‫پ‬
‫ڤ‬
‫پ‬
‫ڤ‬
‫پ‬
‫ڥ‬
‫پ‬
‫ڥ‬
•  Historicalvariants:MSA(‫ق‬, ‫=)ف‬MOR(‫ڧ‬,‫)ڢ‬
•  Modernproposals:LEV/ʔ/,/ē/,/ō/
‫(ۆ‬Habash1999)
‫ى ڧ‬
‫ء‬
^
20
LaBnScriptforArabic?
Akl1961
•  SeveralproposalstotheArabic
LanguageAcademyinthe1940s
•  SaidAklExperiment(1961)
•  WebArabic(Arabizi,Arabish,Franco-arabe)
–  Nostandard,butcommonconvenBons
–  www.yamli.com
‫عربي‬
IPA
‫أإآءؤئ‬
/ʔ/
‫ة‬
La@n
2 Ø
/a/,/t/ a t
‫عربي‬
IPA
‫ث‬
/θ/
th
‫ط‬
/tʕ/
t T 6
‫ع‬
/ʕ/
3 Ø
‫غ‬
/ʁ/
g gh 3
q
‫ح‬
ħ
‫خ‬
/x/
kh 7
‫ذ‬
/δ/
th
‫ق‬
/q/
‫ش‬
/ʃ/
sh ch
‫ي‬
/y//
ay//
ī//ē/
H h 7
x 8
La@n
y,i,e,
ai,ei,…
21
LackofOrthographicStandards
•  Orthographicinconsistency
•  EgypBan/mabinʔulhalakʃ/
not-[pres]-we-say-it-to-you-not
–  mAbinquwlhAlak$
–  mAbin&ulhalak$ –  mAbin}ulhAlak$ –  mAbinqulhAlak$ –  …
‫مابنقولهالكش‬
‫ مابنؤلهالكش‬
‫مابنئلهالكش‬
‫مابنقلهالكش‬
22
SpellingInconsistencyI
23
http://www.language-museum.com/a/arabic-north-levantine-spoken.php
SpellingInconsistencyII
•  yaalainleshel2aza
B7keh3annehkazawkaza
izabidallakB7kehhek
2areebanra7troo73al3aza
chi3rik3emillehna2zeh
li2annehmannehmi2zeh
basslawbaddikyeha7arb
fikehillaylehra73azzeh
24
http://www.onelebanon.com/forum/archive/index.php/t-8236.html
SpellingInconsistencyIII
•  Socialmediaspelling
variaBons
–  +ak
–  +aaaaak
–  +k
CODA:AConvenBonalOrthography
forDialectalArabic
•  Developed by the Columbia Arabic Dialect Modeling group for
computational processing (Habash et al, 2012)
•  Objectives
–  CODA covers all DAs, minimizing differences in choices
–  CODA is easy to learn and produce consistently
–  CODA is intuitive to readers unfamiliar with it
–  CODA uses Arabic script
•  Inspired by previous efforts from the LDC and linguistic
studies
•  Current guidelines in different stages of construction:
Egyptian, Palestinian, Tunisian, Algerian, Gulf and Moroccan.
26
‫‪CODAExamples‬‬
‫اللي‬
‫قبل‬
‫االمتحانات‬
‫ماشفتش صحابي الفترة‬
‫‪I did not see‬‬
‫‪my friends‬‬
‫‪the period‬‬
‫‪which‬‬
‫‪before‬‬
‫‪the exams‬‬
‫ماشفتش‬
‫صحابــى‬
‫الفتره‬
‫اللــى‬
‫أبل‬
‫اإلمتحانات‬
‫مـشفتش‬
‫صـوحابي‬
‫الفـطـرة‬
‫إللي‬
‫ابل‬
‫الــمتحانات‬
‫ماشـوفتش‬
‫صـوحابــى‬
‫الفـطـره‬
‫إللــى‬
‫‪abl‬‬
‫االمتــحـنات‬
‫ماشـوفتش‬
‫‪Su7abi‬‬
‫‪il{ra‬‬
‫الــي‬
‫‪qbl‬‬
‫اإلمتــحـنات‬
‫مـشـوفتش‬
‫‪sohaby‬‬
‫الى‬
‫‪qabl‬‬
‫الــمتــحـنات‬
‫‪masho{ish‬‬
‫إلــي‬
‫‪ilimB7anat‬‬
‫إلى‬
‫‪limBhanaat‬‬
‫‪illi‬‬
‫‪CODA‬‬
‫‪gloss‬‬
‫‪Spelling‬‬
‫‪variants‬‬
CODAExamples
Phenomenon
SpellingErrors
Typos
Speecheffects
Merges
Splits
MSARootCognate
DialectalCli@c
Guidelines
UniqueDialectWords
Original
CODA
‫االجابه‬
‫اإلجابة‬
‫شبب‬
‫سبب‬
‫كبيييييييير‬
‫كبير‬
‫اليوم بريستيج اليومبريستيج‬
‫املع روف‬
‫املعروف‬
‫ كلب‬،‫آلب‬
‫قلب‬
‫عهلبيت‬
‫عهالبيت‬
‫مشفناش‬
‫ماشافناش‬
‫ برضو‬،‫بردو‬
‫برضه‬
28
CODAfica@on
RawOrthographytoCODAConversion
•  What:
-ConvertsfromrawDAorthographytoCODA
-Correctstyposandvariousspeecheffects
•  Example:
Input
‫مشفتش صحابى الفتره الى فاتت‬
Output
‫ما شفتش صحابي الفترة اللي‬
‫فاتت‬
m$m$SHAbYAlmrhAlYfAn
•  Approach
• Eskanderetal.(2012)(CODAFY)
• Modelspecificphenomena:
hamza,PluralwAsuffix,etc.
• Supervisedlearning
• ClassificaBonproblem
• Farraetal.(2014)
• Generalizedcharacter
replacementmodel.
• Bestresults–integratedin
morphologicalanalysis(MADA-ARZ)
mA$m$SHAbyAlmrpAllyfAn
•  EvaluaBon:
•  EgypBanArabic
Baseline
(doingnothing)
CODAFYv0.4
MADA-ARZ
CODAfica@on
A/YNorm.
Accuracy
(tokens) Accuracy(tokens)
76.8%
90.5%
91.5%
95.2%
92.9%
95.5%
3arrib
Arabizi-to-ArabicConversion
•  WedevelopedasystemforautomaBcmappingofArabizito
Arabicscript
1.  trainfinitestatemachinestomapArabizitoArabic
113KwordsofArabizi-Arabic(Biesetal.,2014–EMNLPArabicNLPWorkshop)
2.  restrictchoicesusingtheCALIMA-ARZmorphologicalanalyzer
3.  rerankusinga5-gramEgypBanArabicLM
4.  tagpunctuaBon,emoBcons,sounds,foreignwordsandnames
•  EvaluaBon
– 
– 
test32Kwords
transliteraBoncorrect83.6%ofArabicwordsandnames.
‫انا مش عارف اقرا اللي انت كاتبه‬
‫ارابيك‬
‫اخر طلع فشنك و‬
‫فال‬
‫و‬
(Al-Badrashinyetal.,CONLL2014;Eskanderetal.,EMNLPCodeSwitchWorkshop2014)
3Arrib
hSp://nlp.ldeo.columbia.edu/arrib/
•  x
31
Roadmap
ArabicandArabicDialects…
• IntroducBon
• OrthographicProcessing
• MorphologicalProcessing
32
DialectalArabic
MorphologicalVariaBon
•  Nouns
–  Nocasemarking
•  WordorderimplicaBons
–  ParadigmreducBon
•  ConsolidaBngmasculine&feminineplural
•  Verbs
–  ParadigmreducBon
•  Lossofdualforms
•  ConsolidaBngmasculine&feminineplural(2nd,3rdperson)
•  Lossofmorphologicalmoods
–  SubjuncBve/jussiveformdominatesinsomedialects
–  IndicaBveformdominatesinothers
•  Otheraspectsincreaseincomplexity
33
DAMorphologicalVariaBon
VerbMorphology
object
neg
subj
verb
IOBJ
tense
conj
neg
MSA
‫ولمتكتبوهاله‬
/walamtaktubūhālahu/
/wa+lamtaktubū+hāla+hu/
and+not_pastwrite_you+itfor+him
EGY
‫وماكتبتوهالوش‬
/wimakatabtuhalūʃ/
/wi+ma+katab+tu+ha+lū+ʃ/
and+not+wrote+you+it+for_him+not
Andyoudidn twriteitforhim
34
DAMorphologicalVariaBon
Perfect
Past
Imperfect
SubjuncBve
Present
habitual
Present
progressive
‫يكتب‬
/jaktubu/
Future
MSA
‫كتب‬
/kataba/
‫يكتب‬
/jaktuba/
LEV
‫كتب‬
/katab/
‫يكتب‬
/jiktob/
EGY
‫كتب‬
/katab/
‫يكتب‬
/jikBb/
‫بـيكتب‬
/bjikBb/
‫هـيكتب‬
/hajikBb/
IRQ
‫كتب‬
/kitab/
‫يكتب‬
/jikBb/
‫ديكتب‬
/dajikBb/
‫رحيكتب‬
/raħjikBb/
MOR
‫كتب‬
/kteb/
‫يكتب‬
/jekteb/
‫كـيكتب‬
/kjekteb/
‫غـيكتب‬
/ʁajekteb/
‫بـيكتب‬
/bjoktob/
‫عمبـيكتب‬
/ am bjoktob/
‫سـيكتب‬
/sajaktubu/
‫حـيكتب‬
/ħajiktob/
35
‫‪DAMorphologicalVariaBon‬‬
‫‪VerbconjugaBon‬‬
‫تـكتبـي َن‬
‫نـكتب ُ‬
‫اكتب ُ‬
‫كتبـ ِ‬
‫ت‬
‫ت‬
‫كتبـ ُ‬
‫ت‬
‫كتبـ َ‬
‫تـكتبــي‬
‫تـكتبــي‬
‫نـكتب‬
‫اكتب‬
‫كتبـتي‬
‫كتبـت‬
‫تـكتبـين‬
‫نـكتب‬
‫اكتب‬
‫كتبـتي‬
‫كتبـت‬
‫تـكتبــي‬
‫نـكتبـوا‬
‫نـكتب‬
‫‪36‬‬
‫كتبـتي‬
‫كتبـت‬
MorphologicalAmbiguity
•  Morphological richness
•  Token Arabic/English = 80%
•  Type Arabic/English = 200%
•  Morphological ambiguity
•  Each word: 12.3 analyses and 2.7 lemmas
•  Derivational ambiguity
‫العني‬
•  /al-ʕajn/the eye, the water spring, Al-Ain, the notable
•  Inflectional ambiguity
•  Imperfective verb form for 2MS = 3FS, e.g. /taktub/
•  Orthographic ambiguity
•  Optional diacritcs, suboptimal spelling, clitics
Analysisvs.DisambiguaBon
Will will Ben Affleck be a good Batman?
‫هل سينجح بني أفليك في دور باتمان؟‬
PV+PVSUFF_SUBJ:3MS
bay~an+a
Hedemonstrated
PV+PVSUFF_SUBJ:3FP
bay~an+~a
Theydemonstrated(f.p)
NOUN_PROP
biyn
Ben
ADJ
bay~in
Clear
PREP
bayn
Between,among
Morphological Analysis
Morphological Disambiguation
is out-of-context
is in-context
Analysisvs.Disambigua@on
Will Ben Affleck be a good Batman?
‫هل سينجح بني أفليك في دور باتمان؟‬
*
PV+PVSUFF_SUBJ:3MS
bay~an+a
Hedemonstrated
PV+PVSUFF_SUBJ:3FP
bay~an+~a
Theydemonstrated(f.p)
NOUN_PROP
biyn
Ben
ADJ
bay~in
Clear
PREP
bayn
Between,among
Morphological Analysis
Morphological Disambiguation
is out-of-context
is in-context
MADA (Habash&Rambow 2005;Roth et al. 2008)
MADAMIRA (Pasha et al., 2014)
W-4
W-3
W-2
W-1
W0
W1
W2
W3
W4
3rd
4th
5th
1st
2nd
MORPHOLOGICAL
CLASSIFIERS
•  Multiple independent
classifiers
•  Corpus-trained
RANKER
•  Heuristic or
corpus-trained
MORPHOLOGICAL
ANALYZER
•  Rule-based
•  Human-created
InputArabicText
Morphological
Disambigua@on
Tokeniza@on
BasePhrase
Chunking
NamedEn@ty
Recogni@on
MADAMIRA
•  NewesttoolfromtheCADIMgroup(Pashaetal.,
2014)
•  CombinesMADA(Habash&Rambow,2005)and
AMIRA(Diabetal.,2004)
–  MorphologicaldisambiguaBon
–  TokenizaBon
–  Basephrasechunking
–  NamedenBtyrecogniBon
•  MSAandEgypBanArabicmodes
•  Server-modewithXMLinterface
•  Onlinedemo
–  hSp://nlp.ldeo.columbia.edu/madamira/
–  hSp://camel.abudhabi.nyu.edu/madamira/
UserNLPApplica@ons
MorphologicalDisambiguaBon
System MDMRA-MSA
MSA
wkAtb ‫وكاتب‬
MADA-ARZ
ARZ
and
(the) writer of
MSA+ARZ
TrainingData
MSA
TestSet
MSA
EGY
All
84.3%
27.0%
POS+Features
85.4%
35.7%
FullDiacri@ciza@on
86.4%
32.2%
Lemma@za@on
96.1%
67.1%
86.3%
82.8%
asp:na
vox:na mod:na
BasePOS-tagging
96.1%
82.1%
gen:m91.4%
num:s stt:c
91.1%
ATBSegmenta@on
99.1%
90.5%
97.4%
wakAtibu
75.4%
64.7%
kAtib_1
84.5%
75.5%
pos:noun
83.2%
prc3:072.2%
prc2:wa_conj
prc1:0 prc0:0 per:3
cas:n enc0:0
97.5%
w+ kAtb
CALIMA-ARZ
•  CALIMAistheColumbiaArabicLanguage
MorphologicalAnalyzer
•  CALIMA-ARZ(ARZ=Egyp@anArabic)
•  Extends the EgypBan Colloquial Arabic Lexicon (ECAL)
(Kilany et al., 2002) and Standard Arabic Morphological
Analyzer(SAMA)(Graffetal.,2009).
•  Follows the part-of-speech (POS) guidelines used by the
LDCforEgypBanArabic(Maamourietal.,2012b).
•  Accepts mulBple orthographic variants and normalizes
themtoCODA(Habashetal.,2012).
•  IncorporatesannotaBonsbytheLDCforEgypBanArabic.
BuildingCALIMA-ARZ
•  StarBngwith66KinflectedentriesinECAL
– 
– 
– 
– 
Example:(Hedoesn tcallhim)
Orthographymbyklmw$ ‫مبيكلموش‬
PhonologymabiykallimUš
Morphologykallim:verb+pres-3rd-masc-sg+DO-3rd-masc-sg+neg
•  ConvertentriestoLDCguidelinesfromat
– 
– 
– 
– 
CODAmA_biyikl~imhuw$ ‫ما بيكلمهوش‬
Lemmakal~im_1
MorphemesmA#bi+yi+kal~im+huw+$
POSNEG_PART#PROG_PART+IV3MS+IV+IVSUFF_DO:3MS+NEG_PART
BuildingCALIMA-ARZ
• Prefix/stem/suffixgivenclasscategoriesautomaBcally
• Classcategoriesaredesignedto
•  supportextendingparadigmcoverage
•  Hab~+ayt(Suff-PV-ay-SUBJ)à +aynA,+ayty,+aytwA
+aynA+hA,+ayty+hA,+aytw+hA
+aynA+hA+š,+ayty+hA+š,etc.
•  enforcemorphotacBcconstraints
•  qalb+ahA
•  kitAb+hA
•  hawA+hA
qalb+ik
kitAb+ik
hawA+kiy
(Suff-NOM-stem-CC-POSS)
(Suff-NOM-stem-VC-POSS)
(Suff-NOM-stem-V-POSS)
BuildingCALIMA-ARZ
•  ExtendingcliBcsandPOStags
–  Ea+ ‫ع‬+(on),fi+ ‫ف‬+(in),closedclasses
•  NonCODAsupport
–  Thevariant+wofthesuffix+hu(his/him)
–  Thevariantha+oftheprefixHa+(will)
–  Variantsforspecificfrequentstems,e.g.,thevariantsbrDwandbrdhof
thestembrDh(also)
Example:Thewordhyktbw‫ هيكتبو‬returnstheanalysisofthewordHyktbh
‫(حيكتبه‬hewillwriteit)amongotheranalyses.
•  Withalltheextensions,CALIMA-ARZEgypBan
coreincreasescoveragefrom66Kto48Mwords
CALIMA-ARZExample
mktbtlhA$ ‫ مكتبتلهاش‬
Lemma
katab_1
CODA
mA_katabt_lahA$
POS
mA/NEG_PART+katab/PV+t/PVSUFF_SUBJ:2MS+
+li/PREP+hA/PRON_3FS+$/NEG_PART
Gloss
not+write+you+to/for+it/them/her+not
Lemma
katab_1
CODA
mA_katabit_lahA$
POS
mA/NEG_PART+katab/PV+it/PVSUFF_SUBJ:3FS
+li/PREP+hA/PRON_3FS+$/NEG_PART
Gloss
not+write+she/it/they+to/for+it/them/her+not
CALIMA-ARZv0.5
•  IncorporatesLDCARZannotaBons(p1-p6)
–  251Ktokens,52Ktypes
–  AnnotaBoncleanupneeded
–  ExtendsSAMA(StandardArabicMorphAnalyser)
System
Token Type
Recall Recall
SAMAv3.1(StandardArabic)
67.7% 59.7%
CALIMA-ARZv0.5(EgypBancore)
88.7% 75.8%
CALIMA-ARZv0.5(++SAMAdialectextensions) 92.6% 81.5%
MorphologicalDisambiguaBon
System MDMRA-MSA
MSA
wkAtb ‫وكاتب‬
MADA-ARZ
ARZ
and
(the) writer of
MSA+ARZ
TrainingData
MSA
TestSet
MSA
EGY
All
84.3%
27.0%
POS+Features
85.4%
35.7%
FullDiacri@ciza@on
86.4%
32.2%
Lemma@za@on
96.1%
67.1%
86.3%
82.8%
asp:na
vox:na mod:na
BasePOS-tagging
96.1%
82.1%
gen:m91.4%
num:s stt:c
91.1%
ATBSegmenta@on
99.1%
90.5%
97.4%
wakAtibu
75.4%
64.7%
kAtib_1
84.5%
75.5%
pos:noun
83.2%
prc3:072.2%
prc2:wa_conj
prc1:0 prc0:0 per:3
cas:n enc0:0
97.5%
w+ kAtb
MorphologicalDisambiguaBon
System MDMRA-MSA
TrainingData
MSA
TestSet
MSA
MSA
MDMRA-EGY
EGY
MSA+EGY
Egyp@anArabic(EGY)
All
84.3%
27.0%
75.4%
64.7%
POS+Features
85.4%
35.7%
84.5%
75.5%
FullDiacri@ciza@on
86.4%
32.2%
83.2%
72.2%
Lemma@za@on
96.1%
67.1%
86.3%
82.8%
BasePOS-tagging
96.1%
82.1%
91.1%
91.4%
ATBSegmenta@on
99.1%
90.5%
97.4%
97.5%
MADAMIRA
hSp://camel.abudhabi.nyu.edu/madamira/
‫•  ي‬
MADAMIRA
hSp://camel.abudhabi.nyu.edu/madamira/
MADAMIRA
hSp://camel.abudhabi.nyu.edu/madamira/
Summary and Directions
•  Arabic dialects pose many challenges to NLP
–  No orthographic standards; Limited resources; Large number of
differences from MSA
•  A combination of solutions works best
–  Exploit similarities between dialects and MSA
–  Address differences through resource building
•  Our goal is to make basic support for MSA and Dialects
at the level of English
•  Related new effort: MADAR
–  Multi-Arabic Dialect Applications and Resources
–  Funded by the Qatar National Research Fund
–  Collaboration among CMUQ, NYUAD and Columbia
Collaborations
•  CADIM Consortium
Computational Approaches to
Arabic & Arabic Dialect Modeling
Owen Rambow & Ramy Eskander
CAMeL Lab
Mona Diab & her team
Nizar Habash & his team
Thank You!
•  Questions?
http://nyuad.nyu.edu/en/
56
Download