TDDD02 Språkteknologi för informationssökning / 2015 Introduktion Marco Kuhlmann Institutionen för datavetenskap Vad är språkteknologi? Vad är språkteknologi? • Språkteknologi är all teknologi som skapas för att förstå eller generera naturligt språk. • Språkteknologi är ett tvärvetenskapligt forskningsområde med inslag av datalogi, lingvistik och kognitionsvetenskap. annat namn: datorlingvistik ‘We are drowning in information but starved for knowledge.’ John Naisbitt (1982) Biljontals sidor på nätet 35 30 25 20 15 10 5 0 2008 2009 2010 2011 2012 Källa: statisticbrain.com 2013 2014 Kunskapsglappet ostrukterade data (text) 😢 analytiker språkteknologi (textanalys) strukturerade data (kunskapsdatabas) 😊 analytiker Informationsutvinning Three bombs have exploded in north-eastern Nigeria, killing 25 people and wounding 12 in an attack carried out by an Islamic sect. Authorities said the bombs exploded on Sunday afternoon in the city of Maiduguri. Attribut Värde Type Crisis Subtype Bombing Location Maiduguri Dead-Count 25 Injured-Count 12 Perpetrator Islamic sect Time 2011-06-26 Kommersiellt intresse Källa: ACL 2015 Flertydighet och kontextualitet • Språkliga yttranden är ofta flertydiga. Time flies like an arrow. Fruit flies like a banana. Hur kan jag boka en tågresa med rullstol? • Tolkningen av ett språkligt yttrande går utöver orden. A: Kommer du ikväll? B: Jag har träning. Kombinatorisk explosion jag bad om en kort bit PN VB PP DT JJ NN NN NN SN PN AB VB PL RG NN AB NN Många olika språk Källa: Har jag glömt bort Språkteknologi på IT-programmet • TDDD02 Språkteknologi för informationssökning termin 3; grundkurs • TDDD01 Språkteknologi termin 8; avancerad kurs • Examensarbete med språkteknologisk inriktning Kontakta mig! Vad jag forskar på • Teoretisk datalogi Hur kan vi utveckla effektiva algoritmer för att tolka text? • Maskininlärning Hur kan våra algoritmer lära sig från stora datamängder? • Kunskapsingenjörskonst Hur kan vi relatera våra tolkningar till existerande ontologier? Kursens innehåll och uppläggning Hur kan man hitta information i text? Lärandemål Efter avslutad kurs ska du kunna: • förklara innebörden av morfologisk, syntaktisk och semantisk analys av texter och redogöra för de vanligaste analysmetoderna; examinationsform: tentamen • tillämpa enkla metoder inkl. reguljära uttryck, n-gram-modeller, vektorbaserade modeller på problemet att klassificera ord i text; examinationsform: laborationer Lärandemål Efter avslutad kurs ska du kunna: • redogöra för arkitekturer och problem i tillämpningar som frågebesvarande system, sammanfattningssystem, flerspråkig informationssökning; examinationsform: tentamen • utvärdera algoritmer och system med avseende på korrekthet, precision och recall. examinationsform: laborationer, tentamen Schemalagd undervisning • Föreläsningar (14 h) Marco Kuhlmann • Laborationer (10 h) Marco Kuhlmann; Per Fallgren och Marcus Liw Föreläsning Tillämpning Centralt teoretiskt innehåll 1 textklassificering korrekthet, precision, täckning 2 dokumentsökning vektorrumsmodell 3 textklassificering (igen) Naïve Bayes 4 icke-exakt matchning redigeringsavstånd 5 informationsextraktion taggning, parsning 6 frågebesvarande system kombination av allt 7 textsammanfattning vektorrumsmodell (igen) Lars Våge, Hercules Dalianis, Lars Iselid. Informationssökning på Internet. 2:a upplagan. Studentlitteratur, 2008. Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze. Introduction to Information Retrieval. Cambridge University Press, 2008. Examination BAS1 1 hp U, G Basgruppsarbete LAB1 1 hp U, G Laborationskurs TEN1 2 hp U, 3, 4, 5 Skriftlig tentamen (2016-01-13) Kursbetyget baseras på TEN1. Textklassificering Skräppostfiltrering inget ärende dolda mottagare stavfel misstänkta ord många frågetecken obskyra adresser Författaridentifiering Alexander Hamilton James Madison Attitydpredicering The gorgeously elaborate continuation of “The Lord of the Rings” trilogy is so huge that a column of words cannot adequately describe co-writer/director Peter Jackson’s expanded vision of J.R.R. Tolkien’s Middle-earth. positiv … is a sour little movie at its core; an exploration of the emptiness that underlay the relentless gaiety of the 1920’s, as if to stop would hasten the economic and global political turmoil that was to come. negativ Predicera talarens blocktillhörighet Herr talman! Bostadsministern är kategorisk. Inget samhällsstöd för byggnation av bostäder. Bostaden ska vara en handelsvara, ingen social rättighet. Bostadspolitiken avpolitiseras och rangeras ut från välfärdspolitiken. Men det är ok med RUT, att någon kommer hem och hjälper till med serveringen. 2 miljarder är kostnaden. Det är ok med ROT, reparation och ombyggnad i sommarstugan eller bostadsrätten – 13,2 miljarder. Det är ok med sänkt restaurangmoms – 5,4 miljarder. Hamburgare och korv kan subventioneras, medan bostadsköerna växer. Det är sorgligt, i sanning mycket sorgligt att bostadsministern har den uppfattningen om vikten av politisk prioritering. Jag vill upprepa för tredje gången: Kan bostadsministern här i kammaren tala om vad han säger till det unga par som har flyttat till Stockholm från arbetslösheten på någon annan plats i landet men inte har någon bostad? Vad säger bostadsministern till det paret? Handskrivna regler • Vi kan tilldela ett dokument en klass genom handskrivna regler. om anonyma mottagare och texten innehåller ”ditt konto kommer att raderas” då sortera som skräp • Handskrivna regler kan ha hög precision, men att utveckla och att underhålla dem är kostsamt. Maskininlärning • De flesta systemen för automatisk textklassificering använder idag någon form av maskininlärning. • Den vanligaste ansatsen är att träna upp ett system på data bestående av dokument som är taggade med korrekta klasser. ett exempel på övervakad maskininlärning • Att få tag i eller skapa en sådan träningsmängd kan ibland vara relativt lätt, ibland kosta mycket pengar och tid. Klassificering som övervakad inlärning UK China Elections Sports congestion London Olympics Beijing recount votes diamond baseball Parliament Big Ben tourism Great Wall seat run-off forward soccer Windsor The Queen Mao Communist TV-ads campaign team captain first private Chinese airline Oövervakad inlärning: Temamodeller How many genes does an organism need to survive? Last week at the genome meeting here, two genome researchers with radically different approaches presented complementary views of the basic genes needed for life. One research team, using computer analyses to compare known genomes, concluded that today’s organisms can be sustained with just 250 genes, and that the earliest life forms required a mere 128 genes. 4 3 2 1 0 Teman Källa: Blei (2012) Temamodeller human genome dna genetic genes sequence gene molecular sequencing map information genetics mapping project sequences evolution evolutionary species organisms life origin biology groups phylogenetic living diversity group new two common computer models information data computers system network systems model parallel methods networks software new simulations Utvärdering av textklassificeringssystem Utvärdering • För att utvärdera en klassificerare kan vi jämföra dess prediktioner med en guldstandard: dokument taggade med korrekt klass. • En sådan testmängd har samma form som träningsmängden, men används på ett annat sett. Klassificeraren ser inte guldstandardklassen. • En guldstandard kan vara objektivt eller subjektivt korrekt. riksdagsanföranden vs. spam Utvärderingsmått: Korrekthet • Korrekthet (eng. accuracy) mäter andelen av alla dokument i testmängden för vilka systemet har predicerat rätt klass. • Korrekthet är ett enkelt och överskådligt mått, men kan ibland vara missvisande. detektering av sällsynta sjukdomar Problem med korrekthetsmåttet Ditt företag har levererat ett system som utifrån texter skrivna av patienter på en geriatrimottagning predicerar om patienterna har eller inte har en ovanlig neurologisk sjukdom. Systemet utvärderas på en testmängd bestående av 10 000 texter och får 99,9% korrekthet. Ändå består ert system bara av en enda rad kod: return ”har inte sjukdomen” Vad kan vi då säga om hur testmängden ser ut? Utvärderingsmått: Precision och täckning • Precision och täckning (eng. recall) är utvärderingsmått som zoomar in på hur bra systemet är att identifiera specifika klasser. ”Hur bra är systemet på att detektera sjukdomen?” • Ett bra system bör balansera precision och täckning. Dessa mått slås därför ofta ihop till ett enda mått som heter F1: F1 = 2 · precision · täckning precision + täckning Korstabell guldstandard ”ja” guldstandard ”nej” klassificerare ”ja” sanna positiva falska positiva klassificerare ”nej” falska negativa sanna negativa Precision guldstandard ”ja” guldstandard ”nej” klassificerare ”ja” sanna positiva falska positiva klassificerare ”nej” falska negativa sanna negativa Täckning (recall) guldstandard ”ja” guldstandard ”nej” klassificerare ”ja” sanna positiva falska positiva klassificerare ”nej” falska negativa sanna negativa Precision och täckning guldstandard precision 𝐺 = klassificerare 𝐾 |𝐺 ∩ 𝐾| |𝐾| täckning = |𝐺 ∩ 𝐾| |𝐺| Precision och täckning fn guldstandard precision 𝐺 = fp sp |𝐺 ∩ 𝐾| |𝐾| klassificerare 𝐾 täckning = |𝐺 ∩ 𝐾| |𝐺| Precision och täckning för diagnosexemplet 10 guldstandard precision 𝐺 = 0 0 0 0+0 klassificerare 𝐾 täckning = 0 10 + 0 Baseline En bra baseline för klassificering är Most Frequent Class: predicera alltid den mest frekventa klassen. som den observerats i träningsmängden