Introduktion Marco Kuhlmann Institutionen för datavetenskap TDDD02 Språkteknologi för informationssökning / 2015

advertisement
TDDD02 Språkteknologi för informationssökning / 2015
Introduktion
Marco Kuhlmann
Institutionen för datavetenskap
Vad är språkteknologi?
Vad är språkteknologi?
• Språkteknologi är all teknologi som skapas för att förstå eller
generera naturligt språk.
• Språkteknologi är ett tvärvetenskapligt forskningsområde med
inslag av datalogi, lingvistik och kognitionsvetenskap.
annat namn: datorlingvistik
‘We are drowning in information but starved for knowledge.’
John Naisbitt (1982)
Biljontals sidor på nätet
35
30
25
20
15
10
5
0
2008
2009
2010
2011
2012
Källa: statisticbrain.com
2013
2014
Kunskapsglappet
ostrukterade data (text)
😢
analytiker
språkteknologi (textanalys)
strukturerade data (kunskapsdatabas)
😊
analytiker
Informationsutvinning
Three bombs have exploded
in north-eastern Nigeria,
killing 25 people and
wounding 12 in an attack
carried out by an Islamic
sect. Authorities said the
bombs exploded on Sunday
afternoon in the city of
Maiduguri.
Attribut
Värde
Type
Crisis
Subtype
Bombing
Location
Maiduguri
Dead-Count
25
Injured-Count
12
Perpetrator
Islamic sect
Time
2011-06-26
Kommersiellt intresse
Källa: ACL 2015
Flertydighet och kontextualitet
• Språkliga yttranden är ofta flertydiga.
Time flies like an arrow. Fruit flies like a banana.
Hur kan jag boka en tågresa med rullstol?
• Tolkningen av ett språkligt yttrande går utöver orden.
A: Kommer du ikväll? B: Jag har träning.
Kombinatorisk explosion
jag
bad
om
en
kort
bit
PN
VB
PP
DT
JJ
NN
NN
NN
SN
PN
AB
VB
PL
RG
NN
AB
NN
Många olika språk
Källa: Har jag glömt bort
Språkteknologi på IT-programmet
• TDDD02 Språkteknologi för informationssökning
termin 3; grundkurs
• TDDD01 Språkteknologi
termin 8; avancerad kurs
• Examensarbete med språkteknologisk inriktning
Kontakta mig!
Vad jag forskar på
• Teoretisk datalogi
Hur kan vi utveckla effektiva algoritmer för att tolka text?
• Maskininlärning
Hur kan våra algoritmer lära sig från stora datamängder?
• Kunskapsingenjörskonst
Hur kan vi relatera våra tolkningar till existerande ontologier?
Kursens innehåll och uppläggning
Hur kan man hitta information i text?
Lärandemål
Efter avslutad kurs ska du kunna:
• förklara innebörden av morfologisk, syntaktisk och semantisk
analys av texter och redogöra för de vanligaste analysmetoderna;
examinationsform: tentamen
• tillämpa enkla metoder inkl. reguljära uttryck, n-gram-modeller,
vektorbaserade modeller på problemet att klassificera ord i text;
examinationsform: laborationer
Lärandemål
Efter avslutad kurs ska du kunna:
• redogöra för arkitekturer och problem i tillämpningar som
frågebesvarande system, sammanfattningssystem, flerspråkig
informationssökning;
examinationsform: tentamen
• utvärdera algoritmer och system med avseende på korrekthet,
precision och recall.
examinationsform: laborationer, tentamen
Schemalagd undervisning
• Föreläsningar (14 h)
Marco Kuhlmann
• Laborationer (10 h)
Marco Kuhlmann; Per Fallgren och Marcus Liw
Föreläsning
Tillämpning
Centralt teoretiskt innehåll
1
textklassificering
korrekthet, precision, täckning
2
dokumentsökning
vektorrumsmodell
3
textklassificering (igen)
Naïve Bayes
4
icke-exakt matchning
redigeringsavstånd
5
informationsextraktion
taggning, parsning
6
frågebesvarande system
kombination av allt
7
textsammanfattning
vektorrumsmodell (igen)
Lars Våge, Hercules Dalianis,
Lars Iselid.
Informationssökning på
Internet. 2:a upplagan.
Studentlitteratur, 2008.
Christopher D. Manning,
Prabhakar Raghavan, Hinrich
Schütze. Introduction to
Information Retrieval.
Cambridge University Press,
2008.
Examination
BAS1
1 hp
U, G
Basgruppsarbete
LAB1
1 hp
U, G
Laborationskurs
TEN1
2 hp
U, 3, 4, 5
Skriftlig tentamen (2016-01-13)
Kursbetyget baseras på TEN1.
Textklassificering
Skräppostfiltrering
inget ärende
dolda mottagare
stavfel
misstänkta ord
många frågetecken
obskyra adresser
Författaridentifiering
Alexander Hamilton
James Madison
Attitydpredicering
The gorgeously elaborate
continuation of “The Lord of
the Rings” trilogy is so huge
that a column of words
cannot adequately describe
co-writer/director Peter
Jackson’s expanded vision of
J.R.R. Tolkien’s Middle-earth.
positiv
… is a sour little movie at its
core; an exploration of the
emptiness that underlay the
relentless gaiety of the 1920’s,
as if to stop would hasten the
economic and global political
turmoil that was to come.
negativ
Predicera talarens blocktillhörighet
Herr talman! Bostadsministern är kategorisk. Inget samhällsstöd för byggnation av bostäder.
Bostaden ska vara en handelsvara, ingen social rättighet. Bostadspolitiken avpolitiseras och
rangeras ut från välfärdspolitiken.
Men det är ok med RUT, att någon kommer hem och hjälper till med serveringen. 2 miljarder är
kostnaden. Det är ok med ROT, reparation och ombyggnad i sommarstugan eller bostadsrätten –
13,2 miljarder. Det är ok med sänkt restaurangmoms – 5,4 miljarder. Hamburgare och korv kan
subventioneras, medan bostadsköerna växer. Det är sorgligt, i sanning mycket sorgligt att
bostadsministern har den uppfattningen om vikten av politisk prioritering.
Jag vill upprepa för tredje gången: Kan bostadsministern här i kammaren tala om vad han säger
till det unga par som har flyttat till Stockholm från arbetslösheten på någon annan plats i landet
men inte har någon bostad? Vad säger bostadsministern till det paret?
Handskrivna regler
• Vi kan tilldela ett dokument en klass genom handskrivna regler.
om anonyma mottagare och texten innehåller ”ditt konto kommer att
raderas” då sortera som skräp
• Handskrivna regler kan ha hög precision, men att utveckla och att
underhålla dem är kostsamt.
Maskininlärning
• De flesta systemen för automatisk textklassificering använder idag
någon form av maskininlärning.
• Den vanligaste ansatsen är att träna upp ett system på data
bestående av dokument som är taggade med korrekta klasser.
ett exempel på övervakad maskininlärning
• Att få tag i eller skapa en sådan träningsmängd kan ibland vara
relativt lätt, ibland kosta mycket pengar och tid.
Klassificering som övervakad inlärning
UK
China
Elections
Sports
congestion
London
Olympics
Beijing
recount
votes
diamond
baseball
Parliament
Big Ben
tourism
Great Wall
seat
run-off
forward
soccer
Windsor
The Queen
Mao
Communist
TV-ads
campaign
team
captain
first private
Chinese airline
Oövervakad inlärning: Temamodeller
How many genes does an organism need
to survive? Last week at the genome
meeting here, two genome researchers
with radically different approaches
presented complementary views of the
basic genes needed for life. One research
team, using computer analyses to
compare known genomes, concluded
that today’s organisms can be sustained
with just 250 genes, and that the earliest
life forms required a mere 128 genes.
4
3
2
1
0
Teman
Källa: Blei (2012)
Temamodeller
human
genome
dna
genetic
genes
sequence
gene
molecular
sequencing
map
information
genetics
mapping
project
sequences
evolution
evolutionary
species
organisms
life
origin
biology
groups
phylogenetic
living
diversity
group
new
two
common
computer
models
information
data
computers
system
network
systems
model
parallel
methods
networks
software
new
simulations
Utvärdering av textklassificeringssystem
Utvärdering
• För att utvärdera en klassificerare kan vi jämföra dess prediktioner
med en guldstandard: dokument taggade med korrekt klass.
• En sådan testmängd har samma form som träningsmängden,
men används på ett annat sett.
Klassificeraren ser inte guldstandardklassen.
• En guldstandard kan vara objektivt eller subjektivt korrekt.
riksdagsanföranden vs. spam
Utvärderingsmått: Korrekthet
• Korrekthet (eng. accuracy) mäter andelen av alla dokument i
testmängden för vilka systemet har predicerat rätt klass.
• Korrekthet är ett enkelt och överskådligt mått, men kan ibland
vara missvisande.
detektering av sällsynta sjukdomar
Problem med korrekthetsmåttet
Ditt företag har levererat ett system som utifrån texter skrivna av
patienter på en geriatrimottagning predicerar om patienterna har
eller inte har en ovanlig neurologisk sjukdom. Systemet utvärderas
på en testmängd bestående av 10 000 texter och får 99,9%
korrekthet. Ändå består ert system bara av en enda rad kod:
return ”har inte sjukdomen”
Vad kan vi då säga om hur testmängden ser ut?
Utvärderingsmått: Precision och täckning
• Precision och täckning (eng. recall) är utvärderingsmått som
zoomar in på hur bra systemet är att identifiera specifika klasser.
”Hur bra är systemet på att detektera sjukdomen?”
• Ett bra system bör balansera precision och täckning. Dessa mått
slås därför ofta ihop till ett enda mått som heter F1:
F1 =
2 · precision · täckning
precision + täckning
Korstabell
guldstandard ”ja”
guldstandard ”nej”
klassificerare ”ja”
sanna positiva
falska positiva
klassificerare ”nej”
falska negativa
sanna negativa
Precision
guldstandard ”ja”
guldstandard ”nej”
klassificerare ”ja”
sanna positiva
falska positiva
klassificerare ”nej”
falska negativa
sanna negativa
Täckning (recall)
guldstandard ”ja”
guldstandard ”nej”
klassificerare ”ja”
sanna positiva
falska positiva
klassificerare ”nej”
falska negativa
sanna negativa
Precision och täckning
guldstandard
precision
𝐺
=
klassificerare
𝐾
|𝐺 ∩ 𝐾|
|𝐾|
täckning
=
|𝐺 ∩ 𝐾|
|𝐺|
Precision och täckning
fn
guldstandard
precision
𝐺
=
fp
sp
|𝐺 ∩ 𝐾|
|𝐾|
klassificerare
𝐾
täckning
=
|𝐺 ∩ 𝐾|
|𝐺|
Precision och täckning för diagnosexemplet
10
guldstandard
precision
𝐺
=
0
0
0
0+0
klassificerare
𝐾
täckning
=
0
10 + 0
Baseline
En bra baseline för klassificering är Most Frequent Class: predicera
alltid den mest frekventa klassen.
som den observerats i träningsmängden
Download