Document

advertisement
Extracting Schedule Information
from Korean Email
Kyoungryol Kim
Table of Contents
Purpose of Utilization
Annotated Data Analysis
Reference for NER Tagging
Baseline System
2
1. Purpose of Utilization
3
Purpose of Utilization
1. To extract accurate schedule information, including
"Speaker", "Meeting Location" from Korean Email
and register them to online calendar.
Meeting
Location
대전 유성구 한국과학기술원 전산학과 1층 세미나실
Speaker
김 아나톨리, 박광희
2. Finding semantics from extracted information.


Meeting Location : Geographical location recognition
Speaker : Person recognition (contacts of the email)
4
안녕하세요,
금주 수요일 오후 2시~4
시에, 카이스트 전산동 1
층 세미나실에서 세미나
를 진행합니다. CI LAB과
TC LAB 이 공동으로 주관
하는 세미나이며, 지도교
수님께서 참석하실 예정
입니다. 석사과정학생들은
꼭 참석바랍니다. 발표자
는 김 아나톨리, 박광희 학
생이니 준비해주십시오.
문의사항은 박상원 학생
에게 문의바랍니다. 감사
합니다.
INPUT
TEXT
...
4
시
에
,
카이스트
전산동
1층
세미나실
에서
세미나
를
진행
합니다
...
발표자
는
김
아나톨리
,
박광희
학생
Tokenization
...
4
시
에
,
카이스트
전산동
1층
세미나실
에서
세미나
를
진행
합니다
...
발표자
는
김
아나톨리
,
박광희
학생
O
O
O
O
B-Location
I-Location
I-Location
I-Location
O
O
O
O
O
O
O
B-Person
I-Person
O
B-Person
O
Named
Entity
Recognition
...
4
O
시
O
Geographical
에
O
coordiates
isHeldAt
,
O
카이스트 B-Location
전산동
I-Location
35.1958694,
1층
I-Location
129.294384959595
세미나실 I-Location
에서
O
세미나
O
를
O
진행
O
합니다 O
...
발표자 hasReference
O
는
O
김
B-Person
아나톨리 I-Person
hasReference
,
O
박광희 B-Person
김아나톨리 박광희
학생
O
Information
Type
Classification
Semantics
Recognition
Meeting
Location
카이스트 전산동
1층 세미나실
Speaker
김 아나톨리, 박광희
Template
Generation
OUTPUT
5
2. Annotated Data Analysis
6
Annotated Data
Contents included in Word file.
7
3. Reference for NER Tagging
8
Reference for NER tagging
 [Lee et al. 2010] Named Entity Recognition with Structural SVMs
and Pegasos algorithm
 state-of-the-art Korean NER
 Performance (F-measure):
 CRFs (84.99%), structural SVMs (85.14%), modified Pegasos (85.43%)
 Boundary tags : IBO2 model (B-I-O)
 Domain of Corpus:
 TV(2900:100 docs), Sports (3500: 100 docs)
 Features :








Morpheme -2,-1,0,1,2
Suffix -2,-1,0,1,2
POStag -2,-1,0,1,2
POStag + length
Position of Morpheme in Eojeol (Start /Center /End)
NE dictionary (true or false) + length
NE dictionary feature (index) + length
15 regular expressions : [A-Z]*, [0-9]*, [0-9][0-9], [0-9][0-9][0-9][0-9], [A-Za-z0-0]*, ---.
9
Reference for NER tagging
 [Kim et al. 2008] Korean Named Entity Recognition Using Twolevel Maximum Entropy Model
1.
2.
3.
4.
POS tagging
Noun-sequences extraction
NE boundary recognition
NE candidate selection (recognition)
Boundary Tags :
S : Start
M : Middle
E : End
U : Uniterm
NONE
10
Reference for NER tagging
 [Seon et al. 2001] Korean Named Entity Recognition Using
Machine Learning Methods and Pattern-Selection Rules
1. Select target words using POS-tag and clue word dictionary
2. Searches for target words in the NE dictionary
3. Handles unknown words using MEM method
with lexical sub-pattern information and
a clue word dictionary
4. Solves the ambiguity problem using NN.
5. Convert adjacent words into NE tag using
pattern selection rules
11
4. Baseline System
12
Baseline system
 [Min et al 2005] Information Extraction Using Context and
Position
 Corpus : 245 meeting announcement email
 Target : Attendee, Meeting Location, Time, Date
 Performance (F-measure) :
 Attendee : 36%, Meeting Location : 57%, Time : 92.5%, Date : 91%
 Method
 Sentence to LSP
 NE Recognition
 ME, NN, Pattern-selection
 Instance Disambiguation
 ML : Naive Bayes
 Score calculation
13
Download