Extracting Schedule Information from Korean Email Kyoungryol Kim Table of Contents Purpose of Utilization Annotated Data Analysis Reference for NER Tagging Baseline System 2 1. Purpose of Utilization 3 Purpose of Utilization 1. To extract accurate schedule information, including "Speaker", "Meeting Location" from Korean Email and register them to online calendar. Meeting Location 대전 유성구 한국과학기술원 전산학과 1층 세미나실 Speaker 김 아나톨리, 박광희 2. Finding semantics from extracted information. Meeting Location : Geographical location recognition Speaker : Person recognition (contacts of the email) 4 안녕하세요, 금주 수요일 오후 2시~4 시에, 카이스트 전산동 1 층 세미나실에서 세미나 를 진행합니다. CI LAB과 TC LAB 이 공동으로 주관 하는 세미나이며, 지도교 수님께서 참석하실 예정 입니다. 석사과정학생들은 꼭 참석바랍니다. 발표자 는 김 아나톨리, 박광희 학 생이니 준비해주십시오. 문의사항은 박상원 학생 에게 문의바랍니다. 감사 합니다. INPUT TEXT ... 4 시 에 , 카이스트 전산동 1층 세미나실 에서 세미나 를 진행 합니다 ... 발표자 는 김 아나톨리 , 박광희 학생 Tokenization ... 4 시 에 , 카이스트 전산동 1층 세미나실 에서 세미나 를 진행 합니다 ... 발표자 는 김 아나톨리 , 박광희 학생 O O O O B-Location I-Location I-Location I-Location O O O O O O O B-Person I-Person O B-Person O Named Entity Recognition ... 4 O 시 O Geographical 에 O coordiates isHeldAt , O 카이스트 B-Location 전산동 I-Location 35.1958694, 1층 I-Location 129.294384959595 세미나실 I-Location 에서 O 세미나 O 를 O 진행 O 합니다 O ... 발표자 hasReference O 는 O 김 B-Person 아나톨리 I-Person hasReference , O 박광희 B-Person 김아나톨리 박광희 학생 O Information Type Classification Semantics Recognition Meeting Location 카이스트 전산동 1층 세미나실 Speaker 김 아나톨리, 박광희 Template Generation OUTPUT 5 2. Annotated Data Analysis 6 Annotated Data Contents included in Word file. 7 3. Reference for NER Tagging 8 Reference for NER tagging [Lee et al. 2010] Named Entity Recognition with Structural SVMs and Pegasos algorithm state-of-the-art Korean NER Performance (F-measure): CRFs (84.99%), structural SVMs (85.14%), modified Pegasos (85.43%) Boundary tags : IBO2 model (B-I-O) Domain of Corpus: TV(2900:100 docs), Sports (3500: 100 docs) Features : Morpheme -2,-1,0,1,2 Suffix -2,-1,0,1,2 POStag -2,-1,0,1,2 POStag + length Position of Morpheme in Eojeol (Start /Center /End) NE dictionary (true or false) + length NE dictionary feature (index) + length 15 regular expressions : [A-Z]*, [0-9]*, [0-9][0-9], [0-9][0-9][0-9][0-9], [A-Za-z0-0]*, ---. 9 Reference for NER tagging [Kim et al. 2008] Korean Named Entity Recognition Using Twolevel Maximum Entropy Model 1. 2. 3. 4. POS tagging Noun-sequences extraction NE boundary recognition NE candidate selection (recognition) Boundary Tags : S : Start M : Middle E : End U : Uniterm NONE 10 Reference for NER tagging [Seon et al. 2001] Korean Named Entity Recognition Using Machine Learning Methods and Pattern-Selection Rules 1. Select target words using POS-tag and clue word dictionary 2. Searches for target words in the NE dictionary 3. Handles unknown words using MEM method with lexical sub-pattern information and a clue word dictionary 4. Solves the ambiguity problem using NN. 5. Convert adjacent words into NE tag using pattern selection rules 11 4. Baseline System 12 Baseline system [Min et al 2005] Information Extraction Using Context and Position Corpus : 245 meeting announcement email Target : Attendee, Meeting Location, Time, Date Performance (F-measure) : Attendee : 36%, Meeting Location : 57%, Time : 92.5%, Date : 91% Method Sentence to LSP NE Recognition ME, NN, Pattern-selection Instance Disambiguation ML : Naive Bayes Score calculation 13