Yuru Jiang , Rou Song Beijing University of Technology Example:斑鳐 斑鳐 是 鳐形目 鳐科 鳐属 的 1 种 。吻 中 长 ,尖 突 。尾 细长 , c1: 斑鳐 是 鳐形目 鳐科 鳐属 的 1 种 。 c2: 吻 中长 , c3: 尖 突 。 c4: 尾 细长 , PClause Sequence c1: 斑鳐 是 鳐形目 鳐科 鳐属 的 1 种 。 c2: 吻 中长 , c3 : 尖 突 。 c4: 尾 细长 , What we t1:斑鳐 是 鳐形目 鳐科 鳐属 的 1 种 。 have done t2:斑鳐 吻 中长 , t3:斑鳐 吻 尖 突 。 t4:斑鳐 尾 细长 , Identification Process Identification Algorithm CTCs Scoring Function Example2:斑鳐(选自《中国大百科全书》) c1: 斑鳐 是 鳐形目 鳐科 鳐属 的 1 种 。 c2: 吻 中长 , c3: 尖 突 。 c4: 尾 细长 , t1= c1 t2=? if: t1: 斑鳐 是 鳐形目 鳐科 鳐属 的 1 种 。 c2: 吻 中长 , then: t2=? 1. 2. 3. 4. 5. 6. 7. 8. 9. 吻 中长 斑鳐 吻 斑鳐 是 斑鳐 是 斑鳐 是 斑鳐 是 斑鳐 是 斑鳐 是 斑鳐 是 , c2的CTCs 中长 , 吻 中长 , 鳐形目 吻 中长 , 鳐形目 鳐科 的 吻 中长 , 鳐形目 鳐科 鳐属 吻 中长 , 鳐形目 鳐科 鳐属 的 吻 中长 , 鳐形目 鳐科 鳐属 的 1 吻 中长 , 鳐形目 鳐科 鳐属 的 1 种 吻 中长 , t1 CTCs of c2 C3 Topic Clause of C3 if: CTCs of c2: c3: 尖 突 , then: t3=? 1. 2. 3. 4. 5. 6. 7. 8. 9. 吻 中长 斑鳐 吻 斑鳐 是 斑鳐 是 斑鳐 是 斑鳐 是 斑鳐 是 斑鳐 是 斑鳐 是 , CTCs of c2 中长 , 吻 中长 , 鳐形目 吻 中长 , 鳐形目 鳐科 的 吻 中长 , 鳐形目 鳐科 鳐属 吻 中长 , 鳐形目 鳐科 鳐属 的 吻 中长 , 鳐形目 鳐科 鳐属 的 1 吻 中长 , 鳐形目 鳐科 鳐属 的 1 种 吻 中长 , if: one CTC of c2:斑鳐 是 鳐形目 吻 中长 , c3: 尖 突 , then: one group CTCs of c3 is: 1. 2. 3. 4. 5. 6. 尖突, 斑鳐 尖 突 , 斑鳐 是 尖 突 , 斑鳐 是 鳐形目 尖 突 , 斑鳐 是 鳐形目 吻 尖 突 , 斑鳐 是 鳐形目 吻 中长 尖 突 , t1 c2的CTCs c3的CTCs How to choose the best path? Question1:How to calculate the value of each node in the CTC tree? ◦ CTCs Scoring Function Question2: How to calculate the path value of each leaf node to the root node? ◦ Sum of the node value Given a CTC d of PClause c, a topic clause most similar to d is found from the corpus, whose similarity is marked as sim_CT(d). For any two strings x and y, given that their similarity is sim(x,y). sim_CT(d) is defined as sim_CT(d) max sim( d ,t ) tTcorpus Topic Clause Corpus CTset(c) is the CTCs set of c, then the topic clause of c is: arg m ax( sim _CT(d)) dCTset ( c ) Accuracy rate is 0.6499 Reference:Yuru Jiang, Rou Song: Topic Clause Identification Based On Generalized Topic Theory. Journal of Chinese Information Processing. 26(5), (2012) ctxSim _ CT ( d ) m ax ( 1 sim( d ,t ) tTcorpus 2 sim( d _ c ,t _ c ) 3 sim( d _ tc pre ,t _ tc pre )) Accuracy rate is 0.7625 >0.6499>baseline Example3: d_tcpre: A 一般 均 具 H 或 H C , d_c: 用以 引诱 食饵 。 t1: A 一般 均 具 H 用以 引诱 食饵 。 st1: A C 一般 具 H , t2: A 一般 均 具 H 或 H C 用以 引诱 食饵 。 t_tcpre: A 有些 B C 具 C , t_c: 以 引诱 食饵 , t: A 有些 B C 具 C 以 引诱 食饵 , Corpus Evaluation Criteria Experiment Result Analysis 202 texts about fish in the Biology volume of China Encyclopedia 15 texts are used for test in the experiment K-1 test are used For N PClauses, if the number of PClauses whose topic clauses are correctly identified is hitN, then the identification accuracy rate is hitN/N. Fig. 2. PClause Count and Accuracy Rate for Topic Clause Identification about 15 texts CTCs Scoring Function CTC Tree Extend to other text