斑鳐吻中长

advertisement
Yuru Jiang , Rou Song
Beijing University of Technology
Example:斑鳐
斑鳐 是 鳐形目 鳐科 鳐属 的 1 种 。吻 中
长 ,尖 突 。尾 细长 ,
c1: 斑鳐 是 鳐形目 鳐科 鳐属 的 1 种 。
c2: 吻 中长 ,
c3: 尖 突 。
c4: 尾 细长 ,
PClause
Sequence
c1: 斑鳐 是 鳐形目 鳐科 鳐属 的 1 种 。
c2: 吻 中长 ,
c3 : 尖 突 。
c4: 尾 细长 ,
What
we
t1:斑鳐 是 鳐形目 鳐科 鳐属 的 1 种 。 have
done
t2:斑鳐 吻 中长 ,
t3:斑鳐 吻 尖 突 。
t4:斑鳐 尾 细长 ,



Identification Process
Identification Algorithm
CTCs Scoring Function
Example2:斑鳐(选自《中国大百科全书》)
c1: 斑鳐 是 鳐形目 鳐科 鳐属 的 1 种 。
c2: 吻 中长 ,
c3: 尖 突 。
c4: 尾 细长 ,
t1= c1
t2=?
if:
t1: 斑鳐 是 鳐形目 鳐科 鳐属 的 1 种 。
c2: 吻 中长 ,
then:
t2=?
1.
2.
3.
4.
5.
6.
7.
8.
9.
吻 中长
斑鳐 吻
斑鳐 是
斑鳐 是
斑鳐 是
斑鳐 是
斑鳐 是
斑鳐 是
斑鳐 是
,
c2的CTCs
中长 ,
吻 中长 ,
鳐形目 吻 中长 ,
鳐形目 鳐科 的 吻 中长 ,
鳐形目 鳐科 鳐属 吻 中长 ,
鳐形目 鳐科 鳐属 的 吻 中长 ,
鳐形目 鳐科 鳐属 的 1 吻 中长 ,
鳐形目 鳐科 鳐属 的 1 种 吻 中长 ,
t1
CTCs of c2
C3
Topic Clause of C3
if:
CTCs of c2:
c3: 尖 突 ,
then:
t3=?
1.
2.
3.
4.
5.
6.
7.
8.
9.
吻 中长
斑鳐 吻
斑鳐 是
斑鳐 是
斑鳐 是
斑鳐 是
斑鳐 是
斑鳐 是
斑鳐 是
,
CTCs of c2
中长 ,
吻 中长 ,
鳐形目 吻 中长 ,
鳐形目 鳐科 的 吻 中长 ,
鳐形目 鳐科 鳐属 吻 中长 ,
鳐形目 鳐科 鳐属 的 吻 中长 ,
鳐形目 鳐科 鳐属 的 1 吻 中长 ,
鳐形目 鳐科 鳐属 的 1 种 吻 中长 ,
if:
one CTC of c2:斑鳐 是 鳐形目 吻 中长 ,
c3: 尖 突 ,
then:
one group CTCs of c3 is:
1.
2.
3.
4.
5.
6.
尖突,
斑鳐 尖 突 ,
斑鳐 是 尖 突 ,
斑鳐 是 鳐形目 尖 突 ,
斑鳐 是 鳐形目 吻 尖 突 ,
斑鳐 是 鳐形目 吻 中长 尖 突 ,
t1
c2的CTCs
c3的CTCs
How to
choose
the best
path?

Question1:How to calculate the value of
each node in the CTC tree?
◦ CTCs Scoring Function

Question2: How to calculate the path value
of each leaf node to the root node?
◦ Sum of the node value

Given a CTC d of PClause c, a topic clause
most similar to d is found from the corpus,
whose similarity is marked as sim_CT(d).
For any two strings x and y, given that their
similarity is sim(x,y). sim_CT(d) is defined
as
sim_CT(d)  max sim( d ,t )
tTcorpus
Topic Clause
Corpus

CTset(c) is the CTCs set of c, then the topic
clause of c is:
arg m ax( sim _CT(d))
dCTset ( c )


Accuracy rate is 0.6499
Reference:Yuru Jiang, Rou Song: Topic Clause Identification Based On
Generalized Topic Theory. Journal of Chinese Information Processing. 26(5),
(2012)
ctxSim _ CT ( d )  m ax ( 1 sim( d ,t )
tTcorpus
 2 sim( d _ c ,t _ c )
 3 sim( d _ tc pre ,t _ tc pre ))


Accuracy rate is 0.7625
>0.6499>baseline
Example3:
d_tcpre: A 一般 均 具 H 或 H C ,
d_c:
用以 引诱 食饵 。
t1:
A 一般 均 具 H 用以 引诱 食饵 。
st1:
A C 一般 具 H ,
t2:
A 一般 均 具 H 或 H C 用以 引诱 食饵 。
t_tcpre: A 有些 B C 具 C ,
t_c:
以 引诱 食饵 ,
t:
A 有些 B C 具 C 以 引诱 食饵 ,




Corpus
Evaluation Criteria
Experiment Result
Analysis

202 texts about fish in the Biology volume of
China Encyclopedia

15 texts are used for test in the experiment

K-1 test are used

For N PClauses, if the number of PClauses
whose topic clauses are correctly identified is
hitN, then the identification accuracy rate is
hitN/N.

Fig. 2. PClause Count and Accuracy Rate for Topic Clause
Identification about 15 texts

CTCs Scoring Function

CTC Tree

Extend to other text
Download