ชื่อคลังข้อมูล: ขนาดของคลังข้อมูล: จุดประสงค์:

advertisement
ชื่ อคลังข้ อมูล:
คลังข้อมูลภาษาอังกฤษข่าวกีฬา
ขนาดของคลังข้ อมูล:
Total No. of Word Tokens 100,515 คา
Total No. of Word Types 10,049 คา
จุดประสงค์ : เพื่อจัดทาคลังข้อมูลภาษาอังกฤษที่ใช้ในการรายงานข่าวกีฬา
ประเภทของคลังข้ อมูล:
เป็ นคลังข้อมูลที่เก็บตัวบทภาษาอังกฤษโดยเก็บทั้งภาษาเขียน (written)
จากเนื้อหาข่าวและภาษาพูด (spoken) จากบทสัมภาษณ์ที่ปรากฏในข่าว
เนื่องจากเห็นว่าบทสัมภาษณ์ก็เป็ นส่ วนสาคัญส่ วนหนึ่งของข่าวกีฬาเช่นกัน
เก็บข้อมูลเกี่ยวกับข่าวกีฬาแบบไม่จากัดประเภท
โดยเลือกเก็บจากแหล่งข่าวต่างประเทศที่เขียนโดยเจ้าของภาษา
ลักษณะการเก็บข้อมูลเป็ นแบบเก็บเฉพาะข้อความล้วน (plain text)
ประเภทข้ อมูลทีจ่ ัดเก็บและแหล่ งทีม่ า:
ตัวบทที่จดั เก็บเป็ นข่าวกีฬา โดยจัดเก็บทั้งหัวข้อข่าวและเนื้อข่าว
การจัดเก็บเป็ นแบบสุ่ มโดยไม่จากัดประเภทกีฬาเพื่อให้ได้ข่าวกีฬาที่มีความหลากหลายสุ ดมากที่สุด
แหล่งข้อมูลที่ใช้ในการจัดเก็บมี 2 แหล่ง คือ
1. สานักข่าว BBC จากเว็บไซต์ http://news.bbc.co.uk/sport/ จานวน 112 ข่าว
2. สานักข่าว CNN จากเว็บไซต์ http://edition.cnn.com/SPORT/ จานวน 121 ข่าว
รวมทั้งสิ้ น 233 ข่าว จาก 31 ชนิดกีฬา
วิธีการจัดเก็บข้ อมูล
การจัดเก็บข้อมูลที่นามาใช้ท้ งั หมดนั้นใช้วธิ ี การ copy and paste
ข่าวกีฬาแต่ละข่าวลงในโปรแกรม notepad แล้วจึง save เป็ น plain text file จานวนทั้งสิ้ น 233 ไฟล์
โดยแยกเป็ น 2 กลุ่มคือกลุ่มที่ใช้ภาษาอังกฤษแบบอังกฤษจากสานักข่าว BBC จานวน 112
ไฟล์และกลุ่มที่ใช้ภาษาอังกฤษแบบอเมริ กนั จากสานักข่าว CNN จานวน 121 ไฟล์สาเหตุที่ใช้วธิ ี
copy and paste เนื่องจากในเว็บไซต์นอกจากจะมีข่าวแล้วยังมีส่วนที่ไม่เกี่ยวข้องกับข่าว เช่น
โฆษณาต่างๆ
นอกจากนี้บางข่าวยังมีคลิปวิดีโอสัมภาษณ์นกั กีฬาหรื อคลิปการแข่งขันกีฬารวมอยูด่ ว้ ย
ซึ่ งอยูน่ อกเหนือขอบเขตของการจัดเก็บข้อมูล
2
จึงใช้วธิ ี ที่สามารถกรองเฉพาะข้อมูลที่ตอ้ งการจัดเก็บได้
โดยจะคัดลอกเฉพาะส่ วนที่เป็ นหัวข้อข่าวและเนื้ อข่าวมาเท่านั้น
การนาโปรแกรม Antconc มาใช้ กบั ข้ อมูล
 ค้นหาคาศัพท์จากการเก็บข้อมูลทั้งหมด 233 ไฟล์พบว่ามีจานวนคานับรวมทั้งหมด
100,515 คา (Tokens) แบ่งตามชนิดของคาได้ 10,049 คา (Types)
และเมื่อแบ่งตามประเภทของคาโดยใช้เกณฑ์ทางความถี่แล้ว ผลที่ได้ปรากฏดังนี้
Rank
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Word
the
to
a
in
and
of
s
I
for
on
was
with
his
at
he
is
that
The
said
it
F
F%
5434
2634
2363
2356
2120
1727
1340
1004
997
954
888
797
775
735
726
694
651
639
572
530
5.406
2.620
2.350
2.343
2.109
1.718
1.333
0.998
0.991
0.949
0.883
0.792
0.771
0.731
0.722
0.690
0.647
0.635
0.569
0.527
CF
5434
8068
10431
12787
14907
16634
17974
18978
19975
20929
21817
22614
23389
24124
24850
25544
26195
26834
27406
27936
CF%
5.40
8.02
10.37
12.72
14.83
16.54
17.88
18.88
19.87
20.82
21.70
22.49
23.26
24.00
24.72
25.41
26.06
26.69
27.26
27.79
คาที่ปรากฏในอันดับต้นๆแทบทั้งหมดเป็ นคาประเภท function word
ซึ่ งเป็ นคาที่เน้นหน้าที่ทางไวยากรณ์ เช่น คาบุพบท , สรรพนาม ,article เป็ นต้น
ซึ่ งเป็ นลักษณะเฉพาะของคลังข้อมูลภาษาต่างประเทศ คาประเภท content word
คาแรกที่ปรากฏคือคาว่า saidโดยอยูใ่ นลาดับที่ 19 โดยปรากฏ 572 ครั้ง คิดเป็ นร้อยละ 0.57
ของจานวนคาทั้งหมด
แต่ลกั ษณะเช่นนี้ไม่แสดงลักษณะเฉพาะคลังข้อมูลภาษาของข่าวกีฬาและไม่แสดงความแตกต่างระ
หว่างคลังข้อมูลภาษาของข่าวกีฬากับคลังข้อมูลภาษาอังกฤษทัว่ ไป
แต่เมื่อขยายขอบเขตมาถึงคาที่มีอตั ราความถี่สะสมคิดเป็ นครึ่ งหนึ่งของคลังข้อมูลภาษา
ก็ปรากฏคาศัพท์ที่ใช้ในวงการกีฬามากขึ้น เช่นคาศัพท์เกี่ยวกับลาดับที่ คาศัพท์เกี่ยวกับการแข่งขัน
เป็ นต้น
3
Rank
Word
F
F%
CF
CF%
28
31
36
40
41
48
52
56
61
65
68
69
70
71
72
85
90
92
95
96
102
104
113
114
115
116
first
year
team
last
second
time
win
final
against
play
set
game
match
won
players
round
tournament
third
title
season
champion
top
victory
player
best
Olympic
381
363
287
275
275
248
223
203
185
182
179
175
175
169
167
145
134
133
128
127
121
121
113
111
110
110
31523
32632
34240
35353
35628
37446
38363
39209
40174
40904
41442
41617
41792
41961
42128
44127
44825
45091
45482
45609
46350
46592
47632
47743
47853
47963
0.379
0.361
0.285
0.273
0.273
0.246
0.221
0.201
0.184
0.181
0.178
0.174
0.174
0.168
0.166
0.144
0.133
0.132
0.127
0.126
0.120
0.120
0.112
0.110
0.109
0.109
31.36
32.46
34.06
35.17
35.44
37.25
38.16
39.00
39.96
40.69
41.22
41.40
41.57
41.74
41.91
43.90
44.59
44.85
45.24
45.37
46.11
46.35
47.38
47.49
47.60
47.71
120
124
record
beat
103
99
48387
48791
0.102
0.098
48.13
48.54

ดูการปรากฏร่ วมของคา ในที่น้ ีเลือกใช้คาว่า win
เนื่องจากเป็ นคาที่ปรากฏมากเป็ นอันดับต้นๆของคลังข้อมูลภาษาถ้าไม่นบั คาประเภท function
word แสดงว่าเป็ นคาที่เกี่ยวข้องกับข่าวกีฬามาก
โดยกาหนดขอบเขตหน้าหลังของคาหลักเพื่อดูการปรากฏร่ วมไว้ที่ 2L-2R
และตั้งเงื่อนไขว่าจะพิจารณาคาปรากฏร่ วมที่มีความถี่การเกิดอย่างน้อย 5 ครั้ง ผลที่ได้ท้ งั หมด 32
คาโดย 10 อันดับแรกมีดงั นี้
Rank
1
2
3
4
5
6
7
Freq
223
98
54
35
32
19
16
Freq (L)
0
95
15
25
0
3
10
Freq
(R)
0
3
39
10
32
16
6
Collocate
win
to
the
a
over
in
for
4
8
9
10
15
12
11
11
6
4
4
6
7
first
his
I
เนื่องจากคาว่า the, a, his, I ไม่น่าจะมีความสัมพันธ์กบั คาหลัก
เนื่องจากอัตราการปรากฏมีท้ งั อยูด่ า้ นซ้ายและด้านขวาของคา ซึ่ งแตกต่างกับคาว่า to, over
ซึ่ งอัตราการปรากฏจะค่อนไปทางด้านใดด้านหนึ่งของคาหลัก
จึงจัดลาดับการปรากฏร่ วมของคาใหม่โดยใช้วธิ ี ทางสถิติช่วย ผลที่ได้จากการใช้สถิติแบบ MI
มีดงั นี้
Rank
Freq
1
2
3
4
5
6
7
8
9
10
32
6
7
8
5
6
6
6
15
98
Freq (L)
0
2
5
8
0
5
3
6
11
95
Freq
(R)
32
4
2
0
5
1
3
0
4
3
Stat
6.26156
5.35672
4.77802
4.65628
4.50872
4.34583
4.33502
4.2212
4.14939
4.06782
Collocate
over
here
you
can
Wimbledon
third
tournament
round
first
to
ผลจากการหาคาปรากฏร่ วมโดยใช้สถิติพบว่าคาที่ปรากฏร่ วมกับ win
เป็ นอันดับแรกคือคาว่า over โดยปรากฏ 32 ครั้ง และทุกครั้งปรากฏอยูท่ างขวาของคาว่า win
จึงตั้งข้อสันนิษฐานเบื้องต้นว่าน่าจะเป็ นคากริ ยาประเภท phrasal verb คือคาว่า win over
แต่เมื่อตรวจสอบความหมายตามพจนานุกรมแล้วได้ความหมายดังนี้
win over phrasal vb [T] to persuade someone to agree with you or to be friendly to you
ซึ่ งความหมายนี้ไม่น่าจะเกี่ยวข้องกับข่าวกีฬา จึงตรวจสอบการปรากฏร่ วมของ win over
พบว่าในการปรากฏร่ วมทุกครั้งคาว่า win
จะเป็ นคานามซึ่ งตามด้วยบุพบทวลีซ่ ึ งขึ้นต้นด้วยคาว่าover แต่ไม่ใช่ phrasal verb
นอกจากนี้ก็ไม่พบการปรากฏของคาที่ประกอบกับ win แล้วทาให้เป็ น phrasal verb เช่น win back
(to get back something that you have lost), win out หรื อ win through (to succeed after great
difficulty) จึงสรุ ปได้วา่ การใช้คาว่า win
ในข่าวกีฬานั้นใช้ทาหน้าที่เป็ นคานามหรื อคากริ ยาแบบเดี่ยว แต่ไม่ใช้เป็ นคากริ ยาที่มีลกั ษณะเป็ น
phrasal verb
การนาโปรแกรม Collocation Extract มาใช้ กบั ข้ อมูล
5
ใช้เพื่อหาการปรากฏร่ วมของคาในคลังข้อมูลภาษา
โดยใช้วธิ ี การทางสถิติเป็ นเครื่ องช่วยวัด ผลที่ได้จากการใช้คาสั่ง All 2-word collocations
เพื่อหาคาปรากฏร่ วมด้วยวิธีทางสถิติท้ งั 3 วิธี โดยกาหนดระยะห่าง (span) ไว้ที่ 2 คา
หาคาปรากฏร่ วมทั้งข้างหน้าและข้างหลังของคาหลักและเอาทุกปรากฏการ มีดงั นี้
1. การหาคาปรากฏร่ วมโดยใช้สถิติแบบ loglikelihood
Word1
in
year
i
of
has
don
will
new
at
to
it
didn
the
a
i
it
sri
with
going
last
Freq1
2440
366
1004
1734
441
67
448
172
750
2642
789
53
6073
2441
1004
789
39
825
132
286
Word2
the
old
m
the
been
t
be
zealand
the
be
s
t
first
lot
am
was
lanka
a
to
year
Freq2
6073
150
143
6073
278
272
456
56
6073
456
1362
272
387
76
59
888
31
2441
2642
366
Freq12
853
139
133
524
105
66
116
56
282
168
162
53
189
74
58
124
31
177
89
68
ll
2034.313
1564.02
1190.937
1066.653
815.2924
797.2559
790.8562
742.3601
695.7803
671.3225
650.3687
645.5944
580.3503
545.0146
536.1871
532.3564
528.1933
524.8756
499.2758
474.6934
ผลที่ได้ 20 อันดับแรกมีลกั ษณะคล้ายกับผลที่ได้จากการใช้โปรแกรม Antconc
นัน่ คือคาที่ปรากฏส่ วนมากเป็ นคาประเภท function word ในขณะที่คาแบบ content word เช่นคาว่า
year old, last year ก็ไม่ได้แสดงลักษณะเฉพาะของคลังข้อมูลภาษาข่าวกีฬามากนัก
ซึ่ งสาเหตุส่วนหนึ่งอาจเป็ นเพราะในข่าวจานวนมากได้มีบทสัมภาษณ์ของนักกีฬาหรื อผูท้ ี่มีส่วนเกี่ย
วข้องอยูด่ ว้ ย ทาให้มีการปรากฏร่ วมของคาที่ใช้ในภาษาพูด เช่น คาว่า I’m, I am เป็ นต้น
นอกจากนี้ยงั มีชื่อเฉพาะของประเทศรวมอยูด่ ว้ ยคือ New Zealand, Sri Lanka
ซึ่ งอาจเป็ นเพราะช่วงที่ทาการจัดเก็บข้อมูลนั้นเป็ นช่วงเวลาที่ใกล้เคียงกับการแข่งขันกีฬาโอลิมปิ ค
ทาให้มีการกล่าวถึงชื่อประเทศต่างๆบ่อยกว่าปกติก็เป็ นได้
แต่เมื่อขยายขอบเขตของผลที่ปรากฏและตัดคาจาพวก function word
และชื่อเฉพาะของประเทศและนักกีฬาออกไปแล้ว
จะได้ผลการปรากฏร่ วมของคาในข่าวกีฬาที่พบบ่อยดังตัวอย่างข้างล่างนี้
6
Word1
world
grand
premier
bbc
grand
french
formula
ryder
world
the
champions
defending
world
centre
Freq1
343
52
26
64
52
61
25
20
343
6073
54
24
343
19
Word2
cup
slam
league
sport
prix
open
one
cup
record
tournament
league
champion
champion
court
Freq2
112
27
107
107
23
132
326
112
103
135
107
124
124
81
Freq12
51
26
26
32
23
31
24
19
33
74
21
17
29
15
ll
440.8708
404.7213
366.6987
364.8447
363.5842
339.4048
272.065
256.6776
254.2671
248.2357
222.9084
203.7238
201.9324
199.3428
2. การหาคาปรากฏร่ วมโดยใช้สถิติแบบ mutual information
Word1
torrey
benoit
las
pepito
lush
damien
ernst
berrick
abu
francois
trinh
nadia
nicole
rocky
nathan
cameron
roland
svetlana
dimitri
caroline
Freq1
5
5
5
5
6
6
6
6
6
5
6
5
7
5
5
7
8
5
6
7
Word2
pines
lecouls
vegas
elhorga
lashes
traille
happel
barnes
dhabi
trinh
duc
petrova
vaidisova
elsom
sharpe
shepherd
garros
kuznetsova
yachvili
wozniacki
Freq2
Freq12
5
5
5
5
6
6
6
6
6
6
5
6
6
7
7
8
7
8
7
6
5
5
5
5
6
6
6
6
6
5
5
5
6
5
5
7
7
5
5
5
mi
14.40195
14.40195
14.40195
14.40195
14.13891
14.13891
14.13891
14.13891
14.13891
14.13891
14.13891
14.13891
13.91652
13.91652
13.91652
13.72387
13.72387
13.72387
13.65349
13.65349
ผลลัพธ์ที่ได้จากการใช้สถิติแบบ mutual information มีลกั ษณะที่แตกต่างไปกับแบบ loglikelihood นัน่ คือแทนที่จะปรากฏคาจาพวก function word ผลลัพธ์ที่ได้ใน 20
อันดับแรกเกือบทั้งหมดเป็ นชื่อเฉพาะของนักกีฬา
และเมื่อลองขยายขอบเขตของผลดูเช่นเดียวกับตอนที่ใช้พิจารณาผลจากวิธี loglikelihood
ก็ยงั ปรากฏผลเช่นเดิมคือ เป็ นชื่อเฉพาะของนักกีฬาเป็ นส่ วนใหญ่
7
3. การหาคาปรากฏร่ วมโดยใช้สถิติแบบ chi-square
Word1
ernst
abu
lush
berrick
damien
pepito
torrey
benoit
las
roland
cameron
nicole
trinh
nadia
francois
sri
anna
los
nathan
rocky
Freq1
6
6
6
6
6
5
5
5
5
8
7
7
6
5
5
39
9
12
5
5
Word2
happel
dhabi
lashes
barnes
traille
elhorga
pines
lecouls
vegas
garros
shepherd
vaidisova
duc
petrova
trinh
lanka
chakvetadze
angeles
sharpe
elsom
Freq2
Freq12
6
6
6
6
6
5
5
5
5
7
8
6
5
6
6
31
7
9
7
7
6
6
6
6
6
5
5
5
5
7
7
6
5
5
5
31
7
9
5
5
chi2
108240
108240
108240
108240
108240
108240
108240
108240
108240
94709.13
94709.13
92776.29
90199.17
90199.17
90199.17
86030.56
84185.11
81177.75
77312.86
77312.86
ผลลัพธ์ที่ได้เป็ นเช่นเดียวกับวิธี mutual information
นัน่ คือคาที่ปรากฏร่ วมกันส่ วนใหญ่เป็ นชื่อเฉพาะของนักกีฬาและเมื่อลองขยายขอบเขตของผลดู
ผลลัพธ์ที่ได้ส่วนใหญ่แล้วก็ยงั เป็ นชื่อเฉพาะเช่นเดิม
เมื่อพิจารณาผลจากการใช้สถิติท้ งั 3 แบบแล้วพบว่าวิธีที่เหมาะสมที่สุดคือวิธีแบบ loglikelihood เนื่องจากอีก 2 วิธีที่เหลือคือ mutual information และ chi-square
ให้ผลลัพธ์ส่วนใหญ่เป็ นชื่อเฉพาะของนักกีฬาหรื อชื่ อประเทศ ถึงแม้วา่ สถิติแบบ log-likelihood
ในช่วงแรกจะให้ผลลัพธ์เป็ น function word
แต่เมื่อขยายขอบเขตออกไปแล้วก็จะได้ผลลัพธ์ที่เกี่ยวข้องกับข่าวกีฬา
หลังจากที่ได้คน้ หาแบบ All 2-word collocations แล้ว จึงได้เปลี่ยนวิธีคน้ หาเป็ นแบบ
Keyword โดยเลือกใช้คาว่า win เพื่อต้องการยืนยันว่าการใช้คาว่า win
ในข่าวกีฬาไม่ได้มีการใช้ในลักษณะ phrasal verb แต่ใช้ในลักษณะคากริ ยาเดี่ยว
เช่นเดียวกับที่ได้ใช้โปรแกรม Antconc พิสูจน์มาแล้ว โดยกาหนดค่า span ไว้ที่ 3
คาและกาหนดให้หาคาปรากฏร่ วมทั้ง 2 ข้างและกาหนดว่าต้องเกิดอย่างน้อย 5 ครั้ง
ทั้งนี้เพื่อต้องการดูวา่ มีรูปแบบการปรากฏของ to-win-Preposition ที่ทาให้เกิด phrasal verb หรื อไม่
ผลที่ได้จากการค้นหาโดยใช้ Keyword มีดงั นี้
Words
Frequency
ll
8
to- win- the
21
9.8622461
to- win- in
5
9.8381908
ผลลัพธ์ที่ปรากฏมีเพียง 2 คาเท่านั้นคือ to-win-the ปรากฏ 21 ครั้งและ to-win-in ปรากฏ 5 ครั้ง
สาหรับในคาแรกนั้นคากริ ยา win ตามหลังด้วยคาว่า the ซึ่ งเป็ นคาชี้เฉพาะคานาม ดังนั้น to-win-the
จงไม่ใช่ phrasal verb ส่ วนในคาที่สองถึงแม้วา่ คากริ ยา win จะตามหลังด้วยคาคาบุพบท in ก็จริ ง
แต่จากการสื บค้นในพจนานุ กรมแล้วไม่ปรากฏคากริ ยา to-win-in แสดงว่า in
เป็ นส่ วนหนึ่งของบุพบทวลีที่ทาหน้าที่มาขยายคากริ ยา ดังนั้น to-win-in จึงไม่ใช่ phrasal verb
เช่นเดียวกัน ข้อสรุ ปที่ได้จากการใช้โปรแกรม Collocation Extract เหมือนกันกับโปรแกรม
Antconc
Download