ชื่ อคลังข้ อมูล: คลังข้อมูลภาษาอังกฤษข่าวกีฬา ขนาดของคลังข้ อมูล: Total No. of Word Tokens 100,515 คา Total No. of Word Types 10,049 คา จุดประสงค์ : เพื่อจัดทาคลังข้อมูลภาษาอังกฤษที่ใช้ในการรายงานข่าวกีฬา ประเภทของคลังข้ อมูล: เป็ นคลังข้อมูลที่เก็บตัวบทภาษาอังกฤษโดยเก็บทั้งภาษาเขียน (written) จากเนื้อหาข่าวและภาษาพูด (spoken) จากบทสัมภาษณ์ที่ปรากฏในข่าว เนื่องจากเห็นว่าบทสัมภาษณ์ก็เป็ นส่ วนสาคัญส่ วนหนึ่งของข่าวกีฬาเช่นกัน เก็บข้อมูลเกี่ยวกับข่าวกีฬาแบบไม่จากัดประเภท โดยเลือกเก็บจากแหล่งข่าวต่างประเทศที่เขียนโดยเจ้าของภาษา ลักษณะการเก็บข้อมูลเป็ นแบบเก็บเฉพาะข้อความล้วน (plain text) ประเภทข้ อมูลทีจ่ ัดเก็บและแหล่ งทีม่ า: ตัวบทที่จดั เก็บเป็ นข่าวกีฬา โดยจัดเก็บทั้งหัวข้อข่าวและเนื้อข่าว การจัดเก็บเป็ นแบบสุ่ มโดยไม่จากัดประเภทกีฬาเพื่อให้ได้ข่าวกีฬาที่มีความหลากหลายสุ ดมากที่สุด แหล่งข้อมูลที่ใช้ในการจัดเก็บมี 2 แหล่ง คือ 1. สานักข่าว BBC จากเว็บไซต์ http://news.bbc.co.uk/sport/ จานวน 112 ข่าว 2. สานักข่าว CNN จากเว็บไซต์ http://edition.cnn.com/SPORT/ จานวน 121 ข่าว รวมทั้งสิ้ น 233 ข่าว จาก 31 ชนิดกีฬา วิธีการจัดเก็บข้ อมูล การจัดเก็บข้อมูลที่นามาใช้ท้ งั หมดนั้นใช้วธิ ี การ copy and paste ข่าวกีฬาแต่ละข่าวลงในโปรแกรม notepad แล้วจึง save เป็ น plain text file จานวนทั้งสิ้ น 233 ไฟล์ โดยแยกเป็ น 2 กลุ่มคือกลุ่มที่ใช้ภาษาอังกฤษแบบอังกฤษจากสานักข่าว BBC จานวน 112 ไฟล์และกลุ่มที่ใช้ภาษาอังกฤษแบบอเมริ กนั จากสานักข่าว CNN จานวน 121 ไฟล์สาเหตุที่ใช้วธิ ี copy and paste เนื่องจากในเว็บไซต์นอกจากจะมีข่าวแล้วยังมีส่วนที่ไม่เกี่ยวข้องกับข่าว เช่น โฆษณาต่างๆ นอกจากนี้บางข่าวยังมีคลิปวิดีโอสัมภาษณ์นกั กีฬาหรื อคลิปการแข่งขันกีฬารวมอยูด่ ว้ ย ซึ่ งอยูน่ อกเหนือขอบเขตของการจัดเก็บข้อมูล 2 จึงใช้วธิ ี ที่สามารถกรองเฉพาะข้อมูลที่ตอ้ งการจัดเก็บได้ โดยจะคัดลอกเฉพาะส่ วนที่เป็ นหัวข้อข่าวและเนื้ อข่าวมาเท่านั้น การนาโปรแกรม Antconc มาใช้ กบั ข้ อมูล ค้นหาคาศัพท์จากการเก็บข้อมูลทั้งหมด 233 ไฟล์พบว่ามีจานวนคานับรวมทั้งหมด 100,515 คา (Tokens) แบ่งตามชนิดของคาได้ 10,049 คา (Types) และเมื่อแบ่งตามประเภทของคาโดยใช้เกณฑ์ทางความถี่แล้ว ผลที่ได้ปรากฏดังนี้ Rank 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Word the to a in and of s I for on was with his at he is that The said it F F% 5434 2634 2363 2356 2120 1727 1340 1004 997 954 888 797 775 735 726 694 651 639 572 530 5.406 2.620 2.350 2.343 2.109 1.718 1.333 0.998 0.991 0.949 0.883 0.792 0.771 0.731 0.722 0.690 0.647 0.635 0.569 0.527 CF 5434 8068 10431 12787 14907 16634 17974 18978 19975 20929 21817 22614 23389 24124 24850 25544 26195 26834 27406 27936 CF% 5.40 8.02 10.37 12.72 14.83 16.54 17.88 18.88 19.87 20.82 21.70 22.49 23.26 24.00 24.72 25.41 26.06 26.69 27.26 27.79 คาที่ปรากฏในอันดับต้นๆแทบทั้งหมดเป็ นคาประเภท function word ซึ่ งเป็ นคาที่เน้นหน้าที่ทางไวยากรณ์ เช่น คาบุพบท , สรรพนาม ,article เป็ นต้น ซึ่ งเป็ นลักษณะเฉพาะของคลังข้อมูลภาษาต่างประเทศ คาประเภท content word คาแรกที่ปรากฏคือคาว่า saidโดยอยูใ่ นลาดับที่ 19 โดยปรากฏ 572 ครั้ง คิดเป็ นร้อยละ 0.57 ของจานวนคาทั้งหมด แต่ลกั ษณะเช่นนี้ไม่แสดงลักษณะเฉพาะคลังข้อมูลภาษาของข่าวกีฬาและไม่แสดงความแตกต่างระ หว่างคลังข้อมูลภาษาของข่าวกีฬากับคลังข้อมูลภาษาอังกฤษทัว่ ไป แต่เมื่อขยายขอบเขตมาถึงคาที่มีอตั ราความถี่สะสมคิดเป็ นครึ่ งหนึ่งของคลังข้อมูลภาษา ก็ปรากฏคาศัพท์ที่ใช้ในวงการกีฬามากขึ้น เช่นคาศัพท์เกี่ยวกับลาดับที่ คาศัพท์เกี่ยวกับการแข่งขัน เป็ นต้น 3 Rank Word F F% CF CF% 28 31 36 40 41 48 52 56 61 65 68 69 70 71 72 85 90 92 95 96 102 104 113 114 115 116 first year team last second time win final against play set game match won players round tournament third title season champion top victory player best Olympic 381 363 287 275 275 248 223 203 185 182 179 175 175 169 167 145 134 133 128 127 121 121 113 111 110 110 31523 32632 34240 35353 35628 37446 38363 39209 40174 40904 41442 41617 41792 41961 42128 44127 44825 45091 45482 45609 46350 46592 47632 47743 47853 47963 0.379 0.361 0.285 0.273 0.273 0.246 0.221 0.201 0.184 0.181 0.178 0.174 0.174 0.168 0.166 0.144 0.133 0.132 0.127 0.126 0.120 0.120 0.112 0.110 0.109 0.109 31.36 32.46 34.06 35.17 35.44 37.25 38.16 39.00 39.96 40.69 41.22 41.40 41.57 41.74 41.91 43.90 44.59 44.85 45.24 45.37 46.11 46.35 47.38 47.49 47.60 47.71 120 124 record beat 103 99 48387 48791 0.102 0.098 48.13 48.54 ดูการปรากฏร่ วมของคา ในที่น้ ีเลือกใช้คาว่า win เนื่องจากเป็ นคาที่ปรากฏมากเป็ นอันดับต้นๆของคลังข้อมูลภาษาถ้าไม่นบั คาประเภท function word แสดงว่าเป็ นคาที่เกี่ยวข้องกับข่าวกีฬามาก โดยกาหนดขอบเขตหน้าหลังของคาหลักเพื่อดูการปรากฏร่ วมไว้ที่ 2L-2R และตั้งเงื่อนไขว่าจะพิจารณาคาปรากฏร่ วมที่มีความถี่การเกิดอย่างน้อย 5 ครั้ง ผลที่ได้ท้ งั หมด 32 คาโดย 10 อันดับแรกมีดงั นี้ Rank 1 2 3 4 5 6 7 Freq 223 98 54 35 32 19 16 Freq (L) 0 95 15 25 0 3 10 Freq (R) 0 3 39 10 32 16 6 Collocate win to the a over in for 4 8 9 10 15 12 11 11 6 4 4 6 7 first his I เนื่องจากคาว่า the, a, his, I ไม่น่าจะมีความสัมพันธ์กบั คาหลัก เนื่องจากอัตราการปรากฏมีท้ งั อยูด่ า้ นซ้ายและด้านขวาของคา ซึ่ งแตกต่างกับคาว่า to, over ซึ่ งอัตราการปรากฏจะค่อนไปทางด้านใดด้านหนึ่งของคาหลัก จึงจัดลาดับการปรากฏร่ วมของคาใหม่โดยใช้วธิ ี ทางสถิติช่วย ผลที่ได้จากการใช้สถิติแบบ MI มีดงั นี้ Rank Freq 1 2 3 4 5 6 7 8 9 10 32 6 7 8 5 6 6 6 15 98 Freq (L) 0 2 5 8 0 5 3 6 11 95 Freq (R) 32 4 2 0 5 1 3 0 4 3 Stat 6.26156 5.35672 4.77802 4.65628 4.50872 4.34583 4.33502 4.2212 4.14939 4.06782 Collocate over here you can Wimbledon third tournament round first to ผลจากการหาคาปรากฏร่ วมโดยใช้สถิติพบว่าคาที่ปรากฏร่ วมกับ win เป็ นอันดับแรกคือคาว่า over โดยปรากฏ 32 ครั้ง และทุกครั้งปรากฏอยูท่ างขวาของคาว่า win จึงตั้งข้อสันนิษฐานเบื้องต้นว่าน่าจะเป็ นคากริ ยาประเภท phrasal verb คือคาว่า win over แต่เมื่อตรวจสอบความหมายตามพจนานุกรมแล้วได้ความหมายดังนี้ win over phrasal vb [T] to persuade someone to agree with you or to be friendly to you ซึ่ งความหมายนี้ไม่น่าจะเกี่ยวข้องกับข่าวกีฬา จึงตรวจสอบการปรากฏร่ วมของ win over พบว่าในการปรากฏร่ วมทุกครั้งคาว่า win จะเป็ นคานามซึ่ งตามด้วยบุพบทวลีซ่ ึ งขึ้นต้นด้วยคาว่าover แต่ไม่ใช่ phrasal verb นอกจากนี้ก็ไม่พบการปรากฏของคาที่ประกอบกับ win แล้วทาให้เป็ น phrasal verb เช่น win back (to get back something that you have lost), win out หรื อ win through (to succeed after great difficulty) จึงสรุ ปได้วา่ การใช้คาว่า win ในข่าวกีฬานั้นใช้ทาหน้าที่เป็ นคานามหรื อคากริ ยาแบบเดี่ยว แต่ไม่ใช้เป็ นคากริ ยาที่มีลกั ษณะเป็ น phrasal verb การนาโปรแกรม Collocation Extract มาใช้ กบั ข้ อมูล 5 ใช้เพื่อหาการปรากฏร่ วมของคาในคลังข้อมูลภาษา โดยใช้วธิ ี การทางสถิติเป็ นเครื่ องช่วยวัด ผลที่ได้จากการใช้คาสั่ง All 2-word collocations เพื่อหาคาปรากฏร่ วมด้วยวิธีทางสถิติท้ งั 3 วิธี โดยกาหนดระยะห่าง (span) ไว้ที่ 2 คา หาคาปรากฏร่ วมทั้งข้างหน้าและข้างหลังของคาหลักและเอาทุกปรากฏการ มีดงั นี้ 1. การหาคาปรากฏร่ วมโดยใช้สถิติแบบ loglikelihood Word1 in year i of has don will new at to it didn the a i it sri with going last Freq1 2440 366 1004 1734 441 67 448 172 750 2642 789 53 6073 2441 1004 789 39 825 132 286 Word2 the old m the been t be zealand the be s t first lot am was lanka a to year Freq2 6073 150 143 6073 278 272 456 56 6073 456 1362 272 387 76 59 888 31 2441 2642 366 Freq12 853 139 133 524 105 66 116 56 282 168 162 53 189 74 58 124 31 177 89 68 ll 2034.313 1564.02 1190.937 1066.653 815.2924 797.2559 790.8562 742.3601 695.7803 671.3225 650.3687 645.5944 580.3503 545.0146 536.1871 532.3564 528.1933 524.8756 499.2758 474.6934 ผลที่ได้ 20 อันดับแรกมีลกั ษณะคล้ายกับผลที่ได้จากการใช้โปรแกรม Antconc นัน่ คือคาที่ปรากฏส่ วนมากเป็ นคาประเภท function word ในขณะที่คาแบบ content word เช่นคาว่า year old, last year ก็ไม่ได้แสดงลักษณะเฉพาะของคลังข้อมูลภาษาข่าวกีฬามากนัก ซึ่ งสาเหตุส่วนหนึ่งอาจเป็ นเพราะในข่าวจานวนมากได้มีบทสัมภาษณ์ของนักกีฬาหรื อผูท้ ี่มีส่วนเกี่ย วข้องอยูด่ ว้ ย ทาให้มีการปรากฏร่ วมของคาที่ใช้ในภาษาพูด เช่น คาว่า I’m, I am เป็ นต้น นอกจากนี้ยงั มีชื่อเฉพาะของประเทศรวมอยูด่ ว้ ยคือ New Zealand, Sri Lanka ซึ่ งอาจเป็ นเพราะช่วงที่ทาการจัดเก็บข้อมูลนั้นเป็ นช่วงเวลาที่ใกล้เคียงกับการแข่งขันกีฬาโอลิมปิ ค ทาให้มีการกล่าวถึงชื่อประเทศต่างๆบ่อยกว่าปกติก็เป็ นได้ แต่เมื่อขยายขอบเขตของผลที่ปรากฏและตัดคาจาพวก function word และชื่อเฉพาะของประเทศและนักกีฬาออกไปแล้ว จะได้ผลการปรากฏร่ วมของคาในข่าวกีฬาที่พบบ่อยดังตัวอย่างข้างล่างนี้ 6 Word1 world grand premier bbc grand french formula ryder world the champions defending world centre Freq1 343 52 26 64 52 61 25 20 343 6073 54 24 343 19 Word2 cup slam league sport prix open one cup record tournament league champion champion court Freq2 112 27 107 107 23 132 326 112 103 135 107 124 124 81 Freq12 51 26 26 32 23 31 24 19 33 74 21 17 29 15 ll 440.8708 404.7213 366.6987 364.8447 363.5842 339.4048 272.065 256.6776 254.2671 248.2357 222.9084 203.7238 201.9324 199.3428 2. การหาคาปรากฏร่ วมโดยใช้สถิติแบบ mutual information Word1 torrey benoit las pepito lush damien ernst berrick abu francois trinh nadia nicole rocky nathan cameron roland svetlana dimitri caroline Freq1 5 5 5 5 6 6 6 6 6 5 6 5 7 5 5 7 8 5 6 7 Word2 pines lecouls vegas elhorga lashes traille happel barnes dhabi trinh duc petrova vaidisova elsom sharpe shepherd garros kuznetsova yachvili wozniacki Freq2 Freq12 5 5 5 5 6 6 6 6 6 6 5 6 6 7 7 8 7 8 7 6 5 5 5 5 6 6 6 6 6 5 5 5 6 5 5 7 7 5 5 5 mi 14.40195 14.40195 14.40195 14.40195 14.13891 14.13891 14.13891 14.13891 14.13891 14.13891 14.13891 14.13891 13.91652 13.91652 13.91652 13.72387 13.72387 13.72387 13.65349 13.65349 ผลลัพธ์ที่ได้จากการใช้สถิติแบบ mutual information มีลกั ษณะที่แตกต่างไปกับแบบ loglikelihood นัน่ คือแทนที่จะปรากฏคาจาพวก function word ผลลัพธ์ที่ได้ใน 20 อันดับแรกเกือบทั้งหมดเป็ นชื่อเฉพาะของนักกีฬา และเมื่อลองขยายขอบเขตของผลดูเช่นเดียวกับตอนที่ใช้พิจารณาผลจากวิธี loglikelihood ก็ยงั ปรากฏผลเช่นเดิมคือ เป็ นชื่อเฉพาะของนักกีฬาเป็ นส่ วนใหญ่ 7 3. การหาคาปรากฏร่ วมโดยใช้สถิติแบบ chi-square Word1 ernst abu lush berrick damien pepito torrey benoit las roland cameron nicole trinh nadia francois sri anna los nathan rocky Freq1 6 6 6 6 6 5 5 5 5 8 7 7 6 5 5 39 9 12 5 5 Word2 happel dhabi lashes barnes traille elhorga pines lecouls vegas garros shepherd vaidisova duc petrova trinh lanka chakvetadze angeles sharpe elsom Freq2 Freq12 6 6 6 6 6 5 5 5 5 7 8 6 5 6 6 31 7 9 7 7 6 6 6 6 6 5 5 5 5 7 7 6 5 5 5 31 7 9 5 5 chi2 108240 108240 108240 108240 108240 108240 108240 108240 108240 94709.13 94709.13 92776.29 90199.17 90199.17 90199.17 86030.56 84185.11 81177.75 77312.86 77312.86 ผลลัพธ์ที่ได้เป็ นเช่นเดียวกับวิธี mutual information นัน่ คือคาที่ปรากฏร่ วมกันส่ วนใหญ่เป็ นชื่อเฉพาะของนักกีฬาและเมื่อลองขยายขอบเขตของผลดู ผลลัพธ์ที่ได้ส่วนใหญ่แล้วก็ยงั เป็ นชื่อเฉพาะเช่นเดิม เมื่อพิจารณาผลจากการใช้สถิติท้ งั 3 แบบแล้วพบว่าวิธีที่เหมาะสมที่สุดคือวิธีแบบ loglikelihood เนื่องจากอีก 2 วิธีที่เหลือคือ mutual information และ chi-square ให้ผลลัพธ์ส่วนใหญ่เป็ นชื่อเฉพาะของนักกีฬาหรื อชื่ อประเทศ ถึงแม้วา่ สถิติแบบ log-likelihood ในช่วงแรกจะให้ผลลัพธ์เป็ น function word แต่เมื่อขยายขอบเขตออกไปแล้วก็จะได้ผลลัพธ์ที่เกี่ยวข้องกับข่าวกีฬา หลังจากที่ได้คน้ หาแบบ All 2-word collocations แล้ว จึงได้เปลี่ยนวิธีคน้ หาเป็ นแบบ Keyword โดยเลือกใช้คาว่า win เพื่อต้องการยืนยันว่าการใช้คาว่า win ในข่าวกีฬาไม่ได้มีการใช้ในลักษณะ phrasal verb แต่ใช้ในลักษณะคากริ ยาเดี่ยว เช่นเดียวกับที่ได้ใช้โปรแกรม Antconc พิสูจน์มาแล้ว โดยกาหนดค่า span ไว้ที่ 3 คาและกาหนดให้หาคาปรากฏร่ วมทั้ง 2 ข้างและกาหนดว่าต้องเกิดอย่างน้อย 5 ครั้ง ทั้งนี้เพื่อต้องการดูวา่ มีรูปแบบการปรากฏของ to-win-Preposition ที่ทาให้เกิด phrasal verb หรื อไม่ ผลที่ได้จากการค้นหาโดยใช้ Keyword มีดงั นี้ Words Frequency ll 8 to- win- the 21 9.8622461 to- win- in 5 9.8381908 ผลลัพธ์ที่ปรากฏมีเพียง 2 คาเท่านั้นคือ to-win-the ปรากฏ 21 ครั้งและ to-win-in ปรากฏ 5 ครั้ง สาหรับในคาแรกนั้นคากริ ยา win ตามหลังด้วยคาว่า the ซึ่ งเป็ นคาชี้เฉพาะคานาม ดังนั้น to-win-the จงไม่ใช่ phrasal verb ส่ วนในคาที่สองถึงแม้วา่ คากริ ยา win จะตามหลังด้วยคาคาบุพบท in ก็จริ ง แต่จากการสื บค้นในพจนานุ กรมแล้วไม่ปรากฏคากริ ยา to-win-in แสดงว่า in เป็ นส่ วนหนึ่งของบุพบทวลีที่ทาหน้าที่มาขยายคากริ ยา ดังนั้น to-win-in จึงไม่ใช่ phrasal verb เช่นเดียวกัน ข้อสรุ ปที่ได้จากการใช้โปรแกรม Collocation Extract เหมือนกันกับโปรแกรม Antconc