PENILAIAN ESEI BERBANTUKAN KOMPUTER MENGGUNAKAN TEKNIK BAYESIAN DAN PENGUNDURAN LINEAR BERGANDA MOHD AZWAN BIN MOHAMAD@HAMZA UNIVERSITI TEKNOLOGI MALAYSIA iii Khas buat ibu, abah, isteri, puteri dan bakal puteriku yang dikasihi… iv PENGHARGAAN Dengan Nama Allah Yang Pemurah Lagi Maha Pengasihani. Assalamualaikum W.B.T… Segala puji-pujian bagi Allah S.W.T, Tuhan semesta alam. Salawat dan salam ke atas junjungan besar Nabi Muhammad S.A.W, keluarga dan para sahabat baginda serta kaum Muslimin dan Muslimat. Bersyukur saya ke hadrat Allah S.W.T kerana di atas limpah kurnia-Nya serta keizinan-Nya, dapatlah jua saya menyiapkan Laporan Projek Sarjana Muda ini. Di kesempatan ini juga ingin saya merakamkan jutaan terima kasih dan penghargaan ikhlas buat PM Abdul Manan b Ahmad, selaku penyelia bagi projek ini, atas bimbingan dan dorongan yang diberikan sepanjang tempoh penyelidikan projek ini. Kerjasama yang baik daripada pihak Sekolah Kebangsaan Galing dan Sekolah Kebangsaan Semambu, Kuantan serta pihak Dewan Bahasa dan Pustaka turut dihargai sehingga saya dapat memperoleh maklumat yang diingini yang mana ianya menyumbang kepada sebahagian besar kejayaan pembangunan projek ini. Penghargaan juga turut ditujukan kepada semua yang terlibat samada secara langsung atau tidak langsung dalam membantu menjayakan projek penyelidikan ini. v ABSTRAK Perbezaan markah antara dua penilai, peruntukan masa yang panjang dan kos pemarkahan yang tinggi menjadi punca yang menyebabkan Penilaian Esei Berbantukan Komputer (CbAS) dikaji. Kunci utama ialah penilaian CbAS mestilah hampir setara dengan penilaian manusia. Berdasarkan skema penilaian esei UPSR, terdapat tiga komponen utama penilaian iaitu bahasa, elemen hujahan (isi kandungan) dan gaya olahan. Didapati penggunaan Logik Fuzzy dalam menentukan dan mengkelaskan elemen hujahan dan Algoritma Pengunduran Linear Stepwise (SLR) dalam membuat peramalan terhampir bagi gaya olahan masih terdapat beberapa kelemahan. Logik Fuzzy tidak mengukur bentuk ciri bahasa dan memerlukan saiz data latihan yang besar. Manakala Algoritma SLR menghasilkan peramalan gaya olahan menggunakan ciri yang kurang piawai di samping saiz set ciri tidak ditakrifkan dengan jelas dan tiada jaminan ciri yang dipilih adalah signifikan untuk menyumbang kepada peramalan gaya olahan terhampir. Kajian ini memberi penekanan ke atas peramalan elemen hujahan dan gaya olahan yang lebih optimum yang mendorong kepada pembangunan CbAS berdasarkan empat fasa metodologi penyelidikan. (1) Fasa pra-pemprosesan dan pengekstrakan data di mana esei dipecahkan kepada token (perkataan) dan menggunakan Algoritma Pembetulan Kata membetulkan ejaan yang salah. (2) Fasa proses latihan penentuan dan pengkelasan elemen hujahan menggunakan Teknik Model Multivariate Bernoulli (MMB) yang mengambilkira ciri yang wujud dan tidak wujud seterusnya mengukur bentuk ciri bahasa yang mempengaruhi kualiti esei tersebut. Teknik MMB juga hanya memerlukan saiz korpus data yang lebih kecil. (3) Fasa proses peramalan gaya olahan dengan menggunakan Algoritma Pengunduran Linear Berganda (MLR). Algoritma MLR menggunakan enam ciri yang telah ditetapkan (berdasarkan kajian terdahulu) supaya peramalan yang dibuat lebih piawai dan set ciri tersebut adalah lebih signifikan. (4) Fasa pengujian kesetaraan pencapaian daripada gabungan MMB, MLR dan data bahagian bahasa (dari penilaian manusia) dan dibandingkan dengan penilaian manusia untuk lima kitaran cross-validation. Hasil menunjukkan pencapaian adalah konsisten dengan peratus kesetaraan iaitu 95.2%. Kesimpulannya, eksperimen menunjukkan dengan menggunakan kedua-dua teknik (MMB dan MLR), peramalan atau penilaian esei yang lebih baik telah dicapai berbanding dengan sistem yang menggunakan Logik Fuzzy dan Algoritma SLR. vi ABSTRACT Disagreement of grade given by two human judges, time consuming and high evaluation cost became a reason of research on Computer-based Assessment System (CbAS) been studied. The main key is CbAS assessment must be closest to human assessment. Based on UPSR Essay Assessment Schema, there are three main assessment components consists of language, discourse element and style. Recently, Fuzzy Logic is used to determine and classify the discourse element while Stepwise Linear Regression Algorithm (SLR) is used to make closest prediction for style of writing. Both of them have its weakness. Fuzzy Logic did not measure the form of linguistic features and required a huge size of training data. SLR Algorithm derive prediction of writing style using un-standardize feature set and size of features set not clearly defined and no warranty of significance in contribute to get closest grade prediction. This study emphasized on optimization of prediction on discourse elements and writing style that leading to the development of CbAS through four phases of research methodology. (1) Pre-processing and data extraction phase where essay will be parsed into word (token) and implemented Word Correction Algorithm to re-correct the misspell word. (2) Training process of determination and classification of discourse elements using Multivariate Bernoulli Model (MMB) Technique. It considers both presence and absence features thus it measured the form of linguistic features that reflected essay quality. MMB Technique only required a small size of training data. (3) Prediction process of writing style using Multiple Linear Regression (MLR) Algorithm. MLR Algorithm applied six fixed features (based on previous research) to ensure the prediction is more standardize and feature set is more significant. (4) Test the performance agreement derived from the combination of MMB, MLR and data of language component (taken from human assessment) and compared it to human assessment for five cycles of cross-validation. The outcome shows performance is consistent with 95.2% agreement. Thus, the experiment has shown by utilizing both techniques (MMB and MLR), better prediction or essay assessment has been achieved compared to the one’s implemented using Fuzzy Logic and SLR Algorithm. vii ISI KANDUNGAN BAB PERKARA SURAT JUDUL i PENGAKUAN ii DEDIKASI iii PENGHARGAAN iv ABSTRAK v ABSTRACT vi ISI KANDUNGAN vii SENARAI JADUAL xiii SENARAI RAJAH SENARAI RUMUS DAN ALGORITMA SENARAI SINGKATAN 1 MUKA xv xviii xx SENARAI ISTILAH xxii SENARAI LAMPIRAN xxiv PENGENALAN 1 1.1 Pendahuluan 1 1.2 Latar Belakang Masalah 3 1.3 Pernyataan Masalah 8 1.4 Matlamat 8 1.5 Objektif 9 viii 2 9 1.6 Skop 1.7 Kepentingan Penyelidikan 10 1.8 Sumbangan Ilmiah 10 1.9 Struktur Tesis 11 1.10 Ringkasan 12 KAJIAN LITERATUR 14 2.1 Pendahuluan 14 2.2 Latar Belakang Penilaian Esei Berbantukan Komputer 16 2.2.1 Kajian Awal 16 2.2.2 Kajian Semasa 18 2.2.2.1 Project Essay Grader (PEG) 20 2.2.2.2 Intelligent Essay Assessor (IEA) 22 2.2.2.3 Educational Testing Service (ETS I) 24 2.2.2.4 Electronic Essay Rater (E-rater) 27 2.2.2.5 Conceptual Rater (C-rater) 29 2.2.2.6 Bayesian Essay Test Scoring sYstem 30 (BETSY) 2.2.2.7 Intelligent Essay Marking Systems 33 (IEMS) 2.2.2.8 Automark 33 2.2.2.9 Schema Extract Analyse and Report 35 (SEAR) 2.2.2.10 Paperless School free-text Marking 36 Engine (PS-ME) 2.3 2.2.3 Isu/Analisa Kajian 38 2.2.4 Cadangan Teknik Penilaian 45 2.2.5 Set Ciri Peramalan 46 Pemarkahan Esei 49 2.3.1 Peraturan Memberi Markah (PMM) 49 2.3.1.1 Teknik Global 50 2.3.1.2 Teknik Analisis 51 2.3.2 Kaedah Menilai Esei 52 ix 2.4 3 2.3.3 Penyelarasan Markah 52 2.3.4 Pemarkahan Esei UPSR 53 2.3.5 Isu-isu Utama Dalam Penilaian Esei 55 2.3.5.1 Penandaan Kesalahan 56 2.3.5.2 Keadaan Kritikal 56 Ringkasan 56 METODOLOGI KAJIAN 58 3.1 Pendahuluan 58 3.2 Metodologi Penyelidikan 59 3.3 Teknik Penilaian 60 3.4 Prosidur Five-Fold Cross-Validation 61 3.5 Set 12 Ciri Peramalan 63 3.5.1 Set Ciri Optimum 65 3.5.1.1 65 Purata Bilangan Perkataan dalam Elemen Hujahan (AEL) 3.5.2 3.5.1.2 Jenis/Token 65 3.5.1.3 Purata Panjang Perkataan (AWL) 66 3.5.1.4 Kandungan Esei (EC) 66 3.5.1.5 Kandungan Argumen (AC) 66 3.5.1.6 Panjang Esei (EL) 67 Set Ciri Tetap 67 3.5.2.1 Kesalahan Bahasa 67 3.5.2.2 Elemen Hujahan 68 3.6 Pra-Pemprosesan Data dan Pengekstrakan Data 69 3.7 Latihan Peramalan Gaya Olahan (Ciri Optimum) 72 3.7.1 Pemilihan Ciri 73 3.7.2 Algoritma MLR 73 3.7.2.1 Matrik Pelengkap 74 3.7.2.2 Pendaraban Silang Matrik 75 3.7.2.3 Matrik Songsang 75 3.7.3 3.8 Pekali Pemberat Pengunduran Latihan Pengkelasan Elemen Hujahan (Ciri Tetap) 75 76 x 3.9 3.8.1 Model Multinomial 76 3.8.2 Model Multivariate Bernoulli 77 3.8.3 Pemilihan Data 78 3.8.3.1 Kriteria Kedudukan, A1 79 3.8.3.2 Kriteria Leksikal, A2 79 3.8.3.3 Kriteria Teori Struktur Retorik, A3 80 3.8.4 Penapisan Data 82 3.8.5 Pekali Pemberat Peratusan 83 Pengujian Penilaian 83 3.9.1 Pengujian Ciri Tetap 83 3.9.1.1 Ciri Bahasa 84 3.9.1.2 Teknik MMB 84 3.9.1.3 Pekali Pemberat Peratusan 85 3.9.2 3.10 4 Pengujian Ciri Optimum 86 3.9.2.1 Algoritma MLR 86 3.9.2.2 Pekali Pemberat Pengunduran 87 3.9.2.3 Penilaian Gred Akhir 87 Ringkasan 88 TEKNIK PENILAIAN MENGGUNAKAN BAYESIAN 89 DAN PENGUNDURAN LINEAR BERGANDA 4.1 Pendahuluan 89 4.2 Rekabentuk Pangkalan Pengetahuan (KB) 89 4.3 Teknik Penentuan dan Pengkelasan Elemen Hujahan 90 4.3.1 Model Multivariate Bernoulli (MMB) 90 4.3.1.1 Kebarangkalian Prior 92 4.3.1.2 Kebarangkalian Conditional 92 4.3.2 Logik Fuzzy 94 4.3.2.1 94 Penapisan Token 4.3.2.2 Set Fuzzy 94 4.3.2.3 Darjah Keahlian 95 4.3.2.4 Operasi Set Fuzzy 97 4.3.2.5 Cartesian Product 98 xi 4.4 4.3.2.6 Hubungan Fuzzy 98 4.3.2.7 Operasi Compositional 99 Teknik Peramalan Gaya Olahan 99 4.4.1 99 Model Pengunduran Linear Berganda 4.4.1.1 4.4.2 4.5 4.6 5 Peramalan Parameter 100 Model Pengunduran Linear Stepwise 103 4.4.2.1 103 Algoritma Pemilihan Pembolehubah Prosidur Penilaian 106 4.5.1 Penjelmaan Linear Ciri Tetap 106 4.5.2 Penentuan Nilai Ciri Optimum 106 4.5.3 Penentuan Pekali Pemberat Ciri Optimum 108 4.5.4 Peratusan Pemberat Ciri Tetap 109 4.5.5 Penentuan Pekali Pemberat Ciri Tetap 109 4.5.6 Penilaian Gred Akhir 110 Ringkasan 110 HASIL PENGUJIAN DAN PERBINCANGAN 112 5.1 Pendahuluan 112 5.2 Hasil Pengujian dan Perbincangan 112 5.3 Kaedah Pengukuran 113 5.4 Hasil Pra-Pemprosesan Data 114 5.4.1 116 5.5 5.6 Rumusan Pra-Pemprosesan Data Hasil Peramalan Gaya Olahan 117 5.5.1 125 Rumusan Peramalan Gaya Olahan Hasil Penentuan dan Pengkelasan Elemen Hujahan 126 5.6.1 134 Rumusan Penentuan dan Pengkelasan Elemen Hujahan 5.7 Hasil Teknik Penilaian 136 5.8 Rumusan Keseluruhan 138 5.9 Ringkasan 138 xii 6 KESIMPULAN 140 6.1 Pendahuluan 140 6.2 Kesimpulan 140 6.3 Cadangan Kajian Lanjutan 142 6.3.1 Kaedah Gabungan Kata dan Penapisan Ciri 143 6.3.2 Penulisan Di Luar Topik 143 6.4 Ringkasan 144 RUJUKAN 145 LAMPIRAN A : Contoh Data Pengujian 158 LAMPIRAN B : Contoh Data Latihan 171 LAMPIRAN C : Skema Penilaian Esei UPSR 184 LAMPIRAN D : Skala Panduan Markah Gaya Olahan 186 LAMPIRAN E : Senarai Keseluruhan Ciri Untuk Penilaian 188 Esei xiii SENARAI JADUAL NO. JADUAL 2.1 TAJUK Pengkelasan Sistem Penilaian Esei MUKA SURAT 39 Berautomasi.. 2.2 Perbandingan pencapaian sistem penilaian. 41 2.3 Set 12 ciri peramalan untuk teknik penilaian. 48 2.4 Pembahagian markah berdasarkan Skema 55 Penilaian Esei UPSR. 3.1 Kitaran prosidur five-fold cross validation. 62 3.2 Set 12 ciri signifikan untuk peramalan 64 penilaian. 3.3 Gred markah UPSR. 87 4.1 Darjah keahlian bagi Set Fuzzy A dan Set 95 Fuzzy B. 4.2 Data untuk Pengunduran Linear Berganda. 101 5.1 Pecahan bilangan 200 sampel esei pelajar 113 mengikut gred. 5.2 Perbandingan perkataan diperbetulkan 115 berdasarkan gred esei skala limamata aras. 5.3 Hasil ujian peramalan gaya olahan pada 118 kitaran pertama. 5.4 Hasil ujian peramalan gaya olahan pada kitaran kedua. 120 xiv 5.5 Hasil ujian peramalan gaya olahan pada 121 kitaran ketiga. 5.6 Hasil ujian peramalan gaya olahan pada 122 kitaran keempat. 5.7 Hasil ujian peramalan gaya olahan pada 124 kitaran kelima. 5.8 Hasil penentuan dan pengkelasan elemen 127 hujahan pada kitaran pertama. 5.9 Hasil penentuan dan pengkelasan elemen 128 hujahan pada kitaran kedua. 5.10 Hasil penentuan dan pengkelasan elemen 130 hujahan pada kitaran ketiga. 5.11 Hasil penentuan dan pengkelasan elemen 131 hujahan pada kitaran keempat. 5.12 Hasil penentuan dan pengkelasan elemen 133 hujahan pada kitaran kelima. 5.13 Hasil perbandingan penilaian manusia dan teknik penilaian. 136 xv SENARAI RAJAH NO. RAJAH 2.1 TAJUK MUKA SURAT Garismasa perkembangan kajian dalam bidang 17 penilaian penulisan. 2.2 Versi demo Sistem PEG yang dipaparkan di 21 laman web. 2.3 Contoh maklumbalas yang diberikan oleh 23 Sistem IEA. 2.4 Pepohon sintaksis X-bar. 26 2.5 Antaramuka ramah-pengguna Sistem E-rater 28 versi berpandukan-web (Criterion). 2.6 Pembangunan konseptual sistem penilaian. 40 3.1 Rekabentuk metodologi penyelidikan. 59 3.2 Contoh esei pelajar. 62 3.3 Algoritma Pembetulan Kata. 71 3.4 Proses latihan peramalan gaya olahan. 72 3.5 Algoritma Pengunduran Linear Berganda. 74 3.6 Proses latihan pengkelasan elemen hujahan. 76 3.7 Contoh data latihan menggunakan Kriteria 79 Kedudukan. 3.8 Contoh data latihan menggunakan Kriteria 80 Leksikal. 3.9 Pepohon RST. 81 3.10 Contoh data latihan menggunakan Kriteria 82 RST. xvi 3.11 Proses pengujian pengkelasan elemen hujahan. 84 3.12 Proses pengujian peramalan gaya olahan. 86 4.1 Pepohon Rangkaian MMB. 91 4.2 Graf yang menunjukkan keahlian bagi Set 97 Fuzzy A dan B. 5.1 Perbandingan bilangan Ralat-Ejaan dan Ejaan- 116 Diperbetulkan dengan kumpulan gred esei. 5.2 Peratus Perkataan-Diperbetulkan berbanding 116 kumpulan gred esei. 5.3 Perbandingan hasil Algoritma MLR dan SLR 119 pada kitaran pertama. 5.4 Perbandingan hasil Algoritma MLR dan SLR 120 pada kitaran kedua. 5.5 Perbandingan hasil Algoritma MLR dan SLR 122 pada kitaran ketiga. 5.6 Perbandingan hasil Algoritma MLR dan SLR 123 pada kitaran keempat. 5.7 Perbandingan hasil Algoritma MLR dan SLR 124 pada kitaran kelima. 5.8 Rumusan perbandingan hasil Algoritma MLR 126 dan SLR pada kelima-lima kitaran 5.9 Peratus perbandingan penentuan dan 128 pengkelasan elemen hujahan antara Teknik MMB dan Logik Fuzzy pada kitaran pertama. 5.10 Peratus perbandingan penentuan dan 129 pengkelasan elemen hujahan antara Teknik MMB dan Logik Fuzzy pada kitaran kedua. 5.11 Peratus perbandingan penentuan dan pengkelasan elemen hujahan antara Teknik MMB dan Logik Fuzzy pada kitaran ketiga. 131 xvii 5.12 Peratus perbandingan penentuan dan 132 pengkelasan elemen hujahan antara Teknik MMB dan Logik Fuzzy pada kitaran keempat. 5.13 Peratus perbandingan penentuan dan 134 pengkelasan elemen hujahan antara Teknik MMB dan Logik Fuzzy pada kitaran kelima. 5.14 Rumusan perbandingan penentuan dan 135 pengkelasan elemen hujahan antara Teknik MMB dan Logik Fuzzy bagi kelima-lima kitaran five-fold cross-validation. 5.15 Graf perbandingan penilaian gred esei antara penilaian manusia dan teknik penilaian bagi bagi kelima-lima kitaran five-fold crossvalidation. 137 xviii SENARAI RUMUS DAN ALGORITMA NO ALGORITMA/ TAJUK RUMUS MUKA SURAT 2.1 Rumus umum MMB. 31 2.2 Rumus umum MM. 32 4.1 Rumus MMB menggunakan ln kebarangkalian. 91 4.2 Rumus kebarangkalian prior. 92 4.3 Rumus kebarangkalian conditional bagi kes 93 pertama. 4.4 Rumus kebarangkalian conditional bagi kes kedua. 93 4.5 Rumus untuk mendapatkan kebarangkalian 93 conditional bagi kes pertama. 4.6 Rumus untuk mendapatkan kebarangkalian 93 conditional bagi kes kedua. 4.7 Fungsi keahlian Trapezoidal bagi Set Fuzzy A. 96 4.8 Fungsi keahlian Trapezoidal bagi Set Fuzzy B. 96 4.9 Rumus Set Fuzzy A. 96 4.10 Operasi Set Fuzzy Union. 97 4.11 Operasi Set Fuzzy Intersection. 97 4.12 Cartesian product. 98 4.13 Subset Fuzzy kepada Cartesian product. 98 4.14 Subset Fuzzy bagi A × B. 98 4.15 Matrik R. 99 xix 4.16 Operasi Compositional. 99 4.17 Rumus Umum Pengunduran Linear Berganda. 100 4.18 Bentuk skala bagi persamaan normal 101 4.19 Rumus normal kuasa dua-terkecil. 101 4.20 Rumus normal kuasa dua-terkecil dalam bentuk 102 matrik. 4.21 Peramal kuasa dua terkecil 102 4.22 Peramal kuasa dua terkecil bagi E 102 4.23 Peramal kuasa dua terkecil dalam bentuk matrik 102 4.24 Vektor residual 103 4.25 Statistik F* untuk pengujian F. 104 4.26 Statistik ujian F setara. 104 4.27 Penentuan pembolehubah X. 105 4.28 Rumus penjelmaan linear. 106 4.29 Rumus kandungan esei. 107 4.30 Rumus pemberat perkataan. 107 4.31 Rumus kandungan argumen. 108 4.32 Rumus pemberat ciri tetap 109 4.33 Rumus gabungan penilaian 110 4.34 Ringkasan rumus gabungan penilaian 110 5.1 Rumus precision. 114 5.2 Rumus recall. 114 5.3 Rumus f-measure. 114 5.4 Rumus peramalan gaya olahan kitaran pertama. 117 5.5 Rumus peramalan gaya olahan kitaran kedua. 117 5.6 Rumus peramalan gaya olahan kitaran ketiga. 118 5.7 Rumus peramalan gaya olahan kitaran keempat. 118 5.8 Rumus peramalan gaya olahan kitaran kelima. 118 xx SENARAI SINGKATAN CbAS - Penilaian Esei Berbantukan Komputer UPSR - Ujian Penilaian Sekolah Rendah SLR - Pengunduran Linear Stepwise MMB - Model Multivariate Bernoulli MLR - Pengunduran Linear Berganda AGREEM - Kesetaraan penilaian antara penilaian manusia dan penilaian menggunakan teknik penilaian AI - Kepintaran Buatan GMAT - Graduate Management Admissions Test NLP - Pemprosesan Bahasa Tabii PEG - Project Essay Grader IEA - Intelligent Essay Assessor E-rater - Electronic Essay Rater ETS - Educational Testing Service IR - Perolehan Maklumat US - United States MM - Model Multinomial WWB - Writer’s Workbench AWA - Analytical Writing Assessment VSM - Model Ruang Vektor C-rater - Criterion-rater BETSY - Bayesian Essay Test Scoring sYstem IEMS - Intelligent Essay Marking System SEAR - Schema Extract Analyse and Report PS-ME - Paperless School free text Marking Engine SVD - Penguraian Nilai Tunggal LSA - Analisa Semantik Latent xxi MsNLP - Microsoft Natural Language Processing XP - X Phrase CSR - Perwakilan Struktur-Konsep Indextron - Rangkaian Neural Pengindeksan Corak NCAS - National Curriculum Assessment of Science ACC - ketepatan keputusan CORR - kolerasi pengunduran berganda TOEFL - Test of English as a Foreign Language AEL - purata panjang elemen hujahan EC - kandungan esei AC - kandungan argumen PMM - Peraturan Memberi Markah OBP - Operasi Baris Permulaan RST - Teori Struktur Retorik KB - Pangkalan Pengetahuan SD - Sisihan Piawai xxii SENARAI ISTILAH Ambiguiti – Kesamaran yang memungkinkan dua atau beberapa tafsiran. Anafora – Pengulangan sesuatu kata atau frasa pada permulaan beberapa kalimat atau klausa yang berturut-turut agar memperoleh kesan tertentu. Dikotomi – Pembahagian (pemisahan) antara dua kumpulan (kelompok) dalam sesuatu hal yang saling bertentangan. Diksi – Pemilihan kata/gaya sebutan. Fonetik – Ilmu bahasa (linguistik) yang berkaitan dengan penyebutan kata dan lambang yang menunjukkan sebutannya. Gramatis – Berasaskan atau mengikut prinsip-prinsip nahu atau tatabahasa. Infleksi – Penambahan imbuhan pada kata akar atau dasar. Intrinsik – Sebagai sebahagian daripada sifat atau ciri seseorang atau sesuatu. Kognitif – Segala perkara yang berkaitan dengan kognisi seperti proses pembelajaran, pemahaman dan pemerolehan pengetahuan. Koordinasi – Saling hubungan (yang dapat melicinkan perjalanan sesuatu), jalinan pertalian (tindakan, gerakan) antara bahagian-bahagian dan lain-lain yang terlibat (dalam kegiatan dan lain-lain), penyelarasan. Kopula – Perkataan yang menghubungkan perkara atau subjek dalam ayat dengan predikatnya. xxiii Leksikal – Berkenaan dengan perkataan atau perbendaharaan kata sesuatu bahasa, makna sesuatu perkataan itu sendiri tanpa melihat penggunaannya dalam ayat. Leksikon – Kamus, perbendaharaan kata sesuatu bahasa atau sesuatu bidang. Modus – Cara, gaya, prosidur untuk melaksanakan sesuatu. Monotoni – Tidak adanya keseragaman (pada nada, kerja, dan sebagainya.) Morfem – Gabungan terkecil dalam bahasa yang mempunyai erti atau fungsian tertentu, contohnya perkataan ‘perumahan’ terdiri daripada satu morfem bebas iaitu perkataan ‘rumah’ dan dua morfem terikat iaitu ‘per-’ dan ‘-an’. Morfologi – Kajian tentang pembentukan kata dalam sesuatu bahasa, termasuk infleksi, terbitan dan pemajmukan. Nahu – Cabang ilmu linguistik yang berkaitan dengan sintaksis, morfologi, tatabahasa dan sebagainya. Sintaksis – Pengetahuan (cabang ilmu linguistik, peraturan da sebagainya) tentang susunan kata dalam ayat. Taksonomi – Kajian tentang prinsip, peraturan, dan amalan dalam pengelasan organisma hidup berdasarkan persamaan dan perbezaan sifat organisma itu. Transitif – Kata kerja yang mempunyai penyambut (objek). xxiv SENARAI LAMPIRAN LAMPIRAN PERKARA MUKA SURAT A Contoh Data Pengujian. 158 B Contoh Data Latihan. 171 C Skema Penilaian Esei UPSR. 184 D Skala Panduan Markah Gaya Olahan. 186 E Senarai Keseluruhan Ciri Untuk Penilaian 188 Esei. BAB 1 PENGENALAN 1.1 Pendahuluan Kebolehan komputer untuk berkomunikasi dalam bahasa tabii telah lama diperakui dalam bidang Kepintaran Buatan (AI). Kemampuannya untuk menilai sesuatu yang bersifat subjektif seperti esei untuk Graduate Management Admissions Test (GMAT)(Mart, 2000), telah membuka lembaran baru dalam era dunia sains dan praktikal AI. Secara tidak langsung, ianya dipercayai akan memberi impak yang besar kepada penggunaan komputer dalam lapangan pendidikan pada masa hadapan. Sistem penilaian esei berbantukan komputer (CbAS) ini telah mula diperkenalkan kira-kira empat dekad yang lalu, iaitu pada tahun 1966 oleh Ellis Page (Page, 1994). Diinspirasikan daripada Pemprosesan Bahasa Tabii (NLP) pada masa tersebut, beberapa pengkaji di Connecticut berpendapat bahawa komputer mampu untuk memainkan peranan yang besar dalam membuat penilaian ke atas penulisan esei pelajar. Malah, sebahagian penyelidik dalam bidang NLP bersependapat bahawa CbAS dan NLP telah dirintis pada sekitar tahun 1960-an (Burstein et al., 2003). Hari demi hari, para pengkaji meneruskan kajian dalam bidang ini sehingga mereka telah menempa kejayaan yang besar pada hari ini. Buktinya, beberapa buah sistem prototaip kini telah dipertingkatkan hingga ke tahap sistem pengoperasian sepenuhnya (Hearst, 2000). Bagaimanapun, ianya masih belum lagi dianggap sebagai CbAS yang cukup sempurna (Valenti et al., 2003). Ini kerana, beberapa proses dalam peramalan penilaian CbAS tersebut masih boleh dipertingkatkan dan dioptimumkan pencapaiannya. 2 Berdasarkan kajian yang telah dilakukan oleh Rudner dan Gange (2001), terdapat tiga buah CbAS yang telah berjaya dan seringkali digunakan dalam pemarkahan esei berkomputer buat masa ini: (1) Project Essay Grader (PEG), diperkenalkan oleh Ellis Page pada tahun 1966; (2) Intelligent Essay Assessor (IEA), diperkenalkan untuk pemarkahan esei pada tahun 1997 oleh Laundauer dan Foltz (2000); dan (3) Electronic Essay Rater (E-rater), digunakan oleh Educational Testing Service (ETS) dan dibangunkan oleh Jill Burstein (Rudner dan Gange, 2001). E-rater adalah ‘Teknologi Gabungan Ciri-ciri’yang menggaplikasikan kepelbagaian sintaksis, struktur hujahan (seperti PEG) dan analisa kandungan (seperti IEA). Tetapi, kajian terbaru oleh Valenti et al. (2003), menyatakan bahawa kini telah terdapat kira-kira 40 buah CbAS yang telah berjaya dibangunkan sebagai sistem pengoperasian sepenuhnya. Perincian tentang fakta ini akan dinyatakan dalam Bab 2: Kajian Literatur. Setiap ujian esei dinilai berpandukan kepada skema penilaian esei yang khusus (Burstein dan Marcu, 2000). Dengan itu, pembangunan sesebuah sistem penilaian mestilah selaras dengan skema penilaian tersebut dari segi kriteria penilaian dan peratusan untuk setiap kriteria tersebut (contohnya bahagian bahasa, isi kandungan dan gaya olahan). Secara amnya, skema bagi ujian yang berlainan adalah berbeza dari segi ciri-ciri dan pembahagian markah bagi ciri tersebut. Namun begitu, masih terdapat beberapa persamaan yang wujud khususnya dari segi ciri-ciri penting yang diambilkira dalam skema penilaian tersebut. Antaranya, kesalahan bahasa, pengenalpastian elemen-elemen hujahan (pendahuluan, isi-isi penting dan penutup) dan gaya olahan (Mohd Isa, 2004). Di sini, faktor kemanusiaan memainkan peranan penting kerana ketiga-tiga ciri tersebut boleh dianggap mudah bagi manusia untuk menilainya, namun agak sukar dan menjadi masalah bagi komputer untuk memprosesnya. Namun, dengan bantuan pelbagai kemudahan seperti adanya teknikteknik AI dan NLP serta peralatan pemprosesan yang berkemampuan tinggi, memungkinkan matlamat ini mencapai kejayaan (rujuk Jadual 2.2). 3 1.2 Latar Belakang Masalah Esei dianggap oleh para penyelidik sebagai kayu pengukur yang sangat kondusif untuk mengukur kebolehan seseorang untuk mengingat kembali, menyusun, menjana idea dan menyatakan pendapat sendiri berbanding dengan soalan berbentuk objektif yang hanya menguji kemampuan seseorang untuk menterjemah dan mengaplikasi data semata-mata serta kurang memberikan maklumbalas yang berkesan (Gronlund, 1985). Malah, berdasarkan aras penilaian yang telah ditetapkan oleh taksonomi Bloom, penilaian esei berada di dua peringkat tertinggi dalam aras penilaian tersebut, iaitu aras penilaian dan sintesis (Bloom, 1956). Berbanding soalan berbentuk objektif yang lebih banyak menguji kefahaman dan ingatan seseorang, soalan esei didapati lebih sukar untuk dinilai kerana ianya lebih bersifat subjektif. Jika diperhalusi, kesubjektifan ini mengundang kebarangkalian berlakunya perbezaan gred yang diberi oleh penilai yang berbeza. Malahan, penilaian yang dibuat oleh penilai yang sama ke atas esei yang sama sekalipun, tetapi pada waktu yang berbeza, berkemungkinan untuk menghasilkan gred yang berlainan. Ini berlaku disebabkan faktor emosi yang mempengaruhi tahap penilaian seseorang penilai, samada lebih ketat (strict), sederhana atau lebih longgar (lenient). CbAS yang berkemampuan untuk menilai penulisan pelajar secara automasi, dilihat memberi impak positif berganda kepada tenaga pengajar dan mereka yang terlibat secara langsung atau tidak dalam bidang pendidikan (Palmer et al., 2002). Apabila terlalu banyak esei yang perlu dinilai dalam satu-satu masa, para guru ini akan menjadi buntu dan menghadapi masalah untuk menilai secara konsisten dan memberi komen yang baik, lebih-lebih lagi jika masa yang ada terlalu singkat. Pihak pentadbir pendidikan pula menumpukan kepada komen yang berkualiti dengan masa yang minimum, tetapi dalam masa yang sama perlu mengambilkira kos yang perlu dibayar. Justeru itu, sistem penilaian ini mendapat permintaan yang tinggi sebagai alatan pendidikan, di samping dapat mengurangkan kos dan meminimakan masa penilaian (Hedberg, 1999). 4 Penilaian esei berautomasi ini sebenarnya telah diperolopori lebih dari 30 tahun (Williams, 2001). Namun begitu, hanya sejak akhir-akhir ini, perlaksanaannya telah dibangunkan dan diuji secara praktikal. Ini kerana, pada awal kewujudannya, sistem penilaian yang dibangunkan pada ketika itu hanya mampu mengukur kualiti esei berdasarkan ciri-ciri luaran seperti purata panjang perkataan, panjang esei, bilangan koma, bilangan kata depan dan bilangan kata retorik (Hearst, 2000). Ini secara tidak langsung menyebabkan timbulnya kritikan daripada barisan penilai dalam bidang pendidikan. Sebagai contohnya, esei yang ditulis dengan lebih panjang, akan mendapat gred yang lebih baik, tanpa mengambilkira kualiti penulisan tersebut. Namun begitu, dengan berkembangnya penyelidikan dalam domain NLP dan Perolehan Maklumat (IR) telah memungkinkan penghasilan sistem penilaian yang berkemampuan untuk mengukur bukan sahaja ciri-ciri luaran, malah yang lebih penting turut mengambilkira ciri-ciri dalaman. Page dan rakan-rakan sekolejnya, telah mendahului senarai pembangunan CbAS dengan membangunkan PEG pada tahun 1966 (Rudner dan Gange, 2001). PEG pada awal pembangunannya turut mengalami kekangan yang sama iaitu hanya mengambilkira ciri-ciri luaran, namun kini telah berupaya menilai ciri-ciri struktur (isi kandungan dan gaya olahan) untuk mengukur kualiti esei. Ianya juga merupakan implementasi penilaian esei berautomasi terawal dan paling lama bertahan. IEA pula mengaplikasikan pendekatan “bag of words” dan telah dibangunkan dan dinilai oleh Landauer di University Colorado, Boulder (Tony, 2004). Ianya telah mengambilkira ciri-ciri linguistik (kesalahan bahasa) tetapi memfokuskan kepada ciri-ciri struktur untuk mengukur kualiti sesebuah penulisan. Setelah itu, Jill Burstein telah mengorak langkah dengan membangunkan Erater di ETS, United States (US), yang mana telah digunakan untuk menilai esei-esei GMAT pada masa kini. Model ini meningkatkan kemampuan PEG dan IEA dengan menggunakan pendekatan hybrid yang menggabungkan ciri-ciri linguistik (dengan mengaplikasikan teknik-teknik NLP) dan ciri-ciri struktur esei yang lain. Dengan kata lain, E-rater menggabungkan kelebihan kedua-dua model sebelum ini dengan 5 mengambilkira kedua-dua elemen penting iaitu ciri-ciri linguistik (bahasa) dan ciriciri struktur (peramalan). Bertitik tolak dari situ, para penyelidik berlumba-lumba untuk membangunkan sebuah sistem penilaian esei berautomasi yang lebih sempurna. Kini, terdapat lebih daripada 40 buah CbAS komersial di pasaran (Valenti et al., 2003). Namun begitu, ianya masih berkisar dengan isu asas sesebuah sistem penilaian yang lain iaitu sejauh mana kemampuan sistem tersebut membuat peramalan sebaik manusia. Di sini, kajian demi kajian dilakukan untuk meningkatkan tahap kesetaraan penilaian manusia-sistem agar boleh mencapai objektif utama iaitu menggantikan penilai kedua (manusia) tetapi dalam masa yang sama boleh bertindak sebaik manusia (rujuk Rajah 2.6). Untuk tujuan itu, para penyelidik telah mengadaptasikan pelbagai teknik dan algoritma yang terbaik untuk membuat peramalan yang paling optimum ke atas kedua-dua elemen penilaian iaitu ciri-ciri linguistik dan ciri-ciri struktur. Ini kerana, kebanyakan skema penilaian esei sekarang ini mengambilkira kedua-dua elemen tersebut. Namun begitu, sebelum sebarang teknik dapat dilaksanakan samada ke atas ciri lingusitik mahupun ciri struktur, masalah pertama yang wujud ialah kegagalan sistem untuk mengenalpasti dan memperbetulkan ralat ejaan sebaik manusia (Leacock, 2004). Lebih teruk lagi, ianya turut mempengaruhi ketepatan dan peratus kesetaraan penilaian manusia-sistem di akhir pembangunan sesebuah CbAS. Bagi kebanyakan CbAS, ianya menekankan elemen tatabahasa, perbendaharaan kata, mekanik (ejaan, imbuhan dan tanda baca), gaya penulisan (olahan) dan struktur hujahan (elemen hujahan) (Burstein dan Wolska, 2003; Leacock, 2004; Yigal, 2004; Semire Dikli, 2006; Yigal dan Burstein, 2006). Manakala sebahagiannya hanya menekankan komponen struktur hujahan, struktur sintaksis (bahasa) dan penggunaan perbendaharaan kata (Burstein et al., 2001). 6 Burstein dan Wolska (2003) menyatakan bahawa protokol penandaan dan teknik yang berkesan diperlukan dalam menentukan dan mengkelaskan elemenelemen hujahan (penyataan tesis, isi-isi penting dan penyataan penutup) yang wujud dalam sesebuah esei seperti penyataan tesis dan penyataan penutup. Mereka menerangkan bahawa walaupun penanda dilatih untuk membuat penentuan elemen hujahan, tetapi masih wujud kelemahan dari segi ketepatan pengkelasan elemen hujahan tersebut. Pengkelasan ini penting kerana ianya boleh digunakan oleh pelajar untuk membuat rujukan dan mengukur saling perkaitannya dengan kualiti esei yang ditulis (Burstein et al., 2001). Antara teknik yang digunakan dalam menentukan dan mengkelaskan argumen (ayat) dalam esei kepada sesebuah elemen hujahan yang khusus ialah Model Multinomial, k-nearest neighbor (pendekatan kebarangkalian), Logik Fuzzy (pendekatan berbantukan-keputusan) (Leacock, 2004). Menurut Leacock (2004) lagi, Alatan Penganalisa Penulisan sedia ada hanya menentukan elemen hujahan tetapi tidak menilai kualiti elemen tersebut. Berdasarkan kenyataan Burstein dan Marcu (2003) pula, Fuzzy dalam sesetengah keadaan menggambarkan kualiti penulisan secara umum. Namun ianya tidak menyatakan dengan terperinci ciri-ciri linguistik yang mempengaruhi kualiti tersebut. Selain itu, masalah yang paling relevan di dalam bidang pemarkahan esei berautomasi juga ialah kesukaran untuk mendapatkan korpus esei (data) yang banyak (Christie, 2003; Larkey, 2003), setiap satunya dengan markah yang telah dinilai oleh manusia untuk tujuan latihan dan pengujian. Dalam penyelidikan ini, untuk mengenalpasti dan mengkelaskan setiap elemen hujahan dalam esei yang terdiri daripada pernyataan pendahuluan, isi-isi penting dan pernyataan penutup, kita akan mengaplikasikan Teknik Model Multivariate Bernoulli (MMB) daripada pendekatan Bayesian. Antara lain, penggunaan MMB ini juga adalah disebabkan ianya melibatkan saiz korpus (data) yang kecil dan mengambilkira ciri yang wujud dan tidak wujud dalam membuat penentuan dan pengkelasan elemen hujahan sekaligus mengukur ciri linguistik yang mempengaruhi kualiti penulisan tersebut berbanding Logik Fuzzy dan Model Multinomial (MM) (Little, 2001; Burstein et al., 2001; Sullivan dan Daghestani, 1997). 7 Bagi membuat peramalan gaya olahan, beberapa ciri telah digunakan oleh para penyelidik terdahulu. Antaranya purata panjang perkataan, tahap kegramatisan ayat, peratusan kata kerja pasif, peratusan kata nama dan penggunaan perkataan yang sama berulang kali (Burstein dan Wolska, 2003). Yi-fang Brook Wu dan Xin Chen (2005) menyatakan bahawa gaya penulisan adalah penting untuk membentuk esei berkualiti tinggi, kerana kebiasaannya, penulis akan mengelak dari menggunakan perkataan yang sama untuk menjelaskan konsep yang sama. Masalah wujud di sini ialah untuk membuat peramalan tahap gaya olahan yang lebih optimum yang menghampiri penilaian manusia menggunakan corak hubungan koefisien-pemberat dalam persamaan pengunduran yang sepadan (Valenti et al. 2003; Attali dan Burstein, 2006). Malah Attali dan Burstein (2006) turut menyatakan masalah penggunaan Algoritma Pengunduran Linear Stepwise (SLR) dalam menentukan pekali pemberat ciri yang optimum adalah kurang efisyen kerana set ciri yang digunakan adalah tidak piawai di mana bilangan dan jenis ciri yang dipilih adalah berbeza untuk penilaian esei yang berlainan. Daripada kajian yang dilakukan (Burstein et al., 1998; Attali dan Burstein, 2006), CbAS semasa memerlukan pengumpulan banyak data (set esei) yang signifikan dan telah dinilai oleh manusia. Ini akan memakan masa dan memerlukan kos yang tinggi. Model terdahulu juga bergantung kepada subset pembolehubah bagi lapan hingga 12 ciri peramalan yang dipilih menggunakan Algoritma SLR daripada set yang bersaiz lebih besar, iaitu kira-kira 57 ciri (Burstein et al., 1998; Burstein dan Marcu, 2000). Sebaliknya, dengan menggunakan Algoritma Pengunduran Linear Berganda (MLR), sebanyak enam ciri yang lebih optimum dan signifikan untuk membuat peramalan penilaian telah ditetapkan berdasarkan kajian-kajian penyelidik terdahulu (Attali, 2004; Attali dan Burstein, 2004; Attali dan Burstein, 2006, Semire Dikli, 2006). Dengan ini juga, ianya menjamin peramalan gaya olahan yang lebih piawai menggunakan set ciri yang bersaiz lebih kecil (Attali, 2004). 8 1.3 Pernyataan Masalah Sepertimana telah dinyatakan dalam Subtopik 1.2, kajian ini akan menyelesaikan masalah ralat-ejaan, penentuan elemen-elemen hujahan dan peramalan gaya olahan esei. Seterusnya, tiga pernyataan masalah yang telah dikenalpasti ialah (i) Bagaimanakah kaedah dan teknik kebarangkalian mampu mengenalpasti dan memperbetulkan ralat-ejaan sesebuah perkataan dalam Fasa Pra-pemprosesan dan Pengekstrakan Data? (ii) Sejauh manakah kebaikan pengelasan elemen-elemen hujahan yang terdiri daripada penyataan tesis, isi-isi penting dan penyataan kesimpulan menggunakan Teknik Model Multivariate Bernoulli (MMB) daripada pendekatan Bayesian menggunakan pemberat ciri tetap dapat mengenalpasti dan menganalisa Bahagian Isi Kandungan sesebuah esei? (iii) Bagaimanakah pemberat ciri optimum dalam Algoritma Pengunduran Linear Berganda (MLR) menggunakan set ciri bersaiz lebih kecil dapat menghasilkan persamaan pengunduran yang paling sesuai (best fitted) untuk memastikan peramalan gaya olahan yang lebih tepat dan seterusnya menjamin tahap kesetaraan penilaian yang lebih tinggi antara manusia dan penggunaan teknik penilaian? 1.4 Matlamat Matlamat kajian ini adalah untuk mengkaji keberkesanan Teknik MMB dalam menentukan dan mengkelaskan elemen-elemen hujahan esei dan menguji kemampuan Algoritma MLR dalam membuat peramalan markah gaya olahan esei. Hasil daripada kedua-dua teknik tersebut akan diaplikasikan untuk mendapatkan gred akhir prototaip bagi membandingkan dengan gred akhir yang dinilai oleh manusia. 9 1.5 Objektif Objektif kajian ini ialah: (i) Menggunakan kaedah kebarangkalian untuk mengenalpasti dan membetulkan ralat-ejaan sesebuah perkataan. (ii) Menggunakan pendekatan pengkelas Bayesian yang dilatih menggunakan Rumus MMB untuk menentukan dan mengkelaskan elemen-elemen hujahan yang mewakili sebahagian ciri tetap peramalan esei. (iii) Mengaplikasikan Algoritma MLR ke atas ciri optimum untuk mendapatkan pekali pemberat paling hampir bagi menghasilkan peramalan gaya olahan yang lebih tepat. (iv) Menggunakan keputusan daripada objektif (ii) dan (iii) dan digabungkan dengan lima kriteria kesalahan bahasa untuk membuat perbandingan dengan penilaian manusia. 1.6 Skop (i) Esei yang dinilai hanya dalam Bahasa Melayu. (ii) Maksimum panjang esei yang diambilkira tidak melebihi 120 patah perkataan. (iii) Topik esei telah ditentukan dengan jelas. (iv) Menggunakan skema pemarkahan mengikut piawaian Ujian Penilaian Sekolah Rendah (UPSR) iaitu gred A, B, C, D dan E. (v) Hanya membangunkan model atau prototaip sistem, bukan sistem akhir. (vi) Format penulisan esei tidak diambilkira. (vii) Pembetulan ralat-ejaan hanya dibuat pada kata dasar sesebuah perkataan, tidak melibatkan imbuhan. 10 (viii) 160 sampel esei digunakan untuk latihan dan 40 sampel esei digunakan untuk ujian berdasarkan prosidur five-fold cross validation. (ix) Julat kebarangkalian bagi MBM ialah -2.0 hingga 2.0 (x) Tidak mengambilkira nilai ralat e dalam persamaan pengunduran MLR untuk tujuan pengujian gaya olahan. (xi) Tidak mengambilkira faktor esei yang ditulis di luar topik. (xii) Hanya mengambilkira bahagian isi kandungan dan gaya olahan, tetapi tidak melibatkan kriteria kesalahan bahasa. 1.7 Kepentingan Penyelidikan Kajian ini dilakukan untuk meningkatkan teknik peramalan dalam membuat penilaian esei bagi menghasilkan keputusan yang lebih baik. Semoga dengan itu juga, penilaian yang akan dilakukan lebih tepat, konsisten dan pantas berbanding manusia. 1.8 Sumbangan Ilmiah Terdapat tiga sumbangan ilmu yang dikenalpasti dari penyelidikan yang dibuat. Kedua-dua penyelidikan ini saling berkaitan di antara satu sama lain. (i) Pengecaman dan pembetulan ralat-ejaan pada kata dasar. (ii) Penentuan dan pengkelasan elemen-elemen hujahan. (iii) Dapatan persamaan ramalan yang lebih optimum untuk gaya olahan. 11 1.9 Struktur Tesis Tesis ini terdiri daripada enam bab. Bab 1 terdiri daripada pengenalan kepada penyelidikan yang dilakukan. Topik-topik yang diketengahkan meliputi pengenalan kepada penyelidikan, latar belakang masalah kajian, pernyataan masalah, matlamat, objektif dan skop penyelidikan, kepentingan kajian dan sumbangan ilmiah yang diberikan. Bab 2 membincangkan tentang kajian literatur bagi CbAS. Ianya terdiri daripada kajian terhadap sejarah awal CbAS ini yang bermula dari kajian rintis, sistem CbAS semasa beserta pencapaiannya dan teknik-teknik yang digunakan. Selain itu, turut diperjelaskan tentang pernyataan masalah penyelidikan ini dibuat dan justifikasi pemilihan teknik dan algoritma yang digunakan. Seterusnya, Skema Pemarkahan UPSR akan dihuraikan secara terperinci sebagai panduan penilaian prototaip yang dibangunkan. Bab 3 menerangkan tentang metodologi beserta proses-proses yang terlibat dalam keempat-empat fasa iaitu Fasa I: Pra-Pemprosesan dan Pengektrakan Ciri, Fasa II: Latihan Peramalan Gaya Olahan, Fasa III: Latihan Pengkelasan Elemen Hujahan, dan Fasa IV: Pengujian Penilaian. Manakala Bab 4 pula memperincikan proses-proses utama bagi teknik penilaian iaitu teknik penentuan dan pengkelasan elemen hujahan (Teknik MMB dan Logik Fuzzy) dan teknik peramalan gaya olahan (Algoritma MLR dan Algoritma SLR). Selain itu, turut dibincangkan tentang pembangunan Pangkalan Data yang terlibat dan prosidur penilaian yang merangkumi rumus-rumus yang telah dinyatakan dalam Bab 3. Bab 5 membincangkan tentang hasil pengujian menggunakan prosidur fivefold cross validation beserta ulasan tentang keputusan ujian berdasarkan prosidur tersebut. Satu kesimpulan untuk merumuskan pengkajian akan diketengahkan di akhir bab. Hasil dari rumusan tersebut, masalah-masalah yang timbul akan 12 diperjelaskan sebabnya untuk memperbaiki serta mempertingkatkan lagi teknik yang diperolehi. Akhir sekali, Bab 6 akan membuat kesimpulan keseluruhan bagi kajian yang dilakukan beserta dengan cadangan kajian lanjutan yang mungkin berupaya untuk menambahbaik teknik-teknik yang dibangunkan. 1.10 Ringkasan Bab ini memperjelaskan justifikasi utama penyelidikan ini dilakukan. Ianya dimulai dengan membincangkan pengenalan kepada penyelidikan yang merintis pembangunan CbAS berserta contoh-contoh sistem penilaian terawal yang berjaya dibangunkan. Turut dibincangkan tentang skema pemarkahan esei yang digunakan sebagai panduan penilaian. Latar belakang masalah kajian pula membincangkan kajian rintis CbAS yang lebih lanjut dan dari situ, masalah-masalah yang wujud pada teknik penilaian semasa dikenalpasti dan dinyatakan. Masalah-masalah tersebut diperkukuhkan dengan kajian-kajian terbaru dan memerlukan teknik serta pendekatan yang efisyen untuk mengatasi masalah-masalah tersebut. Dengan itu, teknik dan pendekatan yang dipilih telah dibincangkan berserta dengan justifikasi ringkas pemilihan teknik dan pendekatan tersebut. Kemudiannya, masalah-masalah tersebut dirumuskan sebagai pernyataan masalah dan matlamat kajian yang bemotifkan pengoptimuman teknik penilaian turut dinyatakan. Objektif kajian ini yang bertujuan untuk mengatasi masalah yang telah dikenalpasti dinyatakan dengan jelas. Manakala kekangan atau ruang lingkup kajian dijelaskan dalam skop penyelidikan. Bab ini diakhiri dengan menyatakan kepentingan kajian yang memberi motivasi untuk penyelidikan ini dilaksanakan dan sumbangan ilmiah yang diperolehi hasil daripada penyelidikan ini. 13 Seterusnya, dalam Bab 2, perincian perjalanan pembangunan CbAS dari kajian rintis hingga ke kajian terkini dibincangkan. Turut diperjelaskan ialah tentang beberapa CbAS terkini berserta teknik dan pencapaiannya. Selain itu, bab ini juga menerangkan masalah-masalah yang dikenalpasti dalam Bab 1 dengan lebih lanjut dan kaedah penyelesaiannya. Kaedah penyelesaian tersebut akan disokong dengan justifikasi pemilihan masing-masing. Bab 2 diakhiri dengan penerangan yang lebih mendalam tentang Skema Pemarkahan Esei UPSR yang digunakan sebagai panduan penilaian dalam penyelidikan ini. BAB 2 KAJIAN LITERATUR 2.1 Pendahuluan Penilaian didapati memainkan peranan penting di dalam proses pendidikan. Tumpuan di dalam pembangunan dan penggunaan Sistem Penilaian Berbantukan Komputer (CbAS) semakin berkembang dengan pesatnya sejak akhir-akhir ini. Ianya adalah disebabkan oleh peningkatan bilangan pelajar yang memasuki universiti dan potensi yang disediakan oleh pendekatan e-pembelajaran melalui pendidikan asinkroni (tak segerak) dan berterusan. Berdasarkan kepada kajian (Valenti et al, 2003) kini terdapat lebih daripada 40 buah CbAS komersial di pasaran. Kebanyakan alatan tersebut adalah berasaskan kepada penggunaan soalan-soalan yang dikatakan berbentuk objektif seperti pelbagai pilihan, pelbagai jawapan, jawapan pendek, pemilihan/gabungan, hot spot, dan identifikasi visual (Valenti et al., 2000). Namun begitu, 10 buah CbAS yang akan dibincangkan secara lebih mendalam dalam penyelidikan ini menggunakan soalan berbentuk esei sebagai item sasaran latihan dan ujiannya. Kebanyakan penyelidik dalam bidang ini bersetuju pada kajian yang menyatakan bahawa beberapa aspek pencapaian kompleks adalah sukar untuk diukur menggunakan soalan berbentuk objektif (Valenti et al., 2003). Penulisan esei mampu mengukur kebolehan seseorang untuk mengingat kembali, menyusun, menjana idea dan menyatakan pendapat sendiri berbanding dengan soalan berbentuk objektif yang hanya menguji kemampuan seseorang untuk menterjemah dan mengaplikasi data semata-mata serta kurang memberikan maklumbalas yang berkesan (Gronlund, 15 1985). Di dalam pengukuran hasil tersebut, sepertimana peringkat taksonomi Bloom (Bloom, 1956) yang lebih tinggi (iaitu penilaian dan sintesis), menyatakan bahawa soalan esei dapat digunakan untuk mencapai objektif tersebut. Salah satu kesukaran di dalam menilai esei adalah kesubjektifan di dalam proses pemarkahan. Ramai penyelidik mendakwa bahawa kesubjektifan dalam penilaian esei mendorong kepada kepelbagaian gred yang diberikan oleh pakar penilai yang berbeza, di mana ia dilihat oleh pelajar sebagai faktor ketidakadilan yang sangat ketara. Tambahan pula, pemarkahan esei merupakan aktiviti yang memakan masa. Sungguhpun begitu, wajarkah para pengkaji memperuntukkan sebahagian besar masa untuk menyelidik sesuatu sekompleks bahasa dan membangunkan sistem penilaian sehebat manusia? Menurut Valenti et al. (2003), 30% dari masa guru-guru di Great Britain digunakan untuk menanda (memberi markah). Menurutnya lagi, sekiranya 30% masa tersebut ingin dikurangkan (yang dianggarkan oleh pembayar cukai: bernilai 3 Billion Pound UK per tahun), kaedah yang efektif, yang dipercayai oleh guru-guru, untuk menanda esei dan memberikan maklumbalas teks ringkas (pendek) adalah diperlukan. Oleh itu, penggunaan CbAS dilihat antara alternatif untuk mengatasi isu ini. Sistem penilaian ini sekurang-kurangnya bersifat lebih konsisten dalam menilai esei dan pengurangan kos serta penjimatan masa boleh dicapai sekiranya sistem boleh dibuktikan mampu menilai esei di dalam julat (ruang lingkup) sepertimana yang dinilai oleh manusia. Tambahan pula, menurut (Hearst, 2000), dengan menggunakan komputer untuk meningkatkan kefahaman kita tentang ciri-ciri teks dan kemahiran kognitif yang melibatkan penciptaan dan kefahaman teks yang ditulis, ianya akan mendatangkan faedah kepada komuniti pendidikan. Malah “ia akan membantu kita membangunkan lebih banyak bahan pendidikan yang efektif di dalam meningkatkan pembacaan, penulisan dan lain-lain kebolehan komunikasi. Ia juga membantu kita membangunkan lebih banyak teknologi yang efektif seperti enjin pencarian dan sistem soal jawab untuk menyediakan capaian menyeluruh kepada maklumat elektronik ” . 16 2.2 Latar Belakang Penilaian Esei Berbantukan Komputer Kemampuan untuk berkomukasi dalam bahasa tabii merupakan antara ciriciri kepintaran manusia (Rudner dan Liang, 2002). Kemampuan ini cuba diadaptasikan dalam bentuk penulisan untuk mempersembahkan bahasa manusia menggunakan formula dan algoritma yang spesifik. Dengan itu, tidak mustahil untuk membina sebuah program komputer yang berkebolehan untuk melakukan penilaian penulisan seperti manusia. Namun, ia memerlukan pelbagai maklumat ciri-ciri manusia seperti linguistik, kognitif dan lain-lain kebolehan yang diaplikasikan bersama-sama teknik NLP, IR dan AI yang berkesan untuk menentukan samada sesuatu penulisan (esei) itu dikategorikan sebagai baik atau sebaliknya. 2.2.1 Kajian Awal Ellis Page telah menyediakan peringkat evolusi penilaian penulisan (lihat Rajah 2.1). Berdasarkan kepada permintaan yang tinggi oleh para guru dan program pengujian berskala-besar dalam menilai esei pelajar, Page membangunkan CbAS yang dipanggil Project Essay Grader (PEG) (Cooper dan Odell, 1978). Beliau telah melakukan kajian terhadap pelbagai ciri-ciri teks yang diekstrak secara automasi dan mengaplikasikan Pengunduran Linear Stepwise (SLR) untuk menentukan kombinasi ciri-ciri pemberat yang optimum untuk melakukan peramalan terbaik mengikut penilaian guru. Keputusan PEG menunjukkan bahawa kolerasi penggandaan R berbanding penilaian guru ialah setinggi 80% (Jerrams-Smith et al., 2001). 17 Kajian Rintis PenilaianPenulisan Kajian Semasa PemarkahanEsei Sistem Pengoperasian Computer Analysis Of Essay Content Burstein, et al. PEG Page e-rater ETS Latent Semantic Analysis Knowledge Analysis Intelligent Essay Writer’s PEG Technologies Assessor Page Workbench Criterion Landauer et al. MacDonald PEG ETS Technologies et al. PEG Page Page dan Peterson 19661968 1982 19941995 1997 19982000 Kajian Semasa ETS Writing Diagnostics Chodorow dan Leacock Miltsakaki dan Kukich Burstein dan Marcu Kajian Lanjut dan Aplikasi Questionanswering systems Short-answer Light, et al scoring Verbal test Leacock dan creation tools Chodorow StudentHirschman et centered al. Instructional Breck et al. systems 2000 2000- Rajah 2.1: Garismasa perkembangan kajian dalam bidang penilaian penulisan (Hearst, 2000). Pada tahun 1960-an, jenis ciri-ciri yang boleh diekstrak secara automasi daripada teks adalah amat terhad kepada ciri-ciri luaran sahaja seperti purata panjang perkataan, jumlah perkataan dalam esei, bilangan koma, bilangan kata ganti nama dan bilangan perkataan yang tidak dikenali. Page hanya menggunakan pengukuran ciri-ciri luaran kerana kesukaran mengimplementasi pengukuran ciri-ciri dalaman (merangkumi ciri-ciri bahasa, elemen hujahan, gaya olahan) pada masa itu. Oleh kerana kekangan tersebut, kemampuan sistem ini telah dipertikaikan. Penggunaan pengukuran ciri-ciri luaran telah mendedahkan sistem kepada berlakunya penipuan oleh pelajar seperti penulisan esei yang terlalu panjang untuk mendapatkan markah yang lebih tinggi. Malah lebih buruk lagi, pengukuran ciri-ciri luaran tidak mengambilkira kualiti yang penting sesebuah penulisan seperti kandungan, organisasi (struktur) dan gaya olahan. Oleh itu, ianya tidak dapat menyediakan maklumbalas pengajaran kepada pelajar. Oleh yang demikian, cabaran utama bagi para pengkaji pada waktu itu ialah untuk mengenalpasti dan mengekstrak kualiti penulisan secara automasi lebih kepada pengukuran ciri-ciri dalaman. 18 Pada awal 1980-an, Writer’s Workbench (WWB) telah mengambil langkah utama mencapai matlamat tersebut (Freedman, 1983). WWB bukanlah sebuah sistem penilaian-esei. Namun, ianya bermatlamat untuk menyediakan maklumbalas yang membantu penulis tentang ejaan, pengucapan (perbendaharaan) dan kebolehbacaan. Bagi pengujian ejaan, WWB memasukkan program perbendaharaan kata yang akan mengenalpasti penyalahgunaan perkataan yang seringkali dilakukan. Ia juga mengandungi program untuk melakukan pengiraan bagi pengukuran beberapa piawaian kebolehbacaan berdasarkan kepada bilangan perkataan, suku kata dan ayat. Walaupun sistem WWB masih belum melepasi tahap kajian permulaan tentang teks, namun ianya berada di landasan terbaik untuk melakukan analisa berautomasi ke atas kualiti penulisan. Berdasarkan kajian yang dibuat, secara keseluruhannya, WWB mencapai 52% ketepatan dalam mengesan kesalahan ejaan dalam penulisan (Hsien-Chin Liou, 1993) Malah, Humphrey dan Shneiderman (1990) yang melakukan kajian ke atas 200 responden mendapati kira-kira 60% daripada responden tersebut yang memberi maklumbalas positif berhubung penggunaan WWB dalam aplikasi penulisan mereka. 2.2.2 Kajian Semasa Pada tahun 1990-an, penerokaan dalam bidang NLP dan IR menjadi pemangkin kepada para pengkaji untuk mengaplikasikan alatan pengiraan dan teknik yang baru (Brill dan Mooney, 1997) selaras dengan matlamat untuk melakukan pengekstrakan secara automasi bagi esei menggunakan pengukuran ciri-ciri dalaman terhadap kualiti penulisan. Malah antara faktor yang menyumbang kepada perkembangan NLP pada awal 1990-an adalah disebabkan oleh suntikan pembiayaan yang besar untuk tujuan penyelidikan oleh kerajaan US (Jacobs, 2001). Panduan penilaian esei Analytical Writing Assessment (AWA) iaitu sebahagian daripada General Management Aptitude Test (GMAT) telah menyatakan tentang sebuah set kualiti secara umum dalam melakukan penilaian penulisan. Ianya 19 mengandungi kepelbagaian sintaksis(struktur ayat), kandungan topikal (elemen hujahan) dan olahan idea (gaya olahan) (Burstein, et al., 2000). Pasukan pengkaji Educational Testing Service (ETS), yang diketuai oleh Jill Burstein, melakukan hipotesis ke atas sebuah set ciri-ciri linguistik yang menggunakan pengukuran langsung (ciri-ciri dalaman) berdasarkan kualiti umum tersebut. Ciri-ciri tersebut diekstrak secara automasi daripada esei menggunakan teknik-teknik NLP dan IR. Sebagai contoh, pengkaji ETS boleh mengukur kepelbagaian sintaksis berdasarkan ciri-ciri yang akan mengambilkira jenis ayat dan klausa dalam esei dan boleh mendapatkan nilai penghampiran untuk ciri-ciri tersebut menggunakan alatan pemproses sintaksis yang terdapat dalam NLP. Mereka juga boleh mengukur kandungan topik menggunakan analisa kandungan perbendaharaan kata, memperolehi nilai bagi ciri-ciri tersebut menggunakan Teknik Model Ruang Vektor (VSM) yang mana ianya sering digunakan dalam bidang IR. Mereka menggunakan teknik-teknik tersebut untuk mengira pengukuran penghampiran antara esei berdasarkan kepada pemberat kekerapan istilah perbendaharaan kata yang wujud dalam esei tersebut. Walaubagaimanapun, para pengkaji masih memerlukan teknik yang lebih sofistikated untuk mengenalpasti argumen esei secara individu dan menilai struktur retorik ayat (Hearst, 2000; Little et al., 2001). Oleh itu, pengkaji ETS menghasilkan sebuah teknik untuk mendapatkan nilai terhampir untuk ciri-ciri tersebut, di mana esei tersebut dibahagi kepada beberapa argumen individu buat permulaannya menggunakan teknik NLP berdasarkan kepada pengecaman tanda leksikal dan sintaksis yang spesifik. Mereka kemudiannya mengaplikasikan analisa kandungan perbendaharaan kata ke atas setiap argumen tersebut menggunakan kaedah Logik Fuzzy (Little, 2001). Malah, Logik Fuzzy juga digunakan di dalam pengecaman dan pengkelasan elemen-elemen hujahan dalam esei (Burstein et al., 2001). Namun begitu, teknik yang lebih efektif dan efisyen adalah diperlukan untuk menambahkan lagi kejituan bagi mengesan kesalahan struktur retorik ayat dalam setiap esei latihan. Seterusnya, kita akan membincangkan pendekatan semasa dalam penilaian esei berautomasi bagi beberapa jenis peperiksaan. Sistem-sistem yang akan 20 dibincangkan adalah seperti Project Essay Grade (PEG), Intelligent Essay Assessor (IEA), Educational Testing Service I, Electronic Essay Rater (E-rater), Criterionrater (C-rater), Bayesian Essay Test Scoring sYstem (BETSY), Intelligent Essay Marking System (IEMS), Schema Extract Analyse and Report (SEAR), Paperless School free text Marking Engine (PS-ME) dan Automark. Kesemua sistem sedia ada ini telah dibangunkan samada sebagai sistem komersial atau hasil daripada kajian (prototaip) di dalam bidang ini. Perbincangan akan dilakukan ke atas struktur umum dan perlaksanaan bagi setiap sistem. Di akhir bab ini, perbandingan pencapaian setiap sistem akan turut dibincangkan. 2.2.2.1 Project Essay Grade (PEG) PEG merupakan salah satu implementasi sistem pemarkahan esei berautomasi yang terawal dan bertahan paling lama. Ianya telah dibangunkan oleh Page dan ahli kumpulannya (Hearst, 2000; Page, 1994; Page, 1996) dan pada peringkat awal pembangunannya, proses penilaian sistem hanya bergantung kepada analisa gaya ciri-ciri linguistik luaran bagi blok teks itu sahaja. Dengan itu, sesebuah esei dinilai dengan lebih menjurus kepada asas kualiti penulisan semata-mata, dengan tidak mengambilkira aspek isi kandungannya. Pendekatan rekabentuk yang digunakan untuk membangunkan PEG ini adalah berdasarkan kepada konsep ‘proxes’ (pembolehubah peramal) untuk menyamai penilaian markah manusia (Little, 2001). Proxes mengandungi tiga elemen iaitu: (i) panjang esei (bilangan perkataan dalam esei) sebagai mewakili trin (ciri) kelancaran (ii) bilangan kata depan, ganti nama relatif dan bahagian pertuturan yang lain sebagai pengukur kepada kekompleksian struktur ayat (iii) variasi dari segi panjang perkataan untuk menunjukkan diksi (kerana perkataan yang jarang wujud biasanya lebih panjang aksaranya). 21 Proxes yang diperolehi menggunakan set esei latihan, kemudiannya akan ditukar dalam bentuk matrik dan digunakan dalam pengunduran berganda piawai bersama-sama dengan gred markah penilai manusia yang diberi untuk esei latihan tersebut bagi mendapatkan pekali pengunduran. Pekali pengunduran ini mewakili penganggaran terbaik gred markah penilaian manusia yang diperolehi berdasarkan proxes. Seterusnya, ianya digunakan bersama-sama dengan proxes yang diperolehi daripada esei yang belum dinilai (ditanda) untuk membuat peramalan gred. PEG secara keseluruhannya bergantung kepada pendekatan statistik semata-mata berdasarkan kepada anggapan bahawa kualiti esei adalah diperolehi menggunakan proxes yang-boleh-diukur. Rajah 2.2: Versi demo Sistem PEG yang dipaparkan di laman web. Tiada sebarang teknik NLP yang digunakan dan kandungan leksikal tidak diambilkira langsung dalam menilai gred markah oleh PEG. PEG juga memerlukan latihan, dalam bentuk penilaian ke atas beberapa esei yang telah dinilai secara manual sebelum ini untuk proxes, untuk mendapatkan pekali pengunduran, yang mana seterusnya membolehkan penilaian ke atas esei baru (ujian) dibuat. Keputusan pencapaian eksperimen terbaru Page mencapai kolerasi pengunduran berganda setinggi 87% berbanding penilai manusia. 22 2.2.2.2 Intelligent Essay Assessor (IEA) IEA telah dibangunkan pada akhir 90-an (Hearst, 2000; Jerrams-Smith et al., 2001) dan ianya adalah berpandukan kepada teknik Analisa Semantik Latent (LSA). Ianya direkabentuk pada asalnya dengan tujuan untuk pengindeksan dokumen dan perolehan teks (Deerwester et al., 1990). LSA mewakilkan dokumen dan kandungan perkataannya dalam ruang semantik matrik dua-dimensi yang besar (Whittington dan Hunt, 1999). Dengan menggunakan teknik algebra matrik yang dikenali sebagai Penguraian Nilai Tunggal (SVD), hubungan baru antara perkataan-perkataan dan dokumen-dokumen telah ditemui dan hubungan yang wujud telah diubahsuai supaya ianya lebih tepat untuk menunjukkan maksudnya yang sebenar. Matrik mewakili perkataan-perkataan dan konteksnya. Setiap perkataan yang dianalisa mewakili baris dalam matrik, manakala setiap lajur pula mewakili ayat, perenggan dan subbahagian lain dalam konteks di mana perkataan itu wujud. Sel matrik tersebut pula mengandungi kekerapan perkataan dalam setiap konteks. Matrik awal ini seterusnya akan ditukar berdasarkan kepada pendekatan pemberat kekerapan dokumen songsang, teknik yang seringkali digunakan dalam domain pengindeksan dan perolehan maklumat. 23 Rajah 2.3: Contoh maklumbalas yang diberikan oleh Sistem IEA. SVD ini seterusnya akan diaplikasikan ke atas matrik untuk subbahagikannya kepada tiga matrik komponen yang mana ianya akan menghasilkan matrik asal sekiranya ketiga-tiga matrik komponen itu didarabkan sesama sendiri. Dengan menggunakan dimensi ketiga-tiga matrik teringkas (yang telah dikecilkan) ini di mana hubungan konteks-kata boleh diwakilkan, hubungan yang baru antara perkataan dan konteks akan dihasilkan apabila pembangunan semula penganggaran terhampir kepada matrik asal daripada dimensi matrik SVD komponen teringkas dilaksanakan. Untuk menilai esei, sebuah matrik untuk dokumen esei akan dibina dan kemudiannya akan ditukarkan menggunakan teknik SVD untuk menghasilkan semula penghampiran matrik menggunakan dimensi matrik teringkas yang telah dibina untuk ruang semantik domain topik esei. (Ruang semantik biasanya terdiri daripada esei yang telah dinilai oleh manusia). Kolerasi kosinus digunakan untuk mengukur penghampiran ruang dimensi teringkas yang dibangunkan daripada ‘model jawapan’, contohnya ialah teks pendidikan yang diperolehi daripada teks kursus atau esei yang disediakan oleh tutor, selain daripada esei pelajar. 24 Analisa Semantik Latent (LSA) menganggap bahawa susunan perkataan adalah tidak penting sekiranya pembangun menyatakan bahawa ianya bukan merupakan faktor penting untuk menggambarkan maksud dalam perenggan berkenaan. Ianya juga memerlukan saiz data yang besar untuk membina perwakilan matrik perkataan digunakan/wujud yang bersesuaian dan disebabkan oleh saiz matrik tersebut, maka ianya menyebabkan berlakunya masalah pengiraan yang lembap, rumit dan tidak cekap. Ciri-ciri yang baik bagi IEA termasuklah kos unit yang agak rendah, maklumbalas yang pantas dan pengesanan peniruan. Tambahan lagi, pembangun menyatakan bahawa sistem ini adalah sangat sesuai digunakan untuk menganalisa esei berbentuk penerangan bagi topik seperti sains, kajian sosial, sejarah, perubatan atau perniagaan, tetapi tidak sesuai untuk menilai pengetahuan berbentuk fakta. IEA secara automasinya akan menilai dan mengkritik (memberi maklumbalas) teks esei yang dihantar secara elektronik dan menjadikannya sebuah alatan bebas-domain yang sangat berguna. Ianya menghasilkan maklumbalas serta-merta dari aspek kandungan dan kualiti bagi penulisan pelajar. Ujian yang dilakukan ke atas esei GMAT menggunakan sistem IEA menunjukkan bahawa peratusan persetujuan terhampir berbanding penilai manusia adalah antara 85%-91%. 2.2.2.3 Educational Testing Service (ETS I) Sistem ini, telah dibangunkan oleh Burstein dan Kaplan daripada ETS pada awal 90-an. Ianya hanya melaksanakan operasi ke atas pecahan ayat yang mengandungi 15 hingga 20 patah perkataan (Whittington dan Hunt, 1999). Teknik yang digunakan ialah teknik lesikal-semantik untuk membina sistem penilaian, berpandukan kepada set data bersaiz kecil. Ianya menggunakan domain-spesifik iaitu berpandukan konsep leksikon dan konsep tatabahasa, yang mana kedua-duanya dibangunkan daripada data latihan. 25 Esei data latihan akan dipecahkan/dihuraikan menggunakan alatan Microsoft Natural Language Processing (MsNLP), di mana semua imbuhan akhiran dibuang secara manual dan senarai kata henti turut dikeluarkan. Ini akan menghasilkan leksikon. Senarai kata dan istilah dalam leksikon adalah sentiasa tetap manakala ciriciri yang dihubungkan dengan setiap masukan (input) adalah bersifat modular, oleh itu ianya boleh digantikan sekiranya perlu. Sebahagian pengkelasan manual adalah diperlukan. Seterusnya, peraturan tatabahasa dibangunkan dan sekali lagi secara manualnya, untuk setiap kategori jawapan (setiap kategori sepatutnya mengandungi kesemua parafrasa untuk jawapan yang berkemungkinan tersebut) menggunakan penghuraian sintaksis ayat daripada data latihan bersama-sama dengan leksikon. Esei baru (ujian) kemudiannya akan dihuraikan menggunakan program pengekstrakan nod frasa yang menghasilkan output frasa nama (NP), frasa kerja (VP), frasa depan (PP), klausa infinitif (INFCL), klausa subordinat (SUBCL), frasa sifat (ADJP) dan frasa penerang (ADVP) yang terdapat di dalam ayat. Kesemua frasa dan klausa yang mewakili (constituent) nod kemudiannya akan ditukar kepada perwakilan umum, XP (X Phrase). Setiap satu XP dan kombinasi XP berganda akan dipadankan menggunakan konsep tatabahasa untuk setiap kandungan kategori bagi mendapatkan padanan peraturan (Burstein et al., 1999). (i) Input Argumen Cops are better trained in self-defense (ii) Melabelkan (tag) nod frasa daripada argumen yang telah dipecahkan [Cops = POLICE] NP [better = BETTER, trained = TRAINED] VP [self-defense = SAFETY] PP (iii) Nod frasa ditukarkan kepada perwakilan umum, XP XP: [Cops = POLICE] XP: [better = BETTER, trained = TRAINED] XP: [self-defense = SAFETY] 26 (iv) Membuat padanan nod yang telah dilabelkan dengan konsep peraturan tatabahasa. XP: [POLICE], XP: [BETTER, TRAINED], XP: [SAFETY] Jenis frasa XP adalah diperolehi daripada sintaksis X-bar, yang akan memodelkan ciri-ciri biasa antara komponen sintaksis yang berbeza bagi frasa nama, frasa kerja, frasa depan, klausa infinitif, klausa subordinat, frasa sifat dan frasa penerang. Sintaksis X-bar akan mewakilkan struktur sintaksis ayat (argumen) tersebut (Gerdes dan Kahane, 2001) seperti dalam Rajah 2.4. P N | Police NP V | better VP V | trained PP safety Rajah 2.4: Pepohon sintaksis X-bar. Selain daripada membangunkan peraturan tatabahasa yang berbeza bagi setiap jenis frasa yang berlainan, peraturan umum sintaksis X-bar juga ditukarkan kepada peraturan tunggal yang boleh diaplikasikan secara keseluruhannya kepada semua komponen sintaksis tersebut. Sistem ini melibatkan banyak pra-pemprosesan dan sebahagian besar daripadanya ialah secara manual. Ianya melibatkan proses latihan untuk pembangunan leksikon, pembinaan ciri berasaskan-komputer dan pemadanan (fine tuning) Perwakilan Struktur-Konsep (CSR). Sebaliknya, penjanaan CSR dan penjanaan perturan dibuat secara automasi (Burstein et al., 1997). Walaupun 27 pembangun mempertikaikan tentang kos, namun begitu dari segi masa, ianya masih lagi dikira sebagai menjimatkan. Para pembangun sistem ETS I menyatakan bahawa 80% ketepatan diperolehi setelah menilai set esei ujian dan 90% ketepatan diperolehi setelah menilai keduadua esei latihan dan ujian (menggunakan latihan sistem ke atas set esei dan seterusnya memasukkannya ke dalam set ujian sebagai sebahagian daripada penilaian). Faktor kesalahan yang seringkali wujud adalah disebabkan oleh ruang dalam leksikon (bagi perkataan yang tidak ditentukan secara manual sebagai metonimi). Dalam laporan eksperimen kedua, para pembangun menerima leksikon yang dikembangkan (ditambah). Untuk membangunkan ini, leksikon baru terlibat dalam memeriksa set ujian sebagaimana set latihan untuk menggantikan metonimi secara manual. Ini membolehkan 93% ketepatan diperolehi setelah menilai set ujian dan 90% ketepatan diperolehi setelah menilai kedua-dua set latihan dan ujian. 2.2.2.4 Electronic Essay Rater (E-rater) E-rater telah dibangunkan oleh Burstein dan ahli kumpulannya (Burstein et al., 1998; Burstein et al., 2001). E-rater menggunakan alatan MsNLP bertujuan untuk menghuraikan semua ayat dalam esei. E-rater menggunakan kombinasi kaedah statistik dan teknik NLP untuk mengekstrak ciri-ciri linguistik daripada esei untuk dinilai. Esei dinilai dengan melakukan perbandingan dengan set pencapaian esei yang dinilai oleh manusia. Dengan E-rater, sesebuah esei yang tidak menyimpang daripada topik soalan, mempunyai struktur argumen yang kuat, berkaitan dan diolah dengan baik serta menunjukkan kepelbagaian penggunaan kata dan struktur sintaksis akan menerima markah akhir yang lebih tinggi berdasarkan skala enam-mata (gred A adalah 28 merupakan esei yang paling lemah, manakala gred F adalah esei yang mempunyai ciri-ciri esei yang terbaik). Rajah 2.5: Antaramuka ramah-pengguna Sistem E-rater versi berasaskan-web. Ciri-ciri E-rater termasuklah analisa struktur hujahan, analisa struktur sintaksis dan analisa penggunaan perbendaharaan kata (analisa domain). E-rater menggunakan pendekatan berpandukan-korpus untuk membina model dengan menggunakan data esei sebenar untuk menganalisa ciri-ciri sampel maklumbalas esei. Aplikasi ini telah direkabentuk untuk mengenalpasti ciri-ciri dalam teks yang mempengaruhi kualiti penulisan yang dispesifikasikan dalam skema (kriteria) pemarkahan penilaian dan kini direkabentuk berdasarkan lima modul tak bersandar (bebas) yang utama. Tiga daripada modul akan mengenalpasti ciri-ciri yang mungkin digunakan sebagai skema panduan pemarkahan yang mewakili kepelbagaian sintaksis, organisasi idea dan penggunaan perbendaharaan kata dalam esei. Ini kerana, ciri-ciri tersebut dipilih daripada senarai ciri yang bersaiz besar untuk mendapatkan ciri teras (core) dan signifikan untuk membuat peramalan penilaian menggunakan Algoritma 29 SLR (Attali, 2004). Modul tak bersandar keempat digunakan untuk memilih dan mempertimbangan ciri-ciri ramalan untuk penilaian esei. Akhir sekali, modul terakhir digunakan untuk mengira markah akhir. E-rater kini telah dimasukkan ke dalam Criterion, sistem versi masa-nyata berasaskan-web yang dibangunkan oleh ETS Technologies. Komponen maklumbalas tambahan dengan ciri-ciri penerangan (advisory) telah ditambah ke dalam sistem. Penerangan adalah berdasarkan kepada pengukuran statistik dan bebas sepenuhnya daripada penilaian/markah yang dijana oleh E-rater, dengan itu ianya menyediakan maklumbalas tambahan tentang kualiti penulisan dari segi topik dan kelancaran sahaja. E-rater dilatih daripada 270 esei yang telah dinilai secara manual oleh penilai manusia. E-rater adalah jauh lebih kompleks dan memerlukan lebih latihan berbanding sistem sedia ada yang lain. Tambahan pula, tiada demonstrasi secara online dan tiada versi cubaan E-rater (trial version) yang boleh dimuat-turun dan disediakan untuk komuniti saintifik. Lebih 750 000 esei GMAT telah ditanda, dengan kadar kesetaraan antara kepakaran manusia dan sistem secara konsisten adalah dari 94%. Dengan membandingkan penilaian manusia dan E-rater melalui 15 soalan ujian, hasil dari kajian empirikal menunjukkan julat kesetaraan adalah antara 87% hingga 94%. 2.2.2.5 Conceptual Rater (C-rater) C-rater ialah prototaip berasaskan NLP yang mensasarkan penilaian ke atas jawapan pendek yang berkaitan dengan soalan berpandukan-kandungan seperti yang terdapat di dalam bahagian ulasan bab (chapter review) pada buku teks (Burstein et al., 2001). C-rater menggunakan banyak alatan dan Teknik NLP yang dibangunkan untuk E-rater, walaupun hakikatnya kedua-dua sistem ini banyak berbeza dari segi kaedah perlaksanaannya. 30 E-rater beroperasi untuk menilai kemahiran menulis berbanding kandungan spesifik manakala C-rater digunakan untuk menilai maklumbalas samada ianya betul atau salah. Matlamat ini akan dicapai dengan menilai samada maklumbalas mengandungi maklumat yang berkaitan dengan konsep domain yang spesifik atau sebaliknya. Jika maklumbalas tersebut ada menunjukkan konsep itu, maka ia dinilai sebagai betul; sebaliknya jika tiada, ia dinilai sebagai salah tanpa mengambilkira kemahiran menulis. Tambahan pula, E-rater menyediakan gred di mana sebahagiannya adalah berdasarkan kepada struktur retorik bagi esei manakala C-rater perlu mengenalpasti kandungan spesifik. Ianya menjana analisa terperinci terhadap hubungan logikal antara komponen sintaksis bagi setiap ayat yang terdapat dalam maklumbalas. Crater tidak memerlukan kumpulan jawapan bersaiz besar yang telah dinilai untuk tujuan latihan. Lagi pun, ia menggunakan keadah ‘satu jawapan betul sahaja’ berdasarkan panduan arahan atau skema jawapan kerana dipercayai adalah tidak wajar jika memerlukan pengumpulan data yang banyak hanya untuk menilai kuizkuiz tahap rendah secara relatif, terutamanya bagi set soalan pendek yang selalu diberikan di akhir bab di dalam buku teks. C-rater mencapai lebih 80% kesetaraan (persetujuan) berbanding markah yang dinilai oleh manusia. 2.2.2.6 Bayesian Essay Test Scoring sYstem (BETSY) BETSY merupakan program yang mengelaskan teks berdasarkan pada bahan yang dilatih dan dibangunkan oleh Lawrence M. Rudner dari College Park of the University of Maryland dengan biayaan daripada Jabatan Pendidikan U.S. (Rudner dan Liang, 2002). Menurut Rudner dan Liang (2002) lagi, matlamat sistem ini ialah untuk menentukan penghampiran pengkelasan esei kepada skala nominal empat-mata iaitu 31 terperinci, baik, sederhana dan tidak memuaskan dengan menggunakan set ciri-ciri yang bersaiz besar termasuklah kedua-dua isu spesifik, iaitu isu kandungan dan gaya. Model asas (underlying) untuk pengkelasan teks adalah menggunakan Model Multivariate Bernoulli (MMB) dan Model Multinomial (MM). Dengan menggunakan MMB (rujuk Rumus 2.1), setiap esei dilihat sebagai kes khusus bagi semua ciri penentukur dan kebarangkalian bagi setiap markah untuk esei yang diberi adalah dikira sebagai hasil darab kebarangkalian bagi ciri-ciri yang terkandung di dalam esei. Dj P( wt | c j ) 1 ¦ Bit i 1 J Dj (Rumus 2.1) di mana Bit menunjukkan samada ciri t berada dalam esei i, P ( wt | c j ) menunjukkan kebarangkalian samada ciri wi berada dalam esei yang bergred c j . D j adalah bilangan esei latihan bagi kumpulan yang telah dinilai c j , dan J adalah bilangan kumpulan penilaian. Pengangka 1 dan penyebut J adalah nilai Laplacian untuk membuat kebarangkalian dan mengelakkan nilai P ( wt | c j ) menjadi sifar. Nilai sifar bagi P ( wt | c j ) akan mempengaruhi Rumus 2.1 seterusnya mengakibatkan ciri selebihnya tidak berguna. Dengan MM pula (rujuk Rumus 2.2), kebarangkalian bersyarat bagi kewujudan setiap ciri diramal menggunakan jumlah esei di dalam setiap kategori yang mengandungi ciri tersebut. Model ini memerlukan masa yang panjang untuk melakukan pengiraan kerana setiap istilah dalam perbendaharaan kata perlu diperiksa. 32 Dj P( wt | c j ) 1 ¦ N it i 1 Dx (Rumus 2.2) V ¦ N it i 1 di mana N it adalah bilangan ciri wt berada dalam esei i, c j adalah kebarangkalian ciri P( wt | c j ) digunakan dalam esei yang bergred c j . Dx adalah jumlah esei. Kedua-dua MM dan MMB dianggap sebagai model naive Bayes kerana ianya dianggap sebagai kebebasan-bersyarat. Menurut pembangunnya, BETSY adalah bergantung kepada pendekatan yang mungkin menggabungkan ciri-ciri terbaik PEG, LSA (Landauer et al., 1998) dan E-rater, “ditambah dengan beberapa ciri penting yang memberi kelebihan kepada sistem ini. Ianya boleh diaplikasikan ke atas esei pendek, yang mana ianya mudah untuk diimplementasikan, boleh diaplikasikan ke atas esei kandungan berskala besar, boleh digunakan untuk mendapatkan keputusan diagnostik, boleh diadaptasikan untuk memperoleh pengkelasan bagi kebolehan yang berbeza (pelbagai) dan mudah untuk diperjelaskan kepada bukan ahli statistik” (Rudner dan Liang, 2002). BETSY merupakan program berasaskan-Windows yang ditulis dalam Power Basic dan berkesan dalam menjana pengiraan. Tambahan pula, BETSY merupakan satu-satunya perisian sistem penilaian yang boleh dimuat turun dan boleh digunakan secara percuma berbanding sistem penilaian lain. Rudner dan Liang (2002) melaporkan tentang dua model pengkelasan teks yang ditentukur menggunakan 462 esei dengan dua mata penilaian. Sistem penentukur ini kemudiannya diaplikasikan ke atas 80 esei separa penilaian, dengan 40 esei bagi setiap kumpulan penilaian. Ketepatan melebihi 80% telah dicapai dengan set data berserta penerangannya. 33 2.2.2.7 Intelligent Essay Marking Systems (IEMS) IEMS adalah berpandukan kepada Rangkaian Neural Pengindeksan Corak (Indextron) yang dibangunkan di NGEE ANN Polytechnic (Ming et al., 2000). Sistem ini boleh digunakan sebagai alatan penilaian untuk tujuan diagnostik dan pengajaran dalam pelbagai subjek berpandukan-kandungan. Para pelajar akan diberi maklumbalas dengan lebih pantas dan boleh mengenalpasti di mana dan mengapa mereka memperolehi markah/gred yang baik atau sebaliknya. Dengan itu, ianya boleh diserapkan ke dalam sistem pengajaran pintar yang mana boleh membantu pelajar untuk menulis dengan lebih baik dengan melakukan penilaian esei dengan pantas serta menyediakan maklumbalas secepat mungkin. Pemarkahan esei adalah berdasarkan kepada jenis kualitatif berbanding jenis numerik. Indextron ditakrifkan sebagai algoritma pengklusteran spesifik. Namun begitu, algoritma tersebut bukanlah rangkaian neural. Walaubagaimanapun, algoritma pengklusteran ini boleh diimplementasikan sebagai rangkaian neural. Rangkaian neural berasaskan-Indextron ini cuba untuk mengatasi masalah latihan yang perlahan (tidak-meningkat), yang menggunakan Rangkaian Neural Buatan tradisional yang biasa. Menurut Ming et al. (2000), eksperimen yang melibatkan penilaian esei yang dihasilkan daripada 85 orang pelajar digunakan untuk membangunkan modul bagi Penulisan Laporan Projek dan diperolehi daripada enam kelas Kejuruteraan Mekanikal tahun tiga, memperoleh kolerasi sebanyak 0.8 (80%). 2.2.2.8 Automark Automark adalah sistem perisian yang dibangunkan dengan menekankan ciriciri penilaian berkomputer tahan lasak/tegap bagi jawapan teks-bebas untuk soalan terbuka (Mitchell et al., 2002). Automark mengaplikasikan teknik NLP untuk menilai maklumbalas terbuka. Tempoh pembangunan perisian telah memakan masa 34 hampir tiga tahun dan kini telah diaplikasikan dalam produk e-Learning secara komersial pada akhir bulan lalu (Mitchell et al., 2002). Prosidur penilaian berdasarkan Automark kini telah dibangunkan untuk beberapa institut pengajian tinggi, termasuklah Brunel University di mana pada waktu itu, ujian Java online untuk pelajar jurusan kejuruteraan tahun pertama masih di dalam peringkat pembangunan. Dengan penggunaan sistem ini, empat kriteria telah dikenalpasti; mengenalpasti ralat ejaan, menganalisa struktur ayat, mengenalpasti jawapan yang salah dan menilai maklumat yang tidak terdapat dalam skema pemarkahan (Perez, 2004). Sistem ini menggabungkan beberapa modul pemprosesan sebagai mensasarkan untuk penyediaan penilaian yang tegap dalam usaha untuk mengatasi kesalahan dari segi ejaan, penaipan/penulisan, sintaksis dan semantik. Automark memfokuskan terhadap kandungan spesifik di dalam jawapan teks-bebas, yang mana kandungannya telah dispesifikasikan dalam bentuk beberapa pencontoh (template) skema pemarkahan. Setiap pencontoh mewakili satu bentuk jawapan sah atau tidak sah yang dispesifikasikan. Pembangunan pencontoh ini dalam skema pemarkahan berkomputer merupakan proses offline, dicapai melalui antaramuka konfigurasi sistem penulisan-khas. Perwakilan pencontoh ini cukup tegap untuk menangani/mengawal kepelbagaian teks input. Perlaksanaan proses pemarkahan adalah melalui beberapa peringkat. Pertama, teks input yang berbentuk separa-proses dipiawaikan dari segi tanda baca dan ejaan. Setelah itu, penganalisa ayat akan mengenalpasti elemen sintaksis yang penting bagi teks dan bagaimana ianya dihubungkan. Modul padanan-corak akan mencari padanan antara pencontoh skema pemarkahan dan elemen sintaksis bagi teks pelajar. Akhir sekali, modul maklumbalas akan memproses keputusan bagi corak yang dipadankan. Maklumbalas biasanya disediakan dalam bentuk markah, tetapi maklumbalas yang lebih spesifik/terperinci mungkin akan diperolehi. Automark telah diuji di National Curriculum Assessment of Science (NCAS) untuk pelajar berumur 11 tahun. Bentuk maklumbalas ialah: penjanaan kata tunggal, penjanaan nilai tunggal, penjanaan ayat penerangan pendek, penerangan bagi corak dalam data. Kolerasi yang dicapai berjulat antara 93% dan 96%. 35 2.2.2.9 Schema Extract Analyse and Report (SEAR) SEAR merupakan sebuah sistem yang dibangunkan oleh Christie (1999) yang juga merupakan hasil kajian PhD beliau menggunakan Teknik Pengekstakan Maklumat (IE). Menurut Christie, pemarkahan esei berautomasi memerlukan penilaian ke atas gaya olahan dan isi kandungan (yang mana bersesuaian) (Christie, 2003). Dengan itu, sistem akan menyediakan kaedah yang fleksibel (bolehdikembangkan) untuk menilai kedua-dua gaya olahan dan isi kandungan dalam esei secara automasi. Metodologi yang digunakan untuk menilai gaya olahan adalah berpandukan kepada set metrik yang biasa di samping memerlukan beberapa penentukur awalan. Pada dasarnya, penilaian berbantukan-komputer bagi gaya olahan adalah berpandukan kepada pra-penentuan tentang calon/elemen metrik, menggunakan subset esei (yang telah dinilai secaramanual) sebagai set latihan (Perez, 2004). Kemudiannya, proses penentukur akan dimulakan dengan mengubahsuai pemberat untuk setiap metrik sehingga persetujuan penilaian antara manusia dan komputer yang boleh diterima telah diperolehi. Setelah itu, pemprosesan akan dilaksanakan ke atas keseluruhan set esei. Bagi penilaian isi kandungan pula, esei yang berbentuk teknikal akan menjadi calon untuk jenis penilaian ini (ianya berada di hadapan/di atas dalam sempadan spektrum isi kandungan) akan diambilkira untuk dipertimbangkan. Bagi SEAR, skema isi kandungan hanya akan disediakan sebanyak sekali dan akan disemak dengan adil, pantas dan mudah. Tambahan lagi, skema isi kandungan SEAR tidak memerlukan samada ‘latihan’ atau ‘penentukuran’, walaupun latihan biasa dengan menggunakan sampel untuk menentukan kaedah akan diusulkan (recommended). Skema ini akan dijadikan sebagai struktur data ringkas. Dua pengukuran yang digunakan sebagai alat untuk membantu proses pemarkahan berautomasi ialah ‘penggunaan’ dan ‘liputan’. Alat yang pertama (penggunaan) adalah digunakan untuk mengukur bilangan kekerapan setiap esei yang telah 36 digunakan, manakala yang seterusnya (liputan) adalah untuk mengukur bilangan kekerapan skema esei yang telah digunakan oleh esei yang sedang dinilai. Kedua-dua pengukuran ini akan menjadi peralatan untuk menunjukkan hubungan antara setiap esei dan skema. SEAR telah diapliksaikan untuk menilai esei tentang sejarah ringkas Robert Gordon, iaitu pengasas Robert Gordon University. Keputusan yang dicapai adalah dari 30% korelasi Pearson (0.05 signifikan) hingga 59.4% korelasi Pearson (0.01 signifikan). Berdasarkan korelasi Spearman, pencapaiannya adalah dari 39.4% hingga 59.6% (0.01 signifikan) (Perez, 2004). Menurut Christie (2003) lagi, masalah utama yang dikenalpasti ialah kelemahan gaya penilaian set esei, kekeliruan menilai kesalahan pelajar dari segi ejaan dan tatabahasa oleh sistem dan menggunakan kepelbagaian penyataan untuk menyatakan maksud yang sama. 2.1.1.10 Paperless School free-text Marking Engine (PS-ME) PS-ME telah direkabentuk sebagai komponen integrasi (gabungan) bagi Webbased Learning Management System (Mason dan Grove-Stephenson, 2002) dan kini telah dikomersialkan (Perez, 2004). Berdasarkan kepada keperluan pemprosesan, PS-ME tidak melakukan pemarkahan esei dalam masa-nyata. Sistem ini mengaplikasikan teknik-teknik NLP untuk menilai esei pelajar dalam usaha untuk mendedahkan tahap kecekapannya dari segi pengetahuan, pemahaman dan penilaian. Esei pelajar akan dihantar kepada server (pelayan), bersama-sama dengan maklumat tentang tugas (perlaksanaan) untuk mengenalpasti teks induk (master) yang betul untuk tujuan perbandingan. Setiap tugas adalah ditakrifkan melalui bilangan teks induk yang berkaitan dengan soalan yang akan dijawab. Isu penting akan didedahkan dengan kewujudan teks induk ‘negatif’ yang mengandungi set pernyataan yang salah yang dihasilkan daripada kesilapan dan salah-konsep pelajar yang biasa. Esei yang akan dinilai akan dibandingkan dengan setiap teks induk yang berkaitan untuk menghasilkan beberapa parameter yang 37 mewakili pengetahuan dan pemahaman yang ditunjukkan oleh pelajar. Kebolehan untuk menilai parameter adalah dikira melalui analisa linguistik sepertimana yang telah diterangkan di atas. Apabila terdapat beberapa teks induk terlibat dalam perbandingan, setiap keputusan daripada perbandingan individu akan memperoleh pemberat, yang mana boleh menjadi negatif dalam kes teks induk yang mengandungi salah-konsep. Pemberat akan diperolehi semasa fasa latihan awal. Parameter individu dikira semasa fasa analisa seterusnya akan digabungkan dalam persamaan numerik (ungkapan berangka) untuk mendapatkan gred tugasan (biasanya gred National Curriculum atau peringkat GCSE). Parameter juga akan digunakan untuk memilih komen spesifik daripada bank komen yang berkaitan dengan tugas. Dengan susunatur (set-up) yang terperinci, ianya berpotensi untuk menyediakan kepada pelajar dengan maklumbalas formatif (pembentuk) tentang pencapaiannya dalam aspek yang berbeza bersama-sama dengan subjek yang diberikan. Output daripada proses penilaian kemudiannya dikembalikan kepada pelajar untuk dibentangkan kepada guru. Ini termasuklah maklumat terperinci terutamanya pada bahagian esei yang baik atau lemah yang berkaitan dengan faktor pengetahuan, pemahaman dan penilaian. Susunatur proses penilai automasi untuk perlaksaan penilaian adalah bersifat sangat ‘lurus’ (straightforward): pilih teks induk, daripada beberapa sumber seperti buku teks, ensiklopedia atau laman web yang berkaitan (sistem ini adalah sangat toleran (boleh menerima) kewujudan berganda kandungan antara teks induk, tetapi boleh mengurangkan/hilangkan ketepatan sekiranya teks induk menggunakan tatabahasa yang sangat kompleks); mempunyai sampel yang dinilai secara manual (boleh jadi serendah (paling sedikit) 30 buah esei, ianya perlu dilaksanakan sebanyak sekali ke atas setiap tugas, untuk menghasilkan pemberat yang tepat bagi menilai parameter yang dikira oleh sistem penilaian); janakan sampel yang sama menggunakan penilai dan melaksanakan analisa pengunduran, yang mana ianya cuba untuk mendapatkan keputusan (fit) yang terbaik antara gred yang diberikan oleh penilai dan semua keputusan yang dihasilkan daripada kombinasi parameter; pindah turun data keputusan kepada server. 38 Menurut Perez (2004), walaupun PS-ME telah dikomersialkan, namun Mason dan Grove-Stephenson masih belum mengumumkan pencapaian PS-ME tersebut. 2.2.3 Isu/Analisa Kajian Pada tahun 1996, Page memperkenalkan perbezaan antara pemarkahan esei dari aspek kandungan dan pemarkahan esei dari aspek gaya (selain daripada aspek struktur ayat), di mana bagi aspek kandungan, secara kasarnya ianya merujuk kepada apa yang ‘diperkatakan’ (dinyatakan) oleh esei, manakala bagi aspek gaya pula, ianya merujuk kepada “sintaksis, mekanik (cabang sains) dan pemilihan kata serta aspek lain tentang bagaimana ianya dinyatakan” (Page, 1996). Sebahagian daripada sistem yang telah dibincangkan sebelum ini menilai esei berdasarkan kepada satu aspek sahaja iaitu samada dari aspek kandungan (IEA, ETS I, C-rater) ataupun dari aspek gaya (PEG). Manakala, sebahagian sistem yang lain pula mengambilkira kedua-dua aspek (E-rater, BETSY, SEAR, Automark, PS-ME) dalam penilaiannya. Alternatif lain yang mungkin digunakan untuk mengkelaskan CbAS bergantung kepada pendekatan yang diadaptasikan untuk penilaian gaya dan/atau kandungan. Menurut Page, pembolehubah intrinsik (ciri) yang penting untuk menilai gaya esei, contohnya kelancaran, pemilihan kata, tatabahasa dan penggunaan tanda baca, tidak boleh diukur secara langsung tetapi boleh dinilai melalui proxes (persamaan pengunduran). Sebagai contoh, kelancaran “adalah dikorelasi dengan proxes berdasarkan bilangan perkataan” (Page, 1994). Oleh yang demikian, platform penilaian esei berautomasi mungkin boleh dikelaskan berdasarkan kepada pendekatan yang digunakan untuk mengukur aspek kandungan dan gaya. Kita akan menggunakan istilah “Simulasi Perkadaran” untuk sistem CbAS yang mengukur kualiti esei berdasarkan pembolehubah-pembolehubah intrinsik yang signifikan samada bagi aspek kandungan mahupun aspek gaya 39 menggunakan proxes dan “Analisa Induk” bagi sistem CbAS yang mengukur kualiti esei berdasarkan dimensi yang sebenar iaitu menggunakan skema penilaian esei sebagai panduan pemarkahan (Williams, 2001). Kedua-dua koordinasi yang dibincangkan di atas telah dirumuskan dalam Jadual 2.1. Jadual 2.1: Pengkelasan Sistem Penilaian Esei Berautomasi. Simulasi Perkadaran Kandungan Gaya IEA, BETSY, IEMS, SEAR Analisa Induk ETS I, E-rater, C-rater, Automark, PS-ME PEG, BETSY, IEMS, SEAR E-rater, Automark, PS-ME Berdasarkan Jadual 2.1 tersebut, didapati bahawa IEA menilai esei dari aspek kandungan dengan menggunakan proxes, manakala PEG menggunakan proxes untuk menilai aspek gaya dalam esei. Oleh kerana itu, kedua-dua sistem tersebut telah diletakkan dalam lajur yang pertama dalam Jadual 2.1 tersebut. Manakala itu, sistem penilaian esei yang mengambilkira kedua-dua aspek, iaitu gaya dan kandungan telah dimasukkan ke dalam kedua-dua lajur dalam jadual tersebut (contohnya BETSY, IEMS, SEAR, E-rater, Automark dan PS-ME). Kesimpulan pertama yang boleh diperolehi daripada Jadual 2.1 ialah kebanyakan pembangunan sistem penilaian yang terbaru mensasarkan untuk menilai esei dengan mengambilkira kedua-dua aspek, gaya dan kandungan. Masalah yang biasanya ditemui dalam kajian berkenaan penilaian esei berautomasi adalah kewujudan piawaian yang baik untuk menentukur markah (penilaian) pakar dan set pemberat yang paling optimum untuk mendapatkan peramalan terhampir berbanding penilaian pakar. Isu ini diperjelaskan dalam Jadual 2.2, yang mana ianya menyenaraikan kesemua platform yang telah dibincangkan dalam subtopik ini, bersama-sama dengan model asas, pencapaian yang diperolehi dan sasaran (bed) ujian. 40 Sebagai rumusan awal daripada Jadual 2.2 tersebut, kita dapati bahawa tujuh daripada sepuluh sistem penilaian adalah berpandukan kepada penggunaan alatan NLP, yang mana dalam beberapa kes, ianya digabungkan dengan pendekataan berpandukan statistik. Ini akan menjadi pemangkin untuk menambahkan lagi semangat para pengkaji untuk meneruskan kajian dalam pembangunan alatan yang baru untuk pemarkahan esei berautomasi. Sepertimana yang ditunjukkan dalam Jadual 2.2, tiga kriteria berbeza yang telah dilaporkan untuk mengukur pencapaian sistem ialah ketepatan keputusan (ACC), kolerasi pengunduran berganda (CORR) dan peratus kesetaraan antara markah yang dihasilkan oleh sistem (menggunakan teknik penilaian) dan markah yang ditakrifkan oleh manusia (AGREEM). Dalam penyelidikan ini, kriteria pengukuran yang ketiga, (AGREEM) telah digunakan. Rajah 2.6 menunjukkan pembangunan konseptual CbAS sedia ada secara umum. Esei Penilai (manusia), S1 Penilai (sistem penilaian), S2 Ya Jika |S1-S2| >1 Penilai (manusia), S3 Tidak Markah akhir = mod atau min terhampir Markah akhir = min Rajah 2.6: Pembangunan konseptual sistem penilaian. Dalam Rajah 2.6, jelas menunjukkan sistem penilaian hanya berperanan menggantikan penilai kedua, S2, tetapi masih memerlukan penilai pertama, S1. Jika markah akhir S1 dan S2 tidak melebihi satu mata aras (berdasarkan skala lima-mata aras; A, B, C,D, E), ianya akan dianggap sebagai ‘setara’ (antara manusia dan sistem 41 penilaian) dan gred akhir akan ditentukan berdasarkan min markah kedua-dua penilai tersebut. Sebaliknya, sekiranya perbezaan gred markah yang diberikan antara S1 dan S2 melebihi satu mata-aras, maka penilai ketiga, S3 akan diperlukan (Burstein et. al., 1998) dan gred akan ditentukan samada menggunakan kaedah mod atau min terhampir. Ini kerana esei yang digunakan adalah esei untuk ujian yang bertaraf tinggi seperti Test of Written English (TWE) dan Graduate Management Admissions Test (GMAT) (Burstein et al., 2000). Dengan menggunakan AGREEM sebagai kriteria pengukuran dalam penyelidikan ini, isu utama ialah kaedah pengukuran yang digunakan untuk mengukur kesetaraan pencapaian antara penilaian manusia dengan teknik penilaian yang dibangunkan. Oleh itu, beberapa jenis pengukuran yang bersesuaian perlu ditakrifkan. Berdasarkan kajian yang dilakukan, terdapat tiga kaedah pengukuran yang sering digunakan iaitu precision, recall dan full-measure (f-measure) (McCallum dan Nigam, 1998; Burstein dan Marcu, 2000; Robert, 2000; Paul et al., 2003). Precision digunakan untuk mengukur kadar ketepatan penilaian manusia, recall digunakan untuk mengukur kadar ketepatan penilaian sistem atau teknik penilaian dan f-measure adalah min bagi kedua-dua kaedah pengukuran tersebut. Jadual 2.2: Perbandingan pencapaian sistem penilaian (Valenti et al., 2003; Perez, 2004). Sistem Pencapaian (%) Jenis Teknik ACC PEG Statistik (Pengukuran CORR AGREEM 87 Sasaran Ujian Esei bukan ciri linguistik luaran) berbentuk fakta IEA Algebra/ NLP 85-91 Esei GMAT (Analisa Semantik Latent (LSA)) ETS I NLP 93-96 - 42 Sistem Jenis Teknik E-rater Statistik (SLR)/ NLP Sasaran Pencapaian (%) Ujian 87-94 Esei GMAT 80 Esei – pendekatam hybrid C-rater NLP berbentuk pemahaman dan algebra BETSY IEMS Pengkelasan Teks 80 Melibatkan Bayesian apa jua jenis (MMB/MM) / pengkelasan Statistik teks atau esei Indextron (Padanan 80 Esei bukan corak Algoritma berbentuk Pengkelasan matematik Indextron) Automark NLP 93-96 National Curriculum Assessment of science SEAR IE 30 Esei sejarah PS-ME NLP - Peperiksaan NCA dan GCSE Pengkelasan teks (argumen) merupakan masalah menentukan takrifan awal bagi kategori untuk dokumen teks bebas (esei). Idea pemarkahan esei berautomasi yang berasaskan kepada teknik pengkelasan teks, ciri kompleksiti teks dan kaedah pengunduran linear telah dipelopori buat pertama kalinya oleh Larkey (1998). Ianya telah diaplikasikan dalam sistem penilaian E-rater (Burstein et al., 2001; Attali dan Burstein, 2006) dan merupakan sistem perbandingan pencapaian dengan teknik penilaian yang dibangunkan dalam penyelidikan ini. Idea asas pendekatan yang 43 dirintis oleh Larkey ini adalah bergantung kepada latihan pengkelasan binari untuk membezakan esei yang ‘baik’ dan ‘lemah’ dan dengan menggunakan markah yang dihasilkan oleh pengkelas untuk menentukan kedudukan (tahap) esei dan menetapkan gred markah mereka. Beberapa teknik pengkelasan teks yang piawai digunakan untuk mencapai matlamat ini: pertama, pengkelas bebas (tak bersandar) Logik Fuzzy menentukan kebarangkalian dokumen dengan meramal penghampiran yang ada pada kelas-kelas spesifik (Burstein et al., 2001); kemudian, analisa kewujudan perkataan tertentu di dalam dokumen dibuat dan teknik k-nearest neighbor digunakan untuk mencari esei yang paling hampir dengan sampel esei yang telah dinilai oleh manusia; akhirnya, 12 ciri kompleksiti teks yang dipilih menggunakan Algoritma SLR digunakan untuk menilai gaya esei (Attali dan Burstein, 2006). Larkey telah melaksanakan beberapa latihan pengunduran, menggunakan kombinasi komponen (ciri) yang berbeza-beza. Beliau juga menggunakan beberapa set esei, termasuk esei tentang isu sosial, di mana isinya merupakan elemen utama penilaian dan esei tentang pandangan umum di mana gaya merupakan kriteria utama penilaian. Peningkatan kepada bilangan kaedah pembelajaran statistik telah digunakan untuk menyelesaikan masalah pengkelasan teks berautomasi sejak beberapa tahun lepas, termasuk model-model pengunduran, pengkelas nearest neighbour, rangkaian Bayes, pepohon keputusan (decision trees), algoritma pembelajaran peraturan, rangkaian neural dan sistem pembelajaran induktif (Yang, 1997). Malah, pelaksanaan pengkelas amat bergantung kepada pemilihan data yang digunakan untuk penilaian. Oleh yang demikian, membandingkan kaedah pengkelasan tanpa menganalisa perbezaan kumpulan, dan membuat rumusan berdasarkan keputusan eksperimen yang ‘cacat’ akan menimbulkan persoalan tentang kesahihan beberapa penilaian yang dihasilkan (Valenti et al., 2003). Masalah-masalah ini perlu ditangani untuk menjelaskan kekeliruan yang timbul antara penyelidik dan untuk mengelakkan masalah yang sama berulang. Mengintegrasikan keputusan daripada penilaian yang berbeza-beza kepada perbandingan global dengan menilai satu atau lebih pengkelas asas pada beberapa kumpulan, dengan menganalisa kecenderungan kumpulan berasaskan pada variasi beberapa pengkelas dasar, telah dibuktikan munasabah oleh Yang (1997). 44 Selain itu, masalah yang paling relevan di dalam bidang pemarkahan esei berautomasi ialah kesukaran untuk mendapatkan korpus esei (data) yang banyak (Christie, 2003; Larkey, 2003), setiap satunya dengan markah yang telah dinilai oleh manusia. Korpus tersebut, bersama-sama dengan takrifan kriteria penilaian umum pelaksanaan, boleh digunakan sebagai sasaran ujian untuk perbandingan seragam bagi sistem pemarkahan berautomasi yang berlainan. Burstein dan Wolska (2003) pula menyatakan bahawa protokol penandaan dan teknik yang berkesan diperlukan dalam menentukan dan mengkelaskan elemenelemen hujahan yang wujud dalam sesebuah esei seperti penyataan tesis, isi-isi penting dan penyataan penutup. Mereka menerangkan bahawa walaupun penanda dilatih untuk membuat penentuan elemen hujahan, tetapi masih wujud kelemahan dari segi pengkelasan elemen hujahan tersebut. Pengkelasan ini penting kerana ianya boleh digunakan oleh pelajar untuk membuat rujukan dan mengukur saling perkaitannya dengan kualiti esei tersebut (Burstein et al., 2001). Antara teknik yang digunakan dalam menentukan dan mengkelaskan argumen (ayat) dalam esei kepada sesebuah elemen hujahan yang khusus ialah Model Multinomial, k-nearest neighbor (pendekatan kebarangkalian), Logik Fuzzy (pendekatan berbantukan-keputusan) (Leacock, 2004). Menurut Leacock (2004) lagi, Alatan Penganalisa Penulisan sedia ada hanya menentukan elemen hujahan tetapi tidak menilai kualiti elemen tersebut. Menurut kenyataan Burstein dan Marcu (2003) pula, Fuzzy dalam sesetengah keadaan, ianya menggambarkan kualiti penulisan secara umum. Namun ianya tidak menyatakan dengan terperinci ciri-ciri linguistik yang mempengaruhi kualiti penulisan tersebut. Yi-fang Brook Wu dan Xin Chen (2005) menyatakan bahawa gaya penulisan adalah penting untuk membentuk esei berkualiti tinggi, kerana kebiasaannya, penulis akan mengelak dari menggunakan perkataan yang sama untuk menjelaskan konsep yang sama. Masalah wujud di sini ialah untuk membuat peramalan tahap gaya olahan yang lebih optimum yang menghampiri penilaian manusia menggunakan corak hubungan koefisien-pemberat dalam persamaan pengunduran yang sepadan (Valenti at al., 2003; Attali dan Burstein, 2006). Malah Attali dan Burstein (2006) turut 45 menyatakan masalah penggunaan Algoritma SLR dalam menentukan pekali pemberat ciri yang optimum adalah kurang efisien. Menurut mereka lagi, dengan menggunakan Algoritma SLR, saiz set ciri tidak ditakrifkan dengan jelas dan tidak menjamin penghasilan ciri yang signifikan untuk membuat penghampiran peramalan gred. Daripada kajian yang dilakukan (Burstein et al.,1998; Attali dan Burstein, 2006), CbAS semasa memerlukan pengumpulan banyak data (set esei) yang signifikan dan telah dinilai oleh manusia. Ini akan memakan masa dan memerlukan kos yang tinggi. Model terdahulu juga bergantung kepada subset pembolehubah bagi lapan hingga 12 ciri peramalan yang dipilih menggunakan Algoritma SLR daripada set yang bersaiz lebih besar, iaitu kira-kira 57 ciri (Burstein et al., 1998; Burstein dan Marcu, 2000). 2.2.4 Cadangan Teknik Penilaian Bagi menyelesaikan masalah penentuan dan pengkelasan elemen hujahan yang dinyatakan oleh Valenti et al. (2003), Teknik MMB dari pendekatan Bayesian telah diaplikasikan dalam penyelidikan ini. Menurut Burstein et al. (2001), MMB mengambilkira kedua-dua ciri yang wujud dan tidak wujud. Ciri-ciri tersebut terdiri daripada token (perkataan) yang dipecahkan daripada esei ujian. Ciri yang wujud mewakili kebarangkalian token yang wujud untuk sesebuah elemen hujahan berbanding keseluruhan token dalam ayat tersebut dan ciri yang tidak wujud adalah kebarangkalian token yang tidak wujud berbanding keseluruhan token dalam ayat (rujuk Rumus 4.1). Maka, dengan itu, ciri linguistik yang mempengaruhi kualiti sesebuah penulisan akan diperolehi. Dalam penyelidikan ini juga, Teknik MMB berserta Algoritma Pembetulan-Kata (Rajah 3.3) mampu menapis data latihan supaya pemilihan data yang baik sahaja akan digunakan dalam rumus kebarangkalian MMB untuk menentukan dan mengkelaskan elemen hujahan dalam esei. Malah, dalam pengkelasan teks, McCallum dan Nigam (1998) menyatakan bahawa MMB dapat membuat penentuan dan pengkelasan teks yang konsisten hanya menggunakan 46 korpus esei yang kecil. Dengan itu, masalah yang diutarakan oleh Christie (2003) dan Larkey (2003) juga dapat diselesaikan. Bagi membuat peramalan gaya olahan, beberapa ciri telah digunakan. Antaranya purata panjang perkataan, tahap kegramatisan ayat, peratusan kata kerja pasif, peratusan kata nama dan penggunaan perkataan yang sama berulang kali (Burstein dan Wolska, 2003). Sebaliknya, dengan menggunakan Algoritma MLR, sebanyak enam ciri yang lebih optimum dan signifikan untuk membuat peramalan penilaian telah ditetapkan berdasarkan kajian-kajian yang dibuat (Attali dan Burstein, 2004, Semire Dikli, 2006; Attali dan Burstein, 2006). Menurut Burstein dan Attali (2004) juga, pemberat bagi sebahagian atau kesemua ciri dapat ditentukan lebih awal, berbanding pengunaan Algoritma SLR yang perlu menentukan set ciri yang optimum terlebih dahulu. Dengan itu, penilaian dapat dibuat dengan lebih pantas. Dengan kelebihan ini juga, ianya menjamin peramalan gaya olahan yang lebih piawai menggunakan set ciri yang bersaiz lebih kecil (Attali, 2004). 2.2.5 Set Ciri Peramalan Dalam beberapa buah CbAS, sistem dibangunkan berdasarkan topik dan skema penilaian yang khusus untuk ujian tertentu (Williams, 2001). Ini bermakna, sistem telah dibangunkan untuk setiap topik, menggunakan data daripada esei yang ditulis untuk topik yang tertentu dan dinilai oleh manusia berdasarkan skema penilaian untuk penetapan markah. Proses ini memerlukan pengumpulan data yang signifikan dan penilaian manusia; di mana kedua-duanya menyumbang kepada penggunaan masa yang banyak dan memerlukan kos yang tinggi (Hearst, 2000). Lebih-lebih lagi, model sistem tersebut adalah berdasarkan kepada subset pembolehubah yang terdiri daripada lapan hingga 12 ciri peramalan yang telah dipilih menggunakan Algoritma SLR daripada set yang lebih besar yang mengandungi lebih dari 50 ciri. Lampiran E menunjukkan kesemua ciri yang dikumpul daripada kajian sistem CbAS yang telah digunakan sebelum ini. 47 Pada awal 1960an, ciri-ciri yang diekstrak dan digunakan dalam peramalan penilaian terhad kepada ciri-ciri luaran seperti purata panjang perkataan, panjang esei, bilangan koma dan bilangan perkataan yang tidak dikenali (Hearst, 2000). Kajian selanjutnya oleh Burstein dan. (1998) pula menggariskan bahawa terdapat lapan ciri yang diambilkira dan dibahagikan kepada tiga bahagian iaitu ciri sintaksis, ciri struktur hujahan dan ciri analisa topikal. Kajian Burstein itu turut disokong oleh Little (2001), namun beberapa tambahan ciri dalam bahagian ciri sintaksis iaitu bilangan dan nisbah ayat ringkas, sederhana dan kompleks, penggunaan kata kerja bantu dan beberapa ciri lain. Namun begitu, pecahan ciri CbAS telah dibahagikan kepada lima bahagian iaitu kesalahan tatabahasa, penggunaan, mekanik, gaya dan struktur hujahan (Burstein dan Wolska, 2003) pada kajian selanjutnya. Mereka juga membuat penekanan kepada beberapa ciri yang lebih signifikan seperti ciri perkataan berulang yang digunakan terlalu banyak dalam sesebuah esei yang berada dalam bahagian gaya. Malah, Chodorow dan Burstein (2004) juga membuat kajian khusus terhadap kesan ciri panjang esei ke atas penilaian esei Test of English as a Foreign Language (TOEFL). Seterusnya, kajian yang dilakukan menunjukkan bahawa ralat kesetaraan, ralat formasi kata kerja, penggunaan perkataan yang salah, tertinggal tanda baca dan ralat tipografikal antara ciri penting dalam bahagian tatabahasa, penggunaan dan mekanik (Yigal, 2004). Namun begitu, Yigal dan Burstien (2004) sekali lagi menyatakan dengan lebih terperinci bahawa terdapat 12 ciri yang signifikan untuk membuat peramalan penilaian iaitu ciri perbendaharaan kata, struktur ayat, tanda baca, imbuhan, ejaan, pembangunan (terdiri daripada ciri elemen hujahan dan purata panjang elemen hujahan (AEL)), kekompleksan leksikal (terdiri daripada ciri nisbah jenis perkataan (jenis/token), peringkat perbendaharaan kata dan purata panjang perkataan), pengunaan perbendaharaan kata yang spesifik (kandungan esei (EC) dan kandungan argumen (AC)) dan panjang esei. Kajian tersebut turut disokong oleh Semire Dikli (2006) dan Attali dan Burstein (2006). 48 Kesimpulan daripada kajian ke atas kepelbagaian jenis ciri yang mewakili bahagian-bahagian penilaian esei dan mengambilkira skema penilaian UPSR (rujuk Jadual 2.4), set 12 ciri yang signifikan telah dikenalpasti untuk digunakan dalam kajian ini berdasarkan kekerapan ciri tersebut digunakan dan kajian terbaru yang dilakukan oleh penyelidik. Set 12 ciri tersebut dirumuskan dalam Jadual 2.3. Jadual 2.3: Set 12 ciri peramalan untuk teknik penilaian. Jenis Ciri Bahagian Jenis Pembolehubah Gaya Olahan Optimum Jenis/Token Gaya Olahan Optimum Purata Panjang Perkataan (AWL) Gaya Olahan Optimum EssayContent (EC) Gaya Olahan Optimum ArgContent (AC) Gaya Olahan Optimum Panjang Esei (EL) Gaya Olahan Optimum Perbendaharaan Kata Bahasa Tetap Struktur Ayat Bahasa Tetap Tanda Baca Bahasa Tetap Imbuhan Bahasa Tetap Ejaan Bahasa Tetap Elemen Hujahan Isi Kandungan Tetap Purata Bilangan Perkataan dalam elemen hujahan (AEL) Jadual 2.3 menunjukkan set 12 ciri yang digunakan dalam penyelidikan ini dalam membuat penentuan dan pengkelasan elemen-elemen hujahan dan peramalan gaya olahan. Oleh sebab itu, selain dibahagikan kepada tiga bahagian; bahasa, isi kandungan dan gaya olahan selaras dengan Skema Penilaian UPSR, enam ciri pertama daripada jadual tersebut dipecahkan kepada ciri optimum yang menggunakan Algoritma MLR untuk membuat peramalan gaya olahan. Manakala, ciri tetap terakhir (elemen hujahan) akan menggunakan Teknik MMB dalam menentukan dan mengkelaskan elemen hujahan yang wujud. Bagi ciri tetap yang lain 49 pula (bahagian bahasa), data diperolehi daripada penilaian manusia kerana pemprosesan nilai untuk ciri-ciri tersebut tidak terkandung dalam skop penyelidikan ini. 2.3 Pemarkahan Esei Bagaimana untuk memastikan sesebuah karangan atau esei itu dinilai dengan penilaian yang sewajarnya dan terbaik? Antara kriteria yang penting dalam penilaian esei ialah ‘Peraturan Memberi Markah’ (PMM) yang sesuai, pemeriksa yang pakar dan cekap serta penyelarasan antara para pemeriksa. Kesemua kriteria tersebut adalah merupakan perkara wajib sekiranya ia melibatkan ujian pencapaian dan bilangan pemeriksanya melebihi daripada seorang. Sekiranya bilangan pemeriksa hanyalah seorang, kriteria yang wajib cukup sekadar PMM. Namun begitu, terdapat pelbagai faktor samada luaran mahupun dalaman pemeriksa yang boleh mempengaruhi kebolehpercayaan markah yang diberikannya. 2.3.1 Peraturan Memberi Markah PMM perlu disediakan terlebih dahulu sebelum sesebuah esei itu diperiksa. Bagi ujian sumatif seperti UPSR, PMM telah disediakan oleh Lembaga Peperiksaan Malaysia yang berada di bawah tanggungjawab Kementerian Pelajaran Malaysia. Secara amnya, terdapat dua teknik yang digunakan untuk membangunkan PMM. Teknik pertama ialah teknik global yang melibatkan tanggapan, holistik dan impresif. Teknik yang kedua pula ialah teknik analisis yang mana ia melibatkan perincian (Abdul Aziz, 1993). Teknik eklektik pula merupakan gabungan kedua-dua teknik tersebut. 50 2.3.1.1 Teknik Global Global atau holistik didefinisikan sebagai ‘menyeluruh’. Teknik ini menggunapakai konsep ‘keseluruhan adalah lebih penting berbanding pecahan bahagian (argumen)’. Berdasarkan konsep ini, pemeriksa akan melakukan penilaian secara keseluruhan ke atas sesebuah esei. Berdasarkan skala lima-mata iaitu gred A,B,C,D dan E, penilaian akan dibuat melalui anggaran pemeriksa setelah membaca esei sekali lalu. Kemudian esei tersebut akan dibaca sekali lagi untuk mengenalpasti kekuatan dan kesilapan yang terdapat di dalam esei tersebut. Setelah itu barulah markah akan ditentukan secara muktamad. Cara ini amat subjektif di mana ia memerlukan kepada kemahiran pemeriksa dan kebolehan membaca secara kritikal. ‘Amat subjektif’ bermakna kebolehpercayaan permarkahan adalah amat rendah. Walaubagaimanapun, terdapat cara untuk meningkatkan tahap kebolehpercayaan pemarkahan menerusi teknik ini iaitu dengan mengadakan penyelarasan bersama antara para pemeriksa dan penyediaan model jawapan bagi rujukan bersama. Satu lagi kaedah di dalam teknik global ialah membuat perbandingan. Menerusi kaedah ini, pemeriksa akan membaca keseluruhan dan kesemua esei berkenaan sekali lalu dan menyusunnya mengikut kualiti. Esei yang terbaik akan diletakkan di bahagian atas manakala esei yang paling lemah akan diletakkan dibahagian yang bawah. Kemudian, esei tersebut akan dibaca sekali lagi untuk memastikan kedudukannya dan seterusnya peratus akan diberikan berdasarkan penilaian skala lima-mata (Gred A hingga E). Kaedah ini sesuai digunakan bagi menilai esei yang panjang seperti kerja kursus/projek sekolah. Kaedah ini juga sesuai untuk memilih esei, cerpen, sajak, novel dan sebagainya untuk sesuatu peraduan, terutamanya pada peringkat saringan. 51 2.3.1.2 Teknik Analisis Teknik analisis berlainan dengan teknik global. Di dalam teknik ini, markah diberi berdasarkan kepada kriteria tertentu. Ia bergantung kepada bilangan elemen di dalam kriteria tersebut. Sekiranya banyak elemen yang dinyatakan di dalam kriteria tersebut di dalam sesebuah esei, maka markah yang diperuntukkan adalah tinggi. Berbanding teknik global, teknik ini tidak memerlukan pemeriksa yang pakar. Ianya sesuai bagi penilaian ujian pencapaian dan formatif di mana ia boleh digunakan untuk tujuan diagnostik dan memberi maklumbalas tentang esei tersebut kepada guru dan pelajar. Di dalam teknik analisis, kaedah ini digunakan untuk menilai esei berdasarkan kepada peruntukan markah yang tertentu. Berdasarkan piawaian skema pemarkahan UPSR bagi Bahasa Melayu, pembahagian markah adalah seperti berikut: x Isi : 30% x Bahasa : 40% x Gaya dan Olahan : 30% Jumlah : 100% Terdapat tiga bahagian perincian bagi pemarkahan karangan UPSR. Bahagian yang pertama ialah isi. Di dalam bahagian ini, pemarkahan bagi isi akan ditetapkan dengan menggunakan skala global 10 mata atau teknik analisis. Bagi skala global 10 mata, kriterianya hendaklah berkaitan dengan isi. Manakala bagi teknik analisis pula, pembahagian markah antara isi perlu ditunjukkan berserta dengan contoh-contoh isi yang menyumbang kepada markah tersebut. Bahagian yang kedua pula ialah bahasa. Di dalam bahagian ini, sistem tolak digunakan di mana satu markah akan ditolak bagi setiap kesalahan bahasa seperti struktur frasa, struktur ayat, penggunaan kata, ejaan dan sebagainya. Sementara itu, dari segi gaya dan pengolahan pula, skala global 30 mata digunakan (rujuk Lampiran D). 52 Jika diteliti, teknik analisis ini adalah merupakan teknik gabungan kerana ianya mengandungi gabungan antara ciri-ciri unsur global dan unsur analisis. Menerusi teknik ini, ia amat sesuai digunakan untuk menguji kemahiran bahasa kerana 70% daripada markah diperuntukkan bagi menilai aspek-aspek bahasa dan pengolahannya selain dari menganalisis kesilapan. 2.3.2 Kaedah Menilai Esei Terdapat dua cara yang biasanya digunakan oleh pemeriksa bagi menilai esei. Penilaian boleh dilakukan berdasarkan susunan kertas iaitu pemeriksaan ke atas esei calon A, diikuti esei calon B dan seterusnya. Selain itu, penilaian esei pelajar juga boleh dilakukan berdasarkan topik soalan. Kedua-dua cara ini boleh digunakan mengikut kesesuaian bilangan kertas esei yang ingin diperiksa. Jika bilangan esei yang ingin dinilai itu banyak dan mempunyai lebih daripada satu soalanatau topik esei, cara kedua adalah lebih sesuai dan berkesan. Ini kerana pemeriksa dapat menumpukan pemikirannya terhadap isi-isi kandungan dalam topik berkenaan dan tidak diselangi dengan pelbagai isi topik yang berlainan, apatah lagi sekiranya skema pemarkahannya adalah berbeza. Mokhtar (1995) menyatakan bahawa kaedah ini boleh mengelakkan pemeriksa daripada dipengaruhi oleh soalan sebelumnya ketika memeriksa isi yang seterusnya. Namun sekiranya hanya terdapat satu soalan atau topik esei sahaja, cara pertama adalah lebih berkesan. 2.3.3 Penyelarasan Markah Penyelarasan markah bagi esei perlu dilakukan jika pemeriksanya lebih daripada seorang. Ia perlu bagi kedua-dua jenis ujian samada sumatif atau formatif. Penyelarasan boleh meningkatkan tahap kebolehpercayaan pemarkahan esei. 53 Pemeriksa akan berbincang di dalam mensyuarat penyelarasan dan memeriksa persampelan markah calon. Melalui mesyuarat tersebut, perbezaan markah di antara pemeriksa-pemeriksa akan dibincangkan dan diminimumkan dengan melakukan pemeriksaan semula dan perubahan terhadap skema pemarkahan. Kebiasaannya, moderasi (penyesuaian) markah dilakukan dalam penyelarasan sekiranya perbezaan (selisih) markah antara pemeriksa melebihi 5%. 2.3.4 Pemarkahan Esei UPSR Teknik pemarkahan yang lebih sesuai untuk menilai esei UPSR ialah menggunakan teknik analisis bagi menilai isi dan bahasa, manakala untuk menilai gaya olahan pula teknik global 30 mata lebih sesuai. Oleh kerana Sukatan Pelajaran Bahasa Melayu Sekolah Rendah menekankan kemahiran berbahasa, maka nisbah markah bahasa seharusnya melebihi markah isi dan gaya olahan ayat. Pembahagiannya ialah 40 markah bagi bahasa, 30 markah bagi isi dan 30 markah bagi gaya olahan. Perincian markah bahasa berikut merupakan perincian yang biasa digunakan (Mohd. Isa bin Abd. Razak, 2004): x Perbendaharaan kata : 3 markah x Struktur ayat : 3 markah x Penggunaan imbuhan : 3 markah x Penggunaan tanda baca : 3 markah x Ejaan : 3 markah Markah bagi komponen perbendaharaan kata dan struktur ayat boleh diberikan secara global di mana markah penuh akan diberikan jika esei yang ditulis memperlihatkan keluasan penggunaan perbendaharaan kata dan menggunakan pelbagai jenis dan variasi ayat. Sementara itu, bagi komponen-komponen yang lain, sistem pemotongan markah digunakan. Setengah (½) markah akan dipotong bagi setiap kesalahan yang melibatkan penggunaan imbuhan, penggunaan tanda baca dan 54 ejaan. Markah tidak dipotong bagi kesalahan yang berulang. Markah isi pula diagihkan seperti berikut (Mohd. Isa bin Abd. Razak, 2004): x Pendahuluan : 1 markah x 4 isi × 2 markah : 8 markah x Penutup : 1 markah Namun begitu, pembahagian markah isi tidaklah terlalu ketat. PMM yang bagus menyatakan bahawa pemeriksa boleh mempertimbangkan markah yang sesuai bagi isi yang berkaitan dengan soalan walaupun isi tersebut tidak dinyatakan dalam PMM. Seterusnya, pembahagian markah gaya olahan diperincikan seperti dalam Lampiran C. Sebelum tahun 1996, Ujian Penulisan UPSR mensyaratkan calon menulis esei yang panjangnya tidak kurang daripada 80 patah perkataan. Sungguhpun begitu, mulai tahun 1996, had maksimum perkataan yang boleh digunakan untuk menulis esei ditetapkan kepada tidak melebihi 120 patah perkataan. Lazimnya, pemeriksa tidak perlu menilai bahagian yang melebihi had maksimum itu. Maknanya, tiada markah yang diberikan atau dipotong pada bahagian tersebut. Ini secara tidak langsung akan menyebabkan calon berkemungkinan kehilangan markah isinya, khususnya penutup, jika ianya terkandung dalam bahagian tersebut. Pemeriksaan secara analisa pula memerlukan pemeriksaan yang cukup teliti di mana pemeriksa perlu membaca esei itu sekali lalu untuk mendapatkan gambaran dan menentukan jumlah perkataan yang digunakan. Kemudian esei tersebut dibaca buat kali yang kedua di mana di tahap ini, pemeriksa akan mempertimbangkan markah yang sewajarnya diberikan berdasarkan PMM yang ditetapkan. Selain itu, pemeriksa juga perlu mengenalpasti dan menanda isi serta kesalahan yang terdapat di dalam esei tersebut seperti dalam Jadual 2.4. 55 Jadual 2.4 : Pembahagian markah berdasarkan Skema Penilaian Esei UPSR. Aspek Isi Bahasa Gaya Olahan Pecahan Pendahuluan 5 Isi pertama 5 Isi kedua 5 Isi ketiga 5 Isi keempat 5 Isi kelima 5 Isi keenam 5 Isi ketujuh 5 Isi kelapan 5 Penutup 5 Perbendaharaan kata 8 Struktur ayat 8 Penggunaan imbuhan 8 Penggunaan tanda baca 8 Ejaan 8 Skala global 30-mata 30 Jumlah 2.3.5 Markah (%) 100 Isu-isu Utama Dalam Penilaian Esei Terdapat beberapa isu di dalam menilai esei-esei calon UPSR. Isu-isu ini perlu dititikberatkan kerana ianya mempengaruhi pembahagian markah yang sewajarnya. 56 2.3.5.1 Penandaan Kesalahan Penandaan kesalahan boleh dilakukan berpandukan Jadual 2.4 atau cara-cara yang difikirkan sesuai (Abdul Aziz Abdul Talib, 1993). Penandaan kesalahan sangat penting bagi ujian sumatif. Dalam ujian ini, persampelan kertas yang telah diperiksa oleh pemeriksa biasanya akan disemak semula oleh ketua kumpulan. Persampelan kes lulus biasa, semua kes gagal dan semua kes cemerlang mungkin juga akan disemak semula oleh ketua pemeriksa. Penandaan itu memudahkan ketua pasukan dan ketua pemeriksa melaksanakan tugas mereka. 2.3.5.2 Keadaan Kritikal Dalam keadaan tertentu, kadang-kadang pemeriksa menemui kesukaran untuk membuat penilaian apabila wujudnya keadaan yang bertentangan. Pertama sekiranya isi jawapan calon sangat tepat dan matang, tetapi terdapat masalah dari aspek bahasa. Antara masalah bahasa yang kerap berlaku ialah kesalahan struktur frasa dan ayat, kurang keseragaman susuk ayat dan kesilapan penggunaan tanda baca. Gred tertinggi yang boleh diberikan pada esei dalam kes ini ialah gred B. Kedua sekiranya isi jawapan calon terpesong keseluruhannya (di luar topik soalan), tetapi kemampuan bahasanya amat cemerlang. Gred tertinggi yang boleh diberikan pada esei dalam kes ini ialah gred D. 2.4 Ringkasan Bab ini menyoroti pembangunan awal bebarapa buah sistem CbAS berserta teknik yang digunakan. Kajian demi kajian dibuat sehingga ke kajian terkini (stateof-the-art). Dari situ, peluang menambahbaik teknik penilaian semasa dikenalpasti yang melibatkan penentuan dan pengkelasan elemen hujahan dan peramalan gaya olahan esei. Kedua-dua pencapaian tersebut dipertingkatkan dengan penggunaan 57 Teknik MMB dan Algoritma MLR. Justifikasi pemilihan teknik-teknik tersebut juga diterangkan dalam bab ini. Selanjutnya, perbincangan mengarah kepada set ciri yang digunakan oleh para pengkaji bidang penilaian esei ini sehingga set 12 ciri yang signifikan dikenalpasti dan digunakan dalam penyelidikan ini. Bab ini diakhiri dengan penerangan tentang Skema Penilaian UPSR yang digunakan dalam penyelidikan ini untuk membuat penilaian ke atas esei ujian. Bab 3 akan berkisar tentang metodologi penyelidikan yang digunakan untuk membangunkan kedua-dua teknik penilaian secara terperinci. Metodologi yang melibatkan empat fasa tersebut juga akan akan merangkumi penerangan prosidur five-fold cross-validation yang digunakan untuk menguji pencapaian teknik penyelidikan dengan teknik yang digunakan sebelum ini. Selain itu, turut dimuatkan dalam bab ini ialah penerangan lanjut set 12 ciri signifikan tersebut. BAB 3 METODOLOGI KAJIAN 3.1 Pendahuluan Dalam bab sebelum ini, kita telah membincangkan tentang kajian rintis CbAS, teknik, set ciri yang digunakan dan pencapaian yang dicapai beserta beberapa contoh CbAS yang terbaik. Dengan itu, beberapa masalah telah dikenalpasti dalam usaha untuk mencapai tahap kesetaraan manusia-sistem yang lebih tinggi. Salah satunya ialah penggunaan Teknik MMB untuk menentukan dan mengkelaskan elemen-elemen hujahan yang wujud dalam sesebuah esei. Isu kedua ialah untuk mendapatkan pekali terhampir bagi ciri optimum dalam persamaan pengunduran untuk mendapatkan peramalan terbaik setara dengan penilaian manusia. Dengan itu, Algoritma MLR akan diaplikasikan. Bab ini akan memfokuskan tentang metodologi penyelidikan berserta kaedah dan teknik yang digunakan untuk membangunkan aplikasi penilaian. Penerangan ke atas penggunaan Teknik MMB dan Algoritma MLR akan diperincikan. 59 3.2 Metodologi Penyelidikan FASA I : Pra-Pemprosesan Data & Pengekstrakan Data Prosidur Five-Fold Cross Validation Pemecahan Argumen Penggabungan Kata Pembahagian dan Penandaan Token Penyisihan Imbuhan Penggabungan Argumen Pembetulan Kata FASA II : Latihan Peramalan Gaya Olahan (Ciri Optimum) Algoritma Pengunduran Linear Berganda Pemilihan Data Pekali Pemberat Pengunduran FASA III : Latihan Pengkelasan Elemen Hujahan (Ciri Tetap) Pekali Pemberat Peratusan Penapisan Data Pemilihan Ciri FASA IV : Pengujian Penilaian Ciri Tetap Elemen Bahasa Ciri Optimum Model Multivariate Bernoulli Algoritma Pengunduran Linear Berganda Pekali Pemberat Peratusan Pekali Pemberat Pengunduran Penilaian Gred Akhir Rajah 3.1: Rekabentuk metodologi penyelidikan. 60 Penyelidikan ini melibatkan pembangunan empat fasa utama. Fasa I melibatkan dua proses utama iaitu Pra-Pemprosesan Data dan Pengekstrakan Data yang menekankan proses pembetulan kata dan penggabungan kata. Manakala, Fasa II, III dan IV merupakan fokus utama penyelidikan ini yang menumpukan kepada pengaplikasian Teknik MMB dan Algoritma MLR. Fasa II dan III masing-masing melibatkan proses Latihan Peramalan Gaya Olahan untuk ciri tetap dan Latihan Pengkelasan Elemen Hujahan untuk ciri optimum (penerangan tentang ciri tetap dan ciri optimum boleh dirujuk di Jadual 3.2). Fasa IV pula merupakan Fasa Pengujian yang merumuskan kesetaraan perbandingan penilaian esei oleh manusia dan penilaian esei menggunakan teknik penilaian (AGREEM). 3.3 Teknik Penilaian Penyelidikan ini dibangunkan berteraskan kepada metodologi penyelidikan pada Rajah 3.1 dan disesuaikan dengan Skema Penilaian UPSR yang merangkumi elemen bahasa, isi-isi penting dan gaya olahan ayat dalam sesebuah esei (rujuk Jadual 2.4). Pemecahan esei kepada argumen dan seterusnya kepada token masih terdapat kelemahan (Perez, 2004). Masalah yang diatasi ialah seandainya wujud ralat-ejaan kata, algoritma yang dibangunkan dalam kajian ini (rujuk Rajah 3.3) mampu mengenalpasti perkataan tersebut dan membetulkannya jika ianya memenuhi syaratsyarat yang telah ditentukan (syarat i hingga iii di bawah Subtopik 3.6). Bagi memperbaiki kemampuan peramalan gaya olahan esei, penggunaan Algoritma MLR berbanding Algoritma SLR dilihat lebih berkesan lebih-lebih lagi apabila ianya hanya menggunakan set ciri yang bersaiz lebih kecil iaitu enam ciri optimum (p1, p2, .. , p6) yang piawai dan telah ditetapkan (rujuk Jadual 3.2). Manakala itu, kajian ini juga mendapati hasil daripada penggunaan Teknik Logik Fuzzy boleh dipertingkatkan dengan menggunakan pendekatan Bayesian iaitu Teknik MMB 61 dalam penentuan dan pengkelasan elemen-elemen hujahan setiap esei ujian (bagi pemberat ciri tetap, p12). 3.4 Prosidur Five-Fold Cross Validation Penyelidik telah menggunakan esei yang ditulis oleh calon pelajar UPSR sebagai sampel data. Esei tersebut kemudiannya ditukarkan dalam bentuk dokumen berkomputer dan disimpan dalam format *.doc. Sebanyak 200 sampel data tersebut (setelah ditapis) telah diperolehi daripada dua buah sekolah, iaitu Sekolah Kebangsaan Galing dan Sekolah Kebangsaan Semambu, Kuantan, Pahang. Data tersebut merupakan esei yang telah dinilai oleh penilai yang berpengalaman beserta dengan penerangan terperinci setiap bahagian yang dinilai untuk tujuan latihan dan ujian bagi teknik penilaian dalam penyelidikan ini. Daripada jumlah tersebut, penyelidik telah mengaplikasikan prosidur five-fold cross validation iaitu dengan membahagikan jumlah tersebut kepada lima bahagian untuk dilatih dan diuji mewakili lima mata-aras berdasarkan Skema Penilaian UPSR (Gred A, B, C, D dan E). Penerangan lanjut bagi skema penilaian ini boleh dirujuk di Lampiran C. Pembahagian tersebut adalah seimbang untuk menjamin hasil yang lebih konsisten. Dalam pembangunan sesebuah sistem atau prototaip sistem terutamanya, nfold cross-validation dilaksanakan bermula dari peringkat latihan (Wei Fan, 2005). N-fold cross-validation secara rawaknya membahagikan keseluruhan data latihan kepada n set. Penyelidikan yang dibangunkan ini dilatih sebanyak lima kali (mewakili lima mata-aras), di mana setiap fasa tersebut satu set akan dikeluarkan sebagai set pengujian. Oleh itu, five-fold cross-validation (n adalah lima) telah digunakan dan penerangan lanjut boleh dirujuk di Jadual 3.1. 62 Jadual 3.1: Kitaran prosidur five-fold cross validation. Kitaran Kumpulan Esei Latihan Kumpulan Esei Ujian 1 1 2 3 4 5 1 ¥ ¥ ¥ ¥ ¥ ¥ ¥ ¥ ¥ ¥ 2 ¥ 3 ¥ ¥ 4 ¥ ¥ ¥ 5 ¥ ¥ ¥ ¥ 2 3 4 5 ¥ ¥ ¥ ¥ ¥ Berdasarkan kepada skop kajian ini dalam 1.6 (iii), dinyatakan bahawa topik esei telah ditentukan iaitu pelajar perlu membina sebuah esei dengan tajuk ‘Temasya Sukan Sekolah’. Sejumlah 200 esei tersebut adalah data yang terhasil setelah tapisan dibuat untuk memilih esei yang paling baik dan bilangan yang seimbang bagi setiap gred. Dengan itu, sebanyak 40 esei bagi setiap gred telah diperolehi (rujuk Jadual 5.1). Pada minggu yang lalu, sekolah kami telah mengadakan satu temasya sukan tahunan. Temasya sukan ini telah diadakan di padang sekolah kami. Tujuannya adalah untuk memilih beberapa orang pelajar sebagai wakil sekolah dan meningkatkan prestasi murid. Seminggu sebelum temasya sukan ini, pelajar-pelajar diminta untuk membersihkan kawasan padang dan mendirikan khemah-khemah mengikut rumah sukan. Guru-guru wanita diminta untuk menyusun hadiah-hadiah seperti piala, pingat dan sijil mengikut kategori untuk para pelajar yang menjadi pemenang dalam sukan ini. Guru-guru lelaki pula diminta untuk menyediakan alat-alat sukan. Mereka juga diminta untuk menghias khemah. Temasya sukan ini telah dirasmikan oleh Guru Besar Sekolah Kebangsaan Semambu iaitu Tuan Haji Mohd Tahir bin Abdul Hamik. Beberapa acara telah diadakan seperti acara lumba lari, lompat jauh, dan lain-lain lagi. Setiap pelajar menyokong ahli kumpulan mereka untuk memberi semangat supaya tidak mengalah kepada pihak lawan. Suasana menjadi riuh-rendah dengan sokongan para pelajar. Setelah selesai kesemua acara, Guru Besar diminta untuk menyampaikan hadiah kepada para pemenang. Beberapa orang murid telah diminta untuk naik ke pentas dan mengambil hadiah. Rumah Merah telah diisytiharkan sebagai juara antara rumah sukan. Selepas itu, semua pelajar dan guru ke kantin untuk menikmati juadah seperti nasi ayam, mi goreng dan lain-lain. Semua pelajar berselera menikmati juadah yang telah dihidangkan. Walaupun mereka penat tetapi mereka berpuas hati atas apa yang telah mereka lakukan di hari sukan itu. Saya berharap supaya sekolah ini mengadakan sukan tahunan yang lebih meriah pada tahun hadapan. Rajah 3.2: Contoh esei pelajar. 63 Rajah 3.2 menunjukkan antara contoh esei calon pelajar UPSR yang dijadikan sampel untuk digunakan sebagai latihan dan ujian dalam prototaip sistem ini. Keseluruhan data ini boleh dirujuk dalam Lampiran A. 3.5 Set 12 Ciri Peramalan Dalam penyelidikan ini, sebanyak 12 ciri yang diambilkira iaitu purata bilangan perkataan dalam elemen hujahan (AEL), jenis/token, purata panjang perkataan (AWL), Kandungan Esei (EC), Kandungan Argumen (AC), panjang esei (EL), perbendaharaan kata, struktur ayat, imbuhan, tanda baca, ejaan dan elemen hujahan. Ianya dibahagikan pula kepada dua kumpulan iaitu set ciri optimum yang terdiri daripada enam ciri yang terawal dan set ciri tetap yang terdiri daripada enam ciri selebihnya. Disebabkan bilangan ciri tersebut kecil dan setiap satunya adalah signifikan dalam menyumbang kepada hasil untuk peramalan penilaian manusia, ianya membolehkan Algoritma MLR digunakan, yang mana dengannya, kesemua ciri dalam set ciri tetap diambilkira dalam membuat peramalan gaya olahan esei. Manakala, Teknik MMB pula diaplikasikan ke atas salah satu ciri tetap iaitu penentuan dan pengkelasan elemen hujahan esei. Salah satu kelebihan metodologi ini ialah set ciri telah ditentukan terlebih dahulu untuk tujuan peramalan penilaian. Ini adalah penting untuk membolehkan kita mengawal pemberat ciri apabila wujud pertimbangan secara teori yang berkaitan dengan pelbagai komponen bagi kebolehan menulis. 64 Jadual 3.2: Set 12 ciri signifikan untuk peramalan penilaian. Jenis Ciri Bahagian Pembolehubah Jenis Peratus Markah Pembolehubah Diperuntukkan Purata Bilangan Perkataan dalam Gaya Olahan P1 Optimum Gaya Olahan P2 Optimum Gaya Olahan P3 Optimum Gaya Olahan P4 Optimum ArgContent (AC) Gaya Olahan P5 Optimum Panjang Esei Gaya Olahan p6 Optimum Bahasa p7 Struktur Ayat Bahasa Tanda Baca elemen hujahan (AEL) Jenis/Token Purata Panjang Perkataan (AWL) EssayContent .3 (EC) (EL) Perbendaharaan Tetap .08 p8 Tetap .08 Bahasa p9 Tetap .08 Imbuhan Bahasa p10 Tetap .08 Ejaan Bahasa p11 Tetap .08 Elemen Hujahan Isi Kandungan p12 Tetap .3 Kata Dalam Jadual 3.2, set ciri optimum dan ciri tetap telah dibahagikan kepada tiga bahagian utama selaras dengan Skema Penilaian Esei UPSR. Bagi ciri p1 hingga p6, ianya menyumbang kepada peramalan bagi gaya olahan esei yang merangkumi keseluruhan 30% markah menggunakan Algoritma MLR. Sebaliknya, ciri p7 hingga p11 dalam bahagian bahasa, data daripada penilaian manusia diambil dan digunakan pada fasa peramalan penilaian akhir untuk pembuktian kesetaraan penilaian manusiateknik penilaian. Ianya menyumbang sebanyak 40% daripada markah keseluruhan. Seterusnya, bagi isi kandungan, p12, Teknik MMB telah diaplikasikan untuk 65 menentukan dan mengkelaskan kesemua 10 elemen hujahan yang terdapat dalam setiap esei ujian yang merangkumi 30% markah. 3.5.1 Set Ciri Optimum Ciri-ciri dalam set ciri optimum adalah untuk mengukur gaya olahan esei. Terdapat enam ciri dalam set ciri ini yang mana merangkumi struktur pembangunan esei, kekompleksian leksikal, penggunaan perbendaharaan kata yang spesifik dan panjang esei yang mempengaruhi gred akhir sesebuah esei. 3.5.1.1 Purata Bilangan Perkataan dalam Elemen Hujahan (AEL) Ciri ini bertujuan untuk mengukur struktur pembangunan ayat dalam esei. Ciri AEL adalah purata panjang (bilangan perkataan) bagi elemen hujahan dalam esei (p1). Sebagai contoh, bilangan perkataan bagi elemen hujahan (penyataan tesis, isi pertama hingga lapan dan penyataan penutup) masing-masing ialah 12, 8, 9, 10, 11, 8, 7, 9, 8 dan 13 patah perkataan. Oleh itu, AEL bagi esei tersebut ialah jumlah perkataan tersebut dibahagi dengan bilangan elemen hujahan yang wujud (dalam kes ini ialah 10). Nilai AEL bagi kes ini ialah 9.5. 3.5.1.2 Jenis/Token Terdapat dua ciri yang dikenalpasti mempunyai mempengaruhi kekompleksian leksikal sesebuah ayah dalam esei. Ciri ini merupakan salah satu darinya. Ciri jenis/token ialah kadar atau nisbah bilangan jenis perkataan kepada token dalam esei. Sebagai contohnya, dalam ayat “Saya sangat sayangkan emak saya” terdapat 4 token yang berbeza (saya, sangat, sayangkan dan emak) daripada 5 token kesemuanya (saya, sangat, sayangkan, emak dan saya). Oleh itu, nisbah 66 jenis/token (p2) ialah 4/5 atau 0.8. Tujuan ciri ini adalah untuk mengira bilangan perkataan unik dalam esei dan mempiawaikan pengiraan ini dengan jumlah bilangan perkataan dalam esei. 3.5.1.3 Purata Panjang Perkataan (AWL) Ciri AWL adalah ciri kedua yang digunakan untuk mengukur kekompleksian leksikal. Ciri ini adalah purata panjang perkataan (bilangan huruf) merangkumi semua perkataan dalam esei (p3). Nilai lazim bagi ciri ini pada julat 5.0000 hingga 7.0000 iaitu jumlah bilangan huruf bagi sesebuah token (perkataan). 3.5.1.4 Kandungan Essay (EC) Bagi mengukur perbendaharaan kata topik-spesifik, dua ciri digunakan. Salah satu daripadanya ialah ciri EC (p4). Nilai ciri EC bagi esei ujian akan diperolehi dengan mengukur jarak kosinus antara vektor penghampiran yang dibangunkan untuk esei ujian dengan setiap supervektor yang mewakili lima mata-penilaian. Oleh itu, hasil yang dijana oleh ciri ini bernilai samada 5, 4, 3, 2 atau 1 yang masingmasing mewakili gred A, B, C D dan E. Bagi EC, nilai tersebut dihasilkan dengan mengambil keseluruhan kandungan esei. Penerangan terperinci ciri ini boleh dirujuk di Subtopik 4.5.2. 3.5.1.5 Kandungan Argumen (AC) Ciri AC (p5) merupakan ciri kedua bagi mengukur perbendaharaan kata topik-spesifik. Bagi ciri ini, nilai dan kaedah pemprosesan adalah menyamai EC. Namun begitu, ciri ini tidak mengambil secara keseluruhan esei untuk diproses sebaliknya mengambil argumen demi argumen untuk diproses secara berasingan. 67 Nilai akhir AC ialah purata bagi nilai keseluruhan argumen tersebut (yang mewakili keseluruhan esei). Penerangan terperinci ciri ini boleh dirujuk di Subtopik 4.5.2. 3.5.1.6 Panjang Esei (EL) Sepertimana analisa yang telah dibuat, didapati bahawa panjang esei (p6) merupakan salah satu pembolehubah/ciri penting, secara objektifnya, dalam meramal skema penilaian manusia. Dalam kajian ini, ianya panjang esei telah dimasukkan (diukur berdasarkan bilangan perkataan) ke dalam set ciri, supaya dengan itu memungkinkan sistem untuk mengawal keberkesanannya/kepentingannya dalam memodelkan kebolehan menulis dan dalam masa yang sama berusaha untuk meminimakan kesan panjang esei ke atas ciri yang lain dalam set ciri. 3.5.2 Set Ciri Tetap Ciri-ciri dalam set ciri tetap pula adalah berperanan untuk mengukur bahasa dan isi kandungan esei. Terdapat enam ciri dalam set ciri ini yang mana merangkumi lima ciri kesalahan bahasa dan satu ciri elemen hujahan. 3.5.2.1 Kesalahan Bahasa Berdasarkan Skema Penilaian UPSR yang dilakukan terdapat lima ciri kesalahan bahasa iaitu perbendaharaan kata, struktur ayat, imbuhan, tanda baca dan ejaan (p7, p8, p9, p10, p11 ) yang diambilkira dalam membuat penilaian esei. Kebanyakan sistem penilaian menentukan nilai ciri tersebut menggunakan Kaedah Pemprosesan Bahasa Tabii (NLP). 68 Berdasarkan skema penilaian tersebut (rujuk Jadual 3.2), kesalahan bahasa dalam esei merangkumi 40% (.4) daripada markah keseluruhan. Daripada pecahan itu, ianya dibahagi dengan lima bahagian, iaitu mewakili lima kategori ciri kesalahan bahasa dalam penyelidikan ini. Maknanya, setiap kategori merangkumi markah sebanyak 8%. Ianya menggunakan kaedah penolakan markah (-0.5) seperti yang dijelaskan dalam subtopik 2.3.4. Hasilnya, satu set nilai ciri p7 hingga p11 yang bernilai negatif akan diperolehi. Namun begitu, sepertimana yang telah dimaklumkan sebelum ini, data daripada bahagian ini akan diambil daripada sampel esei kerana ianya tidak terlibat dalam pembangunan penyelidikan ini lebih-lebih lagi bahagian ini merupakan bahagian yang agak sukar dan kompleks (penerangan akan diterangkan dalam Subtopik 3.9.1.1). Nilai negatif ini kemudiannya akan ditukarkan kepada nilai positif menggunakan kaedah penjelmaan linear dengan mengaplikasikan Rumus 4.28 dalam Bab 4 (rujuk Subtopik 4.5.1). 3.5.2.2 Elemen Hujahan Ciri elemen hujahan (p12) ini adalah untuk mengenalpasti dan mengkelaskan elemen-elemen hujahan (penyataan pendahuluan, isi-isi penting dan penyataan penutup) yang wujud dalam esei. Rumus MMB (rujuk Rumus 4.1) telah digunakan untuk tujuan penentuan dan pengkelasan elemen hujahan tersebut. Secara keseluruhannya, markah bagi bahagian isi kandungan dikira dengan menjumlahkan markah kesemua elemen hujahan yang wujud. Berdasarkan skema penilaian, bagi ciri ini, markah keseluruhan bahagian ini ialah sebanyak 30%. Oleh kerana terdapat 10 elemen hujahan, setiap satunya memegang nilai peruntukan sebanyak 3% markah. 69 3.6 Pra-pemprosesan Data dan Pengekstrakan Data Pra-pemprosan dalam kajian ini berperanan untuk mempiawaikan data-data tertentu bagi menambahbaik data asal agar lebih menepati dan menghampiri kaedah penilaian manusia sebelum ianya boleh diekstrak untuk menepati ciri-ciri yang lebih signifikan. Berdasarkan Rajah 3.3, Fasa I ini dimulakan dengan proses pemecahan esei kepada argumen (ayat). Titik pemecahan argumen ini ditentukan berdasarkan posisi simbol noktah pada sebelum dan selepas bagi setiap ayat (kecuali pada ayat pertama, permulaan ayat tidak wujud simbol noktah). Argumen tersebut kemudiannya akan dibahagikan dan ditanda mengikut turutan dalam bentuk perkataan (token). Seterusnya, setiap perkataan tersebut akan melalui proses penyisihan imbuhan yang akan membuang imbuhan awalan dan akhiran setiap perkataan bagi mendapatkan kata dasar. Setiap token tersebut (kata dasar) kemudiannya akan dipadankan dengan perkataan yang disimpan dalam Pangkalan Pengetahuan (KB) KB_Thesaurus yang mengandungi senarai kata dasar dalam Bahasa Melayu yang betul. Sebagai contoh, perkataan ‘didakan’ mungkin mewakili perkataan ‘diadakan’. Sebagai penilai (manusia), markah akan ditolak dari segi kesalahan ejaan tetapi masih dikira betul dari segi isi penting (elemen hujahan). Untuk itu, Algoritma Pembetulan-Kata seperti dalam Rajah 3.3 telah dibangunkan untuk memecahkan setiap token ke bentuk huruf yang lebih kecil tetapi mengikut susunan. Huruf-huruf yang telah dipecahkan itu akan ditanda agar susunannya tidak terjejas. Untuk menentukan samada sesuatu token ‘cacat’ tersebut menyamai sesuatu perkataan yang betul dalam KB tersebut, maka kaedah kebarangkalian akan digunakan. Kebarangkalian tertinggi yang mengambilkira bilangan dan susunan huruf antara token tersebut dengan perkataan dalam KB_Thesaurus terhampir akan dikira. Perkataan dari KB_Thesaurus yang terhampir kepada kata dasar ralat itu akan dibandingkan dengan nilai threshold. Jika melebihi nilai threshold, perkataan dari KB_Thesaurus itu akan menggantikan kata dasar ralat tersebut. Sebaliknya, perkataan tadi akan dikekalkan. Nilai threshold teserbut ditetapkan melalui kaedah pengujian untuk mendapatkan nilai threshold yang paling optimum. Semua token yang telah diperbetulkan ini seterusnya disimpan dalam KB_WordFixed. Terdapat beberapa jenis ralat ejaan yang dikesan iaitu 70 (i) Bilangan huruf mencukupi, tetapi ralat pada satu atau lebih susunan huruf. (ii) Bilangan huruf tidak mencukupi, tiada ralat pada susunan huruf. (iii) Bilangan huruf tidak mencukupi, ralat pada satu atau lebih susunan huruf. (iv) Ralat pada imbuhan. Algoritma dalam Rajah 3.3 hanya menyelesaikan masalah i, ii dan iii. Manakala masalah vi hanya boleh diselesaikan dengan mengimplemenkan kaedah NLP dan AI yang lebih berkesan kerana perubahan imbuhan pada sesuatu perkataan dalan ayat akan mempengaruhi maksud keseluruhan ayat tersebut. 71 1 Pecahkan dan labelkan sebuah esei kepada argumen (ayat) 2 Bahagikan dan tandakan argumen kepada token (perkataan) 3 Asingkan imbuhan depan, imbuhan belakang dan kata dasar 4 Padankan corak kata dasar dengan kata dalam KB_Thesaurus.txt 4.1 Jika ianya kata dasar terakhir, tamat gelung 4.2 Jika tidak, 4.2.1 Jika padanan berjaya, pergi ke perkataan seterusnya 4.2.2 Jika tidak, 4.2.2.1 Perkataan akan dipecahkan dan ditanda mengikut susunan kepada huruf demi huruf 4.2.2.2 Kebarangkalian tertinggi yang mengambilkira bilangan dan susunan huruf antara kata dasar tersebut dengan kata dalam KB_Thesaurus.txt terhampir akan dikira 4.2.2.3 Kata dari KB_Thesaurus yang terhampir kepada kata dasar ralat itu akan dibandingkan dengan nilai threshold 4.2.2.4 Nilai threshold dikira dengan membahagikan \ bilangan huruf dan susunan yang betul pada kata dasar dengan kata padanan terhampir 4.2.2.4.1 Jika melebihi nilai threshold, kata dari KB_Thesaurus itu akan menggantikan kata dasar ralat tersebut 4.2.2.4.2 Jika tidak, pergi ke perkataan seterusnya Rajah 3.3: Algoritma Pembetulan Kata Setelah selesai proses pembetulan kata, kesemua token dan argumen (ayat) yang telah dinyahralatkan tersebut akan digabungkan kembali dalam bentuk sebuah esei lengkap. Seterusnya, penggabungan kata di mana pemadanan perkataan untuk mengenalpasti satu-perkataan, dua-perkataan, tiga-perkataan hingga n-perkataan pula akan dilakukan. Dalam penyelidikan ini, proses gabungan kata ini mengambilkira huruf pertama bagi setiap perkataan bersebelahan adalah huruf besar. Jika keadaan ini berlaku, perkataan-perkataan tersebut akan digabungkan. Sebagai contoh, ‘saya’ 72 merupakan satu-perkataan, ‘Hari Keluarga’ merupakan dua-perkataan (H dan K berhuruf besar) dan ‘Sekolah Kebangsaan Galing’ merupakan tiga-perkataan (S, K dan G berhuruf besar). Setiap perkataan tersebut akan ditukarkan menjadi ‘saya’, ‘Hari_Keluarga’ dan ‘Sekolah_Kebangsaan_Galing’, di mana masing-masing mewakili satu perkataan. Semua data ini akan disimpan dalam KB_WordCombine. Hasil bagi kedua-dua operasi (pembetulan ralat ejaan dan penggabungan kata) disimpan dalam KB_FixedEssay. 3.7 Latihan Peramalan Gaya Olahan (Ciri Optimum) Fasa ini berperanan untuk melatih peramalan gaya olahan esei. Sebanyak 160 esei latihan digunakan dalam fasa ini bagi setiap kitaran cross-validation. Rajah 3.4 menerangkan proses latihan peramalan tersebut dan diperjelaskan dalam Subtopik 3.7.1 hingga 3.7.3. AEL KB_FixedEssay Jenis/Token Esei Latihan AWL MLR EC Pemilihan Ciri AC EL Rajah 3.4: Proses latihan peramalan gaya olahan. Pekali Pemberat Pengunduran 73 3.7.1 Pemilihan Ciri Proses pertama yang terlibat dalam Fasa II ini ialah pemilihan ciri. Berdasarkan Jadual 3.2 dan Rajah 3.4, sebanyak enam ciri optimum yang dipilih dalam meramal gaya olahan esei menggunakan Algoritma MLR. Sebanyak 160 esei latihan bagi setiap kitaran cross-validation yang dipilih daripada KB_FixedEssay digunakan untuk melatih kesemua enam ciri yang dipilih tersebut. 3.7.2 Algoritma MLR Rajah 3.5 merupakan Algoritma MLR yang dibangunkan menggunakan bahasa pengaturcaraan LISP. Ianya dibangunkan berdasarkan rumus dan langkahlangkah penyelesaian matematik dalam subtopik 4.4.1. Secara ringkasnya, data akan disimpan dalam tatasusunan yang mewakili konsep matrik dan vektor sebelum dijana menggunakan fungsi rekursif sehingga menghasilkan satu persamaan pengunduran yang paling baik dari segi pintasan-y dan pekali ciri/pemberatnya. 74 1 Tukarkan dalam bentuk matrik dua dimensi bagi X dan matrik dua dimensi bagi y. 2 Dapatkan matrik pelengkap bagi X’ dan y’. 3 Lakukan darab silang pada kedua-dua matrik tersebut (X’X dan X’y) dan disimpan dalam matrik enam dimensi, P, dan matrik satu dimensi, B. 4 Seterusnya, dapatkan matrik songsang ke atas matrik P dan disimpan dalam matrik invP. 4.1 Periksa kemungkinan untuk dapatkan pekali bagi setiap pembolehubah dengan mencari matrik penentu, d 4.2 Jika d = 0, 4.2.1 Keluarkan mesej ‘matrik tunggal-periksa data’. 4.3 Jika tidak, 4.3.1 Laksanakan carian matrik songsang 5 Bundarkan pekali optimum bagi setiap ciri/pembolehubah dalam persamaan pengunduran yang dihasilkan. Rajah 3.5: Algoritma Pengunduran Linear Berganda. 3.7.2.1 Matrik Pelengkap Operasi pertama dalam algoritma ini ialah mendapatkan matrik pelengkap. Matrik pelengkap diperolehi dengan menukarkan lajur kepada baris dan baris kepada lajur bagi sesebuah matrik. Dalam kes ini, berpandukan Rajah 3.5, dalam langkah ke2, matrik dua dimensi, X yang bersaiz (160 u 6) ditukarkan kepada matrik pelengkap dua dimensi, X’ yang bersaiz (6 u 160) dan marik dua dimensi, y yang bersaiz (160 u 1) ditukarkan kepada matrik pelengkap dua dimensi, y’ yang bersaiz (1 u 160) . ‘160’ mewakili bilangan esei latihan manakala ‘6’ dan ‘1’ masing-masing mewakili bilangan ciri optimum dan nilai gaya olahan setiap esei dalam setiap kitaran cross-validation. 75 3.7.2.2 Pendaraban Silang Matrik Pendaraban silang matrik bagi matrik pelengkap X’ dengan matrik X dan matrik pelengkap X’ dengan matrik y merupakan operasi seterusnya dalam Algoritma MLR ini. Hasil pendaraban bagi kedua-dua operasi tersebut masing-masing menghasilkan matrik dua dimensi, P yang bersaiz (6 u 6) dan matrik dua dimensi, B yang bersaiz (6 u 1) . Operasi tersebut dinyatakan dalam langkah ke-3. 3.7.2.3 Matrik Songsang Dengan menggunakan Persamaan Kuasa Dua-Terkecil dalam Rumus 4.22, matrik dua dimensi, P akan disongsangkan, P-1 dan didarab silangkan dengan matrik dua dimensi, B untuk mendapatkan model (persamaan) pengunduran terhampir. Untuk tujuan ini, terdapat dua kaedah yang boleh digunakan bagi membuat songsangan matrik. Kaedah Operasi Baris Permulaan (OBP) yang sesuai digunakan bagi keadaan di mana terdapat bilangan pembolehubah (ciri) yang banyak merupakan satu daripada kaedah tersebut. Bagi kaedah ini, ianya menggunakan matrik penentu dalam mendapatkan matrik songsang (P-1). Manakala kaedah yang kedua ialah Kaedah Adjoin yang juga merupakan kaedah yang digunakan dalam penyelidikan ini kerana bilangan ciri optimum tidak terlalu besar. Kaedah ini juga mengaplikasikan operasi rekursif untuk mendapatkan matrik songsang P-1 tersebut. 3.7.3 Pekali Pemberat Pengunduran Objektif utama Algoritma MLR digunakan adalah untuk mendapatkan pekali pemberat pengunduran terhampir yang dilatih menggunakan keenam-enam ciri optimum tersebut. Pekali pemberat tersebut lazimnya berbeza bagi ciri yang berlainan. Dari situ, ciri yang lebih signifikan menyumbang ketepatan dalam peramalan gaya olahan esei ujian akan mempunyai pekali pemberat yang lebih besar. 76 3.8 Latihan Pengkelasan Elemen Hujahan (Ciri Tetap) Pada awalnya, kita akan membangunkan pengkelas Bayesian untuk menentukan dan mengkelaskan elemen-elemen hujahan menggunakan maklumbalas esei pelajar yang telah diperolehi. (McCallum dan Nigam, 1998) telah membincangkan dua model kebarangkalian yang boleh digunakan untuk melatih pengkelas bebas Bayesian, iaitu Model Multinomial (MM) dan Model Multivariate Bernoulli (MMB). KB_FixedEssay Esei Latihan B Pemilihan Ciri untuk elemen hujahan Hk Jika H1 atau H10 ? k = 1, 2, 3, … 10 A Ya Latihan untuk Ciri A1 Pemecahan dan penandaan token Penapisan ciri berdasarkan argumen kedudukan Pemecahan dan penandaan token Penapisan ciri berdasarkan argumen leksikal Simpan dalam KB_HkAi KB_GroupWord i = 1, 2, 3 Tidak Latihan untuk Ciri A2 KB_HkAi A B Latihan untuk Ciri A3 Pemecahan dan penandaan token Penapisan ciri berdasarkan argumen RST A Rajah 3.6: Proses Latihan Pengkelasan Elemen Hujahan. 3.8.1 Model Multinomial McCallum dan Nigam (1998) juga menerangkan bahawa MM merupakan pendekatan tradisional dalam permodelan bahasa statistik (terutamanya dalam aplikasi pengecaman suara), di mana sebuah dokumen diwakili oleh satu set 77 kewujudan perkataan dan ramalan kebarangkalian mengenalpasti bilangan perkataan yang wujud dalam dokumen. Namun begitu, model ini memerlukan saiz perbendaharaan kata yang besar untuk melakukan perlaksanaan yang lebih baik. Dengan menggunakan MM, setiap esei digambarkan sebagai sampel bagi kesemua istilah kalibrasi (telah ditentukur). Kebarangkalian bagi setiap markah esei dikira daripada hasil kebarangkalian ciri-ciri yang terkandung dalam esei. 3.8.2 Model Multivariate Bernoulli Dalam kajian ini, MMB telah digunakan. Dengan MMB, sebuah dokumen diwakilkan dalam bentuk ciri-ciri yang wujud dan tidak wujud. Dalam pengkelasan teks, McCallum dan Nigam (1998) menyatakan bahawa MMB dapat melakukan perlaksanaan dengan baik hanya dengan menggunakan perbendaharaan kata yang bersaiz kecil (sedikit) berbanding MM yang mana perlaksanaannya adalah lebih baik jika melibatkan perbendaharaan kata yang bersaiz besar. Larkey (1998) menggunakan pendekatan MMB untuk melaksanakan penilaian esei dan hasilnya adalah konsisten berbanding hasil yang diperolehi oleh McCallum dan Nigam (1998) (sila rujuk Larkey dan Croft (1996) untuk penerangan tentang aplikasi tambahan). Menurut Larkey (1998), set esei yang digunakan untuk melatih model penilaian biasanya mengandungi kurang daripada 300 dokumen. Lebih-lebih lagi, perbendaharaan kata yang digunakan dalam dokumen-dokumen tersebut adalah agak terhad. Dengan menggunakan MMB ini, setiap esei digambarkan sebagai kes yang khusus bagi kesemua ciri-ciri kalibrasi. Ciri-ciri penentukur yang wujud dan tidak wujud diperiksa. Dalam aplikasi Rangkaian Bayesian yang biasa, pendekatan ini telah digunakan dalam pengkelasan teks oleh Lewis (1992), Kalt dan Croft (1996) dan ramai lagi. 78 Berdasarkan kepada kejayaan eksperimen yang telah dijalankan oleh Larkey, dan penemuan yang telah dilaksanakan oleh McCallum dan Nigam, yang mana menyatakan bahawa MMB dapat melakukan perlaksanaan ke atas teks dengan lebih baik hanya dengan menggunakan perbendaharaan kata bersaiz kecil, pendekatan ini dilihat sebagai pilihan yang lebih efisyen untuk memanipulasi set data maklumbalas esei. Oleh itu, kita akan mengaplikasikan pendekatan ini untuk membina pengkelas elemen-elemen hujahan yang berkemampuan untuk mengenalpasti ayat-ayat daripada esei yang paling kemungkinan untuk dilabelkan sebagai sesebuah elemen hujahan. Dalam kajian yang dilakukan, kita akan menggunakan tiga jenis ciri-ciri umum untuk membina pengkelas iaitu kedudukan ayat, perkataan yang paling kerap wujud dalam elemen-elemen hujahan dan label Pepohon Strutur Retorik (RST) daripada output yang dijana oleh penghurai struktur retorik sedia ada. 3.8.3 Pemilihan Data Berdasarkan Rajah 3.6, terdapat tiga kriteria yang digunakan untuk membuat pengkelasan elemen-elemen hujahan dalam kajian ini. Dimulakan dengan 160 esei latihan bagi setiap kitaran cross-validation yang dipilih daripada KB_FixedEssay, setiap esei tersebut dilatih berdasarkan 10 pengkelasan elemen hujahan (H1, 2, 3, .., 10 yang mewakili 1 penyataan tesis, 8 isi penting dan 1 penyataan penutup) yang telah dinyatakan. Namun begitu, bilangan dan esei latihan yang dipilih untuk dilatih bagi sesebuah elemen hujahan bergantung kepada kewujudan elemen hujahan tersebut dalam esei. Bagi pengkelasan elemen hujahan H1 dan H10, ianya dilatih berdasarkan ketiga-tiga kriteria tersebut iaitu Kriteria Kedudukan (A1), Kriteria Leksikal (A2) dan Kriteria Teori Struktur Retorik (RST, A3). Sebaliknya bagi pengkelasan H2, 3, 4, ..., 9, proses latihan hanya melibatkan Kriteria A2 dan Kriteria A3 sahaja. Untuk tujuan latihan ini, esei latihan tersebut akan dipecahkan dan ditanda susunannya kepada beberapa token. 79 3.8.3.1 Kriteria Kedudukan, A1 Daripada kajian yang telah dilakukan, didapati bahawa kemungkinan pernyataan pendahuluan dan pernyataan penutup masing-masing berada di permulaan dan di penghujung esei adalah agak tinggi berdasarkan esei yang telah dinilai oleh manusia. Untuk mengambilkira faktor ini, kita menggunakan satu kriteria yang mewakili kedudukan bagi setiap ayat dalam esei. Oleh itu, kriteria ini hanya diaplikasikan kepada kedua-kedua elemen hujahan itu sahaja (H1 dan H10). Rajah 3.7 menunjukkan sebahagian daripada contoh data latihan bagi esei yang dilatih berdasarkan Kriteria Kedudukan. "mengadakan" "pada" "telah" "yang" "lalu" "temasya" "minggu" "satu" "sekolah" "tarikh" "kami" "kali" "bagi" Rajah 3.4: Contoh data latihan menggunakan Ciri Kedudukan. "iaitu" "persatuan" Rajah 3.7: Contoh data latihan menggunakan Kriteria Kedudukan. 3.8.3.2 Kriteria Leksikal, A2 Kesemua perkataan daripada elemen-elemen hujahan yang telah dinilai oleh manusia digunakan untuk membangunkan pengkelas Bayesian, satu per satu secara berasingan. Kita akan merujuk kepada perkataan-perkataan tersebut sebagai senarai kata tesis. Daripada data latihan, senarai perbendaharaan kata akan dihasilkan yang mengandungi satu kewujudan bagi setiap perkataan yang digunakan dalam setiap elemen hujahan yang telah dinilai oleh pakar. Kesemua perkataan dalam senarai ini digunakan sebagai ciri leksikal bebas. Didapati bahawa penggunaan pelbagai kata 80 henti akan mengurangkan kemampuan pengkelas ini, oleh itu kita tidak akan menggunakannya (Burstein et. al., 2001; Zhou, 2003). Rajah 3.8 menunjukkan sebahagian daripada contoh data latihan bagi esei yang dilatih berdasarkan Kriteria Leksikal. "mengadakan" "pada" "telah" "yang" "lalu" "temasya" "minggu" "satu" "sekolah" "tarikh" "kami" "kali" "bagi" "iaitu" "persatuan" Rajah 3.8: Contoh data latihan menggunakan Kriteria Leksikal 3.8.3.3 Kriteria Teori Struktur Retorik, A3 Berpandukan RST, kita boleh mengaplikasikan teori struktur retorik kepada mana-mana teks. Dalam RST, dedaun mewakili unit hujahan elemen, manakala nod dalaman merupakan potongan teks bersebelahan. Setiap nod dalam pepohon dikategorikan sebagai status (nuklues atau satelit) dan hubungan retorik yang mewakili dan menghubungkan antara dua potongan teks tak-bertindih. Ianya dilabel dengan nama hubungan retorik tersebut. Nukleus mewakili perkara yang lebih penting daripada satelit berdasarkan pemikiran manusia. Selain itu, nukleus juga boleh-difahami sendiri (bebas) berbanding satelit. Sekiranya sesuatu potongan itu adalah sama penting, maka hubungannya adalah multinukleur. Hubungan retorik ini merangkumi semantik, 81 pemikiran/idea dan hubungan teks yang diwakili oleh potongan teks dalam Rajah 3.9. PEMBUKTIAN LATAR BELAKANG PENGHURAIAN SOKONG KONTRA SEBAB Rajah 3.9: Pepohon RST. Rajah 3.9 menunjukkan pepohon struktur retorik bagi pecahan (fragmen) teks. Nukleus dipersembahkan menggunakan garis lurus, manakala satelit menggunakan anak panah. Nod dalaman dilabelkan dengan nama hubungan retorik. RST dibangunkan secara automasi untuk setiap esei menggunakan penghurai hujahan berpandukan-frasa-tanda. Kemudian, ianya digabungkan dengan setiap esei berdasarkan ciri yang mengenalpasti status bagi nod ibu bapa (nukleus dan satelit) dan ciri yang lain yang mengenalpasti hubungan retorik. Didapati bahawa terdapat beberapa hubungan retorik berlaku/wujud lebih kerap dalam ayat yang ditanda sebagai setiap elemen hujahan. Oleh yang demikian, kebarangkalian keadaan bagi hubungan tersebut adalah lebih tinggi dan mempunyai bukti bahawa beberapa ayat adalah elemen hujahan. Namun begitu, mungkin terdapat beberapa pertindihan antara elemen-elemen hujahan yang sama dan hubungan retorik digunakan untuk membangunkan pengkelas. Rajah 3.10 menunjukkan sebahagian daripada contoh data latihan bagi esei yang dilatih berdasarkan Kriteria RST. 82 "mengadakan" "pada" "telah" "yang" "lalu" "temasya" "minggu" "satu" "sekolah" "tarikh" Rajah 3.10: Contoh data latihan menggunakan Kriteria RST. 3.8.4 Penapisan Data Proses ini merupakan proses penapisan (penormalan) data di mana data latihan yang dilatih menggunakan 160 esei latihan bagi setiap kitaran cross- validation ditukar kepada perkataan mengikut kelas kata yang sesuai. Sebagai contoh, dalam ayat “Pada minggu lalu, Sekolah Kebangsaan Galing telah mengadakan temasya sukan tahunan”, akan diekstrak kepada “Pada”, “minggu”, “lalu”, “Sekolah_Kebangsaan_Galing”, “telah”, “mengadakan”, “temasya”, “sukan”, “tahunan”. Penapisan data di sini dilakukan dengan menggantikan “Sekolah_Kebangsaan_Galing” kepada “sekolah”. Begitu juga bagi data “Sekolah_Kebangsaan_Semambu” akan ditukar kepada “sekolah” yang menunjukkan bahawa kedua-dua data tersebut adalah sama cirinya walau berbeza perkataannya. Ianya dilaksanakan menggunakan kaedah kebarangkalian (rujuk Rajah 3.3) dan membuat perbandingan dengan perkataan dalam KB_GroupWord. Tokentoken tersebut akhirnya akan disimpan dalam KB_Hk_Ai di mana k mewakili bilangan pengkelasan elemen hujahan dan i mewakili bilangan kriteria latihan yang dipilih. Dengan itu, bagi setiap kitaran pengesahan-bersilang, terdapat sejumlah 22 KB yang menyimpan perkataan teras (core features) yang berbeza. Ianya akan digunakan dalam pengujian elemen hujahan dengan mengaplikasikan MMB bagi menentukan kewujudan dan pengkelasan elemen hujahan pada esei ujian dalam Fasa IV. 83 3.8.5 Pekali Pemberat Peratusan Hasil akhir daripada Fasa III ialah dapatan pekali pemberat peratusan. Pekali pemberat ini diperolehi dengan menggunakan Rumus 4.32 di Subtopik 4.5.5. Pekali pemberat peratusan ini digunakan untuk membuat penilaian akhir. Dengan dapatan ini, peramalan isi kandungan esei dijangka lebih baik. 3.9 Pengujian Penilaian Bagi membuktikan objektif keempat (Subtopik 1.5 (iv)) penyelidikan ini berjaya dicapai, pengujian menggunakan teknik penilaian dilakukan. Terdapat tiga bahagian yang diperlukan untuk menguji peramalan penilaian esei merangkumi ciri tetap dan optimum selaras dengan Jadual 4.2 dengan memfokuskan kepada dua bahagian utama iaitu peramalan gaya olahan (ciri optimum) menggunakan Algoritma MLR dan penentuan elemen-elemen hujahan (ciri tetap) menggunakan teknik MMB. Bahagian ketiga ialah bahagian bahasa (ciri tetap). 3.9.1 Pengujian Ciri Tetap Ciri tetap melibatkan dua bahagian; bahasa dan isi kandungan. Bagi bahagian kesalahan bahasa, nilai diperolehi berdasarkan penilaian manusia manakala bagi isi kandungan, nilai diperolehi menggunakan Teknik MMB. Pemberat ciri tetap bagi keenam-enam ciri tersebut akan diwakili dalam bentuk peratusan jumlah pemberat dan diperjelaskan selanjutnya dalam Subtopik 4.5.4. 84 3.9.1.1 Ciri Bahasa Kesalahan bahasa merupakan antara bahagian yang sangat kompleks. Di antara lima ciri kesalahan bahasa, hanya satu daripadanya agak mudah iaitu kesalahan ejaan. Selebihnya, keempat-empat ciri yang lain; penggunaan perbendaharaan kata yang sesuai, struktur ayat yang betul dari segi sintak dan semantiknya (gramatis), tanda baca yang sesuai bagi menerangkan intonasi atau penegasan ayat dan imbuhan yang memastikan makna ayat ditafsirkan dengan tepat, merupakan aplikasi linguistik peringkat tinggi. Penggunaan teknik AI digabungkan dengan teknik statistik, NLP, IR dan beberapa teknik lain memungkinkan ciri-ciri kesalahan bahasa tersebut dikenalpasti. 3.9.1.2 Teknik MMB dB_FixedEssay k = 1, 2, 3, … n Esei Ujian Pemecahan dan penandaan token Argumenk MMB Penapisan ciri berdasarkan argumen kedudukan dB_GroupWord Dapatkan kebarangkalian tertinggi Padanan corak token berdasarkan Ciri A1, A2, A3. dB_HkAi A Nyatakan elemen hujahan Hk Yes >= nilai threshold No A i = 1, 2, 3 Tiada elemen hujahan Hk Rajah 3.11: Proses pengujian pengkelasan elemen hujahan. Rajah 3.11 menunjukkan proses pengujian untuk menentukan kewujudan dan pengkelasan sesebuah elemen hujahan dalam setiap esei ujian. Sebanyak 40 esei ujian bagi setiap kitaran diambil daripada dB_FixedEssay. Setiap esei tersebut kemudiannya akan dipecahkan dan ditanda kepada argumen dan token mengikut 85 susunan. Seterusnya, argumen pertama (Argumen1) akan diuji menggunakan Teknik MMB (Rumus 4.1). Untuk tujuan itu, ianya dimulakan dengan proses penapisan data yang menggunakan Algoritma Pembetulan Kata (Rajah 3.3) dengan membuat perbandingan token dengan data (perkataan) di dalam dB_GroupWord. Setelah itu, padanan corak token berdasarkan ketiga-tiga ciri (A1, A2 dan A3) dibuat. Dengan menggunakan jumlah padanan corak tersebut, Teknik MMB diaplikasikan untuk mendapatkan kebarangkalian ln yang mewakili penghampiran kepada pengkelasan elemen hujahan yang dicari. Proses ini akan diteruskan hingga argumen ke-n. n mewakili bilangan argumen dalam sesebuah esei yang diuji. Setelah itu, kebarangkalian ln maksimum antara semua argumen yang diuji akan diambil dan diramal untuk menjadi calon sesebuah elemen hujahan. Namun begitu, argumen tersebut akan hanya disahkan sebagai sebuah elemen hujahan setelah mendapati nilai kebarangkalian tersebut sama atau melebihi nilai threshold. Dalam penyelidikan ini, nilai threshold diperolehi sewaktu pengujian dilakukan dan nilai yang paling sesuai akan ditetapkan. 3.9.1.3 Pekali Pemberat Peratusan Bagi melengkapkan peramalan penilaian esei, pekali pemberat ke atas kesemua enam ciri tetap yang merangkumi bahagian bahasa dan isi kandungan akan dihasilkan. Pekali pemberat ini digunakan supaya peramalan ini lebih konsisten dan meminimakan bias (Attali, 2004). Untuk tujuan ini, Rumus 4.32 akan digunakan yang mana ianya melibatkan pekali pemberat pengunduran bagi keenam-enam ciri optimum yang telah diperolehi menggunakan Algoritma MLR sebelum ini (rujuk Subtopik 3.7.3). Penerangan bagi dapatan pekali pemberat peratusan boleh dirujuk di Subtopik 4.5.5. 86 3.9.2 Pengujian Ciri Optimum Pengujian ke atas ciri optimum mewakili pengujian ke atas peramalan markah gaya olahan esei. Ianya dilaksanakan menggunakan Algoritma MLR yang melibatkan enam ciri optimum. Pekali pemberat pengunduran dalam persamaan pengunduran yang diperolehi pada Subtopik 3.7.3 akan digunakan untuk membuat peramalan nilai gaya olahan 40 esei ujian bagi setiap kitaran. 3.9.2.1 Algoritma MLR AEL dB_FixedEssay Jenis/Token AWL Esei Ujian Pekali Pemberat Pengunduran Nilai Gaya Olahan EC AC EL Rajah 3.12: Proses pengujian peramalan gaya olahan. Berdasarkan Rajah 3.12, sebanyak 40 esei ujian akan diambil daripada dB_FixedEssay. Kesemua esei ujian tersebut kemudiannya akan diproses untuk mendapatkan nilai bagi setiap ciri optimum. 87 3.9.2.2 Pekali Pemberat Pengunduran Seterusnya, setiap nilai ciri optimum yang diperolehi akan didarabkan dengan pekali pemberat masing-masing bagi mendapatkan nilai akhir bagi peramalan gaya olahan. Untuk tujuan perbandingan, nilai gaya olahan yang diramal bagi setiap esei ujian akan dipecahkan mengikut peringkat A hingga E seperti di Lampiran D. 3.9.3 Penilaian Gred Akhir Proses yang terakhir ini bertujuan untuk membuktikan objektif keempat penyelidikan ini tercapai atau sebaliknya. Dalam proses ini, ia akan menggabungkan tiga bahagian utama dalam penilaian sesebuah esei. Bagi elemen gaya olahan, nilai diperolehi daripada hasil darab pemberat pengunduran dengan setiap daripada enam ciri optimum tersebut. Manakala bagi elemen bahasa dan isi kandungan pula, nilai diperolehi daripada hasil darab pemberat peratusan dengan setiap daripada enam ciri tetap tersebut. Hasil penilaian gred akhir esei ditentukan dengan menggabungkan nilai kedua-dua jenis ciri tersebut dan membuat pengkelasan gred berdasarkan Jadual 3.3. Penerangan dari segi rumus yang digunakan boleh dirujuk dalam Subtopik 4.5.6. Jadual 3.3: Gred markah UPSR. Markah Gred 75-100 A 60-74 B 40-59 C 20-39 D 1-19 E Berdasarkan Jadual 3.3, gred akhir penilaian ditentukan dengan mengenalpasti julat markah yang diperolehi. Perbezaan tidak melebihi satu matanilai dianggap sebagai setara. Rumusan keputusan bagi penilaian ini boleh dirujuk dalam Jadual 5.13 dan Rajah 5.15. 88 3.10 Ringkasan Topik perbincangan dalam bab ini memfokuskan kepada metodologi dan proses-proses yang terlibat dalam membuat pengkelasan elemen-elemen hujahan dan peramalan gaya olahan termasuk dari segi latihan mahupun pengujian. Turut dibincangkan dalam bab ini ialah prosidur latihan dan pengujian yang digunakan iaitu prosidur five-fold cross-validation. Bagi memperjelaskan lagi proses dalam metodologi yang digunakan, set 12 ciri signifikan yang digunakan turut dinyatakan. Ini merangkumi penerangan tentang pecahan ciri tersebut (ciri optimum dan tetap) beserta jenis-jenisnya. Set ciri ini digunakan dalam Fasa II hingga Fasa VI melibatkan kedua-dua proses latihan dan pengujian. Metodologi tersebut diakhiri dengan Fasa IV yang menggabungkan persamaan pemberat pengunduran (gaya olahan) yang menggunakan Algoritma MLR dan persamaan pemberat peratusan (bahasa dan isi kandungan) yang menggunakan Teknik MMB untuk mendapatkan penilaian akhir dan membuat perbandingan dengan penilaian manusia. Dalam Bab 5, ianya lebih menjurus kepada perincian teknik dan algoritma yang digunakan dalam metodologi ini (Teknik MMB dan Algoritma MLR) dan perbandingannya (Teknik Logik Fuzzy dan Algoritma SLR). Turut dimuatkan ialah penerangan lanjut beberapa rumus lain yang terlibat dalam metodologi penyelidikan yang digunakan. BAB 4 TEKNIK PENILAIAN MENGGUNAKAN BAYESIAN DAN PENGUNDURAN LINEAR BERGANDA 4.1 Pendahuluan Bab ini membincangkan tentang beberapa teknik untuk menentukan dan mengkelaskan elemen hujahan dan algoritma untuk membuat peramalan gaya olahan esei. Namun begitu, turut dibincangkan tentang rekabentuk Pangkalan Pengetahuan (KB) dan prosidur penilaian yang memberi penerangan lebih lanjut tentang beberapa proses dalam metodologi penyelidikan (Bab 3). 4.2 Rekabentuk Pangkalan Pengetahuan (KB) Sebelum pembangunan sistem pengoperasian dimulakan, Pangkalan Pengetahuan (KB) harus dirangka, dirancang dan direkabentuk terlebih dahulu bagi memastikan ianya menyokong perlaksanaan sistem itu kelak. Terdapat beberapa buah KB yang berkaitan direkabentuk dalam sistem ini dan disimpan dalam format *.txt. Kesemua KB yang terlibat dalam pembangunan sistem ini adalah seperti berikut: (i) KB_Tesaurus - KB yang menyimpan kesemua istilah perbendaharaan kata Bahasa Melayu dalam bentuk tesaurus. 90 (ii) KB_WordFixed – KB yang menyimpan perkataan yang telah diperbetulkan menggunakan Algoritma Pembetulan-Kata. (iii) KB_WordCombine – KB yang menyimpan perkataan yang telah digabungkan. (iv) KB_FixedEssay – KB yang menyimpan semua esei yang telah diperbetulkan ralat ejaan dan penggabungan kata. (v) KB_GroupWord – KB yang menyimpan kelas kata. (vi) KB_Hk_Ai – KB yang menyimpan data latihan elemen hujahan bagi pengkelasan ke-k dan kriteria ke-i. 4.3 Teknik Penentuan dan Pengkelasan Elemen Hujahan Terdapat beberapa teknik yang digunakan dalam menentukan dan mengkelaskan elemen hujahan sesebuah esei. Merujuk kepada Kajian Literatur dalam Bab 2, sekurang-kurangnya terdapat tujuh teknik yang telah digunakan oleh para penyelidik untuk tujuan ini. Namun dalam penyelidikan ini, Teknik MMB telah digunakan berdasarkan justifikasi yang dinyatakan dalam bab tersebut. Untuk tujuan perbandingan, Teknik Logik Fuzzy telah dipilih. Ini kerana, berdasarkan Jadual 2.2, penggunaan teknik ini dalam Sistem E-rater telah menghasilkan keputusan kesetaraan manusia-sistem yang tinggi iaitu sehingga 94% menggunakan esei GMAT sebagai sasaran ujian. 4.3.1 Model Multivariate Bernoulli (MMB) Pengkelas MMB dilatih untuk meramal elemen-elemen hujahan dalam esei. Dengan menggunakan Rumus 4.1 (Burstein et al., 2001), ianya akan menghasilkan ln kebarangkalian iaitu sebuah ayat (S) dalam sebuah esei yang dimiliki oleh kelas (T) bagi ayat adalah samada pernyataan pendahuluan, isi penting atau pernyataan penutup. Rumus tersebut menggunakan konsep peramal kebarangkalian maksimum. 91 ln( P(T | S )) ­ln( P( Ai | T ) / P( Ai )) ° jika S mengandungi Ai ° ln( P(T )) ¦ ® °ln( P( Ai | T ) / P( Ai )) ° jika S tidak mengandungi Ai ¯ (Rumus 4.1) Berdasarkan Rumus 4.1 tersebut, P(T ) ialah kebarangkalian prior bahawa sesebuah ayat adalah dalam kelas T, P( Ai | T ) ialah kebarangkalian conditional bahawa sesebuah ayat mempunyai kriteria Ai , diberi bahawa ayat tersebut adalah dalam T dan P( Ai ) adalah kebarangkalian prior bahawa sesebuah ayat mengandungi kriteria Ai , P ( Ai | T ) merupakan kebarangkalian conditional bahawa sesebuah ayat tidak mempunyai kriteria Ai , diberi bahawa ianya adalah dalam T dan P ( Ai ) merupakan kebarangkalian prior bahawa sesebuah ayat tersebut tidak mengandungi kriteria Ai . T Ai P( Ai ) T Ai P (T | Ai ) T P(T | Ai ) P (T | Ai ) P ( Ai ) T P(T | Ai ) Rajah 4.1: Pepohon rangkaian MMB. Rajah 4.1 menunjukkan pepohon rangkaian MMB untuk mendapatkan kebarangkalian prior dan kebarangkalian conditional. Dalam penyelidikan ini, kita menggunakan tiga jenis kriteria iaitu A1, A2 dan A3 (rujuk Subtopik 3.8.3.1). Manakala T pula mewakili kelas iaitu pengkelasan elemen hujahan. Oleh itu, T dalam kes ini mempunyai 10 kelas, selari dengan 10 pengkelasan elemen hujahan. 92 4.3.1.1 Kebarangkalian Prior Kebarangkalian prior ialah peristiwa yang berlaku sebelum kewujudan bukti baru (Rudner dan Liang, 2002). Peraturan Bayes menyatakan bahawa bagaimana kebarangkalian prior akan berubah dengan kewujudan bukti baru (Mikko Koivisto dan Kismat Sood, 2004). Kebarangkalian prior bagi peristiwa E, P(E) ialah kebarangkalian sesuatu peristiwa berlaku dengan kewujudan apa-apa faktor yang mungkin ‘menyebabkan’ peristiwa tersebut berlaku. Dalam penyelidikan ini, kebarangkalian prior T, P(T) merupakan kebarangkalian ayat, S berada dalam kelas T (elemen hujahan dalam kelas T). Oleh itu, Rumus 4.2 yang menggabungkan kebarangkalian pada cabang T (rujuk Rajah 4.1) telah digunakan. Berdasarkan rumus tersebut, dirumuskan bahawa ianya adalah untuk mendapatkan kebarangkalian ayat berada dalam pengkelasan elemen hujahan T dengan mengambilkira kedua-dua komponen yang wujud ( Ai ) dan tidak wujud ( Ai ). P(T ) P(T | Ai ) x P ( Ai ) P(T | Ai ) x P( Ai ) (Rumus 4.2) Manakala, disebabkan terdapat tiga kriteria yang digunakan dalam menentukan elemen hujahan ini, maka kebarangkalian prior bagi Ai , P ( Ai ) kebarangkalian prior bagi Ai , P ( Ai ) 1 / 3 dan 2/3. 4.3.1.2 Kebarangkalian Conditional Kebarangkalian conditional ditakrifkan sebagai kebarangkalian I berlaku, jika diberi bahawa peristiwa E adalah benar (true), dan dinyatakan sebagai P (I | E). Berpandukan Rumus 4.1, terdapat dua keadaan di mana jika ayat mengandungi kriteria Ai , maka kebarangkalian conditional P( Ai | T ) akan digunakan dan 93 sebaliknya, jika ayat tidak mengandungi kriteria Ai , kebarangkalian conditional P( Ai | T ) akan digunakan. Untuk itu, Rumus 4.3 akan digunakan bagi kes yang pertama P ( Ai | T ) P( Ai ) x P(T | Ai ) P( Ai ) x P(T | Ai ) P(T | Ai ) x P( Ai ) (Rumus 4.3) dan Rumus 4.4 pula akan digunakan bagi kes kedua P ( Ai | T ) P( Ai ) x P(T | Ai ) P( Ai ) x P(T | Ai ) P(T | Ai ) x P( Ai ) (Rumus 4.4) Namun begitu, sebelum kebarangkalian conditional P( Ai | T ) dan P( Ai | T ) diperolehi, Rumus 4.5 akan digunakan untuk mendapatkan kebarangkalian conditional P(T | Ai ) bagi kes pertama P(T | Ai ) P(T Ai ) P( Ai ) (Rumus 4.5) dan Rumus 4.6 akan digunakan untuk mendapatkan kebarangkalian conditional P(T | Ai ) bagi kes kedua P(T | Ai ) P(T Ai ) P( Ai ) (Rumus 4.6) Berdasarkan kepada kedua-dua rumus kebarangkalian conditional (Rumus 4.3 dan 4.4), didapati bahawa ianya mengambilkira kedua-dua ciri yang wujud ( Ai ) dan ciri yang tidak wujud ( Ai ) dalam ayat. 94 4.3.2 Logik Fuzzy Logik Fuzzy atau Logik Multi-Nilai adalah teori bagi Set Fuzzy, set yang menentukur kekaburan (Negnevitsky, 2002). Berbanding set crisp (logik Boolean) yang memberi nilai 1 (benar) dan 0 (salah), Logik Fuzzy akan menghasilkan nilai dalam julat 0 hingga 1. Zadeh (1965), menyatakan bahawa Logik Fuzzy merupakan sebuah set yang berprinsipkan matematik untuk mewakilkan pengetahuan berdasarkan darjah keahlian berbanding keahlian crisp dalam logik binari. 4.3.2.1 Penapisan Token Dalam ayat “Pada minggu lalu, Sekolah Kebangsaan Galing telah mengadakan temasya sukan tahunan” akan dipecahkan kepada token. Seterusnya, penapisan token dilakukan menggunakan kaedah kebarangkalian menggunakan Algoritma Pembetulan Kata (rujuk Rajah 3.3). Contohnya, ‘minggu lalu’ akan digantikan dengan ‘tarikh’. Begitu juga ‘Sekolah Kebangsaan Galing’ akan digantikan dengan ‘sekolah’ dan ‘temasya sukan tahunan’ akan digantikan dengan ‘sukan’. Hasilnya kita akan memperolehi rentetan token; ‘pada’, ‘tarikh’, ‘sekolah’, ‘telah’, ‘mengadakan’, ‘sukan’. Seterusnya, semua token yang telah melalui proses penapisan itu akan dijana untuk mendapatkan frekuensi (kekerapan) menggunakan 160 esei latihan (bagi setiap kitaran cross-validation). 4.3.2.2 Set Fuzzy Set Fuzzy didefinisikan sebagai sebuah set yang mengandungi had fuzzy. Ianya menunjukkan samada sesebuah ayat tersebut adalah ‘tidak berkemungkinan’ atau ‘sangat berkemungkinan’ untuk menjadi sesebuah elemen hujahan tersebut. Set Fuzzy dalam penyelidikan ini menggunakan frekuensi (kekerapan) token yang dilatih dalam membuat pengkelasan elemen hujahan. Jadual 4.1 merupakan contoh data Set 95 Fuzzy A mewakili set ‘tidak berkemungkinan’ dan Set Fuzzy B mewakili set ‘sangat berkemungkinan’ dan darjah keahlian masing-masing (degree of membership) bagi contoh pengkelasan penyataan tesis. Jadual 4.1: Darjah keahlian bagi Set Fuzzy A dan Set Fuzzy B. Token Pada tarikh yang sekolah telah mengadakan sukan saya kami tempat aktiviti meriah kali di iaitu bagi satu Set Fuzzy A Darjah Frekuensi keahlian 123 1 114 1 109 0.97 103 0.80 99 0.69 98 83 80 74 72 0.66 0.23 0.14 0 0 Set Fuzzy B Darjah Frekuensi keahlian 80 74 72 61 60 56 52 44 38 31 0 0 0.09 0.40 0.43 0.54 0.66 0.89 1 1 4.3.2.3 Darjah Keahlian Dinyatakan bahawa Set Fuzzy A dan B masing-masing ditakrifkan untuk ‘tidak berkemungkinan’ dan ‘sangat berkemungkinan’. Bagi fungsi keahlian bagi kedua –dua Set Fuzzy A (MA) dan B (MB), ianya menggunakan fungsi keahlian Trapezoidal. 96 M A ( x) M A ( x) ­ 1 ° 75 x ® ° 35 ¯ 0 bagi x 40 bagi x t 40 dan x 75 (Rumus 4.7) bagi x t 75 bagi x d 75 ­ 0 ° x 75 bagi x ! 75 dan x d 100 ® ° 35 bagi x ! 100 ¯ 1 (Rumus 4.8) Untuk mewakilkan Set Fuzzy dalam komputer, senarai pasangan digunakan, di mana setiap pasangan mewakili nilai dan nilai keahlian Fuzzy. Dengan itu, Set Fuzzy A ialah A = {(x1, MA (x1)), …, (xn, MA (xn))} (Rumus 4.9) Dengan menggunakan Rumus 4.7 dan 4.8, graf yang menunjukkan gambaran keahlian bagi Set Fuzzy A dan B dihasilkan (rujuk Rajah 4.2). Dalam Logik Fuzzy, ianya menyelesaikan masalah bagi kes yang berada dalam segitiga berlorek (kekaburan) dalam rajah tersebut. Ianya akan menggunakan operasi union dan intersection untuk menyelesaikan kekaburan tersebut. Seterusnya, operasi compositional yang menghubungkan kedua-dua Set Fuzzy A dan B menggunakan data dalam Jadual 4.1 akan digunakan untuk mendapat nilai kebarangkalian dalam julat 0 hingga 1. Nilai itu kemudiannya akan dibandingkan dengan nilai threshold yang diperolehi melalui kaedah pengujian dan untuk menentukan samada sesebuah argumen atau ayat yang diuji berada dalam ‘tidak berkemungkinan’ atau ‘sangat berkemungkinan’ untuk menjadi sesebuah elemen hujahan. 97 Rajah 4.2: Graf yang menunjukkan keahlian bagi Set Fuzzy A dan B. 4.3.2.4 Operasi Set Fuzzy Set Fuzzy menyediakan asas pengiraan bersistematik bagi menyelesaikan konsep kekaburan dan kesamaran menggunakan operasi Set Fuzzy yang dilaksanakan dengan memanipulasi fungsi keahlian. Dua operasi Set Fuzzy yang digunakan ialah union dan intersection. (i) Union Union bagi dua Set Fuzzy A dan B ialah Fuzzy di mana fungsi keahliannya adalah seperti dalam Rumus 4.10. P A B (u ) (ii) max{P A (u ), P B (u )} u U (Rumus 4.10) Intersection Intersection bagi dua set fuzzy A dan B ialah Fuzzy di mana fungsi keahliannya adalah seperti dalam Rumus 4.11. P A B (u ) min{P A (u ), P B (u )} u U (Rumus 4.11) 98 4.3.2.5 Cartesian Product Cartesian product digunakan untuk menakrifkan hubungan antara dua atau lebih Set Fuzzy. Katakan A dan B adalah dua Set Fuzzy. Cartesian product bagi A dan B ditandakan sebagai A u B dan ditakrifkan sebagai (Rumus 4.12) {( a, b) | a A, b B} Au B di mana (a,b) adalah turutan berpasangan. Oleh itu, jika A mempunyai m elemen dan B mempunyai n elemen, maka akan wujud elemen “ m u n ” dalam A u B . 4.3.2.6 Hubungan Fuzzy Hubungan Fuzzy matrik-n ialah subset Fuzzy kepada Cartesian product U1 u ... u U n . Ianya diwakilkan dengan Ru di mana U {((u1 ,..., un ), P R (u1 ,..., un )) | (u1 ,..., un ) U1 ,...,U n } (Rumus 4.13) U1 u U 2 u ... u U n . Hubungan Fuzzy R daripada A hingga B adalah subset Fuzzy bagi A u B . Ru {( a, b), P R (a, b) | a A, b B} {(a, b), P R (a, b)} (Rumus 4.14) Au B di mana P R (a, b) adalah fungsi keahlian bagi R dan mewakili union bagi Au B singleton {( a, b) | P R (a, b)} daripada A u B . R juga boleh diwakilkan dalam bentuk matrik dengan menjadikan P R (a, b) sebagai elemen matrik. 99 R ª P R (a1 , b1 ) P R (a1 , bn1 ) º » « » « «¬ P R (am , b1 ) P R (am , bn )»¼ (Rumus 4.15) 4.3.2.7 Operasi Compositional Dengan menggabungkan dua operasi, kita boleh menyelesaikan masalah set Fuzzy-hubungan Fuzzy. Dalam penyelidikan ini, operasi max-min yang mengaplikasikan union (Rumus 4.10) dan intersection (4.11) digunakan berbanding operasi max-product. Bc P Ac $ R 4.4 Ac $ R max{min[P Ac (u ), PV (u , v)]} (Rumus 4.16) Teknik Peramalan Gaya Olahan Dalam membuat peramalan gaya olahan sesebuah esei, pemilihan ciri yang signifikan dan piawai adalah penting. Ini menjamin penghampiran peramalan yang lebih tinggi dengan menggunakan set ciri yang lebih piawai (sama). Untuk itu, Algoritma MLR telah dipilih untuk digunakan dalam meramal gaya olahan esei dalam penyelidikan ini. Sebagai perbandingannya, Algoritma SLR telah dipilih. 4.4.1 Model Pengunduran Linear Berganda Banyak masalah pengunduran melibatkan lebih daripada dua pembolehubah pengundur. Model tersebut dipanggil Model MLR. Ianya merupakan salah satu daripada teknik statistik yang seringkali digunakan kini. 100 Secara umumnya, pembolehubah bersandar atau repons y mungkin boleh dihubungkan dengan pembolehubah tak-bersandar k. Model yi E 0 E1 x1 E 2 x 2 ... E k x k H (Rumus 4.17) dipanggil model pengunduran linear berganda dengan pembolehubah tak-bersandar k. Istilah ‘linear’ digunakan kerana Rumus 4.17 adalah fungsi linear bagi parameter yang tidak diketahui E 0 , E 1 ,...E k . Parameter E j , j 0,1,..., k , dipanggil pekali (koefisien) pengunduran. Model ini menerangkan hyperplane dalam ruang dimensi-k bagi pembolehubah pengundur {xj}. Parameter E j mewakili perubahan jangkaan yang memberi kesan kepada perubahan per unit y dalam xj apabila semua pembolehubah tak-bersandar yang lain xi i z j berada dalam keadaan malar. Parameter-parameter E j , j 1,2,..., k , biasanya dipanggil pekali pengunduran separa kerana ianya menerangkan kesan separa (partial) ke atas satu pembolehubah takbersandar apabila pembolehubah tak-bersandar lain dalam model tersebut berada dalam keadaan malar. 4.4.1.1 Peramalan Parameter Kaedah kuasa dua terkecil mungkin boleh digunakan untuk meramal pekali pengunduran dalam Rumus 4.17. Anggap pemerhatian n > k wujud, dan katakan xij adalah pemerhatian atau tahap ke-i bagi pembolehubah x j . Hasilnya kita akan memperoleh data seperti dalam Jadual 4.2. Kita menganggap bahawa ralat, H dalam model mempunyai E (H ) 0,V (H ) V 2 , dan ^H i ` adalah pembolehubah rawak tak- korelasi (tak-berhubungan). 101 Jadual 4.2: Data untuk Pengunduran Linear Berganda. Y x1 x2 … xk y1 x11 x12 … x1k y2 x 21 x 22 … x2k yn x n1 xn 2 … x nk Kita seterusnya akan memperoleh persamaan (rumus) normal kuasa dua-terkecil n n E 0 E 1 ¦ x i1 i 1 n E 0 ¦ x i1 i 1 n E 1 ¦ xi21 i 1 n E 2 ¦ xi2 i 1 n n n i 1 i 1 n ¦ x ik n ¦ x i1 x ik i 1 n ¦y , i i 1 n ¦x i1 yi , i 1 E 1 ¦ x ik x i1 E 2 ¦ x ik x i 2 E k i 1 n i 1 E 2 ¦ x i1 x i 2 E k E 0 ¦ x ik E k i 1 n ¦ xik2 i 1 n ¦x i 1 ik y i . (Rumus 4.18) Adalah lebih mudah untuk kita menyelesaikan persamaan normal sekiranya ianya dinyatakan dalam bentuk matrik. Katakan kita diberi pembinaan matrik bagi persamaan normal yang sama dengan pembangunan Rumus 4.18. Model tersebut dari segi pemerhatian, Rumus 4.17, boleh ditulis dalam bentuk matrik, (Rumus 4.19) y Xȕ İ , di mana y ª y1 º «y » « 2» , «» « » ¬ yn ¼ X ª1 «1 « « « ¬1 x11 x12 ... x21 x22 ... xn1 xn 2 ... x1k º x2 k »» » » xnk ¼ 102 ªE 0 º «E » « 1», « » « » ¬E k ¼ ȕ dan İ ªH1 º «H » « 2» . « » « » ¬H n ¼ (Rumus 4.20) Secara umumnya, y adalah vektor bagi pemerhatian n u 1 , X ialah matrik bagi tahap pembolehubah tak bersandar n u p , ȕ adalah vektor bagi pekali pengunduran p u 1 dan İ adalah vektor bagi kesalahan (ralat) rawak n u 1 . Peramal kuasa dua terkecil mesti dipermudahkan kepada X cXÊ (Rumus 4.21) X cy Rumus 4.21 adalah merupakan persamaan normal kuasa dua terkecil. Ianya adalah sama dengan Rumus 4.18. Untuk menyelesaikan persamaan normal, darabkan keduadua bahagian Rumus 4.21 dengan X cX songsang. Oleh itu, peramal kuasa dua terkecil bagi E adalah E XcX 1 Xcy (Rumus 4.22) Adalah mudah untuk melihat bahawa persamaan normal dalam bentuk matrik adalah sama dengan bentuk skala. Dengan menulis keseluruhan Rumus 4.21 secara terperinci, kita akan memperoleh ª « n « n « x i1 «¦ i 1 « « n «¦ xik ¬« i 1 n n ¦x i1 ¦x 2 i1 i 1 n i 1 ¦x i 1 n ¦x i 1 x i1 i 2 i 1 n ¦x n i2 n ik xi1 ¦x i 1 ik xi 2 º » ª Eˆ 0 º i 1 »« » n ¦ xi1 xik » «« ˆ »» » E1 i 1 »« » » « » n 2 »« ˆ » ¦ xik ¬ E k ¼ i 1 ¼» ¦x ik ª n º « ¦ yi » « ni 1 » « x y » i1 i «¦ » (Rumus 4.23) i 1 « » «n » «¦ xik y i » ¬« i 1 ¼» 103 Jika pendaraban matrik tersebut dilaksanakan, bentuk skala bagi persamaan normal (iaitu Rumus 4.18) akan dihasilkan. Dalam bentuk ini, adalah mudah untuk kita melihat bahawa X cX adalah matrik simetri p u p dan X cy adalah vektor lajur p u 1 . Ianya adalah struktur khusus bagi matrik X cX . Elemen-elemen pepenjuru bagi X cX adalah hasiltambah kuasa dua elemen-elemen dalam lajur X dan elemenelemen bukan-pepenjuru adalah hasiltambah darab silang elemen-elemen dalam lajur X. Dinyatakan juga bahawa elemen-elemen X cy adalah hasil tambah darab silang bagi lajur X dengan pemerhatian ^y i ` . Perbezaan antara pemerhatian y i dan nilai yang sesuai y i ialah residual, katakan ei y i y i . Vektor residual n u 1 ditulis sebagai e 4.4.2 y y (Rumus 4.24) Model Pengunduran Linear Stepwise Prosidur SLR merupakan antara teknik pemilihan pembolehubah yang seringkali digunakan (Siti Zanariah Satari, 2003). Prosidur ini membangunkan siri (rentetan) model pengunduran dengan membuat penambahan atau penyingkiran pembolehubah X pada setiap langkah. Kriteria untuk penambahan atau penyingkiran pembolehubah X tersebut biasanya dilaksanakan pada peringkat statistik F*. 4.4.2.1 Algoritma Pemilihan Pembolehubah Berikut merupakan Algoritma Pengunduran Linear Stepwise pada peringkat statistik F* untuk ujian F. 104 (i) Rutin SLR yang pertama ialah membuat penghampiran model pengunduran asas bagi setiap pembolehubah X berkemungkinan p – 1. Bagi setiap model pengunduran asas tersebut, statistik F* untuk pengujian F (samada kecerunan sama dengan sifar atau tidak) diperolehi dengan menggunakan Rumus 4.25. Fk* MSR( xk ) MSE ( xk ) Dinyatakan bahawa MSR( xk ) (Rumus 4.25) MSE ( xk ) mengukur pengurangan varians bagi Y yang digabungkan dengan penggunaan pembolehubah xk. Pembolehubah X dengan nilai F* terbesar akan menjadi calon untuk penambahan pertama. Jika nilai F* ini melebihi paras prapenentuan (predetermine), pembolehubah X akan ditambah. Jika tidak, rutin akan ditamatkan dengan tiada pembolehubah X yang dipertimbangkan sebagai signifikan untuk dimasukkan dalam model pengunduran. (ii) Katakan x7 adalah pembolehubah yang dimasukkan pada langkah 1. Rutin SLR seterusnya membuat penghampiran semua model pengunduran dengan dua pembolehubah X, di mana x7 sebagai salah satu ‘pasangannya’. Bagi setiap model pengunduran tersebut, statistik ujian F separa dalam Rumus 4.26. * k F MSR( xk | x7 ) MSE ( x7 | xk ) ª bk º « » ¬ s (bk ) ¼ 2 (Rumus 4.26) akan diperolehi. Ini merupakan statistik untuk pengujian F (samada Ek 0 atau tidak) apabila x7 dan xk adalah pembolehubah dalam model. Pembolehubah X dengan nilai F* terbesar akan menjadi calon untuk penambahan pada peringkat kedua. Jika nilai F* ini melebihi paras pra-penentuan, pembolehubah X yang kedua akan ditambah. Jika tidak, rutin akan ditamatkan. 105 (iii) Anggap bahawa x3 ditambah pada peringkat kedua. Seterusnya, rutin SLR akan menentukan samada mana-mana pembolehubah X dalam model yang sepatutnya digugurkan. Sebagai gambarannya, pada peringkat ini, hanya terdapat satu pembolehubah X yang lain dalam model x3, dengan itu hanya satu statistik ujian F separa yang dihasilkan berdasarkan Rumus 4.27. Fk* MSR( x3 | x7 ) MSE ( x7 | x3 ) (Rumus 4.27) Pada peringkat terkini, terdapat beberapa bilangan statistik ujian F* tersebut, di mana bagi setiap pembolehubah dalam model adalah di sebeleah pembolehubah terakhir yang ditambah. Pembolehubah yang mana nilai F* terkecil akan menjadi calon untuk disingkirkan. Jika nilai F* ini berada di bawah had pra-penentuan, pembolehubah tersebut akan disingkirkan daripada model. Sebaliknya, ianya akan dikekalkan. (iv) Anggap bahawa x7 dikekalkan, dengan itu kedua-dua x3 dan x7 kini berada dalam model. Rutin SLR seterusnya akan menentukan pembolehubah X yang mana akan menjadi calon seterusnya untuk ditambah. Kemudiannya akan menentukan samada mana-mana pembolehubah yang telah berada dalam model yang sepatutnya digugurkan dan berterusan sehingga tiada lagi pembolehubah X yang boleh ditambah atau disingkirkan dan rutin ditamatkan. Dinyatakan bahawa SLR membenarkan pembolehubah X untuk dimasukkan dalam model pada peringkat lebih awal dan untuk disingkirkan kemudiannya jika tiada lagi hubungan yang signifikan dengan pembolehubah yang ditambah pada peringkat akhir. 106 4.5 Prosidur Penilaian Prosidur penilaian merupakan perincian dari segi rumus-rumus yang terlibat dalam metodologi penyelidikan. 4.5.1 Penjelmaan Linear Ciri Tetap Penjelmaan linear diaplikasikan untuk mendapatkan semua pemberat pengunduran yang bernilai positif daripada ciri yang mempunyai korelasi negatif. Hasilnya, kita akan mempunyai kesemua ciri berkorelasi positif sahaja. Oleh yang demikian, ianya telah dilaksanakan ke atas lima ciri tetap iaitu p7, p8, p9, p10 dan p11. Berdasarkan Subtopik 3.5.2.1, bagi ciri tersebut yang mewakili perbendaharaan kata, struktur ayat, imbuhan, tanda baca dan ejaan, masing-masing, kesalahan maksimum yang telah diperuntukkan untuk setiap ciri adalah sebanyak enam kesalahan. Ini adalah disebabkan -0.5 akan dikenakan bagi satu kesalahan yang dikesan. Oleh yang demikian, penjelmaan linear bagi setiap ciri p7 – p11 tersebut adalah seperti dalam Rumus 4.28. pi 8 x, 7 d i d 11 (Rumus 4.28) di mana i adalah ciri ke i dan x adalah markah kesalahan dalam ciri i. 4.5.2 Penentuan Nilai Ciri Optimum Nilai ciri-ciri optimum, p1 hingga p6 ditentukan dengan berdasarkan rumus tertentu. Bagi ciri p1, p2, p3 dan p6 merupakan ciri yang lebih mudah (rujuk Subtopik 3.5.1.1 hingga 3.5.1.3 dan 3.5.1.6). Sebaliknya bagi ciri p4 dan p5 (rujuk Subtopik 107 3.5.1.4 dan 3.5.1.5) yang mengaplikasikan kaedah Information Retrieval (IR) dilihat lebih sukar. Dalam mendapatkan nilai EssayContent (EC), p4 vektor ujian terdiri daripada semua perkataan dalam esei yang telah dipecahkan dan ditukar dalam bentuk supervektor yang mewakili lima mata-penilaian Namun begitu, kata tugas akan dikeluarkan terlebih dahulu untuk pembangunan vektor dan imbuhan awalan dan akhiran dibuang untuk mengira kekerapan. Nilai EC bagi esei ujian akan diperolehi dengan mengukur jarak kosinus antara vektor penghampiran yang dibangunkan untuk esei ujian dengan setiap supervektor yang mewakili lima mata-penilaian. Oleh yang demikian, nilai EC yang akan diperolehi adalah antara 1 bagi gred E, hingga 5 bagi gred A. EssayContentt = ¦ kosinus tj u markah ¦ kosinus tj (Rumus 4.29) di mana j merupakan julat bagi keseluruhan lima esei latihan yang paling hampir, markahj adalah markah berdasarkan penilaian manusia bagi esei latihan-j dan kosinustj adalah kosinus antara esei ujian t dan esei latihan j. Manakala itu, ArgContent (AC), p5 pula mengukur gaya olahan per argumen. Malah, ianya juga menggunakan pemberat perkataan untuk mendapatkan nilai AC bagi esei ujian ini. Ianya juga menganalisa esei secara berasingan. Pertamanya, vektor kekerapan untuk lima-mata penilaian ditukarkan kepada vektor pemberat perkataan. Pemberat bagi perkataan i dalam kategori s adalah wi , s freq i,s max_freq s logn_essaystotal n_essaysi (Rumus 4.30) di mana freqi , s ialah kekerapan perkataan i dalam kategori s, max_ freqs ialah kekerapan bagi perkataan yang paling kerap dalam s (setelah senarai perkataan penghenti dikeluarkan), n _ essaystotal ialah jumlah esei latihan berdasarkan kelima- 108 lima kategori dan n _ essaysi ialah bilangan esei latihan yang mengandungi perkataan i. Untuk mendapatkan nilai AC bagi esei ujian, setiap argumen dalam esei dinilai secara berasingan dengan mengira jarak kosinus antara vektor pemberat dan supervektor pemberat untuk lima-mata penilaian. Mata-penilaian yang paling hampir akan diumpukkan kepada argumen. Hasilnya, sistem akan menghasilkan satu set markah, iaitu satu per argumen untuk esei ujian. Seterusnya, min pelaras digunakan untuk seimbangkan pengaruh bilangan perkataan dalam esei. ArgContentt ¦ arg_scores j n_args t n_args t 1 (Rumus 4.31) di mana j merupakan julat bagi keseluruhan argumen dalam esei ujian t, markah_argj adalah markah bagi argumen j dan n-argt ialah bilangan argumen dalam t. 4.5.3 Penentuan Pekali Pemberat Ciri Optimum Sebanyak 200 esei pelajar yang terdiri daripada kelima-lima mata-aras penilaian telah digunakan untuk tujuan latihan dan pengujian menggunakan prosidur five-fold cross-validation (dijelaskan dalam Subtopik 3.7 dan 3.9.2). Dalam proses latihan, ianya digunakan untuk mendapatkan pemberat yang lebih optimum bagi setiap ciri optimum, p1 –p6, menggunakan Algoritma MLR. Setiap nilai ciri piawai yang telah diperolehi dalam fasa sebelum ini seterusnya akan diundurkan untuk mendapatkan pemberat berserta dengan nilai jangkaan. Kombinasi daripada kesemua enam ciri ini akan diumpukkan dan mewakili sebanyak 30% daripada markah keseluruhan esei. Oleh itu, pengunduran yang akan dilakukan adalah berdasarkan kepada persamaan umum y = a + s1(p1) + s2(p2) + s3(p3) + s4(p4) + s5(p5) + s6(p6), di mana a adalah pintasan-y dan s adalah pekali pemberat ciri optimum. 109 4.5.4 Peratusan Pemberat Bagi Ciri Tetap Pemberat tetap yang telah dipiawaikan bagi ciri n – k yang akhir akan diwakili dalam bentuk peratusan jumlah pemberat yang telah dipiawaikan untuk semua ciri (dilabelkan sebagai pk + 1 – pn). Sebagai contoh, sekiranya terdapat dua pemberat yang telah dipiawaikan dalam set 12 ciri di mana p11 – p12 masing-masing bernilai .1 dan .2, ini bermakna s11 adalah bersamaan dengan 10% daripada jumlah s1 – s12, s12 adalah bersamaan dengan 20% daripada jumlah s1 – s12 dan jumlah s1 – s10 akan memegang nilai baki sebanyak 70% daripada pemberat yang telah dipiawaikan. Dalam kes ini, n ialah 12 dan k ialah 6. Oleh itu, kita mempunyai enam ciri tetap yang mana merangkumi bahagian bahasa dan isi penting. Disebabkan pemberat ciri optimum telah diperuntukkan sebanyak 30%, maka pemberat ciri tetap ini akan diperuntukan sebanyak 70%. Ianya merupakan penerangan bagi Subtopik 3.8 dan 3.9.1. 4.5.5 Penentuan Pekali Pemberat Ciri Tetap Setelah kita memperolehi pemberat optimum dengan menggunakan Algoritma MLR ke atas enam ciri optimum, langkah seterusnya ialah untuk mendapatkan pemberat bagi ciri tetap piawai dengan menggunakan rumus 4.32 bagi enam ciri terakhir (tetap) sepertimana yang diterangkan dalam Subtopik 3.9.1.3. 6 pi ¦ s j si j 1 12 7 d i d 12 (Rumus 4.32) 1 ¦ p j j 7 di mana s adalah pekali pemberat ciri tetap, si adalah pekali pemberat bagi ciri tetap ke-i, 110 sj adalah pekali pemberat bagi ciri tetap ke-j, p adalah nilai ciri tetap, pi adalah nilai ciri tetap ke-i dan pj adalah nilai ciri tetap ke-j. 4.5.6 Penilaian Gred Akhir Ini merupakan perincian bagi Subtopik 3.9.3. Setelah persamaan pengunduran pemberat ciri optimum menggunakan Algoritma MLR yang mewakili peramalan gaya olahan dan persamaan peratusan pemberat ciri tetap menggunakan Teknik MMB yang mewakili bahasa dan isi kandungan diperolehi, kedua-dua persamaan yang mengandungi pekali pemberat masing-masing akan digabungkan menjadi persamaan berikut y = a + s1(p1) + s2(p2) + s3(p3) + s4(p4) + s5(p5) + s6(p6) + s7(p7) + s8(p8) + s9(p9) + s10(p10) + s11(p11) + s12(p12) (Rumus 4.33) atau diringkaskan kepada 12 y a ¦ s m ( pm ) (Rumus 4.34) m 1 dan nilai yang diperolehi akan ditukarkan kepada gred penilaian esei berdasarkan Jadual 3.3. 4.6 Ringkasan Bab ini telah memperincikan beberapa proses utama dalam metodologi khususnya yang melibatkan peramalan gaya olahan menggunakan Algoritma MLR dan penentuan dan pengkelasan elemen hujahan menggunakan Teknik MMB. Sebagai perbandingannya, Algoritma SLR dan Teknik Logik Fuzzy juga dibincangkan. 111 Bab ini lebih menumpukan kepada rumus-rumus yang terlibat dalam teknik penilaian esei. Di samping itu, di awal bab ini telah dibincangkan tentang rekabentuk dan jenis KB yang terlibat. Manakala di pertengahan bab ini memperjelaskan rumus dan proses dalam pra-pemprosesan, latihan dan pengujian peramalan gaya olahan dan pengkelasan elemen hujahan dan penilaian gred akhir untuk membuat perbandingan kesetaraan penilaian manusia dan penilaian teknik. Bab ini diakhiri dengan penerangan prosidur penilaian yang menghuraikan rumus-rumus yang digunakan dalam metodologi penyelidikan. Oleh itu, dalam bab seterusnya, akan dibincangkan hasil pengujian yang utama dan berkaitan dengan objektif yang telah ditetapkan. Terdapat empat hasil yang dirumus dan dibincangkan iaitu hasil pra-pemprosesan, hasil peramalan gaya olahan, hasil penentuan dan pengkelasan elemen hujahan dan hasil perbandingan kesetaraan penilaian manusia-teknik penilaian. BAB 5 HASIL PENGUJIAN DAN PERBINCANGAN 5.1 Pendahuluan Teknik penilaian yang telah dibangunkan perlu dianalisa dan diuji hasilnya untuk memastikan kajian yang dibuat menepati objektif dan matlamat awal. Ianya akan dibincangkan dengan terperinci dalam bab ini. Bab ini membentangkan hasil pengujian dan perbincangan bagi pra-pemprosesan data, peramalan gaya olahan, penentuan dan pengkelasan elemen hujahan dan perbandingan kesetaraan pencapaian menggunakan teknik penilaian yang dibangunkan dengan penilaian manusia. 5.2 Hasil Pengujian dan Perbincangan Pengujian dilakukan ke atas sebanyak 200 daripada 300 sampel esei pelajar yang telah dinilai oleh guru Sekolah Kebangsaan Galing, Kuantan dan Sekolah Kebangsaan Semambu, Kuantan, dan telah ditapis untuk digunakan sebagai data dalam kajian ini. Baki 100 sampel selebihnya adalah terdiri daripada esei yang mempunyai terlalu banyak kesalahan dan tulisan yang sangat teruk. Daripada sejumlah 200 esei tersebut, kita telah menentukan bahawa pecahan bilangan esei mengikut gred adalah seperti dalam Jadual 5.1. 113 Jadual 5.1: Pecahan bilangan 200 sampel esei pelajar mengikut gred. Kumpulan Esei Pecahan Gred Bilangan Esei A B C D E 1 40 8 8 8 8 8 2 40 8 8 8 8 8 3 40 8 8 8 8 8 4 40 8 8 8 8 8 5 40 8 8 8 8 8 Daripada Jadual 5.1, esei tersebut dibahagikan kepada lima bahagian yang seimbang menggunakan prosidur five-fold cross-validation. Dengan ini, kita akan memperoleh lima bahagian yang berasingan tetapi seimbang iaitu set esei latihan dan set esei ujian (cross-validation). Ini adalah untuk memastikan agar keputusan akhir kajian ini tidak dipengaruhi faktor bias dari segi bilangan dan gred data kajian. 5.3 Kaedah Pengukuran Pengukuran ketepatan dalam setiap hasil pengujian adalah menggunakan precision (Rumus 5.1), recall (Rumus 5.2) dan f-measure (Rumus 5.3). Kaedah pengukuran ini telah digunakan dalam mengukur ketepatan CbAS oleh McCallum dan Nigam (1998), Burstein dan Marcu (2000), Robert (2000), Paul et. al. (2003) dan banyak lagi. Precision adalah bilangan kes yang dipersetujui oleh kedua-dua penilaian manusia dan teknik penilaian, dibahagi dengan jumlah kes yang dikenalpasti berdasarkan penilaian manusia dan recall adalah bilangan kes yang dipersetujui oleh kedua-dua penilaian manusia dan teknik penilaian, dibahagi dengan jumlah yang teknik penilaian. Manakala f-measure merupakan min bagi precision dan recall (Burstein et. al., 2003). F-measure atau full-measure mengukur jumlah kesesuaian antara kesetaraan penilaian manusia dan teknik penilaian dari segi konsep, hubungan penyataan dan kelangsungan hubungan tersebut (Fife dan Berger, 1996). 114 ¦ J precision recall ¦ J f measure 1 1 J2 J2 ¦J ¦J 1 2 2 u precision u recall precision recall (Rumus 5.1) (Rumus 5.2) (Rumus 5.3) di mana J1 ialah bilangan kes yang dikenalpasti oleh penilai manusia, J 2 ialah bilangan kes yang dikenalpasti oleh sistem dan ¦J 1 J 2 ialah jumlah persetujuan antara penilai manusia dan sistem. 5.4 Hasil Pra-Pemprosesan Data Semua data disimpan dalam format *.txt. Jadual 5.2 menunjukkan hasil prapemprosesan bagi mengenalpasti perkataan ralat-ejaan supaya diproses kembali kepada perkataan yang betul untuk tujuan penentuan elemen-elemen hujahan. Jadual tersebut membandingkan bilangan perkataan yang telah berjaya dibetulkan berbanding sebelumnya mengikut lima kumpulan sampel yang telah dibahagikan menggunakan prosidur five-fold cross-validation. 115 Jadual 5.2: Perbandingan perkataan diperbetulkan berdasarkan gred esei skala lima- mata aras. Perkataan Perkataan Ralat-Ejaan, K1 Diperbetulkan, K2 A 15 12 0.8000 B 23 20 0.8696 C 29 26 0.8966 D 38 31 0.8158 E 55 41 0.7455 Min 15 12 0.8255 Sisihan Piawai 15.3623 10.9772 0.0595 Gred Recall Dalam Jadual 5.2 ini, Perkataan Ralat-Ejaan, K1 merupakan bilangan perkataan yang salah dari segi ejaan tetapi tidak sepatutnya memberi kesan dalam penentuan dan pengkelasan sesebuah elemen hujahan dalam esei. Dengan itu, Algoritma Pembetulan Kata telah digunakan dan hasilnya ditunjukkan dalam Perkataan Diperbetulkan, K2 yang mana sebahagian besar ralat perkataan dapat diperbetulkan. Hasil daripada Jadual 5.2 menunjukkan min bagi pengukuran precision untuk kelima-lima kumpulan sampel yang digunakan adalah 82.55%. Manakala sisihan piawai menunjukkan nilai yang agak kecil iaitu 0.0595 (5.95%) yang menunjukkan kejituan (kadar kejituan berkadar terus dengan kadar konsisten) yang agak tinggi. Walaubagaimanapun, terdapat perbezaan yang agak ketara bagi bilangan perkataan ralat ejaan berbanding setiap kumpulan sampel gred. Ini adalah disebabkan esei yang bergred lebih rendah, lebih cenderung untuk melakukan kesilapan (dalam kes ini ralat ejaan) berbanding esei bergred lebih tinggi. Ini dibuktikan berdasarkan Rajah 5.1 yang mewakili graf gred esei berbanding bilangan ralat-ejaan yang dikesan dan diperbetulkan. 116 Bilangan Perkataan 60 50 40 Ralat-Ejaan 30 Ejaan-Diperbetulkan 20 10 0 A B C D E Kumpulan Gred Rajah 5.1: Perbandingan bilangan Ralat-Ejaan dan Ejaan-Diperbetulkan dengan kumpulan gred esei. Kesimpulan yang boleh dibuat oleh Rajah 5.1 ialah bilangan ralat-ejaan dan ejaan-diperbetulkan adalah berkadar terus dengan kumpulan gred esei. Rumusan Pra-Pemprosesan Data Peratus Perkataan 5.4.1 100.00% 90.00% 80.00% 70.00% 60.00% 50.00% 40.00% 30.00% 20.00% 10.00% 0.00% Perkataan Diperbetulkan A B C D E Kumpulan Gred Rajah 5.2: Peratus Perkataan-Diperbetulkan berbanding kumpulan gred esei. Dalam Rajah 5.2, graf yang dijana menunjukkan bahawa peratus perkataan yang berjaya diperbetulkan adalah tinggi (berdasarkan teori Kappa, nilai 80% dan ke 117 atas adalah tinggi). Jika dilihat daripada rajah tersebut, kadar perkataan diperbetulkan menurun apabila tahap kumpulan gred semakin rendah. Dengan kata lain, peratus bilangan perkataan diperbetulkan adalah berkadar langsung dengan tahap kumpulan gred. Antara faktor utama ianya berlaku adalah disebabkan Algoritma Pembetulan Kata yang dibangunkan hanya mampu membuat pembetulan kata berdasarkan bilangan huruf yang tertinggal, tanpa mengambilkira logik ayat. Jika huruf yang tertinggal terlalu banyak, atau melibatkan aksara berjenis nombor (seperti tarikh dan waktu) ianya tidak dapat membuat pengecaman perkataan yang berkemungkinan. Selain itu, penggabungan kata juga yang mengambilkira huruf besar pertama bagi perkataan bersebelahan juga masih terdapat kelemahan. Jika huruf bersebelahan tersebut ditulis dengan huruf kecil, ianya tidak akan digabungkan walaupun perkataan tersebut sepatutnya dikira sebagai satu perkataan. Sebagai contoh, ‘Mohd Ali’ yang ditulis sebagai ‘mohd ali’ tidak akan digabungkan sebagai ‘mohd_ali’. 5.5 Hasil Peramalan Gaya Olahan Penentuan gaya olahan diramal menggunakan Algoritma MLR dan merupakan hasil daripada objektif ketiga dalam penyelidikan ini. Oleh itu penerangan terperinci bagi setiap kitaran dalam cross-validation turut akan dijelaskan dalam bab ini. Algoritma MLR diaplikasikan ke atas enam ciri optimum untuk mendapatkan pekali pemberat terbaik persamaan pengunduran tersebut. Hasil latihan daripada kelima-lima kitaran tersebut adalah seperti berikut: x Kitaran pertama o y = -10.0418 + 0.1187 p1 + -3.7122 p2 + 1.1948 p3 + 4.0796 p4 + -0.0348 p5 + 0.0551 p6 x (Rumus 5.4) Kitaran kedua o y = -10.7698 + 0.1638 p1 + -0.2453 p2 + 0.929 p3 + 3.8982 p4 + -0.0111 p5 + 0.0484 p6 (Rumus 5.5) 118 Kitaran ketiga x o y = -9.9627 + 0.1120 p1 + -3.4092 p2 + 1.1595 p3 + (Rumus 5.6) 4.0923 p4 + -0.0394 p5 + 0.0544 p6 Kitaran keempat x o y = -10.499 + 0.106 p1 + -3.6682 p2 + 1.3 p3 + (Rumus 5.7) 4.0655 p4 + -0.0362 p5 + 0.0548 p6 Kitaran kelima x o y = -10.7094 + 0.1079 p1 + -3.3133 p2 + 1.287 p3 + (Rumus 5.8) 4.0501 p4 + -0.0368 p5 + 0.0547 p6 Rumus 5.4 hingga 5.8 tersebut telah menghasilkan peramalan yang baik. Hasil peramalan tersebut direkodkan Jadual 5.3, 5.4, 5.5, 5.6 dan 5.7. Dalam jadualjadual tersebut, ketepatan diukur melalui perbandingan peramalan antara Algoritma MLR dan Algoritma SLR. Klasifikasi perbandingan gred ini adalah berdasarkan kepada skala panduan markah gaya olahan di Lampiran D. Lajur H1+H2 bermaksud bilangan kesetaraan (persetujuan) bagi esei yang sama antara Penilaian Manusia (H1) dan Penilaian Teknik (H2, samada MLR atau SLR). Hasil daripada jadual-jadual tersebut dirumuskan dalam Rajah 5.3 hingga 5.7. Jadual 5.3: Hasil ujian peramalan gaya olahan pada kitaran pertama. 8 8 8 8 8 8 Penilaian Teknik, H2 MLR SLR 9 7 8 9 7 8 8 7 8 9 8 8 MLR 8 7 7 8 8 7.6 SLR 7 7 6 6 6 6.4 MLR 1.000 .8750 .8750 1.000 1.000 .9500 SLR .8750 .8750 .7500 .7500 .7500 .8000 MLR .8889 .8750 1.000 1.000 1.000 .9528 SLR 1.000 .7778 .7500 .8571 .6667 .8103 MLR .9412 .8750 .9333 1.000 1.000 .9499 SLR .9333 .8235 .7500 .8000 .7059 .8025 0 .6325 .4899 .4899 .0612 .0612 .0580 .1127 .0469 .0770 Gred Esei Penilaian Manusia, H1 A B C D E Min Sisihan Piawai .8944 H1+H2 Precision Recall F-measure Jadual 5.3 menunjukkan hasil ujian peramalan gaya olahan esei ujian sebanyak 40 sampel bagi kitaran yang pertama. Jika dilihat kepada min precision, 119 recall dan f-measure bagi Algoritma MLR adalah 95%, 95.28% dan 94.99% berbanding Algoritma SLR iaitu 80%, 81.03% dan 80.25% yang mana purata perbezaan yang agak besar bagi kedua-duanya iaitu hampir 15%. Daripada jadual tersebut juga, sisihan piawai (SD) bagi Algoritma MLR dan SLR masing-masing adalah 6.12%, 5.8%, 4.69% dan 5.8%, 11.27%, 7.7%. Perbezaan yang agak ketara pada perbandingan penilaian Algoritma SLR dengan manusia (recall) iaitu sebanyak 11.27%. Ini menunjukkan bahawa peramalan bagi Algoritma SLR adalah kurang jitu berbanding Algoritma MLR. 120% Peratus Persetujuan 100% 80% Algoritma MLR 60% Algoritma SLR 40% 20% 0% A B C D E Gred Gaya Olahan Rajah 5.3: Perbandingan hasil Algoritma MLR dan SLR pada kitaran pertama. Pada kitaran pertama cross-validation, seperti dalam Rajah 5.3, graf tersebut menunjukkan pencapaian Algoritma MLR yang lebih optimum berbanding Algoritma SLR dalam melakukan peramalan gred esei pada kitaran pertama dengan purata 94.99% dan 80.25%, masing-masing. Berdasarkan graf tersebut juga, didapati bahawa peramalan MLR adalah lebih baik berbanding SLR secara konsisten. 120 Jadual 5.4: Hasil ujian peramalan gaya olahan pada kitaran kedua. 8 8 8 8 8 8 Penilaian prototaip, H2 MLR SLR 9 8 7 7 8 8 7 10 9 7 8 8 MLR 8 7 8 7 8 7.6 SLR 7 7 8 6 7 7 MLR 1.000 .8750 1.000 .8750 1.000 .9500 SLR .8750 .8750 1.000 .7500 .8750 .8750 MLR .8889 1.000 1.000 1.000 .8889 .9556 SLR .8750 1.000 1.000 .6000 1.000 .8950 MLR .9412 .9333 1.000 .9333 .9412 .9498 SLR .8750 .9333 1.000 .6667 .9333 .8817 0 .8944 .4899 .6325 .0612 .0791 .0544 .1552 .0253 .1146 Gred Esei Penilaian Manusia, H1 A B C D E Min Sisihan Piawai 1.095 H1+H2 Precision Recall F-measure Jadual 5.4 menunjukkan hasil ujian peramalan gaya olahan esei pada kitaran kedua. Jika dilihat kepada min precision, recall dan f-measure bagi Algoritma MLR adalah 95%, 95.56% dan 94.98% berbanding Algoritma SLR iaitu 87.5%, 89.5% dan 88.17% yang mana purata perbezaan bagi kedua-duanya iaitu hampir 7%. Daripada jadual tersebut juga, SD bagi Algoritma MLR dan SLR masing-masing adalah 6.12%, 5.44%, 2.53% dan 7.91%, 15.52%, 11.46%. Perbezaan yang agak ketara pada perbandingan penilaian Algoritma SLR dengan manusia (recall) iaitu sebanyak 15.52% dan purata perbandingan (f-measure) sebanyak 11.46%. Ini juga menunjukkan bahawa dalam kitaran kedua ini, peramalan bagi Algoritma SLR adalah kurang jitu berbanding Algoritma MLR. 120% Peratus Persetujuan 100% 80% Algoritma MLR 60% Algoritma SLR 40% 20% 0% A B C D E Gred Gaya Olahan Rajah 5.4: Perbandingan hasil Algoritma MLR dan SLR pada kitaran kedua. 121 Pada kitaran kedua cross-validation, seperti dalam Rajah 5.4, graf tersebut menunjukkan pencapaian Algoritma MLR yang lebih optimum berbanding Algoritma SLR dalam melakukan peramalan gred esei dengan purata 94.99% dan 80.25%, masing-masing. Berdasarkan graf tersebut juga, didapati bahawa peramalan MLR adalah lebih baik berbanding SLR secara konsisten. Jadual 5.5: Hasil ujian peramalan gaya olahan pada kitaran ketiga. 8 8 8 8 8 8 Penilaian prototaip, H2 MLR SLR 7 7 9 8 7 8 8 9 9 8 8 8 MLR 7 8 7 8 8 7.6 SLR 7 7 6 7 7 6.8 MLR .8750 1.000 .8750 1.000 1.000 .9500 SLR .8750 .8750 .7500 .8750 .8750 .8500 MLR 1.000 .8889 1.000 1.000 .8889 .9556 SLR 1.000 .8750 .7500 .7778 .8750 .8556 MLR .9333 .9412 .9333 1.000 .9412 .9498 SLR .9333 .8750 .7500 .8235 .8750 .8514 0 .8944 .4899 .4000 .0612 .0500 .0544 .0881 .0253 .0615 Gred Esei Penilaian Manusia, H1 A B C D E Min Sisihan Piawai .6325 H1+H2 Precision Recall F-measure Jadual 5.5 menunjukkan hasil ujian peramalan gaya olahan esei pada kitaran seterusnya. Berdasarkan kepada min precision, recall dan f-measure bagi Algoritma MLR masing-masing adalah bernilai 95%, 95.56% dan 94.98% berbanding Algoritma SLR iaitu 85%, 85.56% dan 85.14% yang mana purata perbezaan bagi kedua-duanya adalah kira-kira 10%. Manakala, SD bagi Algoritma MLR adalah 6.12%, 5.44%, 2.53% dan Algoritma SLR adalah 5%, 8.81%, 6.15%. Dengan itu, tiada perbezaan yang agak ketara samada pada perbandingan penilaian Algoritma SLR dengan manusia (recall) atau purata perbandingan (f-measure). Ini juga menunjukkan bahawa dalam peramalan gaya olahan pada kitaran ketiga ini adalah jitu bagi kedua-dua algoritma. 122 120% Peratus Persetujuan 100% 80% Algoritma MLR 60% Algoritma SLR 40% 20% 0% A B C D E Gred Gaya Olahan Rajah 5.5: Perbandingan hasil Algoritma MLR dan SLR pada kitaran ketiga. Pada kitaran ketiga cross-validation, graf dalam Rajah 5.5 menunjukkan pencapaian Algoritma MLR yang lebih optimum berbanding Algoritma SLR dalam melakukan peramalan gred esei pada dengan purata 94.99% dan 85.14%, masingmasing walaupun kedua-duanya menghasilkan keputusan yang jitu berdasarkan Jadual 5.5. Berdasarkan graf dalam Rajah 5.5 ini juga, didapati bahawa peramalan MLR adalah lebih baik berbanding SLR secara lebih konsisten. Jadual 5.6: Hasil ujian peramalan gaya olahan pada kitaran keempat. 8 8 8 8 8 8 Penilaian prototaip, H2 MLR SLR 9 7 8 8 8 8 7 9 8 8 8 8 MLR 8 7 8 7 8 7.6 SLR 7 7 6 7 7 6.8 MLR 1.000 .8750 1.000 .8750 1.000 .9500 SLR .8750 .8750 .7500 .8750 .8750 .8500 MLR .8889 .8750 1.000 1.000 1.000 .9528 SLR 1.000 .8750 .7500 .7778 .8750 .8556 MLR .9412 .8750 1.000 .9333 1.000 .9499 SLR .9333 .8750 .7500 .8235 .8750 .8514 0 .6325 .4899 .4000 .0612 .0500 .0580 .0881 .0469 .0615 Gred Esei Penilaian Manusia, H1 A B C D E Min Sisihan Piawai .6325 H1+H2 Precision Recall F-measure Hasil ujian peramalan gaya olahan esei pada kitaran keempat ditunjukkan dalam Jadual 5.6. Min precision, recall dan f-measure bagi Algoritma MLR masingmasing adalah bernilai 95%, 95.28% dan 94.99% berbanding Algoritma SLR iaitu 123 85%, 85.56% dan 85.14% yang mana purata perbezaan bagi kedua-duanya adalah sama dengan kitaran ketiga iaitu 10%. Manakala, SD bagi Algoritma MLR adalah 6.12%, 5.8%, 4.69% dan Algoritma SLR adalah 5%, 8.81%, 6.15%. Dengan itu, hasil pada kitaran ini juga sama dengan kitaran sebelumnya iaitu tiada perbezaan yang agak ketara samada pada perbandingan penilaian Algoritma SLR dengan manusia (recall) atau purata perbandingan (f-measure). Dengan itu juga, dapat disimpulkan bahawa dalam peramalan gaya olahan pada kitaran keempat ini adalah jitu bagi kedua-dua algoritma. 120% Peratus Persetujuan 100% 80% Algoritma MLR 60% Algoritma SLR 40% 20% 0% A B C D E Gred Gaya Olahan Rajah 5.6: Perbandingan hasil Algoritma MLR dan SLR pada kitaran keempat. Seterusnya, pada kitaran keempat cross-validation, graf dalam Rajah 5.6 masih lagi menunjukkan pencapaian Algoritma MLR adalah lebih optimum berbanding Algoritma SLR dalam melakukan peramalan gred esei dengan purata 94.99% dan 85.14%, masing-masing walaupun kedua-duanya menghasilkan keputusan yang jitu berdasarkan Jadual 5.5. Namun begitu, dapat diperhatikan dalam rajah tersebut peratusan peramalan yang hampir sama bagi gaya olahan yang bergred A dan B, tetapi tidak konsisten untuk C, D dan E. Sebagai rumusannya, didapati bahawa peramalan MLR lebih baik berbanding SLR secara lebih konsisten. 124 Jadual 5.7: Hasil akhir pengujian prototaip sistem pada kitaran kelima. 8 8 8 8 8 8 Penilaian prototaip, H2 MLR SLR 9 7 7 8 9 9 7 9 8 7 8 8 MLR 8 7 8 7 8 7.6 SLR 7 8 8 6 7 7.2 MLR 1.000 .8750 1.000 .8750 1.000 .9500 SLR .8750 1.000 1.000 .7500 .8750 .9000 MLR .8889 1.000 .8889 1.000 1.000 .9556 SLR 1.000 1.000 .8889 .6667 1.000 .9111 MLR .9412 .9333 .9412 .9333 1.000 .9498 SLR .9333 1.000 .9412 .7059 .9333 .9027 0 .8944 .4899 .7483 .0612 .0935 .0544 .1296 .0253 .1015 Gred Esei Penilaian Manusia, H1 A B C D E Min Sisihan Piawai .8944 H1+H2 Precision Recall F-measure Jadual 5.7 menunjukkan hasil ujian peramalan gaya olahan esei pada kitaran terakhir. Min precision, recall dan f-measure bagi Algoritma MLR masing-masing adalah bernilai 95%, 95.56% dan 94.98% berbanding Algoritma SLR iaitu 90%, 91.11% dan 90.27% yang mana purata perbezaan bagi kedua-duanya adalah serendah 4%. Manakala, SD bagi Algoritma MLR adalah 6.12%, 5.44%, 2.53% dan Algoritma SLR adalah 9.35%, 12.96%, 10.15%. Perbezaan yang agak ketara pada perbandingan penilaian Algoritma SLR dengan manusia (recall) iaitu sebanyak 12.96%. Ini menunjukkan bahawa dalam kitaran kelima ini, peramalan bagi Algoritma SLR adalah kurang jitu berbanding Algoritma MLR. 120% Peratus Persetujuan 100% 80% Algoritma MLR 60% Algoritma SLR 40% 20% 0% A B C D E Gred Gaya Olahan Rajah 5.7: Perbandingan hasil Algoritma MLR dan SLR pada kitaran kelima. 125 Akhir sekali, pada kitaran kelima cross-validation, graf dalam Rajah 5.6 menunjukkan pencapaian Algoritma MLR adalah lebih optimum berbanding Algoritma SLR dalam melakukan peramalan gred esei pada kitaran pertama dengan purata 94.98% dan 90.27%, masing-masing walaupun kedua-duanya menghasilkan keputusan yang jitu berdasarkan Jadual 5.6. Namun begitu, dapat diperhatikan dalam rajah tersebut peratusan peramalan yang hampir sama bagi gaya olahan yang bergred A dan peratusan yang lebih tinggi bagi gaya olahan bergred B. Ini adalah disebabkan pemilihan ciri ‘kewujudan terlalu banyak perkataan berulang’ diambilkira sebagai salah satu ciri menggunakan Algoritma SLR telah menyumbang kepada penghampiran peramalan yang lebih tinggi untuk gred tersebut. Manakala bagi gred C, D dan E, Algoritma MLR menunjukkan peramalan yang lebih baik. Sebagai kesimpulannya, peramalan MLR lebih baik berbanding SLR secara lebih konsisten. 5.5.1 Rumusan Peramalan Gaya Olahan Berdasarkan kesemua bacaan hasil yang diperolehi tersebut, didapati bahawa pencapaian peramalan gaya olahan esei menggunakan Algoritma MLR berbanding Algoritma SLR adalah lebih optimum dan konsisten (rujuk Rajah 5.8). Ini dibuktikan dengan purata pencapaian keseluruhan iaitu 91.28% ketepatan peramalan menggunakan Algoritma MLR berbanding 82.17% menggunakan Algoritma SLR. 126 Peratus Persetujuan Penilai 100.00% 95.00% Algoritma Pengunduran Linear Berganda 90.00% 85.00% Algoritma Pengunduran Linear Stepwise 80.00% 75.00% 70.00% 1 2 3 4 5 Bilangan Kitaran Cross-Validation Rajah 5.8: Rumusan perbandingan hasil Algoritma MLR dan SLR pada kelima-lima kitaran. Selain itu, purata SD bagi Algoritma MLR juga mencatatkan keputusan yang lebih jitu iaitu 3.39% berbanding 8.32% yang diperolehi menggunakan Algoritma SLR. Antara faktor utama ialah penggunaan Algoritma MLR menggunakan ciri yang piawai dan signifikan menghasilkan peramalan yang lebih optimum berbanding penggunaan Algoritma SLR yang memerlukan pemilihan ciri sigfinikan terlebih dahulu tetapi tiada jaminan bahawa bilangan dan jenis ciri tersebut adalah paling signifikan untuk membuat peramalan gaya olahan esei yang terhampir. 5.6 Hasil Penentuan dan Pengkelasan Elemen Hujahan Penentuan dan pengkelasan elemen-elemen hujahan merupakan objektif kedua penyelidikan ini. Dengan itu, hasil yang diperolehi akan ditunjukkan secara terperinci berdasarkan kepada prosidur five-fold cross-validation. Nilai threshold yang telah ditetapkan semasa pengujian dilakukan ialah 0.5. Hasil akan dijelaskan berpandukan kepada setiap kitaran prosidur tersebut. Jadual 5.8, 5.9, 5.10, 5.11 dan 5.12 masing-masing menunjukkan hasil yang diperolehi daripada prosidur five-fold cross validation pada kitaran yang pertama, 127 kedua, ketiga, keempat dan kelima. MB adalah singkatan bagi Model Multivariate Bernoulli dan LF singkatan bagi Logik Fuzzy. Jadual 5.8: Hasil penentuan dan pengkelasan elemen hujahan pada kitaran pertama. Penilaian Teknik, H2 MB LF Elemen Hujahan Penilaian Manusia, H1 Penyataan tesis 36 35 Isi 1 20 Isi 2 H1+H2 Precision Recall F-measure MB LF MB LF MB LF MB LF 32 33 30 .917 .833 .943 .938 .930 .882 21 19 19 18 .950 .900 .905 .947 .927 .923 11 11 9 10 8 .909 .727 .909 .889 .909 .800 Isi 3 9 8 9 7 5 .778 .556 .875 .556 .824 .556 Isi 4 19 21 20 18 15 .947 .789 .857 .750 .900 .769 Isi 5 13 13 14 12 11 .923 .846 .923 .786 .923 .815 Isi 6 16 18 15 16 14 1.00 .875 .889 .933 .941 .903 Isi 7 29 27 23 26 22 .897 .759 .963 .957 .929 .846 Isi 8 17 15 16 15 14 .882 .824 1.00 .875 .938 .848 9 7 8 7 6 .778 .667 1.00 .750 .875 .706 17.9 17.6 16.5 16.3 14.3 .898 .778 .926 .838 .909 .805 8.762 8.758 7.412 8.274 7.253 .071 .100 .050 .121 .036 .103 Penyataan penutup Min Sisihan Piawai Berdasarkan Jadual 5.8, min untuk precision, recall dan f-measure bagi MMB dan Logik Fuzzy masing-masing ialah 89.8%, 92.6%, 90.9% dan 77.8%, 83.8%, 80.5%. Perbezaan sehingga kira-kira 10% bagi perbandingan kedua-dua teknik ini menunjukkan MMB lebih baik dalam membuat penentuan dan pengkelasan elemen hujahan. Manakala SD precision, recall dan f-measure bagi MMB dan Logik Fuzzy pula masing-masing ialah 7.1%, 5%, 3.6% dan 10%, 12.1%, 10.3%. Kesimpulannya, MMB memberikan keputusan yang lebih jitu dengan purata nilai SD 3.6% dalam membuat penentuan dan pengkelasan elemen hujahan berbanding Logik Fuzzy. 128 100.00% Peratus Perbandingan 90.00% 80.00% 70.00% 60.00% 50.00% Multivariate Bernoulli 40.00% Logik Fuzzy 30.00% 20.00% 10.00% 0.00% Pendahuluan Isi 2 Isi 4 Isi 6 Isi 8 Elemen Hujahan Rajah 5.9: Peratus perbandingan penentuan dan pengkelasan elemen hujahan antara Teknik MMB dan Logik Fuzzy pada kitaran pertama. Graf pada Rajah 5.9 menunjukkan pencapaian MMB yang lebih baik berbanding Logik Fuzzy dalam penentuan dan pengkelasan elemen hujahan pada kitaran pertama dengan purata 90.9% dan 80.5%, masing-masing. Perbezaan maksimum peramalan ialah pada isi kelapan dengan nilai 26.79% dan perbezaan minimum pada isi pertama dengan nilai 0.38% (peramalan yang hampir sama). Jadual 5.9: Hasil penentuan dan pengkelasan elemen hujahan pada kitaran kedua. Penilaian Teknik, H2 MB LF Elemen Hujahan Penilaian Manusia, H1 Penyataan tesis 36 34 Isi 1 19 Isi 2 H1+H2 Precision Recall F-measure MB LF MB LF MB LF MB LF 32 33 29 .917 .806 .971 .906 .943 .853 20 19 18 17 .947 .895 .900 .895 .923 .895 10 12 10 9 7 .900 .700 .750 .700 .818 .700 Isi 3 9 8 10 7 7 .778 .778 .875 .700 .824 .737 Isi 4 20 18 16 18 15 .900 .750 1.00 .938 .947 .833 Isi 5 14 13 12 13 11 .929 .786 1.00 .917 .963 .846 Isi 6 17 18 17 16 15 .941 .882 .889 .882 .914 .882 Isi 7 27 26 24 25 22 .926 .815 .962 .917 .943 .863 Isi 8 15 14 16 14 14 .933 .933 1.00 .875 .966 .903 8 8 9 7 7 .875 .875 .875 .778 .875 .824 17.5 17.1 16.5 16 14.4 .905 .822 .922 .851 .912 .834 8.683 8.117 7.184 8.179 6.741 .050 .069 .080 .086 .055 .063 Penyataan penutup Min Sisihan Piawai 129 Berdasarkan Jadual 5.9, min untuk precision, recall dan f-measure bagi MMB dan Logik Fuzzy masing-masing ialah 90.5%, 92.2%, 91.2% dan 82.2%, 85.1%, 83.4%. Perbezaan 7.8% bagi perbandingan kedua-dua teknik ini menunjukkan MMB masih lagi lebih baik dalam membuat penentuan dan pengkelasan elemen hujahan. Manakala SD precision, recall dan f-measure bagi MMB dan Logik Fuzzy pula masing-masing ialah 5%, 8%, 5.5% dan 6.9%, 8.6%, 6.3%. Rumusannya, kedua-dua teknik ini memberikan keputusan yang agak jitu iaitu 5.5% dan 6.3% masing-masing dalam membuat penentuan dan pengkelasan elemen hujahan. 100.00% Peratus Perbandingan 90.00% 80.00% 70.00% 60.00% 50.00% Multivariate Bernoulli 40.00% Logik Fuzzy 30.00% 20.00% 10.00% 0.00% Pendahuluan Isi 2 Isi 4 Isi 6 Isi 8 Elemen Hujahan Rajah 5.10: Peratus perbandingan penentuan dan pengkelasan elemen hujahan antara Teknik MMB dan Logik Fuzzy pada kitaran kedua. Graf pada Rajah 5.10 menunjukkan pencapaian MMB yang lebih baik berbanding Logik Fuzzy dalam penentuan dan pengkelasan elemen hujahan pada kitaran kedua dengan purata 91.2% dan 83.4%, masing-masing. Perbezaan maksimum peramalan ialah pada isi kedua dengan nilai 11.82% dan perbezaan minimum pada isi pertama dengan nilai 2.83% (peramalan yang hampir sama). 130 Jadual 5.10: Hasil penentuan dan pengkelasan elemen hujahan pada kitaran ketiga. Penilaian Teknik, H2 MB LF Elemen Hujahan Penilaian Manusia, H1 Penyataan tesis 36 36 Isi 1 21 Isi 2 H1+H2 Precision Recall F-measure MB LF MB LF MB LF MB LF 32 34 30 .944 .833 .944 .938 .944 .882 19 19 19 17 .905 .810 1.00 .895 .950 .850 9 9 9 8 6 .889 .667 .889 .667 .889 .667 Isi 3 9 8 7 7 5 .778 .556 .875 .714 .824 .625 Isi 4 16 15 16 15 15 .938 .938 1.00 .938 .968 .938 Isi 5 18 16 17 16 15 .889 .833 1.00 .882 .941 .857 Isi 6 16 16 15 16 14 1.00 .875 1.00 .933 1.00 .903 Isi 7 27 25 24 25 22 .926 .815 1.00 .917 .962 .863 Isi 8 15 15 16 14 14 .933 .933 .933 .875 .933 .903 8 7 8 6 6 .750 .750 .857 .750 .800 .750 17.5 16.6 16.3 16 14.4 .895 .801 .950 .851 .921 .824 8.759 8.708 7.631 8.589 7.338 .076 .112 .058 .096 .064 .101 Penyataan penutup Min Sisihan Piawai Berdasarkan Jadual 5.10, min untuk precision, recall dan f-measure bagi MMB dan Logik Fuzzy masing-masing ialah 89.5%, 95%, 92.1% dan 80.1%, 85.1.3%, 82.4%. Perbezaan setinggi 9.7% bagi perbandingan kedua-dua teknik ini menunjukkan MMB lebih baik dalam membuat penentuan dan pengkelasan elemen hujahan. Manakala SD precision, recall dan f-measure bagi MMB dan Logik Fuzzy pula masing-masing ialah 7.6%, 5.8%, 6.4% dan 11.2%, 9.6%, 11.1%. Sebagai rumusannya, kedua-dua penggunaan MMB memberikan keputusan yang lebih jitu iaitu 6.4% berbanding 11.1% menggunakan Logik Fuzzy dalam membuat penentuan dan pengkelasan elemen hujahan. 131 100.00% 90.00% Peratus Perbandingan 80.00% 70.00% 60.00% 50.00% Multivariate Bernoulli Logik Fuzzy 40.00% 30.00% 20.00% 10.00% 0.00% Pendahuluan Isi 2 Isi 4 Isi 6 Isi 8 Elemen Hujahan Rajah 5.11: Peratus perbandingan penentuan dan pengkelasan elemen hujahan antara Teknik MMB dan Logik Fuzzy pada kitaran ketiga. Graf pada Rajah 5.11 menunjukkan pencapaian Teknik MMB yang lebih baik berbanding Logik Fuzzy dalam penentuan dan pengkelasan elemen hujahan pada kitaran ketiga dengan purata 92.1% dan 82.4%, masing-masing. Perbezaan maksimum peramalan ialah pada isi kedua dengan nilai yang agak tinggi iaitu 22.22% dan perbezaan minimum pada isi kelapan dengan nilai 3.01% (peramalan yang hampir sama). Jadual 5.11: Hasil penentuan dan pengkelasan elemen hujahan pada kitaran keempat. Penilaian Teknik, H2 MB LF Elemen Hujahan Penilaian Manusia, H1 Penyataan tesis 37 36 Isi 1 21 Isi 2 H1+H2 Precision Recall F-measure MB LF MB LF MB LF MB LF 33 34 32 .919 .865 .944 .970 .932 .914 23 20 21 18 1.00 .857 .913 .900 .955 .878 10 9 10 8 7 .800 .700 .889 .700 .842 .700 Isi 3 8 10 7 8 5 1.00 .625 .800 .714 .889 .667 Isi 4 19 18 17 17 15 .895 .789 .944 .882 .919 .833 Isi 5 18 16 17 16 16 .889 .889 1.00 .941 .941 .914 Isi 6 17 16 17 16 15 .941 .882 1.00 .882 .970 .882 Isi 7 26 25 27 24 23 .923 .885 .960 .852 .941 .868 Isi 8 Penyataan penutup Min 17 15 16 14 14 .824 .824 .933 .875 .875 .848 9 9 9 7 6 .778 .667 .778 .667 .778 .667 18.2 17.7 17.3 16.5 15.1 .897 .798 .916 .838 .904 .817 8.702 8.433 8.015 8.330 7.803 .077 .094 .075 .101 .059 .095 Sisihan Piawai 132 Berdasarkan Jadual 5.11, min untuk precision, recall dan f-measure bagi MMB dan Logik Fuzzy masing-masing ialah 89.7%, 91.6%, 90.4% dan 79.8%, 83.8%, 81.7%. Perbezaan 8.7% bagi perbandingan kedua-dua teknik ini menunjukkan MMB masih lagi lebih baik dalam membuat penentuan dan pengkelasan elemen hujahan. Manakala SD precision, recall dan f-measure bagi MMB dan Logik Fuzzy pula masing-masing ialah 7.7%, 7.5%, 5.9% dan 9.4%, 10.1%, 9.5%. Rumusannya, penggunaan MMB memberikan keputusan yang lebih jitu dengan purata nilai sisihan piawai 5.9% dan berbanding penggunaan Logik Fuzzy dengan purata nilai sisihan piawai 9.5% dalam membuat penentuan dan pengkelasan elemen hujahan. 100.00% 90.00% Peratus Perbandingan 80.00% 70.00% 60.00% 50.00% Multivariate Bernoulli Logik Fuzzy 40.00% 30.00% 20.00% 10.00% 0.00% Pendahuluan Isi 2 Isi 4 Isi 6 Isi 8 Elemen Hujahan Rajah 5.12: Peratus perbandingan penentuan dan pengkelasan elemen hujahan antara Teknik MMB dan Logik Fuzzy pada kitaran keempat. Graf pada Rajah 5.12 menunjukkan pencapaian Teknik MMB yang lebih baik berbanding Logik Fuzzy dalam penentuan dan pengkelasan elemen hujahan pada kitaran keempat dengan purata 90.4% dan 81.7%, masing-masing. Perbezaan maksimum peramalan ialah pada isi ketiga dengan nilai yang agak tinggi iaitu 22.22% dan perbezaan minimum pada penyataan tesis dengan nilai 1.72% (peramalan yang hampir sama). 133 Jadual 5.12: Hasil penentuan dan pengkelasan elemen hujahan pada kitaran kelima. Penilaian Teknik, H2 MB LF Elemen Hujahan Penilaian Manusia, H1 Penyataan tesis 37 36 Isi 1 21 Isi 2 H1+H2 Precision Recall F-measure MB LF MB LF MB LF MB LF 34 35 32 .946 .865 .972 .941 .959 .901 20 21 19 18 .905 .857 .950 .857 .927 .857 9 8 8 7 6 .778 .667 .875 .750 .824 .706 Isi 3 8 9 7 7 5 .875 .625 .778 .714 .824 .667 Isi 4 18 20 18 18 16 1.00 .889 .900 .889 .947 .889 Isi 5 17 16 17 15 14 .882 .824 .938 .824 .909 .824 Isi 6 18 17 18 16 15 .889 .833 .941 .833 .914 .833 Isi 7 28 28 27 27 25 .964 .893 .964 .926 .964 .909 Isi 8 18 17 16 17 15 .944 .833 1.00 .938 .971 .882 8 9 9 8 7 1.00 .875 .889 .778 .941 .824 18.2 18 17.5 16.9 15.3 .918 .816 .921 .845 .918 .829 9.138 8.819 8.502 8.913 8.026 .067 .088 .064 .076 .054 .078 Penyataan penutup Min Sisihan Piawai Berdasarkan Jadual 5.12, min untuk precision, recall dan f-measure bagi MMB dan Logik Fuzzy masing-masing ialah 91.8%, 92.1%, 91.8% dan 81.6%, 84.5%, 82.9%. Perbezaan 8.9% bagi perbandingan kedua-dua teknik ini menunjukkan MMB adalah lebih baik dalam membuat penentuan dan pengkelasan elemen hujahan. Manakala SD precision, recall dan f-measure bagi MMB dan Logik Fuzzy pula masing-masing ialah 6.7%, 6.4%, 5.4% dan 8.8%, 7.6%, 7.8%. Rumusannya, kedua-dua teknik ini memberikan keputusan yang agak jitu iaitu 5.4% dan 7.8% masing-masing dalam membuat penentuan dan pengkelasan elemen hujahan. 134 100.00% 90.00% Peratus Perbandingan 80.00% 70.00% 60.00% 50.00% Multivariate Bernoulli 40.00% Logik Fuzzy 30.00% 20.00% 10.00% 0.00% Pendahuluan Isi 2 Isi 4 Isi 6 Isi 8 Elemen Hujahan Rajah 5.13: Peratus perbandingan penentuan dan pengkelasan elemen hujahan antara Teknik MMB dan Logik Fuzzy pada kitaran kelima. Graf pada Rajah 5.12 menunjukkan pencapaian Teknik MMB yang lebih baik berbanding Logik Fuzzy dalam penentuan dan pengkelasan elemen hujahan pada kitaran kelima dengan purata 91.8% dan 82.9%, masing-masing. Perbezaan maksimum peramalan ialah pada isi ketiga dengan nilai yang agak tinggi iaitu 15.69% dan perbezaan minimum pada isi ketujuh dengan nilai 5.52% (peramalan yang hampir sama). 5.6.1 Rumusan Penentuan dan Pengkelasan Elemen Hujahan Berdasarkan kesemua bacaan hasil yang diperolehi tersebut, purata bagi min kelima-lima pengukuran adalah tinggi dengan menggunakan MMB iaitu 91.28% berbanding 82.17% dicatatkan dengan menggunakan Logik Fuzzy. Ini menunjukkan pencapaian MMB dalam menentukan dan mengkelaskan elemen hujahan adalah lebih baik. Malah, purata SD bagi pencapaian menggunakan MMB juga menunjukkan nilai yang agak kecil iaitu 5.36% membuktikan pencapaian tersebut adalah jitu. Sebaliknya, dengan menggunakan Logik Fuzzy, purata SD yang dicatatkan adalah 8.8%. Dengan ini, ia memberi gambaran bahawa kejituan pengecaman elemen hujahan menggunakan MMB adalah lebih tinggi. Nilai terendah daripada kelima-lima kitaran tersebut menggunakan MMB adalah 77.8% iaitu 135 bacaan pada penyataan penutup dalam kitaran keempat, manakala pencapaian pengecaman tertinggi ialah 100% iaitu bacaan pada isi keenam dalam kitaran ketiga. Perbandingan antara pencapaian MMB dan Logik Fuzzy dirumuskan dalam Rajah 5.14. Berdasarkan tersebut, kesimpulan akhir yang dapat dibuat ialah tahap penentuan dan pengkelasan elemen hujahan menggunakan MMB adalah lebih baik daripada Logik Fuzzy bagi kelima-lima kitaran tersebut. 94.00% 92.00% 90.00% 88.00% Peratus 86.00% Perbandingan 84.00% Pengecaman 82.00% 80.00% 78.00% 76.00% 74.00% Multivariate Bernoulli Logik Fuzzy 1 2 3 4 5 Bilangan Kitaran Rajah 5.14: Rumusan perbandingan penentuan dan pengkelasan elemen hujahan antara Teknik MMB dan Logik Fuzzy bagi kelima-lima kitaran five-fold cross-validation. Antara faktor utama menyumbang kepada peratus pengecaman elemen hujahan lebih tinggi menggunakan MMB berbanding Logik Fuzzy ialah ianya mengambilkira kedua-dua ciri yang wujud dan tidak wujud. Ini dibuktikan dengan peratus pengecaman bagi setiap elemen hujahan dalam setiap kitaran menggunakan MMB sentiasa melebihi peratusan menggunakan Logik Fuzzy. Selain itu, berdasarkan Jadual 5.8 hingga 5.12 dann Rajah 5.9 hingga 5.13, didapati penurunan peratus pengecaman berlaku pada isi kedua, ketiga dan penyataan penutup menggunakan kedua-dua teknik penilaian. Ini adalah kerana bilangan esei latihan dan ujian yang mengandungi ketiga-tiga jenis elemen hujahan tersebut tidak melebihi 80 esei (daripada keseluruhan 200 esei). Bagaimanapun, penggunaan MMB masih 136 mencatatkan pencapaian yang lebih tinggi kerana kemampuannya membuat pengecaman menggunakan set korpus data (bilangan esei) yang kecil. 5.7 Hasil Teknik Penilaian Bagi menyempurnakan objektif keempat, hasil daripada peramalan gaya olahan (Subtopik 5.5) dan hasil daripada penentuan dan pengkelasan elemen hujahan (Subtopik 5.6) digabungkan dengan nilai bagi lima kriteria kesalahan bahasa bagi membentuk prototaip penilaian. Ini adalah untuk membandingkan keputusan gred akhir antara penilaian manusia dan penilaian prototaip yang mengaplikasikan dua pendekatan utama iaitu Algoritma MLR dan Teknik MMB. Hasil daripada operasi tersebut dirumuskan dalam Jadual 5.13. Jadual 5.13: Hasil perbandingan penilaian manusia dan teknik penilaian. Kitaran 1 2 3 4 5 Min Sisihan Piawai Penilaian Manusia, H1 40 40 40 40 40 40 Teknik Penilaian , H2 39 38 39 38 39 38.6 0 0.548 H1+H2 Precision Recall F-measure 37 37 38 37 38 37.4 0.925 0.925 0.950 0.925 0.950 0.935 0.949 0.974 0.974 0.974 0.974 0.969 0.937 0.949 0.962 0.949 0.962 0.952 0.548 0.014 0.011 0.011 Jadual 5.13 menunjukkan hasil perbandingan pencapaian antara penilaian manusia dan teknik penilaian yang digunakan. Daripada jadual tersebut, didapati bahawa min bagi precision yang mengukur perbandingan persetujuan (H1+H2) dengan jumlah penilaian manusia (H1) adalah setinggi 93.5% dengan sisihan piawai serendah 1.4%. Manakala, min bagi recall yang mengukur perbandingan persetujuan (H1+H2) dengan jumlah penilaian menggunakan teknik penilaian (H2) adalah setinggi 96.9% dengan sisihan piawai serendah 1.1%. Maka, purata bagi kedua-dua kaedah penilaian tersebut (f-measure) menunjukkan hasil yang memberangsangkan iaitu dengan min setinggi 95.2% dan sisihan piawai serendah 1.1%. Pencapaian 137 perbandingan Jadual 5.13 ditunjukkan dalam Rajah 5.14. Dengan sisihan piawai yang rendah menggunakan ketiga-tiga jenis pengukuran tersebut, rumusan yang boleh dibuat ialah penggunaan teknik penilaian adalah jitu berbanding penilaian manusia dalam membuat penilaian esei pelajar berdasarkan prosidur five-fold cross- Peratus Persetujuan validation. 101.00% 100.00% 99.00% 98.00% 97.00% 96.00% 95.00% 94.00% 93.00% 92.00% 91.00% 90.00% Penilaian Manusia Teknik Penilaian 1 2 3 4 5 Kitaran Rajah 5.15: Graf perbandingan penilaian gred esei antara penilaian manusia dan teknik penilaian bagi kelima-lima kitaran five-fold cross-validation. Dengan merujuk kepada Rajah 5.15, dapat dilihat dengan jelas perbandingan penilaian menggunakan teknik penilaian dalam penyelidikan ini menggunakan prosidur five-fold cross-validation. Berbanding penilaian manusia (100%), penilaian menggunakan teknik penilaian bagaimanapun memberikan ketepatan yang memberangsangkan. Ketepatan terendah berdasarkan jadual tersebut adalah pada kitaran pertama iaitu 93.7% dan tertinggi pada kitaran ketiga dan kelima iaitu 96.2%. Oleh itu, dapat disimpulkan bahawa penggunaan teknik penilaian dalam membuat penilaian esei berbanding penilaian manusia adalah konsisten dengan purata penilaian 95.2% secara keseluruhan. 138 5.8 Rumusan Keseluruhan Antara foktor utama menyebabkan dapatan hasil yang sangat konsisten bagi ketiga-tiga pengujian (elemen hujahan, gaya olahan dan teknik penilaian) adalah disebabkan pembahagian esei menggunakan prosidur five-fold cross-validation ini dibuat secara seimbang. Selain itu, antara sebab dapatan hasil agak rendah pada kitaran pertama dan keempat penentuan dan pengkelasan elemen hujahan adalah kerana kemampuan Algoritma Pembetulan Kata hanya terhad untuk membuat pembetulan melibatkan aksara berbentuk huruf, tetapi tidak bagi yang berbentuk nombor (seperti tarikh atau masa) dan kekangan dalam penggabungan kata. 5.9 Ringkasan Merujuk kepada bab ini, kesemua objektif penyelidikan ini telah terjawab. Bab ini dimulakan dengan penerangan tiga kaedah pengukuran berserta justifikasi yang digunakan untuk mengukur tahap pencapaian teknik penilaian berbanding teknik perbandingan dan penilaian manusia. Hasil dan perbincangan pertama menyatakan hasil pra-pemprosesan data yang juga merumuskan objektif pertama penyelidikan dengan pencapaian 82.55% pembetulan perkataan dan 5.95% sisihan piawai. Seterusnya, objektif kedua yang menggunakan Teknik MMB dalam membuat penentuan dan pengkelasan elemen hujahan dirumuskan dalam subtopik seterusnya. Hasil dan perbincangannya dibandingkan dengan Teknik Logik Fuzzy yang memberi kesimpulan bahawa penggunaan MMB lebih baik berbanding Logik Fuzzy dengan pencapaian 91.28% berbanding 82.17%. Malah, dengan sisihan piawai yang rendah, 5.36%, menunjukkan penggunaan MMB melakukan pengecaman dengan lebih jitu dan konsisten. Objektif ketiga pula dirumuskan dalam subtopik hasil peramalan gaya olahan. Berdasarkan keputusan yang diperolehi, penggunaan Algoritma MLR didapati 139 menghasilkan keputusan yang lebih baik dan konsisten berbanding Algoritma SLR dengan perbandingan 94.98% dan 85.79%. Malah, pencapaian tersebut disokong dengan kejituan yang agak tinggi iaitu dengan sisihan piawai serendah 3.4%. Bab ini diakhiri dengan memaparkan hasil teknik penilaian yang merangkumkan kedua-dua teknik penilaian dalam penyelidikan ini (MMB dan MLR) dan dibandingkan dengan penilaian manusia. Hasil akhir diperolehi adalah dengan nilai konsisten 95.2% berdasarkan pengujian menggunakan prosidur five-fold crossvalidation. Ianya setidak-tidaknya lebih baik daripada Sistem E-rater yang mencapai persetujuan manusia-sistem tertinggi iaitu 94%. Rumusan akhir penyelidikan ini akan disimpulkan dalam bab seterusnya. Selain itu, Bab 6 juga akan menyatakan kajian lanjutan yang boleh dilakukan dalam meningkatkan lagi teknik penilaian dalam membuat penilaian esei dengan lebih baik. BAB 6 KESIMPULAN 6.1 Pendahuluan Bab terakhir ini akan membincangkan tentang hasil kajian secara menyeluruh. Di samping itu, beberapa cadangan turut diberikan untuk tujuan kajian lanjutan dan penambahbaikan di masa hadapan. Dengan itu, diharapkan agar dengan perbincangan ini dapat memberi garis panduan agar kaedah penyelidikan ini dapat dipertingkatkan lagi untuk mencapai hasil yang lebih baik kelak. 6.2 Kesimpulan Manusia pada abad ini, tidak dapat lari dari kemudahan komputer dalam membantu dan mempertingkatkan kadar kepantasan dan kecekapan seharian, termasuklah penilaian esei secara automasi. Namun begitu, terdapat beberapa isu yang sering timbul dalam penghasilan sistem penilaian ini, samada dari segi penentuan dan pengkelasan elemen hujahan, penentuan gaya olahan mahupun pengecaman kesalahan bahasa. Dalam pembangunan sesebuah sistem penilaian, ianya amat menitikberatkan skema penilaian kerana bidang pendidikan pada era kini bukan sahaja menekankan isu gred yang diperolehi, namun turut mengambilkira kriteria gred tersebut dihasilkan. Oleh sebab itu, pembahagian kepada tiga bahagian tersebut, antara lain adalah supaya maklumbalas yang diberikan oleh setiap bahagian 141 boleh digunakan oleh pelajar atau guru untuk membuat rujukan dan rumusan berdasarkan gred yang diperolehi. Namun begitu, penyelidikan ini hanya menumpukan skop penyelidikannya hanya kepada dua daripada tiga isu tersebut. Penentuan dan pengkelasan elemen hujahan diperbaiki dengan memperbaiki data tersebut terlebih dahulu. Ini dilaksanakan melalui penapisan data (token) menggunakan Algoritma Pembetulan Kata. Ia memberi kesan yang agak ketara terutama untuk penentuan dan pengkelasan elemen-elemen hujahan dan penetapan nilai gaya olahan esei. Hasil yang diperolehi iaitu pembetulan sebanyak 82.55% iaitu min bagi kelima-lima kumpulan crossvalidation dengan sisihan piawai yang sangat rendah iaitu 5.95% membuktikan bahawa algoritma tersebut sangat membantu mempertingkatkan kedua-dua teknik penyelidikan tersebut. Manakala itu, teknik yang digunakan dalam penentuan dan pengkelasan elemen hujahan sebelum ini hanya mengambilkira ciri-ciri yang wujud dalam ayat. Ini mengurangkan kadar ketepatan dan sedikit sebanyak meningkatkan kadar bias dalam proses tersebut. Oleh itu, dengan menggunakan Teknik MMB, yang mengambilkira kedua-dua ciri tersebut, malahan hanya menggunakan set latihan esei yang bersaiz kecil, terbukti menambahkan kejituan dan menghasilkan keputusan yang lebih konsisten dalam dengan pencapaian 91.28% dan sisihan piawai serendah 5.36% secara puratanya berdasarkan prosidur cross-validation. Nilai threshold 0.5 ditetapkan semasa pengujian dilakukan ke atas set esei ujian. Kemampuan MMB untuk beroperasi di tahap optimum dengan saiz data yang kecil juga didapati menyumbang kepada dapatan pencapaian tersebut. Sistem penilaian sebelum ini, yang menggunakan Algoritma SLR, dan beberapa teknik lain, akan melalui proses pemilihan ciri yang signifikan terlebih dahulu dalam sebelum peramalan gaya olahan esei dapat dilaksanakan. Ini, selain daripada melambatkan proses peramalan tersebut, juga memberi masalah dari segi bilangan dan jenis ciri yang diambilkira dalam peramalan tersebut adalah tidak piawai dan tiada jaminan bahawa ciri tersebut adalah signifikan. Maknanya, bilangan ciri ini mungkin akan berbeza dalam membuat peramalan esei yang sama 142 (berdasarkan prosidur five-fold cross-validation) atau penilaian ke atas esei lain. Dengan itu, penyelidikan ini telah menetapkan enam ciri yang signifikan untuk menyumbang kepada peramalan yang terbaik berdasarkan kajian terdahulu yang dibuat. Hasilnya, tahap peramalan yang konsisten setinggi 94.98% dihasilkan dengan tahap kejituan yang baik dengan sisihan piawai bernilai 3.4%. Seterusnya, bagi membuktikan sistem penilaian menggunakan kedua-dua teknik penilaian tersebut lebih baik daripada sistem penilaian terdahulu, perbandingan dengan penilaian manusia dilakukan. Berdasarkan kajian, dengan mengunakan kaedah peratus kesetaraan antara markah yang dihasilkan teknik penilaian dan markah yang ditakrifkan oleh manusia (AGREEM), Sistem E-rater mencatat keputusan yang paling memberangsangkan iaitu antara julat 87%-94%. Namun begitu, dalam penyelidikan ini, hasil perbandingan yang diperolehi adalah adalah lebih tinggi iaitu 95.2% secara konsisten dan disokong dengan tahap kejituan yang tinggi (sisihan piawai 1.1%). Secara keseluruhan, kedua-dua teknik ini adalah sangat sesuai dengan bilangan esei latihan yang kecil dan skema penilaian yang menitikberatkan bahagian elemen hujahan dan gaya olahan esei. Setidak-tidaknya, kedua-dua kaedah tersebut agak baik digunakan pada masa ini, memandangkan hasil yang dijana adalah cukup memberangsangkan. Walaupun ada kemungkinan isu lain yang timbul atau kaedah lain yang lebih baik, namun buat masa ini, kaedah-kaedah tersebut didapati mampu untuk menangani dan mempertingkatkan pencapaian semasa serta secara tidak langsung dapat meningkatkan kebolehpercayaan manusia untuk menggantikan sebahagian tugas mereka dalam menilai sesuatu yang bersifat subjektif seperti esei. 6.3 Cadangan Kajian Lanjutan Secara keseluruhannya, kaedah-kaedah yang dihasilkan daripada penyelidikan ini dapat mempertingkatkan kemampuan sistem penilaian esei sebenar. Walaubagaimanapun, masih terdapat beberapa kelemahan yang masih boleh 143 diperbaiki. Sepanjang proses pembangunan, latihan dan pengujian, didapati masih terdapat peluang-peluang penyelidikan yang boleh dilakukan untuk menambahbaik kaedah yang dicadangkan ini. Antara isu yang timbul daripada penyelidikan ini yang boleh dijadikan kajian selanjutnya ialah kaedah penapisan data yang menggunakan Algoritma Pembetulan Kata dan isu yang berkaitan penulisan di luar topik (offtopic). 6.3.1 Kaedah Gabungan Kata dan Penapisan Data Pada peringkat pra-pemprosesan, ianya melibatkan proses penggabungan kata. Penggabungan kata hanya mengambilkira huruf pertama perkataan (token) bersebelahan adalah huruf besar. Masalah yang wujud ialah jika ianya huruf pertama bagi salah satu atau kedua-dua perkataan bersebelahan tersebut ditulis dengan huruf kecil. Masalah kedua ialah jika ianya melibatkan aksara berbentuk nombor, sebagai contoh tarikh. ‘24 Jun 2005’, ‘1 8 2004’ dan beberapa lagi contoh format tarikh lain yang biasa ditulis oleh pelajar sepatutnya dianggap sebagai satu perkataan. Selain itu, proses penapisan data (token) dalam Fasa II metodologi yang digunakan juga wujud beberapa masalah. Ianya masih lagi melibatkan tarikh (elemen nombor) seperti ’24 Jun 2005’, ‘2hb Julai’, ‘2.4.2003’, ‘5-4-05’ dan pelbagai lagi format juga sukar untuk ditapis untuk berada dalam kumpulan kata ‘tarikh’ menggunakan kaedah kebarangkalian dalam Algoritma Pembetulan Kata yang telah dibangunkan. Dengan itu, kaedah penggabungan kata dan Algoritma Pembetulan Kata perlu ditambahbaik dengan mengambilkira pengaruh nombor dalam membuat gabungan kata dan penapisan data. 6.3.2 Penulisan Di Luar Topik Dua kaedah penilaian, MMB dan MLR masih belum terbukti boleh menangani isu penulisan di luar topik. Isu ini bukan isu baru, tetapi penyelidikan untuk mengatasi isu ini masih giat dijalankan. Isu ini juga bukan isu yang boleh 144 dipandang ringan, kerana walau sehebat manapun esei yang ditulis dari segi gaya dan bahasa, tetapi jika ianya terpesong daripada topik yang diingini, kemungkinan untuk esei tersebut digredkan dengan gred terbawah (samada E atau F) adalah lebih tinggi. Oleh itu, kajian lanjut dan terperinci perlu dilakukan agar isu ini boleh ditangani dan kajian tersebut perlu dimulakan dengan mengenalpasti samada ianya melibatkan kriteria bahasa, isi kandungan atau gaya olahan, atau ketiga-tiga kriteria penilaian tersebut, ataupun melibatkan peringkat linguistik lain seperti morfologi, semantik dan sintaksis. 6.4 Ringkasan Bab ini membuat kesimpulan kesemua empat objektif yang telah ditetapkan pada peringkat awal penyelidikan. Bab ini juga memberikan ulasan yang positif dari segi keputusan penyelidikan berdasarkan objektif-objektif tersebut. Bab ini diakhiri dengan dua isu, atau peluang kajian lanjutan yang boleh dilakukan untuk meningkatkan kaedah yang digunakan khususnya atau meningkatkan tahap sistem penilaian amnya. 145 RUJUKAN Abdul Aziz Abdul Talib. (1993). Menguji Kemahiran Bahasa: Prinsip, Teknik dan Contoh. Kuala Lumpur: Dewan Bahasa dan Pustaka. Abu Bakar Nordin, (1986). Asas Penilaian Pendidikan. Petaling Jaya: Longman. Azman Wan Chik, (1994). Pengujian Bahasa: Kes Bahasa Melayu, Edisi Kedua. Kuala Lumpur: Dewan Bahasa dan Pustaka. Aja-Fernandez, S., Alberto-Lopez, C., and Cybenko, G. V. (2002). A fuzzy MHT Algorithm Applied to Text-Based Information Tracking. IEE Transaction on Fuzzy Systems. vol: 10. no: 3. Attali, Y. and Burstein, J. (2004). Automated Essay Scoring With E-rater® V.2.0. Conference of the International Association for Educational Assessment (!AEA). Philadelphia, PA. Attali, Y. and Burstein, J. (2006). Automated Essay Scoring With e-rater® V.2. Journal of Technology, Learning, and Assessment. 4(3). Attali, Y. (2004). Exploring the Feedback and Revision Features of Criterion. Paper presented at National Council on Measurement in Education (NCME). San Diego, CA. 146 Bloom, B. S. (1956). Taxonomy of educational objectives: The classification of educational goals. Handbook I, Cognitive domain. New York, Toronto: Longmans, Green. Brill, E., and Mooney, R. J. (1997). An Overview of Empirical Natural Language Processing. American Association for Artificial Intelligence. La Canada. Burstein, J, Kukich, K., Wolff, S., Chi Lu, Chodorow, M., Harder, L. B., and Harris, M. D. (1998). Automated Scoring Using A Hybrid Feature Identification Technique. Proc. Ann. Meeting Association of Computational Linguistics. Montreal, Canada. Burstein, J. and Chodorow, M. (1999). Automated Essay Scoring for Nonnative English Speakers. Proceedings of the ACL99 Workshop on Computer-Mediated Language Assessment and Evaluation of Natural Language Processing. College Park, MD. Burstein, J., Chodorow, M,. and Leacock ,C. (2003). Criterion Online Essay Evaluation : An Application for Automated Evaluation of Student Essays. Proceedings of the Fifteenth Annual Conference on Innovative Applications of Artificial Intelligence. Acapulco, Mexico. Burstein, J., Kukich, K., Wolff, S., Chi Lu., and Chodorow, M. (1998). Enriching Aautomated Essay Scoring Using Discourse Marking. Proceedings of the Workshop on Discourse Relations and Discourse Marking, Annual Meeting of the Association of Computational Linguistics. Montreal, Canada. Burstein, J., Kukich, K., Wolff, S., Chi Lu, and Chodorow, M. (1998). Computer Analysis of Essays. Proceedings of NCME Symposium on Automated Scoring. Educational Testing Service, Princeton NJ, Hunter College, New York City. 147 Burstein, J., Leacock, C., and Swartz, R. (2001). Automated Evaluation of Essay and Short Answer. In M. Danson (ED.), Proceedings of the Sixth International Computer Assisted Assessment Conference. Loughborough University, Loughborough, UK. Burstein, J., and Marcu, D. (2000). Toward Using Text Summarization for Essay-Based Feedback. Conferences TALN, Lausanne. Burstein, J., and Marcu, D. (2000). Benefits of Modularity in an Automated Essay Scoring System. Educational Testing Service, Princeton NJ. Burstein, J., Marcu, D., Andreyev, S., and Chodorow, M. (2001). Towards Automatic Classification of Discourse Elements in Essays. Meeting of the Association for Computational Linguistics. Burstein, J., Wolff, S., and Chi Lu (1999). Using Lexical Semantic Techniques To Classify Free-Responses. Kluwer Academic Press. Dordrecht, Netherlands. vol: 10. Burstein, J., Wolff, S., Chi Lu and Kaplan, R. M. (1997). An Automatic Scoring System for Advanced Placement Biology Essays. In Proceedings of the Fifth Conference on Applied Natural Language Processing. Washington, D.C. pp: 174-181. Burstein, J., and Wolska, M., (2003). Toward Evaluation of Writing Wtyle: Finding Overly Repetitive Word Use in Student Essays. Proceedings of the tenth conference on European chapter of the Association for Computational Linguistics. Budapest, Hungary. vol: 1. Christie, J. R. (1999). Automated Essay Marking for Both Style and Content. In M. Danson (Ed.), Proceedings of the Third Annual Computer Assisted Assessment Conference. Loughborough University, Loughborough, UK. 148 Christie, J. R. (2003). Automated Essay Marking for Content ~ does it work?. Proceedings of the 7th CAA Conference. Loughborough, Loughborough University. Chodorow, M., and Leacock, C. (2000). An Unsupervised Method for Detecting Grammatical Errors. Proceedings of the First Meeting of the North American Chapter of the Association for Computional Linguistics (ANLP-NAACL-2000). Morgan Kaufmann, San Francisco. pp: 140-147. Cooper, C.R. and Odell, L. (1978). Research on Composing: Points of Departure. Nat'l Council of Teachers of English. Urbana, Ill. Cucchiarelli, A., Faggioli, E., and Velardi, P. (2000). Will Very Large Corpora Play for Semantic Disambiguation the Role That Massive Computing Power is Playing for Other AI-hard Problems? 2nd. Conference on Language Resources and Evaluation (LREC). Athens, Greece. Deerwester, S. C., Dumais, S. T., Landauer, T. K., Furnas, G. W., and Harshman R. A. (1990). Indexing by Latent Semantic Analysis. Journal of the American Society for Information Science. 41(6). 391-407. De Oliveira, P. C. F., Ahmad, K., and Gillam, L.(2002). A financial News Summarization System Based On Lexical Cohesion. Proceedings of the International Conference on Terminology and Knowledge Enginneering. Nancy, France. Feldman, S. (1999). “NLP meet the Jaberwocky”, Online, Wilton. Fife, B.and Berger, C. (1996). Computer Assisted Concept Mapping and Analysis. Paper presented at the meeting of the The National Association for Research in Science Teaching. St. Louis. 149 Freedman, S. W. (1983). Student Characteristics and Essay Test Writing Performance. Research in the Teaching of English. vol: 17. pp: 313–324. Galescu, L., and Ringer, E. K. (1999). Augmenting Words With Linguistic Information For N-gram Language Models. Department of Computer Science, University of Rochester and NLP Group, Microsoft Research. Garmon, M., and Reutter, T. (1997). The Analysis of German Separable Prefix Verbs. Microsoft Natural Language Processing System. Gerdes, K., and Kahane, S. (2001). Word Order in German: A Formal Dependency Grammar Using a Topological Hierarchy. Proceedings of the Conference of the Association for Computational Linguistics (ACL-2001). Toulouse, France. Grondlund, N. E. (1985). Mesurement and evaluation in teaching. New York: Macmillan. Hamilton, R.J., Pringle, R. D., and Grant, P. M. (1992). Syntactic Techniques for Pattern Recognition on Sampled Data Signals. IEEE Proceedings-E. vol: 139. no. 2. Hearst, M. (2000). The Debate on Automated Essay Grading. IEEE Intelligent Systems. 15(5). 22-37. IEEE CS Press. Hedberg. S. R. (1999). Computers Scoring GMAT Essays? Impossible! Or is it?. IEEE Intelligent Systems. vol: 14. issue: 3. pp: 5-7. Heidorn, G. (1999). A Handbook of Natural Language Processing Techniques. Intelligent Writing Assistance. In: R. Dale, H. Moisl, and H. Somers (eds.). Marcel Dekker. 150 Honan, W. (1999). High Tech Comes to the Classroom: Machines that Grade Essay. New York Times. Hsien-Chin Liou. (1993). Investigation of Using Text-Critiquing Programs in a ProcessOriented Writing Class. CALICO Journal. vol: 10. no: 4. Humphrey, S. M., and Shneiderman, B. (1990). Abstract of Interest. ACM Press, New York, NW, USA. vol: 21. issue: 4: pp: 71-78. Jacobs, P. (2001). Natural Language Processing: A Brief History for Skeptics. Unisys World. Austin. Jerrams-Smith, J., Soh, V., and Callear D. (2001). Bridging Gaps in Computerized Assessment of Texts. Proceedings of the International Conference on Advanced Learning Technologies. 139-140. IEEE. Kalt, T. F., and Croft, W. B. (1996). A New Probabilistic Model of Text Classification And Retrieval. Technical Report IR-78. University of Massachusetts Center for Intelligent Information Retrieval. Kogut, D. J. (2002). Fuzzy Set Tagging. Institute of Computer Science, Warsaw University of Technology. CICLing 2002. LNCS 2276. pp: 260-263. Krippendorff, K. (1980). Content Analysis: An Introduction to Its Methodology. Sage Publication. Laham, D. and Foltz, P. W. (2000). The Intelligent Essay Assessor. In T. K. Landauer (Ed.), IEEE Intelligent Systems. Landauer, T. K., Foltz, P. W., and Laham D. (1998). An Introduction To Latent Semantic Analysis. Discourse Processes. 25. 259-284. 151 Larkey, L. S. (1998). Automated Essay Grading Using Text Categorized Techniques. In Porceedings of the 21st ACM/SIGIR (SIGIR-98). 90-96. ACM. Larkey, L. and Croft, W. B. (1996). Combining Classifiers in Text Categorization. Proceedings of SIGIR. 289-298. Leacock, C. (2004). Scoring Free-Responses Automatically: A Case Study of a LargeScale Assessment. Examens. Educational Testing Service. 1(3). Leacock, C. (2004). Statistical Analysis of Text in Educational Measurement. 7th International Conference one the Textual Dated Statistical Analysis. Belgium, pp. 35-41. Lewis, D. D. (1992). An Evaluation of Phrasal and Clustered Representations on A Text Categorization Task. In Fifteenth Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. pp 37–50. Liang, J., and Palmer, J. D. (1994). A Pattern Matching and Clustering Based Approach for Supporting Requirements Transformation. Center for Software Systems Engineering. George Mason University. Little, J. (2001). Computerized evaluation of essays. Term Paper, Expert Systems. Lukasiewicz, J. (1930). Philosophical remarks on many-valued systems of propositional logic. Reprinted in Selected Works, L. Borowski, ed. (1997). Studies in Logic and the Foundations of Mathematics. NorthHolland, Amsterdam. pp. 153-179. Mahir Publications, (1997). Koleksi Kertas UPSR Bahasa Malaysia.. Shah Alam: Mahir Publications Sdn. Bhd. 152 MacDonald, N. H, Frase, L. T., Gingrich, P. A., and Keenan, S. A. (1982). The Writer’s Workbench: Computer Aids for Text Analysis. IEEE Trans. Comm. Vol. COM30. No. 1. pp. 105-110. Mason, O. and Grove-Stephenson, I. (2002). Automated free text marking with paperless school. In M. Danson (Ed.), Proceedings of the Sixth Annual Computer Assisted Assessment Conference. Loughborough University, Loughborough, UK. McCallum, A., and Nigam, K. (1998). A Comparison of Event Models for Naive Bayes Text Classification. The AAAI-98 Workshop on “Learning for Text Categorization”. Mikko Koivisto and Kismat Sood (2004). Exact Bayesian Structure in Bayesian Networks. Journal of Machine Learning Research 5. 549-573. Milenova, B. L., Yarmus, J. S., and Campos, M. M. (2005). SVM in oracle database 10g: removing the barriers to widespread adoption of support vector machines. Proceedings of the 31st international conference on Very large data bases. Trondheim, Norway. pp. 1152-1163. Miltasakaki, E., and Kukich, K. (2000). Automated Evaluation of Coherence in Student Essays. Proceedings LREC-200, Linguistic Resources in Education Conf. Athens, Greece. Ming, P. Y., Mikhailov, A. A., and Kuan, T. L. (2000). Intelligent essay marking system. In C. Cheers (Ed.), Learners Together. NgeeANN Polythecnic, Singapore. Mitchell, T., Russel, T., Broomhead, P., and Aldrigde N. (2002). Towards robust computerized marking of free-text responses. In M. Danson (Ed.) Proceedings of the Sixth Annual Computer Assisted Assessment Conference. Loughborough University, Loughborough, UK. 153 Mohd. Isa Ab. Razak, (1988). Soalan Subjektif: Teknik Penggubalan dan Skema Pemarkahan. Kertas kerja. Maktab Perguruan Raja Melewar, Seremban. Mohd. Isa bin Abd. Razak. (2004). Esei Pedagogi Bahasa: Pemarkahan Karangan Umum dan Karangan UPSR. Esei Pedagogi Bahasa. Mokhtar Ismail. (1995). Penilaian di Bilik Darjah. Kuala Lumpur: Dewan Bahasa dan Pustaka. Negnevitsky, M. (2002). Artificial Intelligence: A guide to Intelligent Systems. AddisonWesley, Pearson Education. pp: 87-126. Nichols, P. (2005). Evidence for the Interpretation and Use of Scores from an Automated Essay Scorer. PEM Research Report 05-02. Nowson, S., Oberlander, J., and Gill, A.J. (2005). Weblogs, Genres and Individual Differences. In the proceedings of the 27th Annual Conference of the Cognitive Science Society. Stresa, Italy. Page, E. B. (1996). Grading Essay By Computer:Why The Controversy?. Handout for NCME Invited Symposium. Page, E. B. (1994). New Computer Grading Of Student Prose, Using Modern Concepts And Software. Journal of Experimental Education. 62(2). 127-142. Page, E. B., and Petersen. N. (1995). The Computer Moves Into Essay Grading: Updating The Ancient Test. Phi Delta Kappan. 561-565. Palmer, J., Williams. R., and Dreher H. (2002). Automated Essay Grading System Applied To A First Year University Subject-How Can We Do It Better. Proceedings of the Informing Science and IT Education (InSITE) Conference. Cork, Ireland. 1221-1229. 154 Paul, N. B., Susan, T. D., and Eric, H. (2003). Inductive Transfer For Text Classification Using Generalized Realibility Indicators. Proceedings of the ICML-2003 Workshop on The Continuum from Labeled to Unlabeled Data. Washigton DC. Perez, D. (2004). Automatic Evaluation of User' S Shorts Essays by Using Statistical and Shallow Natural Language Processing Techniques. Advanced Studies Diploma Work.Universidad Autonoma of Madrid. Raminah Haji Sabran, (1991). Penilaian dan Pengujian Bahasa Malaysia, Penerapannya pada Peringkat Sekolah Rendah. Kuala Lumpur: Dewan Bahasa dan Pustaka. Ratnaparkhi, A. (1996). A Maximum Entropy Part-of-Speech Tagger. In Proceedings of the Empirical Methods in Natural Language Processing Conference. University of Pennsylvania. Reid, D. B. (1979). An Algorithm for Tracking multiple Targets. IEEE Trans. Automat. Contr. vol: AC-24. pp: 843-854. Robert, M. L. (2000). Learning Syntactic Rules and Tags with Genetic Algorithms for Information Retrieval and Filtering: An Empirical Basis for Grammatical Rules. Information Processing and Management. 32(2). pp: 185-197. Rudner, L. M., and Gange P. (2001). An overview of three Aproaches to Scoring Written Essays by Computer. Assessment, Research and Evaluation, University of Maryland, College Park. vol: 7(26). Rudner, L. M., and Liang, T. (2002). Automated Essay Scoring Using Bayes’ Theorem. The Journal of Technology, Learning and Assessment, Technology and Assessment Study Collaborative, Lynch School of Education. Boston College. 1(2). 3-21. 155 Semire Dikli (2006). Automated Essay Scoring. Turkish Online Journal of Distance Education-TOJDE. vol: 7. num: 1. art: 5. Siegel, S., and Castellan, N. J. (1998). Nonparametric Statistics for the Behavioral Sciences. McGraw-Hill. Siti Zanariah Satari (2003). Multiple Linear Regression. Universiti Teknologi Malaysia: Tesis Sarjana Muda. Sullivan, W. G., and Daghestani, S F. (1997). Multivariate Analysis of Student Performance in Large Engineering Economy Classes. Proceedings ASEE Annual Conference and Exposition. Milwaukee, WI. Szancewic, S., Zheng, L., Nystrom, N., and Myers, A. C. (2001). Untrusted Hosts and Confidentiality: Secure Program Partitioning. Proceedings of the 18th ACM Symposium on Operating System Principles (SOSP). Computer Science Department. Cornell University. Thompson, C. (2001). Can Computers Understand The Meaning Of Words? Maybe, In The New On Latent Semantic Analysis. ROB Magazine. Tony, T. (2004). A Short-Answer Evaluation System. School of Computer Science and Software Engineering. Monash University. Valenti, S., Cucchiarelli, A., and Panti M. (2000). Web Based Assessment Of Student Learning. In A. Aggarwal (Ed.). Web-based Learning and Teaching Technologies, Opportunities and Challenges. 175-197. Idea Group Publishing. Valenti, S., Cucchiarelli, A., and Panti M. (2002). Computer Based Assessment Systems Evaluation Via The ISO9126 Quality Model. Journal of Information Technology Education. 1(3). 157-175. 156 Valenti, S., Neri, F., and Cucchiarelli, A. (2003). An Overview of Current Research on Automated Essay Grading. Journal of Information Technology Education. DIIGA – Universita’ Politecnica delle Marche. Ancona, Italy. vol: 2. Wei Fan. (2005). Research Track Papers: Systematic Data Selection To Mine ConceptDrifting Data Streams. Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining KDD '04. Seattle, WA, USA. Whittington, D. and Hunt, H. (1999). Approaches To The Computerized Assessment Of Free Text Responses. In M. Danson (Ed.). Proceedings of the Sixth International Computer Assissted Assessment Conference. Loughborough University, UK. pp: 207-219. Williams, R. (2001). Automated Essay Grading: An Evaluation Of Four Conceptual Models. In A. Hermann and M. M. Kulski (eds). Expanding Horizons in Teaching and Learning. Proceedings of the 10th Annual Teaching and Learning Forum, Perth: Curtin University of Technology. Yang, Y. (1997). An Evaluation Of Statistical Approaches To Text Categorization. Technical Report CMU-CS-97-127. School of Computer Science. Carnegie Mellon University. Yi-fang Brook Wu and Xin Chen (2005). Assessing Student Learning With Automated Text Processing Techniques, Journal of Asynchronous Learning Network. vol: 9, issue: 3. Zadeh, L. A. (1965). Fuzzy Sets. Information and Control. 8. 338-353. 157 Zhou, N. (2003). A Study on Automatic Ontology Mapping of Categorical Information. Department of Geography, Land Information and Computer Graphic Facility, University of Wisconsim – Madison. CONTOH DATA PENGUJIAN LAMPIRAN A 159 ESEI GRED A Esei 1 Pada minggu yang lalu, sekolah kami telah mengadakan satu temasya sukan tahunan. Temasya sukan ini telah diadakan di padang sekolah kami. Tujuannya adalah untuk memilih beberapa orang pelajar sebagai wakil sekolah dan meningkatkan prestasi murid. Seminggu sebelum temasya sukan ini, pelajar-pelajar diminta untuk membersihkan kawasan padang dan mendirikan khemah-khemah mengikut rumah sukan. Guru-guru wanita diminta untuk menyusun hadiah-hadiah seperti piala, pingat dan sijil mengikut kategori untuk para pelajar yang menjadi pemenang dalam sukan ini. Guruguru lelaki pula diminta untuk menyediakan alat-alat sukan. Mereka juga diminta untuk menghias khemah. Temasya sukan ini telah dirasmikan oleh Guru Besar Sekolah Kebangsaan Semambu iaitu Tuan Haji Mohd Tahir bin Abdul Hamik. Beberapa acara telah diadakan seperti acara lumba lari, lompat jauh, dan lain-lain lagi. Setiap pelajar menyokong ahli kumpulan mereka untuk memberi semangat supaya tidak mengalah kepada pihak lawan. Suasana menjadi riuh-rendah dengan sokongan para pelajar. Setelah selesai kesemua acara, Guru Besar diminta untuk menyampaikan hadiah kepada para pemenang. Beberapa orang murid telah diminta untuk naik ke pentas dan mengambil hadiah. Rumah Merah telah diisytiharkan sebagai juara antara rumah sukan. Selepas itu, semua pelajar dan guru ke kantin untuk menikmati juadah seperti nasi ayam, mi goreng dan lain-lain. Semua pelajar berselera menikmati juadah yang telah dihidangkan. Walaupun mereka penat tetapi mereka berpuas hati atas apa yang telah mereka lakukan di hari sukan itu. Saya berharap supaya sekolah ini mengadakan sukan tahunan yang lebih meriah pada tahun hadapan. Esei 2 Pada minggu yang lalu, Sekolah Kebangsaan Semambu telah mengadakan satu temasya sukan tahunan. Temasya itu diadakan di padang sekolah. Objektif utama temasya ini diadakan adalah untuk mencungkil bakat pelajar yang selama ini terpendam. Sehari sebelum temasya sukan diadakan, guru-guru telah mendirikan khemah untuk setiap rumah sukan. Para peserta juga telah diberikan latihan yang secukupnya. Murid-murid Tahun 6 juga telah membantu guru-guru untuk membalut hadiah. Temasya sukan ini dirasmikan oleh Guru Besar sekolah ini. Selepas itu, acara sukan pun bermula. Pelbagai acara yang menarik telah dipertandingkan. Antaranya acara lumba lari, lontar peluru, lompat jauh dan sebagainya. Acara penyampaian hadiah pula menyusul selepas itu. Guru Besar telah menyampaikan hadiah kepada para pemenang. Kebanyakan pemenang berasa gembira dan bangga di atas kejayaan masingmasing. Juara keseluruhan temasya sukan ialah Rumah Merah. Rumah Hijau pula telah mendapat tempat kedua. Rumah Biru dan Kuning masing-masing mendapat tempat ketiga dan keempat. Temasya sukan ini diakhiri dengan ucapan penutup oleh Guru Besar. Selepas itu, itu ibu bapa telah diberikan jamuan ringan di kantin. Mereka telah dijamu dengan berbagai-bagai juadah yang lazat. Guru Besar juga telah diberikan cenderamata sebagai tanda penghargaan. Selepas itu, ibubapa pulang ke rumah bersama anak masing-masing. Harapan saya ialah semoga temasya sukan seperti ini akan diadakan dengan meriah pada setiap tahun. 160 Esei 3 Pada minggu yang lalu, sekolah kami telah mengadakan satu temasya sukan tahunan di Padang Sekolah Kebangsaan Semambu. Acara sukan ini diadakan untuk mencungkil bakat para pelajar. Ia juga diadakan untuk memilih wakil dari kalangan pelajar dalam pertandingan sukan atau sebagainya. Beberapa hari sebelum tarikh peristiwa, semua guru bertungkus-lumus menyiapkan pentas, padang dan sebagainya. Di atas pentas guru-guru sibuk menghiaskan pentas dengan bunga, reben dan lainlain. Di padang pula, guru-guru dan murid-murid sibuk menghiaskan khemah bagi rumah sukan. Hari yang dinanti-nanti pula telah tiba, debaran peserta semakin kuat. Ramai ibu bapa hadir pada hari tersebut. Ada guru-guru sibuk menyiapkan peserta. Sementara setengah guru yang lain sibuk melayan tetamu. Akhirnya, acara yang dinanti telah tiba. Para tetamu memberikan tepukan gemuruh kepada semua para peserta. Pelbagai acara diadakan antaranya lumba lari, lompat jauh dan sebagainya. Keputusan yang telah ditunggu telah tiba. Pada tempat pertama, rumah sukan kuning telah mengambil takhta. Manakala tempat kedua, rumah sukan biru dan tempat ketiga pula rumah sukan hijau. Semua peserta bersorak kegembiraan. apabila guru mengumumkan keputusan tersebut. Sebelum para tetamu pulang, pihak sekolah telah mengadakan jamuan ringan. Pihak sekolah tertawa kecil apabila melihat semua tetamu makan dengan laju kerana lapar. Sebelum mereka pulang, pihak sekolah juga telah memberikan sedikit buah tangan sebagai tanda penghargaan. Kami berharap sekolah kami akan mengadakan sambutan yang lebih meriah dan lebih ramai tetamu yang hadir untuk menyaksikan acara sukan tersebut. Esei 4 Pada minggu yang lalu, Sekolah Kebangsaan Semambu telah mengadakan satu temasya sukan tahunan di padang sekolah. Objektif mengadakan temasya sukan tahunan ini adalah untuk memilih beberapa orang murid untuk dijadikan wakil sekolah. Seminggu sebelum temasya sukan tahunan diadakan, semua pelajar dan guru membuat persediaan. Persedian dibuat adalah untuk memastikan temasya sukan tahunan kali ini berjalan dengan lancar dalam suasana yang meriah. Beberapa persediaan yang dibuat oleh guru-guru dan para pelajar cuma mengambil masa selama 2-3 hari. Antaranya membungkus hadiah, mendirikan khemah, menghias khemah dan sebagainya. Surat jemputan juga diedarkan kepada ibubapa. Temasya sukan tahunan telah dirasmikan oleh Tuan Guru Besar Sekolah Kebangsaan Semambu iaitu Tuan Haji Muhammad Tahir Bin Abdul Hamid. Setelah selesai pembukaan temasya sukan tahunan, beberapa acara sukan diadakan. Antaranya lompat jauh, lontar peluru, lumba lari 4x100 meter dan sebagainya. Setelah selesai acara sukan tahunan, acara penyampaian hadiah telah diadakan. Tempat pertama dalam acara sukan tahunan telah dimenangi oleh pasukan rumah merah. Mereka telah mendapat sebuah piala dan hamper. Tempat kedua dimenangi oleh pasukan rumah hijau. Mereka mendapat sebuah piala dan hamper. Tempat ketiga dimenangi oleh pasukan rumah biru. Mereka mendapat sebuah hamper. Tempat keempat dimenangi oleh pasukan rumah kuning dan mereka mendapat sebuah hamper. Selepas selesai acara penyampaian hadiah, semua ibubapa, guru dan pelajar yang hadir dijemput ke kantin untuk meraikan jamuan ringan. Di kantin banyak makanan telah disediakan. Antaranya Nasi Ayam, kuih-muih, Nasi Minyak dan sebagainya. Orang ramai bersurai pada pukul 5.00 petang. Harapan saya ialah agar temasya sukan tahunan pada tahun hadapan lebih meriah berbanding tahun sebelumnya. 161 Esei 5 Pada minggu lalu, sekolah kami mengadakan temasya sukan tahunan. Kami mengadakan temasya sukan ini di padang sekolah. Tujuan temasya sukan ini diadakan ialah untuk mencungkil bakat dan juga untuk memilih wakil sekolah. Persedian awal, kami mendirikan khemah, membersihkan padang, dan guru perempuan membalut hadiah untuk para pemenang. Temasya ini dirasmikan oleh Guru Besar sekolah kami. Acara yang dijalankan sungguh menarik. Antaranya lumba lari, lompat jauh, lontar peluru dan sebagainya. Rumah hijau memenangi hadiah pertama, rumah merah memenangi hadiah kedua dan rumah biru memenangi hadiah ketiga. Selepas semua acara selesai, kami disediakan makanan ringan. Ramai murid letih setelah menjalankan semua acara. Kami harap sekolah kami akan mengadakan temasya sukan yang lebih meriah daripada tahun ini. 162 ESEI GRED B Esei 1 Pada minggu yang lalu, sekolah saya telah mengadakan satu temasya sukan tahunan di Stadium Darul Makmur Kuantan, Pahang. Tujuan mengadakan temasya ini ialah untuk menunjukkan bakat dan kebolehan para pelajar untuk dijadikan wakil sekolah. Persediaan telah dibuat sehari sebelum temasya diadakan. Antaranya ialah menjemput ibu bapa, Pegawai Pendidikan dan Guru Besar, memasang renda-renda berwarna-warni, dan menyediakan pakaian untuk perbarisan dan sebagainya. Persediaan telah dilakukan dengan sebaik mungkin dan perjalanan berjalan seperti yang dijanjikan. Perasmian telah diadakan dan dirasmikan oleh Pegawai Pendidikan Pahang dan acara berjalan lancar. Antara acara yang dipersembahkan ialah lari seratus meter, lari dalam guni dan perbarisan daripada rumah merah, kuning, biru, dan hijau. Keputusan yang dibuat oleh juri hakim adalah sangat adil. Rumah merah mendapat tempat pertama, hijau kedua, biru ketiga, dan kuning keempat. Jamuan besar-besaran telah diadakan. Jamuan tersebut telah dianjurkan oleh sebuah restoran yang terkenal di Pahang. Harapan saya semoga yang tidak berjaya akan meningkatkan usaha manakala yang berjaya lebih maju ke depan. Dan saya juga berharap agar sambutan temasya seperti ini akan diadakan lagi. Esei 2 Pada hari Sabtu yang lalu, sekolah kami mengadakan Hari Temasya. Temasya sukan ini berlangsung pada 23-4-2003. Tempat Temasya Sukan itu diadakan di padang sekolah. Banyak ibu bapa yang datang di situ. Mereka dan guru-guru duduk di khemah manakala rakanrakan saya dan saya beratur di padang sekolah. Kawan-kawan pun ada mengambil bahagian seperti,lompat tinggi, lompat jauh, lompat pagar, larian 200m, 100m, dan 400m dan lontar peluru. Seperti mereka juga, saya pun mengambil bahagian dalam 4x100m dan 100m. Di situ juga, ada pelbagai rumah seperti rumah biru, hijau, kuning, dan merah. Saya dan kawankawan saya, rumah biru. Acara telah berlangsung, pada puul 8.30 pagi. Acara itu dirasmikan oleh Perdana Menteri, Dr. Dato’ Sri Abdullah Badawi. Temasya sukan dimulakan. Dalam masa 4 jam, acara itu dihabiskan. Saya mendapat tempat pertama dalam larian 4x100m dan 100m. Kawan-kawan saya mendapat tempat kedua. Saya menjadi olahragawati dan seorang budak lelaki bernama Stephen menjadi olahragawan. Rumah Biru telah menjadi johan. Perdana Menteri memberi piala untuk kami. Sekarang, saya mempunyai dua piala dalam pertandingan itu. Akhirnya, majlis bersurai. Walaupun kami letih, tetapi kami berasa sungguh gembira. 163 Esei 3 Pada 15 Februari 2004 yang lalu, Sekolah Kebangsaan Galing telah mengadakan temasya sukan tahunan. Temasya sukan itu bermula pada pukul 10.00 pagi. Sebelum itu, pelbagai persiapan telah diadakan. Murid yang menyertai temasya sukan itu, giat berlatih. Temasya sukan itu diadakan di padang sekolah. Di padang sekolah, khemah didirikan. Bendera yang berwarna-warni turut dipasang di setiap penjuru padang. Temasya sukan itu, dirasmikan oleh Guru Besar Sekolah Kebangsaan Galing. Semasa muridmurid sedang giat bertanding untuk menjadi juara, Guru Besar sekolah berkenaan memberikan semangat, dengan bertepuk tangan dan melaungkan kata-kata semangat kepada mereka. Temasya sukan itu berakhir pada pukul 2.00 petang. Rumah sukan yang menjadi juara, mendapat piala dan hamper sumbangan Persatuan Ibu Bapa dan Guru. Temasya sukan tahunan pada tahun ini disambut dengan meriah sekali. Esei 4 Pada 11 Februari yang lalu, Sekolah Kebangsaan Galing telah mengadakan satu temasya sukan tahunan. 70 murid terlibat dalam sukan ini. Cikgu Wan Salman adalah pembuka acara tahun ini. Acara bermula pada pukul 9.00 pagi. Beberapa das tembakan dilepaskan ke atas langit. Majlis ini dirasmikan oleh Guru Besar Sekolah Kebangsaan Galing. Murid-murid dibahagikan kepada 4 kumpulan iaitu Rumah Hijau, Rumah Merah, Rumah Biru dan Rumah Kuning. Terdapat pelbagai acara seperti lontar peluru, lompat jauh, lompat tinggi, larian 100 meter dan juga larian 200 meter. Pada pukul 11.00 pagi, keputusan diumumkan. Rumah biru berjaya menjadi johan manakala Rumah Kuning berjaya menjadi naib johan. Tepukan Gemuruh telah diberikan oleh para penonton. Pada pukul 11.30 pagi, semua orang dihidangkan sedikit jamuan ringan. Majlis berakhir pada pukul 12.30 tengah hari. Walaupun berasa letih tetapi semua orang berasa gembira. Esei 5 Pada minggu lepas, sekolah saya telah mengadakan satu Temasya Sukan Tahunan pada. Sekolah saya telah mengadakan Temasya Sukan Tahunan itu di De Rhu Beach Resort. Temasya sukan itu dirasmikan oleh Pengerusi PIBG. Yang hadir di situ ialah ibu bapa dan guruguru. Temasya sukan itu bermula pada pukul 8.30 pagi. Yang memasuki acara itu ialah murid tahap 1 dan tahap 2 sahaja. Ibu bapa turut hadir untuk memberi dorongan untuk menang. Antara acara yang disediakan ialah acara lumba lari, meniup belon, dan sebagainya. Rumah merah, biru, hijau dan kuning memasuki acara lumba lari iaitu murid tahap 2. 164 Temasya sukan tahunan itu berhenti seketika untuk menjamu makanan ringan. Kemudian, setelah habis menjamu makanan, temasya sukan itu disambung semula. Acara lumba lari bagi tahap 2 dan 1 memenangi hadiah di tempat pertama. Ibu bapa turut gembira. Murid tahap1 dan 2 yaiaitu Rumah Merah, Hijau, Kuning dan biru. Acara temasya itu tamat pada pukul 12.30 pagi. 165 ESEI GRED C Esei 1 Pada hari Sabtu yang lepas, Sekolah Kebangsaan Galing telah mengadakan Satu Temasya Sukan Tahunan Stadium Darul Makmur. Sukan itu dirasmikan oleh Yang Dipertuan Agong Sultan Haji Ahmad Shah. Disana ramai orang yang datang terutamanya ialah ibu bapa, murid sekolah, guru-guru dan orang awam yang melihat pertandingan itu. Acara-acara yang terdapat disana ialah lompat tinggi, lari 100 meter, tarik tali san sebagainya. Sorakkan yang paling gemuruh sekali ialah acara memanjat tiang licin. Acara bagi sekolah saya ialah lari 200 meter lelaki dan lompat pagar. Disana terdapat banyak sekolah yang bertanding. Antaranya ialah Sek. Alor Akar, S.K Air Putih, S.K Pet Chai dan sebagainya. Acara bagi sekolah saya ialah lari 100 meter lelaki. Disana terdapat ramai orang tinggi. Sekolah saya menang dalam acara lari 100 meter perempuan. Sekolah saya mendapat tempat kedua. Esei 2 Nama saya Nur Farhana Nadsrihan. Saya adalah selaku setiausaha kelab sukan. Pada hari Sabtu lepas iaitu 14.2.2004 adalah Hari Temasya Sukan. Pada pukul 8.00 pagi, ucapan perasmian dimulakan dengan ucapan Tuan Guru Besar, dan seterusnya ialah Puan Halimaton. Semua murid dikehendaki berhimpun di tapak perhimpunan. Pada hari itu juga, pihak sekolah menjemput seorang lelaki yang amat penting. Pada hari itu, semua murid dan guru dikehendaki memakai baju Geep dan baju koko. Selepas upacara perasmian, murid-murid dilepaskan ke padang untuk memulakan acara sukan. Acara itu dimulakan dengan lumba lari, bola zig-zag, dan acara berikutnya. Guru-guru juga dikehendaki membuat satu senaman setelah tamat acara sukan. Senaman itu adalah untuk penghabisan acara. Pada pukul 10.00, murid-murid dilepaskan untuk makan dan minum. Setelah pukul 11.00 muridmurid dikehendaki pulang ke rumah. Esei 3 Pada minggu lepas, Sekolah Kebangsaan Galing telah mengadakan satu Temasya Sukan di Stadium darul makmur. Pada masa itu, Guru Besar telah merasmikan upacara tersebut. Beberapa orang murid telah menyertai sukan tersebut. Murid lelaki ada 12 orang menyertai pelarian 4x100 meter, manakala murid perempuan 10 orang menyertai larian berpagar. Pada mulanya, penari-penari di situ memulakan tarianya. Ramai ibu bapa menyaksikannya dengan penuh semangat. Ramai orang datang dan sangat bising sekali. Setelah selesai tariannya, para pelari telah bersedia untuk berlumba dengan murid sekolah lain. Setelah selesai perlumbaan, semua murid dan guru-guru berehat dahulu. Sudah beberapa minit penyelaras sukan telah memberi tahu rehatnya sudah habis. Semua orang murid telah menukar pakaiannya. 166 Penyelaras sukan telah memanggil 10 orang pemenang dari Sekolah Kebangsaan Galing. Pemenang tersebut telah mendapat pingat gangsa dan pingat emas. Pada masa itu, tamatlah temasya sukan itu. Esei 4 Pada hari Ahad, sekolah saya telah mengadakan Satu Temasya Sukan Tahunan. Tarikh Temasya itu diadakan pada 15 Februari 2004. Tempat yang ditetapkan ialah di Stadium Darul Makmur Sukan itu dirasmikan oleh yang dipertuan agong Sultan Haji Ahmad Shah. Disana ramai orang yang datang terutamanya ialah Ibubapa, murid-murid sekolah, guru-guru dan orang awam yang melihat pertandingan itu. Acara-acara yang terdapat disana ialah lompat tinggi, lompat jauh, lari 100 meter, tarik tali dan sebagainya. Sorakkan yang paling gemuruh sekali ialah acara memanjat tiang yang licin. Acara bagi sekolah saya ialah lari 4x100 meter lelaki dan perempuan. Di sana banyak muridmurid dari sekolah lain seperti S.K baluk baru, S.K Tok Sira, S.K Air Putih, S.K Sentomes, S.K Galing, S.K Pei Chai dan sebagainya. Acara bagi saya ialah 4x100 meter lelaki. Di sana terdapat ramai yang yang tinggi. Sekolah saya menang dalam acara 4x100 perempuan dan lelaki. Sekolah saya mendapat tempat ke Dua dalam Sukan Tahunan ini. Acara Sukan Tahunan itu telah pun tamat. Sekolah saya menjadikan naik johan. Tiba di sekolah semua orang letih dan penat. Semua murid boleh berehat kerana amat penat. Esei 5 Pada minggu yang lalu, sekolah saya telah mengadakan satu temaya sukan tahunan. Guru-guru telah mengatur acara sukan. Antaranya ialah lumba lari, lompat tinggi, lompat jauh, badminton, dan banyak lagi. Kebanyakan murid memasuki lumba lari dan badminton. Pelbagai juadah yang disediakan secara percuma. Acara seperti lompat tinggi atau lumba lari bermula pada pukul 9.30 pagi. Mereka semua akan berehat pada pukul 12.40 tengahari. Murid-murid sungguh bersemangat untuk menjalani aktiviti-aktiviti tersebut. Semasa berehat, mereka semua berasa berdebar-debar. Kini, mereka berasa sangat letih. Selepas itu, acara penyampaian hadiah baru bermula. Hadiah-hadiah ini hanya dilayak oleh mereka yang berjaya mendapat tempat pertama, kedua, dan ketiga. Acara tamat pada pukul 2.00 petang. Murid-murid balik ke rumah masing-masing dengan kepenatan tetapi gembira. 167 ESEI GRED D Esei 1 Pada 14 Jan 2004 yang lalu Sekolah kami mengadaka temasnya sukan tahunan, kami berlawan rumah-rumah sukan seperti rumah kuning rumah hijau rumah biru dan rumah merah. Kami membuat acara lompat tinggi lompat jauh lumbalari 100 meter dan sebagainya ibubapa saya pun pergi menengok saya membuat acara lumbalari 100 meter Ibu bapa saya menyokong saya berlari sekuat-kuat hati Saya mendapat tempat yang pertama acara ini dibuat tahun 4, 5, dan 6 Saya pulang dengan gembira. Esei 2 14 Oktober 2002 Sekolah Kebangsaan Galing telah mengadakan temasya upacara Sukan Tahunan minggu yang lalu. Setiausaha Kelab Sukan. Sukan itu diadakan di Stadium shah alam. Pada pukul 7.56 hingga 3.45 upacara yang diadakan ialah lumba lari, lumba beten, lompat tinggi, lompat jauh dan sebagainya. Di sana ramai orang memasuki upacara lumba lari. Sambutan yang amat riuh-rendah saya memasuki acara lompat tinggi. Rakan-rakan saya memasuki pelbagai bagai upacara lompat tinggi di adakan selepas ini. Tibatiba ada seorang murid yang telah jatut di upacara lumba lari. Ramai orang yang datang dekat untuk melihat budak yang jatuh itu. budak itu di bawa ke hospital dan upacara itu di teruskan Saya telah mendapa tempat kedua. pada pukul 2.00 penyampaian hadiah. Selepas penyampaian hadiah kami mendapat makanan free dan minuman. Esei 3 Pada minggu yang lalu sekolah kami telah mengadakan sukan tahunan di stadium Pahang. Kami memasuki semua aktiviti yang akan dijalankan. Aktiviti bagi rumah biru, merah, kuning dan hijau adalah sama sahaja. Bagi kecantikan rumah dimenagi oleh rumah biru bagi johan manakala bagi tempat 2 rumah merah bagi ke 3 kuning bagi keempat hijau. Bagi olahragawan dan olahragawati di menangi oleh rumah biru dan merah. Pada penhujung aktiviti ialah pennyampaian hadiah. Pemenang bagi lumba lari x100 meter ialah Naim, dari rumah biru. Bagi lumpat tinggi pula dimenangi oleh Harifah dari rumah biru. Bagi Lontar peluru dimenangi oleh Diana dari rumah Kuning dan bagi lari x400 meter dimenangi oleh Ijan dari rumah Hijau. Bagi pemenang seluruhnya ialah rumah biru. Sukan berjalan dengan lancar. 168 Esei 4 Pada hari Sabtu 14.2.2004 yang telah mengadakan Sukan Tahunan bertempat di Stadium Darul Makmur. Antara perlawanan Sekolah Kebangsaan Galing dan Sekolah Kebangsaan Teruntum. Pertandingan akan bermula dari 7.00 pagi hingga 12.00 petang. Pertandingan pun bermula dan orang ramai mula bersorak. Pertandingan itu ialah 100x4km, 500x4km dan 1000x4km. 100x4km untuk kategori perempuan. Tuan Guru Besar Sekolah Kebangsaan Galing dan Sekolah Kebangsaan Teruntum juga bersorak bagi sekolah mereka. Bagi murid Sekolah Kebangsaan Galing telah memecut jauh. Akhirnya murid Sekolah Kebangsaan Galing menang dan olahragawan ialah Mohd Khalid dan olahragawati ialah Fatimah bte Abdul Rahman. Selepas diakhiri pemenang, persembahan pun bermula. Guru Besar Sekolah Kebangsaan Galing dan guru-guru sangat gembira. Esei 5 Rabu, 11 Febuari 2004 Sekolah Kebangsaan Semambu telah mengadakan sukan tahunan. Pada tahun ini ia diadakan di Stadium Darul Makmur. Ramai peserta mengambil bahagian. Ramai penyokong yang pergi menyaksikan sukan itu. Penyokong-penyokong terdiri daripada rumah merah, hijau, kuning dan biru. Acara yang diadakan adalah lompat jauh, lumba lari, lontar peluru dan lain-lain. Banyak gerai dibuka untuk peserta. Acara lumba lari yang paling menarik. Dalam acara lompat jauh kurang peserta yang mengambil bahagian. Acara lontar peluru orang besar sahaja yang mengambil bahagian. Acara tambahan ialah perbarisan. perbarisan terdiri daripada rumah merah, hijau, kuning dan biru. Perbarisan unit beruniform pun ada. Perbarisan unit beruniform terdiri dariPada Pengakap, PbSm, Puteri Islam dan kedet remaja sekolah. Perbarisan yang paling baik adan kedet remaja sekolah. Peserta yang mengambil bahagian akan diberi pingat. Pingat yang disediakan ialah emas, perat, gangsa. Peserta pertama mendapat pingat emas, kedua perak dan ketiga gangsa. Pemenang pelumba lari nombor satu mendapat pingat emas. Pemenang saguhhati akan diberikan hamper. Bagi perbarisan juga mendapat hamper. Pemenang pertama mendapat pingat emas dan hamper. Kesudahannya rumah merah mendapat tempat pertama. 169 ESEI GRED E Esei 1 Pada Minggu lepas, Sekolah Semambu telah mengadakan satu tewasya sukan tahunan kali – 11. Acara berlangsung di Stadium kuantan semua parah peserta mesti datang awal kerana upacara ini akan Berlangsung pukul : 2.00 tengah hari. Banyak acara dipertandingan seperti Lompat tinggi, Lari 100 meter, Lonta peluru dan Lain-Lain lagi. Rumah yang bertanding ialah rumah Biru, rumah kuning, rumah hijau dan rumah merah. Kesemua rumah ini akan bertanding 30 minit lagi, Semua ibu bapa boleh datang untuk mentengokan acara ini. Esei 2 Pada minggu yang lalu sekolah kami telah mengadakan sukan tahunan pada minggu yang lalu. Sekolah kami telah melawan rumah-rumah. Iyatu rumah merah, kuning, biru, hijau. Iyatu pada hari rabu pada 19-Mei-2003. rumah merah, kuning, biru, hijau telah melawan lompat jauh iyatu rumah merah telah menang acara lompat jauh kedua kuning, ketiga hijau, keempat biru. acara lumber lari iyatu rumah biru telah menang kedua merah ketiga hijau keempat kuning. Esei 3 Sekolah galing mengadakan Sukan tahunan Pada 11 Februari 2004. Tamasya diadakan di sadium darul makmur. Di rasmikan oleh Guru besar Sekolah Galing menberi nasihat rajin dan Berjaya. Acara dimulai dengan perbarisan dan bersemangat berwarna warni. acara diPertandingkan ialah – 100m, 200m, 4x100, dan lompat jauh dan lompat tinggi. Hadiah disampaikan oleh Guru Besar Sekolah Galing menberi Sukaneka untuk tahun 1,2 dan 3 bermain galat tayar dan berlari dalam guni hadiah disampaikan oleh guru besar Sekolah Galing untuk memberi hadiah kepada Rumah biru. Tamat pada pukul 1.00 petang 170 Esei 4 Sabtu, 23/3/2004 - Pada minggu yang lalu Sekolah Kebangsaan Semambu mengadakan satu temasya sukan yang meriah. Ibu bapa dijemput memasuki stadium untuk memberi sokogan kepada anak mereka. Semua pelumba lari bersedia untuk berlari ke karisan penamamat apabila satu das tembakan di lepaskan para pelari bersemangat lari dan rumah biru memegi upacara 100 meter. Pada upacara kedua para pelari rumah biru, hijau, kuning dan merah turut serata untuk memengi pingat emas apabila satu das tembakan para pelari berkejar-kejar dan belumba untuk memenagi pinggat emas tetapi pada acara 200 meter rumah hijau telah menang. Pada upacara, yang ketiga rumah biru, rumah hijau, rumah kuning dan rumah merah akan berlari bila satu das tembakan dilepaskan di udara para pelari memecut ke hadapan memberi beton kepada kawan selepas itu para pelari membawa beton untuk menuju ke garisan penamat kali ini rumah biru menang lagi. Akhir sekali hadiah akan di sampaikan oleh tuan guru besar sekolah kebangsaan semambu kepada murid yang memenagi hadih dan guru besar megucup kan tahniah. Esei 5 Pada bulan 18 Mach di sekolah Kebangsaan galing mengadakan temasya sukan tahunan Sukan itu diadakan di Padang Sekolah Kebangsaan Sukan itu mula pada pukul 8.00 pagi persete-persete itu sudah bersedia sebelum acara di mulakan. Tuan guru besar menasihati kepada persete-persete acara sudah bermula. Acara mula pertama lumba lari 100km banyak persete selepas mula sukan kedua lompat tinggi bermula banyak orang menang selepas itu mula sukan ketiga sukan lompat jauh banyak orang bermain lompat jauh rumah hijau sagat bermain dengan baik perseta kumpulan hijau Aharinya guru besar memberi hadiah aharinya kumpulan hijau menang kumpulan-kumpulan lain mendapat hadia sahaya CONTOH DATA LATIHAN LAMPIRAN B 172 Fail ‘DataTrainF6-1-A1.dat’: "pada" "minggu" "lalu" "sekolah" "kami" "telah" "mengadakan" "temasya" "yang" "kali" Fail ‘DataTrainF6-1-A2.dat’: "mengadakan" "pada" "telah" "yang" "lalu" "temasya" "minggu" "satu" "sekolah" "tarikh" "kami" "kali" "bagi" "iaitu" "persatuan" Fail ‘DataTrainF6-1-A3.dat’: "mengadakan" "pada" "telah" "yang" "lalu" "temasya" "minggu" "satu" "sekolah" "tarikh" "kami" "kali" 173 "bagi" "iaitu" "persatuan" Fail ‘DataTrainF6-2-A2.dat’: "mengadakan" "pada" "telah" "yang" "lalu" "temasya" "minggu" "satu" "sekolah" "tarikh" "kami" "kali" "bagi" "iaitu" "persatuan" Fail ‘DataTrainF6-2-A3.dat’: "di" "diadakan" "tempat" "temasya" "sekolah" "ini" "telah" "kami" "waktu" "acara" "mula" "tarikh" "dan" Fail ‘DataTrainF6-3-A3.dat’: "tujuan" "kttunjuk" "temasya" "diadakan" 174 "penyebab" "sebab" "adalah" "kthubung" "sekolah" "orang" "para" "dalam" "bidang" "kepada" "kalangan" "juga" "utama" "keadaan" "terpendam" "beberapa" "boleh" "datang" "hari" "ada" "sebagai" "selama" "segala" "otot" "baru" "sebagainya" "lebih" "mendalam" "agar" "diri" "persatuan" "berlatih" "merawat" "luka" "sakit" "menyaksikan" "dua" "daerah" "dari" "anak" "belajar" "sungguh" "sahaja" "kokurikulum" 175 Fail ‘DataTrainF6-4-A2.dat’: "khubung" "knama" "temasya" "kkerja" "untuk" "waktu" "objek" "kbilangan" "sebagainya" "kawal" "ialah" "pula" "persediaan" "jenis_acara" "kttunjuk" "penjodohbil" "seperti" "tempat" "perlu" "acara" "ada" "tempoh" "karah" "kpenguat" "ksifat" "sekeliling" "kumpulan" "kganti" "jauh" Fail ‘DataTrainF6-4-A3.dat’: "khubung" "knama" "temasya" "waktu" "kkerja" "untuk" "kawal" "objek" "sebagainya" "kbilangan" "persediaan" "pula" 176 "kttunjuk" "tempat" "ialah" "seperti" "kpenguat" "tempoh" "ada" "karah" "perlu" "ksifat" "sekeliling" "kganti" "penjodohbil" "jenis_acara" Fail ‘DataTrainF6-5-A2.dat’: "untuk" "rasmi" "temasya" "kttunjuk" "waktu" "acara" "objek" "knama" "khubung" "kawal" "kganti" "jam" "ialah" "kkerja" "tempoh" "pula" "ksifat" "peristiwa" Fail ‘DataTrainF6-5-A3.dat’: "untuk" "rasmi" "temasya" "waktu" "kttunjuk" "khubung" "acara" 177 "knama" "objek" "kganti" "kkerja" "kawal" "ialah" "jam" "kedudukan" "ksifat" "tempoh" "kbilangan" "pula" "peristiwa" Fail ‘DataTrainF6-6-A2.dat’: "hadirin" "khubung" "ramai" "hadir" "ktunjuk" "tujuan" "di" "peristiwa" "knama" "kkerja" "kpenguat" "kganti" "kbilangan" "ialah" "kawal" "kpenerang" "tempoh" "kkala" "masa" "termasuklah" "ksetuju" Fail ‘DataTrainF6-6-A3.dat’: "hadirin" "ramai" "hadir" "khubung" "di" 178 "ktunjuk" "peristiwa" "tujuan" "kkerja" "kpenguat" "tempoh" "kganti" "knama" "kbilangan" "ialah" "kkala" "masa" "termasuklah" "ksetuju" "kawal" "kpenerang" "ksendi" Fail ‘DataTrainF6-7-A2.dat’: "ksifat" "hadirin" "khubung" "dengan" "jamu" "ksendi" "tempoh" "jamuan" "kbilangan" "knama" "ktunjuk" "waktu" "kkerja" "peristiwa" "ktugas" "kganti" "kpenegas" "jemput" "karah" "pula" "secara" Fail ‘DataTrainF6-7-A3.dat’: "ksifat" 179 "hadirin" "khubung" "tempoh" "ksendi" "jamu" "dengan" "ktunjuk" "jamuan" "knama" "kbilangan" "waktu" "kkerja" "peristiwa" "ktugas" "karah" "kganti" "kpenegas" "perlu" "pula" Fail ‘DataTrainF6-8-A2.dat’: "jenis_acara" "khubung" "acara" "seperti" "pelbagai" "kpenegas" "sebagainya" "ksendi" "diadakan" "terdapat" "knama" "ktunjuk" "telah" "kpemeri" "kkerja" "termasuklah" Fail ‘DataTrainF6-8-A3.dat’: "khubung" "acara" "jenis_acara" "pelbagai" 180 "seperti" "ksendi" "diadakan" "knama" "kpenegas" "terdapat" "telah" "ktunjuk" "tahun_pelajar" "tujuan_temasya" "kbilangan" "temasya" "kpemeri" Fail ‘DataTrainF6-9-A2.dat’: "rumah_sukan" "knama" "ialah" "telah" "juara" "temasya" "diisytiharkan" "khubung" "oleh" "ksendi" "kkerja" "kbilangan" "ktugas" "markah" "karah" "ktunjuk" "sebagai" "ksifat" "kganti" "kpenguat" Fail ‘DataTrainF6-9-A3.dat’: "rumah_sukan" "knama" "ialah" "telah" "juara" "temasya" 181 "diisytiharkan" "khubung" "oleh" "ksendi" "kkerja" "kbilangan" "ktugas" "markah" "karah" "ktunjuk" "sebagai" "ksifat" "kganti" "kpenguat" Fail ‘DataTrainF6-10-A1.dat’: "sukan" "tahun" "ksendi" "ktunjuk" "berharap" "lebih" "saya" "baik" "pada" "yang" "mengadakan" "kpenegas" "agar" "sekolah" "khubung" "hadapan" "karah" "ktugas" "ialah" "knama" "kbilangan" "tetamu" "hadir" "kkerja" "kpenguat" "ksifat" Fail ‘DataTrainF6-10-A2.dat’: 182 "sukan" "ksendi" "tahun" "ktunjuk" "lebih" "saya" "berharap" "yang" "baik" "pada" "mengadakan" "kpenegas" "agar" "sekolah" "karah" "khubung" "hadapan" "ktugas" "ialah" "knama" "kbilangan" "tetamu" "hadir" "kkerja" "knafi" "kpenguat" "ksifat" Fail ‘DataTrainF6-10-A3.dat’: "sukan" "ksendi" "tahun" "ktunjuk" "lebih" "saya" "berharap" "yang" "baik" "pada" "mengadakan" "kpenegas" "agar" "sekolah" "karah" 183 "khubung" "hadapan" "ktugas" "ialah" "knama" "kbilangan" "tetamu" "hadir" "kkerja" "knafi" "kpenguat" "ksifat" SKEMA PENILAIAN ESEI UPSR LAMPIRAN C 185 Pemberian Markah Setelah membaca karangan itu sekali lalu, tetapkan peringkat yang sesuai berdasarkan peringkat-peringkat di bawah ini. Peringkat A (75--100 markah) Takrif terhadap tajuk karangan yang dipilih tepat. Bahasa lancar dan bersih daripada kesalahan tatabahasa: struktur ayat, imbuhan, perenggan, tanda baca, peribahasa dan lainlain. Susuk ayat beragam dan penggunaan perbendaharaan katanya luas dan tepat. Isinya cukup dan berkembang, lengkap dengan contoh-contoh yang sesuai. Pengolahannya sangat menarik dan berkesan. Hujah-hujahnya sangat logik dan memperlihatkan ciri-ciri kematangan fikiran yang tinggi. Peringkat B (60--74 markah) Takrif terhadap tajuk karangan yang dipilih masih lagi tepat. Bahasa memuaskan. Keragaman susuk ayat kurang sedikit. Perbendaharaan katanya sederhana. Isinya cukup dan pengolahannya agak menarik. Terdapat juga ciri-ciri kematangan fikiran dalam penulisannya. Peringkat C (40--59 markah) Takrif terhadap tajuk karangan yang dipilih kurang tepat. Ada kesalahan tatabahasa tetapi dapat dimaafkan. Tidak menunjukkan keanekaragaman susuk ayat. Perbendaharaan katanya terhad, mudah dan kurang tepat. Isinya kurang: ada yang cocok, ada yang tidak sesuai. Pengolahannya kadang kala kabur. Peringkat D (20--39 markah) Tajuk karangan kurang difahami. Terdapat kesilapan tatabahasa yang tidak boleh dimaafkan. Susunan bahasanya membayangkan penguasaan bahasa yang kurang mantap. Perbendaharaan katanya tidak tepat. Pengolahan dan penyusunannya agak lemah dan tidak teratur. Isinya sipi. Peringkat E (1--19 markah) Tajuk karangan tidak difahami langsung. Penguasaan bahasanya lemah. Struktur ayat berkecamuk. Olahannya mengelirukan dan sukar difahami. Perbendaharaan katanya salah. Isinya terpesong. OLAHAN SKALA PANDUAN MARKAH GAYA LAMPIRAN D 187 TEKNIK ELEKTIK Teknik Global 30 Mata untuk Gaya Olahan Bagi kesalahan ayat, frasa dan perkataan: tandakan dengan garisan di bawah kesalahan berkenaan. Bagi kesalahan isi, tandakan dengan kurungan. Bagi kesalahan ejaan: tandakan dengan satu garis miring ke kanan (back slash). Bagi kesalahan ejaan yang sama, tandakan dengan dua garis miring ke kanan. Bagi kesalahan tanda bacaan: tandakan dengan bulatan. Potong ½ markah bagi tiap-tiap kesalahan ejaan. Markah tidak dipotong bagi kesalahan yang berulang (dua palang). Potongan maksimum kesalahan ejaan ialah dua markah. Tulis markah yang telah dipertimbangkan di sebelah kanan bahagian bawah karangan seperti contoh di bawah ini: Peringkat A (25--30 markah) Takrif terhadap tajuk esei tepat dan bahasa lancar. Tiada kesalahan tatabahasa. Susuk ayat beragam. Penggunaan perbendaharaan katanya luas dan tepat. Pengolahannya sangat menarik dan berkesan. Hujah-hujahnya sangat lojis dan memperlihatkan ciri-ciri kematangan fikiran yang tinggi. Peringkat B (19--24 markah) Takrif terhadap tajuk esei masih lagi tepat. Bahasanya memuaskan. Keragaman susuk ayat kurang sedikit. Perbendaharaan katanya agak sederhana. Pengolahannya agak menarik. Terdapat juga ciri-ciri kematangan fikiran dalam penulisannya. Peringkat C (13--18 markah) Takrif terhadap tajuk esei kurang tepat. Terdapat kesalahan tatabahasa--dapat dimaafkan. Tidak menunjukkan keanekaragaman susuk ayat. Perbendaharaan katanya terhad, mudah dan kurang tepat. Pengolahannya kadang kala kabur. Peringkat D (7--12 markah) Tajuk esei kurang difahami. Terdapat kesilapan tatabahasa yang tidak boleh dimaafkan. Susunan bahasanya membayangkan penguasaan bahasa yang kurang cekap. Perbendaharaan katanya tidak tepat. Pengolahan dan penyusunannya agak lemah dan kurang teratur. Peringkat E (1--6 markah) Tajuk esei tidak difahami langsung. Penguasaan bahasanya lemah. Struktur ayat berkecamuk. Olahannya mengelirukan dan sukar difahami. Perbendaharaan katanya salah. UNTUK PENILAIAN ESEI SENARAI KESELURUHAN CIRI LAMPIRAN E 189 Tatabahasa Perbendaharaan Kata Gaya fragmen ayat terlalu banyak (run-on) ayat yang berbelit kesesuaian subjek-kata kerja ralat kata nama ralat kata ganti nama ralat kata milik ralat atau tertinggal perkataan pengesahan (proofread this) ralat sususan kata kerja kata kerja bantu klausa subordinat (kerja) klausa relatif bilangan klausa pelengkap bilangan klausa subordinat bilangan klausa infinitif kewujudan kata kerja bantu bilangan kata yang tidak dikenali bilangan ayat ringkas bilangan ayat sederhana bilangan ayat kompleks nisbah ayat ringkas nisbah ayat sederhana nisbah ayat kompleks jenis klausa hubung salah artikel tertinggal artikel perkataan mengelirukan bentuk perkataan yang salah ralat perbandingan ralat kata hadapan bentuk perkataan atau kata nama yang tak-piawai ralat penggunaan kata penggunaan kata kerja bantu ejaan penggunaan huruf besar bagi kata nama dengan tepat tertinggal huruf besar bagi huruf pertama dalam ayat ralat imbuhan tertinggal tanda baca tertinggal apostrophe tertinggal koma ralat tanda sengkang kata ganda (gabung kata) kata majmuk kata pendua 190 Struktur Ayat Oganisasi & Pembangunan Kekompleksan Leksikal Olahan Panjang esei perkataan berulang kata atau frasa yang tidak sesuai terlalu banyak ayat bermula dengan kata hubung yang sama terlalu banyak ayat pendek terlalu banyak ayat panjang ragam pasif purata panjang ayat ralat tipografi (gaya, bentuk, susunan, rupa) elemen hujahan purata panjang elemen hujahan (AEL) bilangan perenggan permulaan argumen: klausa pelengkap pembangunan argumen: kata tanya retorik pembangunan argumen: kata pembuktian jenis/token peringkat perbendaharaan kata purata panjang perkataan (AWL) sisihan piawai panjang perkataan kandungan esei (EC) kandungan argument (AC) panjang esei (EL)