PENILAIAN ESEI BERBANTUKAN KOMPUTER MENGGUNAKAN TEKNIK BAYESIAN DAN PENGUNDURAN LINEAR BERGANDA

advertisement
PENILAIAN ESEI BERBANTUKAN KOMPUTER MENGGUNAKAN
TEKNIK BAYESIAN DAN PENGUNDURAN LINEAR BERGANDA
MOHD AZWAN BIN MOHAMAD@HAMZA
UNIVERSITI TEKNOLOGI MALAYSIA
iii
Khas buat ibu, abah, isteri, puteri dan bakal puteriku yang dikasihi…
iv
PENGHARGAAN
Dengan Nama Allah Yang Pemurah Lagi Maha Pengasihani.
Assalamualaikum W.B.T…
Segala puji-pujian bagi Allah S.W.T, Tuhan semesta alam. Salawat dan
salam ke atas junjungan besar Nabi Muhammad S.A.W, keluarga dan para sahabat
baginda serta kaum Muslimin dan Muslimat.
Bersyukur saya ke hadrat Allah S.W.T kerana di atas limpah kurnia-Nya
serta keizinan-Nya, dapatlah jua saya menyiapkan Laporan Projek Sarjana Muda ini.
Di kesempatan ini juga ingin saya merakamkan jutaan terima kasih dan
penghargaan ikhlas buat PM Abdul Manan b Ahmad, selaku penyelia bagi projek
ini, atas bimbingan dan dorongan yang diberikan sepanjang tempoh penyelidikan
projek ini.
Kerjasama yang baik daripada pihak Sekolah Kebangsaan Galing dan
Sekolah Kebangsaan Semambu, Kuantan serta pihak Dewan Bahasa dan Pustaka
turut dihargai sehingga saya dapat memperoleh maklumat yang diingini yang mana
ianya menyumbang kepada sebahagian besar kejayaan pembangunan projek ini.
Penghargaan juga turut ditujukan kepada semua yang terlibat samada secara
langsung atau tidak langsung dalam membantu menjayakan projek penyelidikan ini.
v
ABSTRAK
Perbezaan markah antara dua penilai, peruntukan masa yang panjang dan kos
pemarkahan yang tinggi menjadi punca yang menyebabkan Penilaian Esei
Berbantukan Komputer (CbAS) dikaji. Kunci utama ialah penilaian CbAS mestilah
hampir setara dengan penilaian manusia. Berdasarkan skema penilaian esei UPSR,
terdapat tiga komponen utama penilaian iaitu bahasa, elemen hujahan (isi
kandungan) dan gaya olahan. Didapati penggunaan Logik Fuzzy dalam menentukan
dan mengkelaskan elemen hujahan dan Algoritma Pengunduran Linear Stepwise
(SLR) dalam membuat peramalan terhampir bagi gaya olahan masih terdapat
beberapa kelemahan. Logik Fuzzy tidak mengukur bentuk ciri bahasa dan
memerlukan saiz data latihan yang besar. Manakala Algoritma SLR menghasilkan
peramalan gaya olahan menggunakan ciri yang kurang piawai di samping saiz set
ciri tidak ditakrifkan dengan jelas dan tiada jaminan ciri yang dipilih adalah
signifikan untuk menyumbang kepada peramalan gaya olahan terhampir. Kajian ini
memberi penekanan ke atas peramalan elemen hujahan dan gaya olahan yang lebih
optimum yang mendorong kepada pembangunan CbAS berdasarkan empat fasa
metodologi penyelidikan. (1) Fasa pra-pemprosesan dan pengekstrakan data di mana
esei dipecahkan kepada token (perkataan) dan menggunakan Algoritma Pembetulan
Kata membetulkan ejaan yang salah. (2) Fasa proses latihan penentuan dan
pengkelasan elemen hujahan menggunakan Teknik Model Multivariate Bernoulli
(MMB) yang mengambilkira ciri yang wujud dan tidak wujud seterusnya mengukur
bentuk ciri bahasa yang mempengaruhi kualiti esei tersebut. Teknik MMB juga
hanya memerlukan saiz korpus data yang lebih kecil. (3) Fasa proses peramalan gaya
olahan dengan menggunakan Algoritma Pengunduran Linear Berganda (MLR).
Algoritma MLR menggunakan enam ciri yang telah ditetapkan (berdasarkan kajian
terdahulu) supaya peramalan yang dibuat lebih piawai dan set ciri tersebut adalah
lebih signifikan. (4) Fasa pengujian kesetaraan pencapaian daripada gabungan
MMB, MLR dan data bahagian bahasa (dari penilaian manusia) dan dibandingkan
dengan penilaian manusia untuk lima kitaran cross-validation. Hasil menunjukkan
pencapaian adalah konsisten dengan peratus kesetaraan iaitu 95.2%. Kesimpulannya,
eksperimen menunjukkan dengan menggunakan kedua-dua teknik (MMB dan
MLR), peramalan atau penilaian esei yang lebih baik telah dicapai berbanding
dengan sistem yang menggunakan Logik Fuzzy dan Algoritma SLR.
vi
ABSTRACT
Disagreement of grade given by two human judges, time consuming and high
evaluation cost became a reason of research on Computer-based Assessment System
(CbAS) been studied. The main key is CbAS assessment must be closest to human
assessment. Based on UPSR Essay Assessment Schema, there are three main
assessment components consists of language, discourse element and style. Recently,
Fuzzy Logic is used to determine and classify the discourse element while Stepwise
Linear Regression Algorithm (SLR) is used to make closest prediction for style of
writing. Both of them have its weakness. Fuzzy Logic did not measure the form of
linguistic features and required a huge size of training data. SLR Algorithm derive
prediction of writing style using un-standardize feature set and size of features set
not clearly defined and no warranty of significance in contribute to get closest grade
prediction. This study emphasized on optimization of prediction on discourse
elements and writing style that leading to the development of CbAS through four
phases of research methodology. (1) Pre-processing and data extraction phase where
essay will be parsed into word (token) and implemented Word Correction Algorithm
to re-correct the misspell word. (2) Training process of determination and
classification of discourse elements using Multivariate Bernoulli Model (MMB)
Technique. It considers both presence and absence features thus it measured the form
of linguistic features that reflected essay quality. MMB Technique only required a
small size of training data. (3) Prediction process of writing style using Multiple
Linear Regression (MLR) Algorithm. MLR Algorithm applied six fixed features
(based on previous research) to ensure the prediction is more standardize and feature
set is more significant. (4) Test the performance agreement derived from the
combination of MMB, MLR and data of language component (taken from human
assessment) and compared it to human assessment for five cycles of cross-validation.
The outcome shows performance is consistent with 95.2% agreement. Thus, the
experiment has shown by utilizing both techniques (MMB and MLR), better
prediction or essay assessment has been achieved compared to the one’s
implemented using Fuzzy Logic and SLR Algorithm.
vii
ISI KANDUNGAN
BAB
PERKARA
SURAT
JUDUL
i
PENGAKUAN
ii
DEDIKASI
iii
PENGHARGAAN
iv
ABSTRAK
v
ABSTRACT
vi
ISI KANDUNGAN
vii
SENARAI JADUAL
xiii
SENARAI RAJAH
SENARAI RUMUS DAN ALGORITMA
SENARAI SINGKATAN
1
MUKA
xv
xviii
xx
SENARAI ISTILAH
xxii
SENARAI LAMPIRAN
xxiv
PENGENALAN
1
1.1
Pendahuluan
1
1.2
Latar Belakang Masalah
3
1.3
Pernyataan Masalah
8
1.4
Matlamat
8
1.5
Objektif
9
viii
2
9
1.6
Skop
1.7
Kepentingan Penyelidikan
10
1.8
Sumbangan Ilmiah
10
1.9
Struktur Tesis
11
1.10 Ringkasan
12
KAJIAN LITERATUR
14
2.1
Pendahuluan
14
2.2
Latar Belakang Penilaian Esei Berbantukan Komputer
16
2.2.1
Kajian Awal
16
2.2.2
Kajian Semasa
18
2.2.2.1
Project Essay Grader (PEG)
20
2.2.2.2
Intelligent Essay Assessor (IEA)
22
2.2.2.3
Educational Testing Service (ETS I)
24
2.2.2.4
Electronic Essay Rater (E-rater)
27
2.2.2.5
Conceptual Rater (C-rater)
29
2.2.2.6
Bayesian Essay Test Scoring sYstem
30
(BETSY)
2.2.2.7
Intelligent Essay Marking Systems
33
(IEMS)
2.2.2.8
Automark
33
2.2.2.9
Schema Extract Analyse and Report
35
(SEAR)
2.2.2.10 Paperless School free-text Marking
36
Engine (PS-ME)
2.3
2.2.3
Isu/Analisa Kajian
38
2.2.4
Cadangan Teknik Penilaian
45
2.2.5
Set Ciri Peramalan
46
Pemarkahan Esei
49
2.3.1
Peraturan Memberi Markah (PMM)
49
2.3.1.1
Teknik Global
50
2.3.1.2
Teknik Analisis
51
2.3.2
Kaedah Menilai Esei
52
ix
2.4
3
2.3.3
Penyelarasan Markah
52
2.3.4
Pemarkahan Esei UPSR
53
2.3.5
Isu-isu Utama Dalam Penilaian Esei
55
2.3.5.1
Penandaan Kesalahan
56
2.3.5.2
Keadaan Kritikal
56
Ringkasan
56
METODOLOGI KAJIAN
58
3.1
Pendahuluan
58
3.2
Metodologi Penyelidikan
59
3.3
Teknik Penilaian
60
3.4
Prosidur Five-Fold Cross-Validation
61
3.5
Set 12 Ciri Peramalan
63
3.5.1
Set Ciri Optimum
65
3.5.1.1
65
Purata Bilangan Perkataan dalam
Elemen Hujahan (AEL)
3.5.2
3.5.1.2
Jenis/Token
65
3.5.1.3
Purata Panjang Perkataan (AWL)
66
3.5.1.4
Kandungan Esei (EC)
66
3.5.1.5
Kandungan Argumen (AC)
66
3.5.1.6
Panjang Esei (EL)
67
Set Ciri Tetap
67
3.5.2.1
Kesalahan Bahasa
67
3.5.2.2
Elemen Hujahan
68
3.6
Pra-Pemprosesan Data dan Pengekstrakan Data
69
3.7
Latihan Peramalan Gaya Olahan (Ciri Optimum)
72
3.7.1
Pemilihan Ciri
73
3.7.2
Algoritma MLR
73
3.7.2.1
Matrik Pelengkap
74
3.7.2.2
Pendaraban Silang Matrik
75
3.7.2.3
Matrik Songsang
75
3.7.3
3.8
Pekali Pemberat Pengunduran
Latihan Pengkelasan Elemen Hujahan (Ciri Tetap)
75
76
x
3.9
3.8.1
Model Multinomial
76
3.8.2
Model Multivariate Bernoulli
77
3.8.3
Pemilihan Data
78
3.8.3.1
Kriteria Kedudukan, A1
79
3.8.3.2
Kriteria Leksikal, A2
79
3.8.3.3
Kriteria Teori Struktur Retorik, A3
80
3.8.4
Penapisan Data
82
3.8.5
Pekali Pemberat Peratusan
83
Pengujian Penilaian
83
3.9.1
Pengujian Ciri Tetap
83
3.9.1.1
Ciri Bahasa
84
3.9.1.2
Teknik MMB
84
3.9.1.3
Pekali Pemberat Peratusan
85
3.9.2
3.10
4
Pengujian Ciri Optimum
86
3.9.2.1
Algoritma MLR
86
3.9.2.2
Pekali Pemberat Pengunduran
87
3.9.2.3
Penilaian Gred Akhir
87
Ringkasan
88
TEKNIK PENILAIAN MENGGUNAKAN BAYESIAN
89
DAN PENGUNDURAN LINEAR BERGANDA
4.1
Pendahuluan
89
4.2
Rekabentuk Pangkalan Pengetahuan (KB)
89
4.3
Teknik Penentuan dan Pengkelasan Elemen Hujahan
90
4.3.1
Model Multivariate Bernoulli (MMB)
90
4.3.1.1
Kebarangkalian Prior
92
4.3.1.2
Kebarangkalian Conditional
92
4.3.2
Logik Fuzzy
94
4.3.2.1
94
Penapisan Token
4.3.2.2 Set Fuzzy
94
4.3.2.3
Darjah Keahlian
95
4.3.2.4
Operasi Set Fuzzy
97
4.3.2.5
Cartesian Product
98
xi
4.4
4.3.2.6
Hubungan Fuzzy
98
4.3.2.7
Operasi Compositional
99
Teknik Peramalan Gaya Olahan
99
4.4.1
99
Model Pengunduran Linear Berganda
4.4.1.1
4.4.2
4.5
4.6
5
Peramalan Parameter
100
Model Pengunduran Linear Stepwise
103
4.4.2.1
103
Algoritma Pemilihan Pembolehubah
Prosidur Penilaian
106
4.5.1 Penjelmaan Linear Ciri Tetap
106
4.5.2
Penentuan Nilai Ciri Optimum
106
4.5.3
Penentuan Pekali Pemberat Ciri Optimum
108
4.5.4
Peratusan Pemberat Ciri Tetap
109
4.5.5
Penentuan Pekali Pemberat Ciri Tetap
109
4.5.6
Penilaian Gred Akhir
110
Ringkasan
110
HASIL PENGUJIAN DAN PERBINCANGAN
112
5.1
Pendahuluan
112
5.2
Hasil Pengujian dan Perbincangan
112
5.3
Kaedah Pengukuran
113
5.4
Hasil Pra-Pemprosesan Data
114
5.4.1
116
5.5
5.6
Rumusan Pra-Pemprosesan Data
Hasil Peramalan Gaya Olahan
117
5.5.1
125
Rumusan Peramalan Gaya Olahan
Hasil Penentuan dan Pengkelasan Elemen Hujahan
126
5.6.1
134
Rumusan Penentuan dan Pengkelasan Elemen
Hujahan
5.7
Hasil Teknik Penilaian
136
5.8
Rumusan Keseluruhan
138
5.9
Ringkasan
138
xii
6
KESIMPULAN
140
6.1
Pendahuluan
140
6.2
Kesimpulan
140
6.3
Cadangan Kajian Lanjutan
142
6.3.1
Kaedah Gabungan Kata dan Penapisan Ciri
143
6.3.2
Penulisan Di Luar Topik
143
6.4
Ringkasan
144
RUJUKAN
145
LAMPIRAN A : Contoh Data Pengujian
158
LAMPIRAN B : Contoh Data Latihan
171
LAMPIRAN C : Skema Penilaian Esei UPSR
184
LAMPIRAN D : Skala Panduan Markah Gaya Olahan
186
LAMPIRAN E : Senarai Keseluruhan Ciri Untuk Penilaian
188
Esei
xiii
SENARAI JADUAL
NO. JADUAL
2.1
TAJUK
Pengkelasan Sistem Penilaian Esei
MUKA SURAT
39
Berautomasi..
2.2
Perbandingan pencapaian sistem penilaian.
41
2.3
Set 12 ciri peramalan untuk teknik penilaian.
48
2.4
Pembahagian markah berdasarkan Skema
55
Penilaian Esei UPSR.
3.1
Kitaran prosidur five-fold cross validation.
62
3.2
Set 12 ciri signifikan untuk peramalan
64
penilaian.
3.3
Gred markah UPSR.
87
4.1
Darjah keahlian bagi Set Fuzzy A dan Set
95
Fuzzy B.
4.2
Data untuk Pengunduran Linear Berganda.
101
5.1
Pecahan bilangan 200 sampel esei pelajar
113
mengikut gred.
5.2
Perbandingan perkataan diperbetulkan
115
berdasarkan gred esei skala limamata aras.
5.3
Hasil ujian peramalan gaya olahan pada
118
kitaran pertama.
5.4
Hasil ujian peramalan gaya olahan pada
kitaran kedua.
120
xiv
5.5
Hasil ujian peramalan gaya olahan pada
121
kitaran ketiga.
5.6
Hasil ujian peramalan gaya olahan pada
122
kitaran keempat.
5.7
Hasil ujian peramalan gaya olahan pada
124
kitaran kelima.
5.8
Hasil penentuan dan pengkelasan elemen
127
hujahan pada kitaran pertama.
5.9
Hasil penentuan dan pengkelasan elemen
128
hujahan pada kitaran kedua.
5.10
Hasil penentuan dan pengkelasan elemen
130
hujahan pada kitaran ketiga.
5.11
Hasil penentuan dan pengkelasan elemen
131
hujahan pada kitaran keempat.
5.12
Hasil penentuan dan pengkelasan elemen
133
hujahan pada kitaran kelima.
5.13
Hasil perbandingan penilaian manusia dan
teknik penilaian.
136
xv
SENARAI RAJAH
NO. RAJAH
2.1
TAJUK
MUKA SURAT
Garismasa perkembangan kajian dalam bidang
17
penilaian penulisan.
2.2
Versi demo Sistem PEG yang dipaparkan di
21
laman web.
2.3
Contoh maklumbalas yang diberikan oleh
23
Sistem IEA.
2.4
Pepohon sintaksis X-bar.
26
2.5
Antaramuka ramah-pengguna Sistem E-rater
28
versi berpandukan-web (Criterion).
2.6
Pembangunan konseptual sistem penilaian.
40
3.1
Rekabentuk metodologi penyelidikan.
59
3.2
Contoh esei pelajar.
62
3.3
Algoritma Pembetulan Kata.
71
3.4
Proses latihan peramalan gaya olahan.
72
3.5
Algoritma Pengunduran Linear Berganda.
74
3.6
Proses latihan pengkelasan elemen hujahan.
76
3.7
Contoh data latihan menggunakan Kriteria
79
Kedudukan.
3.8
Contoh data latihan menggunakan Kriteria
80
Leksikal.
3.9
Pepohon RST.
81
3.10
Contoh data latihan menggunakan Kriteria
82
RST.
xvi
3.11
Proses pengujian pengkelasan elemen hujahan.
84
3.12
Proses pengujian peramalan gaya olahan.
86
4.1
Pepohon Rangkaian MMB.
91
4.2
Graf yang menunjukkan keahlian bagi Set
97
Fuzzy A dan B.
5.1
Perbandingan bilangan Ralat-Ejaan dan Ejaan-
116
Diperbetulkan dengan kumpulan gred esei.
5.2
Peratus Perkataan-Diperbetulkan berbanding
116
kumpulan gred esei.
5.3
Perbandingan hasil Algoritma MLR dan SLR
119
pada kitaran pertama.
5.4
Perbandingan hasil Algoritma MLR dan SLR
120
pada kitaran kedua.
5.5
Perbandingan hasil Algoritma MLR dan SLR
122
pada kitaran ketiga.
5.6
Perbandingan hasil Algoritma MLR dan SLR
123
pada kitaran keempat.
5.7
Perbandingan hasil Algoritma MLR dan SLR
124
pada kitaran kelima.
5.8
Rumusan perbandingan hasil Algoritma MLR
126
dan SLR pada kelima-lima kitaran
5.9
Peratus perbandingan penentuan dan
128
pengkelasan elemen hujahan antara Teknik
MMB dan Logik Fuzzy pada kitaran pertama.
5.10
Peratus perbandingan penentuan dan
129
pengkelasan elemen hujahan antara Teknik
MMB dan Logik Fuzzy pada kitaran kedua.
5.11
Peratus perbandingan penentuan dan
pengkelasan elemen hujahan antara Teknik
MMB dan Logik Fuzzy pada kitaran ketiga.
131
xvii
5.12
Peratus perbandingan penentuan dan
132
pengkelasan elemen hujahan antara Teknik
MMB dan Logik Fuzzy pada kitaran keempat.
5.13
Peratus perbandingan penentuan dan
134
pengkelasan elemen hujahan antara Teknik
MMB dan Logik Fuzzy pada kitaran kelima.
5.14
Rumusan perbandingan penentuan dan
135
pengkelasan elemen hujahan antara Teknik
MMB dan Logik Fuzzy bagi kelima-lima
kitaran five-fold cross-validation.
5.15
Graf perbandingan penilaian gred esei antara
penilaian manusia dan teknik penilaian bagi
bagi kelima-lima kitaran five-fold crossvalidation.
137
xviii
SENARAI RUMUS DAN ALGORITMA
NO
ALGORITMA/
TAJUK
RUMUS
MUKA
SURAT
2.1
Rumus umum MMB.
31
2.2
Rumus umum MM.
32
4.1
Rumus MMB menggunakan ln kebarangkalian.
91
4.2
Rumus kebarangkalian prior.
92
4.3
Rumus kebarangkalian conditional bagi kes
93
pertama.
4.4
Rumus kebarangkalian conditional bagi kes kedua.
93
4.5
Rumus untuk mendapatkan kebarangkalian
93
conditional bagi kes pertama.
4.6
Rumus untuk mendapatkan kebarangkalian
93
conditional bagi kes kedua.
4.7
Fungsi keahlian Trapezoidal bagi Set Fuzzy A.
96
4.8
Fungsi keahlian Trapezoidal bagi Set Fuzzy B.
96
4.9
Rumus Set Fuzzy A.
96
4.10
Operasi Set Fuzzy Union.
97
4.11
Operasi Set Fuzzy Intersection.
97
4.12
Cartesian product.
98
4.13
Subset Fuzzy kepada Cartesian product.
98
4.14
Subset Fuzzy bagi A × B.
98
4.15
Matrik R.
99
xix
4.16
Operasi Compositional.
99
4.17
Rumus Umum Pengunduran Linear Berganda.
100
4.18
Bentuk skala bagi persamaan normal
101
4.19
Rumus normal kuasa dua-terkecil.
101
4.20
Rumus normal kuasa dua-terkecil dalam bentuk
102
matrik.
4.21
Peramal kuasa dua terkecil
102
4.22
Peramal kuasa dua terkecil bagi E
102
4.23
Peramal kuasa dua terkecil dalam bentuk matrik
102
4.24
Vektor residual
103
4.25
Statistik F* untuk pengujian F.
104
4.26
Statistik ujian F setara.
104
4.27
Penentuan pembolehubah X.
105
4.28
Rumus penjelmaan linear.
106
4.29
Rumus kandungan esei.
107
4.30
Rumus pemberat perkataan.
107
4.31
Rumus kandungan argumen.
108
4.32
Rumus pemberat ciri tetap
109
4.33
Rumus gabungan penilaian
110
4.34
Ringkasan rumus gabungan penilaian
110
5.1
Rumus precision.
114
5.2
Rumus recall.
114
5.3
Rumus f-measure.
114
5.4
Rumus peramalan gaya olahan kitaran pertama.
117
5.5
Rumus peramalan gaya olahan kitaran kedua.
117
5.6
Rumus peramalan gaya olahan kitaran ketiga.
118
5.7
Rumus peramalan gaya olahan kitaran keempat.
118
5.8
Rumus peramalan gaya olahan kitaran kelima.
118
xx
SENARAI SINGKATAN
CbAS
-
Penilaian Esei Berbantukan Komputer
UPSR
-
Ujian Penilaian Sekolah Rendah
SLR
-
Pengunduran Linear Stepwise
MMB
-
Model Multivariate Bernoulli
MLR
-
Pengunduran Linear Berganda
AGREEM
-
Kesetaraan penilaian antara penilaian manusia dan penilaian
menggunakan teknik penilaian
AI
-
Kepintaran Buatan
GMAT
-
Graduate Management Admissions Test
NLP
-
Pemprosesan Bahasa Tabii
PEG
-
Project Essay Grader
IEA
-
Intelligent Essay Assessor
E-rater
-
Electronic Essay Rater
ETS
-
Educational Testing Service
IR
-
Perolehan Maklumat
US
-
United States
MM
-
Model Multinomial
WWB
-
Writer’s Workbench
AWA
-
Analytical Writing Assessment
VSM
-
Model Ruang Vektor
C-rater
-
Criterion-rater
BETSY
-
Bayesian Essay Test Scoring sYstem
IEMS
-
Intelligent Essay Marking System
SEAR
-
Schema Extract Analyse and Report
PS-ME
-
Paperless School free text Marking Engine
SVD
-
Penguraian Nilai Tunggal
LSA
-
Analisa Semantik Latent
xxi
MsNLP
-
Microsoft Natural Language Processing
XP
-
X Phrase
CSR
-
Perwakilan Struktur-Konsep
Indextron
-
Rangkaian Neural Pengindeksan Corak
NCAS
-
National Curriculum Assessment of Science
ACC
-
ketepatan keputusan
CORR
-
kolerasi pengunduran berganda
TOEFL
-
Test of English as a Foreign Language
AEL
-
purata panjang elemen hujahan
EC
-
kandungan esei
AC
-
kandungan argumen
PMM
-
Peraturan Memberi Markah
OBP
-
Operasi Baris Permulaan
RST
-
Teori Struktur Retorik
KB
-
Pangkalan Pengetahuan
SD
-
Sisihan Piawai
xxii
SENARAI ISTILAH
Ambiguiti
–
Kesamaran yang memungkinkan dua atau
beberapa tafsiran.
Anafora
–
Pengulangan sesuatu kata atau frasa pada
permulaan beberapa kalimat atau klausa yang
berturut-turut agar memperoleh kesan tertentu.
Dikotomi
–
Pembahagian (pemisahan) antara dua kumpulan
(kelompok) dalam sesuatu hal yang saling
bertentangan.
Diksi
–
Pemilihan kata/gaya sebutan.
Fonetik
–
Ilmu bahasa (linguistik) yang berkaitan dengan
penyebutan kata dan lambang yang menunjukkan
sebutannya.
Gramatis
–
Berasaskan atau mengikut prinsip-prinsip nahu
atau tatabahasa.
Infleksi
–
Penambahan imbuhan pada kata akar atau dasar.
Intrinsik
–
Sebagai sebahagian daripada sifat atau ciri
seseorang atau sesuatu.
Kognitif
–
Segala perkara yang berkaitan dengan kognisi
seperti proses pembelajaran, pemahaman dan
pemerolehan pengetahuan.
Koordinasi
–
Saling hubungan (yang dapat melicinkan
perjalanan sesuatu), jalinan pertalian (tindakan,
gerakan) antara bahagian-bahagian dan lain-lain
yang terlibat (dalam kegiatan dan lain-lain),
penyelarasan.
Kopula
–
Perkataan yang menghubungkan perkara atau
subjek dalam ayat dengan predikatnya.
xxiii
Leksikal
–
Berkenaan dengan perkataan atau perbendaharaan
kata sesuatu bahasa, makna sesuatu perkataan itu
sendiri tanpa melihat penggunaannya dalam ayat.
Leksikon
–
Kamus, perbendaharaan kata sesuatu bahasa atau
sesuatu bidang.
Modus
–
Cara, gaya, prosidur untuk melaksanakan sesuatu.
Monotoni
–
Tidak adanya keseragaman (pada nada, kerja, dan
sebagainya.)
Morfem
–
Gabungan terkecil dalam bahasa yang mempunyai
erti atau fungsian tertentu, contohnya perkataan
‘perumahan’ terdiri daripada satu morfem bebas
iaitu perkataan ‘rumah’ dan dua morfem terikat
iaitu ‘per-’ dan ‘-an’.
Morfologi
–
Kajian tentang pembentukan kata dalam sesuatu
bahasa, termasuk infleksi, terbitan dan
pemajmukan.
Nahu
–
Cabang ilmu linguistik yang berkaitan dengan
sintaksis, morfologi, tatabahasa dan sebagainya.
Sintaksis
–
Pengetahuan (cabang ilmu linguistik, peraturan da
sebagainya) tentang susunan kata dalam ayat.
Taksonomi
–
Kajian tentang prinsip, peraturan, dan amalan
dalam pengelasan organisma hidup berdasarkan
persamaan dan perbezaan sifat organisma itu.
Transitif
–
Kata kerja yang mempunyai penyambut (objek).
xxiv
SENARAI LAMPIRAN
LAMPIRAN
PERKARA
MUKA SURAT
A
Contoh Data Pengujian.
158
B
Contoh Data Latihan.
171
C
Skema Penilaian Esei UPSR.
184
D
Skala Panduan Markah Gaya Olahan.
186
E
Senarai Keseluruhan Ciri Untuk Penilaian
188
Esei.
BAB 1
PENGENALAN
1.1
Pendahuluan
Kebolehan komputer untuk berkomunikasi dalam bahasa tabii telah lama
diperakui dalam bidang Kepintaran Buatan (AI). Kemampuannya untuk menilai
sesuatu yang bersifat subjektif seperti esei untuk Graduate Management Admissions
Test (GMAT)(Mart, 2000), telah membuka lembaran baru dalam era dunia sains dan
praktikal AI. Secara tidak langsung, ianya dipercayai akan memberi impak yang
besar kepada penggunaan komputer dalam lapangan pendidikan pada masa hadapan.
Sistem penilaian esei berbantukan komputer (CbAS) ini telah mula
diperkenalkan kira-kira empat dekad yang lalu, iaitu pada tahun 1966 oleh Ellis Page
(Page, 1994). Diinspirasikan daripada Pemprosesan Bahasa Tabii (NLP) pada masa
tersebut, beberapa pengkaji di Connecticut berpendapat bahawa komputer mampu
untuk memainkan peranan yang besar dalam membuat penilaian ke atas penulisan
esei pelajar. Malah, sebahagian penyelidik dalam bidang NLP bersependapat bahawa
CbAS dan NLP telah dirintis pada sekitar tahun 1960-an (Burstein et al., 2003). Hari
demi hari, para pengkaji meneruskan kajian dalam bidang ini sehingga mereka telah
menempa kejayaan yang besar pada hari ini. Buktinya, beberapa buah sistem
prototaip kini telah dipertingkatkan hingga ke tahap sistem pengoperasian
sepenuhnya (Hearst, 2000). Bagaimanapun, ianya masih belum lagi dianggap sebagai
CbAS yang cukup sempurna (Valenti et al., 2003). Ini kerana, beberapa proses dalam
peramalan penilaian CbAS tersebut masih boleh dipertingkatkan dan dioptimumkan
pencapaiannya.
2
Berdasarkan kajian yang telah dilakukan oleh Rudner dan Gange (2001),
terdapat tiga buah CbAS yang telah berjaya dan seringkali digunakan dalam
pemarkahan esei berkomputer buat masa ini: (1) Project Essay Grader (PEG),
diperkenalkan oleh Ellis Page pada tahun 1966; (2) Intelligent Essay Assessor (IEA),
diperkenalkan untuk pemarkahan esei pada tahun 1997 oleh Laundauer dan Foltz
(2000); dan (3) Electronic Essay Rater (E-rater), digunakan oleh Educational Testing
Service (ETS) dan dibangunkan oleh Jill Burstein (Rudner dan Gange, 2001). E-rater
adalah ‘Teknologi Gabungan Ciri-ciri’yang menggaplikasikan kepelbagaian
sintaksis, struktur hujahan (seperti PEG) dan analisa kandungan (seperti IEA).
Tetapi, kajian terbaru oleh Valenti et al. (2003), menyatakan bahawa kini telah
terdapat kira-kira 40 buah CbAS yang telah berjaya dibangunkan sebagai sistem
pengoperasian sepenuhnya. Perincian tentang fakta ini akan dinyatakan dalam Bab 2:
Kajian Literatur.
Setiap ujian esei dinilai berpandukan kepada skema penilaian esei yang
khusus (Burstein dan Marcu, 2000). Dengan itu, pembangunan sesebuah sistem
penilaian mestilah selaras dengan skema penilaian tersebut dari segi kriteria
penilaian dan peratusan untuk setiap kriteria tersebut (contohnya bahagian bahasa, isi
kandungan dan gaya olahan). Secara amnya, skema bagi ujian yang berlainan adalah
berbeza dari segi ciri-ciri dan pembahagian markah bagi ciri tersebut. Namun begitu,
masih terdapat beberapa persamaan yang wujud khususnya dari segi ciri-ciri penting
yang diambilkira dalam skema penilaian tersebut. Antaranya, kesalahan bahasa,
pengenalpastian elemen-elemen hujahan (pendahuluan, isi-isi penting dan penutup)
dan gaya olahan (Mohd Isa, 2004). Di sini, faktor kemanusiaan memainkan peranan
penting kerana ketiga-tiga ciri tersebut boleh dianggap mudah bagi manusia untuk
menilainya, namun agak sukar dan menjadi masalah bagi komputer untuk
memprosesnya. Namun, dengan bantuan pelbagai kemudahan seperti adanya teknikteknik AI dan NLP serta peralatan pemprosesan yang berkemampuan tinggi,
memungkinkan matlamat ini mencapai kejayaan (rujuk
Jadual 2.2).
3
1.2
Latar Belakang Masalah
Esei dianggap oleh para penyelidik sebagai kayu pengukur yang sangat
kondusif untuk mengukur kebolehan seseorang untuk mengingat kembali, menyusun,
menjana idea dan menyatakan pendapat sendiri berbanding dengan soalan berbentuk
objektif yang hanya menguji kemampuan seseorang untuk menterjemah dan
mengaplikasi data semata-mata serta kurang memberikan maklumbalas yang
berkesan (Gronlund, 1985). Malah, berdasarkan aras penilaian yang telah ditetapkan
oleh taksonomi Bloom, penilaian esei berada di dua peringkat tertinggi dalam aras
penilaian tersebut, iaitu aras penilaian dan sintesis (Bloom, 1956).
Berbanding soalan berbentuk objektif yang lebih banyak menguji kefahaman
dan ingatan seseorang, soalan esei didapati lebih sukar untuk dinilai kerana ianya
lebih bersifat subjektif. Jika diperhalusi, kesubjektifan ini mengundang
kebarangkalian berlakunya perbezaan gred yang diberi oleh penilai yang berbeza.
Malahan, penilaian yang dibuat oleh penilai yang sama ke atas esei yang sama
sekalipun, tetapi pada waktu yang berbeza, berkemungkinan untuk menghasilkan
gred yang berlainan. Ini berlaku disebabkan faktor emosi yang mempengaruhi tahap
penilaian seseorang penilai, samada lebih ketat (strict), sederhana atau lebih longgar
(lenient).
CbAS yang berkemampuan untuk menilai penulisan pelajar secara automasi,
dilihat memberi impak positif berganda kepada tenaga pengajar dan mereka yang
terlibat secara langsung atau tidak dalam bidang pendidikan (Palmer et al., 2002).
Apabila terlalu banyak esei yang perlu dinilai dalam satu-satu masa, para guru ini
akan menjadi buntu dan menghadapi masalah untuk menilai secara konsisten dan
memberi komen yang baik, lebih-lebih lagi jika masa yang ada terlalu singkat. Pihak
pentadbir pendidikan pula menumpukan kepada komen yang berkualiti dengan masa
yang minimum, tetapi dalam masa yang sama perlu mengambilkira kos yang perlu
dibayar. Justeru itu, sistem penilaian ini mendapat permintaan yang tinggi sebagai
alatan pendidikan, di samping dapat mengurangkan kos dan meminimakan masa
penilaian (Hedberg, 1999).
4
Penilaian esei berautomasi ini sebenarnya telah diperolopori lebih dari 30
tahun (Williams, 2001). Namun begitu, hanya sejak akhir-akhir ini, perlaksanaannya
telah dibangunkan dan diuji secara praktikal. Ini kerana, pada awal kewujudannya,
sistem penilaian yang dibangunkan pada ketika itu hanya mampu mengukur kualiti
esei berdasarkan ciri-ciri luaran seperti purata panjang perkataan, panjang esei,
bilangan koma, bilangan kata depan dan bilangan kata retorik (Hearst, 2000). Ini
secara tidak langsung menyebabkan timbulnya kritikan daripada barisan penilai
dalam bidang pendidikan. Sebagai contohnya, esei yang ditulis dengan lebih panjang,
akan mendapat gred yang lebih baik, tanpa mengambilkira kualiti penulisan tersebut.
Namun begitu, dengan berkembangnya penyelidikan dalam domain NLP dan
Perolehan Maklumat (IR) telah memungkinkan penghasilan sistem penilaian yang
berkemampuan untuk mengukur bukan sahaja ciri-ciri luaran, malah yang lebih
penting turut mengambilkira ciri-ciri dalaman. Page dan rakan-rakan sekolejnya,
telah mendahului senarai pembangunan CbAS dengan membangunkan PEG pada
tahun 1966 (Rudner dan Gange, 2001). PEG pada awal pembangunannya turut
mengalami kekangan yang sama iaitu hanya mengambilkira ciri-ciri luaran, namun
kini telah berupaya menilai ciri-ciri struktur (isi kandungan dan gaya olahan) untuk
mengukur kualiti esei. Ianya juga merupakan implementasi penilaian esei
berautomasi terawal dan paling lama bertahan.
IEA pula mengaplikasikan pendekatan “bag of words” dan telah
dibangunkan dan dinilai oleh Landauer di University Colorado, Boulder (Tony,
2004). Ianya telah mengambilkira ciri-ciri linguistik (kesalahan bahasa) tetapi
memfokuskan kepada ciri-ciri struktur untuk mengukur kualiti sesebuah penulisan.
Setelah itu, Jill Burstein telah mengorak langkah dengan membangunkan Erater di ETS, United States (US), yang mana telah digunakan untuk menilai esei-esei
GMAT pada masa kini. Model ini meningkatkan kemampuan PEG dan IEA dengan
menggunakan pendekatan hybrid yang menggabungkan ciri-ciri linguistik (dengan
mengaplikasikan teknik-teknik NLP) dan ciri-ciri struktur esei yang lain. Dengan
kata lain, E-rater menggabungkan kelebihan kedua-dua model sebelum ini dengan
5
mengambilkira kedua-dua elemen penting iaitu ciri-ciri linguistik (bahasa) dan ciriciri struktur (peramalan).
Bertitik tolak dari situ, para penyelidik berlumba-lumba untuk
membangunkan sebuah sistem penilaian esei berautomasi yang lebih sempurna. Kini,
terdapat lebih daripada 40 buah CbAS komersial di pasaran (Valenti et al., 2003).
Namun begitu, ianya masih berkisar dengan isu asas sesebuah sistem penilaian yang
lain iaitu sejauh mana kemampuan sistem tersebut membuat peramalan sebaik
manusia. Di sini, kajian demi kajian dilakukan untuk meningkatkan tahap kesetaraan
penilaian manusia-sistem agar boleh mencapai objektif utama iaitu menggantikan
penilai kedua (manusia) tetapi dalam masa yang sama boleh bertindak sebaik
manusia (rujuk Rajah 2.6).
Untuk tujuan itu, para penyelidik telah mengadaptasikan pelbagai teknik dan
algoritma yang terbaik untuk membuat peramalan yang paling optimum ke atas
kedua-dua elemen penilaian iaitu ciri-ciri linguistik dan ciri-ciri struktur. Ini kerana,
kebanyakan skema penilaian esei sekarang ini mengambilkira kedua-dua elemen
tersebut.
Namun begitu, sebelum sebarang teknik dapat dilaksanakan samada ke atas
ciri lingusitik mahupun ciri struktur, masalah pertama yang wujud ialah kegagalan
sistem untuk mengenalpasti dan memperbetulkan ralat ejaan sebaik manusia
(Leacock, 2004). Lebih teruk lagi, ianya turut mempengaruhi ketepatan dan peratus
kesetaraan penilaian manusia-sistem di akhir pembangunan sesebuah CbAS.
Bagi kebanyakan CbAS, ianya menekankan elemen tatabahasa,
perbendaharaan kata, mekanik (ejaan, imbuhan dan tanda baca), gaya penulisan
(olahan) dan struktur hujahan (elemen hujahan) (Burstein dan Wolska, 2003;
Leacock, 2004; Yigal, 2004; Semire Dikli, 2006; Yigal dan Burstein, 2006).
Manakala sebahagiannya hanya menekankan komponen struktur hujahan, struktur
sintaksis (bahasa) dan penggunaan perbendaharaan kata (Burstein et al., 2001).
6
Burstein dan Wolska (2003) menyatakan bahawa protokol penandaan dan
teknik yang berkesan diperlukan dalam menentukan dan mengkelaskan elemenelemen hujahan (penyataan tesis, isi-isi penting dan penyataan penutup) yang wujud
dalam sesebuah esei seperti penyataan tesis dan penyataan penutup. Mereka
menerangkan bahawa walaupun penanda dilatih untuk membuat penentuan elemen
hujahan, tetapi masih wujud kelemahan dari segi ketepatan pengkelasan elemen
hujahan tersebut. Pengkelasan ini penting kerana ianya boleh digunakan oleh pelajar
untuk membuat rujukan dan mengukur saling perkaitannya dengan kualiti esei yang
ditulis (Burstein et al., 2001). Antara teknik yang digunakan dalam menentukan dan
mengkelaskan argumen (ayat) dalam esei kepada sesebuah elemen hujahan yang
khusus ialah Model Multinomial, k-nearest neighbor (pendekatan kebarangkalian),
Logik Fuzzy (pendekatan berbantukan-keputusan) (Leacock, 2004). Menurut
Leacock (2004) lagi, Alatan Penganalisa Penulisan sedia ada hanya menentukan
elemen hujahan tetapi tidak menilai kualiti elemen tersebut. Berdasarkan kenyataan
Burstein dan Marcu (2003) pula, Fuzzy dalam sesetengah keadaan menggambarkan
kualiti penulisan secara umum. Namun ianya tidak menyatakan dengan terperinci
ciri-ciri linguistik yang mempengaruhi kualiti tersebut.
Selain itu, masalah yang paling relevan di dalam bidang pemarkahan esei
berautomasi juga ialah kesukaran untuk mendapatkan korpus esei (data) yang banyak
(Christie, 2003; Larkey, 2003), setiap satunya dengan markah yang telah dinilai oleh
manusia untuk tujuan latihan dan pengujian.
Dalam penyelidikan ini, untuk mengenalpasti dan mengkelaskan setiap
elemen hujahan dalam esei yang terdiri daripada pernyataan pendahuluan, isi-isi
penting dan pernyataan penutup, kita akan mengaplikasikan Teknik Model
Multivariate Bernoulli (MMB) daripada pendekatan Bayesian. Antara lain,
penggunaan MMB ini juga adalah disebabkan ianya melibatkan saiz korpus (data)
yang kecil dan mengambilkira ciri yang wujud dan tidak wujud dalam membuat
penentuan dan pengkelasan elemen hujahan sekaligus mengukur ciri linguistik yang
mempengaruhi kualiti penulisan tersebut berbanding Logik Fuzzy dan Model
Multinomial (MM) (Little, 2001; Burstein et al., 2001; Sullivan dan Daghestani,
1997).
7
Bagi membuat peramalan gaya olahan, beberapa ciri telah digunakan oleh
para penyelidik terdahulu. Antaranya purata panjang perkataan, tahap kegramatisan
ayat, peratusan kata kerja pasif, peratusan kata nama dan penggunaan perkataan yang
sama berulang kali (Burstein dan Wolska, 2003). Yi-fang Brook Wu dan Xin Chen
(2005) menyatakan bahawa gaya penulisan adalah penting untuk membentuk esei
berkualiti tinggi, kerana kebiasaannya, penulis akan mengelak dari menggunakan
perkataan yang sama untuk menjelaskan konsep yang sama. Masalah wujud di sini
ialah untuk membuat peramalan tahap gaya olahan yang lebih optimum yang
menghampiri penilaian manusia menggunakan corak hubungan koefisien-pemberat
dalam persamaan pengunduran yang sepadan (Valenti et al. 2003; Attali dan
Burstein, 2006). Malah Attali dan Burstein (2006) turut menyatakan masalah
penggunaan Algoritma Pengunduran Linear Stepwise (SLR) dalam menentukan
pekali pemberat ciri yang optimum adalah kurang efisyen kerana set ciri yang
digunakan adalah tidak piawai di mana bilangan dan jenis ciri yang dipilih adalah
berbeza untuk penilaian esei yang berlainan.
Daripada kajian yang dilakukan (Burstein et al., 1998; Attali dan Burstein,
2006), CbAS semasa memerlukan pengumpulan banyak data (set esei) yang
signifikan dan telah dinilai oleh manusia. Ini akan memakan masa dan memerlukan
kos yang tinggi. Model terdahulu juga bergantung kepada subset pembolehubah bagi
lapan hingga 12 ciri peramalan yang dipilih menggunakan Algoritma SLR daripada
set yang bersaiz lebih besar, iaitu kira-kira 57 ciri (Burstein et al., 1998; Burstein dan
Marcu, 2000). Sebaliknya, dengan menggunakan Algoritma Pengunduran Linear
Berganda (MLR), sebanyak enam ciri yang lebih optimum dan signifikan untuk
membuat peramalan penilaian telah ditetapkan berdasarkan kajian-kajian penyelidik
terdahulu (Attali, 2004; Attali dan Burstein, 2004; Attali dan Burstein, 2006, Semire
Dikli, 2006). Dengan ini juga, ianya menjamin peramalan gaya olahan yang lebih
piawai menggunakan set ciri yang bersaiz lebih kecil (Attali, 2004).
8
1.3
Pernyataan Masalah
Sepertimana telah dinyatakan dalam Subtopik 1.2, kajian ini akan
menyelesaikan masalah ralat-ejaan, penentuan elemen-elemen hujahan dan
peramalan gaya olahan esei. Seterusnya, tiga pernyataan masalah yang telah
dikenalpasti ialah
(i)
Bagaimanakah kaedah dan teknik kebarangkalian mampu
mengenalpasti dan memperbetulkan ralat-ejaan sesebuah perkataan
dalam Fasa Pra-pemprosesan dan Pengekstrakan Data?
(ii)
Sejauh manakah kebaikan pengelasan elemen-elemen hujahan yang
terdiri daripada penyataan tesis, isi-isi penting dan penyataan
kesimpulan menggunakan Teknik Model Multivariate Bernoulli
(MMB) daripada pendekatan Bayesian menggunakan pemberat ciri
tetap dapat mengenalpasti dan menganalisa Bahagian Isi Kandungan
sesebuah esei?
(iii)
Bagaimanakah pemberat ciri optimum dalam Algoritma Pengunduran
Linear Berganda (MLR) menggunakan set ciri bersaiz lebih kecil
dapat menghasilkan persamaan pengunduran yang paling sesuai (best
fitted) untuk memastikan peramalan gaya olahan yang lebih tepat dan
seterusnya menjamin tahap kesetaraan penilaian yang lebih tinggi
antara manusia dan penggunaan teknik penilaian?
1.4
Matlamat
Matlamat kajian ini adalah untuk mengkaji keberkesanan Teknik MMB
dalam menentukan dan mengkelaskan elemen-elemen hujahan esei dan menguji
kemampuan Algoritma MLR dalam membuat peramalan markah gaya olahan esei.
Hasil daripada kedua-dua teknik tersebut akan diaplikasikan untuk mendapatkan gred
akhir prototaip bagi membandingkan dengan gred akhir yang dinilai oleh manusia.
9
1.5
Objektif
Objektif kajian ini ialah:
(i)
Menggunakan kaedah kebarangkalian untuk mengenalpasti dan
membetulkan ralat-ejaan sesebuah perkataan.
(ii)
Menggunakan pendekatan pengkelas Bayesian yang dilatih
menggunakan Rumus MMB untuk menentukan dan mengkelaskan
elemen-elemen hujahan yang mewakili sebahagian ciri tetap
peramalan esei.
(iii)
Mengaplikasikan Algoritma MLR ke atas ciri optimum untuk
mendapatkan pekali pemberat paling hampir bagi menghasilkan
peramalan gaya olahan yang lebih tepat.
(iv)
Menggunakan keputusan daripada objektif (ii) dan (iii) dan
digabungkan dengan lima kriteria kesalahan bahasa untuk membuat
perbandingan dengan penilaian manusia.
1.6
Skop
(i)
Esei yang dinilai hanya dalam Bahasa Melayu.
(ii)
Maksimum panjang esei yang diambilkira tidak melebihi 120 patah
perkataan.
(iii)
Topik esei telah ditentukan dengan jelas.
(iv)
Menggunakan skema pemarkahan mengikut piawaian Ujian Penilaian
Sekolah Rendah (UPSR) iaitu gred A, B, C, D dan E.
(v)
Hanya membangunkan model atau prototaip sistem, bukan sistem
akhir.
(vi)
Format penulisan esei tidak diambilkira.
(vii)
Pembetulan ralat-ejaan hanya dibuat pada kata dasar sesebuah
perkataan, tidak melibatkan imbuhan.
10
(viii) 160 sampel esei digunakan untuk latihan dan 40 sampel esei
digunakan untuk ujian berdasarkan prosidur five-fold cross validation.
(ix)
Julat kebarangkalian bagi MBM ialah -2.0 hingga 2.0
(x)
Tidak mengambilkira nilai ralat e dalam persamaan pengunduran
MLR untuk tujuan pengujian gaya olahan.
(xi)
Tidak mengambilkira faktor esei yang ditulis di luar topik.
(xii)
Hanya mengambilkira bahagian isi kandungan dan gaya olahan, tetapi
tidak melibatkan kriteria kesalahan bahasa.
1.7
Kepentingan Penyelidikan
Kajian ini dilakukan untuk meningkatkan teknik peramalan dalam membuat
penilaian esei bagi menghasilkan keputusan yang lebih baik. Semoga dengan itu
juga, penilaian yang akan dilakukan lebih tepat, konsisten dan pantas berbanding
manusia.
1.8
Sumbangan Ilmiah
Terdapat tiga sumbangan ilmu yang dikenalpasti dari penyelidikan yang
dibuat. Kedua-dua penyelidikan ini saling berkaitan di antara satu sama lain.
(i)
Pengecaman dan pembetulan ralat-ejaan pada kata dasar.
(ii)
Penentuan dan pengkelasan elemen-elemen hujahan.
(iii)
Dapatan persamaan ramalan yang lebih optimum untuk gaya olahan.
11
1.9
Struktur Tesis
Tesis ini terdiri daripada enam bab. Bab 1 terdiri daripada pengenalan kepada
penyelidikan yang dilakukan. Topik-topik yang diketengahkan meliputi pengenalan
kepada penyelidikan, latar belakang masalah kajian, pernyataan masalah, matlamat,
objektif dan skop penyelidikan, kepentingan kajian dan sumbangan ilmiah yang
diberikan.
Bab 2 membincangkan tentang kajian literatur bagi CbAS. Ianya terdiri
daripada kajian terhadap sejarah awal CbAS ini yang bermula dari kajian rintis,
sistem CbAS semasa beserta pencapaiannya dan teknik-teknik yang digunakan.
Selain itu, turut diperjelaskan tentang pernyataan masalah penyelidikan ini dibuat
dan justifikasi pemilihan teknik dan algoritma yang digunakan. Seterusnya, Skema
Pemarkahan UPSR akan dihuraikan secara terperinci sebagai panduan penilaian
prototaip yang dibangunkan.
Bab 3 menerangkan tentang metodologi beserta proses-proses yang terlibat
dalam keempat-empat fasa iaitu Fasa I: Pra-Pemprosesan dan Pengektrakan Ciri,
Fasa II: Latihan Peramalan Gaya Olahan, Fasa III: Latihan Pengkelasan Elemen
Hujahan, dan Fasa IV: Pengujian Penilaian.
Manakala Bab 4 pula memperincikan proses-proses utama bagi teknik
penilaian iaitu teknik penentuan dan pengkelasan elemen hujahan (Teknik MMB dan
Logik Fuzzy) dan teknik peramalan gaya olahan (Algoritma MLR dan Algoritma
SLR). Selain itu, turut dibincangkan tentang pembangunan Pangkalan Data yang
terlibat dan prosidur penilaian yang merangkumi rumus-rumus yang telah dinyatakan
dalam Bab 3.
Bab 5 membincangkan tentang hasil pengujian menggunakan prosidur fivefold cross validation beserta ulasan tentang keputusan ujian berdasarkan prosidur
tersebut. Satu kesimpulan untuk merumuskan pengkajian akan diketengahkan di
akhir bab. Hasil dari rumusan tersebut, masalah-masalah yang timbul akan
12
diperjelaskan sebabnya untuk memperbaiki serta mempertingkatkan lagi teknik yang
diperolehi.
Akhir sekali, Bab 6 akan membuat kesimpulan keseluruhan bagi kajian yang
dilakukan beserta dengan cadangan kajian lanjutan yang mungkin berupaya untuk
menambahbaik teknik-teknik yang dibangunkan.
1.10
Ringkasan
Bab ini memperjelaskan justifikasi utama penyelidikan ini dilakukan. Ianya
dimulai dengan membincangkan pengenalan kepada penyelidikan yang merintis
pembangunan CbAS berserta contoh-contoh sistem penilaian terawal yang berjaya
dibangunkan. Turut dibincangkan tentang skema pemarkahan esei yang digunakan
sebagai panduan penilaian.
Latar belakang masalah kajian pula membincangkan kajian rintis CbAS yang
lebih lanjut dan dari situ, masalah-masalah yang wujud pada teknik penilaian semasa
dikenalpasti dan dinyatakan. Masalah-masalah tersebut diperkukuhkan dengan
kajian-kajian terbaru dan memerlukan teknik serta pendekatan yang efisyen untuk
mengatasi masalah-masalah tersebut. Dengan itu, teknik dan pendekatan yang dipilih
telah dibincangkan berserta dengan justifikasi ringkas pemilihan teknik dan
pendekatan tersebut.
Kemudiannya, masalah-masalah tersebut dirumuskan sebagai pernyataan
masalah dan matlamat kajian yang bemotifkan pengoptimuman teknik penilaian turut
dinyatakan. Objektif kajian ini yang bertujuan untuk mengatasi masalah yang telah
dikenalpasti dinyatakan dengan jelas. Manakala kekangan atau ruang lingkup kajian
dijelaskan dalam skop penyelidikan. Bab ini diakhiri dengan menyatakan
kepentingan kajian yang memberi motivasi untuk penyelidikan ini dilaksanakan dan
sumbangan ilmiah yang diperolehi hasil daripada penyelidikan ini.
13
Seterusnya, dalam Bab 2, perincian perjalanan pembangunan CbAS dari
kajian rintis hingga ke kajian terkini dibincangkan. Turut diperjelaskan ialah tentang
beberapa CbAS terkini berserta teknik dan pencapaiannya. Selain itu, bab ini juga
menerangkan masalah-masalah yang dikenalpasti dalam Bab 1 dengan lebih lanjut
dan kaedah penyelesaiannya. Kaedah penyelesaian tersebut akan disokong dengan
justifikasi pemilihan masing-masing. Bab 2 diakhiri dengan penerangan yang lebih
mendalam tentang Skema Pemarkahan Esei UPSR yang digunakan sebagai panduan
penilaian dalam penyelidikan ini.
BAB 2
KAJIAN LITERATUR
2.1
Pendahuluan
Penilaian didapati memainkan peranan penting di dalam proses pendidikan.
Tumpuan di dalam pembangunan dan penggunaan Sistem Penilaian Berbantukan
Komputer (CbAS) semakin berkembang dengan pesatnya sejak akhir-akhir ini. Ianya
adalah disebabkan oleh peningkatan bilangan pelajar yang memasuki universiti dan
potensi yang disediakan oleh pendekatan e-pembelajaran melalui pendidikan
asinkroni (tak segerak) dan berterusan. Berdasarkan kepada kajian (Valenti et al,
2003) kini terdapat lebih daripada 40 buah CbAS komersial di pasaran. Kebanyakan
alatan tersebut adalah berasaskan kepada penggunaan soalan-soalan yang dikatakan
berbentuk objektif seperti pelbagai pilihan, pelbagai jawapan, jawapan pendek,
pemilihan/gabungan, hot spot, dan identifikasi visual (Valenti et al., 2000). Namun
begitu, 10 buah CbAS yang akan dibincangkan secara lebih mendalam dalam
penyelidikan ini menggunakan soalan berbentuk esei sebagai item sasaran latihan
dan ujiannya.
Kebanyakan penyelidik dalam bidang ini bersetuju pada kajian yang
menyatakan bahawa beberapa aspek pencapaian kompleks adalah sukar untuk diukur
menggunakan soalan berbentuk objektif (Valenti et al., 2003). Penulisan esei mampu
mengukur kebolehan seseorang untuk mengingat kembali, menyusun, menjana idea
dan menyatakan pendapat sendiri berbanding dengan soalan berbentuk objektif yang
hanya menguji kemampuan seseorang untuk menterjemah dan mengaplikasi data
semata-mata serta kurang memberikan maklumbalas yang berkesan (Gronlund,
15
1985). Di dalam pengukuran hasil tersebut, sepertimana peringkat taksonomi Bloom
(Bloom, 1956) yang lebih tinggi (iaitu penilaian dan sintesis), menyatakan bahawa
soalan esei dapat digunakan untuk mencapai objektif tersebut.
Salah satu kesukaran di dalam menilai esei adalah kesubjektifan di dalam
proses pemarkahan. Ramai penyelidik mendakwa bahawa kesubjektifan dalam
penilaian esei mendorong kepada kepelbagaian gred yang diberikan oleh pakar
penilai yang berbeza, di mana ia dilihat oleh pelajar sebagai faktor ketidakadilan
yang sangat ketara. Tambahan pula, pemarkahan esei merupakan aktiviti yang
memakan masa. Sungguhpun begitu, wajarkah para pengkaji memperuntukkan
sebahagian besar masa untuk menyelidik sesuatu sekompleks bahasa dan
membangunkan sistem penilaian sehebat manusia? Menurut Valenti et al. (2003),
30% dari masa guru-guru di Great Britain digunakan untuk menanda (memberi
markah). Menurutnya lagi, sekiranya 30% masa tersebut ingin dikurangkan (yang
dianggarkan oleh pembayar cukai: bernilai 3 Billion Pound UK per tahun), kaedah
yang efektif, yang dipercayai oleh guru-guru, untuk menanda esei dan memberikan
maklumbalas teks ringkas (pendek) adalah diperlukan.
Oleh itu, penggunaan CbAS dilihat antara alternatif untuk mengatasi isu ini.
Sistem penilaian ini sekurang-kurangnya bersifat lebih konsisten dalam menilai esei
dan pengurangan kos serta penjimatan masa boleh dicapai sekiranya sistem boleh
dibuktikan mampu menilai esei di dalam julat (ruang lingkup) sepertimana yang
dinilai oleh manusia. Tambahan pula, menurut (Hearst, 2000), dengan menggunakan
komputer untuk meningkatkan kefahaman kita tentang ciri-ciri teks dan kemahiran
kognitif yang melibatkan penciptaan dan kefahaman teks yang ditulis, ianya akan
mendatangkan faedah kepada komuniti pendidikan. Malah “ia akan membantu kita
membangunkan lebih banyak bahan pendidikan yang efektif di dalam meningkatkan
pembacaan, penulisan dan lain-lain kebolehan komunikasi. Ia juga membantu kita
membangunkan lebih banyak teknologi yang efektif seperti enjin pencarian dan
sistem soal jawab untuk menyediakan capaian menyeluruh kepada maklumat
elektronik ” .
16
2.2
Latar Belakang Penilaian Esei Berbantukan Komputer
Kemampuan untuk berkomukasi dalam bahasa tabii merupakan antara ciriciri kepintaran manusia (Rudner dan Liang, 2002). Kemampuan ini cuba
diadaptasikan dalam bentuk penulisan untuk mempersembahkan bahasa manusia
menggunakan formula dan algoritma yang spesifik. Dengan itu, tidak mustahil untuk
membina sebuah program komputer yang berkebolehan untuk melakukan penilaian
penulisan seperti manusia. Namun, ia memerlukan pelbagai maklumat ciri-ciri
manusia seperti linguistik, kognitif dan lain-lain kebolehan yang diaplikasikan
bersama-sama teknik NLP, IR dan AI yang berkesan untuk menentukan samada
sesuatu penulisan (esei) itu dikategorikan sebagai baik atau sebaliknya.
2.2.1
Kajian Awal
Ellis Page telah menyediakan peringkat evolusi penilaian penulisan (lihat
Rajah 2.1). Berdasarkan kepada permintaan yang tinggi oleh para guru dan program
pengujian berskala-besar dalam menilai esei pelajar, Page membangunkan CbAS
yang dipanggil Project Essay Grader (PEG) (Cooper dan Odell, 1978). Beliau telah
melakukan kajian terhadap pelbagai ciri-ciri teks yang diekstrak secara automasi dan
mengaplikasikan Pengunduran Linear Stepwise (SLR) untuk menentukan kombinasi
ciri-ciri pemberat yang optimum untuk melakukan peramalan terbaik mengikut
penilaian guru. Keputusan PEG menunjukkan bahawa kolerasi penggandaan R
berbanding penilaian guru ialah setinggi 80% (Jerrams-Smith et al., 2001).
17
Kajian Rintis
PenilaianPenulisan
Kajian Semasa
PemarkahanEsei
Sistem
Pengoperasian
Computer Analysis
Of Essay Content
Burstein, et al.
PEG
Page
e-rater
ETS
Latent Semantic
Analysis
Knowledge
Analysis
Intelligent Essay
Writer’s
PEG
Technologies
Assessor
Page Workbench
Criterion
Landauer
et al.
MacDonald PEG
ETS Technologies
et al.
PEG
Page
Page dan Peterson
19661968
1982
19941995
1997
19982000
Kajian Semasa
ETS
Writing
Diagnostics
Chodorow
dan Leacock
Miltsakaki
dan Kukich
Burstein dan
Marcu
Kajian Lanjut dan
Aplikasi
Questionanswering
systems
Short-answer Light, et al
scoring
Verbal test
Leacock dan creation tools
Chodorow
StudentHirschman et
centered
al.
Instructional
Breck et al.
systems
2000
2000-
Rajah 2.1: Garismasa perkembangan kajian dalam bidang penilaian penulisan
(Hearst, 2000).
Pada tahun 1960-an, jenis ciri-ciri yang boleh diekstrak secara automasi
daripada teks adalah amat terhad kepada ciri-ciri luaran sahaja seperti purata panjang
perkataan, jumlah perkataan dalam esei, bilangan koma, bilangan kata ganti nama
dan bilangan perkataan yang tidak dikenali. Page hanya menggunakan pengukuran
ciri-ciri luaran kerana kesukaran mengimplementasi pengukuran ciri-ciri dalaman
(merangkumi ciri-ciri bahasa, elemen hujahan, gaya olahan) pada masa itu.
Oleh kerana kekangan tersebut, kemampuan sistem ini telah dipertikaikan.
Penggunaan pengukuran ciri-ciri luaran telah mendedahkan sistem kepada
berlakunya penipuan oleh pelajar seperti penulisan esei yang terlalu panjang untuk
mendapatkan markah yang lebih tinggi. Malah lebih buruk lagi, pengukuran ciri-ciri
luaran tidak mengambilkira kualiti yang penting sesebuah penulisan seperti
kandungan, organisasi (struktur) dan gaya olahan. Oleh itu, ianya tidak dapat
menyediakan maklumbalas pengajaran kepada pelajar. Oleh yang demikian, cabaran
utama bagi para pengkaji pada waktu itu ialah untuk mengenalpasti dan mengekstrak
kualiti penulisan secara automasi lebih kepada pengukuran ciri-ciri dalaman.
18
Pada awal 1980-an, Writer’s Workbench (WWB) telah mengambil langkah
utama mencapai matlamat tersebut (Freedman, 1983). WWB bukanlah sebuah sistem
penilaian-esei. Namun, ianya bermatlamat untuk menyediakan maklumbalas yang
membantu penulis tentang ejaan, pengucapan (perbendaharaan) dan kebolehbacaan.
Bagi pengujian ejaan, WWB memasukkan program perbendaharaan kata yang akan
mengenalpasti penyalahgunaan perkataan yang seringkali dilakukan. Ia juga
mengandungi program untuk melakukan pengiraan bagi pengukuran beberapa
piawaian kebolehbacaan berdasarkan kepada bilangan perkataan, suku kata dan ayat.
Walaupun sistem WWB masih belum melepasi tahap kajian permulaan tentang teks,
namun ianya berada di landasan terbaik untuk melakukan analisa berautomasi ke atas
kualiti penulisan.
Berdasarkan kajian yang dibuat, secara keseluruhannya, WWB mencapai
52% ketepatan dalam mengesan kesalahan ejaan dalam penulisan (Hsien-Chin Liou,
1993) Malah, Humphrey dan Shneiderman (1990) yang melakukan kajian ke atas
200 responden mendapati kira-kira 60% daripada responden tersebut yang memberi
maklumbalas positif berhubung penggunaan WWB dalam aplikasi penulisan mereka.
2.2.2
Kajian Semasa
Pada tahun 1990-an, penerokaan dalam bidang NLP dan IR menjadi
pemangkin kepada para pengkaji untuk mengaplikasikan alatan pengiraan dan teknik
yang baru (Brill dan Mooney, 1997) selaras dengan matlamat untuk melakukan
pengekstrakan secara automasi bagi esei menggunakan pengukuran ciri-ciri dalaman
terhadap kualiti penulisan. Malah antara faktor yang menyumbang kepada
perkembangan NLP pada awal 1990-an adalah disebabkan oleh suntikan pembiayaan
yang besar untuk tujuan penyelidikan oleh kerajaan US (Jacobs, 2001).
Panduan penilaian esei Analytical Writing Assessment (AWA) iaitu
sebahagian daripada General Management Aptitude Test (GMAT) telah menyatakan
tentang sebuah set kualiti secara umum dalam melakukan penilaian penulisan. Ianya
19
mengandungi kepelbagaian sintaksis(struktur ayat), kandungan topikal (elemen
hujahan) dan olahan idea (gaya olahan) (Burstein, et al., 2000). Pasukan pengkaji
Educational Testing Service (ETS), yang diketuai oleh Jill Burstein, melakukan
hipotesis ke atas sebuah set ciri-ciri linguistik yang menggunakan pengukuran
langsung (ciri-ciri dalaman) berdasarkan kualiti umum tersebut. Ciri-ciri tersebut
diekstrak secara automasi daripada esei menggunakan teknik-teknik NLP dan IR.
Sebagai contoh, pengkaji ETS boleh mengukur kepelbagaian sintaksis
berdasarkan ciri-ciri yang akan mengambilkira jenis ayat dan klausa dalam esei dan
boleh mendapatkan nilai penghampiran untuk ciri-ciri tersebut menggunakan alatan
pemproses sintaksis yang terdapat dalam NLP. Mereka juga boleh mengukur
kandungan topik menggunakan analisa kandungan perbendaharaan kata,
memperolehi nilai bagi ciri-ciri tersebut menggunakan Teknik Model Ruang Vektor
(VSM) yang mana ianya sering digunakan dalam bidang IR. Mereka menggunakan
teknik-teknik tersebut untuk mengira pengukuran penghampiran antara esei
berdasarkan kepada pemberat kekerapan istilah perbendaharaan kata yang wujud
dalam esei tersebut.
Walaubagaimanapun, para pengkaji masih memerlukan teknik yang lebih
sofistikated untuk mengenalpasti argumen esei secara individu dan menilai struktur
retorik ayat (Hearst, 2000; Little et al., 2001). Oleh itu, pengkaji ETS menghasilkan
sebuah teknik untuk mendapatkan nilai terhampir untuk ciri-ciri tersebut, di mana
esei tersebut dibahagi kepada beberapa argumen individu buat permulaannya
menggunakan teknik NLP berdasarkan kepada pengecaman tanda leksikal dan
sintaksis yang spesifik. Mereka kemudiannya mengaplikasikan analisa kandungan
perbendaharaan kata ke atas setiap argumen tersebut menggunakan kaedah Logik
Fuzzy (Little, 2001). Malah, Logik Fuzzy juga digunakan di dalam pengecaman dan
pengkelasan elemen-elemen hujahan dalam esei (Burstein et al., 2001). Namun
begitu, teknik yang lebih efektif dan efisyen adalah diperlukan untuk menambahkan
lagi kejituan bagi mengesan kesalahan struktur retorik ayat dalam setiap esei latihan.
Seterusnya, kita akan membincangkan pendekatan semasa dalam penilaian
esei berautomasi bagi beberapa jenis peperiksaan. Sistem-sistem yang akan
20
dibincangkan adalah seperti Project Essay Grade (PEG), Intelligent Essay Assessor
(IEA), Educational Testing Service I, Electronic Essay Rater (E-rater), Criterionrater (C-rater), Bayesian Essay Test Scoring sYstem (BETSY), Intelligent Essay
Marking System (IEMS), Schema Extract Analyse and Report (SEAR), Paperless
School free text Marking Engine (PS-ME) dan Automark. Kesemua sistem sedia ada
ini telah dibangunkan samada sebagai sistem komersial atau hasil daripada kajian
(prototaip) di dalam bidang ini. Perbincangan akan dilakukan ke atas struktur umum
dan perlaksanaan bagi setiap sistem. Di akhir bab ini, perbandingan pencapaian
setiap sistem akan turut dibincangkan.
2.2.2.1 Project Essay Grade (PEG)
PEG merupakan salah satu implementasi sistem pemarkahan esei
berautomasi yang terawal dan bertahan paling lama. Ianya telah dibangunkan oleh
Page dan ahli kumpulannya (Hearst, 2000; Page, 1994; Page, 1996) dan pada
peringkat awal pembangunannya, proses penilaian sistem hanya bergantung kepada
analisa gaya ciri-ciri linguistik luaran bagi blok teks itu sahaja. Dengan itu, sesebuah
esei dinilai dengan lebih menjurus kepada asas kualiti penulisan semata-mata,
dengan tidak mengambilkira aspek isi kandungannya.
Pendekatan rekabentuk yang digunakan untuk membangunkan PEG ini
adalah berdasarkan kepada konsep ‘proxes’ (pembolehubah peramal) untuk
menyamai penilaian markah manusia (Little, 2001). Proxes mengandungi tiga
elemen iaitu:
(i)
panjang esei (bilangan perkataan dalam esei) sebagai mewakili trin
(ciri) kelancaran
(ii)
bilangan kata depan, ganti nama relatif dan bahagian pertuturan yang
lain sebagai pengukur kepada kekompleksian struktur ayat
(iii)
variasi dari segi panjang perkataan untuk menunjukkan diksi (kerana
perkataan yang jarang wujud biasanya lebih panjang aksaranya).
21
Proxes yang diperolehi menggunakan set esei latihan, kemudiannya akan
ditukar dalam bentuk matrik dan digunakan dalam pengunduran berganda piawai
bersama-sama dengan gred markah penilai manusia yang diberi untuk esei latihan
tersebut bagi mendapatkan pekali pengunduran. Pekali pengunduran ini mewakili
penganggaran terbaik gred markah penilaian manusia yang diperolehi berdasarkan
proxes. Seterusnya, ianya digunakan bersama-sama dengan proxes yang diperolehi
daripada esei yang belum dinilai (ditanda) untuk membuat peramalan gred. PEG
secara keseluruhannya bergantung kepada pendekatan statistik semata-mata
berdasarkan kepada anggapan bahawa kualiti esei adalah diperolehi menggunakan
proxes yang-boleh-diukur.
Rajah 2.2: Versi demo Sistem PEG yang dipaparkan di laman web.
Tiada sebarang teknik NLP yang digunakan dan kandungan leksikal tidak
diambilkira langsung dalam menilai gred markah oleh PEG. PEG juga memerlukan
latihan, dalam bentuk penilaian ke atas beberapa esei yang telah dinilai secara
manual sebelum ini untuk proxes, untuk mendapatkan pekali pengunduran, yang
mana seterusnya membolehkan penilaian ke atas esei baru (ujian) dibuat.
Keputusan pencapaian eksperimen terbaru Page mencapai kolerasi
pengunduran berganda setinggi 87% berbanding penilai manusia.
22
2.2.2.2 Intelligent Essay Assessor (IEA)
IEA telah dibangunkan pada akhir 90-an (Hearst, 2000; Jerrams-Smith et al.,
2001) dan ianya adalah berpandukan kepada teknik Analisa Semantik Latent (LSA).
Ianya direkabentuk pada asalnya dengan tujuan untuk pengindeksan dokumen dan
perolehan teks (Deerwester et al., 1990). LSA mewakilkan dokumen dan kandungan
perkataannya dalam ruang semantik matrik dua-dimensi yang besar (Whittington dan
Hunt, 1999).
Dengan menggunakan teknik algebra matrik yang dikenali sebagai
Penguraian Nilai Tunggal (SVD), hubungan baru antara perkataan-perkataan dan
dokumen-dokumen telah ditemui dan hubungan yang wujud telah diubahsuai supaya
ianya lebih tepat untuk menunjukkan maksudnya yang sebenar. Matrik mewakili
perkataan-perkataan dan konteksnya. Setiap perkataan yang dianalisa mewakili baris
dalam matrik, manakala setiap lajur pula mewakili ayat, perenggan dan subbahagian
lain dalam konteks di mana perkataan itu wujud. Sel matrik tersebut pula
mengandungi kekerapan perkataan dalam setiap konteks. Matrik awal ini seterusnya
akan ditukar berdasarkan kepada pendekatan pemberat kekerapan dokumen
songsang, teknik yang seringkali digunakan dalam domain pengindeksan dan
perolehan maklumat.
23
Rajah 2.3: Contoh maklumbalas yang diberikan oleh Sistem IEA.
SVD ini seterusnya akan diaplikasikan ke atas matrik untuk subbahagikannya
kepada tiga matrik komponen yang mana ianya akan menghasilkan matrik asal
sekiranya ketiga-tiga matrik komponen itu didarabkan sesama sendiri. Dengan
menggunakan dimensi ketiga-tiga matrik teringkas (yang telah dikecilkan) ini di
mana hubungan konteks-kata boleh diwakilkan, hubungan yang baru antara
perkataan dan konteks akan dihasilkan apabila pembangunan semula penganggaran
terhampir kepada matrik asal daripada dimensi matrik SVD komponen teringkas
dilaksanakan.
Untuk menilai esei, sebuah matrik untuk dokumen esei akan dibina dan
kemudiannya akan ditukarkan menggunakan teknik SVD untuk menghasilkan
semula penghampiran matrik menggunakan dimensi matrik teringkas yang telah
dibina untuk ruang semantik domain topik esei. (Ruang semantik biasanya terdiri
daripada esei yang telah dinilai oleh manusia). Kolerasi kosinus digunakan untuk
mengukur penghampiran ruang dimensi teringkas yang dibangunkan daripada
‘model jawapan’, contohnya ialah teks pendidikan yang diperolehi daripada teks
kursus atau esei yang disediakan oleh tutor, selain daripada esei pelajar.
24
Analisa Semantik Latent (LSA) menganggap bahawa susunan perkataan
adalah tidak penting sekiranya pembangun menyatakan bahawa ianya bukan
merupakan faktor penting untuk menggambarkan maksud dalam perenggan
berkenaan. Ianya juga memerlukan saiz data yang besar untuk membina perwakilan
matrik perkataan digunakan/wujud yang bersesuaian dan disebabkan oleh saiz matrik
tersebut, maka ianya menyebabkan berlakunya masalah pengiraan yang lembap,
rumit dan tidak cekap.
Ciri-ciri yang baik bagi IEA termasuklah kos unit yang agak rendah,
maklumbalas yang pantas dan pengesanan peniruan. Tambahan lagi, pembangun
menyatakan bahawa sistem ini adalah sangat sesuai digunakan untuk menganalisa
esei berbentuk penerangan bagi topik seperti sains, kajian sosial, sejarah, perubatan
atau perniagaan, tetapi tidak sesuai untuk menilai pengetahuan berbentuk fakta. IEA
secara automasinya akan menilai dan mengkritik (memberi maklumbalas) teks esei
yang dihantar secara elektronik dan menjadikannya sebuah alatan bebas-domain
yang sangat berguna. Ianya menghasilkan maklumbalas serta-merta dari aspek
kandungan dan kualiti bagi penulisan pelajar.
Ujian yang dilakukan ke atas esei GMAT menggunakan sistem IEA
menunjukkan bahawa peratusan persetujuan terhampir berbanding penilai manusia
adalah antara 85%-91%.
2.2.2.3 Educational Testing Service (ETS I)
Sistem ini, telah dibangunkan oleh Burstein dan Kaplan daripada ETS pada
awal 90-an. Ianya hanya melaksanakan operasi ke atas pecahan ayat yang
mengandungi 15 hingga 20 patah perkataan (Whittington dan Hunt, 1999). Teknik
yang digunakan ialah teknik lesikal-semantik untuk membina sistem penilaian,
berpandukan kepada set data bersaiz kecil. Ianya menggunakan domain-spesifik iaitu
berpandukan konsep leksikon dan konsep tatabahasa, yang mana kedua-duanya
dibangunkan daripada data latihan.
25
Esei data latihan akan dipecahkan/dihuraikan menggunakan alatan Microsoft
Natural Language Processing (MsNLP), di mana semua imbuhan akhiran dibuang
secara manual dan senarai kata henti turut dikeluarkan. Ini akan menghasilkan
leksikon. Senarai kata dan istilah dalam leksikon adalah sentiasa tetap manakala ciriciri yang dihubungkan dengan setiap masukan (input) adalah bersifat modular, oleh
itu ianya boleh digantikan sekiranya perlu. Sebahagian pengkelasan manual adalah
diperlukan.
Seterusnya, peraturan tatabahasa dibangunkan dan sekali lagi secara
manualnya, untuk setiap kategori jawapan (setiap kategori sepatutnya mengandungi
kesemua parafrasa untuk jawapan yang berkemungkinan tersebut) menggunakan
penghuraian sintaksis ayat daripada data latihan bersama-sama dengan leksikon.
Esei baru (ujian) kemudiannya akan dihuraikan menggunakan program
pengekstrakan nod frasa yang menghasilkan output frasa nama (NP), frasa kerja
(VP), frasa depan (PP), klausa infinitif (INFCL), klausa subordinat (SUBCL), frasa
sifat (ADJP) dan frasa penerang (ADVP) yang terdapat di dalam ayat. Kesemua frasa
dan klausa yang mewakili (constituent) nod kemudiannya akan ditukar kepada
perwakilan umum, XP (X Phrase). Setiap satu XP dan kombinasi XP berganda akan
dipadankan menggunakan konsep tatabahasa untuk setiap kandungan kategori bagi
mendapatkan padanan peraturan (Burstein et al., 1999).
(i)
Input Argumen
Cops are better trained in self-defense
(ii)
Melabelkan (tag) nod frasa daripada argumen yang telah dipecahkan
[Cops = POLICE] NP
[better = BETTER, trained = TRAINED] VP
[self-defense = SAFETY] PP
(iii)
Nod frasa ditukarkan kepada perwakilan umum, XP
XP: [Cops = POLICE]
XP: [better = BETTER, trained = TRAINED]
XP: [self-defense = SAFETY]
26
(iv)
Membuat padanan nod yang telah dilabelkan dengan konsep peraturan
tatabahasa.
XP: [POLICE], XP: [BETTER, TRAINED], XP: [SAFETY]
Jenis frasa XP adalah diperolehi daripada sintaksis X-bar, yang akan
memodelkan ciri-ciri biasa antara komponen sintaksis yang berbeza bagi frasa nama,
frasa kerja, frasa depan, klausa infinitif, klausa subordinat, frasa sifat dan frasa
penerang. Sintaksis X-bar akan mewakilkan struktur sintaksis ayat (argumen)
tersebut (Gerdes dan Kahane, 2001) seperti dalam Rajah 2.4.
P
N
|
Police
NP
V
|
better
VP
V
|
trained
PP
safety
Rajah 2.4: Pepohon sintaksis X-bar.
Selain daripada membangunkan peraturan tatabahasa yang berbeza bagi
setiap jenis frasa yang berlainan, peraturan umum sintaksis X-bar juga ditukarkan
kepada peraturan tunggal yang boleh diaplikasikan secara keseluruhannya kepada
semua komponen sintaksis tersebut.
Sistem ini melibatkan banyak pra-pemprosesan dan sebahagian besar
daripadanya ialah secara manual. Ianya melibatkan proses latihan untuk
pembangunan leksikon, pembinaan ciri berasaskan-komputer dan pemadanan (fine
tuning) Perwakilan Struktur-Konsep (CSR). Sebaliknya, penjanaan CSR dan
penjanaan perturan dibuat secara automasi (Burstein et al., 1997). Walaupun
27
pembangun mempertikaikan tentang kos, namun begitu dari segi masa, ianya masih
lagi dikira sebagai menjimatkan.
Para pembangun sistem ETS I menyatakan bahawa 80% ketepatan diperolehi
setelah menilai set esei ujian dan 90% ketepatan diperolehi setelah menilai keduadua esei latihan dan ujian (menggunakan latihan sistem ke atas set esei dan
seterusnya memasukkannya ke dalam set ujian sebagai sebahagian daripada
penilaian). Faktor kesalahan yang seringkali wujud adalah disebabkan oleh ruang
dalam leksikon (bagi perkataan yang tidak ditentukan secara manual sebagai
metonimi).
Dalam laporan eksperimen kedua, para pembangun menerima leksikon yang
dikembangkan (ditambah). Untuk membangunkan ini, leksikon baru terlibat dalam
memeriksa set ujian sebagaimana set latihan untuk menggantikan metonimi secara
manual. Ini membolehkan 93% ketepatan diperolehi setelah menilai set ujian dan
90% ketepatan diperolehi setelah menilai kedua-dua set latihan dan ujian.
2.2.2.4 Electronic Essay Rater (E-rater)
E-rater telah dibangunkan oleh Burstein dan ahli kumpulannya (Burstein et
al., 1998; Burstein et al., 2001). E-rater menggunakan alatan MsNLP bertujuan
untuk menghuraikan semua ayat dalam esei.
E-rater menggunakan kombinasi kaedah statistik dan teknik NLP untuk
mengekstrak ciri-ciri linguistik daripada esei untuk dinilai. Esei dinilai dengan
melakukan perbandingan dengan set pencapaian esei yang dinilai oleh manusia.
Dengan E-rater, sesebuah esei yang tidak menyimpang daripada topik soalan,
mempunyai struktur argumen yang kuat, berkaitan dan diolah dengan baik serta
menunjukkan kepelbagaian penggunaan kata dan struktur sintaksis akan menerima
markah akhir yang lebih tinggi berdasarkan skala enam-mata (gred A adalah
28
merupakan esei yang paling lemah, manakala gred F adalah esei yang mempunyai
ciri-ciri esei yang terbaik).
Rajah 2.5: Antaramuka ramah-pengguna Sistem E-rater versi berasaskan-web.
Ciri-ciri E-rater termasuklah analisa struktur hujahan, analisa struktur
sintaksis dan analisa penggunaan perbendaharaan kata (analisa domain). E-rater
menggunakan pendekatan berpandukan-korpus untuk membina model dengan
menggunakan data esei sebenar untuk menganalisa ciri-ciri sampel maklumbalas
esei. Aplikasi ini telah direkabentuk untuk mengenalpasti ciri-ciri dalam teks yang
mempengaruhi kualiti penulisan yang dispesifikasikan dalam skema (kriteria)
pemarkahan penilaian dan kini direkabentuk berdasarkan lima modul tak bersandar
(bebas) yang utama.
Tiga daripada modul akan mengenalpasti ciri-ciri yang mungkin digunakan
sebagai skema panduan pemarkahan yang mewakili kepelbagaian sintaksis,
organisasi idea dan penggunaan perbendaharaan kata dalam esei. Ini kerana, ciri-ciri
tersebut dipilih daripada senarai ciri yang bersaiz besar untuk mendapatkan ciri teras
(core) dan signifikan untuk membuat peramalan penilaian menggunakan Algoritma
29
SLR (Attali, 2004). Modul tak bersandar keempat digunakan untuk memilih dan
mempertimbangan ciri-ciri ramalan untuk penilaian esei. Akhir sekali, modul
terakhir digunakan untuk mengira markah akhir.
E-rater kini telah dimasukkan ke dalam Criterion, sistem versi masa-nyata
berasaskan-web yang dibangunkan oleh ETS Technologies. Komponen maklumbalas
tambahan dengan ciri-ciri penerangan (advisory) telah ditambah ke dalam sistem.
Penerangan adalah berdasarkan kepada pengukuran statistik dan bebas sepenuhnya
daripada penilaian/markah yang dijana oleh E-rater, dengan itu ianya menyediakan
maklumbalas tambahan tentang kualiti penulisan dari segi topik dan kelancaran
sahaja. E-rater dilatih daripada 270 esei yang telah dinilai secara manual oleh penilai
manusia. E-rater adalah jauh lebih kompleks dan memerlukan lebih latihan
berbanding sistem sedia ada yang lain. Tambahan pula, tiada demonstrasi secara
online dan tiada versi cubaan E-rater (trial version) yang boleh dimuat-turun dan
disediakan untuk komuniti saintifik.
Lebih 750 000 esei GMAT telah ditanda, dengan kadar kesetaraan antara
kepakaran manusia dan sistem secara konsisten adalah dari 94%. Dengan
membandingkan penilaian manusia dan E-rater melalui 15 soalan ujian, hasil dari
kajian empirikal menunjukkan julat kesetaraan adalah antara 87% hingga 94%.
2.2.2.5 Conceptual Rater (C-rater)
C-rater ialah prototaip berasaskan NLP yang mensasarkan penilaian ke atas
jawapan pendek yang berkaitan dengan soalan berpandukan-kandungan seperti yang
terdapat di dalam bahagian ulasan bab (chapter review) pada buku teks (Burstein et
al., 2001). C-rater menggunakan banyak alatan dan Teknik NLP yang dibangunkan
untuk E-rater, walaupun hakikatnya kedua-dua sistem ini banyak berbeza dari segi
kaedah perlaksanaannya.
30
E-rater beroperasi untuk menilai kemahiran menulis berbanding kandungan
spesifik manakala C-rater digunakan untuk menilai maklumbalas samada ianya betul
atau salah. Matlamat ini akan dicapai dengan menilai samada maklumbalas
mengandungi maklumat yang berkaitan dengan konsep domain yang spesifik atau
sebaliknya. Jika maklumbalas tersebut ada menunjukkan konsep itu, maka ia dinilai
sebagai betul; sebaliknya jika tiada, ia dinilai sebagai salah tanpa mengambilkira
kemahiran menulis.
Tambahan pula, E-rater menyediakan gred di mana sebahagiannya adalah
berdasarkan kepada struktur retorik bagi esei manakala C-rater perlu mengenalpasti
kandungan spesifik. Ianya menjana analisa terperinci terhadap hubungan logikal
antara komponen sintaksis bagi setiap ayat yang terdapat dalam maklumbalas. Crater tidak memerlukan kumpulan jawapan bersaiz besar yang telah dinilai untuk
tujuan latihan. Lagi pun, ia menggunakan keadah ‘satu jawapan betul sahaja’
berdasarkan panduan arahan atau skema jawapan kerana dipercayai adalah tidak
wajar jika memerlukan pengumpulan data yang banyak hanya untuk menilai kuizkuiz tahap rendah secara relatif, terutamanya bagi set soalan pendek yang selalu
diberikan di akhir bab di dalam buku teks.
C-rater mencapai lebih 80% kesetaraan (persetujuan) berbanding markah
yang dinilai oleh manusia.
2.2.2.6 Bayesian Essay Test Scoring sYstem (BETSY)
BETSY merupakan program yang mengelaskan teks berdasarkan pada bahan
yang dilatih dan dibangunkan oleh Lawrence M. Rudner dari College Park of the
University of Maryland dengan biayaan daripada Jabatan Pendidikan U.S. (Rudner
dan Liang, 2002).
Menurut Rudner dan Liang (2002) lagi, matlamat sistem ini ialah untuk
menentukan penghampiran pengkelasan esei kepada skala nominal empat-mata iaitu
31
terperinci, baik, sederhana dan tidak memuaskan dengan menggunakan set ciri-ciri
yang bersaiz besar termasuklah kedua-dua isu spesifik, iaitu isu kandungan dan gaya.
Model asas (underlying) untuk pengkelasan teks adalah menggunakan Model
Multivariate Bernoulli (MMB) dan Model Multinomial (MM).
Dengan menggunakan MMB (rujuk Rumus 2.1), setiap esei dilihat sebagai
kes khusus bagi semua ciri penentukur dan kebarangkalian bagi setiap markah untuk
esei yang diberi adalah dikira sebagai hasil darab kebarangkalian bagi ciri-ciri yang
terkandung di dalam esei.
Dj
P( wt | c j )
1 ¦ Bit
i 1
J Dj
(Rumus 2.1)
di mana Bit menunjukkan samada ciri t berada dalam esei i, P ( wt | c j ) menunjukkan
kebarangkalian samada ciri wi berada dalam esei yang bergred c j . D j adalah
bilangan esei latihan bagi kumpulan yang telah dinilai c j , dan J adalah bilangan
kumpulan penilaian. Pengangka 1 dan penyebut J adalah nilai Laplacian untuk
membuat kebarangkalian dan mengelakkan nilai P ( wt | c j ) menjadi sifar. Nilai sifar
bagi P ( wt | c j ) akan mempengaruhi Rumus 2.1 seterusnya mengakibatkan ciri
selebihnya tidak berguna.
Dengan MM pula (rujuk Rumus 2.2), kebarangkalian bersyarat bagi
kewujudan setiap ciri diramal menggunakan jumlah esei di dalam setiap kategori
yang mengandungi ciri tersebut. Model ini memerlukan masa yang panjang untuk
melakukan pengiraan kerana setiap istilah dalam perbendaharaan kata perlu
diperiksa.
32
Dj
P( wt | c j )
1 ¦ N it
i 1
Dx
(Rumus 2.2)
V ¦ N it
i 1
di mana N it adalah bilangan ciri wt berada dalam esei i, c j adalah kebarangkalian
ciri P( wt | c j ) digunakan dalam esei yang bergred c j . Dx adalah jumlah esei.
Kedua-dua MM dan MMB dianggap sebagai model naive Bayes kerana ianya
dianggap sebagai kebebasan-bersyarat. Menurut pembangunnya, BETSY adalah
bergantung kepada pendekatan yang mungkin menggabungkan ciri-ciri terbaik PEG,
LSA (Landauer et al., 1998) dan E-rater, “ditambah dengan beberapa ciri penting
yang memberi kelebihan kepada sistem ini. Ianya boleh diaplikasikan ke atas esei
pendek, yang mana ianya mudah untuk diimplementasikan, boleh diaplikasikan ke
atas esei kandungan berskala besar, boleh digunakan untuk mendapatkan keputusan
diagnostik, boleh diadaptasikan untuk memperoleh pengkelasan bagi kebolehan yang
berbeza (pelbagai) dan mudah untuk diperjelaskan kepada bukan ahli statistik”
(Rudner dan Liang, 2002).
BETSY merupakan program berasaskan-Windows yang ditulis dalam Power
Basic dan berkesan dalam menjana pengiraan. Tambahan pula, BETSY merupakan
satu-satunya perisian sistem penilaian yang boleh dimuat turun dan boleh digunakan
secara percuma berbanding sistem penilaian lain.
Rudner dan Liang (2002) melaporkan tentang dua model pengkelasan teks
yang ditentukur menggunakan 462 esei dengan dua mata penilaian. Sistem
penentukur ini kemudiannya diaplikasikan ke atas 80 esei separa penilaian, dengan
40 esei bagi setiap kumpulan penilaian. Ketepatan melebihi 80% telah dicapai
dengan set data berserta penerangannya.
33
2.2.2.7 Intelligent Essay Marking Systems (IEMS)
IEMS adalah berpandukan kepada Rangkaian Neural Pengindeksan Corak
(Indextron) yang dibangunkan di NGEE ANN Polytechnic (Ming et al., 2000).
Sistem ini boleh digunakan sebagai alatan penilaian untuk tujuan diagnostik dan
pengajaran dalam pelbagai subjek berpandukan-kandungan.
Para pelajar akan diberi maklumbalas dengan lebih pantas dan boleh
mengenalpasti di mana dan mengapa mereka memperolehi markah/gred yang baik
atau sebaliknya. Dengan itu, ianya boleh diserapkan ke dalam sistem pengajaran
pintar yang mana boleh membantu pelajar untuk menulis dengan lebih baik dengan
melakukan penilaian esei dengan pantas serta menyediakan maklumbalas secepat
mungkin. Pemarkahan esei adalah berdasarkan kepada jenis kualitatif berbanding
jenis numerik. Indextron ditakrifkan sebagai algoritma pengklusteran spesifik.
Namun begitu, algoritma tersebut bukanlah rangkaian neural. Walaubagaimanapun,
algoritma pengklusteran ini boleh diimplementasikan sebagai rangkaian neural.
Rangkaian neural berasaskan-Indextron ini cuba untuk mengatasi masalah latihan
yang perlahan (tidak-meningkat), yang menggunakan Rangkaian Neural Buatan
tradisional yang biasa.
Menurut Ming et al. (2000), eksperimen yang melibatkan penilaian esei yang
dihasilkan daripada 85 orang pelajar digunakan untuk membangunkan modul bagi
Penulisan Laporan Projek dan diperolehi daripada enam kelas Kejuruteraan
Mekanikal tahun tiga, memperoleh kolerasi sebanyak 0.8 (80%).
2.2.2.8 Automark
Automark adalah sistem perisian yang dibangunkan dengan menekankan ciriciri penilaian berkomputer tahan lasak/tegap bagi jawapan teks-bebas untuk soalan
terbuka (Mitchell et al., 2002). Automark mengaplikasikan teknik NLP untuk
menilai maklumbalas terbuka. Tempoh pembangunan perisian telah memakan masa
34
hampir tiga tahun dan kini telah diaplikasikan dalam produk e-Learning secara
komersial pada akhir bulan lalu (Mitchell et al., 2002).
Prosidur penilaian berdasarkan Automark kini telah dibangunkan untuk
beberapa institut pengajian tinggi, termasuklah Brunel University di mana pada
waktu itu, ujian Java online untuk pelajar jurusan kejuruteraan tahun pertama masih
di dalam peringkat pembangunan. Dengan penggunaan sistem ini, empat kriteria
telah dikenalpasti; mengenalpasti ralat ejaan, menganalisa struktur ayat,
mengenalpasti jawapan yang salah dan menilai maklumat yang tidak terdapat dalam
skema pemarkahan (Perez, 2004). Sistem ini menggabungkan beberapa modul
pemprosesan sebagai mensasarkan untuk penyediaan penilaian yang tegap dalam
usaha untuk mengatasi kesalahan dari segi ejaan, penaipan/penulisan, sintaksis dan
semantik. Automark memfokuskan terhadap kandungan spesifik di dalam jawapan
teks-bebas, yang mana kandungannya telah dispesifikasikan dalam bentuk beberapa
pencontoh (template) skema pemarkahan. Setiap pencontoh mewakili satu bentuk
jawapan sah atau tidak sah yang dispesifikasikan. Pembangunan pencontoh ini dalam
skema pemarkahan berkomputer merupakan proses offline, dicapai melalui
antaramuka konfigurasi sistem penulisan-khas. Perwakilan pencontoh ini cukup
tegap untuk menangani/mengawal kepelbagaian teks input.
Perlaksanaan proses pemarkahan adalah melalui beberapa peringkat. Pertama,
teks input yang berbentuk separa-proses dipiawaikan dari segi tanda baca dan ejaan.
Setelah itu, penganalisa ayat akan mengenalpasti elemen sintaksis yang penting bagi
teks dan bagaimana ianya dihubungkan. Modul padanan-corak akan mencari
padanan antara pencontoh skema pemarkahan dan elemen sintaksis bagi teks pelajar.
Akhir sekali, modul maklumbalas akan memproses keputusan bagi corak yang
dipadankan. Maklumbalas biasanya disediakan dalam bentuk markah, tetapi
maklumbalas yang lebih spesifik/terperinci mungkin akan diperolehi.
Automark telah diuji di National Curriculum Assessment of Science (NCAS)
untuk pelajar berumur 11 tahun. Bentuk maklumbalas ialah: penjanaan kata tunggal,
penjanaan nilai tunggal, penjanaan ayat penerangan pendek, penerangan bagi corak
dalam data. Kolerasi yang dicapai berjulat antara 93% dan 96%.
35
2.2.2.9 Schema Extract Analyse and Report (SEAR)
SEAR merupakan sebuah sistem yang dibangunkan oleh Christie (1999) yang
juga merupakan hasil kajian PhD beliau menggunakan Teknik Pengekstakan
Maklumat (IE). Menurut Christie, pemarkahan esei berautomasi memerlukan
penilaian ke atas gaya olahan dan isi kandungan (yang mana bersesuaian) (Christie,
2003). Dengan itu, sistem akan menyediakan kaedah yang fleksibel (bolehdikembangkan) untuk menilai kedua-dua gaya olahan dan isi kandungan dalam esei
secara automasi.
Metodologi yang digunakan untuk menilai gaya olahan adalah berpandukan
kepada set metrik yang biasa di samping memerlukan beberapa penentukur awalan.
Pada dasarnya, penilaian berbantukan-komputer bagi gaya olahan adalah
berpandukan kepada pra-penentuan tentang calon/elemen metrik, menggunakan
subset esei (yang telah dinilai secaramanual) sebagai set latihan (Perez, 2004).
Kemudiannya, proses penentukur akan dimulakan dengan mengubahsuai pemberat
untuk setiap metrik sehingga persetujuan penilaian antara manusia dan komputer
yang boleh diterima telah diperolehi. Setelah itu, pemprosesan akan dilaksanakan ke
atas keseluruhan set esei.
Bagi penilaian isi kandungan pula, esei yang berbentuk teknikal akan menjadi
calon untuk jenis penilaian ini (ianya berada di hadapan/di atas dalam sempadan
spektrum isi kandungan) akan diambilkira untuk dipertimbangkan.
Bagi SEAR, skema isi kandungan hanya akan disediakan sebanyak sekali dan
akan disemak dengan adil, pantas dan mudah. Tambahan lagi, skema isi kandungan
SEAR tidak memerlukan samada ‘latihan’ atau ‘penentukuran’, walaupun latihan
biasa dengan menggunakan sampel untuk menentukan kaedah akan diusulkan
(recommended). Skema ini akan dijadikan sebagai struktur data ringkas. Dua
pengukuran yang digunakan sebagai alat untuk membantu proses pemarkahan
berautomasi ialah ‘penggunaan’ dan ‘liputan’. Alat yang pertama (penggunaan)
adalah digunakan untuk mengukur bilangan kekerapan setiap esei yang telah
36
digunakan, manakala yang seterusnya (liputan) adalah untuk mengukur bilangan
kekerapan skema esei yang telah digunakan oleh esei yang sedang dinilai. Kedua-dua
pengukuran ini akan menjadi peralatan untuk menunjukkan hubungan antara setiap
esei dan skema.
SEAR telah diapliksaikan untuk menilai esei tentang sejarah ringkas Robert
Gordon, iaitu pengasas Robert Gordon University. Keputusan yang dicapai adalah
dari 30% korelasi Pearson (0.05 signifikan) hingga 59.4% korelasi Pearson (0.01
signifikan). Berdasarkan korelasi Spearman, pencapaiannya adalah dari 39.4%
hingga 59.6% (0.01 signifikan) (Perez, 2004). Menurut Christie (2003) lagi, masalah
utama yang dikenalpasti ialah kelemahan gaya penilaian set esei, kekeliruan menilai
kesalahan pelajar dari segi ejaan dan tatabahasa oleh sistem dan menggunakan
kepelbagaian penyataan untuk menyatakan maksud yang sama.
2.1.1.10 Paperless School free-text Marking Engine (PS-ME)
PS-ME telah direkabentuk sebagai komponen integrasi (gabungan) bagi Webbased Learning Management System (Mason dan Grove-Stephenson, 2002) dan kini
telah dikomersialkan (Perez, 2004). Berdasarkan kepada keperluan pemprosesan,
PS-ME tidak melakukan pemarkahan esei dalam masa-nyata.
Sistem ini mengaplikasikan teknik-teknik NLP untuk menilai esei pelajar
dalam usaha untuk mendedahkan tahap kecekapannya dari segi pengetahuan,
pemahaman dan penilaian. Esei pelajar akan dihantar kepada server (pelayan),
bersama-sama dengan maklumat tentang tugas (perlaksanaan) untuk mengenalpasti
teks induk (master) yang betul untuk tujuan perbandingan. Setiap tugas adalah
ditakrifkan melalui bilangan teks induk yang berkaitan dengan soalan yang akan
dijawab. Isu penting akan didedahkan dengan kewujudan teks induk ‘negatif’ yang
mengandungi set pernyataan yang salah yang dihasilkan daripada kesilapan dan
salah-konsep pelajar yang biasa. Esei yang akan dinilai akan dibandingkan dengan
setiap teks induk yang berkaitan untuk menghasilkan beberapa parameter yang
37
mewakili pengetahuan dan pemahaman yang ditunjukkan oleh pelajar. Kebolehan
untuk menilai parameter adalah dikira melalui analisa linguistik sepertimana yang
telah diterangkan di atas. Apabila terdapat beberapa teks induk terlibat dalam
perbandingan, setiap keputusan daripada perbandingan individu akan memperoleh
pemberat, yang mana boleh menjadi negatif dalam kes teks induk yang mengandungi
salah-konsep. Pemberat akan diperolehi semasa fasa latihan awal.
Parameter individu dikira semasa fasa analisa seterusnya akan digabungkan
dalam persamaan numerik (ungkapan berangka) untuk mendapatkan gred tugasan
(biasanya gred National Curriculum atau peringkat GCSE). Parameter juga akan
digunakan untuk memilih komen spesifik daripada bank komen yang berkaitan
dengan tugas. Dengan susunatur (set-up) yang terperinci, ianya berpotensi untuk
menyediakan kepada pelajar dengan maklumbalas formatif (pembentuk) tentang
pencapaiannya dalam aspek yang berbeza bersama-sama dengan subjek yang
diberikan. Output daripada proses penilaian kemudiannya dikembalikan kepada
pelajar untuk dibentangkan kepada guru. Ini termasuklah maklumat terperinci
terutamanya pada bahagian esei yang baik atau lemah yang berkaitan dengan faktor
pengetahuan, pemahaman dan penilaian.
Susunatur proses penilai automasi untuk perlaksaan penilaian adalah bersifat
sangat ‘lurus’ (straightforward): pilih teks induk, daripada beberapa sumber seperti
buku teks, ensiklopedia atau laman web yang berkaitan (sistem ini adalah sangat
toleran (boleh menerima) kewujudan berganda kandungan antara teks induk, tetapi
boleh mengurangkan/hilangkan ketepatan sekiranya teks induk menggunakan
tatabahasa yang sangat kompleks); mempunyai sampel yang dinilai secara manual
(boleh jadi serendah (paling sedikit) 30 buah esei, ianya perlu dilaksanakan sebanyak
sekali ke atas setiap tugas, untuk menghasilkan pemberat yang tepat bagi menilai
parameter yang dikira oleh sistem penilaian); janakan sampel yang sama
menggunakan penilai dan melaksanakan analisa pengunduran, yang mana ianya cuba
untuk mendapatkan keputusan (fit) yang terbaik antara gred yang diberikan oleh
penilai dan semua keputusan yang dihasilkan daripada kombinasi parameter; pindah
turun data keputusan kepada server.
38
Menurut Perez (2004), walaupun PS-ME telah dikomersialkan, namun Mason
dan Grove-Stephenson masih belum mengumumkan pencapaian PS-ME tersebut.
2.2.3
Isu/Analisa Kajian
Pada tahun 1996, Page memperkenalkan perbezaan antara pemarkahan esei
dari aspek kandungan dan pemarkahan esei dari aspek gaya (selain daripada aspek
struktur ayat), di mana bagi aspek kandungan, secara kasarnya ianya merujuk kepada
apa yang ‘diperkatakan’ (dinyatakan) oleh esei, manakala bagi aspek gaya pula,
ianya merujuk kepada “sintaksis, mekanik (cabang sains) dan pemilihan kata serta
aspek lain tentang bagaimana ianya dinyatakan” (Page, 1996). Sebahagian daripada
sistem yang telah dibincangkan sebelum ini menilai esei berdasarkan kepada satu
aspek sahaja iaitu samada dari aspek kandungan (IEA, ETS I, C-rater) ataupun dari
aspek gaya (PEG). Manakala, sebahagian sistem yang lain pula mengambilkira
kedua-dua aspek (E-rater, BETSY, SEAR, Automark, PS-ME) dalam penilaiannya.
Alternatif lain yang mungkin digunakan untuk mengkelaskan CbAS
bergantung kepada pendekatan yang diadaptasikan untuk penilaian gaya dan/atau
kandungan.
Menurut Page, pembolehubah intrinsik (ciri) yang penting untuk menilai gaya
esei, contohnya kelancaran, pemilihan kata, tatabahasa dan penggunaan tanda baca,
tidak boleh diukur secara langsung tetapi boleh dinilai melalui proxes (persamaan
pengunduran). Sebagai contoh, kelancaran “adalah dikorelasi dengan proxes
berdasarkan bilangan perkataan” (Page, 1994).
Oleh yang demikian, platform penilaian esei berautomasi mungkin boleh
dikelaskan berdasarkan kepada pendekatan yang digunakan untuk mengukur aspek
kandungan dan gaya. Kita akan menggunakan istilah “Simulasi Perkadaran” untuk
sistem CbAS yang mengukur kualiti esei berdasarkan pembolehubah-pembolehubah
intrinsik yang signifikan samada bagi aspek kandungan mahupun aspek gaya
39
menggunakan proxes dan “Analisa Induk” bagi sistem CbAS yang mengukur kualiti
esei berdasarkan dimensi yang sebenar iaitu menggunakan skema penilaian esei
sebagai panduan pemarkahan (Williams, 2001).
Kedua-dua koordinasi yang dibincangkan di atas telah dirumuskan dalam
Jadual 2.1.
Jadual 2.1: Pengkelasan Sistem Penilaian Esei Berautomasi.
Simulasi Perkadaran
Kandungan
Gaya
IEA, BETSY, IEMS, SEAR
Analisa Induk
ETS I, E-rater, C-rater,
Automark, PS-ME
PEG, BETSY, IEMS, SEAR
E-rater, Automark,
PS-ME
Berdasarkan Jadual 2.1 tersebut, didapati bahawa IEA menilai esei dari aspek
kandungan dengan menggunakan proxes, manakala PEG menggunakan proxes untuk
menilai aspek gaya dalam esei. Oleh kerana itu, kedua-dua sistem tersebut telah
diletakkan dalam lajur yang pertama dalam Jadual 2.1 tersebut. Manakala itu, sistem
penilaian esei yang mengambilkira kedua-dua aspek, iaitu gaya dan kandungan telah
dimasukkan ke dalam kedua-dua lajur dalam jadual tersebut (contohnya BETSY,
IEMS, SEAR, E-rater, Automark dan PS-ME). Kesimpulan pertama yang boleh
diperolehi daripada Jadual 2.1 ialah kebanyakan pembangunan sistem penilaian yang
terbaru mensasarkan untuk menilai esei dengan mengambilkira kedua-dua aspek,
gaya dan kandungan.
Masalah yang biasanya ditemui dalam kajian berkenaan penilaian esei
berautomasi adalah kewujudan piawaian yang baik untuk menentukur markah
(penilaian) pakar dan set pemberat yang paling optimum untuk mendapatkan
peramalan terhampir berbanding penilaian pakar. Isu ini diperjelaskan dalam Jadual
2.2, yang mana ianya menyenaraikan kesemua platform yang telah dibincangkan
dalam subtopik ini, bersama-sama dengan model asas, pencapaian yang diperolehi
dan sasaran (bed) ujian.
40
Sebagai rumusan awal daripada Jadual 2.2 tersebut, kita dapati bahawa tujuh
daripada sepuluh sistem penilaian adalah berpandukan kepada penggunaan alatan
NLP, yang mana dalam beberapa kes, ianya digabungkan dengan pendekataan
berpandukan statistik. Ini akan menjadi pemangkin untuk menambahkan lagi
semangat para pengkaji untuk meneruskan kajian dalam pembangunan alatan yang
baru untuk pemarkahan esei berautomasi.
Sepertimana yang ditunjukkan dalam Jadual 2.2, tiga kriteria berbeza yang
telah dilaporkan untuk mengukur pencapaian sistem ialah ketepatan keputusan
(ACC), kolerasi pengunduran berganda (CORR) dan peratus kesetaraan antara
markah yang dihasilkan oleh sistem (menggunakan teknik penilaian) dan markah
yang ditakrifkan oleh manusia (AGREEM). Dalam penyelidikan ini, kriteria
pengukuran yang ketiga, (AGREEM) telah digunakan. Rajah 2.6 menunjukkan
pembangunan konseptual CbAS sedia ada secara umum.
Esei
Penilai
(manusia), S1
Penilai
(sistem penilaian), S2
Ya
Jika |S1-S2| >1
Penilai (manusia), S3
Tidak
Markah
akhir = mod
atau min
terhampir
Markah
akhir =
min
Rajah 2.6: Pembangunan konseptual sistem penilaian.
Dalam Rajah 2.6, jelas menunjukkan sistem penilaian hanya berperanan
menggantikan penilai kedua, S2, tetapi masih memerlukan penilai pertama, S1. Jika
markah akhir S1 dan S2 tidak melebihi satu mata aras (berdasarkan skala lima-mata
aras; A, B, C,D, E), ianya akan dianggap sebagai ‘setara’ (antara manusia dan sistem
41
penilaian) dan gred akhir akan ditentukan berdasarkan min markah kedua-dua penilai
tersebut. Sebaliknya, sekiranya perbezaan gred markah yang diberikan antara S1 dan
S2 melebihi satu mata-aras, maka penilai ketiga, S3 akan diperlukan (Burstein et. al.,
1998) dan gred akan ditentukan samada menggunakan kaedah mod atau min
terhampir. Ini kerana esei yang digunakan adalah esei untuk ujian yang bertaraf
tinggi seperti Test of Written English (TWE) dan Graduate Management Admissions
Test (GMAT) (Burstein et al., 2000).
Dengan menggunakan AGREEM sebagai kriteria pengukuran dalam
penyelidikan ini, isu utama ialah kaedah pengukuran yang digunakan untuk
mengukur kesetaraan pencapaian antara penilaian manusia dengan teknik penilaian
yang dibangunkan. Oleh itu, beberapa jenis pengukuran yang bersesuaian perlu
ditakrifkan. Berdasarkan kajian yang dilakukan, terdapat tiga kaedah pengukuran
yang sering digunakan iaitu precision, recall dan full-measure (f-measure)
(McCallum dan Nigam, 1998; Burstein dan Marcu, 2000; Robert, 2000; Paul et al.,
2003). Precision digunakan untuk mengukur kadar ketepatan penilaian manusia,
recall digunakan untuk mengukur kadar ketepatan penilaian sistem atau teknik
penilaian dan f-measure adalah min bagi kedua-dua kaedah pengukuran tersebut.
Jadual 2.2: Perbandingan pencapaian sistem penilaian (Valenti et al., 2003;
Perez, 2004).
Sistem
Pencapaian (%)
Jenis Teknik
ACC
PEG
Statistik (Pengukuran
CORR
AGREEM
87
Sasaran
Ujian
Esei bukan
ciri linguistik luaran)
berbentuk
fakta
IEA
Algebra/ NLP
85-91
Esei GMAT
(Analisa Semantik
Latent (LSA))
ETS I
NLP
93-96
-
42
Sistem
Jenis Teknik
E-rater
Statistik (SLR)/ NLP
Sasaran
Pencapaian (%)
Ujian
87-94
Esei GMAT
80
Esei
– pendekatam hybrid
C-rater
NLP
berbentuk
pemahaman
dan algebra
BETSY
IEMS
Pengkelasan Teks
80
Melibatkan
Bayesian
apa jua jenis
(MMB/MM) /
pengkelasan
Statistik
teks atau esei
Indextron (Padanan
80
Esei bukan
corak Algoritma
berbentuk
Pengkelasan
matematik
Indextron)
Automark
NLP
93-96
National
Curriculum
Assessment of
science
SEAR
IE
30
Esei sejarah
PS-ME
NLP
-
Peperiksaan
NCA dan
GCSE
Pengkelasan teks (argumen) merupakan masalah menentukan takrifan awal
bagi kategori untuk dokumen teks bebas (esei). Idea pemarkahan esei berautomasi
yang berasaskan kepada teknik pengkelasan teks, ciri kompleksiti teks dan kaedah
pengunduran linear telah dipelopori buat pertama kalinya oleh Larkey (1998). Ianya
telah diaplikasikan dalam sistem penilaian E-rater (Burstein et al., 2001; Attali dan
Burstein, 2006) dan merupakan sistem perbandingan pencapaian dengan teknik
penilaian yang dibangunkan dalam penyelidikan ini. Idea asas pendekatan yang
43
dirintis oleh Larkey ini adalah bergantung kepada latihan pengkelasan binari untuk
membezakan esei yang ‘baik’ dan ‘lemah’ dan dengan menggunakan markah yang
dihasilkan oleh pengkelas untuk menentukan kedudukan (tahap) esei dan
menetapkan gred markah mereka. Beberapa teknik pengkelasan teks yang piawai
digunakan untuk mencapai matlamat ini: pertama, pengkelas bebas (tak bersandar)
Logik Fuzzy menentukan kebarangkalian dokumen dengan meramal penghampiran
yang ada pada kelas-kelas spesifik (Burstein et al., 2001); kemudian, analisa
kewujudan perkataan tertentu di dalam dokumen dibuat dan teknik k-nearest
neighbor digunakan untuk mencari esei yang paling hampir dengan sampel esei yang
telah dinilai oleh manusia; akhirnya, 12 ciri kompleksiti teks yang dipilih
menggunakan Algoritma SLR digunakan untuk menilai gaya esei (Attali dan
Burstein, 2006). Larkey telah melaksanakan beberapa latihan pengunduran,
menggunakan kombinasi komponen (ciri) yang berbeza-beza. Beliau juga
menggunakan beberapa set esei, termasuk esei tentang isu sosial, di mana isinya
merupakan elemen utama penilaian dan esei tentang pandangan umum di mana gaya
merupakan kriteria utama penilaian.
Peningkatan kepada bilangan kaedah pembelajaran statistik telah digunakan
untuk menyelesaikan masalah pengkelasan teks berautomasi sejak beberapa tahun
lepas, termasuk model-model pengunduran, pengkelas nearest neighbour, rangkaian
Bayes, pepohon keputusan (decision trees), algoritma pembelajaran peraturan,
rangkaian neural dan sistem pembelajaran induktif (Yang, 1997). Malah,
pelaksanaan pengkelas amat bergantung kepada pemilihan data yang digunakan
untuk penilaian. Oleh yang demikian, membandingkan kaedah pengkelasan tanpa
menganalisa perbezaan kumpulan, dan membuat rumusan berdasarkan keputusan
eksperimen yang ‘cacat’ akan menimbulkan persoalan tentang kesahihan beberapa
penilaian yang dihasilkan (Valenti et al., 2003). Masalah-masalah ini perlu ditangani
untuk menjelaskan kekeliruan yang timbul antara penyelidik dan untuk mengelakkan
masalah yang sama berulang. Mengintegrasikan keputusan daripada penilaian yang
berbeza-beza kepada perbandingan global dengan menilai satu atau lebih pengkelas
asas pada beberapa kumpulan, dengan menganalisa kecenderungan kumpulan
berasaskan pada variasi beberapa pengkelas dasar, telah dibuktikan munasabah oleh
Yang (1997).
44
Selain itu, masalah yang paling relevan di dalam bidang pemarkahan esei
berautomasi ialah kesukaran untuk mendapatkan korpus esei (data) yang banyak
(Christie, 2003; Larkey, 2003), setiap satunya dengan markah yang telah dinilai oleh
manusia. Korpus tersebut, bersama-sama dengan takrifan kriteria penilaian umum
pelaksanaan, boleh digunakan sebagai sasaran ujian untuk perbandingan seragam
bagi sistem pemarkahan berautomasi yang berlainan.
Burstein dan Wolska (2003) pula menyatakan bahawa protokol penandaan
dan teknik yang berkesan diperlukan dalam menentukan dan mengkelaskan elemenelemen hujahan yang wujud dalam sesebuah esei seperti penyataan tesis, isi-isi
penting dan penyataan penutup. Mereka menerangkan bahawa walaupun penanda
dilatih untuk membuat penentuan elemen hujahan, tetapi masih wujud kelemahan
dari segi pengkelasan elemen hujahan tersebut. Pengkelasan ini penting kerana ianya
boleh digunakan oleh pelajar untuk membuat rujukan dan mengukur saling
perkaitannya dengan kualiti esei tersebut (Burstein et al., 2001).
Antara teknik yang digunakan dalam menentukan dan mengkelaskan
argumen (ayat) dalam esei kepada sesebuah elemen hujahan yang khusus ialah
Model Multinomial, k-nearest neighbor (pendekatan kebarangkalian), Logik Fuzzy
(pendekatan berbantukan-keputusan) (Leacock, 2004). Menurut Leacock (2004) lagi,
Alatan Penganalisa Penulisan sedia ada hanya menentukan elemen hujahan tetapi
tidak menilai kualiti elemen tersebut. Menurut kenyataan Burstein dan Marcu (2003)
pula, Fuzzy dalam sesetengah keadaan, ianya menggambarkan kualiti penulisan
secara umum. Namun ianya tidak menyatakan dengan terperinci ciri-ciri linguistik
yang mempengaruhi kualiti penulisan tersebut.
Yi-fang Brook Wu dan Xin Chen (2005) menyatakan bahawa gaya penulisan
adalah penting untuk membentuk esei berkualiti tinggi, kerana kebiasaannya, penulis
akan mengelak dari menggunakan perkataan yang sama untuk menjelaskan konsep
yang sama. Masalah wujud di sini ialah untuk membuat peramalan tahap gaya olahan
yang lebih optimum yang menghampiri penilaian manusia menggunakan corak
hubungan koefisien-pemberat dalam persamaan pengunduran yang sepadan (Valenti
at al., 2003; Attali dan Burstein, 2006). Malah Attali dan Burstein (2006) turut
45
menyatakan masalah penggunaan Algoritma SLR dalam menentukan pekali
pemberat ciri yang optimum adalah kurang efisien. Menurut mereka lagi, dengan
menggunakan Algoritma SLR, saiz set ciri tidak ditakrifkan dengan jelas dan tidak
menjamin penghasilan ciri yang signifikan untuk membuat penghampiran peramalan
gred.
Daripada kajian yang dilakukan (Burstein et al.,1998; Attali dan Burstein,
2006), CbAS semasa memerlukan pengumpulan banyak data (set esei) yang
signifikan dan telah dinilai oleh manusia. Ini akan memakan masa dan memerlukan
kos yang tinggi. Model terdahulu juga bergantung kepada subset pembolehubah bagi
lapan hingga 12 ciri peramalan yang dipilih menggunakan Algoritma SLR daripada
set yang bersaiz lebih besar, iaitu kira-kira 57 ciri (Burstein et al., 1998; Burstein dan
Marcu, 2000).
2.2.4
Cadangan Teknik Penilaian
Bagi menyelesaikan masalah penentuan dan pengkelasan elemen hujahan
yang dinyatakan oleh Valenti et al. (2003), Teknik MMB dari pendekatan Bayesian
telah diaplikasikan dalam penyelidikan ini. Menurut Burstein et al. (2001), MMB
mengambilkira kedua-dua ciri yang wujud dan tidak wujud. Ciri-ciri tersebut terdiri
daripada token (perkataan) yang dipecahkan daripada esei ujian. Ciri yang wujud
mewakili kebarangkalian token yang wujud untuk sesebuah elemen hujahan
berbanding keseluruhan token dalam ayat tersebut dan ciri yang tidak wujud adalah
kebarangkalian token yang tidak wujud berbanding keseluruhan token dalam ayat
(rujuk Rumus 4.1). Maka, dengan itu, ciri linguistik yang mempengaruhi kualiti
sesebuah penulisan akan diperolehi. Dalam penyelidikan ini juga, Teknik MMB
berserta Algoritma Pembetulan-Kata (Rajah 3.3) mampu menapis data latihan supaya
pemilihan data yang baik sahaja akan digunakan dalam rumus kebarangkalian MMB
untuk menentukan dan mengkelaskan elemen hujahan dalam esei. Malah, dalam
pengkelasan teks, McCallum dan Nigam (1998) menyatakan bahawa MMB dapat
membuat penentuan dan pengkelasan teks yang konsisten hanya menggunakan
46
korpus esei yang kecil. Dengan itu, masalah yang diutarakan oleh Christie (2003)
dan Larkey (2003) juga dapat diselesaikan.
Bagi membuat peramalan gaya olahan, beberapa ciri telah digunakan.
Antaranya purata panjang perkataan, tahap kegramatisan ayat, peratusan kata kerja
pasif, peratusan kata nama dan penggunaan perkataan yang sama berulang kali
(Burstein dan Wolska, 2003). Sebaliknya, dengan menggunakan Algoritma MLR,
sebanyak enam ciri yang lebih optimum dan signifikan untuk membuat peramalan
penilaian telah ditetapkan berdasarkan kajian-kajian yang dibuat (Attali dan Burstein,
2004, Semire Dikli, 2006; Attali dan Burstein, 2006). Menurut Burstein dan Attali
(2004) juga, pemberat bagi sebahagian atau kesemua ciri dapat ditentukan lebih
awal, berbanding pengunaan Algoritma SLR yang perlu menentukan set ciri yang
optimum terlebih dahulu. Dengan itu, penilaian dapat dibuat dengan lebih pantas.
Dengan kelebihan ini juga, ianya menjamin peramalan gaya olahan yang lebih
piawai menggunakan set ciri yang bersaiz lebih kecil (Attali, 2004).
2.2.5
Set Ciri Peramalan
Dalam beberapa buah CbAS, sistem dibangunkan berdasarkan topik dan
skema penilaian yang khusus untuk ujian tertentu (Williams, 2001). Ini bermakna,
sistem telah dibangunkan untuk setiap topik, menggunakan data daripada esei yang
ditulis untuk topik yang tertentu dan dinilai oleh manusia berdasarkan skema
penilaian untuk penetapan markah. Proses ini memerlukan pengumpulan data yang
signifikan dan penilaian manusia; di mana kedua-duanya menyumbang kepada
penggunaan masa yang banyak dan memerlukan kos yang tinggi (Hearst, 2000).
Lebih-lebih lagi, model sistem tersebut adalah berdasarkan kepada subset
pembolehubah yang terdiri daripada lapan hingga 12 ciri peramalan yang telah
dipilih menggunakan Algoritma SLR daripada set yang lebih besar yang
mengandungi lebih dari 50 ciri. Lampiran E menunjukkan kesemua ciri yang
dikumpul daripada kajian sistem CbAS yang telah digunakan sebelum ini.
47
Pada awal 1960an, ciri-ciri yang diekstrak dan digunakan dalam peramalan
penilaian terhad kepada ciri-ciri luaran seperti purata panjang perkataan, panjang
esei, bilangan koma dan bilangan perkataan yang tidak dikenali (Hearst, 2000).
Kajian selanjutnya oleh Burstein dan. (1998) pula menggariskan bahawa terdapat
lapan ciri yang diambilkira dan dibahagikan kepada tiga bahagian iaitu ciri sintaksis,
ciri struktur hujahan dan ciri analisa topikal. Kajian Burstein itu turut disokong oleh
Little (2001), namun beberapa tambahan ciri dalam bahagian ciri sintaksis iaitu
bilangan dan nisbah ayat ringkas, sederhana dan kompleks, penggunaan kata kerja
bantu dan beberapa ciri lain.
Namun begitu, pecahan ciri CbAS telah dibahagikan kepada lima bahagian
iaitu kesalahan tatabahasa, penggunaan, mekanik, gaya dan struktur hujahan
(Burstein dan Wolska, 2003) pada kajian selanjutnya. Mereka juga membuat
penekanan kepada beberapa ciri yang lebih signifikan seperti ciri perkataan berulang
yang digunakan terlalu banyak dalam sesebuah esei yang berada dalam bahagian
gaya. Malah, Chodorow dan Burstein (2004) juga membuat kajian khusus terhadap
kesan ciri panjang esei ke atas penilaian esei Test of English as a Foreign Language
(TOEFL).
Seterusnya, kajian yang dilakukan menunjukkan bahawa ralat kesetaraan,
ralat formasi kata kerja, penggunaan perkataan yang salah, tertinggal tanda baca dan
ralat tipografikal antara ciri penting dalam bahagian tatabahasa, penggunaan dan
mekanik (Yigal, 2004). Namun begitu, Yigal dan Burstien (2004) sekali lagi
menyatakan dengan lebih terperinci bahawa terdapat 12 ciri yang signifikan untuk
membuat peramalan penilaian iaitu ciri perbendaharaan kata, struktur ayat, tanda
baca, imbuhan, ejaan, pembangunan (terdiri daripada ciri elemen hujahan dan purata
panjang elemen hujahan (AEL)), kekompleksan leksikal (terdiri daripada ciri nisbah
jenis perkataan (jenis/token), peringkat perbendaharaan kata dan purata panjang
perkataan), pengunaan perbendaharaan kata yang spesifik (kandungan esei (EC) dan
kandungan argumen (AC)) dan panjang esei. Kajian tersebut turut disokong oleh
Semire Dikli (2006) dan Attali dan Burstein (2006).
48
Kesimpulan daripada kajian ke atas kepelbagaian jenis ciri yang mewakili
bahagian-bahagian penilaian esei dan mengambilkira skema penilaian UPSR (rujuk
Jadual 2.4), set 12 ciri yang signifikan telah dikenalpasti untuk digunakan dalam
kajian ini berdasarkan kekerapan ciri tersebut digunakan dan kajian terbaru yang
dilakukan oleh penyelidik. Set 12 ciri tersebut dirumuskan dalam Jadual 2.3.
Jadual 2.3: Set 12 ciri peramalan untuk teknik penilaian.
Jenis Ciri
Bahagian
Jenis Pembolehubah
Gaya Olahan
Optimum
Jenis/Token
Gaya Olahan
Optimum
Purata Panjang Perkataan (AWL)
Gaya Olahan
Optimum
EssayContent (EC)
Gaya Olahan
Optimum
ArgContent (AC)
Gaya Olahan
Optimum
Panjang Esei (EL)
Gaya Olahan
Optimum
Perbendaharaan Kata
Bahasa
Tetap
Struktur Ayat
Bahasa
Tetap
Tanda Baca
Bahasa
Tetap
Imbuhan
Bahasa
Tetap
Ejaan
Bahasa
Tetap
Elemen Hujahan
Isi Kandungan
Tetap
Purata Bilangan Perkataan dalam
elemen hujahan (AEL)
Jadual 2.3 menunjukkan set 12 ciri yang digunakan dalam penyelidikan ini
dalam membuat penentuan dan pengkelasan elemen-elemen hujahan dan peramalan
gaya olahan. Oleh sebab itu, selain dibahagikan kepada tiga bahagian; bahasa, isi
kandungan dan gaya olahan selaras dengan Skema Penilaian UPSR, enam ciri
pertama daripada jadual tersebut dipecahkan kepada ciri optimum yang
menggunakan Algoritma MLR untuk membuat peramalan gaya olahan. Manakala,
ciri tetap terakhir (elemen hujahan) akan menggunakan Teknik MMB dalam
menentukan dan mengkelaskan elemen hujahan yang wujud. Bagi ciri tetap yang lain
49
pula (bahagian bahasa), data diperolehi daripada penilaian manusia kerana
pemprosesan nilai untuk ciri-ciri tersebut tidak terkandung dalam skop penyelidikan
ini.
2.3
Pemarkahan Esei
Bagaimana untuk memastikan sesebuah karangan atau esei itu dinilai dengan
penilaian yang sewajarnya dan terbaik? Antara kriteria yang penting dalam penilaian
esei ialah ‘Peraturan Memberi Markah’ (PMM) yang sesuai, pemeriksa yang pakar
dan cekap serta penyelarasan antara para pemeriksa. Kesemua kriteria tersebut
adalah merupakan perkara wajib sekiranya ia melibatkan ujian pencapaian dan
bilangan pemeriksanya melebihi daripada seorang. Sekiranya bilangan pemeriksa
hanyalah seorang, kriteria yang wajib cukup sekadar PMM. Namun begitu, terdapat
pelbagai faktor samada luaran mahupun dalaman pemeriksa yang boleh
mempengaruhi kebolehpercayaan markah yang diberikannya.
2.3.1
Peraturan Memberi Markah
PMM perlu disediakan terlebih dahulu sebelum sesebuah esei itu diperiksa.
Bagi ujian sumatif seperti UPSR, PMM telah disediakan oleh Lembaga Peperiksaan
Malaysia yang berada di bawah tanggungjawab Kementerian Pelajaran Malaysia.
Secara amnya, terdapat dua teknik yang digunakan untuk membangunkan PMM.
Teknik pertama ialah teknik global yang melibatkan tanggapan, holistik dan
impresif. Teknik yang kedua pula ialah teknik analisis yang mana ia melibatkan
perincian (Abdul Aziz, 1993). Teknik eklektik pula merupakan gabungan kedua-dua
teknik tersebut.
50
2.3.1.1 Teknik Global
Global atau holistik didefinisikan sebagai ‘menyeluruh’. Teknik ini
menggunapakai konsep ‘keseluruhan adalah lebih penting berbanding pecahan
bahagian (argumen)’. Berdasarkan konsep ini, pemeriksa akan melakukan penilaian
secara keseluruhan ke atas sesebuah esei. Berdasarkan skala lima-mata iaitu gred
A,B,C,D dan E, penilaian akan dibuat melalui anggaran pemeriksa setelah membaca
esei sekali lalu. Kemudian esei tersebut akan dibaca sekali lagi untuk mengenalpasti
kekuatan dan kesilapan yang terdapat di dalam esei tersebut. Setelah itu barulah
markah akan ditentukan secara muktamad.
Cara ini amat subjektif di mana ia memerlukan kepada kemahiran pemeriksa
dan kebolehan membaca secara kritikal. ‘Amat subjektif’ bermakna
kebolehpercayaan permarkahan adalah amat rendah. Walaubagaimanapun, terdapat
cara untuk meningkatkan tahap kebolehpercayaan pemarkahan menerusi teknik ini
iaitu dengan mengadakan penyelarasan bersama antara para pemeriksa dan
penyediaan model jawapan bagi rujukan bersama.
Satu lagi kaedah di dalam teknik global ialah membuat perbandingan.
Menerusi kaedah ini, pemeriksa akan membaca keseluruhan dan kesemua esei
berkenaan sekali lalu dan menyusunnya mengikut kualiti. Esei yang terbaik akan
diletakkan di bahagian atas manakala esei yang paling lemah akan diletakkan
dibahagian yang bawah. Kemudian, esei tersebut akan dibaca sekali lagi untuk
memastikan kedudukannya dan seterusnya peratus akan diberikan berdasarkan
penilaian skala lima-mata (Gred A hingga E). Kaedah ini sesuai digunakan bagi
menilai esei yang panjang seperti kerja kursus/projek sekolah. Kaedah ini juga sesuai
untuk memilih esei, cerpen, sajak, novel dan sebagainya untuk sesuatu peraduan,
terutamanya pada peringkat saringan.
51
2.3.1.2 Teknik Analisis
Teknik analisis berlainan dengan teknik global. Di dalam teknik ini, markah
diberi berdasarkan kepada kriteria tertentu. Ia bergantung kepada bilangan elemen di
dalam kriteria tersebut. Sekiranya banyak elemen yang dinyatakan di dalam kriteria
tersebut di dalam sesebuah esei, maka markah yang diperuntukkan adalah tinggi.
Berbanding teknik global, teknik ini tidak memerlukan pemeriksa yang pakar. Ianya
sesuai bagi penilaian ujian pencapaian dan formatif di mana ia boleh digunakan
untuk tujuan diagnostik dan memberi maklumbalas tentang esei tersebut kepada guru
dan pelajar.
Di dalam teknik analisis, kaedah ini digunakan untuk menilai esei
berdasarkan kepada peruntukan markah yang tertentu. Berdasarkan piawaian skema
pemarkahan UPSR bagi Bahasa Melayu, pembahagian markah adalah seperti
berikut:
x
Isi
: 30%
x
Bahasa
: 40%
x
Gaya dan Olahan
: 30%
Jumlah
: 100%
Terdapat tiga bahagian perincian bagi pemarkahan karangan UPSR. Bahagian
yang pertama ialah isi. Di dalam bahagian ini, pemarkahan bagi isi akan ditetapkan
dengan menggunakan skala global 10 mata atau teknik analisis. Bagi skala global 10
mata, kriterianya hendaklah berkaitan dengan isi. Manakala bagi teknik analisis pula,
pembahagian markah antara isi perlu ditunjukkan berserta dengan contoh-contoh isi
yang menyumbang kepada markah tersebut. Bahagian yang kedua pula ialah bahasa.
Di dalam bahagian ini, sistem tolak digunakan di mana satu markah akan ditolak
bagi setiap kesalahan bahasa seperti struktur frasa, struktur ayat, penggunaan kata,
ejaan dan sebagainya. Sementara itu, dari segi gaya dan pengolahan pula, skala
global 30 mata digunakan (rujuk Lampiran D).
52
Jika diteliti, teknik analisis ini adalah merupakan teknik gabungan kerana
ianya mengandungi gabungan antara ciri-ciri unsur global dan unsur analisis.
Menerusi teknik ini, ia amat sesuai digunakan untuk menguji kemahiran bahasa
kerana 70% daripada markah diperuntukkan bagi menilai aspek-aspek bahasa dan
pengolahannya selain dari menganalisis kesilapan.
2.3.2
Kaedah Menilai Esei
Terdapat dua cara yang biasanya digunakan oleh pemeriksa bagi menilai esei.
Penilaian boleh dilakukan berdasarkan susunan kertas iaitu pemeriksaan ke atas esei
calon A, diikuti esei calon B dan seterusnya. Selain itu, penilaian esei pelajar juga
boleh dilakukan berdasarkan topik soalan.
Kedua-dua cara ini boleh digunakan mengikut kesesuaian bilangan kertas esei
yang ingin diperiksa. Jika bilangan esei yang ingin dinilai itu banyak dan mempunyai
lebih daripada satu soalanatau topik esei, cara kedua adalah lebih sesuai dan
berkesan. Ini kerana pemeriksa dapat menumpukan pemikirannya terhadap isi-isi
kandungan dalam topik berkenaan dan tidak diselangi dengan pelbagai isi topik yang
berlainan, apatah lagi sekiranya skema pemarkahannya adalah berbeza. Mokhtar
(1995) menyatakan bahawa kaedah ini boleh mengelakkan pemeriksa daripada
dipengaruhi oleh soalan sebelumnya ketika memeriksa isi yang seterusnya. Namun
sekiranya hanya terdapat satu soalan atau topik esei sahaja, cara pertama adalah lebih
berkesan.
2.3.3
Penyelarasan Markah
Penyelarasan markah bagi esei perlu dilakukan jika pemeriksanya lebih
daripada seorang. Ia perlu bagi kedua-dua jenis ujian samada sumatif atau formatif.
Penyelarasan boleh meningkatkan tahap kebolehpercayaan pemarkahan esei.
53
Pemeriksa akan berbincang di dalam mensyuarat penyelarasan dan memeriksa
persampelan markah calon. Melalui mesyuarat tersebut, perbezaan markah di antara
pemeriksa-pemeriksa akan dibincangkan dan diminimumkan dengan melakukan
pemeriksaan semula dan perubahan terhadap skema pemarkahan. Kebiasaannya,
moderasi (penyesuaian) markah dilakukan dalam penyelarasan sekiranya perbezaan
(selisih) markah antara pemeriksa melebihi 5%.
2.3.4
Pemarkahan Esei UPSR
Teknik pemarkahan yang lebih sesuai untuk menilai esei UPSR ialah
menggunakan teknik analisis bagi menilai isi dan bahasa, manakala untuk menilai
gaya olahan pula teknik global 30 mata lebih sesuai. Oleh kerana Sukatan Pelajaran
Bahasa Melayu Sekolah Rendah menekankan kemahiran berbahasa, maka nisbah
markah bahasa seharusnya melebihi markah isi dan gaya olahan ayat.
Pembahagiannya ialah 40 markah bagi bahasa, 30 markah bagi isi dan 30 markah
bagi gaya olahan. Perincian markah bahasa berikut merupakan perincian yang biasa
digunakan (Mohd. Isa bin Abd. Razak, 2004):
x
Perbendaharaan kata
: 3 markah
x
Struktur ayat
: 3 markah
x
Penggunaan imbuhan
: 3 markah
x
Penggunaan tanda baca
: 3 markah
x
Ejaan
: 3 markah
Markah bagi komponen perbendaharaan kata dan struktur ayat boleh
diberikan secara global di mana markah penuh akan diberikan jika esei yang ditulis
memperlihatkan keluasan penggunaan perbendaharaan kata dan menggunakan
pelbagai jenis dan variasi ayat. Sementara itu, bagi komponen-komponen yang lain,
sistem pemotongan markah digunakan. Setengah (½) markah akan dipotong bagi
setiap kesalahan yang melibatkan penggunaan imbuhan, penggunaan tanda baca dan
54
ejaan. Markah tidak dipotong bagi kesalahan yang berulang. Markah isi pula
diagihkan seperti berikut (Mohd. Isa bin Abd. Razak, 2004):
x
Pendahuluan
: 1 markah
x
4 isi × 2 markah
: 8 markah
x
Penutup
: 1 markah
Namun begitu, pembahagian markah isi tidaklah terlalu ketat. PMM yang
bagus menyatakan bahawa pemeriksa boleh mempertimbangkan markah yang sesuai
bagi isi yang berkaitan dengan soalan walaupun isi tersebut tidak dinyatakan dalam
PMM. Seterusnya, pembahagian markah gaya olahan diperincikan seperti dalam
Lampiran C.
Sebelum tahun 1996, Ujian Penulisan UPSR mensyaratkan calon menulis
esei yang panjangnya tidak kurang daripada 80 patah perkataan. Sungguhpun begitu,
mulai tahun 1996, had maksimum perkataan yang boleh digunakan untuk menulis
esei ditetapkan kepada tidak melebihi 120 patah perkataan. Lazimnya, pemeriksa
tidak perlu menilai bahagian yang melebihi had maksimum itu. Maknanya, tiada
markah yang diberikan atau dipotong pada bahagian tersebut. Ini secara tidak
langsung akan menyebabkan calon berkemungkinan kehilangan markah isinya,
khususnya penutup, jika ianya terkandung dalam bahagian tersebut.
Pemeriksaan secara analisa pula memerlukan pemeriksaan yang cukup teliti
di mana pemeriksa perlu membaca esei itu sekali lalu untuk mendapatkan gambaran
dan menentukan jumlah perkataan yang digunakan. Kemudian esei tersebut dibaca
buat kali yang kedua di mana di tahap ini, pemeriksa akan mempertimbangkan
markah yang sewajarnya diberikan berdasarkan PMM yang ditetapkan. Selain itu,
pemeriksa juga perlu mengenalpasti dan menanda isi serta kesalahan yang terdapat di
dalam esei tersebut seperti dalam Jadual 2.4.
55
Jadual 2.4 : Pembahagian markah berdasarkan Skema Penilaian Esei UPSR.
Aspek
Isi
Bahasa
Gaya Olahan
Pecahan
Pendahuluan
5
Isi pertama
5
Isi kedua
5
Isi ketiga
5
Isi keempat
5
Isi kelima
5
Isi keenam
5
Isi ketujuh
5
Isi kelapan
5
Penutup
5
Perbendaharaan kata
8
Struktur ayat
8
Penggunaan imbuhan
8
Penggunaan tanda baca
8
Ejaan
8
Skala global 30-mata
30
Jumlah
2.3.5
Markah (%)
100
Isu-isu Utama Dalam Penilaian Esei
Terdapat beberapa isu di dalam menilai esei-esei calon UPSR. Isu-isu ini
perlu dititikberatkan kerana ianya mempengaruhi pembahagian markah yang
sewajarnya.
56
2.3.5.1 Penandaan Kesalahan
Penandaan kesalahan boleh dilakukan berpandukan Jadual 2.4 atau cara-cara
yang difikirkan sesuai (Abdul Aziz Abdul Talib, 1993). Penandaan kesalahan sangat
penting bagi ujian sumatif. Dalam ujian ini, persampelan kertas yang telah diperiksa
oleh pemeriksa biasanya akan disemak semula oleh ketua kumpulan. Persampelan
kes lulus biasa, semua kes gagal dan semua kes cemerlang mungkin juga akan
disemak semula oleh ketua pemeriksa. Penandaan itu memudahkan ketua pasukan
dan ketua pemeriksa melaksanakan tugas mereka.
2.3.5.2 Keadaan Kritikal
Dalam keadaan tertentu, kadang-kadang pemeriksa menemui kesukaran
untuk membuat penilaian apabila wujudnya keadaan yang bertentangan. Pertama
sekiranya isi jawapan calon sangat tepat dan matang, tetapi terdapat masalah dari
aspek bahasa. Antara masalah bahasa yang kerap berlaku ialah kesalahan struktur
frasa dan ayat, kurang keseragaman susuk ayat dan kesilapan penggunaan tanda
baca. Gred tertinggi yang boleh diberikan pada esei dalam kes ini ialah gred B.
Kedua sekiranya isi jawapan calon terpesong keseluruhannya (di luar topik soalan),
tetapi kemampuan bahasanya amat cemerlang. Gred tertinggi yang boleh diberikan
pada esei dalam kes ini ialah gred D.
2.4
Ringkasan
Bab ini menyoroti pembangunan awal bebarapa buah sistem CbAS berserta
teknik yang digunakan. Kajian demi kajian dibuat sehingga ke kajian terkini (stateof-the-art). Dari situ, peluang menambahbaik teknik penilaian semasa dikenalpasti
yang melibatkan penentuan dan pengkelasan elemen hujahan dan peramalan gaya
olahan esei. Kedua-dua pencapaian tersebut dipertingkatkan dengan penggunaan
57
Teknik MMB dan Algoritma MLR. Justifikasi pemilihan teknik-teknik tersebut juga
diterangkan dalam bab ini.
Selanjutnya, perbincangan mengarah kepada set ciri yang digunakan oleh
para pengkaji bidang penilaian esei ini sehingga set 12 ciri yang signifikan
dikenalpasti dan digunakan dalam penyelidikan ini. Bab ini diakhiri dengan
penerangan tentang Skema Penilaian UPSR yang digunakan dalam penyelidikan ini
untuk membuat penilaian ke atas esei ujian.
Bab 3 akan berkisar tentang metodologi penyelidikan yang digunakan untuk
membangunkan kedua-dua teknik penilaian secara terperinci. Metodologi yang
melibatkan empat fasa tersebut juga akan akan merangkumi penerangan prosidur
five-fold cross-validation yang digunakan untuk menguji pencapaian teknik
penyelidikan dengan teknik yang digunakan sebelum ini. Selain itu, turut dimuatkan
dalam bab ini ialah penerangan lanjut set 12 ciri signifikan tersebut.
BAB 3
METODOLOGI KAJIAN
3.1
Pendahuluan
Dalam bab sebelum ini, kita telah membincangkan tentang kajian rintis
CbAS, teknik, set ciri yang digunakan dan pencapaian yang dicapai beserta beberapa
contoh CbAS yang terbaik. Dengan itu, beberapa masalah telah dikenalpasti dalam
usaha untuk mencapai tahap kesetaraan manusia-sistem yang lebih tinggi. Salah
satunya ialah penggunaan Teknik MMB untuk menentukan dan mengkelaskan
elemen-elemen hujahan yang wujud dalam sesebuah esei. Isu kedua ialah untuk
mendapatkan pekali terhampir bagi ciri optimum dalam persamaan pengunduran
untuk mendapatkan peramalan terbaik setara dengan penilaian manusia. Dengan itu,
Algoritma MLR akan diaplikasikan. Bab ini akan memfokuskan tentang metodologi
penyelidikan berserta kaedah dan teknik yang digunakan untuk membangunkan
aplikasi penilaian. Penerangan ke atas penggunaan Teknik MMB dan Algoritma
MLR akan diperincikan.
59
3.2
Metodologi Penyelidikan
FASA I : Pra-Pemprosesan Data & Pengekstrakan Data
Prosidur Five-Fold Cross Validation
Pemecahan
Argumen
Penggabungan
Kata
Pembahagian dan
Penandaan Token
Penyisihan
Imbuhan
Penggabungan
Argumen
Pembetulan
Kata
FASA II : Latihan Peramalan Gaya Olahan (Ciri Optimum)
Algoritma Pengunduran
Linear Berganda
Pemilihan Data
Pekali Pemberat
Pengunduran
FASA III : Latihan Pengkelasan Elemen Hujahan (Ciri Tetap)
Pekali Pemberat
Peratusan
Penapisan
Data
Pemilihan Ciri
FASA IV : Pengujian Penilaian
Ciri Tetap
Elemen
Bahasa
Ciri Optimum
Model Multivariate
Bernoulli
Algoritma Pengunduran
Linear Berganda
Pekali Pemberat
Peratusan
Pekali Pemberat
Pengunduran
Penilaian Gred Akhir
Rajah 3.1: Rekabentuk metodologi penyelidikan.
60
Penyelidikan ini melibatkan pembangunan empat fasa utama. Fasa I
melibatkan dua proses utama iaitu Pra-Pemprosesan Data dan Pengekstrakan Data
yang menekankan proses pembetulan kata dan penggabungan kata. Manakala, Fasa
II, III dan IV merupakan fokus utama penyelidikan ini yang menumpukan kepada
pengaplikasian Teknik MMB dan Algoritma MLR.
Fasa II dan III masing-masing melibatkan proses Latihan Peramalan Gaya
Olahan untuk ciri tetap dan Latihan Pengkelasan Elemen Hujahan untuk ciri
optimum (penerangan tentang ciri tetap dan ciri optimum boleh dirujuk di Jadual
3.2). Fasa IV pula merupakan Fasa Pengujian yang merumuskan kesetaraan
perbandingan penilaian esei oleh manusia dan penilaian esei menggunakan teknik
penilaian (AGREEM).
3.3
Teknik Penilaian
Penyelidikan ini dibangunkan berteraskan kepada metodologi penyelidikan
pada Rajah 3.1 dan disesuaikan dengan Skema Penilaian UPSR yang merangkumi
elemen bahasa, isi-isi penting dan gaya olahan ayat dalam sesebuah esei (rujuk
Jadual 2.4).
Pemecahan esei kepada argumen dan seterusnya kepada token masih terdapat
kelemahan (Perez, 2004). Masalah yang diatasi ialah seandainya wujud ralat-ejaan
kata, algoritma yang dibangunkan dalam kajian ini (rujuk Rajah 3.3) mampu
mengenalpasti perkataan tersebut dan membetulkannya jika ianya memenuhi syaratsyarat yang telah ditentukan (syarat i hingga iii di bawah Subtopik 3.6). Bagi
memperbaiki kemampuan peramalan gaya olahan esei, penggunaan Algoritma MLR
berbanding Algoritma SLR dilihat lebih berkesan lebih-lebih lagi apabila ianya
hanya menggunakan set ciri yang bersaiz lebih kecil iaitu enam ciri optimum (p1, p2,
.. , p6) yang piawai dan telah ditetapkan (rujuk Jadual 3.2). Manakala itu, kajian ini
juga mendapati hasil daripada penggunaan Teknik Logik Fuzzy boleh
dipertingkatkan dengan menggunakan pendekatan Bayesian iaitu Teknik MMB
61
dalam penentuan dan pengkelasan elemen-elemen hujahan setiap esei ujian (bagi
pemberat ciri tetap, p12).
3.4
Prosidur Five-Fold Cross Validation
Penyelidik telah menggunakan esei yang ditulis oleh calon pelajar UPSR
sebagai sampel data. Esei tersebut kemudiannya ditukarkan dalam bentuk dokumen
berkomputer dan disimpan dalam format *.doc. Sebanyak 200 sampel data tersebut
(setelah ditapis) telah diperolehi daripada dua buah sekolah, iaitu Sekolah
Kebangsaan Galing dan Sekolah Kebangsaan Semambu, Kuantan, Pahang. Data
tersebut merupakan esei yang telah dinilai oleh penilai yang berpengalaman beserta
dengan penerangan terperinci setiap bahagian yang dinilai untuk tujuan latihan dan
ujian bagi teknik penilaian dalam penyelidikan ini. Daripada jumlah tersebut,
penyelidik telah mengaplikasikan prosidur five-fold cross validation iaitu dengan
membahagikan jumlah tersebut kepada lima bahagian untuk dilatih dan diuji
mewakili lima mata-aras berdasarkan Skema Penilaian UPSR (Gred A, B, C, D dan
E). Penerangan lanjut bagi skema penilaian ini boleh dirujuk di Lampiran C.
Pembahagian tersebut adalah seimbang untuk menjamin hasil yang lebih konsisten.
Dalam pembangunan sesebuah sistem atau prototaip sistem terutamanya, nfold cross-validation dilaksanakan bermula dari peringkat latihan (Wei Fan, 2005).
N-fold cross-validation secara rawaknya membahagikan keseluruhan data latihan
kepada n set. Penyelidikan yang dibangunkan ini dilatih sebanyak lima kali
(mewakili lima mata-aras), di mana setiap fasa tersebut satu set akan dikeluarkan
sebagai set pengujian. Oleh itu, five-fold cross-validation (n adalah lima) telah
digunakan dan penerangan lanjut boleh dirujuk di Jadual 3.1.
62
Jadual 3.1: Kitaran prosidur five-fold cross validation.
Kitaran
Kumpulan Esei Latihan
Kumpulan Esei Ujian
1
1
2
3
4
5
1
¥
¥
¥
¥
¥
¥
¥
¥
¥
¥
2
¥
3
¥
¥
4
¥
¥
¥
5
¥
¥
¥
¥
2
3
4
5
¥
¥
¥
¥
¥
Berdasarkan kepada skop kajian ini dalam 1.6 (iii), dinyatakan bahawa topik
esei telah ditentukan iaitu pelajar perlu membina sebuah esei dengan tajuk ‘Temasya
Sukan Sekolah’. Sejumlah 200 esei tersebut adalah data yang terhasil setelah tapisan
dibuat untuk memilih esei yang paling baik dan bilangan yang seimbang bagi setiap
gred. Dengan itu, sebanyak 40 esei bagi setiap gred telah diperolehi (rujuk Jadual
5.1).
Pada minggu yang lalu, sekolah kami telah mengadakan satu temasya sukan tahunan.
Temasya sukan ini telah diadakan di padang sekolah kami. Tujuannya adalah untuk memilih
beberapa orang pelajar sebagai wakil sekolah dan meningkatkan prestasi murid. Seminggu
sebelum temasya sukan ini, pelajar-pelajar diminta untuk membersihkan kawasan padang dan
mendirikan khemah-khemah mengikut rumah sukan. Guru-guru wanita diminta untuk menyusun
hadiah-hadiah seperti piala, pingat dan sijil mengikut kategori untuk para pelajar yang menjadi
pemenang dalam sukan ini. Guru-guru lelaki pula diminta untuk menyediakan alat-alat sukan.
Mereka juga diminta untuk menghias khemah. Temasya sukan ini telah dirasmikan oleh Guru
Besar Sekolah Kebangsaan Semambu iaitu Tuan Haji Mohd Tahir bin Abdul Hamik. Beberapa
acara telah diadakan seperti acara lumba lari, lompat jauh, dan lain-lain lagi. Setiap pelajar
menyokong ahli kumpulan mereka untuk memberi semangat supaya tidak mengalah kepada pihak
lawan. Suasana menjadi riuh-rendah dengan sokongan para pelajar. Setelah selesai kesemua
acara, Guru Besar diminta untuk menyampaikan hadiah kepada para pemenang. Beberapa orang
murid telah diminta untuk naik ke pentas dan mengambil hadiah. Rumah Merah telah
diisytiharkan sebagai juara antara rumah sukan. Selepas itu, semua pelajar dan guru ke kantin
untuk menikmati juadah seperti nasi ayam, mi goreng dan lain-lain. Semua pelajar berselera
menikmati juadah yang telah dihidangkan. Walaupun mereka penat tetapi mereka berpuas hati
atas apa yang telah mereka lakukan di hari sukan itu. Saya berharap supaya sekolah ini
mengadakan sukan tahunan yang lebih meriah pada tahun hadapan.
Rajah 3.2: Contoh esei pelajar.
63
Rajah 3.2 menunjukkan antara contoh esei calon pelajar UPSR yang
dijadikan sampel untuk digunakan sebagai latihan dan ujian dalam prototaip sistem
ini. Keseluruhan data ini boleh dirujuk dalam Lampiran A.
3.5
Set 12 Ciri Peramalan
Dalam penyelidikan ini, sebanyak 12 ciri yang diambilkira iaitu purata
bilangan perkataan dalam elemen hujahan (AEL), jenis/token, purata panjang
perkataan (AWL), Kandungan Esei (EC), Kandungan Argumen (AC), panjang esei
(EL), perbendaharaan kata, struktur ayat, imbuhan, tanda baca, ejaan dan elemen
hujahan. Ianya dibahagikan pula kepada dua kumpulan iaitu set ciri optimum yang
terdiri daripada enam ciri yang terawal dan set ciri tetap yang terdiri daripada enam
ciri selebihnya.
Disebabkan bilangan ciri tersebut kecil dan setiap satunya adalah signifikan
dalam menyumbang kepada hasil untuk peramalan penilaian manusia, ianya
membolehkan Algoritma MLR digunakan, yang mana dengannya, kesemua ciri
dalam set ciri tetap diambilkira dalam membuat peramalan gaya olahan esei.
Manakala, Teknik MMB pula diaplikasikan ke atas salah satu ciri tetap iaitu
penentuan dan pengkelasan elemen hujahan esei. Salah satu kelebihan metodologi ini
ialah set ciri telah ditentukan terlebih dahulu untuk tujuan peramalan penilaian. Ini
adalah penting untuk membolehkan kita mengawal pemberat ciri apabila wujud
pertimbangan secara teori yang berkaitan dengan pelbagai komponen bagi kebolehan
menulis.
64
Jadual 3.2: Set 12 ciri signifikan untuk peramalan penilaian.
Jenis Ciri
Bahagian
Pembolehubah
Jenis
Peratus Markah
Pembolehubah
Diperuntukkan
Purata Bilangan
Perkataan dalam
Gaya Olahan
P1
Optimum
Gaya Olahan
P2
Optimum
Gaya Olahan
P3
Optimum
Gaya Olahan
P4
Optimum
ArgContent (AC)
Gaya Olahan
P5
Optimum
Panjang Esei
Gaya Olahan
p6
Optimum
Bahasa
p7
Struktur Ayat
Bahasa
Tanda Baca
elemen hujahan
(AEL)
Jenis/Token
Purata Panjang
Perkataan (AWL)
EssayContent
.3
(EC)
(EL)
Perbendaharaan
Tetap
.08
p8
Tetap
.08
Bahasa
p9
Tetap
.08
Imbuhan
Bahasa
p10
Tetap
.08
Ejaan
Bahasa
p11
Tetap
.08
Elemen Hujahan
Isi
Kandungan
p12
Tetap
.3
Kata
Dalam Jadual 3.2, set ciri optimum dan ciri tetap telah dibahagikan kepada
tiga bahagian utama selaras dengan Skema Penilaian Esei UPSR. Bagi ciri p1 hingga
p6, ianya menyumbang kepada peramalan bagi gaya olahan esei yang merangkumi
keseluruhan 30% markah menggunakan Algoritma MLR. Sebaliknya, ciri p7 hingga
p11 dalam bahagian bahasa, data daripada penilaian manusia diambil dan digunakan
pada fasa peramalan penilaian akhir untuk pembuktian kesetaraan penilaian manusiateknik penilaian. Ianya menyumbang sebanyak 40% daripada markah keseluruhan.
Seterusnya, bagi isi kandungan, p12, Teknik MMB telah diaplikasikan untuk
65
menentukan dan mengkelaskan kesemua 10 elemen hujahan yang terdapat dalam
setiap esei ujian yang merangkumi 30% markah.
3.5.1
Set Ciri Optimum
Ciri-ciri dalam set ciri optimum adalah untuk mengukur gaya olahan esei.
Terdapat enam ciri dalam set ciri ini yang mana merangkumi struktur pembangunan
esei, kekompleksian leksikal, penggunaan perbendaharaan kata yang spesifik dan
panjang esei yang mempengaruhi gred akhir sesebuah esei.
3.5.1.1 Purata Bilangan Perkataan dalam Elemen Hujahan (AEL)
Ciri ini bertujuan untuk mengukur struktur pembangunan ayat dalam esei.
Ciri AEL adalah purata panjang (bilangan perkataan) bagi elemen hujahan dalam
esei (p1). Sebagai contoh, bilangan perkataan bagi elemen hujahan (penyataan tesis,
isi pertama hingga lapan dan penyataan penutup) masing-masing ialah 12, 8, 9, 10,
11, 8, 7, 9, 8 dan 13 patah perkataan. Oleh itu, AEL bagi esei tersebut ialah jumlah
perkataan tersebut dibahagi dengan bilangan elemen hujahan yang wujud (dalam kes
ini ialah 10). Nilai AEL bagi kes ini ialah 9.5.
3.5.1.2 Jenis/Token
Terdapat dua ciri yang dikenalpasti mempunyai mempengaruhi
kekompleksian leksikal sesebuah ayah dalam esei. Ciri ini merupakan salah satu
darinya. Ciri jenis/token ialah kadar atau nisbah bilangan jenis perkataan kepada
token dalam esei. Sebagai contohnya, dalam ayat “Saya sangat sayangkan emak
saya” terdapat 4 token yang berbeza (saya, sangat, sayangkan dan emak) daripada 5
token kesemuanya (saya, sangat, sayangkan, emak dan saya). Oleh itu, nisbah
66
jenis/token (p2) ialah 4/5 atau 0.8. Tujuan ciri ini adalah untuk mengira bilangan
perkataan unik dalam esei dan mempiawaikan pengiraan ini dengan jumlah bilangan
perkataan dalam esei.
3.5.1.3 Purata Panjang Perkataan (AWL)
Ciri AWL adalah ciri kedua yang digunakan untuk mengukur kekompleksian
leksikal. Ciri ini adalah purata panjang perkataan (bilangan huruf) merangkumi
semua perkataan dalam esei (p3). Nilai lazim bagi ciri ini pada julat 5.0000 hingga
7.0000 iaitu jumlah bilangan huruf bagi sesebuah token (perkataan).
3.5.1.4 Kandungan Essay (EC)
Bagi mengukur perbendaharaan kata topik-spesifik, dua ciri digunakan. Salah
satu daripadanya ialah ciri EC (p4). Nilai ciri EC bagi esei ujian akan diperolehi
dengan mengukur jarak kosinus antara vektor penghampiran yang dibangunkan
untuk esei ujian dengan setiap supervektor yang mewakili lima mata-penilaian. Oleh
itu, hasil yang dijana oleh ciri ini bernilai samada 5, 4, 3, 2 atau 1 yang masingmasing mewakili gred A, B, C D dan E. Bagi EC, nilai tersebut dihasilkan dengan
mengambil keseluruhan kandungan esei. Penerangan terperinci ciri ini boleh dirujuk
di Subtopik 4.5.2.
3.5.1.5 Kandungan Argumen (AC)
Ciri AC (p5) merupakan ciri kedua bagi mengukur perbendaharaan kata
topik-spesifik. Bagi ciri ini, nilai dan kaedah pemprosesan adalah menyamai EC.
Namun begitu, ciri ini tidak mengambil secara keseluruhan esei untuk diproses
sebaliknya mengambil argumen demi argumen untuk diproses secara berasingan.
67
Nilai akhir AC ialah purata bagi nilai keseluruhan argumen tersebut (yang mewakili
keseluruhan esei). Penerangan terperinci ciri ini boleh dirujuk di Subtopik 4.5.2.
3.5.1.6 Panjang Esei (EL)
Sepertimana analisa yang telah dibuat, didapati bahawa panjang esei (p6)
merupakan salah satu pembolehubah/ciri penting, secara objektifnya, dalam meramal
skema penilaian manusia. Dalam kajian ini, ianya panjang esei telah dimasukkan
(diukur berdasarkan bilangan perkataan) ke dalam set ciri, supaya dengan itu
memungkinkan sistem untuk mengawal keberkesanannya/kepentingannya dalam
memodelkan kebolehan menulis dan dalam masa yang sama berusaha untuk
meminimakan kesan panjang esei ke atas ciri yang lain dalam set ciri.
3.5.2
Set Ciri Tetap
Ciri-ciri dalam set ciri tetap pula adalah berperanan untuk mengukur bahasa
dan isi kandungan esei. Terdapat enam ciri dalam set ciri ini yang mana merangkumi
lima ciri kesalahan bahasa dan satu ciri elemen hujahan.
3.5.2.1 Kesalahan Bahasa
Berdasarkan Skema Penilaian UPSR yang dilakukan terdapat lima ciri
kesalahan bahasa iaitu perbendaharaan kata, struktur ayat, imbuhan, tanda baca dan
ejaan (p7, p8, p9, p10, p11 ) yang diambilkira dalam membuat penilaian esei.
Kebanyakan sistem penilaian menentukan nilai ciri tersebut menggunakan Kaedah
Pemprosesan Bahasa Tabii (NLP).
68
Berdasarkan skema penilaian tersebut (rujuk Jadual 3.2), kesalahan bahasa
dalam esei merangkumi 40% (.4) daripada markah keseluruhan. Daripada pecahan
itu, ianya dibahagi dengan lima bahagian, iaitu mewakili lima kategori ciri kesalahan
bahasa dalam penyelidikan ini. Maknanya, setiap kategori merangkumi markah
sebanyak 8%.
Ianya menggunakan kaedah penolakan markah (-0.5) seperti yang dijelaskan
dalam subtopik 2.3.4. Hasilnya, satu set nilai ciri p7 hingga p11 yang bernilai negatif
akan diperolehi. Namun begitu, sepertimana yang telah dimaklumkan sebelum ini,
data daripada bahagian ini akan diambil daripada sampel esei kerana ianya tidak
terlibat dalam pembangunan penyelidikan ini lebih-lebih lagi bahagian ini
merupakan bahagian yang agak sukar dan kompleks (penerangan akan diterangkan
dalam Subtopik 3.9.1.1). Nilai negatif ini kemudiannya akan ditukarkan kepada nilai
positif menggunakan kaedah penjelmaan linear dengan mengaplikasikan Rumus 4.28
dalam Bab 4 (rujuk Subtopik 4.5.1).
3.5.2.2 Elemen Hujahan
Ciri elemen hujahan (p12) ini adalah untuk mengenalpasti dan mengkelaskan
elemen-elemen hujahan (penyataan pendahuluan, isi-isi penting dan penyataan
penutup) yang wujud dalam esei. Rumus MMB (rujuk Rumus 4.1) telah digunakan
untuk tujuan penentuan dan pengkelasan elemen hujahan tersebut.
Secara keseluruhannya, markah bagi bahagian isi kandungan dikira dengan
menjumlahkan markah kesemua elemen hujahan yang wujud. Berdasarkan skema
penilaian, bagi ciri ini, markah keseluruhan bahagian ini ialah sebanyak 30%. Oleh
kerana terdapat 10 elemen hujahan, setiap satunya memegang nilai peruntukan
sebanyak 3% markah.
69
3.6
Pra-pemprosesan Data dan Pengekstrakan Data
Pra-pemprosan dalam kajian ini berperanan untuk mempiawaikan data-data
tertentu bagi menambahbaik data asal agar lebih menepati dan menghampiri kaedah
penilaian manusia sebelum ianya boleh diekstrak untuk menepati ciri-ciri yang lebih
signifikan.
Berdasarkan Rajah 3.3, Fasa I ini dimulakan dengan proses pemecahan esei
kepada argumen (ayat). Titik pemecahan argumen ini ditentukan berdasarkan posisi
simbol noktah pada sebelum dan selepas bagi setiap ayat (kecuali pada ayat pertama,
permulaan ayat tidak wujud simbol noktah). Argumen tersebut kemudiannya akan
dibahagikan dan ditanda mengikut turutan dalam bentuk perkataan (token).
Seterusnya, setiap perkataan tersebut akan melalui proses penyisihan imbuhan yang
akan membuang imbuhan awalan dan akhiran setiap perkataan bagi mendapatkan
kata dasar. Setiap token tersebut (kata dasar) kemudiannya akan dipadankan dengan
perkataan yang disimpan dalam Pangkalan Pengetahuan (KB) KB_Thesaurus yang
mengandungi senarai kata dasar dalam Bahasa Melayu yang betul. Sebagai contoh,
perkataan ‘didakan’ mungkin mewakili perkataan ‘diadakan’. Sebagai penilai
(manusia), markah akan ditolak dari segi kesalahan ejaan tetapi masih dikira betul
dari segi isi penting (elemen hujahan). Untuk itu, Algoritma Pembetulan-Kata seperti
dalam Rajah 3.3 telah dibangunkan untuk memecahkan setiap token ke bentuk huruf
yang lebih kecil tetapi mengikut susunan. Huruf-huruf yang telah dipecahkan itu
akan ditanda agar susunannya tidak terjejas. Untuk menentukan samada sesuatu
token ‘cacat’ tersebut menyamai sesuatu perkataan yang betul dalam KB tersebut,
maka kaedah kebarangkalian akan digunakan. Kebarangkalian tertinggi yang
mengambilkira bilangan dan susunan huruf antara token tersebut dengan perkataan
dalam KB_Thesaurus terhampir akan dikira. Perkataan dari KB_Thesaurus yang
terhampir kepada kata dasar ralat itu akan dibandingkan dengan nilai threshold. Jika
melebihi nilai threshold, perkataan dari KB_Thesaurus itu akan menggantikan kata
dasar ralat tersebut. Sebaliknya, perkataan tadi akan dikekalkan. Nilai threshold
teserbut ditetapkan melalui kaedah pengujian untuk mendapatkan nilai threshold
yang paling optimum. Semua token yang telah diperbetulkan ini seterusnya disimpan
dalam KB_WordFixed. Terdapat beberapa jenis ralat ejaan yang dikesan iaitu
70
(i)
Bilangan huruf mencukupi, tetapi ralat pada satu atau lebih susunan
huruf.
(ii)
Bilangan huruf tidak mencukupi, tiada ralat pada susunan huruf.
(iii)
Bilangan huruf tidak mencukupi, ralat pada satu atau lebih susunan
huruf.
(iv)
Ralat pada imbuhan.
Algoritma dalam Rajah 3.3 hanya menyelesaikan masalah i, ii dan iii.
Manakala masalah vi hanya boleh diselesaikan dengan mengimplemenkan kaedah
NLP dan AI yang lebih berkesan kerana perubahan imbuhan pada sesuatu perkataan
dalan ayat akan mempengaruhi maksud keseluruhan ayat tersebut.
71
1 Pecahkan dan labelkan sebuah esei kepada argumen (ayat)
2 Bahagikan dan tandakan argumen kepada token (perkataan)
3 Asingkan imbuhan depan, imbuhan belakang dan kata dasar
4 Padankan corak kata dasar dengan kata dalam KB_Thesaurus.txt
4.1 Jika ianya kata dasar terakhir, tamat gelung
4.2 Jika tidak,
4.2.1 Jika padanan berjaya, pergi ke perkataan seterusnya
4.2.2 Jika tidak,
4.2.2.1 Perkataan akan dipecahkan dan ditanda mengikut
susunan kepada huruf demi huruf
4.2.2.2 Kebarangkalian tertinggi yang mengambilkira
bilangan dan susunan huruf antara kata dasar
tersebut dengan kata dalam KB_Thesaurus.txt
terhampir akan dikira
4.2.2.3 Kata dari KB_Thesaurus yang terhampir kepada
kata dasar ralat itu akan dibandingkan dengan nilai
threshold
4.2.2.4 Nilai threshold dikira dengan membahagikan
\
bilangan huruf dan susunan yang betul pada kata
dasar dengan kata padanan terhampir
4.2.2.4.1 Jika melebihi nilai threshold, kata dari
KB_Thesaurus itu akan menggantikan kata
dasar ralat tersebut
4.2.2.4.2 Jika tidak, pergi ke perkataan seterusnya
Rajah 3.3: Algoritma Pembetulan Kata
Setelah selesai proses pembetulan kata, kesemua token dan argumen (ayat)
yang telah dinyahralatkan tersebut akan digabungkan kembali dalam bentuk sebuah
esei lengkap. Seterusnya, penggabungan kata di mana pemadanan perkataan untuk
mengenalpasti satu-perkataan, dua-perkataan, tiga-perkataan hingga n-perkataan pula
akan dilakukan. Dalam penyelidikan ini, proses gabungan kata ini mengambilkira
huruf pertama bagi setiap perkataan bersebelahan adalah huruf besar. Jika keadaan
ini berlaku, perkataan-perkataan tersebut akan digabungkan. Sebagai contoh, ‘saya’
72
merupakan satu-perkataan, ‘Hari Keluarga’ merupakan dua-perkataan (H dan K
berhuruf besar) dan ‘Sekolah Kebangsaan Galing’ merupakan tiga-perkataan (S, K
dan G berhuruf besar). Setiap perkataan tersebut akan ditukarkan menjadi ‘saya’,
‘Hari_Keluarga’ dan ‘Sekolah_Kebangsaan_Galing’, di mana masing-masing
mewakili satu perkataan. Semua data ini akan disimpan dalam KB_WordCombine.
Hasil bagi kedua-dua operasi (pembetulan ralat ejaan dan penggabungan kata)
disimpan dalam KB_FixedEssay.
3.7
Latihan Peramalan Gaya Olahan (Ciri Optimum)
Fasa ini berperanan untuk melatih peramalan gaya olahan esei. Sebanyak 160
esei latihan digunakan dalam fasa ini bagi setiap kitaran cross-validation. Rajah 3.4
menerangkan proses latihan peramalan tersebut dan diperjelaskan dalam Subtopik
3.7.1 hingga 3.7.3.
AEL
KB_FixedEssay
Jenis/Token
Esei
Latihan
AWL
MLR
EC
Pemilihan Ciri
AC
EL
Rajah 3.4: Proses latihan peramalan gaya olahan.
Pekali Pemberat
Pengunduran
73
3.7.1
Pemilihan Ciri
Proses pertama yang terlibat dalam Fasa II ini ialah pemilihan ciri.
Berdasarkan Jadual 3.2 dan Rajah 3.4, sebanyak enam ciri optimum yang dipilih
dalam meramal gaya olahan esei menggunakan Algoritma MLR. Sebanyak 160 esei
latihan bagi setiap kitaran cross-validation yang dipilih daripada KB_FixedEssay
digunakan untuk melatih kesemua enam ciri yang dipilih tersebut.
3.7.2
Algoritma MLR
Rajah 3.5 merupakan Algoritma MLR yang dibangunkan menggunakan
bahasa pengaturcaraan LISP. Ianya dibangunkan berdasarkan rumus dan langkahlangkah penyelesaian matematik dalam subtopik 4.4.1.
Secara ringkasnya, data akan disimpan dalam tatasusunan yang mewakili
konsep matrik dan vektor sebelum dijana menggunakan fungsi rekursif sehingga
menghasilkan satu persamaan pengunduran yang paling baik dari segi pintasan-y dan
pekali ciri/pemberatnya.
74
1 Tukarkan dalam bentuk matrik dua dimensi bagi X dan matrik dua
dimensi bagi y.
2 Dapatkan matrik pelengkap bagi X’ dan y’.
3 Lakukan darab silang pada kedua-dua matrik tersebut (X’X dan X’y)
dan disimpan dalam matrik enam dimensi, P, dan matrik satu
dimensi, B.
4 Seterusnya, dapatkan matrik songsang ke atas matrik P dan disimpan
dalam matrik invP.
4.1 Periksa kemungkinan untuk dapatkan pekali bagi setiap
pembolehubah dengan mencari matrik penentu, d
4.2 Jika d = 0,
4.2.1 Keluarkan mesej ‘matrik tunggal-periksa data’.
4.3 Jika tidak,
4.3.1 Laksanakan carian matrik songsang
5 Bundarkan pekali optimum bagi setiap ciri/pembolehubah dalam
persamaan pengunduran yang dihasilkan.
Rajah 3.5: Algoritma Pengunduran Linear Berganda.
3.7.2.1 Matrik Pelengkap
Operasi pertama dalam algoritma ini ialah mendapatkan matrik pelengkap.
Matrik pelengkap diperolehi dengan menukarkan lajur kepada baris dan baris kepada
lajur bagi sesebuah matrik. Dalam kes ini, berpandukan Rajah 3.5, dalam langkah ke2, matrik dua dimensi, X yang bersaiz (160 u 6) ditukarkan kepada matrik pelengkap
dua dimensi, X’ yang bersaiz (6 u 160) dan marik dua dimensi, y yang bersaiz
(160 u 1) ditukarkan kepada matrik pelengkap dua dimensi, y’ yang bersaiz
(1 u 160) . ‘160’ mewakili bilangan esei latihan manakala ‘6’ dan ‘1’ masing-masing
mewakili bilangan ciri optimum dan nilai gaya olahan setiap esei dalam setiap
kitaran cross-validation.
75
3.7.2.2 Pendaraban Silang Matrik
Pendaraban silang matrik bagi matrik pelengkap X’ dengan matrik X dan
matrik pelengkap X’ dengan matrik y merupakan operasi seterusnya dalam Algoritma
MLR ini. Hasil pendaraban bagi kedua-dua operasi tersebut masing-masing
menghasilkan matrik dua dimensi, P yang bersaiz (6 u 6) dan matrik dua dimensi, B
yang bersaiz (6 u 1) . Operasi tersebut dinyatakan dalam langkah ke-3.
3.7.2.3 Matrik Songsang
Dengan menggunakan Persamaan Kuasa Dua-Terkecil dalam Rumus 4.22,
matrik dua dimensi, P akan disongsangkan, P-1 dan didarab silangkan dengan matrik
dua dimensi, B untuk mendapatkan model (persamaan) pengunduran terhampir.
Untuk tujuan ini, terdapat dua kaedah yang boleh digunakan bagi membuat
songsangan matrik. Kaedah Operasi Baris Permulaan (OBP) yang sesuai digunakan
bagi keadaan di mana terdapat bilangan pembolehubah (ciri) yang banyak
merupakan satu daripada kaedah tersebut. Bagi kaedah ini, ianya menggunakan
matrik penentu dalam mendapatkan matrik songsang (P-1). Manakala kaedah yang
kedua ialah Kaedah Adjoin yang juga merupakan kaedah yang digunakan dalam
penyelidikan ini kerana bilangan ciri optimum tidak terlalu besar. Kaedah ini juga
mengaplikasikan operasi rekursif untuk mendapatkan matrik songsang P-1 tersebut.
3.7.3
Pekali Pemberat Pengunduran
Objektif utama Algoritma MLR digunakan adalah untuk mendapatkan pekali
pemberat pengunduran terhampir yang dilatih menggunakan keenam-enam ciri
optimum tersebut. Pekali pemberat tersebut lazimnya berbeza bagi ciri yang
berlainan. Dari situ, ciri yang lebih signifikan menyumbang ketepatan dalam
peramalan gaya olahan esei ujian akan mempunyai pekali pemberat yang lebih besar.
76
3.8
Latihan Pengkelasan Elemen Hujahan (Ciri Tetap)
Pada awalnya, kita akan membangunkan pengkelas Bayesian untuk
menentukan dan mengkelaskan elemen-elemen hujahan menggunakan maklumbalas
esei pelajar yang telah diperolehi. (McCallum dan Nigam, 1998) telah
membincangkan dua model kebarangkalian yang boleh digunakan untuk melatih
pengkelas bebas Bayesian, iaitu Model Multinomial (MM) dan Model Multivariate
Bernoulli (MMB).
KB_FixedEssay
Esei
Latihan
B
Pemilihan Ciri
untuk elemen
hujahan Hk
Jika H1 atau H10 ?
k = 1, 2, 3, … 10
A
Ya
Latihan untuk Ciri
A1
Pemecahan dan
penandaan token
Penapisan ciri
berdasarkan
argumen
kedudukan
Pemecahan dan
penandaan token
Penapisan ciri
berdasarkan
argumen leksikal
Simpan dalam
KB_HkAi
KB_GroupWord
i = 1, 2, 3
Tidak
Latihan untuk Ciri
A2
KB_HkAi
A
B
Latihan untuk Ciri
A3
Pemecahan dan
penandaan token
Penapisan ciri
berdasarkan
argumen RST
A
Rajah 3.6: Proses Latihan Pengkelasan Elemen Hujahan.
3.8.1
Model Multinomial
McCallum dan Nigam (1998) juga menerangkan bahawa MM merupakan
pendekatan tradisional dalam permodelan bahasa statistik (terutamanya dalam
aplikasi pengecaman suara), di mana sebuah dokumen diwakili oleh satu set
77
kewujudan perkataan dan ramalan kebarangkalian mengenalpasti bilangan perkataan
yang wujud dalam dokumen. Namun begitu, model ini memerlukan saiz
perbendaharaan kata yang besar untuk melakukan perlaksanaan yang lebih baik.
Dengan menggunakan MM, setiap esei digambarkan sebagai sampel bagi
kesemua istilah kalibrasi (telah ditentukur). Kebarangkalian bagi setiap markah esei
dikira daripada hasil kebarangkalian ciri-ciri yang terkandung dalam esei.
3.8.2
Model Multivariate Bernoulli
Dalam kajian ini, MMB telah digunakan. Dengan MMB, sebuah dokumen
diwakilkan dalam bentuk ciri-ciri yang wujud dan tidak wujud. Dalam pengkelasan
teks, McCallum dan Nigam (1998) menyatakan bahawa MMB dapat melakukan
perlaksanaan dengan baik hanya dengan menggunakan perbendaharaan kata yang
bersaiz kecil (sedikit) berbanding MM yang mana perlaksanaannya adalah lebih baik
jika melibatkan perbendaharaan kata yang bersaiz besar. Larkey (1998)
menggunakan pendekatan MMB untuk melaksanakan penilaian esei dan hasilnya
adalah konsisten berbanding hasil yang diperolehi oleh McCallum dan Nigam (1998)
(sila rujuk Larkey dan Croft (1996) untuk penerangan tentang aplikasi tambahan).
Menurut Larkey (1998), set esei yang digunakan untuk melatih model penilaian
biasanya mengandungi kurang daripada 300 dokumen. Lebih-lebih lagi,
perbendaharaan kata yang digunakan dalam dokumen-dokumen tersebut adalah agak
terhad.
Dengan menggunakan MMB ini, setiap esei digambarkan sebagai kes yang
khusus bagi kesemua ciri-ciri kalibrasi. Ciri-ciri penentukur yang wujud dan tidak
wujud diperiksa. Dalam aplikasi Rangkaian Bayesian yang biasa, pendekatan ini
telah digunakan dalam pengkelasan teks oleh Lewis (1992), Kalt dan Croft (1996)
dan ramai lagi.
78
Berdasarkan kepada kejayaan eksperimen yang telah dijalankan oleh Larkey,
dan penemuan yang telah dilaksanakan oleh McCallum dan Nigam, yang mana
menyatakan bahawa MMB dapat melakukan perlaksanaan ke atas teks dengan lebih
baik hanya dengan menggunakan perbendaharaan kata bersaiz kecil, pendekatan ini
dilihat sebagai pilihan yang lebih efisyen untuk memanipulasi set data maklumbalas
esei. Oleh itu, kita akan mengaplikasikan pendekatan ini untuk membina pengkelas
elemen-elemen hujahan yang berkemampuan untuk mengenalpasti ayat-ayat
daripada esei yang paling kemungkinan untuk dilabelkan sebagai sesebuah elemen
hujahan.
Dalam kajian yang dilakukan, kita akan menggunakan tiga jenis ciri-ciri
umum untuk membina pengkelas iaitu kedudukan ayat, perkataan yang paling kerap
wujud dalam elemen-elemen hujahan dan label Pepohon Strutur Retorik (RST)
daripada output yang dijana oleh penghurai struktur retorik sedia ada.
3.8.3
Pemilihan Data
Berdasarkan Rajah 3.6, terdapat tiga kriteria yang digunakan untuk membuat
pengkelasan elemen-elemen hujahan dalam kajian ini. Dimulakan dengan 160 esei
latihan bagi setiap kitaran cross-validation yang dipilih daripada KB_FixedEssay,
setiap esei tersebut dilatih berdasarkan 10 pengkelasan elemen hujahan (H1, 2, 3, .., 10
yang mewakili 1 penyataan tesis, 8 isi penting dan 1 penyataan penutup) yang telah
dinyatakan. Namun begitu, bilangan dan esei latihan yang dipilih untuk dilatih bagi
sesebuah elemen hujahan bergantung kepada kewujudan elemen hujahan tersebut
dalam esei. Bagi pengkelasan elemen hujahan H1 dan H10, ianya dilatih berdasarkan
ketiga-tiga kriteria tersebut iaitu Kriteria Kedudukan (A1), Kriteria Leksikal (A2) dan
Kriteria Teori Struktur Retorik (RST, A3). Sebaliknya bagi pengkelasan H2, 3, 4, ..., 9,
proses latihan hanya melibatkan Kriteria A2 dan Kriteria A3 sahaja. Untuk tujuan
latihan ini, esei latihan tersebut akan dipecahkan dan ditanda susunannya kepada
beberapa token.
79
3.8.3.1 Kriteria Kedudukan, A1
Daripada kajian yang telah dilakukan, didapati bahawa kemungkinan
pernyataan pendahuluan dan pernyataan penutup masing-masing berada di
permulaan dan di penghujung esei adalah agak tinggi berdasarkan esei yang telah
dinilai oleh manusia. Untuk mengambilkira faktor ini, kita menggunakan satu kriteria
yang mewakili kedudukan bagi setiap ayat dalam esei. Oleh itu, kriteria ini hanya
diaplikasikan kepada kedua-kedua elemen hujahan itu sahaja (H1 dan H10). Rajah 3.7
menunjukkan sebahagian daripada contoh data latihan bagi esei yang dilatih
berdasarkan Kriteria Kedudukan.
"mengadakan"
"pada"
"telah"
"yang"
"lalu"
"temasya"
"minggu"
"satu"
"sekolah"
"tarikh"
"kami"
"kali"
"bagi"
Rajah 3.4: Contoh data latihan menggunakan Ciri Kedudukan.
"iaitu"
"persatuan"
Rajah 3.7: Contoh data latihan menggunakan Kriteria Kedudukan.
3.8.3.2 Kriteria Leksikal, A2
Kesemua perkataan daripada elemen-elemen hujahan yang telah dinilai oleh
manusia digunakan untuk membangunkan pengkelas Bayesian, satu per satu secara
berasingan. Kita akan merujuk kepada perkataan-perkataan tersebut sebagai senarai
kata tesis. Daripada data latihan, senarai perbendaharaan kata akan dihasilkan yang
mengandungi satu kewujudan bagi setiap perkataan yang digunakan dalam setiap
elemen hujahan yang telah dinilai oleh pakar. Kesemua perkataan dalam senarai ini
digunakan sebagai ciri leksikal bebas. Didapati bahawa penggunaan pelbagai kata
80
henti akan mengurangkan kemampuan pengkelas ini, oleh itu kita tidak akan
menggunakannya (Burstein et. al., 2001; Zhou, 2003). Rajah 3.8 menunjukkan
sebahagian daripada contoh data latihan bagi esei yang dilatih berdasarkan Kriteria
Leksikal.
"mengadakan"
"pada"
"telah"
"yang"
"lalu"
"temasya"
"minggu"
"satu"
"sekolah"
"tarikh"
"kami"
"kali"
"bagi"
"iaitu"
"persatuan"
Rajah 3.8: Contoh data latihan menggunakan Kriteria Leksikal
3.8.3.3 Kriteria Teori Struktur Retorik, A3
Berpandukan RST, kita boleh mengaplikasikan teori struktur retorik kepada
mana-mana teks. Dalam RST, dedaun mewakili unit hujahan elemen, manakala nod
dalaman merupakan potongan teks bersebelahan. Setiap nod dalam pepohon
dikategorikan sebagai status (nuklues atau satelit) dan hubungan retorik yang
mewakili dan menghubungkan antara dua potongan teks tak-bertindih. Ianya dilabel
dengan nama hubungan retorik tersebut.
Nukleus mewakili perkara yang lebih penting daripada satelit berdasarkan
pemikiran manusia. Selain itu, nukleus juga boleh-difahami sendiri (bebas)
berbanding satelit. Sekiranya sesuatu potongan itu adalah sama penting, maka
hubungannya adalah multinukleur. Hubungan retorik ini merangkumi semantik,
81
pemikiran/idea dan hubungan teks yang diwakili oleh potongan teks dalam Rajah
3.9.
PEMBUKTIAN
LATAR BELAKANG
PENGHURAIAN
SOKONG
KONTRA
SEBAB
Rajah 3.9: Pepohon RST.
Rajah 3.9 menunjukkan pepohon struktur retorik bagi pecahan (fragmen)
teks. Nukleus dipersembahkan menggunakan garis lurus, manakala satelit
menggunakan anak panah. Nod dalaman dilabelkan dengan nama hubungan retorik.
RST dibangunkan secara automasi untuk setiap esei menggunakan penghurai
hujahan berpandukan-frasa-tanda. Kemudian, ianya digabungkan dengan setiap esei
berdasarkan ciri yang mengenalpasti status bagi nod ibu bapa (nukleus dan satelit)
dan ciri yang lain yang mengenalpasti hubungan retorik. Didapati bahawa terdapat
beberapa hubungan retorik berlaku/wujud lebih kerap dalam ayat yang ditanda
sebagai setiap elemen hujahan. Oleh yang demikian, kebarangkalian keadaan bagi
hubungan tersebut adalah lebih tinggi dan mempunyai bukti bahawa beberapa ayat
adalah elemen hujahan. Namun begitu, mungkin terdapat beberapa pertindihan antara
elemen-elemen hujahan yang sama dan hubungan retorik digunakan untuk
membangunkan pengkelas. Rajah 3.10 menunjukkan sebahagian daripada contoh
data latihan bagi esei yang dilatih berdasarkan Kriteria RST.
82
"mengadakan"
"pada"
"telah"
"yang"
"lalu"
"temasya"
"minggu"
"satu"
"sekolah"
"tarikh"
Rajah 3.10: Contoh data latihan menggunakan Kriteria RST.
3.8.4
Penapisan Data
Proses ini merupakan proses penapisan (penormalan) data di mana data
latihan yang dilatih menggunakan 160 esei latihan bagi setiap kitaran cross-
validation ditukar kepada perkataan mengikut kelas kata yang sesuai. Sebagai
contoh, dalam ayat “Pada minggu lalu, Sekolah Kebangsaan Galing telah
mengadakan temasya sukan tahunan”, akan diekstrak kepada “Pada”, “minggu”,
“lalu”, “Sekolah_Kebangsaan_Galing”, “telah”, “mengadakan”, “temasya”, “sukan”,
“tahunan”. Penapisan data di sini dilakukan dengan menggantikan
“Sekolah_Kebangsaan_Galing” kepada “sekolah”. Begitu juga bagi data
“Sekolah_Kebangsaan_Semambu” akan ditukar kepada “sekolah” yang
menunjukkan bahawa kedua-dua data tersebut adalah sama cirinya walau berbeza
perkataannya. Ianya dilaksanakan menggunakan kaedah kebarangkalian (rujuk Rajah
3.3) dan membuat perbandingan dengan perkataan dalam KB_GroupWord. Tokentoken tersebut akhirnya akan disimpan dalam KB_Hk_Ai di mana k mewakili
bilangan pengkelasan elemen hujahan dan i mewakili bilangan kriteria latihan yang
dipilih. Dengan itu, bagi setiap kitaran pengesahan-bersilang, terdapat sejumlah 22
KB yang menyimpan perkataan teras (core features) yang berbeza. Ianya akan
digunakan dalam pengujian elemen hujahan dengan mengaplikasikan MMB bagi
menentukan kewujudan dan pengkelasan elemen hujahan pada esei ujian dalam Fasa
IV.
83
3.8.5
Pekali Pemberat Peratusan
Hasil akhir daripada Fasa III ialah dapatan pekali pemberat peratusan. Pekali
pemberat ini diperolehi dengan menggunakan Rumus 4.32 di Subtopik 4.5.5. Pekali
pemberat peratusan ini digunakan untuk membuat penilaian akhir. Dengan dapatan
ini, peramalan isi kandungan esei dijangka lebih baik.
3.9
Pengujian Penilaian
Bagi membuktikan objektif keempat (Subtopik 1.5 (iv)) penyelidikan ini
berjaya dicapai, pengujian menggunakan teknik penilaian dilakukan. Terdapat tiga
bahagian yang diperlukan untuk menguji peramalan penilaian esei merangkumi ciri
tetap dan optimum selaras dengan Jadual 4.2 dengan memfokuskan kepada dua
bahagian utama iaitu peramalan gaya olahan (ciri optimum) menggunakan Algoritma
MLR dan penentuan elemen-elemen hujahan (ciri tetap) menggunakan teknik MMB.
Bahagian ketiga ialah bahagian bahasa (ciri tetap).
3.9.1
Pengujian Ciri Tetap
Ciri tetap melibatkan dua bahagian; bahasa dan isi kandungan. Bagi bahagian
kesalahan bahasa, nilai diperolehi berdasarkan penilaian manusia manakala bagi isi
kandungan, nilai diperolehi menggunakan Teknik MMB. Pemberat ciri tetap bagi
keenam-enam ciri tersebut akan diwakili dalam bentuk peratusan jumlah pemberat
dan diperjelaskan selanjutnya dalam Subtopik 4.5.4.
84
3.9.1.1 Ciri Bahasa
Kesalahan bahasa merupakan antara bahagian yang sangat kompleks. Di
antara lima ciri kesalahan bahasa, hanya satu daripadanya agak mudah iaitu
kesalahan ejaan. Selebihnya, keempat-empat ciri yang lain; penggunaan
perbendaharaan kata yang sesuai, struktur ayat yang betul dari segi sintak dan
semantiknya (gramatis), tanda baca yang sesuai bagi menerangkan intonasi atau
penegasan ayat dan imbuhan yang memastikan makna ayat ditafsirkan dengan tepat,
merupakan aplikasi linguistik peringkat tinggi. Penggunaan teknik AI digabungkan
dengan teknik statistik, NLP, IR dan beberapa teknik lain memungkinkan ciri-ciri
kesalahan bahasa tersebut dikenalpasti.
3.9.1.2 Teknik MMB
dB_FixedEssay
k = 1, 2, 3, … n
Esei
Ujian
Pemecahan dan
penandaan token
Argumenk
MMB
Penapisan ciri
berdasarkan
argumen
kedudukan
dB_GroupWord
Dapatkan
kebarangkalian
tertinggi
Padanan corak
token berdasarkan
Ciri A1, A2, A3.
dB_HkAi
A
Nyatakan
elemen
hujahan Hk
Yes
>= nilai
threshold
No
A
i = 1, 2, 3
Tiada elemen
hujahan Hk
Rajah 3.11: Proses pengujian pengkelasan elemen hujahan.
Rajah 3.11 menunjukkan proses pengujian untuk menentukan kewujudan dan
pengkelasan sesebuah elemen hujahan dalam setiap esei ujian. Sebanyak 40 esei
ujian bagi setiap kitaran diambil daripada dB_FixedEssay. Setiap esei tersebut
kemudiannya akan dipecahkan dan ditanda kepada argumen dan token mengikut
85
susunan. Seterusnya, argumen pertama (Argumen1) akan diuji menggunakan Teknik
MMB (Rumus 4.1). Untuk tujuan itu, ianya dimulakan dengan proses penapisan data
yang menggunakan Algoritma Pembetulan Kata (Rajah 3.3) dengan membuat
perbandingan token dengan data (perkataan) di dalam dB_GroupWord.
Setelah itu, padanan corak token berdasarkan ketiga-tiga ciri (A1, A2 dan A3)
dibuat. Dengan menggunakan jumlah padanan corak tersebut, Teknik MMB
diaplikasikan untuk mendapatkan kebarangkalian ln yang mewakili penghampiran
kepada pengkelasan elemen hujahan yang dicari. Proses ini akan diteruskan hingga
argumen ke-n. n mewakili bilangan argumen dalam sesebuah esei yang diuji. Setelah
itu, kebarangkalian ln maksimum antara semua argumen yang diuji akan diambil dan
diramal untuk menjadi calon sesebuah elemen hujahan. Namun begitu, argumen
tersebut akan hanya disahkan sebagai sebuah elemen hujahan setelah mendapati nilai
kebarangkalian tersebut sama atau melebihi nilai threshold. Dalam penyelidikan ini,
nilai threshold diperolehi sewaktu pengujian dilakukan dan nilai yang paling sesuai
akan ditetapkan.
3.9.1.3 Pekali Pemberat Peratusan
Bagi melengkapkan peramalan penilaian esei, pekali pemberat ke atas
kesemua enam ciri tetap yang merangkumi bahagian bahasa dan isi kandungan akan
dihasilkan. Pekali pemberat ini digunakan supaya peramalan ini lebih konsisten dan
meminimakan bias (Attali, 2004). Untuk tujuan ini, Rumus 4.32 akan digunakan
yang mana ianya melibatkan pekali pemberat pengunduran bagi keenam-enam ciri
optimum yang telah diperolehi menggunakan Algoritma MLR sebelum ini (rujuk
Subtopik 3.7.3). Penerangan bagi dapatan pekali pemberat peratusan boleh dirujuk di
Subtopik 4.5.5.
86
3.9.2
Pengujian Ciri Optimum
Pengujian ke atas ciri optimum mewakili pengujian ke atas peramalan
markah gaya olahan esei. Ianya dilaksanakan menggunakan Algoritma MLR yang
melibatkan enam ciri optimum. Pekali pemberat pengunduran dalam persamaan
pengunduran yang diperolehi pada Subtopik 3.7.3 akan digunakan untuk membuat
peramalan nilai gaya olahan 40 esei ujian bagi setiap kitaran.
3.9.2.1 Algoritma MLR
AEL
dB_FixedEssay
Jenis/Token
AWL
Esei
Ujian
Pekali Pemberat
Pengunduran
Nilai Gaya Olahan
EC
AC
EL
Rajah 3.12: Proses pengujian peramalan gaya olahan.
Berdasarkan Rajah 3.12, sebanyak 40 esei ujian akan diambil daripada
dB_FixedEssay. Kesemua esei ujian tersebut kemudiannya akan diproses untuk
mendapatkan nilai bagi setiap ciri optimum.
87
3.9.2.2 Pekali Pemberat Pengunduran
Seterusnya, setiap nilai ciri optimum yang diperolehi akan didarabkan dengan
pekali pemberat masing-masing bagi mendapatkan nilai akhir bagi peramalan gaya
olahan. Untuk tujuan perbandingan, nilai gaya olahan yang diramal bagi setiap esei
ujian akan dipecahkan mengikut peringkat A hingga E seperti di Lampiran D.
3.9.3
Penilaian Gred Akhir
Proses yang terakhir ini bertujuan untuk membuktikan objektif keempat
penyelidikan ini tercapai atau sebaliknya. Dalam proses ini, ia akan menggabungkan
tiga bahagian utama dalam penilaian sesebuah esei. Bagi elemen gaya olahan, nilai
diperolehi daripada hasil darab pemberat pengunduran dengan setiap daripada enam
ciri optimum tersebut. Manakala bagi elemen bahasa dan isi kandungan pula, nilai
diperolehi daripada hasil darab pemberat peratusan dengan setiap daripada enam ciri
tetap tersebut. Hasil penilaian gred akhir esei ditentukan dengan menggabungkan
nilai kedua-dua jenis ciri tersebut dan membuat pengkelasan gred berdasarkan Jadual
3.3. Penerangan dari segi rumus yang digunakan boleh dirujuk dalam Subtopik 4.5.6.
Jadual 3.3: Gred markah UPSR.
Markah
Gred
75-100
A
60-74
B
40-59
C
20-39
D
1-19
E
Berdasarkan Jadual 3.3, gred akhir penilaian ditentukan dengan
mengenalpasti julat markah yang diperolehi. Perbezaan tidak melebihi satu matanilai dianggap sebagai setara. Rumusan keputusan bagi penilaian ini boleh dirujuk
dalam Jadual 5.13 dan Rajah 5.15.
88
3.10
Ringkasan
Topik perbincangan dalam bab ini memfokuskan kepada metodologi dan
proses-proses yang terlibat dalam membuat pengkelasan elemen-elemen hujahan dan
peramalan gaya olahan termasuk dari segi latihan mahupun pengujian. Turut
dibincangkan dalam bab ini ialah prosidur latihan dan pengujian yang digunakan
iaitu prosidur five-fold cross-validation.
Bagi memperjelaskan lagi proses dalam metodologi yang digunakan, set 12
ciri signifikan yang digunakan turut dinyatakan. Ini merangkumi penerangan tentang
pecahan ciri tersebut (ciri optimum dan tetap) beserta jenis-jenisnya. Set ciri ini
digunakan dalam Fasa II hingga Fasa VI melibatkan kedua-dua proses latihan dan
pengujian.
Metodologi tersebut diakhiri dengan Fasa IV yang menggabungkan
persamaan pemberat pengunduran (gaya olahan) yang menggunakan Algoritma
MLR dan persamaan pemberat peratusan (bahasa dan isi kandungan) yang
menggunakan Teknik MMB untuk mendapatkan penilaian akhir dan membuat
perbandingan dengan penilaian manusia.
Dalam Bab 5, ianya lebih menjurus kepada perincian teknik dan algoritma
yang digunakan dalam metodologi ini (Teknik MMB dan Algoritma MLR) dan
perbandingannya (Teknik Logik Fuzzy dan Algoritma SLR). Turut dimuatkan ialah
penerangan lanjut beberapa rumus lain yang terlibat dalam metodologi penyelidikan
yang digunakan.
BAB 4
TEKNIK PENILAIAN MENGGUNAKAN BAYESIAN DAN
PENGUNDURAN LINEAR BERGANDA
4.1
Pendahuluan
Bab ini membincangkan tentang beberapa teknik untuk menentukan dan
mengkelaskan elemen hujahan dan algoritma untuk membuat peramalan gaya
olahan esei. Namun begitu, turut dibincangkan tentang rekabentuk Pangkalan
Pengetahuan (KB) dan prosidur penilaian yang memberi penerangan lebih lanjut
tentang beberapa proses dalam metodologi penyelidikan (Bab 3).
4.2
Rekabentuk Pangkalan Pengetahuan (KB)
Sebelum pembangunan sistem pengoperasian dimulakan, Pangkalan
Pengetahuan (KB) harus dirangka, dirancang dan direkabentuk terlebih dahulu bagi
memastikan ianya menyokong perlaksanaan sistem itu kelak. Terdapat beberapa
buah KB yang berkaitan direkabentuk dalam sistem ini dan disimpan dalam format
*.txt. Kesemua KB yang terlibat dalam pembangunan sistem ini adalah seperti
berikut:
(i)
KB_Tesaurus - KB yang menyimpan kesemua istilah perbendaharaan
kata Bahasa Melayu dalam bentuk tesaurus.
90
(ii)
KB_WordFixed – KB yang menyimpan perkataan yang telah
diperbetulkan menggunakan Algoritma Pembetulan-Kata.
(iii)
KB_WordCombine – KB yang menyimpan perkataan yang telah
digabungkan.
(iv)
KB_FixedEssay – KB yang menyimpan semua esei yang telah
diperbetulkan ralat ejaan dan penggabungan kata.
(v)
KB_GroupWord – KB yang menyimpan kelas kata.
(vi)
KB_Hk_Ai – KB yang menyimpan data latihan elemen hujahan bagi
pengkelasan ke-k dan kriteria ke-i.
4.3
Teknik Penentuan dan Pengkelasan Elemen Hujahan
Terdapat beberapa teknik yang digunakan dalam menentukan dan
mengkelaskan elemen hujahan sesebuah esei. Merujuk kepada Kajian Literatur
dalam Bab 2, sekurang-kurangnya terdapat tujuh teknik yang telah digunakan oleh
para penyelidik untuk tujuan ini. Namun dalam penyelidikan ini, Teknik MMB telah
digunakan berdasarkan justifikasi yang dinyatakan dalam bab tersebut. Untuk tujuan
perbandingan, Teknik Logik Fuzzy telah dipilih. Ini kerana, berdasarkan Jadual 2.2,
penggunaan teknik ini dalam Sistem E-rater telah menghasilkan keputusan
kesetaraan manusia-sistem yang tinggi iaitu sehingga 94% menggunakan esei GMAT
sebagai sasaran ujian.
4.3.1
Model Multivariate Bernoulli (MMB)
Pengkelas MMB dilatih untuk meramal elemen-elemen hujahan dalam esei.
Dengan menggunakan Rumus 4.1 (Burstein et al., 2001), ianya akan menghasilkan ln
kebarangkalian iaitu sebuah ayat (S) dalam sebuah esei yang dimiliki oleh kelas (T)
bagi ayat adalah samada pernyataan pendahuluan, isi penting atau pernyataan
penutup. Rumus tersebut menggunakan konsep peramal kebarangkalian maksimum.
91
ln( P(T | S ))
­ln( P( Ai | T ) / P( Ai ))
° jika S mengandungi Ai
°
ln( P(T )) ¦ ®
°ln( P( Ai | T ) / P( Ai ))
° jika S tidak mengandungi Ai
¯
(Rumus 4.1)
Berdasarkan Rumus 4.1 tersebut, P(T ) ialah kebarangkalian prior bahawa
sesebuah ayat adalah dalam kelas T, P( Ai | T ) ialah kebarangkalian conditional
bahawa sesebuah ayat mempunyai kriteria Ai , diberi bahawa ayat tersebut adalah
dalam T dan P( Ai ) adalah kebarangkalian prior bahawa sesebuah ayat mengandungi
kriteria Ai , P ( Ai | T ) merupakan kebarangkalian conditional bahawa sesebuah ayat
tidak mempunyai kriteria Ai , diberi bahawa ianya adalah dalam T dan
P ( Ai ) merupakan kebarangkalian prior bahawa sesebuah ayat tersebut tidak
mengandungi kriteria Ai .
T
Ai
P( Ai )
T
Ai
P (T | Ai )
T
P(T | Ai )
P (T | Ai )
P ( Ai )
T
P(T | Ai )
Rajah 4.1: Pepohon rangkaian MMB.
Rajah 4.1 menunjukkan pepohon rangkaian MMB untuk mendapatkan
kebarangkalian prior dan kebarangkalian conditional. Dalam penyelidikan ini, kita
menggunakan tiga jenis kriteria iaitu A1, A2 dan A3 (rujuk Subtopik 3.8.3.1).
Manakala T pula mewakili kelas iaitu pengkelasan elemen hujahan. Oleh itu, T
dalam kes ini mempunyai 10 kelas, selari dengan 10 pengkelasan elemen hujahan.
92
4.3.1.1 Kebarangkalian Prior
Kebarangkalian prior ialah peristiwa yang berlaku sebelum kewujudan bukti
baru (Rudner dan Liang, 2002). Peraturan Bayes menyatakan bahawa bagaimana
kebarangkalian prior akan berubah dengan kewujudan bukti baru (Mikko Koivisto
dan Kismat Sood, 2004).
Kebarangkalian prior bagi peristiwa E, P(E) ialah kebarangkalian sesuatu
peristiwa berlaku dengan kewujudan apa-apa faktor yang mungkin ‘menyebabkan’
peristiwa tersebut berlaku. Dalam penyelidikan ini, kebarangkalian prior T, P(T)
merupakan kebarangkalian ayat, S berada dalam kelas T (elemen hujahan dalam
kelas T). Oleh itu, Rumus 4.2 yang menggabungkan kebarangkalian pada cabang T
(rujuk Rajah 4.1) telah digunakan. Berdasarkan rumus tersebut, dirumuskan bahawa
ianya adalah untuk mendapatkan kebarangkalian ayat berada dalam pengkelasan
elemen hujahan T dengan mengambilkira kedua-dua komponen yang wujud ( Ai ) dan
tidak wujud ( Ai ).
P(T )
P(T | Ai ) x P ( Ai ) P(T | Ai ) x P( Ai )
(Rumus 4.2)
Manakala, disebabkan terdapat tiga kriteria yang digunakan dalam menentukan
elemen hujahan ini, maka kebarangkalian prior bagi Ai , P ( Ai )
kebarangkalian prior bagi Ai , P ( Ai )
1 / 3 dan
2/3.
4.3.1.2 Kebarangkalian Conditional
Kebarangkalian conditional ditakrifkan sebagai kebarangkalian I berlaku, jika
diberi bahawa peristiwa E adalah benar (true), dan dinyatakan sebagai P (I | E).
Berpandukan Rumus 4.1, terdapat dua keadaan di mana jika ayat mengandungi
kriteria Ai , maka kebarangkalian conditional P( Ai | T ) akan digunakan dan
93
sebaliknya, jika ayat tidak mengandungi kriteria Ai , kebarangkalian conditional
P( Ai | T ) akan digunakan. Untuk itu, Rumus 4.3 akan digunakan bagi kes yang
pertama
P ( Ai | T )
P( Ai ) x P(T | Ai )
P( Ai ) x P(T | Ai ) P(T | Ai ) x P( Ai )
(Rumus 4.3)
dan Rumus 4.4 pula akan digunakan bagi kes kedua
P ( Ai | T )
P( Ai ) x P(T | Ai )
P( Ai ) x P(T | Ai ) P(T | Ai ) x P( Ai )
(Rumus 4.4)
Namun begitu, sebelum kebarangkalian conditional P( Ai | T ) dan P( Ai | T )
diperolehi, Rumus 4.5 akan digunakan untuk mendapatkan kebarangkalian
conditional P(T | Ai ) bagi kes pertama
P(T | Ai )
P(T ˆ Ai )
P( Ai )
(Rumus 4.5)
dan Rumus 4.6 akan digunakan untuk mendapatkan kebarangkalian conditional
P(T | Ai ) bagi kes kedua
P(T | Ai )
P(T ˆ Ai )
P( Ai )
(Rumus 4.6)
Berdasarkan kepada kedua-dua rumus kebarangkalian conditional (Rumus 4.3 dan
4.4), didapati bahawa ianya mengambilkira kedua-dua ciri yang wujud ( Ai ) dan ciri
yang tidak wujud ( Ai ) dalam ayat.
94
4.3.2
Logik Fuzzy
Logik Fuzzy atau Logik Multi-Nilai adalah teori bagi Set Fuzzy, set yang
menentukur kekaburan (Negnevitsky, 2002). Berbanding set crisp (logik Boolean)
yang memberi nilai 1 (benar) dan 0 (salah), Logik Fuzzy akan menghasilkan nilai
dalam julat 0 hingga 1. Zadeh (1965), menyatakan bahawa Logik Fuzzy merupakan
sebuah set yang berprinsipkan matematik untuk mewakilkan pengetahuan
berdasarkan darjah keahlian berbanding keahlian crisp dalam logik binari.
4.3.2.1 Penapisan Token
Dalam ayat “Pada minggu lalu, Sekolah Kebangsaan Galing telah
mengadakan temasya sukan tahunan” akan dipecahkan kepada token. Seterusnya,
penapisan token dilakukan menggunakan kaedah kebarangkalian menggunakan
Algoritma Pembetulan Kata (rujuk Rajah 3.3). Contohnya, ‘minggu lalu’ akan
digantikan dengan ‘tarikh’. Begitu juga ‘Sekolah Kebangsaan Galing’ akan
digantikan dengan ‘sekolah’ dan ‘temasya sukan tahunan’ akan digantikan dengan
‘sukan’. Hasilnya kita akan memperolehi rentetan token; ‘pada’, ‘tarikh’, ‘sekolah’,
‘telah’, ‘mengadakan’, ‘sukan’. Seterusnya, semua token yang telah melalui proses
penapisan itu akan dijana untuk mendapatkan frekuensi (kekerapan) menggunakan
160 esei latihan (bagi setiap kitaran cross-validation).
4.3.2.2 Set Fuzzy
Set Fuzzy didefinisikan sebagai sebuah set yang mengandungi had fuzzy.
Ianya menunjukkan samada sesebuah ayat tersebut adalah ‘tidak berkemungkinan’
atau ‘sangat berkemungkinan’ untuk menjadi sesebuah elemen hujahan tersebut. Set
Fuzzy dalam penyelidikan ini menggunakan frekuensi (kekerapan) token yang dilatih
dalam membuat pengkelasan elemen hujahan. Jadual 4.1 merupakan contoh data Set
95
Fuzzy A mewakili set ‘tidak berkemungkinan’ dan Set Fuzzy B mewakili set ‘sangat
berkemungkinan’ dan darjah keahlian masing-masing (degree of membership) bagi
contoh pengkelasan penyataan tesis.
Jadual 4.1: Darjah keahlian bagi Set Fuzzy A dan Set Fuzzy B.
Token
Pada
tarikh
yang
sekolah
telah
mengadakan
sukan
saya
kami
tempat
aktiviti
meriah
kali
di
iaitu
bagi
satu
Set Fuzzy A
Darjah
Frekuensi
keahlian
123
1
114
1
109
0.97
103
0.80
99
0.69
98
83
80
74
72
0.66
0.23
0.14
0
0
Set Fuzzy B
Darjah
Frekuensi
keahlian
80
74
72
61
60
56
52
44
38
31
0
0
0.09
0.40
0.43
0.54
0.66
0.89
1
1
4.3.2.3 Darjah Keahlian
Dinyatakan bahawa Set Fuzzy A dan B masing-masing ditakrifkan untuk
‘tidak berkemungkinan’ dan ‘sangat berkemungkinan’. Bagi fungsi keahlian bagi
kedua –dua Set Fuzzy A (MA) dan B (MB), ianya menggunakan fungsi keahlian
Trapezoidal.
96
M A ( x)
M A ( x)
­ 1
° 75 x
®
° 35
¯ 0
bagi x 40
bagi x t 40 dan x 75
(Rumus 4.7)
bagi x t 75
bagi x d 75
­ 0
° x 75
bagi x ! 75 dan x d 100
®
° 35
bagi x ! 100
¯ 1
(Rumus 4.8)
Untuk mewakilkan Set Fuzzy dalam komputer, senarai pasangan digunakan, di mana
setiap pasangan mewakili nilai dan nilai keahlian Fuzzy. Dengan itu, Set Fuzzy A
ialah
A = {(x1, MA (x1)), …, (xn, MA (xn))}
(Rumus 4.9)
Dengan menggunakan Rumus 4.7 dan 4.8, graf yang menunjukkan gambaran
keahlian bagi Set Fuzzy A dan B dihasilkan (rujuk Rajah 4.2). Dalam Logik Fuzzy,
ianya menyelesaikan masalah bagi kes yang berada dalam segitiga berlorek
(kekaburan) dalam rajah tersebut. Ianya akan menggunakan operasi union dan
intersection untuk menyelesaikan kekaburan tersebut. Seterusnya, operasi
compositional yang menghubungkan kedua-dua Set Fuzzy A dan B menggunakan
data dalam Jadual 4.1 akan digunakan untuk mendapat nilai kebarangkalian dalam
julat 0 hingga 1. Nilai itu kemudiannya akan dibandingkan dengan nilai threshold
yang diperolehi melalui kaedah pengujian dan untuk menentukan samada sesebuah
argumen atau ayat yang diuji berada dalam ‘tidak berkemungkinan’ atau ‘sangat
berkemungkinan’ untuk menjadi sesebuah elemen hujahan.
97
Rajah 4.2: Graf yang menunjukkan keahlian bagi Set Fuzzy A dan B.
4.3.2.4 Operasi Set Fuzzy
Set Fuzzy menyediakan asas pengiraan bersistematik bagi menyelesaikan
konsep kekaburan dan kesamaran menggunakan operasi Set Fuzzy yang
dilaksanakan dengan memanipulasi fungsi keahlian. Dua operasi Set Fuzzy yang
digunakan ialah union dan intersection.
(i)
Union
Union bagi dua Set Fuzzy A dan B ialah Fuzzy di mana fungsi
keahliannya adalah seperti dalam Rumus 4.10.
P Aˆ B (u )
(ii)
max{P A (u ), P B (u )}
u  U
(Rumus 4.10)
Intersection
Intersection bagi dua set fuzzy A dan B ialah Fuzzy di mana fungsi
keahliannya adalah seperti dalam Rumus 4.11.
P Aˆ B (u )
min{P A (u ), P B (u )}
u  U
(Rumus 4.11)
98
4.3.2.5 Cartesian Product
Cartesian product digunakan untuk menakrifkan hubungan antara dua atau
lebih Set Fuzzy. Katakan A dan B adalah dua Set Fuzzy. Cartesian product bagi A
dan B ditandakan sebagai A u B dan ditakrifkan sebagai
(Rumus 4.12)
{( a, b) | a  A, b  B}
Au B
di mana (a,b) adalah turutan berpasangan. Oleh itu, jika A mempunyai m elemen dan
B mempunyai n elemen, maka akan wujud elemen “ m u n ” dalam A u B .
4.3.2.6 Hubungan Fuzzy
Hubungan Fuzzy matrik-n ialah subset Fuzzy kepada Cartesian product
U1 u ... u U n . Ianya diwakilkan dengan
Ru
di mana U
{((u1 ,..., un ), P R (u1 ,..., un )) | (u1 ,..., un )  U1 ,...,U n }
(Rumus 4.13)
U1 u U 2 u ... u U n . Hubungan Fuzzy R daripada A hingga B adalah
subset Fuzzy bagi A u B .
Ru
{( a, b), P R (a, b) | a  A, b  B}
{(a, b), P R (a, b)}
(Rumus 4.14)
Au B
di mana P R (a, b) adalah fungsi keahlian bagi R dan mewakili union bagi
Au B
singleton {( a, b) | P R (a, b)} daripada A u B . R juga boleh diwakilkan dalam bentuk
matrik dengan menjadikan P R (a, b) sebagai elemen matrik.
99
R
ª P R (a1 , b1 ) P R (a1 , bn1 ) º
»
« »
«
«¬ P R (am , b1 ) P R (am , bn )»¼
(Rumus 4.15)
4.3.2.7 Operasi Compositional
Dengan menggabungkan dua operasi, kita boleh menyelesaikan masalah set
Fuzzy-hubungan Fuzzy. Dalam penyelidikan ini, operasi max-min yang
mengaplikasikan union (Rumus 4.10) dan intersection (4.11) digunakan berbanding
operasi max-product.
Bc
P Ac $ R
4.4
Ac $ R
max{min[P Ac (u ), PV (u , v)]}
(Rumus 4.16)
Teknik Peramalan Gaya Olahan
Dalam membuat peramalan gaya olahan sesebuah esei, pemilihan ciri yang
signifikan dan piawai adalah penting. Ini menjamin penghampiran peramalan yang
lebih tinggi dengan menggunakan set ciri yang lebih piawai (sama). Untuk itu,
Algoritma MLR telah dipilih untuk digunakan dalam meramal gaya olahan esei
dalam penyelidikan ini. Sebagai perbandingannya, Algoritma SLR telah dipilih.
4.4.1
Model Pengunduran Linear Berganda
Banyak masalah pengunduran melibatkan lebih daripada dua pembolehubah
pengundur. Model tersebut dipanggil Model MLR. Ianya merupakan salah satu
daripada teknik statistik yang seringkali digunakan kini.
100
Secara umumnya, pembolehubah bersandar atau repons y mungkin boleh
dihubungkan dengan pembolehubah tak-bersandar k. Model
yi
E 0 E1 x1 E 2 x 2 ... E k x k H
(Rumus 4.17)
dipanggil model pengunduran linear berganda dengan pembolehubah tak-bersandar
k. Istilah ‘linear’ digunakan kerana Rumus 4.17 adalah fungsi linear bagi parameter
yang tidak diketahui E 0 , E 1 ,...E k . Parameter E j , j
0,1,..., k , dipanggil pekali
(koefisien) pengunduran. Model ini menerangkan hyperplane dalam ruang dimensi-k
bagi pembolehubah pengundur {xj}. Parameter E j mewakili perubahan jangkaan
yang memberi kesan kepada perubahan per unit y dalam xj apabila semua
pembolehubah tak-bersandar yang lain xi i z j berada dalam keadaan malar.
Parameter-parameter E j , j
1,2,..., k , biasanya dipanggil pekali pengunduran separa
kerana ianya menerangkan kesan separa (partial) ke atas satu pembolehubah takbersandar apabila pembolehubah tak-bersandar lain dalam model tersebut berada
dalam keadaan malar.
4.4.1.1 Peramalan Parameter
Kaedah kuasa dua terkecil mungkin boleh digunakan untuk meramal pekali
pengunduran dalam Rumus 4.17. Anggap pemerhatian n > k wujud, dan katakan xij
adalah pemerhatian atau tahap ke-i bagi pembolehubah x j . Hasilnya kita akan
memperoleh data seperti dalam Jadual 4.2. Kita menganggap bahawa ralat, H dalam
model mempunyai E (H )
0,V (H ) V 2 , dan ^H i ` adalah pembolehubah rawak tak-
korelasi (tak-berhubungan).
101
Jadual 4.2: Data untuk Pengunduran Linear Berganda.
Y
x1
x2
…
xk
y1
x11
x12
…
x1k
y2
x 21
x 22
…
x2k
yn
x n1
xn 2
…
x nk
Kita seterusnya akan memperoleh persamaan (rumus) normal kuasa dua-terkecil
š
š
n
n E 0 E 1 ¦ x i1
i 1
š
n
E 0 ¦ x i1
i 1
š
š
n
E 1 ¦ xi21
i 1
š
n
E 2 ¦ xi2
i 1
š
n
n
n
i 1
š
š
i 1
n
š
¦ x ik
n
¦ x i1 x ik
i 1
n
¦y ,
i
i 1
n
¦x
i1
yi ,
i 1
š
E 1 ¦ x ik x i1 E 2 ¦ x ik x i 2 E k
i 1
n
i 1
E 2 ¦ x i1 x i 2 E k
E 0 ¦ x ik
š
E k
i 1
n
¦ xik2
i 1
n
¦x
i 1
ik
y i . (Rumus 4.18)
Adalah lebih mudah untuk kita menyelesaikan persamaan normal sekiranya ianya
dinyatakan dalam bentuk matrik. Katakan kita diberi pembinaan matrik bagi
persamaan normal yang sama dengan pembangunan Rumus 4.18. Model tersebut
dari segi pemerhatian, Rumus 4.17, boleh ditulis dalam bentuk matrik,
(Rumus 4.19)
y Xȕ İ ,
di mana
y
ª y1 º
«y »
« 2» ,
«»
« »
¬ yn ¼
X
ª1
«1
«
«
«
¬1
x11
x12
...
x21
x22
...
xn1
xn 2
...
x1k º
x2 k »»
»
»
xnk ¼
102
ªE 0 º
«E »
« 1»,
« »
« »
¬E k ¼
ȕ
dan
İ
ªH1 º
«H »
« 2» .
« »
« »
¬H n ¼
(Rumus 4.20)
Secara umumnya, y adalah vektor bagi pemerhatian n u 1 , X ialah matrik bagi tahap
pembolehubah tak bersandar n u p , ȕ adalah vektor bagi pekali pengunduran
p u 1 dan İ
adalah vektor bagi kesalahan (ralat) rawak n u 1 .
Peramal kuasa dua terkecil mesti dipermudahkan kepada
X cXÊ
(Rumus 4.21)
X cy
Rumus 4.21 adalah merupakan persamaan normal kuasa dua terkecil. Ianya adalah
sama dengan Rumus 4.18. Untuk menyelesaikan persamaan normal, darabkan keduadua bahagian Rumus 4.21 dengan X cX songsang. Oleh itu, peramal kuasa dua
terkecil bagi E adalah
š
E
XcX 1 Xcy
(Rumus 4.22)
Adalah mudah untuk melihat bahawa persamaan normal dalam bentuk matrik
adalah sama dengan bentuk skala. Dengan menulis keseluruhan Rumus 4.21 secara
terperinci, kita akan memperoleh
ª
« n
« n
« x
i1
«¦
i 1
« « n
«¦ xik
¬« i 1
n
n
¦x
i1
¦x
2
i1
i 1
n
i 1
¦x
i 1
n
¦x
i 1
x
i1 i 2
i 1
n
¦x
n
i2
n
ik
xi1
¦x
i 1
ik
xi 2
º
» ª Eˆ 0 º
i 1
»« »
n
¦ xi1 xik » «« ˆ »»
» E1
i 1
»« »
» « »
n
2 »« ˆ »
¦ xik ¬ E k ¼
i 1
¼»
¦x
ik
ª n
º
« ¦ yi »
« ni 1
»
« x y »
i1 i
«¦
» (Rumus 4.23)
i 1
« »
«n
»
«¦ xik y i »
¬« i 1
¼»
103
Jika pendaraban matrik tersebut dilaksanakan, bentuk skala bagi persamaan
normal (iaitu Rumus 4.18) akan dihasilkan. Dalam bentuk ini, adalah mudah untuk
kita melihat bahawa X cX adalah matrik simetri p u p dan X cy adalah vektor lajur
p u 1 . Ianya adalah struktur khusus bagi matrik
X cX . Elemen-elemen pepenjuru
bagi X cX adalah hasiltambah kuasa dua elemen-elemen dalam lajur X dan elemenelemen bukan-pepenjuru adalah hasiltambah darab silang elemen-elemen dalam lajur
X. Dinyatakan juga bahawa elemen-elemen X cy adalah hasil tambah darab silang
bagi lajur X dengan pemerhatian ^y i ` .
š
Perbezaan antara pemerhatian y i dan nilai yang sesuai y i ialah residual, katakan
š
ei
y i y i . Vektor residual n u 1 ditulis sebagai
š
e
4.4.2
y y
(Rumus 4.24)
Model Pengunduran Linear Stepwise
Prosidur SLR merupakan antara teknik pemilihan pembolehubah yang
seringkali digunakan (Siti Zanariah Satari, 2003). Prosidur ini membangunkan siri
(rentetan) model pengunduran dengan membuat penambahan atau penyingkiran
pembolehubah X pada setiap langkah. Kriteria untuk penambahan atau penyingkiran
pembolehubah X tersebut biasanya dilaksanakan pada peringkat statistik F*.
4.4.2.1 Algoritma Pemilihan Pembolehubah
Berikut merupakan Algoritma Pengunduran Linear Stepwise pada peringkat
statistik F* untuk ujian F.
104
(i)
Rutin SLR yang pertama ialah membuat penghampiran model
pengunduran asas bagi setiap pembolehubah X berkemungkinan p – 1.
Bagi setiap model pengunduran asas tersebut, statistik F* untuk
pengujian F (samada kecerunan sama dengan sifar atau tidak)
diperolehi dengan menggunakan Rumus 4.25.
Fk*
MSR( xk )
MSE ( xk )
Dinyatakan bahawa MSR( xk )
(Rumus 4.25)
MSE ( xk ) mengukur pengurangan
varians bagi Y yang digabungkan dengan penggunaan pembolehubah
xk. Pembolehubah X dengan nilai F* terbesar akan menjadi calon
untuk penambahan pertama. Jika nilai F* ini melebihi paras prapenentuan (predetermine), pembolehubah X akan ditambah. Jika
tidak, rutin akan ditamatkan dengan tiada pembolehubah X yang
dipertimbangkan sebagai signifikan untuk dimasukkan dalam model
pengunduran.
(ii)
Katakan x7 adalah pembolehubah yang dimasukkan pada langkah 1.
Rutin SLR seterusnya membuat penghampiran semua model
pengunduran dengan dua pembolehubah X, di mana x7 sebagai salah
satu ‘pasangannya’. Bagi setiap model pengunduran tersebut, statistik
ujian F separa dalam Rumus 4.26.
*
k
F
MSR( xk | x7 )
MSE ( x7 | xk )
ª bk º
«
»
¬ s (bk ) ¼
2
(Rumus 4.26)
akan diperolehi. Ini merupakan statistik untuk pengujian F (samada
Ek
0 atau tidak) apabila x7 dan xk adalah pembolehubah dalam
model. Pembolehubah X dengan nilai F* terbesar akan menjadi calon
untuk penambahan pada peringkat kedua. Jika nilai F* ini melebihi
paras pra-penentuan, pembolehubah X yang kedua akan ditambah.
Jika tidak, rutin akan ditamatkan.
105
(iii)
Anggap bahawa x3 ditambah pada peringkat kedua. Seterusnya, rutin
SLR akan menentukan samada mana-mana pembolehubah X dalam
model yang sepatutnya digugurkan. Sebagai gambarannya, pada
peringkat ini, hanya terdapat satu pembolehubah X yang lain dalam
model x3, dengan itu hanya satu statistik ujian F separa yang
dihasilkan berdasarkan Rumus 4.27.
Fk*
MSR( x3 | x7 )
MSE ( x7 | x3 )
(Rumus 4.27)
Pada peringkat terkini, terdapat beberapa bilangan statistik ujian F*
tersebut, di mana bagi setiap pembolehubah dalam model adalah di
sebeleah pembolehubah terakhir yang ditambah. Pembolehubah yang
mana nilai F* terkecil akan menjadi calon untuk disingkirkan. Jika
nilai F* ini berada di bawah had pra-penentuan, pembolehubah
tersebut akan disingkirkan daripada model. Sebaliknya, ianya akan
dikekalkan.
(iv)
Anggap bahawa x7 dikekalkan, dengan itu kedua-dua x3 dan x7 kini
berada dalam model. Rutin SLR seterusnya akan menentukan
pembolehubah X yang mana akan menjadi calon seterusnya untuk
ditambah. Kemudiannya akan menentukan samada mana-mana
pembolehubah yang telah berada dalam model yang sepatutnya
digugurkan dan berterusan sehingga tiada lagi pembolehubah X yang
boleh ditambah atau disingkirkan dan rutin ditamatkan.
Dinyatakan bahawa SLR membenarkan pembolehubah X untuk dimasukkan
dalam model pada peringkat lebih awal dan untuk disingkirkan kemudiannya
jika tiada lagi hubungan yang signifikan dengan pembolehubah yang
ditambah pada peringkat akhir.
106
4.5
Prosidur Penilaian
Prosidur penilaian merupakan perincian dari segi rumus-rumus yang terlibat
dalam metodologi penyelidikan.
4.5.1
Penjelmaan Linear Ciri Tetap
Penjelmaan linear diaplikasikan untuk mendapatkan semua pemberat
pengunduran yang bernilai positif daripada ciri yang mempunyai korelasi negatif.
Hasilnya, kita akan mempunyai kesemua ciri berkorelasi positif sahaja.
Oleh yang demikian, ianya telah dilaksanakan ke atas lima ciri tetap iaitu p7,
p8, p9, p10 dan p11. Berdasarkan Subtopik 3.5.2.1, bagi ciri tersebut yang mewakili
perbendaharaan kata, struktur ayat, imbuhan, tanda baca dan ejaan, masing-masing,
kesalahan maksimum yang telah diperuntukkan untuk setiap ciri adalah sebanyak
enam kesalahan. Ini adalah disebabkan -0.5 akan dikenakan bagi satu kesalahan yang
dikesan. Oleh yang demikian, penjelmaan linear bagi setiap ciri p7 – p11 tersebut
adalah seperti dalam Rumus 4.28.
pi
8 x,
7 d i d 11
(Rumus 4.28)
di mana i adalah ciri ke i dan x adalah markah kesalahan dalam ciri i.
4.5.2
Penentuan Nilai Ciri Optimum
Nilai ciri-ciri optimum, p1 hingga p6 ditentukan dengan berdasarkan rumus
tertentu. Bagi ciri p1, p2, p3 dan p6 merupakan ciri yang lebih mudah (rujuk Subtopik
3.5.1.1 hingga 3.5.1.3 dan 3.5.1.6). Sebaliknya bagi ciri p4 dan p5 (rujuk Subtopik
107
3.5.1.4 dan 3.5.1.5) yang mengaplikasikan kaedah Information Retrieval (IR) dilihat
lebih sukar.
Dalam mendapatkan nilai EssayContent (EC), p4 vektor ujian terdiri daripada
semua perkataan dalam esei yang telah dipecahkan dan ditukar dalam bentuk
supervektor yang mewakili lima mata-penilaian Namun begitu, kata tugas akan
dikeluarkan terlebih dahulu untuk pembangunan vektor dan imbuhan awalan dan
akhiran dibuang untuk mengira kekerapan. Nilai EC bagi esei ujian akan diperolehi
dengan mengukur jarak kosinus antara vektor penghampiran yang dibangunkan
untuk esei ujian dengan setiap supervektor yang mewakili lima mata-penilaian. Oleh
yang demikian, nilai EC yang akan diperolehi adalah antara 1 bagi gred E, hingga 5
bagi gred A.
EssayContentt =
¦ kosinus
tj
u markah ¦ kosinus
tj
(Rumus 4.29)
di mana j merupakan julat bagi keseluruhan lima esei latihan yang paling
hampir, markahj adalah markah berdasarkan penilaian manusia bagi esei latihan-j dan
kosinustj adalah kosinus antara esei ujian t dan esei latihan j.
Manakala itu, ArgContent (AC), p5 pula mengukur gaya olahan per argumen.
Malah, ianya juga menggunakan pemberat perkataan untuk mendapatkan nilai AC
bagi esei ujian ini. Ianya juga menganalisa esei secara berasingan. Pertamanya,
vektor kekerapan untuk lima-mata penilaian ditukarkan kepada vektor pemberat
perkataan. Pemberat bagi perkataan i dalam kategori s adalah
wi , s
freq
i,s
max_freq s logn_essaystotal n_essaysi (Rumus 4.30)
di mana freqi , s ialah kekerapan perkataan i dalam kategori s, max_ freqs
ialah kekerapan bagi perkataan yang paling kerap dalam s (setelah senarai perkataan
penghenti dikeluarkan), n _ essaystotal ialah jumlah esei latihan berdasarkan kelima-
108
lima kategori dan n _ essaysi ialah bilangan esei latihan yang mengandungi
perkataan i.
Untuk mendapatkan nilai AC bagi esei ujian, setiap argumen dalam esei
dinilai secara berasingan dengan mengira jarak kosinus antara vektor pemberat dan
supervektor pemberat untuk lima-mata penilaian. Mata-penilaian yang paling hampir
akan diumpukkan kepada argumen. Hasilnya, sistem akan menghasilkan satu set
markah, iaitu satu per argumen untuk esei ujian. Seterusnya, min pelaras digunakan
untuk seimbangkan pengaruh bilangan perkataan dalam esei.
ArgContentt
¦ arg_scores
j
n_args t n_args t 1
(Rumus 4.31)
di mana j merupakan julat bagi keseluruhan argumen dalam esei ujian t, markah_argj
adalah markah bagi argumen j dan n-argt ialah bilangan argumen dalam t.
4.5.3
Penentuan Pekali Pemberat Ciri Optimum
Sebanyak 200 esei pelajar yang terdiri daripada kelima-lima mata-aras
penilaian telah digunakan untuk tujuan latihan dan pengujian menggunakan prosidur
five-fold cross-validation (dijelaskan dalam Subtopik 3.7 dan 3.9.2). Dalam proses
latihan, ianya digunakan untuk mendapatkan pemberat yang lebih optimum bagi
setiap ciri optimum, p1 –p6, menggunakan Algoritma MLR. Setiap nilai ciri piawai
yang telah diperolehi dalam fasa sebelum ini seterusnya akan diundurkan untuk
mendapatkan pemberat berserta dengan nilai jangkaan.
Kombinasi daripada kesemua enam ciri ini akan diumpukkan dan mewakili
sebanyak 30% daripada markah keseluruhan esei. Oleh itu, pengunduran yang akan
dilakukan adalah berdasarkan kepada persamaan umum y = a + s1(p1) + s2(p2) +
s3(p3) + s4(p4) + s5(p5) + s6(p6), di mana a adalah pintasan-y dan s adalah pekali
pemberat ciri optimum.
109
4.5.4
Peratusan Pemberat Bagi Ciri Tetap
Pemberat tetap yang telah dipiawaikan bagi ciri n – k yang akhir akan
diwakili dalam bentuk peratusan jumlah pemberat yang telah dipiawaikan untuk
semua ciri (dilabelkan sebagai pk + 1 – pn). Sebagai contoh, sekiranya terdapat dua
pemberat yang telah dipiawaikan dalam set 12 ciri di mana p11 – p12 masing-masing
bernilai .1 dan .2, ini bermakna s11 adalah bersamaan dengan 10% daripada jumlah s1
– s12, s12 adalah bersamaan dengan 20% daripada jumlah s1 – s12 dan jumlah s1 – s10
akan memegang nilai baki sebanyak 70% daripada pemberat yang telah dipiawaikan.
Dalam kes ini, n ialah 12 dan k ialah 6. Oleh itu, kita mempunyai enam ciri
tetap yang mana merangkumi bahagian bahasa dan isi penting. Disebabkan pemberat
ciri optimum telah diperuntukkan sebanyak 30%, maka pemberat ciri tetap ini akan
diperuntukan sebanyak 70%. Ianya merupakan penerangan bagi Subtopik 3.8 dan
3.9.1.
4.5.5
Penentuan Pekali Pemberat Ciri Tetap
Setelah kita memperolehi pemberat optimum dengan menggunakan
Algoritma MLR ke atas enam ciri optimum, langkah seterusnya ialah untuk
mendapatkan pemberat bagi ciri tetap piawai dengan menggunakan rumus 4.32 bagi
enam ciri terakhir (tetap) sepertimana yang diterangkan dalam Subtopik 3.9.1.3.
6
pi ¦ s j
si
j 1
12
7 d i d 12
(Rumus 4.32)
1 ¦ p j
j 7
di mana s adalah pekali pemberat ciri tetap, si adalah pekali pemberat bagi ciri tetap
ke-i,
110
sj adalah pekali pemberat bagi ciri tetap ke-j, p adalah nilai ciri tetap, pi adalah nilai
ciri tetap ke-i dan pj adalah nilai ciri tetap ke-j.
4.5.6
Penilaian Gred Akhir
Ini merupakan perincian bagi Subtopik 3.9.3. Setelah persamaan
pengunduran pemberat ciri optimum menggunakan Algoritma MLR yang mewakili
peramalan gaya olahan dan persamaan peratusan pemberat ciri tetap menggunakan
Teknik MMB yang mewakili bahasa dan isi kandungan diperolehi, kedua-dua
persamaan yang mengandungi pekali pemberat masing-masing akan digabungkan
menjadi persamaan berikut
y = a + s1(p1) + s2(p2) + s3(p3) + s4(p4) + s5(p5) + s6(p6) +
s7(p7) + s8(p8) + s9(p9) + s10(p10) + s11(p11) + s12(p12) (Rumus 4.33)
atau diringkaskan kepada
12
y
a ¦ s m ( pm )
(Rumus 4.34)
m 1
dan nilai yang diperolehi akan ditukarkan kepada gred penilaian esei berdasarkan
Jadual 3.3.
4.6
Ringkasan
Bab ini telah memperincikan beberapa proses utama dalam metodologi
khususnya yang melibatkan peramalan gaya olahan menggunakan Algoritma MLR
dan penentuan dan pengkelasan elemen hujahan menggunakan Teknik MMB.
Sebagai perbandingannya, Algoritma SLR dan Teknik Logik Fuzzy juga
dibincangkan.
111
Bab ini lebih menumpukan kepada rumus-rumus yang terlibat dalam teknik
penilaian esei. Di samping itu, di awal bab ini telah dibincangkan tentang rekabentuk
dan jenis KB yang terlibat. Manakala di pertengahan bab ini memperjelaskan rumus
dan proses dalam pra-pemprosesan, latihan dan pengujian peramalan gaya olahan
dan pengkelasan elemen hujahan dan penilaian gred akhir untuk membuat
perbandingan kesetaraan penilaian manusia dan penilaian teknik. Bab ini diakhiri
dengan penerangan prosidur penilaian yang menghuraikan rumus-rumus yang
digunakan dalam metodologi penyelidikan.
Oleh itu, dalam bab seterusnya, akan dibincangkan hasil pengujian yang
utama dan berkaitan dengan objektif yang telah ditetapkan. Terdapat empat hasil
yang dirumus dan dibincangkan iaitu hasil pra-pemprosesan, hasil peramalan gaya
olahan, hasil penentuan dan pengkelasan elemen hujahan dan hasil perbandingan
kesetaraan penilaian manusia-teknik penilaian.
BAB 5
HASIL PENGUJIAN DAN PERBINCANGAN
5.1
Pendahuluan
Teknik penilaian yang telah dibangunkan perlu dianalisa dan diuji hasilnya
untuk memastikan kajian yang dibuat menepati objektif dan matlamat awal. Ianya
akan dibincangkan dengan terperinci dalam bab ini. Bab ini membentangkan hasil
pengujian dan perbincangan bagi pra-pemprosesan data, peramalan gaya olahan,
penentuan dan pengkelasan elemen hujahan dan perbandingan kesetaraan pencapaian
menggunakan teknik penilaian yang dibangunkan dengan penilaian manusia.
5.2
Hasil Pengujian dan Perbincangan
Pengujian dilakukan ke atas sebanyak 200 daripada 300 sampel esei pelajar
yang telah dinilai oleh guru Sekolah Kebangsaan Galing, Kuantan dan Sekolah
Kebangsaan Semambu, Kuantan, dan telah ditapis untuk digunakan sebagai data
dalam kajian ini. Baki 100 sampel selebihnya adalah terdiri daripada esei yang
mempunyai terlalu banyak kesalahan dan tulisan yang sangat teruk. Daripada
sejumlah 200 esei tersebut, kita telah menentukan bahawa pecahan bilangan esei
mengikut gred adalah seperti dalam Jadual 5.1.
113
Jadual 5.1: Pecahan bilangan 200 sampel esei pelajar mengikut gred.
Kumpulan Esei
Pecahan Gred
Bilangan Esei
A
B
C
D
E
1
40
8
8
8
8
8
2
40
8
8
8
8
8
3
40
8
8
8
8
8
4
40
8
8
8
8
8
5
40
8
8
8
8
8
Daripada Jadual 5.1, esei tersebut dibahagikan kepada lima bahagian yang
seimbang menggunakan prosidur five-fold cross-validation. Dengan ini, kita akan
memperoleh lima bahagian yang berasingan tetapi seimbang iaitu set esei latihan dan
set esei ujian (cross-validation). Ini adalah untuk memastikan agar keputusan akhir
kajian ini tidak dipengaruhi faktor bias dari segi bilangan dan gred data kajian.
5.3
Kaedah Pengukuran
Pengukuran ketepatan dalam setiap hasil pengujian adalah menggunakan
precision (Rumus 5.1), recall (Rumus 5.2) dan f-measure (Rumus 5.3). Kaedah
pengukuran ini telah digunakan dalam mengukur ketepatan CbAS oleh McCallum
dan Nigam (1998), Burstein dan Marcu (2000), Robert (2000), Paul et. al. (2003) dan
banyak lagi.
Precision adalah bilangan kes yang dipersetujui oleh kedua-dua penilaian
manusia dan teknik penilaian, dibahagi dengan jumlah kes yang dikenalpasti
berdasarkan penilaian manusia dan recall adalah bilangan kes yang dipersetujui oleh
kedua-dua penilaian manusia dan teknik penilaian, dibahagi dengan jumlah yang
teknik penilaian. Manakala f-measure merupakan min bagi precision dan recall
(Burstein et. al., 2003). F-measure atau full-measure mengukur jumlah kesesuaian
antara kesetaraan penilaian manusia dan teknik penilaian dari segi konsep, hubungan
penyataan dan kelangsungan hubungan tersebut (Fife dan Berger, 1996).
114
¦ J
precision
recall
¦ J
f measure
1
1
J2 J2 ¦J
¦J
1
2
2 u precision u recall precision recall (Rumus 5.1)
(Rumus 5.2)
(Rumus 5.3)
di mana J1 ialah bilangan kes yang dikenalpasti oleh penilai manusia, J 2 ialah
bilangan kes yang dikenalpasti oleh sistem dan
¦J
1
J 2 ialah jumlah persetujuan
antara penilai manusia dan sistem.
5.4
Hasil Pra-Pemprosesan Data
Semua data disimpan dalam format *.txt. Jadual 5.2 menunjukkan hasil prapemprosesan bagi mengenalpasti perkataan ralat-ejaan supaya diproses kembali
kepada perkataan yang betul untuk tujuan penentuan elemen-elemen hujahan. Jadual
tersebut membandingkan bilangan perkataan yang telah berjaya dibetulkan
berbanding sebelumnya mengikut lima kumpulan sampel yang telah dibahagikan
menggunakan prosidur five-fold cross-validation.
115
Jadual 5.2: Perbandingan perkataan diperbetulkan berdasarkan gred esei skala lima-
mata aras.
Perkataan
Perkataan
Ralat-Ejaan, K1
Diperbetulkan, K2
A
15
12
0.8000
B
23
20
0.8696
C
29
26
0.8966
D
38
31
0.8158
E
55
41
0.7455
Min
15
12
0.8255
Sisihan
Piawai
15.3623
10.9772
0.0595
Gred
Recall
Dalam Jadual 5.2 ini, Perkataan Ralat-Ejaan, K1 merupakan bilangan
perkataan yang salah dari segi ejaan tetapi tidak sepatutnya memberi kesan dalam
penentuan dan pengkelasan sesebuah elemen hujahan dalam esei. Dengan itu,
Algoritma Pembetulan Kata telah digunakan dan hasilnya ditunjukkan dalam
Perkataan Diperbetulkan, K2 yang mana sebahagian besar ralat perkataan dapat
diperbetulkan.
Hasil daripada Jadual 5.2 menunjukkan min bagi pengukuran precision untuk
kelima-lima kumpulan sampel yang digunakan adalah 82.55%. Manakala sisihan
piawai menunjukkan nilai yang agak kecil iaitu 0.0595 (5.95%) yang menunjukkan
kejituan (kadar kejituan berkadar terus dengan kadar konsisten) yang agak tinggi.
Walaubagaimanapun, terdapat perbezaan yang agak ketara bagi bilangan perkataan
ralat ejaan berbanding setiap kumpulan sampel gred. Ini adalah disebabkan esei yang
bergred lebih rendah, lebih cenderung untuk melakukan kesilapan (dalam kes ini
ralat ejaan) berbanding esei bergred lebih tinggi. Ini dibuktikan berdasarkan Rajah
5.1 yang mewakili graf gred esei berbanding bilangan ralat-ejaan yang dikesan dan
diperbetulkan.
116
Bilangan Perkataan
60
50
40
Ralat-Ejaan
30
Ejaan-Diperbetulkan
20
10
0
A
B
C
D
E
Kumpulan Gred
Rajah 5.1: Perbandingan bilangan Ralat-Ejaan dan Ejaan-Diperbetulkan dengan
kumpulan gred esei.
Kesimpulan yang boleh dibuat oleh Rajah 5.1 ialah bilangan ralat-ejaan dan
ejaan-diperbetulkan adalah berkadar terus dengan kumpulan gred esei.
Rumusan Pra-Pemprosesan Data
Peratus Perkataan
5.4.1
100.00%
90.00%
80.00%
70.00%
60.00%
50.00%
40.00%
30.00%
20.00%
10.00%
0.00%
Perkataan
Diperbetulkan
A
B
C
D
E
Kumpulan Gred
Rajah 5.2: Peratus Perkataan-Diperbetulkan berbanding kumpulan gred esei.
Dalam Rajah 5.2, graf yang dijana menunjukkan bahawa peratus perkataan
yang berjaya diperbetulkan adalah tinggi (berdasarkan teori Kappa, nilai 80% dan ke
117
atas adalah tinggi). Jika dilihat daripada rajah tersebut, kadar perkataan diperbetulkan
menurun apabila tahap kumpulan gred semakin rendah. Dengan kata lain, peratus
bilangan perkataan diperbetulkan adalah berkadar langsung dengan tahap kumpulan
gred. Antara faktor utama ianya berlaku adalah disebabkan Algoritma Pembetulan
Kata yang dibangunkan hanya mampu membuat pembetulan kata berdasarkan
bilangan huruf yang tertinggal, tanpa mengambilkira logik ayat. Jika huruf yang
tertinggal terlalu banyak, atau melibatkan aksara berjenis nombor (seperti tarikh dan
waktu) ianya tidak dapat membuat pengecaman perkataan yang berkemungkinan.
Selain itu, penggabungan kata juga yang mengambilkira huruf besar pertama bagi
perkataan bersebelahan juga masih terdapat kelemahan. Jika huruf bersebelahan
tersebut ditulis dengan huruf kecil, ianya tidak akan digabungkan walaupun
perkataan tersebut sepatutnya dikira sebagai satu perkataan. Sebagai contoh, ‘Mohd
Ali’ yang ditulis sebagai ‘mohd ali’ tidak akan digabungkan sebagai ‘mohd_ali’.
5.5
Hasil Peramalan Gaya Olahan
Penentuan gaya olahan diramal menggunakan Algoritma MLR dan
merupakan hasil daripada objektif ketiga dalam penyelidikan ini. Oleh itu
penerangan terperinci bagi setiap kitaran dalam cross-validation turut akan
dijelaskan dalam bab ini. Algoritma MLR diaplikasikan ke atas enam ciri optimum
untuk mendapatkan pekali pemberat terbaik persamaan pengunduran tersebut. Hasil
latihan daripada kelima-lima kitaran tersebut adalah seperti berikut:
x
Kitaran pertama
o y = -10.0418 + 0.1187 p1 + -3.7122 p2 + 1.1948 p3 +
4.0796 p4 + -0.0348 p5 + 0.0551 p6
x
(Rumus 5.4)
Kitaran kedua
o y = -10.7698 + 0.1638 p1 + -0.2453 p2 + 0.929 p3 +
3.8982 p4 + -0.0111 p5 + 0.0484 p6
(Rumus 5.5)
118
Kitaran ketiga
x
o y = -9.9627 + 0.1120 p1 + -3.4092 p2 + 1.1595 p3 +
(Rumus 5.6)
4.0923 p4 + -0.0394 p5 + 0.0544 p6
Kitaran keempat
x
o y = -10.499 + 0.106 p1 + -3.6682 p2 + 1.3 p3 +
(Rumus 5.7)
4.0655 p4 + -0.0362 p5 + 0.0548 p6
Kitaran kelima
x
o y = -10.7094 + 0.1079 p1 + -3.3133 p2 + 1.287 p3 +
(Rumus 5.8)
4.0501 p4 + -0.0368 p5 + 0.0547 p6
Rumus 5.4 hingga 5.8 tersebut telah menghasilkan peramalan yang baik.
Hasil peramalan tersebut direkodkan Jadual 5.3, 5.4, 5.5, 5.6 dan 5.7. Dalam jadualjadual tersebut, ketepatan diukur melalui perbandingan peramalan antara Algoritma
MLR dan Algoritma SLR. Klasifikasi perbandingan gred ini adalah berdasarkan
kepada skala panduan markah gaya olahan di Lampiran D. Lajur H1+H2 bermaksud
bilangan kesetaraan (persetujuan) bagi esei yang sama antara Penilaian Manusia (H1)
dan Penilaian Teknik (H2, samada MLR atau SLR). Hasil daripada jadual-jadual
tersebut dirumuskan dalam Rajah 5.3 hingga 5.7.
Jadual 5.3: Hasil ujian peramalan gaya olahan pada kitaran pertama.
8
8
8
8
8
8
Penilaian
Teknik, H2
MLR SLR
9
7
8
9
7
8
8
7
8
9
8
8
MLR
8
7
7
8
8
7.6
SLR
7
7
6
6
6
6.4
MLR
1.000
.8750
.8750
1.000
1.000
.9500
SLR
.8750
.8750
.7500
.7500
.7500
.8000
MLR
.8889
.8750
1.000
1.000
1.000
.9528
SLR
1.000
.7778
.7500
.8571
.6667
.8103
MLR
.9412
.8750
.9333
1.000
1.000
.9499
SLR
.9333
.8235
.7500
.8000
.7059
.8025
0
.6325
.4899
.4899
.0612
.0612
.0580
.1127
.0469
.0770
Gred
Esei
Penilaian
Manusia,
H1
A
B
C
D
E
Min
Sisihan
Piawai
.8944
H1+H2
Precision
Recall
F-measure
Jadual 5.3 menunjukkan hasil ujian peramalan gaya olahan esei ujian
sebanyak 40 sampel bagi kitaran yang pertama. Jika dilihat kepada min precision,
119
recall dan f-measure bagi Algoritma MLR adalah 95%, 95.28% dan 94.99%
berbanding Algoritma SLR iaitu 80%, 81.03% dan 80.25% yang mana purata
perbezaan yang agak besar bagi kedua-duanya iaitu hampir 15%. Daripada jadual
tersebut juga, sisihan piawai (SD) bagi Algoritma MLR dan SLR masing-masing
adalah 6.12%, 5.8%, 4.69% dan 5.8%, 11.27%, 7.7%. Perbezaan yang agak ketara
pada perbandingan penilaian Algoritma SLR dengan manusia (recall) iaitu sebanyak
11.27%. Ini menunjukkan bahawa peramalan bagi Algoritma SLR adalah kurang jitu
berbanding Algoritma MLR.
120%
Peratus Persetujuan
100%
80%
Algoritma MLR
60%
Algoritma SLR
40%
20%
0%
A
B
C
D
E
Gred Gaya Olahan
Rajah 5.3: Perbandingan hasil Algoritma MLR dan SLR pada kitaran pertama.
Pada kitaran pertama cross-validation, seperti dalam Rajah 5.3, graf tersebut
menunjukkan pencapaian Algoritma MLR yang lebih optimum berbanding
Algoritma SLR dalam melakukan peramalan gred esei pada kitaran pertama dengan
purata 94.99% dan 80.25%, masing-masing. Berdasarkan graf tersebut juga, didapati
bahawa peramalan MLR adalah lebih baik berbanding SLR secara konsisten.
120
Jadual 5.4: Hasil ujian peramalan gaya olahan pada kitaran kedua.
8
8
8
8
8
8
Penilaian
prototaip, H2
MLR SLR
9
8
7
7
8
8
7
10
9
7
8
8
MLR
8
7
8
7
8
7.6
SLR
7
7
8
6
7
7
MLR
1.000
.8750
1.000
.8750
1.000
.9500
SLR
.8750
.8750
1.000
.7500
.8750
.8750
MLR
.8889
1.000
1.000
1.000
.8889
.9556
SLR
.8750
1.000
1.000
.6000
1.000
.8950
MLR
.9412
.9333
1.000
.9333
.9412
.9498
SLR
.8750
.9333
1.000
.6667
.9333
.8817
0
.8944
.4899
.6325
.0612
.0791
.0544
.1552
.0253
.1146
Gred
Esei
Penilaian
Manusia,
H1
A
B
C
D
E
Min
Sisihan
Piawai
1.095
H1+H2
Precision
Recall
F-measure
Jadual 5.4 menunjukkan hasil ujian peramalan gaya olahan esei pada kitaran
kedua. Jika dilihat kepada min precision, recall dan f-measure bagi Algoritma MLR
adalah 95%, 95.56% dan 94.98% berbanding Algoritma SLR iaitu 87.5%, 89.5% dan
88.17% yang mana purata perbezaan bagi kedua-duanya iaitu hampir 7%. Daripada
jadual tersebut juga, SD bagi Algoritma MLR dan SLR masing-masing adalah
6.12%, 5.44%, 2.53% dan 7.91%, 15.52%, 11.46%. Perbezaan yang agak ketara pada
perbandingan penilaian Algoritma SLR dengan manusia (recall) iaitu sebanyak
15.52% dan purata perbandingan (f-measure) sebanyak 11.46%. Ini juga
menunjukkan bahawa dalam kitaran kedua ini, peramalan bagi Algoritma SLR
adalah kurang jitu berbanding Algoritma MLR.
120%
Peratus Persetujuan
100%
80%
Algoritma MLR
60%
Algoritma SLR
40%
20%
0%
A
B
C
D
E
Gred Gaya Olahan
Rajah 5.4: Perbandingan hasil Algoritma MLR dan SLR pada kitaran kedua.
121
Pada kitaran kedua cross-validation, seperti dalam Rajah 5.4, graf tersebut
menunjukkan pencapaian Algoritma MLR yang lebih optimum berbanding
Algoritma SLR dalam melakukan peramalan gred esei dengan purata 94.99% dan
80.25%, masing-masing. Berdasarkan graf tersebut juga, didapati bahawa peramalan
MLR adalah lebih baik berbanding SLR secara konsisten.
Jadual 5.5: Hasil ujian peramalan gaya olahan pada kitaran ketiga.
8
8
8
8
8
8
Penilaian
prototaip, H2
MLR SLR
7
7
9
8
7
8
8
9
9
8
8
8
MLR
7
8
7
8
8
7.6
SLR
7
7
6
7
7
6.8
MLR
.8750
1.000
.8750
1.000
1.000
.9500
SLR
.8750
.8750
.7500
.8750
.8750
.8500
MLR
1.000
.8889
1.000
1.000
.8889
.9556
SLR
1.000
.8750
.7500
.7778
.8750
.8556
MLR
.9333
.9412
.9333
1.000
.9412
.9498
SLR
.9333
.8750
.7500
.8235
.8750
.8514
0
.8944
.4899
.4000
.0612
.0500
.0544
.0881
.0253
.0615
Gred
Esei
Penilaian
Manusia,
H1
A
B
C
D
E
Min
Sisihan
Piawai
.6325
H1+H2
Precision
Recall
F-measure
Jadual 5.5 menunjukkan hasil ujian peramalan gaya olahan esei pada kitaran
seterusnya. Berdasarkan kepada min precision, recall dan f-measure bagi Algoritma
MLR masing-masing adalah bernilai 95%, 95.56% dan 94.98% berbanding
Algoritma SLR iaitu 85%, 85.56% dan 85.14% yang mana purata perbezaan bagi
kedua-duanya adalah kira-kira 10%. Manakala, SD bagi Algoritma MLR adalah
6.12%, 5.44%, 2.53% dan Algoritma SLR adalah 5%, 8.81%, 6.15%. Dengan itu,
tiada perbezaan yang agak ketara samada pada perbandingan penilaian Algoritma
SLR dengan manusia (recall) atau purata perbandingan (f-measure). Ini juga
menunjukkan bahawa dalam peramalan gaya olahan pada kitaran ketiga ini adalah
jitu bagi kedua-dua algoritma.
122
120%
Peratus Persetujuan
100%
80%
Algoritma MLR
60%
Algoritma SLR
40%
20%
0%
A
B
C
D
E
Gred Gaya Olahan
Rajah 5.5: Perbandingan hasil Algoritma MLR dan SLR pada kitaran ketiga.
Pada kitaran ketiga cross-validation, graf dalam Rajah 5.5 menunjukkan
pencapaian Algoritma MLR yang lebih optimum berbanding Algoritma SLR dalam
melakukan peramalan gred esei pada dengan purata 94.99% dan 85.14%, masingmasing walaupun kedua-duanya menghasilkan keputusan yang jitu berdasarkan
Jadual 5.5. Berdasarkan graf dalam Rajah 5.5 ini juga, didapati bahawa peramalan
MLR adalah lebih baik berbanding SLR secara lebih konsisten.
Jadual 5.6: Hasil ujian peramalan gaya olahan pada kitaran keempat.
8
8
8
8
8
8
Penilaian
prototaip, H2
MLR SLR
9
7
8
8
8
8
7
9
8
8
8
8
MLR
8
7
8
7
8
7.6
SLR
7
7
6
7
7
6.8
MLR
1.000
.8750
1.000
.8750
1.000
.9500
SLR
.8750
.8750
.7500
.8750
.8750
.8500
MLR
.8889
.8750
1.000
1.000
1.000
.9528
SLR
1.000
.8750
.7500
.7778
.8750
.8556
MLR
.9412
.8750
1.000
.9333
1.000
.9499
SLR
.9333
.8750
.7500
.8235
.8750
.8514
0
.6325
.4899
.4000
.0612
.0500
.0580
.0881
.0469
.0615
Gred
Esei
Penilaian
Manusia,
H1
A
B
C
D
E
Min
Sisihan
Piawai
.6325
H1+H2
Precision
Recall
F-measure
Hasil ujian peramalan gaya olahan esei pada kitaran keempat ditunjukkan
dalam Jadual 5.6. Min precision, recall dan f-measure bagi Algoritma MLR masingmasing adalah bernilai 95%, 95.28% dan 94.99% berbanding Algoritma SLR iaitu
123
85%, 85.56% dan 85.14% yang mana purata perbezaan bagi kedua-duanya adalah
sama dengan kitaran ketiga iaitu 10%. Manakala, SD bagi Algoritma MLR adalah
6.12%, 5.8%, 4.69% dan Algoritma SLR adalah 5%, 8.81%, 6.15%. Dengan itu,
hasil pada kitaran ini juga sama dengan kitaran sebelumnya iaitu tiada perbezaan
yang agak ketara samada pada perbandingan penilaian Algoritma SLR dengan
manusia (recall) atau purata perbandingan (f-measure). Dengan itu juga, dapat
disimpulkan bahawa dalam peramalan gaya olahan pada kitaran keempat ini adalah
jitu bagi kedua-dua algoritma.
120%
Peratus Persetujuan
100%
80%
Algoritma MLR
60%
Algoritma SLR
40%
20%
0%
A
B
C
D
E
Gred Gaya Olahan
Rajah 5.6: Perbandingan hasil Algoritma MLR dan SLR pada kitaran keempat.
Seterusnya, pada kitaran keempat cross-validation, graf dalam Rajah 5.6
masih lagi menunjukkan pencapaian Algoritma MLR adalah lebih optimum
berbanding Algoritma SLR dalam melakukan peramalan gred esei dengan purata
94.99% dan 85.14%, masing-masing walaupun kedua-duanya menghasilkan
keputusan yang jitu berdasarkan Jadual 5.5. Namun begitu, dapat diperhatikan dalam
rajah tersebut peratusan peramalan yang hampir sama bagi gaya olahan yang bergred
A dan B, tetapi tidak konsisten untuk C, D dan E. Sebagai rumusannya, didapati
bahawa peramalan MLR lebih baik berbanding SLR secara lebih konsisten.
124
Jadual 5.7: Hasil akhir pengujian prototaip sistem pada kitaran kelima.
8
8
8
8
8
8
Penilaian
prototaip, H2
MLR SLR
9
7
7
8
9
9
7
9
8
7
8
8
MLR
8
7
8
7
8
7.6
SLR
7
8
8
6
7
7.2
MLR
1.000
.8750
1.000
.8750
1.000
.9500
SLR
.8750
1.000
1.000
.7500
.8750
.9000
MLR
.8889
1.000
.8889
1.000
1.000
.9556
SLR
1.000
1.000
.8889
.6667
1.000
.9111
MLR
.9412
.9333
.9412
.9333
1.000
.9498
SLR
.9333
1.000
.9412
.7059
.9333
.9027
0
.8944
.4899
.7483
.0612
.0935
.0544
.1296
.0253
.1015
Gred
Esei
Penilaian
Manusia,
H1
A
B
C
D
E
Min
Sisihan
Piawai
.8944
H1+H2
Precision
Recall
F-measure
Jadual 5.7 menunjukkan hasil ujian peramalan gaya olahan esei pada kitaran
terakhir. Min precision, recall dan f-measure bagi Algoritma MLR masing-masing
adalah bernilai 95%, 95.56% dan 94.98% berbanding Algoritma SLR iaitu 90%,
91.11% dan 90.27% yang mana purata perbezaan bagi kedua-duanya adalah
serendah 4%. Manakala, SD bagi Algoritma MLR adalah 6.12%, 5.44%, 2.53% dan
Algoritma SLR adalah 9.35%, 12.96%, 10.15%. Perbezaan yang agak ketara pada
perbandingan penilaian Algoritma SLR dengan manusia (recall) iaitu sebanyak
12.96%. Ini menunjukkan bahawa dalam kitaran kelima ini, peramalan bagi
Algoritma SLR adalah kurang jitu berbanding Algoritma MLR.
120%
Peratus Persetujuan
100%
80%
Algoritma MLR
60%
Algoritma SLR
40%
20%
0%
A
B
C
D
E
Gred Gaya Olahan
Rajah 5.7: Perbandingan hasil Algoritma MLR dan SLR pada kitaran kelima.
125
Akhir sekali, pada kitaran kelima cross-validation, graf dalam Rajah 5.6
menunjukkan pencapaian Algoritma MLR adalah lebih optimum berbanding
Algoritma SLR dalam melakukan peramalan gred esei pada kitaran pertama dengan
purata 94.98% dan 90.27%, masing-masing walaupun kedua-duanya menghasilkan
keputusan yang jitu berdasarkan Jadual 5.6. Namun begitu, dapat diperhatikan dalam
rajah tersebut peratusan peramalan yang hampir sama bagi gaya olahan yang bergred
A dan peratusan yang lebih tinggi bagi gaya olahan bergred B. Ini adalah disebabkan
pemilihan ciri ‘kewujudan terlalu banyak perkataan berulang’ diambilkira sebagai
salah satu ciri menggunakan Algoritma SLR telah menyumbang kepada
penghampiran peramalan yang lebih tinggi untuk gred tersebut. Manakala bagi gred
C, D dan E, Algoritma MLR menunjukkan peramalan yang lebih baik. Sebagai
kesimpulannya, peramalan MLR lebih baik berbanding SLR secara lebih konsisten.
5.5.1
Rumusan Peramalan Gaya Olahan
Berdasarkan kesemua bacaan hasil yang diperolehi tersebut, didapati bahawa
pencapaian peramalan gaya olahan esei menggunakan Algoritma MLR berbanding
Algoritma SLR adalah lebih optimum dan konsisten (rujuk Rajah 5.8). Ini dibuktikan
dengan purata pencapaian keseluruhan iaitu 91.28% ketepatan peramalan
menggunakan Algoritma MLR berbanding 82.17% menggunakan Algoritma SLR.
126
Peratus Persetujuan Penilai
100.00%
95.00%
Algoritma
Pengunduran Linear
Berganda
90.00%
85.00%
Algoritma
Pengunduran Linear
Stepwise
80.00%
75.00%
70.00%
1
2
3
4
5
Bilangan Kitaran Cross-Validation
Rajah 5.8: Rumusan perbandingan hasil Algoritma MLR dan SLR pada kelima-lima
kitaran.
Selain itu, purata SD bagi Algoritma MLR juga mencatatkan keputusan yang
lebih jitu iaitu 3.39% berbanding 8.32% yang diperolehi menggunakan Algoritma
SLR. Antara faktor utama ialah penggunaan Algoritma MLR menggunakan ciri yang
piawai dan signifikan menghasilkan peramalan yang lebih optimum berbanding
penggunaan Algoritma SLR yang memerlukan pemilihan ciri sigfinikan terlebih
dahulu tetapi tiada jaminan bahawa bilangan dan jenis ciri tersebut adalah paling
signifikan untuk membuat peramalan gaya olahan esei yang terhampir.
5.6
Hasil Penentuan dan Pengkelasan Elemen Hujahan
Penentuan dan pengkelasan elemen-elemen hujahan merupakan objektif
kedua penyelidikan ini. Dengan itu, hasil yang diperolehi akan ditunjukkan secara
terperinci berdasarkan kepada prosidur five-fold cross-validation. Nilai threshold
yang telah ditetapkan semasa pengujian dilakukan ialah 0.5. Hasil akan dijelaskan
berpandukan kepada setiap kitaran prosidur tersebut.
Jadual 5.8, 5.9, 5.10, 5.11 dan 5.12 masing-masing menunjukkan hasil yang
diperolehi daripada prosidur five-fold cross validation pada kitaran yang pertama,
127
kedua, ketiga, keempat dan kelima. MB adalah singkatan bagi Model Multivariate
Bernoulli dan LF singkatan bagi Logik Fuzzy.
Jadual 5.8: Hasil penentuan dan pengkelasan elemen hujahan pada kitaran pertama.
Penilaian
Teknik, H2
MB
LF
Elemen
Hujahan
Penilaian
Manusia,
H1
Penyataan
tesis
36
35
Isi 1
20
Isi 2
H1+H2
Precision
Recall
F-measure
MB
LF
MB
LF
MB
LF
MB
LF
32
33
30
.917
.833
.943
.938
.930
.882
21
19
19
18
.950
.900
.905
.947
.927
.923
11
11
9
10
8
.909
.727
.909
.889
.909
.800
Isi 3
9
8
9
7
5
.778
.556
.875
.556
.824
.556
Isi 4
19
21
20
18
15
.947
.789
.857
.750
.900
.769
Isi 5
13
13
14
12
11
.923
.846
.923
.786
.923
.815
Isi 6
16
18
15
16
14
1.00
.875
.889
.933
.941
.903
Isi 7
29
27
23
26
22
.897
.759
.963
.957
.929
.846
Isi 8
17
15
16
15
14
.882
.824
1.00
.875
.938
.848
9
7
8
7
6
.778
.667
1.00
.750
.875
.706
17.9
17.6
16.5
16.3
14.3
.898
.778
.926
.838
.909
.805
8.762
8.758
7.412
8.274
7.253
.071
.100
.050
.121
.036
.103
Penyataan
penutup
Min
Sisihan
Piawai
Berdasarkan Jadual 5.8, min untuk precision, recall dan f-measure bagi
MMB dan Logik Fuzzy masing-masing ialah 89.8%, 92.6%, 90.9% dan 77.8%,
83.8%, 80.5%. Perbezaan sehingga kira-kira 10% bagi perbandingan kedua-dua
teknik ini menunjukkan MMB lebih baik dalam membuat penentuan dan
pengkelasan elemen hujahan. Manakala SD precision, recall dan f-measure bagi
MMB dan Logik Fuzzy pula masing-masing ialah 7.1%, 5%, 3.6% dan 10%, 12.1%,
10.3%. Kesimpulannya, MMB memberikan keputusan yang lebih jitu dengan purata
nilai SD 3.6% dalam membuat penentuan dan pengkelasan elemen hujahan
berbanding Logik Fuzzy.
128
100.00%
Peratus Perbandingan
90.00%
80.00%
70.00%
60.00%
50.00%
Multivariate Bernoulli
40.00%
Logik Fuzzy
30.00%
20.00%
10.00%
0.00%
Pendahuluan
Isi 2
Isi 4
Isi 6
Isi 8
Elemen Hujahan
Rajah 5.9: Peratus perbandingan penentuan dan pengkelasan elemen hujahan antara
Teknik MMB dan Logik Fuzzy pada kitaran pertama.
Graf pada Rajah 5.9 menunjukkan pencapaian MMB yang lebih baik
berbanding Logik Fuzzy dalam penentuan dan pengkelasan elemen hujahan pada
kitaran pertama dengan purata 90.9% dan 80.5%, masing-masing. Perbezaan
maksimum peramalan ialah pada isi kelapan dengan nilai 26.79% dan perbezaan
minimum pada isi pertama dengan nilai 0.38% (peramalan yang hampir sama).
Jadual 5.9: Hasil penentuan dan pengkelasan elemen hujahan pada kitaran kedua.
Penilaian
Teknik, H2
MB
LF
Elemen
Hujahan
Penilaian
Manusia,
H1
Penyataan
tesis
36
34
Isi 1
19
Isi 2
H1+H2
Precision
Recall
F-measure
MB
LF
MB
LF
MB
LF
MB
LF
32
33
29
.917
.806
.971
.906
.943
.853
20
19
18
17
.947
.895
.900
.895
.923
.895
10
12
10
9
7
.900
.700
.750
.700
.818
.700
Isi 3
9
8
10
7
7
.778
.778
.875
.700
.824
.737
Isi 4
20
18
16
18
15
.900
.750
1.00
.938
.947
.833
Isi 5
14
13
12
13
11
.929
.786
1.00
.917
.963
.846
Isi 6
17
18
17
16
15
.941
.882
.889
.882
.914
.882
Isi 7
27
26
24
25
22
.926
.815
.962
.917
.943
.863
Isi 8
15
14
16
14
14
.933
.933
1.00
.875
.966
.903
8
8
9
7
7
.875
.875
.875
.778
.875
.824
17.5
17.1
16.5
16
14.4
.905
.822
.922
.851
.912
.834
8.683
8.117
7.184
8.179
6.741
.050
.069
.080
.086
.055
.063
Penyataan
penutup
Min
Sisihan
Piawai
129
Berdasarkan Jadual 5.9, min untuk precision, recall dan f-measure bagi
MMB dan Logik Fuzzy masing-masing ialah 90.5%, 92.2%, 91.2% dan 82.2%,
85.1%, 83.4%. Perbezaan 7.8% bagi perbandingan kedua-dua teknik ini
menunjukkan MMB masih lagi lebih baik dalam membuat penentuan dan
pengkelasan elemen hujahan. Manakala SD precision, recall dan f-measure bagi
MMB dan Logik Fuzzy pula masing-masing ialah 5%, 8%, 5.5% dan 6.9%, 8.6%,
6.3%. Rumusannya, kedua-dua teknik ini memberikan keputusan yang agak jitu iaitu
5.5% dan 6.3% masing-masing dalam membuat penentuan dan pengkelasan elemen
hujahan.
100.00%
Peratus Perbandingan
90.00%
80.00%
70.00%
60.00%
50.00%
Multivariate Bernoulli
40.00%
Logik Fuzzy
30.00%
20.00%
10.00%
0.00%
Pendahuluan
Isi 2
Isi 4
Isi 6
Isi 8
Elemen Hujahan
Rajah 5.10: Peratus perbandingan penentuan dan pengkelasan elemen hujahan
antara Teknik MMB dan Logik Fuzzy pada kitaran kedua.
Graf pada Rajah 5.10 menunjukkan pencapaian MMB yang lebih baik
berbanding Logik Fuzzy dalam penentuan dan pengkelasan elemen hujahan pada
kitaran kedua dengan purata 91.2% dan 83.4%, masing-masing. Perbezaan
maksimum peramalan ialah pada isi kedua dengan nilai 11.82% dan perbezaan
minimum pada isi pertama dengan nilai 2.83% (peramalan yang hampir sama).
130
Jadual 5.10: Hasil penentuan dan pengkelasan elemen hujahan pada kitaran ketiga.
Penilaian
Teknik, H2
MB
LF
Elemen
Hujahan
Penilaian
Manusia,
H1
Penyataan
tesis
36
36
Isi 1
21
Isi 2
H1+H2
Precision
Recall
F-measure
MB
LF
MB
LF
MB
LF
MB
LF
32
34
30
.944
.833
.944
.938
.944
.882
19
19
19
17
.905
.810
1.00
.895
.950
.850
9
9
9
8
6
.889
.667
.889
.667
.889
.667
Isi 3
9
8
7
7
5
.778
.556
.875
.714
.824
.625
Isi 4
16
15
16
15
15
.938
.938
1.00
.938
.968
.938
Isi 5
18
16
17
16
15
.889
.833
1.00
.882
.941
.857
Isi 6
16
16
15
16
14
1.00
.875
1.00
.933
1.00
.903
Isi 7
27
25
24
25
22
.926
.815
1.00
.917
.962
.863
Isi 8
15
15
16
14
14
.933
.933
.933
.875
.933
.903
8
7
8
6
6
.750
.750
.857
.750
.800
.750
17.5
16.6
16.3
16
14.4
.895
.801
.950
.851
.921
.824
8.759
8.708
7.631
8.589
7.338
.076
.112
.058
.096
.064
.101
Penyataan
penutup
Min
Sisihan
Piawai
Berdasarkan Jadual 5.10, min untuk precision, recall dan f-measure bagi
MMB dan Logik Fuzzy masing-masing ialah 89.5%, 95%, 92.1% dan 80.1%,
85.1.3%, 82.4%. Perbezaan setinggi 9.7% bagi perbandingan kedua-dua teknik ini
menunjukkan MMB lebih baik dalam membuat penentuan dan pengkelasan elemen
hujahan. Manakala SD precision, recall dan f-measure bagi MMB dan Logik Fuzzy
pula masing-masing ialah 7.6%, 5.8%, 6.4% dan 11.2%, 9.6%, 11.1%. Sebagai
rumusannya, kedua-dua penggunaan MMB memberikan keputusan yang lebih jitu
iaitu 6.4% berbanding 11.1% menggunakan Logik Fuzzy dalam membuat penentuan
dan pengkelasan elemen hujahan.
131
100.00%
90.00%
Peratus Perbandingan
80.00%
70.00%
60.00%
50.00%
Multivariate Bernoulli
Logik Fuzzy
40.00%
30.00%
20.00%
10.00%
0.00%
Pendahuluan
Isi 2
Isi 4
Isi 6
Isi 8
Elemen Hujahan
Rajah 5.11: Peratus perbandingan penentuan dan pengkelasan elemen hujahan
antara Teknik MMB dan Logik Fuzzy pada kitaran ketiga.
Graf pada Rajah 5.11 menunjukkan pencapaian Teknik MMB yang lebih baik
berbanding Logik Fuzzy dalam penentuan dan pengkelasan elemen hujahan pada
kitaran ketiga dengan purata 92.1% dan 82.4%, masing-masing. Perbezaan
maksimum peramalan ialah pada isi kedua dengan nilai yang agak tinggi iaitu
22.22% dan perbezaan minimum pada isi kelapan dengan nilai 3.01% (peramalan
yang hampir sama).
Jadual 5.11: Hasil penentuan dan pengkelasan elemen hujahan pada kitaran
keempat.
Penilaian
Teknik, H2
MB
LF
Elemen
Hujahan
Penilaian
Manusia,
H1
Penyataan
tesis
37
36
Isi 1
21
Isi 2
H1+H2
Precision
Recall
F-measure
MB
LF
MB
LF
MB
LF
MB
LF
33
34
32
.919
.865
.944
.970
.932
.914
23
20
21
18
1.00
.857
.913
.900
.955
.878
10
9
10
8
7
.800
.700
.889
.700
.842
.700
Isi 3
8
10
7
8
5
1.00
.625
.800
.714
.889
.667
Isi 4
19
18
17
17
15
.895
.789
.944
.882
.919
.833
Isi 5
18
16
17
16
16
.889
.889
1.00
.941
.941
.914
Isi 6
17
16
17
16
15
.941
.882
1.00
.882
.970
.882
Isi 7
26
25
27
24
23
.923
.885
.960
.852
.941
.868
Isi 8
Penyataan
penutup
Min
17
15
16
14
14
.824
.824
.933
.875
.875
.848
9
9
9
7
6
.778
.667
.778
.667
.778
.667
18.2
17.7
17.3
16.5
15.1
.897
.798
.916
.838
.904
.817
8.702
8.433
8.015
8.330
7.803
.077
.094
.075
.101
.059
.095
Sisihan
Piawai
132
Berdasarkan Jadual 5.11, min untuk precision, recall dan f-measure bagi
MMB dan Logik Fuzzy masing-masing ialah 89.7%, 91.6%, 90.4% dan 79.8%,
83.8%, 81.7%. Perbezaan 8.7% bagi perbandingan kedua-dua teknik ini
menunjukkan MMB masih lagi lebih baik dalam membuat penentuan dan
pengkelasan elemen hujahan. Manakala SD precision, recall dan f-measure bagi
MMB dan Logik Fuzzy pula masing-masing ialah 7.7%, 7.5%, 5.9% dan 9.4%,
10.1%, 9.5%. Rumusannya, penggunaan MMB memberikan keputusan yang lebih
jitu dengan purata nilai sisihan piawai 5.9% dan berbanding penggunaan Logik
Fuzzy dengan purata nilai sisihan piawai 9.5% dalam membuat penentuan dan
pengkelasan elemen hujahan.
100.00%
90.00%
Peratus Perbandingan
80.00%
70.00%
60.00%
50.00%
Multivariate Bernoulli
Logik Fuzzy
40.00%
30.00%
20.00%
10.00%
0.00%
Pendahuluan
Isi 2
Isi 4
Isi 6
Isi 8
Elemen Hujahan
Rajah 5.12: Peratus perbandingan penentuan dan pengkelasan elemen hujahan
antara Teknik MMB dan Logik Fuzzy pada kitaran keempat.
Graf pada Rajah 5.12 menunjukkan pencapaian Teknik MMB yang lebih baik
berbanding Logik Fuzzy dalam penentuan dan pengkelasan elemen hujahan pada
kitaran keempat dengan purata 90.4% dan 81.7%, masing-masing. Perbezaan
maksimum peramalan ialah pada isi ketiga dengan nilai yang agak tinggi iaitu
22.22% dan perbezaan minimum pada penyataan tesis dengan nilai 1.72%
(peramalan yang hampir sama).
133
Jadual 5.12: Hasil penentuan dan pengkelasan elemen hujahan pada kitaran kelima.
Penilaian
Teknik, H2
MB
LF
Elemen
Hujahan
Penilaian
Manusia,
H1
Penyataan
tesis
37
36
Isi 1
21
Isi 2
H1+H2
Precision
Recall
F-measure
MB
LF
MB
LF
MB
LF
MB
LF
34
35
32
.946
.865
.972
.941
.959
.901
20
21
19
18
.905
.857
.950
.857
.927
.857
9
8
8
7
6
.778
.667
.875
.750
.824
.706
Isi 3
8
9
7
7
5
.875
.625
.778
.714
.824
.667
Isi 4
18
20
18
18
16
1.00
.889
.900
.889
.947
.889
Isi 5
17
16
17
15
14
.882
.824
.938
.824
.909
.824
Isi 6
18
17
18
16
15
.889
.833
.941
.833
.914
.833
Isi 7
28
28
27
27
25
.964
.893
.964
.926
.964
.909
Isi 8
18
17
16
17
15
.944
.833
1.00
.938
.971
.882
8
9
9
8
7
1.00
.875
.889
.778
.941
.824
18.2
18
17.5
16.9
15.3
.918
.816
.921
.845
.918
.829
9.138
8.819
8.502
8.913
8.026
.067
.088
.064
.076
.054
.078
Penyataan
penutup
Min
Sisihan
Piawai
Berdasarkan Jadual 5.12, min untuk precision, recall dan f-measure bagi
MMB dan Logik Fuzzy masing-masing ialah 91.8%, 92.1%, 91.8% dan 81.6%,
84.5%, 82.9%. Perbezaan 8.9% bagi perbandingan kedua-dua teknik ini
menunjukkan MMB adalah lebih baik dalam membuat penentuan dan pengkelasan
elemen hujahan. Manakala SD precision, recall dan f-measure bagi MMB dan Logik
Fuzzy pula masing-masing ialah 6.7%, 6.4%, 5.4% dan 8.8%, 7.6%, 7.8%.
Rumusannya, kedua-dua teknik ini memberikan keputusan yang agak jitu iaitu 5.4%
dan 7.8% masing-masing dalam membuat penentuan dan pengkelasan elemen
hujahan.
134
100.00%
90.00%
Peratus Perbandingan
80.00%
70.00%
60.00%
50.00%
Multivariate Bernoulli
40.00%
Logik Fuzzy
30.00%
20.00%
10.00%
0.00%
Pendahuluan
Isi 2
Isi 4
Isi 6
Isi 8
Elemen Hujahan
Rajah 5.13: Peratus perbandingan penentuan dan pengkelasan elemen hujahan
antara Teknik MMB dan Logik Fuzzy pada kitaran kelima.
Graf pada Rajah 5.12 menunjukkan pencapaian Teknik MMB yang lebih baik
berbanding Logik Fuzzy dalam penentuan dan pengkelasan elemen hujahan pada
kitaran kelima dengan purata 91.8% dan 82.9%, masing-masing. Perbezaan
maksimum peramalan ialah pada isi ketiga dengan nilai yang agak tinggi iaitu
15.69% dan perbezaan minimum pada isi ketujuh dengan nilai 5.52% (peramalan
yang hampir sama).
5.6.1
Rumusan Penentuan dan Pengkelasan Elemen Hujahan
Berdasarkan kesemua bacaan hasil yang diperolehi tersebut, purata bagi min
kelima-lima pengukuran adalah tinggi dengan menggunakan MMB iaitu 91.28%
berbanding 82.17% dicatatkan dengan menggunakan Logik Fuzzy. Ini menunjukkan
pencapaian MMB dalam menentukan dan mengkelaskan elemen hujahan adalah
lebih baik. Malah, purata SD bagi pencapaian menggunakan MMB juga
menunjukkan nilai yang agak kecil iaitu 5.36% membuktikan pencapaian tersebut
adalah jitu. Sebaliknya, dengan menggunakan Logik Fuzzy, purata SD yang
dicatatkan adalah 8.8%. Dengan ini, ia memberi gambaran bahawa kejituan
pengecaman elemen hujahan menggunakan MMB adalah lebih tinggi. Nilai terendah
daripada kelima-lima kitaran tersebut menggunakan MMB adalah 77.8% iaitu
135
bacaan pada penyataan penutup dalam kitaran keempat, manakala pencapaian
pengecaman tertinggi ialah 100% iaitu bacaan pada isi keenam dalam kitaran ketiga.
Perbandingan antara pencapaian MMB dan Logik Fuzzy dirumuskan dalam
Rajah 5.14. Berdasarkan tersebut, kesimpulan akhir yang dapat dibuat ialah tahap
penentuan dan pengkelasan elemen hujahan menggunakan MMB adalah lebih baik
daripada Logik Fuzzy bagi kelima-lima kitaran tersebut.
94.00%
92.00%
90.00%
88.00%
Peratus
86.00%
Perbandingan 84.00%
Pengecaman 82.00%
80.00%
78.00%
76.00%
74.00%
Multivariate Bernoulli
Logik Fuzzy
1
2
3
4
5
Bilangan Kitaran
Rajah 5.14: Rumusan perbandingan penentuan dan pengkelasan elemen hujahan
antara Teknik MMB dan Logik Fuzzy bagi kelima-lima kitaran
five-fold cross-validation.
Antara faktor utama menyumbang kepada peratus pengecaman elemen
hujahan lebih tinggi menggunakan MMB berbanding Logik Fuzzy ialah ianya
mengambilkira kedua-dua ciri yang wujud dan tidak wujud. Ini dibuktikan dengan
peratus pengecaman bagi setiap elemen hujahan dalam setiap kitaran menggunakan
MMB sentiasa melebihi peratusan menggunakan Logik Fuzzy. Selain itu,
berdasarkan Jadual 5.8 hingga 5.12 dann Rajah 5.9 hingga 5.13, didapati penurunan
peratus pengecaman berlaku pada isi kedua, ketiga dan penyataan penutup
menggunakan kedua-dua teknik penilaian. Ini adalah kerana bilangan esei latihan dan
ujian yang mengandungi ketiga-tiga jenis elemen hujahan tersebut tidak melebihi 80
esei (daripada keseluruhan 200 esei). Bagaimanapun, penggunaan MMB masih
136
mencatatkan pencapaian yang lebih tinggi kerana kemampuannya membuat
pengecaman menggunakan set korpus data (bilangan esei) yang kecil.
5.7
Hasil Teknik Penilaian
Bagi menyempurnakan objektif keempat, hasil daripada peramalan gaya
olahan (Subtopik 5.5) dan hasil daripada penentuan dan pengkelasan elemen hujahan
(Subtopik 5.6) digabungkan dengan nilai bagi lima kriteria kesalahan bahasa bagi
membentuk prototaip penilaian. Ini adalah untuk membandingkan keputusan gred
akhir antara penilaian manusia dan penilaian prototaip yang mengaplikasikan dua
pendekatan utama iaitu Algoritma MLR dan Teknik MMB. Hasil daripada operasi
tersebut dirumuskan dalam Jadual 5.13.
Jadual 5.13: Hasil perbandingan penilaian manusia dan teknik penilaian.
Kitaran
1
2
3
4
5
Min
Sisihan
Piawai
Penilaian
Manusia, H1
40
40
40
40
40
40
Teknik
Penilaian , H2
39
38
39
38
39
38.6
0
0.548
H1+H2
Precision
Recall
F-measure
37
37
38
37
38
37.4
0.925
0.925
0.950
0.925
0.950
0.935
0.949
0.974
0.974
0.974
0.974
0.969
0.937
0.949
0.962
0.949
0.962
0.952
0.548
0.014
0.011
0.011
Jadual 5.13 menunjukkan hasil perbandingan pencapaian antara penilaian
manusia dan teknik penilaian yang digunakan. Daripada jadual tersebut, didapati
bahawa min bagi precision yang mengukur perbandingan persetujuan (H1+H2)
dengan jumlah penilaian manusia (H1) adalah setinggi 93.5% dengan sisihan piawai
serendah 1.4%. Manakala, min bagi recall yang mengukur perbandingan persetujuan
(H1+H2) dengan jumlah penilaian menggunakan teknik penilaian (H2) adalah
setinggi 96.9% dengan sisihan piawai serendah 1.1%. Maka, purata bagi kedua-dua
kaedah penilaian tersebut (f-measure) menunjukkan hasil yang memberangsangkan
iaitu dengan min setinggi 95.2% dan sisihan piawai serendah 1.1%. Pencapaian
137
perbandingan Jadual 5.13 ditunjukkan dalam Rajah 5.14. Dengan sisihan piawai
yang rendah menggunakan ketiga-tiga jenis pengukuran tersebut, rumusan yang
boleh dibuat ialah penggunaan teknik penilaian adalah jitu berbanding penilaian
manusia dalam membuat penilaian esei pelajar berdasarkan prosidur five-fold cross-
Peratus Persetujuan
validation.
101.00%
100.00%
99.00%
98.00%
97.00%
96.00%
95.00%
94.00%
93.00%
92.00%
91.00%
90.00%
Penilaian Manusia
Teknik Penilaian
1
2
3
4
5
Kitaran
Rajah 5.15: Graf perbandingan penilaian gred esei antara penilaian manusia dan
teknik penilaian bagi kelima-lima kitaran five-fold cross-validation.
Dengan merujuk kepada Rajah 5.15, dapat dilihat dengan jelas perbandingan
penilaian menggunakan teknik penilaian dalam penyelidikan ini menggunakan
prosidur five-fold cross-validation. Berbanding penilaian manusia (100%), penilaian
menggunakan teknik penilaian bagaimanapun memberikan ketepatan yang
memberangsangkan. Ketepatan terendah berdasarkan jadual tersebut adalah pada
kitaran pertama iaitu 93.7% dan tertinggi pada kitaran ketiga dan kelima iaitu 96.2%.
Oleh itu, dapat disimpulkan bahawa penggunaan teknik penilaian dalam membuat
penilaian esei berbanding penilaian manusia adalah konsisten dengan purata
penilaian 95.2% secara keseluruhan.
138
5.8
Rumusan Keseluruhan
Antara foktor utama menyebabkan dapatan hasil yang sangat konsisten bagi
ketiga-tiga pengujian (elemen hujahan, gaya olahan dan teknik penilaian) adalah
disebabkan pembahagian esei menggunakan prosidur five-fold cross-validation ini
dibuat secara seimbang. Selain itu, antara sebab dapatan hasil agak rendah pada
kitaran pertama dan keempat penentuan dan pengkelasan elemen hujahan adalah
kerana kemampuan Algoritma Pembetulan Kata hanya terhad untuk membuat
pembetulan melibatkan aksara berbentuk huruf, tetapi tidak bagi yang berbentuk
nombor (seperti tarikh atau masa) dan kekangan dalam penggabungan kata.
5.9
Ringkasan
Merujuk kepada bab ini, kesemua objektif penyelidikan ini telah terjawab.
Bab ini dimulakan dengan penerangan tiga kaedah pengukuran berserta justifikasi
yang digunakan untuk mengukur tahap pencapaian teknik penilaian berbanding
teknik perbandingan dan penilaian manusia. Hasil dan perbincangan pertama
menyatakan hasil pra-pemprosesan data yang juga merumuskan objektif pertama
penyelidikan dengan pencapaian 82.55% pembetulan perkataan dan 5.95% sisihan
piawai.
Seterusnya, objektif kedua yang menggunakan Teknik MMB dalam membuat
penentuan dan pengkelasan elemen hujahan dirumuskan dalam subtopik seterusnya.
Hasil dan perbincangannya dibandingkan dengan Teknik Logik Fuzzy yang memberi
kesimpulan bahawa penggunaan MMB lebih baik berbanding Logik Fuzzy dengan
pencapaian 91.28% berbanding 82.17%. Malah, dengan sisihan piawai yang rendah,
5.36%, menunjukkan penggunaan MMB melakukan pengecaman dengan lebih jitu
dan konsisten.
Objektif ketiga pula dirumuskan dalam subtopik hasil peramalan gaya olahan.
Berdasarkan keputusan yang diperolehi, penggunaan Algoritma MLR didapati
139
menghasilkan keputusan yang lebih baik dan konsisten berbanding Algoritma SLR
dengan perbandingan 94.98% dan 85.79%. Malah, pencapaian tersebut disokong
dengan kejituan yang agak tinggi iaitu dengan sisihan piawai serendah 3.4%.
Bab ini diakhiri dengan memaparkan hasil teknik penilaian yang
merangkumkan kedua-dua teknik penilaian dalam penyelidikan ini (MMB dan MLR)
dan dibandingkan dengan penilaian manusia. Hasil akhir diperolehi adalah dengan
nilai konsisten 95.2% berdasarkan pengujian menggunakan prosidur five-fold crossvalidation. Ianya setidak-tidaknya lebih baik daripada Sistem E-rater yang mencapai
persetujuan manusia-sistem tertinggi iaitu 94%.
Rumusan akhir penyelidikan ini akan disimpulkan dalam bab seterusnya.
Selain itu, Bab 6 juga akan menyatakan kajian lanjutan yang boleh dilakukan dalam
meningkatkan lagi teknik penilaian dalam membuat penilaian esei dengan lebih baik.
BAB 6
KESIMPULAN
6.1
Pendahuluan
Bab terakhir ini akan membincangkan tentang hasil kajian secara
menyeluruh. Di samping itu, beberapa cadangan turut diberikan untuk tujuan kajian
lanjutan dan penambahbaikan di masa hadapan. Dengan itu, diharapkan agar dengan
perbincangan ini dapat memberi garis panduan agar kaedah penyelidikan ini dapat
dipertingkatkan lagi untuk mencapai hasil yang lebih baik kelak.
6.2
Kesimpulan
Manusia pada abad ini, tidak dapat lari dari kemudahan komputer dalam
membantu dan mempertingkatkan kadar kepantasan dan kecekapan seharian,
termasuklah penilaian esei secara automasi. Namun begitu, terdapat beberapa isu
yang sering timbul dalam penghasilan sistem penilaian ini, samada dari segi
penentuan dan pengkelasan elemen hujahan, penentuan gaya olahan mahupun
pengecaman kesalahan bahasa. Dalam pembangunan sesebuah sistem penilaian,
ianya amat menitikberatkan skema penilaian kerana bidang pendidikan pada era kini
bukan sahaja menekankan isu gred yang diperolehi, namun turut mengambilkira
kriteria gred tersebut dihasilkan. Oleh sebab itu, pembahagian kepada tiga bahagian
tersebut, antara lain adalah supaya maklumbalas yang diberikan oleh setiap bahagian
141
boleh digunakan oleh pelajar atau guru untuk membuat rujukan dan rumusan
berdasarkan gred yang diperolehi.
Namun begitu, penyelidikan ini hanya menumpukan skop penyelidikannya
hanya kepada dua daripada tiga isu tersebut. Penentuan dan pengkelasan elemen
hujahan diperbaiki dengan memperbaiki data tersebut terlebih dahulu. Ini
dilaksanakan melalui penapisan data (token) menggunakan Algoritma Pembetulan
Kata. Ia memberi kesan yang agak ketara terutama untuk penentuan dan pengkelasan
elemen-elemen hujahan dan penetapan nilai gaya olahan esei. Hasil yang diperolehi
iaitu pembetulan sebanyak 82.55% iaitu min bagi kelima-lima kumpulan crossvalidation dengan sisihan piawai yang sangat rendah iaitu 5.95% membuktikan
bahawa algoritma tersebut sangat membantu mempertingkatkan kedua-dua teknik
penyelidikan tersebut.
Manakala itu, teknik yang digunakan dalam penentuan dan pengkelasan
elemen hujahan sebelum ini hanya mengambilkira ciri-ciri yang wujud dalam ayat.
Ini mengurangkan kadar ketepatan dan sedikit sebanyak meningkatkan kadar bias
dalam proses tersebut. Oleh itu, dengan menggunakan Teknik MMB, yang
mengambilkira kedua-dua ciri tersebut, malahan hanya menggunakan set latihan esei
yang bersaiz kecil, terbukti menambahkan kejituan dan menghasilkan keputusan
yang lebih konsisten dalam dengan pencapaian 91.28% dan sisihan piawai serendah
5.36% secara puratanya berdasarkan prosidur cross-validation. Nilai threshold 0.5
ditetapkan semasa pengujian dilakukan ke atas set esei ujian. Kemampuan MMB
untuk beroperasi di tahap optimum dengan saiz data yang kecil juga didapati
menyumbang kepada dapatan pencapaian tersebut.
Sistem penilaian sebelum ini, yang menggunakan Algoritma SLR, dan
beberapa teknik lain, akan melalui proses pemilihan ciri yang signifikan terlebih
dahulu dalam sebelum peramalan gaya olahan esei dapat dilaksanakan. Ini, selain
daripada melambatkan proses peramalan tersebut, juga memberi masalah dari segi
bilangan dan jenis ciri yang diambilkira dalam peramalan tersebut adalah tidak
piawai dan tiada jaminan bahawa ciri tersebut adalah signifikan. Maknanya, bilangan
ciri ini mungkin akan berbeza dalam membuat peramalan esei yang sama
142
(berdasarkan prosidur five-fold cross-validation) atau penilaian ke atas esei lain.
Dengan itu, penyelidikan ini telah menetapkan enam ciri yang signifikan untuk
menyumbang kepada peramalan yang terbaik berdasarkan kajian terdahulu yang
dibuat. Hasilnya, tahap peramalan yang konsisten setinggi 94.98% dihasilkan dengan
tahap kejituan yang baik dengan sisihan piawai bernilai 3.4%.
Seterusnya, bagi membuktikan sistem penilaian menggunakan kedua-dua
teknik penilaian tersebut lebih baik daripada sistem penilaian terdahulu,
perbandingan dengan penilaian manusia dilakukan. Berdasarkan kajian, dengan
mengunakan kaedah peratus kesetaraan antara markah yang dihasilkan teknik
penilaian dan markah yang ditakrifkan oleh manusia (AGREEM), Sistem E-rater
mencatat keputusan yang paling memberangsangkan iaitu antara julat 87%-94%.
Namun begitu, dalam penyelidikan ini, hasil perbandingan yang diperolehi adalah
adalah lebih tinggi iaitu 95.2% secara konsisten dan disokong dengan tahap kejituan
yang tinggi (sisihan piawai 1.1%).
Secara keseluruhan, kedua-dua teknik ini adalah sangat sesuai dengan
bilangan esei latihan yang kecil dan skema penilaian yang menitikberatkan bahagian
elemen hujahan dan gaya olahan esei. Setidak-tidaknya, kedua-dua kaedah tersebut
agak baik digunakan pada masa ini, memandangkan hasil yang dijana adalah cukup
memberangsangkan. Walaupun ada kemungkinan isu lain yang timbul atau kaedah
lain yang lebih baik, namun buat masa ini, kaedah-kaedah tersebut didapati mampu
untuk menangani dan mempertingkatkan pencapaian semasa serta secara tidak
langsung dapat meningkatkan kebolehpercayaan manusia untuk menggantikan
sebahagian tugas mereka dalam menilai sesuatu yang bersifat subjektif seperti esei.
6.3
Cadangan Kajian Lanjutan
Secara keseluruhannya, kaedah-kaedah yang dihasilkan daripada
penyelidikan ini dapat mempertingkatkan kemampuan sistem penilaian esei sebenar.
Walaubagaimanapun, masih terdapat beberapa kelemahan yang masih boleh
143
diperbaiki. Sepanjang proses pembangunan, latihan dan pengujian, didapati masih
terdapat peluang-peluang penyelidikan yang boleh dilakukan untuk menambahbaik
kaedah yang dicadangkan ini. Antara isu yang timbul daripada penyelidikan ini yang
boleh dijadikan kajian selanjutnya ialah kaedah penapisan data yang menggunakan
Algoritma Pembetulan Kata dan isu yang berkaitan penulisan di luar topik (offtopic).
6.3.1
Kaedah Gabungan Kata dan Penapisan Data
Pada peringkat pra-pemprosesan, ianya melibatkan proses penggabungan
kata. Penggabungan kata hanya mengambilkira huruf pertama perkataan (token)
bersebelahan adalah huruf besar. Masalah yang wujud ialah jika ianya huruf pertama
bagi salah satu atau kedua-dua perkataan bersebelahan tersebut ditulis dengan huruf
kecil. Masalah kedua ialah jika ianya melibatkan aksara berbentuk nombor, sebagai
contoh tarikh. ‘24 Jun 2005’, ‘1 8 2004’ dan beberapa lagi contoh format tarikh lain
yang biasa ditulis oleh pelajar sepatutnya dianggap sebagai satu perkataan. Selain itu,
proses penapisan data (token) dalam Fasa II metodologi yang digunakan juga wujud
beberapa masalah. Ianya masih lagi melibatkan tarikh (elemen nombor) seperti ’24
Jun 2005’, ‘2hb Julai’, ‘2.4.2003’, ‘5-4-05’ dan pelbagai lagi format juga sukar untuk
ditapis untuk berada dalam kumpulan kata ‘tarikh’ menggunakan kaedah
kebarangkalian dalam Algoritma Pembetulan Kata yang telah dibangunkan. Dengan
itu, kaedah penggabungan kata dan Algoritma Pembetulan Kata perlu ditambahbaik
dengan mengambilkira pengaruh nombor dalam membuat gabungan kata dan
penapisan data.
6.3.2 Penulisan Di Luar Topik
Dua kaedah penilaian, MMB dan MLR masih belum terbukti boleh
menangani isu penulisan di luar topik. Isu ini bukan isu baru, tetapi penyelidikan
untuk mengatasi isu ini masih giat dijalankan. Isu ini juga bukan isu yang boleh
144
dipandang ringan, kerana walau sehebat manapun esei yang ditulis dari segi gaya dan
bahasa, tetapi jika ianya terpesong daripada topik yang diingini, kemungkinan untuk
esei tersebut digredkan dengan gred terbawah (samada E atau F) adalah lebih tinggi.
Oleh itu, kajian lanjut dan terperinci perlu dilakukan agar isu ini boleh ditangani dan
kajian tersebut perlu dimulakan dengan mengenalpasti samada ianya melibatkan
kriteria bahasa, isi kandungan atau gaya olahan, atau ketiga-tiga kriteria penilaian
tersebut, ataupun melibatkan peringkat linguistik lain seperti morfologi, semantik
dan sintaksis.
6.4
Ringkasan
Bab ini membuat kesimpulan kesemua empat objektif yang telah ditetapkan
pada peringkat awal penyelidikan. Bab ini juga memberikan ulasan yang positif dari
segi keputusan penyelidikan berdasarkan objektif-objektif tersebut. Bab ini diakhiri
dengan dua isu, atau peluang kajian lanjutan yang boleh dilakukan untuk
meningkatkan kaedah yang digunakan khususnya atau meningkatkan tahap sistem
penilaian amnya.
145
RUJUKAN
Abdul Aziz Abdul Talib. (1993). Menguji Kemahiran Bahasa: Prinsip, Teknik dan
Contoh. Kuala Lumpur: Dewan Bahasa dan Pustaka.
Abu Bakar Nordin, (1986). Asas Penilaian Pendidikan. Petaling Jaya: Longman.
Azman Wan Chik, (1994). Pengujian Bahasa: Kes Bahasa Melayu, Edisi Kedua.
Kuala Lumpur: Dewan Bahasa dan Pustaka.
Aja-Fernandez, S., Alberto-Lopez, C., and Cybenko, G. V. (2002). A fuzzy MHT
Algorithm Applied to Text-Based Information Tracking. IEE Transaction on
Fuzzy Systems. vol: 10. no: 3.
Attali, Y. and Burstein, J. (2004). Automated Essay Scoring With E-rater® V.2.0.
Conference of the International Association for Educational Assessment (!AEA).
Philadelphia, PA.
Attali, Y. and Burstein, J. (2006). Automated Essay Scoring With e-rater® V.2. Journal
of Technology, Learning, and Assessment. 4(3).
Attali, Y. (2004). Exploring the Feedback and Revision Features of Criterion. Paper
presented at National Council on Measurement in Education (NCME). San
Diego, CA.
146
Bloom, B. S. (1956). Taxonomy of educational objectives: The classification of
educational goals. Handbook I, Cognitive domain. New York, Toronto:
Longmans, Green.
Brill, E., and Mooney, R. J. (1997). An Overview of Empirical Natural Language
Processing. American Association for Artificial Intelligence. La Canada.
Burstein, J, Kukich, K., Wolff, S., Chi Lu, Chodorow, M., Harder, L. B., and Harris, M.
D. (1998). Automated Scoring Using A Hybrid Feature Identification Technique.
Proc. Ann. Meeting Association of Computational Linguistics. Montreal,
Canada.
Burstein, J. and Chodorow, M. (1999). Automated Essay Scoring for Nonnative English
Speakers. Proceedings of the ACL99 Workshop on Computer-Mediated
Language Assessment and Evaluation of Natural Language Processing. College
Park, MD.
Burstein, J., Chodorow, M,. and Leacock ,C. (2003). Criterion Online Essay Evaluation :
An Application for Automated Evaluation of Student Essays. Proceedings of the
Fifteenth Annual Conference on Innovative Applications of Artificial
Intelligence. Acapulco, Mexico.
Burstein, J., Kukich, K., Wolff, S., Chi Lu., and Chodorow, M. (1998). Enriching
Aautomated Essay Scoring Using Discourse Marking. Proceedings of the
Workshop on Discourse Relations and Discourse Marking, Annual Meeting of
the Association of Computational Linguistics. Montreal, Canada.
Burstein, J., Kukich, K., Wolff, S., Chi Lu, and Chodorow, M. (1998). Computer
Analysis of Essays. Proceedings of NCME Symposium on Automated Scoring.
Educational Testing Service, Princeton NJ, Hunter College, New York City.
147
Burstein, J., Leacock, C., and Swartz, R. (2001). Automated Evaluation of Essay and
Short Answer. In M. Danson (ED.), Proceedings of the Sixth International
Computer Assisted Assessment Conference. Loughborough University,
Loughborough, UK.
Burstein, J., and Marcu, D. (2000). Toward Using Text Summarization for Essay-Based
Feedback. Conferences TALN, Lausanne.
Burstein, J., and Marcu, D. (2000). Benefits of Modularity in an Automated Essay
Scoring System. Educational Testing Service, Princeton NJ.
Burstein, J., Marcu, D., Andreyev, S., and Chodorow, M. (2001). Towards Automatic
Classification of Discourse Elements in Essays. Meeting of the Association for
Computational Linguistics.
Burstein, J., Wolff, S., and Chi Lu (1999). Using Lexical Semantic Techniques To
Classify Free-Responses. Kluwer Academic Press. Dordrecht, Netherlands.
vol: 10.
Burstein, J., Wolff, S., Chi Lu and Kaplan, R. M. (1997). An Automatic Scoring System
for Advanced Placement Biology Essays. In Proceedings of the Fifth Conference
on Applied Natural Language Processing. Washington, D.C. pp: 174-181.
Burstein, J., and Wolska, M., (2003). Toward Evaluation of Writing Wtyle: Finding
Overly Repetitive Word Use in Student Essays. Proceedings of the tenth
conference on European chapter of the Association for Computational
Linguistics. Budapest, Hungary. vol: 1.
Christie, J. R. (1999). Automated Essay Marking for Both Style and Content. In M.
Danson (Ed.), Proceedings of the Third Annual Computer Assisted Assessment
Conference. Loughborough University, Loughborough, UK.
148
Christie, J. R. (2003). Automated Essay Marking for Content ~ does it work?.
Proceedings of the 7th CAA Conference. Loughborough, Loughborough
University.
Chodorow, M., and Leacock, C. (2000). An Unsupervised Method for Detecting
Grammatical Errors. Proceedings of the First Meeting of the North American
Chapter of the Association for Computional Linguistics (ANLP-NAACL-2000).
Morgan Kaufmann, San Francisco. pp: 140-147.
Cooper, C.R. and Odell, L. (1978). Research on Composing: Points of Departure. Nat'l
Council of Teachers of English. Urbana, Ill.
Cucchiarelli, A., Faggioli, E., and Velardi, P. (2000). Will Very Large Corpora Play for
Semantic Disambiguation the Role That Massive Computing Power is Playing
for Other AI-hard Problems? 2nd. Conference on Language Resources and
Evaluation (LREC). Athens, Greece.
Deerwester, S. C., Dumais, S. T., Landauer, T. K., Furnas, G. W., and Harshman R. A.
(1990). Indexing by Latent Semantic Analysis. Journal of the American Society
for Information Science. 41(6). 391-407.
De Oliveira, P. C. F., Ahmad, K., and Gillam, L.(2002). A financial News
Summarization System Based On Lexical Cohesion. Proceedings of the
International Conference on Terminology and Knowledge Enginneering. Nancy,
France.
Feldman, S. (1999). “NLP meet the Jaberwocky”, Online, Wilton.
Fife, B.and Berger, C. (1996). Computer Assisted Concept Mapping and Analysis. Paper
presented at the meeting of the The National Association for Research in Science
Teaching. St. Louis.
149
Freedman, S. W. (1983). Student Characteristics and Essay Test Writing Performance.
Research in the Teaching of English. vol: 17. pp: 313–324.
Galescu, L., and Ringer, E. K. (1999). Augmenting Words With Linguistic Information
For N-gram Language Models. Department of Computer Science, University of
Rochester and NLP Group, Microsoft Research.
Garmon, M., and Reutter, T. (1997). The Analysis of German Separable Prefix Verbs.
Microsoft Natural Language Processing System.
Gerdes, K., and Kahane, S. (2001). Word Order in German: A Formal Dependency
Grammar Using a Topological Hierarchy. Proceedings of the Conference of the
Association for Computational Linguistics (ACL-2001). Toulouse, France.
Grondlund, N. E. (1985). Mesurement and evaluation in teaching. New York:
Macmillan.
Hamilton, R.J., Pringle, R. D., and Grant, P. M. (1992). Syntactic Techniques for Pattern
Recognition on Sampled Data Signals. IEEE Proceedings-E. vol: 139. no. 2.
Hearst, M. (2000). The Debate on Automated Essay Grading. IEEE Intelligent Systems.
15(5). 22-37. IEEE CS Press.
Hedberg. S. R. (1999). Computers Scoring GMAT Essays? Impossible! Or is it?. IEEE
Intelligent Systems. vol: 14. issue: 3. pp: 5-7.
Heidorn, G. (1999). A Handbook of Natural Language Processing Techniques.
Intelligent Writing Assistance. In: R. Dale, H. Moisl, and H. Somers (eds.).
Marcel Dekker.
150
Honan, W. (1999). High Tech Comes to the Classroom: Machines that Grade Essay.
New York Times.
Hsien-Chin Liou. (1993). Investigation of Using Text-Critiquing Programs in a ProcessOriented Writing Class. CALICO Journal. vol: 10. no: 4.
Humphrey, S. M., and Shneiderman, B. (1990). Abstract of Interest. ACM Press, New
York, NW, USA. vol: 21. issue: 4: pp: 71-78.
Jacobs, P. (2001). Natural Language Processing: A Brief History for Skeptics. Unisys
World. Austin.
Jerrams-Smith, J., Soh, V., and Callear D. (2001). Bridging Gaps in Computerized
Assessment of Texts. Proceedings of the International Conference on Advanced
Learning Technologies. 139-140. IEEE.
Kalt, T. F., and Croft, W. B. (1996). A New Probabilistic Model of Text Classification
And Retrieval. Technical Report IR-78. University of Massachusetts Center for
Intelligent Information Retrieval.
Kogut, D. J. (2002). Fuzzy Set Tagging. Institute of Computer Science, Warsaw
University of Technology. CICLing 2002. LNCS 2276. pp: 260-263.
Krippendorff, K. (1980). Content Analysis: An Introduction to Its Methodology. Sage
Publication.
Laham, D. and Foltz, P. W. (2000). The Intelligent Essay Assessor. In T. K. Landauer
(Ed.), IEEE Intelligent Systems.
Landauer, T. K., Foltz, P. W., and Laham D. (1998). An Introduction To Latent
Semantic Analysis. Discourse Processes. 25. 259-284.
151
Larkey, L. S. (1998). Automated Essay Grading Using Text Categorized Techniques. In
Porceedings of the 21st ACM/SIGIR (SIGIR-98). 90-96. ACM.
Larkey, L. and Croft, W. B. (1996). Combining Classifiers in Text Categorization.
Proceedings of SIGIR. 289-298.
Leacock, C. (2004). Scoring Free-Responses Automatically: A Case Study of a LargeScale Assessment. Examens. Educational Testing Service. 1(3).
Leacock, C. (2004). Statistical Analysis of Text in Educational Measurement. 7th
International Conference one the Textual Dated Statistical Analysis. Belgium,
pp. 35-41.
Lewis, D. D. (1992). An Evaluation of Phrasal and Clustered Representations on A Text
Categorization Task. In Fifteenth Annual International ACM SIGIR Conference
on Research and Development in Information Retrieval. pp 37–50.
Liang, J., and Palmer, J. D. (1994). A Pattern Matching and Clustering Based Approach
for Supporting Requirements Transformation. Center for Software Systems
Engineering. George Mason University.
Little, J. (2001). Computerized evaluation of essays. Term Paper, Expert Systems.
Lukasiewicz, J. (1930). Philosophical remarks on many-valued systems of propositional
logic. Reprinted in Selected Works,
L. Borowski, ed. (1997). Studies in Logic and the Foundations of Mathematics. NorthHolland, Amsterdam. pp. 153-179.
Mahir Publications, (1997). Koleksi Kertas UPSR Bahasa Malaysia.. Shah Alam: Mahir
Publications Sdn. Bhd.
152
MacDonald, N. H, Frase, L. T., Gingrich, P. A., and Keenan, S. A. (1982). The Writer’s
Workbench: Computer Aids for Text Analysis. IEEE Trans. Comm. Vol. COM30. No. 1. pp. 105-110.
Mason, O. and Grove-Stephenson, I. (2002). Automated free text marking with paperless
school. In M. Danson (Ed.), Proceedings of the Sixth Annual Computer Assisted
Assessment Conference. Loughborough University, Loughborough, UK.
McCallum, A., and Nigam, K. (1998). A Comparison of Event Models for Naive Bayes
Text Classification. The AAAI-98 Workshop on “Learning for Text
Categorization”.
Mikko Koivisto and Kismat Sood (2004). Exact Bayesian Structure in Bayesian
Networks. Journal of Machine Learning Research 5. 549-573.
Milenova, B. L., Yarmus, J. S., and Campos, M. M. (2005). SVM in oracle database
10g: removing the barriers to widespread adoption of support vector machines.
Proceedings of the 31st international conference on Very large data bases.
Trondheim, Norway. pp. 1152-1163.
Miltasakaki, E., and Kukich, K. (2000). Automated Evaluation of Coherence in Student
Essays. Proceedings LREC-200, Linguistic Resources in Education Conf.
Athens, Greece.
Ming, P. Y., Mikhailov, A. A., and Kuan, T. L. (2000). Intelligent essay marking system.
In C. Cheers (Ed.), Learners Together. NgeeANN Polythecnic, Singapore.
Mitchell, T., Russel, T., Broomhead, P., and Aldrigde N. (2002). Towards robust
computerized marking of free-text responses. In M. Danson (Ed.) Proceedings of
the Sixth Annual Computer Assisted Assessment Conference. Loughborough
University, Loughborough, UK.
153
Mohd. Isa Ab. Razak, (1988). Soalan Subjektif: Teknik Penggubalan dan Skema
Pemarkahan. Kertas kerja. Maktab Perguruan Raja Melewar, Seremban.
Mohd. Isa bin Abd. Razak. (2004). Esei Pedagogi Bahasa: Pemarkahan Karangan
Umum dan Karangan UPSR. Esei Pedagogi Bahasa.
Mokhtar Ismail. (1995). Penilaian di Bilik Darjah. Kuala Lumpur: Dewan Bahasa dan
Pustaka.
Negnevitsky, M. (2002). Artificial Intelligence: A guide to Intelligent Systems. AddisonWesley, Pearson Education. pp: 87-126.
Nichols, P. (2005). Evidence for the Interpretation and Use of Scores from an
Automated Essay Scorer. PEM Research Report 05-02.
Nowson, S., Oberlander, J., and Gill, A.J. (2005). Weblogs, Genres and Individual
Differences. In the proceedings of the 27th Annual Conference of the Cognitive
Science Society. Stresa, Italy.
Page, E. B. (1996). Grading Essay By Computer:Why The Controversy?. Handout for
NCME Invited Symposium.
Page, E. B. (1994). New Computer Grading Of Student Prose, Using Modern Concepts
And Software. Journal of Experimental Education. 62(2). 127-142.
Page, E. B., and Petersen. N. (1995). The Computer Moves Into Essay Grading:
Updating The Ancient Test. Phi Delta Kappan. 561-565.
Palmer, J., Williams. R., and Dreher H. (2002). Automated Essay Grading System
Applied To A First Year University Subject-How Can We Do It Better.
Proceedings of the Informing Science and IT Education (InSITE) Conference.
Cork, Ireland. 1221-1229.
154
Paul, N. B., Susan, T. D., and Eric, H. (2003). Inductive Transfer For Text Classification
Using Generalized Realibility Indicators. Proceedings of the ICML-2003
Workshop on The Continuum from Labeled to Unlabeled Data. Washigton DC.
Perez, D. (2004). Automatic Evaluation of User' S Shorts Essays by Using Statistical
and Shallow Natural Language Processing Techniques. Advanced Studies
Diploma Work.Universidad Autonoma of Madrid.
Raminah Haji Sabran, (1991). Penilaian dan Pengujian Bahasa Malaysia,
Penerapannya pada Peringkat Sekolah Rendah. Kuala Lumpur: Dewan Bahasa
dan Pustaka.
Ratnaparkhi, A. (1996). A Maximum Entropy Part-of-Speech Tagger. In Proceedings of
the Empirical Methods in Natural Language Processing Conference. University
of Pennsylvania.
Reid, D. B. (1979). An Algorithm for Tracking multiple Targets. IEEE Trans. Automat.
Contr. vol: AC-24. pp: 843-854.
Robert, M. L. (2000). Learning Syntactic Rules and Tags with Genetic Algorithms for
Information Retrieval and Filtering: An Empirical Basis for Grammatical Rules.
Information Processing and Management. 32(2). pp: 185-197.
Rudner, L. M., and Gange P. (2001). An overview of three Aproaches to Scoring Written
Essays by Computer. Assessment, Research and Evaluation, University of
Maryland, College Park. vol: 7(26).
Rudner, L. M., and Liang, T. (2002). Automated Essay Scoring Using Bayes’ Theorem.
The Journal of Technology, Learning and Assessment, Technology and
Assessment Study Collaborative, Lynch School of Education. Boston College.
1(2). 3-21.
155
Semire Dikli (2006). Automated Essay Scoring. Turkish Online Journal of Distance
Education-TOJDE. vol: 7. num: 1. art: 5.
Siegel, S., and Castellan, N. J. (1998). Nonparametric Statistics for the Behavioral
Sciences. McGraw-Hill.
Siti Zanariah Satari (2003). Multiple Linear Regression. Universiti Teknologi Malaysia:
Tesis Sarjana Muda.
Sullivan, W. G., and Daghestani, S F. (1997). Multivariate Analysis of Student
Performance in Large Engineering Economy Classes. Proceedings ASEE
Annual Conference and Exposition. Milwaukee, WI.
Szancewic, S., Zheng, L., Nystrom, N., and Myers, A. C. (2001). Untrusted Hosts and
Confidentiality: Secure Program Partitioning. Proceedings of the 18th ACM
Symposium on Operating System Principles (SOSP). Computer Science
Department. Cornell University.
Thompson, C. (2001). Can Computers Understand The Meaning Of Words? Maybe, In
The New On Latent Semantic Analysis. ROB Magazine.
Tony, T. (2004). A Short-Answer Evaluation System. School of Computer Science and
Software Engineering. Monash University.
Valenti, S., Cucchiarelli, A., and Panti M. (2000). Web Based Assessment Of Student
Learning. In A. Aggarwal (Ed.). Web-based Learning and Teaching
Technologies, Opportunities and Challenges. 175-197. Idea Group Publishing.
Valenti, S., Cucchiarelli, A., and Panti M. (2002). Computer Based Assessment Systems
Evaluation Via The ISO9126 Quality Model. Journal of Information Technology
Education. 1(3). 157-175.
156
Valenti, S., Neri, F., and Cucchiarelli, A. (2003). An Overview of Current Research on
Automated Essay Grading. Journal of Information Technology Education.
DIIGA – Universita’ Politecnica delle Marche. Ancona, Italy. vol: 2.
Wei Fan. (2005). Research Track Papers: Systematic Data Selection To Mine ConceptDrifting Data Streams. Proceedings of the tenth ACM SIGKDD international
conference on Knowledge discovery and data mining KDD '04. Seattle, WA,
USA.
Whittington, D. and Hunt, H. (1999). Approaches To The Computerized Assessment Of
Free Text Responses. In M. Danson (Ed.). Proceedings of the Sixth International
Computer Assissted Assessment Conference. Loughborough University, UK.
pp: 207-219.
Williams, R. (2001). Automated Essay Grading: An Evaluation Of Four Conceptual
Models. In A. Hermann and M. M. Kulski (eds). Expanding Horizons in
Teaching and Learning. Proceedings of the 10th Annual Teaching and Learning
Forum, Perth: Curtin University of Technology.
Yang, Y. (1997). An Evaluation Of Statistical Approaches To Text Categorization.
Technical Report CMU-CS-97-127. School of Computer Science. Carnegie
Mellon University.
Yi-fang Brook Wu and Xin Chen (2005). Assessing Student Learning With Automated
Text Processing Techniques, Journal of Asynchronous Learning Network. vol: 9,
issue: 3.
Zadeh, L. A. (1965). Fuzzy Sets. Information and Control. 8. 338-353.
157
Zhou, N. (2003). A Study on Automatic Ontology Mapping of Categorical Information.
Department of Geography, Land Information and Computer Graphic Facility,
University of Wisconsim – Madison.
CONTOH DATA PENGUJIAN
LAMPIRAN A
159
ESEI GRED A
Esei 1
Pada minggu yang lalu, sekolah kami telah mengadakan satu temasya sukan tahunan. Temasya sukan ini
telah diadakan di padang sekolah kami. Tujuannya adalah untuk memilih beberapa orang pelajar sebagai wakil
sekolah dan meningkatkan prestasi murid.
Seminggu sebelum temasya sukan ini, pelajar-pelajar diminta untuk membersihkan kawasan padang dan
mendirikan khemah-khemah mengikut rumah sukan. Guru-guru wanita diminta untuk menyusun hadiah-hadiah
seperti piala, pingat dan sijil mengikut kategori untuk para pelajar yang menjadi pemenang dalam sukan ini. Guruguru lelaki pula diminta untuk menyediakan alat-alat sukan. Mereka juga diminta untuk menghias khemah.
Temasya sukan ini telah dirasmikan oleh Guru Besar Sekolah Kebangsaan Semambu iaitu Tuan Haji Mohd
Tahir bin Abdul Hamik. Beberapa acara telah diadakan seperti acara lumba lari, lompat jauh, dan lain-lain lagi. Setiap
pelajar menyokong ahli kumpulan mereka untuk memberi semangat supaya tidak mengalah kepada pihak lawan.
Suasana menjadi riuh-rendah dengan sokongan para pelajar.
Setelah selesai kesemua acara, Guru Besar diminta untuk menyampaikan hadiah kepada para pemenang.
Beberapa orang murid telah diminta untuk naik ke pentas dan mengambil hadiah. Rumah Merah telah diisytiharkan
sebagai juara antara rumah sukan.
Selepas itu, semua pelajar dan guru ke kantin untuk menikmati juadah seperti nasi ayam, mi goreng dan
lain-lain. Semua pelajar berselera menikmati juadah yang telah dihidangkan. Walaupun mereka penat tetapi mereka
berpuas hati atas apa yang telah mereka lakukan di hari sukan itu. Saya berharap supaya sekolah ini mengadakan
sukan tahunan yang lebih meriah pada tahun hadapan.
Esei 2
Pada minggu yang lalu, Sekolah Kebangsaan Semambu telah mengadakan satu temasya sukan
tahunan. Temasya itu diadakan di padang sekolah. Objektif utama temasya ini diadakan adalah untuk
mencungkil bakat pelajar yang selama ini terpendam.
Sehari sebelum temasya sukan diadakan, guru-guru telah mendirikan khemah untuk setiap rumah
sukan. Para peserta juga telah diberikan latihan yang secukupnya. Murid-murid Tahun 6 juga telah
membantu guru-guru untuk membalut hadiah.
Temasya sukan ini dirasmikan oleh Guru Besar sekolah ini. Selepas itu, acara sukan pun
bermula. Pelbagai acara yang menarik telah dipertandingkan. Antaranya acara lumba lari, lontar peluru,
lompat jauh dan sebagainya.
Acara penyampaian hadiah pula menyusul selepas itu. Guru Besar telah menyampaikan hadiah
kepada para pemenang. Kebanyakan pemenang berasa gembira dan bangga di atas kejayaan masingmasing. Juara keseluruhan temasya sukan ialah Rumah Merah. Rumah Hijau pula telah mendapat tempat
kedua. Rumah Biru dan Kuning masing-masing mendapat tempat ketiga dan keempat.
Temasya sukan ini diakhiri dengan ucapan penutup oleh Guru Besar. Selepas itu, itu ibu bapa
telah diberikan jamuan ringan di kantin. Mereka telah dijamu dengan berbagai-bagai juadah yang lazat.
Guru Besar juga telah diberikan cenderamata sebagai tanda penghargaan. Selepas itu, ibubapa pulang ke
rumah bersama anak masing-masing.
Harapan saya ialah semoga temasya sukan seperti ini akan diadakan dengan meriah pada setiap
tahun.
160
Esei 3
Pada minggu yang lalu, sekolah kami telah mengadakan satu temasya sukan tahunan di Padang
Sekolah Kebangsaan Semambu. Acara sukan ini diadakan untuk mencungkil bakat para pelajar. Ia juga
diadakan untuk memilih wakil dari kalangan pelajar dalam pertandingan sukan atau sebagainya.
Beberapa hari sebelum tarikh peristiwa, semua guru bertungkus-lumus menyiapkan pentas,
padang dan sebagainya. Di atas pentas guru-guru sibuk menghiaskan pentas dengan bunga, reben dan lainlain. Di padang pula, guru-guru dan murid-murid sibuk menghiaskan khemah bagi rumah sukan.
Hari yang dinanti-nanti pula telah tiba, debaran peserta semakin kuat. Ramai ibu bapa hadir pada
hari tersebut. Ada guru-guru sibuk menyiapkan peserta. Sementara setengah guru yang lain sibuk melayan
tetamu. Akhirnya, acara yang dinanti telah tiba. Para tetamu memberikan tepukan gemuruh kepada semua
para peserta. Pelbagai acara diadakan antaranya lumba lari, lompat jauh dan sebagainya.
Keputusan yang telah ditunggu telah tiba. Pada tempat pertama, rumah sukan kuning telah
mengambil takhta. Manakala tempat kedua, rumah sukan biru dan tempat ketiga pula rumah sukan hijau.
Semua peserta bersorak kegembiraan. apabila guru mengumumkan keputusan tersebut.
Sebelum para tetamu pulang, pihak sekolah telah mengadakan jamuan ringan. Pihak sekolah
tertawa kecil apabila melihat semua tetamu makan dengan laju kerana lapar. Sebelum mereka pulang,
pihak sekolah juga telah memberikan sedikit buah tangan sebagai tanda penghargaan.
Kami berharap sekolah kami akan mengadakan sambutan yang lebih meriah dan lebih ramai
tetamu yang hadir untuk menyaksikan acara sukan tersebut.
Esei 4
Pada minggu yang lalu, Sekolah Kebangsaan Semambu telah mengadakan satu temasya sukan
tahunan di padang sekolah. Objektif mengadakan temasya sukan tahunan ini adalah untuk memilih
beberapa orang murid untuk dijadikan wakil sekolah.
Seminggu sebelum temasya sukan tahunan diadakan, semua pelajar dan guru membuat
persediaan. Persedian dibuat adalah untuk memastikan temasya sukan tahunan kali ini berjalan dengan
lancar dalam suasana yang meriah. Beberapa persediaan yang dibuat oleh guru-guru dan para pelajar cuma
mengambil masa selama 2-3 hari. Antaranya membungkus hadiah, mendirikan khemah, menghias khemah
dan sebagainya. Surat jemputan juga diedarkan kepada ibubapa.
Temasya sukan tahunan telah dirasmikan oleh Tuan Guru Besar Sekolah Kebangsaan Semambu
iaitu Tuan Haji Muhammad Tahir Bin Abdul Hamid. Setelah selesai pembukaan temasya sukan tahunan,
beberapa acara sukan diadakan. Antaranya lompat jauh, lontar peluru, lumba lari 4x100 meter dan
sebagainya.
Setelah selesai acara sukan tahunan, acara penyampaian hadiah telah diadakan. Tempat pertama
dalam acara sukan tahunan telah dimenangi oleh pasukan rumah merah. Mereka telah mendapat sebuah
piala dan hamper. Tempat kedua dimenangi oleh pasukan rumah hijau. Mereka mendapat sebuah piala dan
hamper. Tempat ketiga dimenangi oleh pasukan rumah biru. Mereka mendapat sebuah hamper. Tempat
keempat dimenangi oleh pasukan rumah kuning dan mereka mendapat sebuah hamper.
Selepas selesai acara penyampaian hadiah, semua ibubapa, guru dan pelajar yang hadir dijemput
ke kantin untuk meraikan jamuan ringan. Di kantin banyak makanan telah disediakan. Antaranya Nasi
Ayam, kuih-muih, Nasi Minyak dan sebagainya.
Orang ramai bersurai pada pukul 5.00 petang. Harapan saya ialah agar temasya sukan tahunan
pada tahun hadapan lebih meriah berbanding tahun sebelumnya.
161
Esei 5
Pada minggu lalu, sekolah kami mengadakan temasya sukan tahunan. Kami mengadakan
temasya sukan ini di padang sekolah. Tujuan temasya sukan ini diadakan ialah untuk mencungkil bakat
dan juga untuk memilih wakil sekolah.
Persedian awal, kami mendirikan khemah, membersihkan padang, dan guru perempuan
membalut hadiah untuk para pemenang.
Temasya ini dirasmikan oleh Guru Besar sekolah kami. Acara yang dijalankan sungguh menarik.
Antaranya lumba lari, lompat jauh, lontar peluru dan sebagainya.
Rumah hijau memenangi hadiah pertama, rumah merah memenangi hadiah kedua dan rumah biru
memenangi hadiah ketiga.
Selepas semua acara selesai, kami disediakan makanan ringan. Ramai murid letih setelah
menjalankan semua acara.
Kami harap sekolah kami akan mengadakan temasya sukan yang lebih meriah daripada tahun ini.
162
ESEI GRED B
Esei 1
Pada minggu yang lalu, sekolah saya telah mengadakan satu temasya sukan tahunan di Stadium
Darul Makmur Kuantan, Pahang. Tujuan mengadakan temasya ini ialah untuk menunjukkan bakat dan
kebolehan para pelajar untuk dijadikan wakil sekolah.
Persediaan telah dibuat sehari sebelum temasya diadakan. Antaranya ialah menjemput ibu bapa,
Pegawai Pendidikan dan Guru Besar, memasang renda-renda berwarna-warni, dan menyediakan pakaian
untuk perbarisan dan sebagainya.
Persediaan telah dilakukan dengan sebaik mungkin dan perjalanan berjalan seperti yang
dijanjikan. Perasmian telah diadakan dan dirasmikan oleh Pegawai Pendidikan Pahang dan acara berjalan
lancar.
Antara acara yang dipersembahkan ialah lari seratus meter, lari dalam guni dan perbarisan
daripada rumah merah, kuning, biru, dan hijau. Keputusan yang dibuat oleh juri hakim adalah sangat adil.
Rumah merah mendapat tempat pertama, hijau kedua, biru ketiga, dan kuning keempat. Jamuan
besar-besaran telah diadakan. Jamuan tersebut telah dianjurkan oleh sebuah restoran yang terkenal di
Pahang.
Harapan saya semoga yang tidak berjaya akan meningkatkan usaha manakala yang berjaya lebih
maju ke depan. Dan saya juga berharap agar sambutan temasya seperti ini akan diadakan lagi.
Esei 2
Pada hari Sabtu yang lalu, sekolah kami mengadakan Hari Temasya. Temasya sukan ini
berlangsung pada 23-4-2003. Tempat Temasya Sukan itu diadakan di padang sekolah.
Banyak ibu bapa yang datang di situ. Mereka dan guru-guru duduk di khemah manakala rakanrakan saya dan saya beratur di padang sekolah.
Kawan-kawan pun ada mengambil bahagian seperti,lompat tinggi, lompat jauh, lompat pagar,
larian 200m, 100m, dan 400m dan lontar peluru. Seperti mereka juga, saya pun mengambil bahagian
dalam 4x100m dan 100m.
Di situ juga, ada pelbagai rumah seperti rumah biru, hijau, kuning, dan merah. Saya dan kawankawan saya, rumah biru.
Acara telah berlangsung, pada puul 8.30 pagi. Acara itu dirasmikan oleh Perdana Menteri, Dr.
Dato’ Sri Abdullah Badawi. Temasya sukan dimulakan.
Dalam masa 4 jam, acara itu dihabiskan. Saya mendapat tempat pertama dalam larian 4x100m
dan 100m. Kawan-kawan saya mendapat tempat kedua. Saya menjadi olahragawati dan seorang budak
lelaki bernama Stephen menjadi olahragawan. Rumah Biru telah menjadi johan.
Perdana Menteri memberi piala untuk kami. Sekarang, saya mempunyai dua piala dalam
pertandingan itu. Akhirnya, majlis bersurai.
Walaupun kami letih, tetapi kami berasa sungguh gembira.
163
Esei 3
Pada 15 Februari 2004 yang lalu, Sekolah Kebangsaan Galing telah mengadakan temasya sukan
tahunan. Temasya sukan itu bermula pada pukul 10.00 pagi.
Sebelum itu, pelbagai persiapan telah diadakan. Murid yang menyertai temasya sukan itu, giat
berlatih.
Temasya sukan itu diadakan di padang sekolah. Di padang sekolah, khemah didirikan. Bendera
yang berwarna-warni turut dipasang di setiap penjuru padang.
Temasya sukan itu, dirasmikan oleh Guru Besar Sekolah Kebangsaan Galing. Semasa muridmurid sedang giat bertanding untuk menjadi juara, Guru Besar sekolah berkenaan memberikan semangat,
dengan bertepuk tangan dan melaungkan kata-kata semangat kepada mereka.
Temasya sukan itu berakhir pada pukul 2.00 petang. Rumah sukan yang menjadi juara, mendapat
piala dan hamper sumbangan Persatuan Ibu Bapa dan Guru. Temasya sukan tahunan pada tahun ini
disambut dengan meriah sekali.
Esei 4
Pada 11 Februari yang lalu, Sekolah Kebangsaan Galing telah mengadakan satu temasya sukan
tahunan.
70 murid terlibat dalam sukan ini. Cikgu Wan Salman adalah pembuka acara tahun ini.
Acara bermula pada pukul 9.00 pagi. Beberapa das tembakan dilepaskan ke atas langit. Majlis ini
dirasmikan oleh Guru Besar Sekolah Kebangsaan Galing.
Murid-murid dibahagikan kepada 4 kumpulan iaitu Rumah Hijau, Rumah Merah, Rumah Biru
dan Rumah Kuning. Terdapat pelbagai acara seperti lontar peluru, lompat jauh, lompat tinggi, larian 100
meter dan juga larian 200 meter.
Pada pukul 11.00 pagi, keputusan diumumkan. Rumah biru berjaya menjadi johan manakala
Rumah Kuning berjaya menjadi naib johan. Tepukan Gemuruh telah diberikan oleh para penonton.
Pada pukul 11.30 pagi, semua orang dihidangkan sedikit jamuan ringan. Majlis berakhir pada
pukul 12.30 tengah hari. Walaupun berasa letih tetapi semua orang berasa gembira.
Esei 5
Pada minggu lepas, sekolah saya telah mengadakan satu Temasya Sukan Tahunan pada. Sekolah
saya telah mengadakan Temasya Sukan Tahunan itu di De Rhu Beach Resort.
Temasya sukan itu dirasmikan oleh Pengerusi PIBG. Yang hadir di situ ialah ibu bapa dan guruguru. Temasya sukan itu bermula pada pukul 8.30 pagi.
Yang memasuki acara itu ialah murid tahap 1 dan tahap 2 sahaja. Ibu bapa turut hadir untuk
memberi dorongan untuk menang.
Antara acara yang disediakan ialah acara lumba lari, meniup belon, dan sebagainya. Rumah
merah, biru, hijau dan kuning memasuki acara lumba lari iaitu murid tahap 2.
164
Temasya sukan tahunan itu berhenti seketika untuk menjamu makanan ringan. Kemudian, setelah
habis menjamu makanan, temasya sukan itu disambung semula.
Acara lumba lari bagi tahap 2 dan 1 memenangi hadiah di tempat pertama. Ibu bapa turut
gembira. Murid tahap1 dan 2 yaiaitu Rumah Merah, Hijau, Kuning dan biru. Acara temasya itu tamat pada
pukul 12.30 pagi.
165
ESEI GRED C
Esei 1
Pada hari Sabtu yang lepas, Sekolah Kebangsaan Galing telah mengadakan Satu Temasya Sukan
Tahunan Stadium Darul Makmur. Sukan itu dirasmikan oleh Yang Dipertuan Agong Sultan Haji Ahmad
Shah.
Disana ramai orang yang datang terutamanya ialah ibu bapa, murid sekolah, guru-guru dan orang
awam yang melihat pertandingan itu. Acara-acara yang terdapat disana ialah lompat tinggi, lari 100 meter,
tarik tali san sebagainya. Sorakkan yang paling gemuruh sekali ialah acara memanjat tiang licin.
Acara bagi sekolah saya ialah lari 200 meter lelaki dan lompat pagar. Disana terdapat banyak
sekolah yang bertanding. Antaranya ialah Sek. Alor Akar, S.K Air Putih, S.K Pet Chai dan sebagainya.
Acara bagi sekolah saya ialah lari 100 meter lelaki. Disana terdapat ramai orang tinggi. Sekolah
saya menang dalam acara lari 100 meter perempuan. Sekolah saya mendapat tempat kedua.
Esei 2
Nama saya Nur Farhana Nadsrihan. Saya adalah selaku setiausaha kelab sukan. Pada hari Sabtu
lepas iaitu 14.2.2004 adalah Hari Temasya Sukan.
Pada pukul 8.00 pagi, ucapan perasmian dimulakan dengan ucapan Tuan Guru Besar, dan
seterusnya ialah Puan Halimaton. Semua murid dikehendaki berhimpun di tapak perhimpunan.
Pada hari itu juga, pihak sekolah menjemput seorang lelaki yang amat penting. Pada hari itu,
semua murid dan guru dikehendaki memakai baju Geep dan baju koko.
Selepas upacara perasmian, murid-murid dilepaskan ke padang untuk memulakan acara sukan.
Acara itu dimulakan dengan lumba lari, bola zig-zag, dan acara berikutnya.
Guru-guru juga dikehendaki membuat satu senaman setelah tamat acara sukan. Senaman itu
adalah untuk penghabisan acara.
Pada pukul 10.00, murid-murid dilepaskan untuk makan dan minum. Setelah pukul 11.00 muridmurid dikehendaki pulang ke rumah.
Esei 3
Pada minggu lepas, Sekolah Kebangsaan Galing telah mengadakan satu Temasya Sukan di
Stadium darul makmur. Pada masa itu, Guru Besar telah merasmikan upacara tersebut.
Beberapa orang murid telah menyertai sukan tersebut. Murid lelaki ada 12 orang menyertai
pelarian 4x100 meter, manakala murid perempuan 10 orang menyertai larian berpagar.
Pada mulanya, penari-penari di situ memulakan tarianya. Ramai ibu bapa menyaksikannya
dengan penuh semangat. Ramai orang datang dan sangat bising sekali.
Setelah selesai tariannya, para pelari telah bersedia untuk berlumba dengan murid sekolah lain.
Setelah selesai perlumbaan, semua murid dan guru-guru berehat dahulu. Sudah beberapa minit
penyelaras sukan telah memberi tahu rehatnya sudah habis. Semua orang murid telah menukar
pakaiannya.
166
Penyelaras sukan telah memanggil 10 orang pemenang dari Sekolah Kebangsaan Galing.
Pemenang tersebut telah mendapat pingat gangsa dan pingat emas. Pada masa itu, tamatlah temasya sukan
itu.
Esei 4
Pada hari Ahad, sekolah saya telah mengadakan Satu Temasya Sukan Tahunan. Tarikh Temasya
itu diadakan pada 15 Februari 2004. Tempat yang ditetapkan ialah di Stadium Darul Makmur Sukan itu
dirasmikan oleh yang dipertuan agong Sultan Haji Ahmad Shah.
Disana ramai orang yang datang terutamanya ialah Ibubapa, murid-murid sekolah, guru-guru dan
orang awam yang melihat pertandingan itu. Acara-acara yang terdapat disana ialah lompat tinggi, lompat
jauh, lari 100 meter, tarik tali dan sebagainya. Sorakkan yang paling gemuruh sekali ialah acara memanjat
tiang yang licin.
Acara bagi sekolah saya ialah lari 4x100 meter lelaki dan perempuan. Di sana banyak muridmurid dari sekolah lain seperti S.K baluk baru, S.K Tok Sira, S.K Air Putih, S.K Sentomes, S.K Galing,
S.K Pei Chai dan sebagainya.
Acara bagi saya ialah 4x100 meter lelaki. Di sana terdapat ramai yang yang tinggi. Sekolah saya
menang dalam acara 4x100 perempuan dan lelaki. Sekolah saya mendapat tempat ke Dua dalam Sukan
Tahunan ini.
Acara Sukan Tahunan itu telah pun tamat. Sekolah saya menjadikan naik johan. Tiba di sekolah
semua orang letih dan penat. Semua murid boleh berehat kerana amat penat.
Esei 5
Pada minggu yang lalu, sekolah saya telah mengadakan satu temaya sukan tahunan.
Guru-guru telah mengatur acara sukan. Antaranya ialah lumba lari, lompat tinggi, lompat jauh,
badminton, dan banyak lagi. Kebanyakan murid memasuki lumba lari dan badminton.
Pelbagai juadah yang disediakan secara percuma. Acara seperti lompat tinggi atau lumba lari
bermula pada pukul 9.30 pagi. Mereka semua akan berehat pada pukul 12.40 tengahari.
Murid-murid sungguh bersemangat untuk menjalani aktiviti-aktiviti tersebut. Semasa berehat,
mereka semua berasa berdebar-debar. Kini, mereka berasa sangat letih.
Selepas itu, acara penyampaian hadiah baru bermula. Hadiah-hadiah ini hanya dilayak oleh
mereka yang berjaya mendapat tempat pertama, kedua, dan ketiga.
Acara tamat pada pukul 2.00 petang. Murid-murid balik ke rumah masing-masing dengan
kepenatan tetapi gembira.
167
ESEI GRED D
Esei 1
Pada 14 Jan 2004 yang lalu Sekolah kami mengadaka temasnya sukan tahunan, kami berlawan
rumah-rumah sukan seperti rumah kuning rumah hijau rumah biru dan rumah merah.
Kami membuat acara lompat tinggi lompat jauh lumbalari 100 meter dan sebagainya ibubapa
saya pun pergi menengok saya membuat acara lumbalari 100 meter
Ibu bapa saya menyokong saya berlari sekuat-kuat hati Saya mendapat tempat yang pertama
acara ini dibuat tahun 4, 5, dan 6 Saya pulang dengan gembira.
Esei 2
14 Oktober 2002 Sekolah Kebangsaan Galing telah mengadakan temasya upacara Sukan
Tahunan minggu yang lalu. Setiausaha Kelab Sukan.
Sukan itu diadakan di Stadium shah alam. Pada pukul 7.56 hingga 3.45 upacara yang diadakan
ialah lumba lari, lumba beten, lompat tinggi, lompat jauh dan sebagainya.
Di sana ramai orang memasuki upacara lumba lari. Sambutan yang amat riuh-rendah saya
memasuki acara lompat tinggi.
Rakan-rakan saya memasuki pelbagai bagai upacara lompat tinggi di adakan selepas ini. Tibatiba ada seorang murid yang telah jatut di upacara lumba lari.
Ramai orang yang datang dekat untuk melihat budak yang jatuh itu. budak itu di bawa ke hospital
dan upacara itu di teruskan Saya telah mendapa tempat kedua.
pada pukul 2.00 penyampaian hadiah. Selepas penyampaian hadiah kami mendapat makanan free
dan minuman.
Esei 3
Pada minggu yang lalu sekolah kami telah mengadakan sukan tahunan di stadium Pahang. Kami
memasuki semua aktiviti yang akan dijalankan.
Aktiviti bagi rumah biru, merah, kuning dan hijau adalah sama sahaja. Bagi kecantikan rumah
dimenagi oleh rumah biru bagi johan manakala bagi tempat 2 rumah merah bagi ke 3 kuning bagi keempat
hijau.
Bagi olahragawan dan olahragawati di menangi oleh rumah biru dan merah. Pada penhujung
aktiviti ialah pennyampaian hadiah.
Pemenang bagi lumba lari x100 meter ialah Naim, dari rumah biru. Bagi lumpat tinggi pula
dimenangi oleh Harifah dari rumah biru.
Bagi Lontar peluru dimenangi oleh Diana dari rumah Kuning dan bagi lari x400 meter dimenangi
oleh Ijan dari rumah Hijau. Bagi pemenang seluruhnya ialah rumah biru. Sukan berjalan dengan lancar.
168
Esei 4
Pada hari Sabtu 14.2.2004 yang telah mengadakan Sukan Tahunan bertempat di Stadium Darul
Makmur. Antara perlawanan Sekolah Kebangsaan Galing dan Sekolah Kebangsaan Teruntum.
Pertandingan akan bermula dari 7.00 pagi hingga 12.00 petang. Pertandingan pun bermula dan
orang ramai mula bersorak. Pertandingan itu ialah 100x4km, 500x4km dan 1000x4km. 100x4km untuk
kategori perempuan.
Tuan Guru Besar Sekolah Kebangsaan Galing dan Sekolah Kebangsaan Teruntum juga bersorak
bagi sekolah mereka. Bagi murid Sekolah Kebangsaan Galing telah memecut jauh.
Akhirnya murid Sekolah Kebangsaan Galing menang dan olahragawan ialah Mohd Khalid dan
olahragawati ialah Fatimah bte Abdul Rahman.
Selepas diakhiri pemenang, persembahan pun bermula. Guru Besar Sekolah Kebangsaan Galing
dan guru-guru sangat gembira.
Esei 5
Rabu, 11 Febuari 2004 Sekolah Kebangsaan Semambu telah mengadakan sukan tahunan. Pada
tahun ini ia diadakan di Stadium Darul Makmur. Ramai peserta mengambil bahagian. Ramai penyokong
yang pergi menyaksikan sukan itu. Penyokong-penyokong terdiri daripada rumah merah, hijau, kuning
dan biru.
Acara yang diadakan adalah lompat jauh, lumba lari, lontar peluru dan lain-lain. Banyak gerai
dibuka untuk peserta. Acara lumba lari yang paling menarik. Dalam acara lompat jauh kurang peserta
yang mengambil bahagian. Acara lontar peluru orang besar sahaja yang mengambil bahagian.
Acara tambahan ialah perbarisan. perbarisan terdiri daripada rumah merah, hijau, kuning dan
biru. Perbarisan unit beruniform pun ada. Perbarisan unit beruniform terdiri dariPada Pengakap, PbSm,
Puteri Islam dan kedet remaja sekolah. Perbarisan yang paling baik adan kedet remaja sekolah.
Peserta yang mengambil bahagian akan diberi pingat. Pingat yang disediakan ialah emas, perat,
gangsa. Peserta pertama mendapat pingat emas, kedua perak dan ketiga gangsa. Pemenang pelumba lari
nombor satu mendapat pingat emas.
Pemenang saguhhati akan diberikan hamper. Bagi perbarisan juga mendapat hamper. Pemenang
pertama mendapat pingat emas dan hamper. Kesudahannya rumah merah mendapat tempat pertama.
169
ESEI GRED E
Esei 1
Pada Minggu lepas, Sekolah Semambu telah mengadakan satu tewasya sukan tahunan kali – 11.
Acara berlangsung di Stadium kuantan semua parah peserta mesti datang awal kerana upacara ini akan
Berlangsung pukul : 2.00 tengah hari.
Banyak acara dipertandingan seperti Lompat tinggi, Lari 100 meter, Lonta peluru dan Lain-Lain
lagi. Rumah yang bertanding ialah rumah Biru, rumah kuning, rumah hijau dan rumah merah.
Kesemua rumah ini akan bertanding 30 minit lagi, Semua ibu bapa boleh datang untuk
mentengokan acara ini.
Esei 2
Pada minggu yang lalu sekolah kami telah mengadakan sukan tahunan pada minggu yang lalu.
Sekolah kami telah melawan rumah-rumah. Iyatu rumah merah, kuning, biru, hijau.
Iyatu pada hari rabu pada 19-Mei-2003. rumah merah, kuning, biru, hijau telah melawan lompat
jauh iyatu rumah merah telah menang acara lompat jauh kedua kuning, ketiga hijau, keempat biru.
acara lumber lari iyatu rumah biru telah menang kedua merah ketiga hijau keempat kuning.
Esei 3
Sekolah galing mengadakan Sukan tahunan Pada 11 Februari 2004. Tamasya diadakan di sadium
darul makmur.
Di rasmikan oleh Guru besar Sekolah Galing menberi nasihat rajin dan Berjaya. Acara dimulai
dengan perbarisan dan bersemangat berwarna warni.
acara diPertandingkan ialah – 100m, 200m, 4x100, dan lompat jauh dan lompat tinggi. Hadiah
disampaikan oleh Guru Besar Sekolah Galing menberi Sukaneka untuk tahun 1,2 dan 3 bermain galat
tayar dan berlari dalam guni
hadiah disampaikan oleh guru besar Sekolah Galing untuk memberi hadiah kepada Rumah biru.
Tamat pada pukul 1.00 petang
170
Esei 4
Sabtu, 23/3/2004 - Pada minggu yang lalu Sekolah Kebangsaan Semambu mengadakan satu
temasya sukan yang meriah. Ibu bapa dijemput memasuki stadium untuk memberi sokogan kepada anak
mereka.
Semua pelumba lari bersedia untuk berlari ke karisan penamamat apabila satu das tembakan di
lepaskan para pelari bersemangat lari dan rumah biru memegi upacara 100 meter. Pada upacara kedua para
pelari rumah biru, hijau, kuning dan merah turut serata untuk memengi pingat emas apabila satu das
tembakan para pelari berkejar-kejar dan belumba untuk memenagi pinggat emas tetapi pada acara 200
meter rumah hijau telah menang.
Pada upacara, yang ketiga rumah biru, rumah hijau, rumah kuning dan rumah merah akan berlari
bila satu das tembakan dilepaskan di udara para pelari memecut ke hadapan memberi beton kepada kawan
selepas itu para pelari membawa beton untuk menuju ke garisan penamat kali ini rumah biru menang lagi.
Akhir sekali hadiah akan di sampaikan oleh tuan guru besar sekolah kebangsaan semambu
kepada murid yang memenagi hadih dan guru besar megucup kan tahniah.
Esei 5
Pada bulan 18 Mach di sekolah Kebangsaan galing mengadakan temasya sukan tahunan Sukan
itu diadakan di Padang Sekolah Kebangsaan Sukan itu mula pada pukul 8.00 pagi persete-persete itu
sudah bersedia sebelum acara di mulakan. Tuan guru besar menasihati kepada persete-persete acara sudah
bermula.
Acara mula pertama lumba lari 100km banyak persete selepas mula sukan kedua lompat tinggi
bermula banyak orang menang selepas itu mula sukan ketiga sukan lompat jauh banyak orang bermain
lompat jauh rumah hijau sagat bermain dengan baik perseta kumpulan hijau
Aharinya guru besar memberi hadiah aharinya kumpulan hijau menang kumpulan-kumpulan lain
mendapat hadia sahaya
CONTOH DATA LATIHAN
LAMPIRAN B
172
Fail ‘DataTrainF6-1-A1.dat’:
"pada"
"minggu"
"lalu"
"sekolah"
"kami"
"telah"
"mengadakan"
"temasya"
"yang"
"kali"
Fail ‘DataTrainF6-1-A2.dat’:
"mengadakan"
"pada"
"telah"
"yang"
"lalu"
"temasya"
"minggu"
"satu"
"sekolah"
"tarikh"
"kami"
"kali"
"bagi"
"iaitu"
"persatuan"
Fail ‘DataTrainF6-1-A3.dat’:
"mengadakan"
"pada"
"telah"
"yang"
"lalu"
"temasya"
"minggu"
"satu"
"sekolah"
"tarikh"
"kami"
"kali"
173
"bagi"
"iaitu"
"persatuan"
Fail ‘DataTrainF6-2-A2.dat’:
"mengadakan"
"pada"
"telah"
"yang"
"lalu"
"temasya"
"minggu"
"satu"
"sekolah"
"tarikh"
"kami"
"kali"
"bagi"
"iaitu"
"persatuan"
Fail ‘DataTrainF6-2-A3.dat’:
"di"
"diadakan"
"tempat"
"temasya"
"sekolah"
"ini"
"telah"
"kami"
"waktu"
"acara"
"mula"
"tarikh"
"dan"
Fail ‘DataTrainF6-3-A3.dat’:
"tujuan"
"kttunjuk"
"temasya"
"diadakan"
174
"penyebab"
"sebab"
"adalah"
"kthubung"
"sekolah"
"orang"
"para"
"dalam"
"bidang"
"kepada"
"kalangan"
"juga"
"utama"
"keadaan"
"terpendam"
"beberapa"
"boleh"
"datang"
"hari"
"ada"
"sebagai"
"selama"
"segala"
"otot"
"baru"
"sebagainya"
"lebih"
"mendalam"
"agar"
"diri"
"persatuan"
"berlatih"
"merawat"
"luka"
"sakit"
"menyaksikan"
"dua"
"daerah"
"dari"
"anak"
"belajar"
"sungguh"
"sahaja"
"kokurikulum"
175
Fail ‘DataTrainF6-4-A2.dat’:
"khubung"
"knama"
"temasya"
"kkerja"
"untuk"
"waktu"
"objek"
"kbilangan"
"sebagainya"
"kawal"
"ialah"
"pula"
"persediaan"
"jenis_acara"
"kttunjuk"
"penjodohbil"
"seperti"
"tempat"
"perlu"
"acara"
"ada"
"tempoh"
"karah"
"kpenguat"
"ksifat"
"sekeliling"
"kumpulan"
"kganti"
"jauh"
Fail ‘DataTrainF6-4-A3.dat’:
"khubung"
"knama"
"temasya"
"waktu"
"kkerja"
"untuk"
"kawal"
"objek"
"sebagainya"
"kbilangan"
"persediaan"
"pula"
176
"kttunjuk"
"tempat"
"ialah"
"seperti"
"kpenguat"
"tempoh"
"ada"
"karah"
"perlu"
"ksifat"
"sekeliling"
"kganti"
"penjodohbil"
"jenis_acara"
Fail ‘DataTrainF6-5-A2.dat’:
"untuk"
"rasmi"
"temasya"
"kttunjuk"
"waktu"
"acara"
"objek"
"knama"
"khubung"
"kawal"
"kganti"
"jam"
"ialah"
"kkerja"
"tempoh"
"pula"
"ksifat"
"peristiwa"
Fail ‘DataTrainF6-5-A3.dat’:
"untuk"
"rasmi"
"temasya"
"waktu"
"kttunjuk"
"khubung"
"acara"
177
"knama"
"objek"
"kganti"
"kkerja"
"kawal"
"ialah"
"jam"
"kedudukan"
"ksifat"
"tempoh"
"kbilangan"
"pula"
"peristiwa"
Fail ‘DataTrainF6-6-A2.dat’:
"hadirin"
"khubung"
"ramai"
"hadir"
"ktunjuk"
"tujuan"
"di"
"peristiwa"
"knama"
"kkerja"
"kpenguat"
"kganti"
"kbilangan"
"ialah"
"kawal"
"kpenerang"
"tempoh"
"kkala"
"masa"
"termasuklah"
"ksetuju"
Fail ‘DataTrainF6-6-A3.dat’:
"hadirin"
"ramai"
"hadir"
"khubung"
"di"
178
"ktunjuk"
"peristiwa"
"tujuan"
"kkerja"
"kpenguat"
"tempoh"
"kganti"
"knama"
"kbilangan"
"ialah"
"kkala"
"masa"
"termasuklah"
"ksetuju"
"kawal"
"kpenerang"
"ksendi"
Fail ‘DataTrainF6-7-A2.dat’:
"ksifat"
"hadirin"
"khubung"
"dengan"
"jamu"
"ksendi"
"tempoh"
"jamuan"
"kbilangan"
"knama"
"ktunjuk"
"waktu"
"kkerja"
"peristiwa"
"ktugas"
"kganti"
"kpenegas"
"jemput"
"karah"
"pula"
"secara"
Fail ‘DataTrainF6-7-A3.dat’:
"ksifat"
179
"hadirin"
"khubung"
"tempoh"
"ksendi"
"jamu"
"dengan"
"ktunjuk"
"jamuan"
"knama"
"kbilangan"
"waktu"
"kkerja"
"peristiwa"
"ktugas"
"karah"
"kganti"
"kpenegas"
"perlu"
"pula"
Fail ‘DataTrainF6-8-A2.dat’:
"jenis_acara"
"khubung"
"acara"
"seperti"
"pelbagai"
"kpenegas"
"sebagainya"
"ksendi"
"diadakan"
"terdapat"
"knama"
"ktunjuk"
"telah"
"kpemeri"
"kkerja"
"termasuklah"
Fail ‘DataTrainF6-8-A3.dat’:
"khubung"
"acara"
"jenis_acara"
"pelbagai"
180
"seperti"
"ksendi"
"diadakan"
"knama"
"kpenegas"
"terdapat"
"telah"
"ktunjuk"
"tahun_pelajar"
"tujuan_temasya"
"kbilangan"
"temasya"
"kpemeri"
Fail ‘DataTrainF6-9-A2.dat’:
"rumah_sukan"
"knama"
"ialah"
"telah"
"juara"
"temasya"
"diisytiharkan"
"khubung"
"oleh"
"ksendi"
"kkerja"
"kbilangan"
"ktugas"
"markah"
"karah"
"ktunjuk"
"sebagai"
"ksifat"
"kganti"
"kpenguat"
Fail ‘DataTrainF6-9-A3.dat’:
"rumah_sukan"
"knama"
"ialah"
"telah"
"juara"
"temasya"
181
"diisytiharkan"
"khubung"
"oleh"
"ksendi"
"kkerja"
"kbilangan"
"ktugas"
"markah"
"karah"
"ktunjuk"
"sebagai"
"ksifat"
"kganti"
"kpenguat"
Fail ‘DataTrainF6-10-A1.dat’:
"sukan"
"tahun"
"ksendi"
"ktunjuk"
"berharap"
"lebih"
"saya"
"baik"
"pada"
"yang"
"mengadakan"
"kpenegas"
"agar"
"sekolah"
"khubung"
"hadapan"
"karah"
"ktugas"
"ialah"
"knama"
"kbilangan"
"tetamu"
"hadir"
"kkerja"
"kpenguat"
"ksifat"
Fail ‘DataTrainF6-10-A2.dat’:
182
"sukan"
"ksendi"
"tahun"
"ktunjuk"
"lebih"
"saya"
"berharap"
"yang"
"baik"
"pada"
"mengadakan"
"kpenegas"
"agar"
"sekolah"
"karah"
"khubung"
"hadapan"
"ktugas"
"ialah"
"knama"
"kbilangan"
"tetamu"
"hadir"
"kkerja"
"knafi"
"kpenguat"
"ksifat"
Fail ‘DataTrainF6-10-A3.dat’:
"sukan"
"ksendi"
"tahun"
"ktunjuk"
"lebih"
"saya"
"berharap"
"yang"
"baik"
"pada"
"mengadakan"
"kpenegas"
"agar"
"sekolah"
"karah"
183
"khubung"
"hadapan"
"ktugas"
"ialah"
"knama"
"kbilangan"
"tetamu"
"hadir"
"kkerja"
"knafi"
"kpenguat"
"ksifat"
SKEMA PENILAIAN ESEI UPSR
LAMPIRAN C
185
Pemberian Markah
Setelah membaca karangan itu sekali lalu, tetapkan peringkat yang sesuai berdasarkan
peringkat-peringkat di bawah ini.
Peringkat A (75--100 markah)
Takrif terhadap tajuk karangan yang dipilih tepat. Bahasa lancar dan bersih daripada
kesalahan tatabahasa: struktur ayat, imbuhan, perenggan, tanda baca, peribahasa dan lainlain. Susuk ayat beragam dan penggunaan perbendaharaan katanya luas dan tepat. Isinya
cukup dan berkembang, lengkap dengan contoh-contoh yang sesuai. Pengolahannya
sangat menarik dan berkesan. Hujah-hujahnya sangat logik dan memperlihatkan ciri-ciri
kematangan fikiran yang tinggi.
Peringkat B (60--74 markah)
Takrif terhadap tajuk karangan yang dipilih masih lagi tepat. Bahasa memuaskan.
Keragaman susuk ayat kurang sedikit. Perbendaharaan katanya sederhana. Isinya cukup
dan pengolahannya agak menarik. Terdapat juga ciri-ciri kematangan fikiran dalam
penulisannya.
Peringkat C (40--59 markah)
Takrif terhadap tajuk karangan yang dipilih kurang tepat. Ada kesalahan tatabahasa tetapi
dapat dimaafkan. Tidak menunjukkan keanekaragaman susuk ayat. Perbendaharaan
katanya terhad, mudah dan kurang tepat. Isinya kurang: ada yang cocok, ada yang tidak
sesuai. Pengolahannya kadang kala kabur.
Peringkat D (20--39 markah)
Tajuk karangan kurang difahami. Terdapat kesilapan tatabahasa yang tidak boleh
dimaafkan. Susunan bahasanya membayangkan penguasaan bahasa yang kurang mantap.
Perbendaharaan katanya tidak tepat. Pengolahan dan penyusunannya agak lemah dan
tidak teratur. Isinya sipi.
Peringkat E (1--19 markah)
Tajuk karangan tidak difahami langsung. Penguasaan bahasanya lemah. Struktur ayat
berkecamuk. Olahannya mengelirukan dan sukar difahami. Perbendaharaan katanya
salah. Isinya terpesong.
OLAHAN
SKALA PANDUAN MARKAH GAYA
LAMPIRAN D
187
TEKNIK ELEKTIK
Teknik Global 30 Mata untuk Gaya Olahan
Bagi kesalahan ayat, frasa dan perkataan: tandakan dengan garisan di bawah kesalahan
berkenaan. Bagi kesalahan isi, tandakan dengan kurungan. Bagi kesalahan ejaan:
tandakan dengan satu garis miring ke kanan (back slash). Bagi kesalahan ejaan yang
sama, tandakan dengan dua garis miring ke kanan. Bagi kesalahan tanda bacaan:
tandakan dengan bulatan. Potong ½ markah bagi tiap-tiap kesalahan ejaan. Markah tidak
dipotong bagi kesalahan yang berulang (dua palang). Potongan maksimum kesalahan
ejaan ialah dua markah. Tulis markah yang telah dipertimbangkan di sebelah kanan
bahagian bawah karangan seperti contoh di bawah ini:
Peringkat A (25--30 markah)
Takrif terhadap tajuk esei tepat dan bahasa lancar. Tiada kesalahan tatabahasa. Susuk
ayat beragam. Penggunaan perbendaharaan katanya luas dan tepat. Pengolahannya sangat
menarik dan berkesan. Hujah-hujahnya sangat lojis dan memperlihatkan ciri-ciri
kematangan fikiran yang tinggi.
Peringkat B (19--24 markah)
Takrif terhadap tajuk esei masih lagi tepat. Bahasanya memuaskan. Keragaman susuk
ayat kurang sedikit. Perbendaharaan katanya agak sederhana. Pengolahannya agak
menarik. Terdapat juga ciri-ciri kematangan fikiran dalam penulisannya.
Peringkat C (13--18 markah)
Takrif terhadap tajuk esei kurang tepat. Terdapat kesalahan tatabahasa--dapat dimaafkan.
Tidak menunjukkan keanekaragaman susuk ayat. Perbendaharaan katanya terhad, mudah
dan kurang tepat. Pengolahannya kadang kala kabur.
Peringkat D (7--12 markah)
Tajuk esei kurang difahami. Terdapat kesilapan tatabahasa yang tidak boleh dimaafkan.
Susunan bahasanya membayangkan penguasaan bahasa yang kurang cekap.
Perbendaharaan katanya tidak tepat. Pengolahan dan penyusunannya agak lemah dan
kurang teratur.
Peringkat E (1--6 markah)
Tajuk esei tidak difahami langsung. Penguasaan bahasanya lemah. Struktur ayat
berkecamuk. Olahannya mengelirukan dan sukar difahami. Perbendaharaan katanya
salah.
UNTUK PENILAIAN ESEI
SENARAI KESELURUHAN CIRI
LAMPIRAN E
189
Tatabahasa
Perbendaharaan Kata
Gaya
fragmen
ayat terlalu banyak (run-on)
ayat yang berbelit
kesesuaian subjek-kata kerja
ralat kata nama
ralat kata ganti nama
ralat kata milik
ralat atau tertinggal perkataan
pengesahan (proofread this)
ralat sususan kata kerja
kata kerja bantu
klausa subordinat (kerja)
klausa relatif
bilangan klausa pelengkap
bilangan klausa subordinat
bilangan klausa infinitif
kewujudan kata kerja bantu
bilangan kata yang tidak dikenali
bilangan ayat ringkas
bilangan ayat sederhana
bilangan ayat kompleks
nisbah ayat ringkas
nisbah ayat sederhana
nisbah ayat kompleks
jenis klausa hubung
salah artikel
tertinggal artikel
perkataan mengelirukan
bentuk perkataan yang salah
ralat perbandingan
ralat kata hadapan
bentuk perkataan atau kata nama yang tak-piawai
ralat penggunaan kata
penggunaan kata kerja bantu
ejaan
penggunaan huruf besar bagi kata nama dengan tepat
tertinggal huruf besar bagi huruf pertama dalam ayat
ralat imbuhan
tertinggal tanda baca
tertinggal apostrophe
tertinggal koma
ralat tanda sengkang
kata ganda (gabung kata)
kata majmuk
kata pendua
190
Struktur Ayat
Oganisasi &
Pembangunan
Kekompleksan Leksikal
Olahan
Panjang esei
perkataan berulang
kata atau frasa yang tidak sesuai
terlalu banyak ayat bermula dengan kata hubung yang
sama
terlalu banyak ayat pendek
terlalu banyak ayat panjang
ragam pasif
purata panjang ayat
ralat tipografi (gaya, bentuk, susunan, rupa)
elemen hujahan
purata panjang elemen hujahan (AEL)
bilangan perenggan
permulaan argumen: klausa pelengkap
pembangunan argumen: kata tanya retorik
pembangunan argumen: kata pembuktian
jenis/token
peringkat perbendaharaan kata
purata panjang perkataan (AWL)
sisihan piawai panjang perkataan
kandungan esei (EC)
kandungan argument (AC)
panjang esei (EL)
Download