Professional Documents
Culture Documents
azizi/092008
OBJEKTIF
Diakhir tajuk ini, anda seharusnya dapat: 1. membina dan menilai soalan berdasarkan Indeks Kesukaran; 2. membina dan menilai soalan berdasarkan Indeks Diskriminasi; 3. membina dan menilai soalan berdasarkan Kebolehpercayaan Ujian; dan 4. membina dan menilai soalan berdasarkan Kesahan Ujian.
azizi/092008 2
azizi/092008
Analisis item dan ujian perlu dibuat untuk memastikan item/soalan dan ujian yang dihasilkan itu sesuai digunakan. Analisis item membolehkan anda menilai kesesuaian item tersebut dari segi kesukarannya, iaitu sama ada item tersebut terlalu mudah atau terlalu sukar bagi sesuatu kumpulan pelajar. Analisis item juga dapat menunjukkan keupayaan sesuatu item itu mengasingkan pelajar pandai daripada pelajar lemah. Analisis item, anda digalakkan membuat analisis ujian (satu set item yang dibina) untuk menentukan darjah ketekalan ukuran yang dihasilkan oleh ujian tersebut dan juga apakah sebenarnya yang diukur oleh ujian ini. Analisis-analisis ini akan menghasilkan pekali/indeks yang dinamakan Indeks Kesukaran Item, Indeks Diskriminasi Item, Indeks Kebolehpercayaan, Ujian dan Indeks Kesahan Ujian.
Analisis-analisis ini perlu dilakukan supaya ujian yang dihasilkan adalah sesuai/sah bagi sesuatu tujuan tertentu.
azizi/092008
indeks kesukaran item (item difficulty index) (p). menunjukkan aras kesukaran sesuatu item, iaitu sama ada sesuatu item itu mudah dijawab atau susah dijawab. Bagi ujian berbentuk objektif (betul/salah, isi tempat kosong, padanan, beraneka pilihan), indeks ini dikira denganmenggunakan nisbah bilangan calon yang memberi jawapan betul bagi item tertentu kepada jumlah calon yang menjawab item tersebut.
azizi/092008
Satu soalan dapat dijawab dengan betul oleh 30 orang pelajar daripada
sejumlah 40 orang pelajar yang menjawab soalan tersebut. Nilai p bagi soalan ini ialah 30/40 = 0.75.
azizi/092008
azizi/092008
azizi/092008
Bagi ujian objektif, indeks kesukaran menggambarkan peratusan pelajar yang menjawab sesuatu item dengan betul. Lagi tinggi peratusan pelajar menjawab sesuatu item dengan betul, lagi mudahlah item tersebut (Wood, 1960). Item yang dijawab dengan betul oleh 85% , pelajar akan mempunyai nilai p = 0.85, manakala item yang dijawab dengan betul oleh 50% pelajar akan mempunyai nilai p = 0.50. Sebaliknya, indeks kesukaran item boleh memberi jangkaan peratus pelajar yang dapat menjawab item tersebut dengan betul. Misalnya, jika indeks kesukaran bagi sesuatu item ialah 0.65, ini bermakna 65% pelajar akan dapat menjawab item tersebut dengan betul.
azizi/092008 9
Bagi item subjektif (esei); yang markahnya mengambil nilai 0, 1, 2, 3, ; indeks kesukarannya boleh dikira sebagai nisbah markah purata (markah min) kepada julat markah penuh seperti berikut (Nitko, 2004: 317):
azizi/092008
10
Contoh:
suatu item ujian esei berjawapan pendek diberi markah minimum 0 dan maksimum 10. Sepuluh (10) orang pelajar (P) telah menjawab soalan ini dan mendapat markah seperti dalam jadual di bawah. Jumlah markah bagi 10 orang pelajar ialah 63.0.
azizi/092008
11
azizi/092008
12
azizi/092008
14
Item/soalan yang baik akan dapat membezakan/mendiskriminasikan antara mereka yang berkeupayaan rendah dan yang berkeupayaan tinggi. Indeks yang diguna untuk menentukan perbezaan keupayaan pelajar ini ialah indeks diskriminasi item. Mehrens & Lehmann, (1991)
azizi/092008
15
Langkah Indeks Diskriminasi (1) Membahagikan pelajar kepada tiga (3) kumpulan, iaitu pelajar berpencapaian rendah (27% pelajar berpencapaian terrendah), pelajar berpencapaian sederhana (46% pelajar berpencapaian antara terendah dan tertinggi) dan pelajar berpencapaian tinggi (27% pelajar berpencapaian tertinggi). (2) Mengira bilangan pelajar yang menjawab dengan betul di kalangan pelajar berpencapaian rendah (RL Right Lower), bilangan pelajar yang menjawab dengan betul di kalangan pelajar berpencapaian tinggi (RU Right Upper) dan jumlah pelajar berpencapaian rendah dan tinggi (T(L+U) Total).
azizi/092008 16
Indeks Diskriminasi boleh dikira dengan membahagikan perbezaan (RU RL) dengan separuh T(L+U) seperti berikut:
azizi/092008
17
Contoh, andaikan seramai 200 orang pelajar menjawab soalan tertentu. Setelah 54 orang (27% daripada 200) pelajar berpencapaian tinggi dikenalpasti, didapati 45 orang daripada mereka dapat menjawab soalan tersebut dengan betul (RU = 45). Seterusnya, daripada 54 orang pelajar berpencapaian rendah, seramai 15 orang dapat menjawab dengan betul (RL = 15). Dalam contoh ini, jumlah pelajar berpencapaian rendah dan tinggi ialah 108 orang (T(L+U) = 54 + 54 = 108).
azizi/092008 18
azizi/092008
19
azizi/092008
20
Soalan-soalan yang dibina oleh guru hanya mempunyai Indeks Kesukaran antara 0.00 hingga 0.50. [Hanna dan Dettmer (2004: 252) ] Indeks Diskriminasi untuk soalan-soalan ujian di bilik darjah perlu melebihi 0.20, sekiranya pencapaian pelajar dibahagikan kepada dua (separuh berpencapaian rendah, separuh berpencapaian tinggi). Indeks ini sepatutnya lebih tinggi daripada 0.20, sekiranya pelajar dibahagikan kepada 27% berpencapaian rendah dan 27% berpencapaian tingggi. [Mehrens dan Lehmann (1991) ] Item yang boleh dipilih untuk sesuatu ujian hendaklah mempunyai Indeks Diskriminasi melebihi 0.30. [Nitko (2004: 323) ] Justeru, sebagai kesimpulan, item/soalan yang baik untuk sesuatu ujian perlu mempunyai Indeks Diskriminasi melebihi 0.30.
azizi/092008 21
azizi/092008
22
KEBOLEHPERCAYAAN UJIAN
Kebolehpercayaan (reliability) sesuatu alat ukuran bermaksud ketekalan ukuranukuran (consistency of measures) yang dihasilkan oleh alat tersebut (Hanna & Dettmer, 2004). Justeru, kebolehpercayaan ujian bermaksud ketekalan markah-markah yang dihasilkan oleh ujian tersebut.
azizi/092008
23
Darjah ketekalan ukuran-ukuran boleh ditentukan dalam pelbagai keadaan, misalnya, apabila ujian yang sama diambil oleh pelajar kali kedua, ujian yang sama ditadbirkan oleh guru lain, ujian yang sama diambil oleh pelajar pada waktu yang berbeza (pagi/petang), jawapan kepada ujian yang sama diperiksa oleh pemeriksa yang berbeza. Ujian yang baik/sesuai adalah ujian yang mempunyai darjah ketekalan (degree of consistency) yang tinggi, iaitu markah/skor yang dihasilkan adalah hampir sama dalam apa jua keadaan.
azizi/092008 24
Indeks Kebolehpercayaan pekali/indeks kebolehpercayaan boleh dikira/dianggar (compute/estimate) dengan menggunakan pekali korelasi antara dua (2) ukuran yang boleh dikira menggunakan pelbagai kaedah. Julat pekali korelasi, julat indeks kebolehpercayan juga adalah antara -1.00 hingga + 1.00. Indeks kebolehpercayaan negatif menunjukkan ketekalan yang songsang, iaitu pelajar yang mendapat skor tinggi dalam ujian kali pertama akan mendapat skor yang rendah dalam ujian kali kedua, dan sebaliknya. Kebiasaannya indeks kebolehpercayaan bernilai positif, dan bagi kebanyakan ujian, indeks antara 0.65 dan 0.85 adalah memadai
azizi/092008
25
azizi/092008
26
azizi/092008
27
Ukuran Kestabilan
Ukuran Kestabilan, yang juga dipanggil anggaran kebolehpercayaan uji-uji semula (test-restest estimate of reliability) boleh dikira dengan memberikan ujian yang sama sekali lagi kepada kumpulan pelajar yang sama selepas ujian pertama ditadbirkan, dan seterusnya, mengira pekali korelasi Pearson antara dua/pasangan skor yang diperoleh setiap pelajar.
azizi/092008 28
di mana: ialah jumlah, xi ialah skor ujian kali pertama, yi ialah ujian kali kedua, x ialah min skor ujian kali pertama, y ialah min skor ujian kali kedua, n ialah bilangan pelajar, sx ialah sisihan piawai skor ujian kali pertama dan sy ialah sisihan piawai skor ujian kali kedua.
azizi/092008
29
Ukuran Kesetaraan
Ukuran Kesetaraan [atau Ukuran Keselarian (parallel)] dikira dengan memberikan dua (2) ujian yang berbeza tapi setara (kesamaan dari segi kandungan, Jadual Spesifikasi Ujian, format soalan dan arahan menjawab serta min, varians dan interkorelasi skor) kepada kumpulan pelajar dan hari yang sama, dan seterusnya, mengira pekali korelasi Pearson antara dua/pasangan skor yang diperoleh setiap pelajar.
azizi/092008 30
Ukuran Kesetaraan dan Kestabilan Ukuran Kesetaraan dan Kestabilan ini akan memberikan tahap keyakinan kepada kita untuk membuat generalisasi skor yang akan diperoleh pelajar, sekiranya mereka diberi ujian yang setara pada masa yang berlainan. Ujian jenis ini akan menghapuskan kesan hafalan jawapan atau kesan latih-tubi soalan ujian pertama terhadap jawapan ujian kedua, di samping menilai pencapaian pelajar selepas jangka masa yang panjang
azizi/092008 31
Ukuran Ketekalan Dalaman Belah-Dua ini adalah hampir sama dengan Ukuran Ketekalan Kesetaraan, yang menggambarkan kesetaraan antara dua ujian yang berbeza. Kaedah-kaedah lain yang digunakan untuk mengukur ketekalan dalam ujian ialah kaedah Kuder-Richardson dan kaedah Cronbach. Kedua-dua kaedah ini juga menggunakan sekali ujian sahaja dan ukuran ketekalan dalamannya menggambarkan darjah keseragaman (homogeneity) antara item dalam sesuatu ujian, iaitu menunjukkan hubungan/korelasi antara setiap item dengan jumlah skor ujian (Mehrens & Lehmann,1991).
azizi/092008 32
Ukuran Ketekalan Dalaman Belah-Dua (r ) boleh dikira dengan menggunakan korelasi Pearson (r) antara skor pelajar bagi separuh pertama ujian dengan skor pelajar bagi separuh kedua ujian, yang boleh dikira menggunakan rumus berikut:
azizi/092008
33
di mana: ialah jumlah, xi ialah skor separuh pertama ujian, yi ialah skor separuh kedua ujian; x ialah min skor separuh pertama ujian, y ialah min skor separuh kedua ujian; n ialah bilangan pelajar, sx ialah sisihan piawai skor separuh pertama ujian dan syialah sisihan piawai skor separuh kedua ujian.
azizi/092008
34
Kaedah Kuder-Richardson
Dua (2) kaedah Kuder-Richardson yang digunakan untuk mengira Ukuran Ketekalan Dalaman bagi item yang berjawapan dikotomi (betul/salah), iaitu K-R 20 dan K-R 21. K-R 20 digunakan sekiranya Indeks Kesukaran Item (p) berbeza bagi semua item, dan K-R 21 digunakan sekiranya indeks ini sama bagi semua item. Bagaimanapun, rumus K-R 21 adalah lebih mudah digunakan oleh guru disebabkan rumus ini tidak memerlukan banyak pengiraan
azizi/092008 35
Kaedah Kuder-Richardson
di mana: k ialah bilangan item dalam ujian, p ialah kadar pelajar yang menjawab item dengan betul (Indeks Kesukaran Item), q ialah kadar pelajar yang salah menjawab item (q= 1-p, pq adalah varians skor item), x ialah min skor keseluruhanitem dan Sx2 ialah ialah variance skor keseluruhan ujian.
azizi/092008
36
Kaedah Cronbach Cronbach (1951) telah menggunakan pekali alfa sebagai Ukuran Ketekalan Dalaman. Kaedah ini ialah lanjutan kepada K-R 20 bagi item-item yang bukan berjawapan dikotomi. Rumus bagi pekali alfa adalah sama seperti rumus bagi K-R 20, kecuali pq diganti dengan Si2, iaitu varians bagi skor item. Pekali alfa adalah amat berguna bagi item yang bukan berjawapan dikotomi, terutama item berbentuk esei yang markahnya boleh merangkumi julat nilai yang besar
azizi/092008 37
Kebolehpercayaan Pemeriksa
Kebolehpercayaan pemeriksa bermaksud ketekalan ukuran/skor yang diberikan oleh dua atau lebih pemeriksa apabila memeriksa kertas jawapan yang sama. Kebolehpercayaan ini tidak diperlukan bagi ujian berbentuk objektif, sebab jawapan kepada setiap soalan dalam ujian bentuk ini adalah sama, iaitu perbezaan skor antara pemeriksa tidak wujud (biasanya jawapan diperiksa oleh komputer sahaja).
azizi/092008 38
azizi/092008
39
KESAHAN UJIAN
Kesahan sesuatu alat ukuran bermaksud sejauh mana alat tersebut dapat mengukur apa yang sepatutnya diukur oleh alat tersebut (Hanna & Dettmer, 2004). Justeru, ciri kesahan bagi sesuatu alat ukuran adalah amat penting supaya alat ukuran tersebut dapat mengukur apa yang hendak diukur.
azizi/092008 40
Misalnya, sesuatu alat yang dibina untuk mengukur sikap, hendaklah berupaya mengukur sikap, dan bukannya konstruk lain, seperti minat atau motivasi.
Perlu diingatkan bahawa sesuatu alat ukuran itu tidak semestinya memiliki kesahan untuk semua tujuan, tetapi memiliki kesahan untuk tujuan tertentu sahaja. Contohnya, ujian yang digunakan untuk tujuan diagnosis adalah tidak sah digunakan untuk tujuan penggredan.
Dalam bidang bahasa, misalnya, ujian ejaan hanyalah sah, sekiranya ia benar-benar dapat mengukur kebolehan mengeja; begitu juga ujian mendengar hanyalah sah, sekiranya ia dapat mengukur kemahiran mendengar.
azizi/092008 41
Jenis Kesahan
azizi/092008
42
Kesahan Kandungan
Kesahan kandungan merujuk kepada sejauh mana sesuatu alat ukuran itu mencakupi kandungan pelajaran yang telah ditetapkan. Kesahan kandungan adalah penting, terutama bagi ujian pencapaian, sebab markah yang diperolehi pelajar akan menunjukkan tahap pencapaian pelajar tersebut bagi kandungan pelajaran tertentu. Sekiranya soalan ujian tidak meliputi secukupnya kandungan pelajaran tersebut, penilaian terhadap pencapaian pelajar menjadi tidak sah/bais
azizi/092008 43
Kesahan Konstruk
Kesahan konstruk/gagasan merujuk kepada sejauh mana sesuatu alat ukuran itu dapat mengukur sesuatu konstruk/gagasan berasaskan teori psikologi tertentu.
azizi/092008
44
Kesahan Muka
lebih kepada sesuatu alat ukuran nampak pada permukaannya mempunyai kesahan yang tinggi. Ini bermaksud, sekali pandang, nampak alat ukuran itu sah, atau orang biasa/tidak terlatih nampak alat ini sebagai sah.
azizi/092008
45
Kesahan Hubungan-Kriteria
Kesahan hubungan-kriteria merujuk kepada sejauh mana sesuatu alat ukuran itu dapat menghasilkan skor yang mempunyai hubungan dengan beberapa ukuran luaran (kriteria).
azizi/092008
46
Kesahan Serentak
Kesahan serentak merujuk kepada sejauh mana sesuatu alat ukuran itu dapat menghasilkan skor yang mempunyai hubungan dengan ukuran daripada alat lain yang diambil serentak.
azizi/092008
47
Kesahan Ramalan
Kesahan ramalan merujuk kepada sejauh mana sesuatu alat ukuran itu dapat menghasilkan skor yang mempunyai hubungan dengan ukuran daripada alat lain yang diambil kemudian
azizi/092008
48
Kaedah Mengira Indeks Kesahan Daripada lima kesahan ujian yang dibincangkan, kesahan kandungan dan kesahan muka tidak dapat diukur/dijelas dengan menggunakan indeks kesahan, Kedua-dua kesahan ini dapat dijelaskan secara kualitatif sahaja. Bagaimanapun, kesahan konstruk, kesahan serentak dan kesahan ramalan boleh diukur dengan menggunakan pekali korelasi Pearson, iaitu pekali korelasi antara skor alat yang dibina dengan skor kriteria yang diambil menggunakan alat lain.
azizi/092008 49
Kesahan ramalan, selain menggunakan pekali korelasi untuk mengukur darjah kesahan, persamaan regresi boleh digunakan untuk meramal skor kriteria. Contohnya, skor ujian pertama (x) mempunyai hubungan dengan skor ujian kedua (y) yang menghasilkan persamaan regresi y = ax + b, di mana a dan b ialah angkatap (constant). Skor ujian kedua (y) boleh diramal oleh skor ujian pertama (x) dengan menggantikan nilai x dalam persamaan regresi ini.
azizi/092008 50
Alfa Cronbach Indeks untuk megukur ketakalan dalaman/keseragaman item/soalan yang bukan berjawapan dikotomi. Indeks Kesukaran Indeks untuk mengukur aras kesukaran sesuatu item, iaitu nisbah calon yang memberi jawapan betul kepada jumlah calon, atau markah purata dibahagikan dengan julat markah penuh.
azizi/092008 51
Indeks Diskriminasi Indeks yang dihasilkan oleh sesuatu item untuk mengukur perbezaan keupayaan pelajar, iaitu nisbah pelajar pandai yang menjawab dengan betul ditolak nisbah pelajar lemah yang menjawab soalan dengan betul.
azizi/092008
52
Indeks Kebolehpercayaan
Indeks untuk mengukur ketekalan ukuranukuran yang dihasilkan oleh sesuatu alat ukuran, yang boleh dikira menggunakan pekali korelasi Pearson, Kuder-Richardson atau alfa Cronbach.
azizi/092008
53
Indeks Kesahan Indeks untuk mengukur sejauh mana sesuatu alat dapat mengukur apa yang sepatutnya diukur oleh alat tersebut, yang boleh dikira menggunakan pekali korelasi Pearson atau persamaan regresi.
azizi/092008
54
Kesahan Konstruk Kesahan dari segi sejauh mana sesuatu ujian dapat mengukur sesuatu konstruk tertentu. Kesahan Kandungan Kesahan dari segi sejauh mana sesuatu ujian mewakili kandungan/sukatan pelajaran yang telah diajar. Kesahan Kriteria Kesahan dari segi sejauh mana sesuatu ujian mempunyai hubungan dengan ujian lain, sama ada yang ditadbirkan secara serentak atau kemudian. Kesahan Muka Kesahan dari segi sejauh mana sesuatu ujian dapat mengukur sesuatu konstruk tertentu seperti yang dipersepsikan oleh calon yang menduduki ujian.
azizi/092008 55