You are on page 1of 63

TES, PENGUKURAN DAN PENILAIAN

Kompetensi dasar : Mahasiswa mengkonstruksi tes sebagai hasil belajar Indikator : 1. Mengerti konsep tes, pengukuran dan penilaian serta etika tes 2. Membuat perencanaan tes dengan membuat konstruksi tes dan non tes Evaluasi merupakan komponen yang sangat penting dalam

penyelenggaraan pendidikan. Dengan sistem evaluasi yang baik maka kualitas pembelajaran diharapkan akan meningkat. Untuk meningkatkan kualitas pembelajaran tersebut, evaluasi sebaiknya dilakukan dengan memperhatikan semua ranah yang dimiliki peserta didik. Namun, evaluasi pendidikan yang dilaksanakan selama ini dirasakan belum memberikan distribusi yang cukup untuk peningkatan kualitas pendidikan. Hal ini disebabkan oleh sistem evaluasi yang digunakan belum tepat atau pelaksanaan evaluasi belum seperti yang diharapkan, oleh karena itu perlu dilakukan inovasi terhadap sistem evaluasi pendidikan ke arah yang lebih baik, agar dapat mengukur semua kemampuan yang dimiliki oleh peserta didik tanpa hanya mengukur ranah kognitifnya saja. Dengan sistem evaluasi yang baik maka akan mendorong pendidik untuk menentukan strategi mengajar yang baik sehingga dapat memotivasi peserta didik untuk belajar yang lebih baik dengan tujuan akhir meningkatnya kualitas pendidikan di Indonesia pada umumnya, seperti yang diamanahkan dalam pembukaan UUD 1945 alinea keempat yaitu mencerdaskan kehidupan bangsa yang merupakan tujuan pendidikan nasional. Dalam evaluasi pendidikan, ada empat komponen yang saling terkait dan merupakan satu kesatuan yang tidak terpisahkan. Penjelasan dari keempat komponen tersebut yaitu sebagai

Dalam mendefinisikan evaluasi, para ahli memiliki sudut pandang yang berbeda sesuai dengan bidang keahlian masing-masing. Namun inti dari semua definisi menuju ke satu titik, yaitu proses penetapan keputusan tentang sesuatu objek yang dievaluasi. Dalam konteks pendidikan, khususnya yang berkaitan dengan hasil kerja siswa, Nitko dan Brookhart (2007) mendefinisikan evaluasi sebagai suatu proses penetapan nilai yang berkaitan dengan kinerja dan hasil karya siswa. Fokus evaluasi dalam konteks ini adalah individu, yaitu prestasi belajar yang dicapai kelompok siswa atau kelas. Konsekuensi logis dari pandangan ini, mengharuskan evaluator untuk mengetahui betul tentang tujuan yang ingin dievaluasi. Beberapa hal yang dapat dijadikan sebagai objek evaluasi yaitu prestasi belajar, perilaku, motivasi, motivasi diri, minat, dan tanggung jawab. Dalam konteks lembaga evaluasi merupakan salah satu rangkaian kegiatan dalam meningkatkan kualitas, kinerja atau produktivitas suatu lembaga dalam melaksanakan programnya (Mardapi,2004). Hal yang hampir sama dikemukakan oleh Stuffelbeam dan Shinkfield (2007), yang mengatakan bahwa evaluasi merupakan proses memperoleh, menyajikan, dan menggambarkan informasi yang berguna untuk menilai suatu alternatif pengambilan keputusan tentang suatu program. Selanjutnya, Ebel (1986) berpendapat bahwa evaluasi merupakan suatu kebutuhan dimana evaluasi harus memberikan suatu keputusan tentang informasi apa saja yang dibutuhkan, bagaimana informasi tersebut dikumpulkan, serta bagaimana informasi tersebut disintesiskan untuk mendukung hasil yang diharapkan. Kirkpatrick (1998), menyarankan tiga komponen yang harus dievaluasi dalam pembelajaran yaitu pengetahuan yang dipelajari, ketrampilan apa yang dikembangkan, dan sikap apa yang perlu diubah. Untuk mengevaluasi komponen pengetahuan dan atau perubahan sikap, dapat digunakan paper-and-pencil tast (tes tertulis) sebagai alat ukurnya. Evaluasi program untuk meningkatkan ketrampilan siswa dapat digunakan tes kinerja sebagai alat ukurnya.

Menurut Astin (1993) ada tiga komponen yang dapat meningkatkan kualitas pembelajaran yaitu masukan, lingkungan sekolah, dan keluarannya. Artinya tidak hanya ranah kognitif saja yang diukur. Ditinjau dari cakupannya, evaluasi ada yang bersifat makro yaitu menggunakan sampel dalam menelaah suatu program dan dampaknya, yang sasarannya adalah program pendidikan. Kemudian evaluasi yang bersifat mikro yang sasarannya adalah program pembelajaran di kelas dan yang menjadi penanggungjawabnya adalah tenaga pendidik. Evaluasi pengajaran dapat dikategorikan menjadi dua yaitu formatif dan sumatif. Evaluasi formatif adalah evaluasi yang dilakukan pada setiap akhir pembahasan suatu pokok bahasan/topik yang tujuannya untuk memperbaiki proses belajar-mengajar. Sedangkan evaluasi sumatif adalah evaluasi yang dilakukan pada setiap akhir satu satuan waktu yang di dalamnya tercakup lebih dari satu pokok bahasan, yang tujuannya untuk menetapkan tingkat keberhasilan peserta didik dalam kurun waktu tertentu yang ditandai dengan perolehan nilai peserta didik dengan ketetapan lulus atau belum. Penilaian Penilaian merupakan komponen penting dalam penyelenggaraan pendidikan. Upaya meningkatkan kualitas pendidikan dapat ditempuh melalui peningkatan kualitas pembelajaran dan kualitas penilaiannya. Penilaian didefinisikan sebagai proses pengumpulan informasi tentang kinerja siswa, untuk digunakan sebagai dasar dalam membuat keputusan (Weeden, Winter, dan Broadfoot: 2002; Bott: 1996; Nitko: 1996; Mardapi: 2004). Selanjutnya Black dan William (1998) mendefinisikan penilaian sebagai semua aktivitas yang dilakukan oleh guru dan siswa untuk menilai diri mereka sendiri, yang memberikan informasi untuk digunakan sebagai umpan balik untuk memodifikasi aktivitas balajar dan mengajar. Penilaian berdasarkan definisi diatas memberi penekanan pada usaha yang dilakukan guru maupun siswa untuk memperoleh informasi yang berkaitan dengan pembelajaran yang mereka lakukan yang dapat dijadikan sebagai umpan balik untuk melakukan perubahan aktivitas bealajar mengajar yang lebih baik dari sebelumnya. Tujuan penilaian: 3

hal:

Membantu belajar siswa Mengidentifikasi kekuatan dan kelemahan siswa Menilai efektifitas strategi pengajaran Menilai dan meningkatkan efektifitas program kurikulum Menilai dan meningkatkan efektifitas pengajaran Menyediakan data yang membantu dalam membuat keputusan Komunikasi dan melibatkan orang tua siswa

Kegiatan penilaian dalam proses pembelajaran harus diarahkan pada 4 Penelusuran, untuk menelusuri kesesuaian proses pembelajaran dengan yang direncanakan. Pengecekan, untuk mencari informasi tentang kekurangankekurangan pada peserta didik selama pembelajaran. Pencarian, untuk mencari penyebab kekurangan yang muncul selama proses pembelajaran. Penyimpulan, untuk menyimpulkan tingkat pencapaian belajar yang telah dimiliki peserta didik. Menurut Popham (1995: 5), asesmen/penilaian pendidikan, disingkat asesmen, didefinisikan sebagai sebuah usaha formal untuk menentukan kedudukan atau status siswa terkait dengan variabel pendidikan yang ditentukan. Asesmen disebut dengan penilaian.

Seharusnya asesmen dilaksanakan pada tiga aspek, yaitu aspek kognitif, asesmen pada aspek afektif, asesmen pada aspek psikomotor. Namun, kadang-kadang, karena karakteristik mata pelajaran tertentu, pada suatu mata pelajaran, asesmen aspek kognitif lebih menonjol daripada asesmen aspek yang lain. Mata pelajaran Matematika, misalnya, aspek kognitif lebih menonjol daripada aspek psikomotor. Demikian pula sebaliknya, pada mata pelajaran lain asesmen aspek afektif lebih menonjol daripada asesmen aspek lain, misalnya pada mata pelajaran Kesenian, dan pada mata pelajaran yang lain lagi, asesmen aspek psikomotor lebih menonjol daripada asesmen aspek lainnya, misalnya pada mata pelajaran Olah Raga. Pengukuran

Untuk dapat melakukan asesmen atau penilaian, dilakukan suatu kegiatan yang disebut pengukuran. Stevens mendefinisikan pengukuran sebagai kegiatan pemberian numeral atau angka kepada objek atau kejadian dengan menggunakan aturan-aturan tertentu (Crocker & Algina, 1986: 10). Definisi itu kemudian disempurnakan dengan mengatakan bahwa yang diberi atribut numeral bukanlah objek itu sendiri, melainkan sifatsifat yang melekat pada objek itu. Untuk melakukan pengukuran, diperlukan suatu alat ukur atau instrumen pengukuran. Instrumen tersebut dapat berupa tes atau non-tes. Pengukuran merupakan suatu proses pemberian angka kepada suatu atribut atau karakteristik tertentu yang dimiliki oleh orang, hal, atau obyek tertentu menurut aturan atau formulasi yang jelas. Berdasarkan pandangan tersebut, tampak bahwa semua kegiatan di dunia ini tidak bisa lepas dari pengukuran. Pengukuran pada dasarnya merupakan kegiatan penentuan angka bagi suatu objek secara sistematik. Penentuan angka ini merupakan usaha untuk menggambarkan karakteristik suatu objek kemampuan seseorang dalam bidang tertentu dinyatakan dengan angka. Dalam menentukan karakteristik individu pengukuran yang dilakukan harus sedapat mungkin mnegandung kesalahan yang kecil (Mardapi,2004). Kesahihan alat ukur bisa dilihat dari kisi-kisi alat ukur. Kisi-kisi ini berisi tentang materi yang diujikan, bentuk soal, tingkat berfikir yang terlibat, bobot soal dan cara penskoran. Pokok bahasan yang diujikan harus berdasarkan Kriteria sebagai berikut : Pokok bahasan yang esensial Memiliki nilai aplikasi Berkelanjutan Dibutuhkan untuk mempelajari mata pelajaran lain.

Tes dan nontes Tes merupakan sejumlah pertanyaan yang memiliki jawaban yang benar atau salah. Tes diartikan juga sebagai sejumlah pertanyaan yang membutuhkan jawaban, atau sejumlah pertanyaan yang harus diberikan

tanggapan dengan tujuan mengukur tingkat kemampuan seseorang atau mengungkap aspek tertentu dari orang yang dikenai tes (testee). Tes dapat didefinisikan sebagai seperangkat pertanyaan atau tugas yang direncanakan untuk memperoleh informasi tentang trait atau atribut pendidikan atau atribut psikologik tertentu yang setiap butir pertanyaan atau tugas tersebut mempunyai jawaban atau ketentuan yang dianggap benar (Asmawi Zainul & Noehl Nasution, 1995: 3). Dengan demikian setiap tes menuntut keharusan adanya respons dari peserta tes yang dapat disimpulkan sebagai suatu trait yang dimiliki oleh peserta tes. Respons dari peserta tes tersebut harus dapat dikategorikan sebagai respons yang benar atau respons yang salah. Jika ada pertanyaan atau tugas yang harus dikerjakan oleh seseorang, tetapi tidak ada jawaban atau cara mengerjakan yang benar atau salah, maka pertanyaan atau tugas tersebut bukanlah suatu tes. Etika Tes Terdapat beberapa kritik terhadap tindakan pengujian, diantaranya : 1. Tes senantiasa mencampuri rahasia pribadi peserta tes 2. Tes selalu menimbulkan rasa cemas 3. Tes justru menghukum siswa yang kreatif 4. Tes selalu terikat budaya tertentu 5. Tes hanya mengukur hasil belajar yang sederhana

Untuk itu perlu ditegakkan etika tes. Adapaun praktek tes hasil belajar yang etis mencakup: 1. Kerahasiaan tes 2. Kemaan tes 3. Intepretasi tes 4. Penggunaan tes Nontes Nontes dapat digunakan untuk mengukur semua ranah yang dimiliki oleh masing-masing individu yang tentunya berbeda. Adapun ranah yang diukur dengan menggunakan nontes ini adalah kognitif, psikomotorik, perseptual, komunikasi nondiskursip, dan ranah afektif.

Mardapi (2004), mengatakan bahwa dalam kaitan dengan afektif ada empat tipe karakteristik afektif yang penting, yaitu sikap, minat, konsep diri, dan nilai. Kegunaan tes, Pengukuran, Penilaian dalam Pendidikan 1. Seleksi tes yang digunakan untuk mengambil keputusan tentang tes yang didasarkan pada informasi tentang apa yang tes untuk mengukur seseorang yang akan diterima/ditolak dalam satu proses seleksi 2. Penempatan telah dan apa yang belum dikuasai seseorang 3. Diagnosis dan remedial pendidikan 4. Umpan balik hasil suatu pengukuran yang digunakan sebagai umpan balik baik bagi testee ataupun instruktur/guru. 5. Memotivasi dan membimbing belajar 6. Perbaikan kurikulum 7. Pengembangan ilmu Kesimpulan Untuk meningkatkan mutu pembelajaran dibutuhkan sistem evaluasi yang tepat, karena peserta didik memiliki berbagai kemampuan yang berbedabeda maka sistem evaluasi yang digunakan harus terintegrasi dan mampu mengukur semua kemampuan yang ada pada peserta didik. Evaluasi pendidikan tidak hanya digunakan untuk mengukur ranah kognitif peserta didik saja. Adapun ranah yang diukur dengan menggunakan nontes ini adalah kognitif, psikomotorik, perseptual, komunikasi nondiskursip, dan ranah afektif. Dalam evaluasi pendidikan Ada empat komponen yang saling terkait dan merupakan satu kesatuan yang tidak terpisahkan yaitu: Evaluasi Penilaian Pengukuran Tes dan non tes kekuatan/kelemahan seseorang dalam penguasaan suatu program

Tes dan Persyaratannya


Kompetensi Dasar belajar Indikator : Membuat perencanaan tes dengan membuat konstruksi tes dan non tes : Mahasiswa mengkonstruksi tes sebagai hasil

Telah diketahui bahwa melakukan penilaian adalah kegiatan rutin seorang guru yang tidak dapat dipisahkan dari kegiatan belajar. Hasil penilaian itu sendiri sangat berguna untuk berbagai pengambilan keputusan mengenai siswa. Agar keputusan-keputusan yang diambil merupakan keputusan yang bijaksana maka informasi yang dikumpulkan harus benar-benar baik. Untuk memperoleh informasi yang baik, maka alat pengambil informasinya harus benar-benar baik. Perencanaan Tes Berikut ini dibicarakan langkah-langkah yang harus ditempuh oleh pengembang tes supaya diperoleh tes yang baik. Secara garis besar, untuk menyusun tes yang baik, diperlukan langkah-langkah berikut: (1) menginventarisasi bahan yang telah diajarkan, (2) menyusun spesifikasi tes, (3) menyusun butir-butir soal beserta kuncinya, (4) menelaah butirbutir tes, (5) melakukan uji coba, (6) melakukan analisis tes dan analisis butir soal berdasarkan hasil uji coba, (7) melakukan revisi terhadap butirbutir soal yang kurang baik, (8) melaksanakan pengukuran (pengujian) kepada subjek yang dikehendaki, dan (9) menafsirkan hasil yang diperoleh. Penyusunan Spesifikasi Tes Penyusunan spesifikasi tes tes biasanya mencakup: penentuan tujuan, pembuatan kisi-kisi, pemilihan jenis tes, dan penentuan banyaknya butir pada setiap kompetensi dasar atau setiap indikator. Kisi-kisi tes biasanya ditampilkan dalam bentuk matriks yang menunjukkan isi pokok bahasan (atau kompetensi dasar) yang akan diukur dan aspek tingkah laku yang akan diungkap. Kadang-kadang disertakan pula level tingkat kesulitan butir soal, apakah termasuk ke dalam kategori mudah, sedang, atau sukar. Beberapa pakar mengatakan bahwa komposisi tingkat kesukaran perangkat tes adalah 25% mudah, 50% sedang, dan 25% sukar. Jika kisi-kisi dibuat untuk keperluan uji coba, maka banyaknya butir soal yang akan dipakai untuk uji coba harus lebih banyak dibandingkan dengan banyaknya butir soal yang akan digunakan. Misalnya, untuk ujian dalam waktu 90 menit diperlukan 30 butir soal pilihan ganda. Maka untuk uji coba, diperlukan 35 40 butir soal. Berikut ini adalah contoh kisi-kisi untuk tes bentuk pilihan ganda.

Mata Pelajaran : Tahun Ajaran : Semester : Lama Ujian : Banyaknya Butir Soal yang Diperlukan/Diujicobakan:
Jenjang Kemampuan dan Tingkat Kesukaran C1 C2 C3 C4 S S M S S M S S M S e u u e u u e u u e d k d d k d d k d d a a a a a a a a a a n r h n r h n r h n g g g g Banya k-nya Butir Soal Persentase

N o

Pokok Bahasan/ Kompetensi Dasar/ Indikator

M u d a h

S u k a r

1 2 3 4 ... N Banyaknya Soal Persentase

Butir

Pada umumnya, kisi-kisi untuk soal tipe uraian lebih sederhana, karena pemilahan jenjang berpikir peserta tes menjadi C1, C2, C3, C4, C5, dan C6 tidak perlu diberikan. Berikut ini adalah contoh kisi-kisi untuk tes bentuk uraian.
Mata Pelajaran : Tahun Ajaran : Semester : Lama Ujian : Banyaknya Butir Soal yang Diperlukan/Diujicobakan: N o Pokok Bahasan/ Kompetensi Dasar/ Indikator Jenis Soal Terbatas Bebas Banya k-nya Butir Soal Persentase

1 2 3 4 ... N Banyaknya Butir Soal Persentase

Perencanaan Non Tes

10

Teknis

nontes

adalah

suatu

alat

penilaian

yang

biasanya

dipergunakan untuk mendapatkan informasi tertentu tentang keadaan peserta tes (Inggris: testee) dengan tidak menggunakan tes. Hal ini berarti bahwa jawaban yang diberikan oleh peserta tes tidak bisa dikategorikan sebagai jawaban benar atau salah sebagaimana interpretasi jawaban tes. Dengan teknik nontes maka penilaian atau evaluasi hasil belajar peserta didik dilakukan tanpa menguji peserta didik melainkan dilakukan dengan cara tertentu.

Penilaian yang dilakukan dengan teknis nontes terutama bertujuan untuk memperoleh informasi yang berkaitan dengan evaluasi hasil belajar peserta didik dari segi ranah sikap hidup (affective domain) dan ranah ketrampilan (psychomotoric domain). David Krathwohl (1974), sebagaimana dikutip Anas Sudijono (2005 : 54) mengembangkan taksonomi mengenai ranah afektif ini dengan membaginya kedalam lima jenjang yaitu : (1) receiving (menerima) (2) responding (merespon) (3) valuing (menilai atau memaknai), (4) organization (mengorganisasi) dan (5) characterization by a value or value complex (karakterisasi dengan suatu nilai atau nilai yang kompleks). Sedangkan menurut Anderson (1981: 29) dalam modul Budiyono (2010) mengatakan bahwa terdapat 7 karakteristik afektif, yaitu: sikap (attitude), (2) minat (interest), (3) nilai-nilai (value), (1) (4) pilihan

(preference), (5) kepercayaan diri akademik (academic self-esteem), (6) lokus kendali (locus of control), dan (7) kecemasan (anxiety). Setiap karakteristik mempunyai intensitas, arah, dan sasaran. Intensitas adalah ukuran derajat atau kekuatan perasaan, arah adalah sifat yang menyatakan apakah perasaan itu positif, netral, atau negatif, sedangkan sasaran adalah objek, perilaku, atau gagasan yang dituju oleh arah perasaan itu. Kecuali karakteristik tersebut, beberapa pakar juga memasukkan motivasi ke dalam aspek afektif (Djemari Mardapi, 2002: 33; Suryanto, 2001: 49). Sikap (attitude) diartikan sebagai kecenderungan untuk merespon secara positif (favorable) atau secara negatif (unfavorable) terhadap suatu objek (Anderson, 1981: 29). Adanya sikap positif seseorang terhadap suatu objek menunjukkan bahwa seseorang tersebut menyenangi dan atau menghargai objek tersebut, sedangkan adanya sikap negatif seseorang terhadap suatu objek menunjukkan bahwa

11

seseorang tersebut tidak menyenangi atau tidak menghargai objek tersebut. Kata-kata yang dapat digunakan untuk mengukur sikap, antara lain, menyenangi tidak menyenangi, diingini tidak diingini, menerima menolak, dan tertarik tidak tertarik. Dalam pembelajaran matematika, misalnya, dapat diukur sikap siswa terhadap buku matematika, belajar matematika, mengerjakan soal matematika, mempelajari buku matematika, guru matematika. Minat (interest) diartikan sebagai watak yang terorganisir melalui pengalaman yang mendorong seseorang untuk mendalami suatu objek, pengertian, keterampilan, atau tujuan untuk mendapatkan suatu kemahiran atau penguasaan tertentu (Anderson, 1981: 30). Dalam pembelajaran matematika, misalnya, dapat diukur minat siswa untuk mengikuti pelajaran matematika, mempelajari tokoh-tokoh matematika, dan meng-gunakan matematika di luar kelas. Nilai (values) diartikan sebagai objek, aktivitas, atau pandangan yang diapresiasi oleh seseorang dalam mengarahkan minat, sikap, atau kepuasannya (Anderson, 1981: 31). Dalam pembelajaran matematika, misalnya, dapat diukur pandangan siswa terhadap guru matematika dan penggunaan matematika. Misalnya siswa memandang penting belajar matematika, maka nilai mereka terhadap matematika tinggi. Pilihan (preference) adalah kecenderungan untuk memilih suatu objek, aktivitas, atau gagasan dibandingkan dengan objek, aktivitas, atau gagasan lain (Anderson, 1981: 32). Pilihan melibatkan pemilihan di antara dua objek, aktivitas, atau gagasan. Oleh karena itu, biasanya pilihan bersifat relatif, misalnya lebih menyenangi ini daripada itu, lebih suka menjadi itu daripada ini. Dalam pembelajaran matematika, misalnya, dapat diukur pilihan siswa terhadap berbagai hal, misalnya antara mempelajari matematika dibandingkan dengan mata pelajaran lain dan antara menjadi matematikawan atau menjadi dokter. Konsep diri (self-esteem) diartikan sebagai persepsi seseorang terhadap dirinya sendiri (Anderson, 1981: 32). Menurut Smith (Tim Pascasarjana, 2003b: 10), konsep diri matematika, misalnya, konsep diri adalah evaluasi yang dilakukan siswa dapat diukur melalui seseorang terhadap kelemahan yang dimilikinya. Dalam pembelajaran kepercayaannya dalam mempelajari matematika atau bagian-bagiannya, kepercayaannya dalam mengharapkan pekerjaan kelak jika menguasai

12

matematika, matematika.

dan

kepercayaannya

dalam

menyelesaikan

soal-soal

Lokus kendali (locus of control) adalah seberapa jauh seseorang dapat menerima sesuatu karena tindakannya atau konsekuensi dari tindakannya (Anderson, 1981: 33). Seseorang dengan lokus kendali internal adalah orang yang percaya bahwa berhasil atau gagal adalah karena usahanya sendiri. Seseorang dengan lokus kendali eksternal cenderung lebih yakin bahwa faktor lain, seperti kemujuran atau tindakan orang lain, yang menyebabkan berhasil atau gagal. Dalam konteks ini, seseorang yang yakin bahwa keberhasilan di sekolah karena kemujuran atau faktor lainnya cenderung untuk tidak mau bekerja keras. Di sisi lain, siswa yakin bahwa keberhasilan atau kegagalan terutama dikarenakan usahanya sendiri dapat diharapkan untuk mau bekerja keras. Dalam konteks pembelajaran, lokus kendali dapat diukur dari seberapa jauh seorang siswa percaya bahwa apa yang diperolehnya (misalnya nilai untuk mata pelajaran tertentu) adalah karena usahanya sendiri atau karena faktor-faktor lain di luar dirinya. Kecemasan (anxiety) diartikan sebagai pengalaman mendapatkan tekanan yang menghasilkan ancaman kepada seseorang, baik secara riil maupun secara imajiner (Anderson, 1981:34). Dalam pembelajaran matematika, misalnya, dapat diukur kecemasan seseorang menempuh tes matematika, kecemasan mengerjakan tugas matematika, dan kecemasan seseorang menghadapi guru matematika. Kemampuan psikomotor (psychomotoric domain) adalah kemampuan yang berhubungan dengan gerak yaitu kemampuan dalam menggunakan otot-otot seperti berjalan, lari, melompat, berenang, melukis, membongkar dan memasang peralatan dan lain sebagainya. Dalam dunia psikologi, kemampuan psikomotor dibagi kedalam lima tingkatan yaitu gerak refleks, gerakan dasar, kemampuan perseptual, kemampuan fisik, gerakan trampil dan komunikasi nondiskursip (Sax,1980:76).

Gerak reflek adalah gerakan yang muncul tanpa sadar. Gerakan dasar adalah gerakan yang mengarah pada ketrampilan kompleks yang khusus seperti berlari dan berjalan. Kemampuan perseptual merupakan kombinasi kemampuan kognitif dan kemampuan motor, kemampuan fisik adalah kemampuan untuk mengembangkan gerakan yang paling terampil

13

seperti gerakan tari ataupun olahrega ekstrim tertentu. Sedangkan komunikasi nondiskursip adalah kemampuan berkomunikasi dengan menggunakan bahasa gerakan. Dalam dunia pendidikan teknik nontes yang sering digunakan adalah pengamatan (observasi), dan terkadang, seorang guru juga menggunakan wawancara. Dalam penelitian-penelitian sosial, teknik nontes biasanya juga digunakan untuk mendapatkan informasi mengenai keadaan obyek penelitian. Teknik pengamatan atau observasi merupakan salah satu bentuk teknik nontes yang biasa dipergunakan objeknya untuk secara menilai langsung, sesuatu melalui dan pengamatan terhadap seksama

sistematis. Pengamatan memungkinkan untuk melihat dan mengamati sendiri kemudian mencatat perilaku dan kejadian yang terjadi pada keadaan sebenarnya. Menurut Moleong (2005 : 176) pengamatan dapat dibedakan menjadi dua yaitu pengamatan berperanserta dan tidak berperanserta. Dalam pengamatan yang tidak berperanserta, seseorang hanya melakukan satu fungsi yaitu mengamati tetapi pada pengamatan berperanserta seseorang disamping mengamati juga menjadi anggota dari obyek yang diamati. Pengamatan dapat pula dibagi atas pengamatan terbuka dan tertutup. Terbuka jika obyek yang diamati mengetahui bahwa mereka sedang diamati dan sebaliknya. Selain itu pengamatan juga dibagi pada latar alamiah (pengamatan tak terstruktur) dan latar buatan (pengamatan terstruktur). Pengamatan ini biasanya dapat dilakukan pada eksperimen. Dalam pengamatan berstruktur, kegiatan pengamatan itu telah diatur sebelumnya. Isi, maksud, objek yang diamati, kerangka kerja, dan lain-lain, telah ditetapkan sebelum kegiatan pengamatan dilaksanakan. Oleh karena itu, kegiatan pencatatan hanya dilakukan terhadap data-data yang sesuai dengan cakupan bidang kebutuhan seperti yang telah ditetapkan sejak semula. Lain halnya pengamatan tak berstrukur, dalam melakukan dengan si pengamatannya,

pengamat tidak dibatasi oleh kerangka kerja yang telah dipersiapkan sebelumnya. Setiap data yang muncul yang dianggap relevan dengan tujuan pengamatannya langsung dicatat. Dengan demikian, data yang diperoleh lebih mencerminkan keadaan yang sesungguhnya. Teknik pengamatan jika dilakukan untuk melihat apakah perbuatan siswa 14

sudah benar atau tidak dapat dikategorikan sebagai teknik tes. Misalnya jika dalam praktek olahraga seorang guru akan melihat apakah cara melempar lembing seseorang sudah sesuai dengan teori atau tidak, maka pengamatan jenis ini terkategori sebagai teknik tes. Tetapi jika pengamatan dilakukan terhadap aspek afektif seperti cara seorang siswa bersikap terhadap guru, menjaga kebersihan, perhatian terhadap tugastugas sekolah dan sebagainya, maka teknik ini termasuk teknik nontes ( ingat definisi tes dan non tes)

Wawancara atau interview merupakan salah satu alat penilaian nontes yang dipergunakan untuk mendapatkan informasi tertentu tentang keadaan responden dengan jalan tanya-jawab sepihak. Dikatakan sepihak karena pertanyaan-pertanyaan yang diajukan dalam kegiatan wawancara itu hanya berasal dari pihak pewawancara saja, sementara responden hanya bertugas sebagai penjawab. Maksud diadakan wawancara sebagaimana dikutip Moleong dari Lincoln dan Guba (1985 : 266) antara lain mengkonstruksi mengenai orang, kejadian, organisasi, perasaan, motivasi, tuntutan, kepedulian dan lain sebagainya. Ada banyak pembagian wawancara yang dilakukan para ahli. salah satu diantaranya adalah membagi wawancara kedalam dua bentuk yaitu wawancara bebas dan wawancara terpimpin. Yang dimaksud wawancara terpimpin adalah suatu kegiatan wawancara yang pertanyaan-pertanyaan jawaban yang serta sudah bebas, kemungkinan-kemungkinan jawabannya itu telah dipersiapkan pihak pewawancara, dipersiapkan responden pewawancara. tinggal memilih Sebaliknya dalam wawancara

responden diberi kebebasan untuk menjawab pertanyaan-pertanyaan pewawancara sesuai dengan pendapatnya. Kuesioner merupakan bentuk lain dari teknik nontes. Secara umum, ada dua jenis kuesioner yaitu kuesioner tertutup dan terbuka. Kuesioner tertutup adalah kuesioner yang telah disediakan alternatif jawabannya sehingga responden tinggal memilih yang sesuai dengan keadaan dirinya. Sedangkan kuesioner terbuka adalah kuesioner yang jawabannya belum disediakan sehingga responden bebas menuliskan apa yang dia rasakan. Satu hal yang menjadi ciri utama kuesioner adalah dalam kuesioner tidak ada jawaban benar atau salah. Ada beberapa alasan kenapa kuesioner sering dipergunakan orang dalam 15

mengumpulkan informasi tertentu yaitu : (1) butir-butir kuesioner dapat diberikan kepada responden secara serentak sehingga lebih efektif, (2) butir-butir dalam kuesioner lebih menjamin keseragaman baik perumusan kata, isi maupun urutannya serta kuesioner lebih memudahkan dalam memberikan jawaban, (3) kuesioner memudahkan sumber data dalam memberikan jawaban serta kepraktisan serta relative lebih murah dibandingkan metode nontes yang lain. Alat ukur keberhasilan belajar non tes yang umum digunakan yaitu : 1. Participation chart Contoh bentuk bagan partisipasi dalam kegiatan diskusi siswa NO Nama Kualitas Kontribusi Sangat penting berarti meragukanTidak relevan

Definisikan terlebih dahulu makna dari indicator sangat berarti,penting, meragukan, tidak relevan sehingga ada kekonsistenan dari pengamat 2. Check list Contoh check list pada kemampuan siswa dalam berekspresi saat KBM No 1 2 3 4 Aspek yang diamati Menyatakan rasa gembira secara lisan Memperlihatkan sikap gembira Memperlihatkan sikap sdih . cek

Dalam check list, pengamat hanya menyatakan ada/tidak adnya hal yang diamati. Untuk itu check list harus disusun secara rinci, spesifik dan lengkap bagaimanapun remehnya komponen tersebut. 3. Rating scale Ada beberapa tipe rating scale: yakni Numerical rating scale Descriptive graphic rating scale Ranking methods rating scale Paired methods rating scale Contoh rating scale dengan numerical rating scale
PROSEDUR PEMBELAJARAN (PP) 1. 2. Mengelola Tugas Rutin Kelas Menggunakan Alat Bantu (Media) 1 1 2 2 3 3 4 4

16

Pembelajaran yang diperlukan 3. Menggunakan Waktu Pembelajaran Secara Efisien 4. Melaksanakan Kegiatan Pembelajaran Dalam Urutan Yang Logis 5. Menggunakan Respon dan Pertanyaan Siswa Dalam Pembelajaran 1 1 1 2 2 2 3 3 3 4 4 4

Contoh Descriptive Graphic Rating Scale :


Petunjuk: Nyatakan tingkatan dari setiap pernyataan atau jawaban dari pertanyaan berikut ini dengan cara memberi tanda cek () pada tempat yang sesuai. Nama Siswa yang Diamati: ____________ 1. Seberapa aktifkah siswa berpartisipasi dalam kegiatan diskusi? 2. Seberapa baikkah jalinan hubungan baik antara siswa tersebut dengan kelompoknya? 3. Seberapa besar kontribusi siswa tersebut dalam pemecahan persoalan yang muncul dalam diskusi? 4. dst Sangat Aktif Sangat Baik Sangat Berarti Sangat Tidak Aktif Sangat Tidak Baik Sangat Tidak Bearti

4. Attitude Scale : terdapat beberpa teknik konstruksi skala sikap, yakni skala likert, skala Thurstone dan skala Guttman Contoh skala likert : Saya merasa kesal bila mendapat PR matematika karena membuat pusing dan mengurangi waktu santai di rumah. a. Sangat setuju b. Setuju c. Tidak setuju d. Sangat tidak setuju

Skala Thurstone Model pengukuran skala Thorstone dikembangkan pertama kali oleh Louis Thurstone (Sumadi Suryabrata, 2000: 200). Thurstone oleh para ahli ilmu-ilmu sosial dianggap bapak penyusunan skala untuk mengukur sikap. Skala dengan Thurstone skala. mirip Pada dengan skala skala Likert, namun biasanya hanya rentangan skala pada skala Thurtone lebih lebar, berkisar antara 7 sampai 11 Thurstone, responden juga membubuhkan tanda cek () pada tempat yang disediakan. Berikut ini adalah contoh skala Thurstone. Contoh:
Petunjuk:

17

Berilah tanda cek () pada tempat yang disediakan. Skala 7 menunjukkan sangat setuju, sedangkan skala 1 menunjukkan sangat tidak setuju. No 1 2 3 4 5 Pernyataan Belajar komputer sangat berguna dalam kehidupan sehari-hari. Untuk mendapat nilai yang tinggi pada mata pelajaran TIK, saya harus bekerja keras. Saya harus memperhatikan dengan serius saat guru berbicara di depan kelas. Saya tidak perlu belajar keras, karena guru akan memberi nilai baik kepada saya. Saya belajar menggunakan komputer karena terpaksa. 1 2 3 4 5 6 7

Kontruksi Tes

Tes Uraian Istilah tes uraian diterjemahkan dari essay test. Tes uraian disebut juga tes subjektif. Pada tipe ini peserta tes diharapkan merumuskan jawaban sendiri dengan kata-kata sendiri. Jawaban tipe tes uraian dapat berupa jawaban pendek atau jawaban panjang, tergantung dari arah dan cakupan yang 18

dikehendaki oleh butir tes. Jenis tes ini biasanya memuat permasalahan yang menuntut peserta tes untuk mengorganisir dan merumuskan jawabannya dengan menggunakan kata-kata, ide, dan/atau pemikirannya sendiri berdasar latar belakang pengetahuan yang dimilikinya. Hal yang perlu diperhatikan dalam penyusunan soal tipe ini adalah bahwa rumusan permasalahannya hendaknya cukup jelas sehingga setiap peserta tes dapat menangkap permasalahannya dengan tepat seperti apa yang dimaksudkan oleh pembuat soal. Keunggulan tes uraian, antara lain: (1) menghendaki pengorganisasian jawaban, sehingga dari tes uraian dapat dilihat jalan pikiran peserta tes, (2) jawaban disampaikan berdasarkan kata-kata dan tulisannya sendiri, sehingga dapat dilihat kejernihan jalan pikiran peserta tes, (3) mudah menyusun soalnya, dan (4) dapat membedakan secara jelas kemampuan masing-masing siswa. Di sisi lain, kelemahan tes uraian, antara lain: (1) bahan yang diliput terbatas, (2) waktu yang dipakai untuk menjawab soal tes uraian lama, (3) penilaian yang subjektif, dan (4) sukar dalam memberikan skor. Untuk mengurangi kelemahan penggunaan tes uraian, dalam memeriksa tes uraian hendaknya diperhatikan hal-hal berikut. 1. Tetapkanlah dengan tepat hal-hal atau faktor-faktor yang diukur. Kemudian, penguji hendaknya hanya mengukur hal-hal atau faktorfaktor yang ditetapkannya tadi. 2. Bacalah dulu beberapa contoh jawaban untuk mendapatkan gambaran umum mengenai kualitas seluruh peserta tes. 3. Berdasarkan analisis pada langkah kedua, buatlah rubrik (kriteria pemberian skor) yang terkait dengan soal tersebut. Dalam membuat rubrik tersebut, penguji dianjurkan untuk membaca kembali catatancatatan atau buku-buku yang dipakai sebagai referensi pembelajaran. Termasuk dalam hal ini adalah menetapkan pokok-pokok penting yang harus ada untuk mendapatkan skor. 4. Periksalah setiap butir soal dalam satu waktu tertentu, artinya periksalah nomor butir soal yang sama untuk setiap siswa dalam satu waktu yang sama sebelum pemeriksaan nomor butir soal berikutnya. 5. Sedapat mungkin periksalah jawaban-jawaban soal tanpa mengetahui siapa penjawabnya. 6. Reliabilitas penilaian yang lebih besar diperoleh dengan jalan merataratakan skor yang diberikan oleh beberapa pemeriksa yang bekerja secara independen. 19

Tipe Tes Uraian Tes uraian dapat dibedakan menjadi dua, yaitu tes uraian bebas dan tes uraian terbatas. Tes uraian bebas disebut juga uraian non-objektif, sedangkan tes uraian terbatas disebut juga tes uraian objektif. Pada tes uraian bebas, peserta tes dapat dengan bebas menyatakan pendapat dan/atau penalarannya masing-masing. Boleh jadi, masingmasing peserta tes mengemukakan jawaban yang berbeda, walaupun mungkin sama-sama benarnya. Contoh: 1. Bagaimanakah pendapat Anda mengenai pembelajaran matematika di sekolah dasar sekarang ini? 2. Perlukan keterampilan menggunakan komputer diberikan kepada siswa-siswa sekolah dasar? 3. Manakah yang lebih tepat dilakukan pada siswa-siswa SMP, untuk mencari titik puncak suatu parabol, dengan menggambar grafiknya lebih dulu atau dengan menggunakan rumus? Jelaskan pendapat Anda. Pada tes uraian terbatas, walaupun jawaban dari peserta tes diurai menurut jalan pikiran masing-masing peserta tes, tetapi jawaban yang benar telah dapat diduga terlebih dulu. Jawaban yang benar dari masingmasing peserta tes relatif tidak berbeda, lebih-lebih untuk bidang eksakta. Contoh: 1. Dengan menggambar
9

grafik

fungsi

kuadratnya

terlebih

dulu,

selesaikan pertidaksamaan
4

x 2 5x + 6 > 0.

2. Diketahui A = 3 4 p , B = 1
1, C

5 p

5 10 , dan C = 4 3

8 . Jika A B = 6 p

carilah p.

Tes Objektif Tes objektif adalah tes yang menghendaki peserta tes untuk memilih di antara kemungkinan-kemungkinan jawaban yang telah disediakan, memberikan jawaban singkat, atau mengisi titik-titik yang disediakan. Keunggulan tes objektif, antara lain: (1) mudah, cepat, dan objektif dalam pemberian skor, (2) dapat mencakup bahan yang sangat luas, (3) kemungkinan jawaban yang salah dan yang benar dapat dengan mudah 20

dilihat, dan (4) butir soal dengan tipe objektif dapat digunakan berulang kali. Di sisi lain, kelemahan tes objektif, antara lain: (1) sulit dipakai untuk mengukur aspek kemampuan yang tinggi, (2) memerlukan waktu yang lama dalam penyusunan soalnya, (3) jawaban soal tes objektif dapat diterka, dan (4) tidak dapat membedakan secara jelas kemampuan masing-masing siswa. Berikut ini diberikan saran dalam mengkonstruksi tes bentuk objektif: (1) usahakan agar kesukaran membaca sesedikit mungkin, (2) jangan semata-mata hanya mengutip dari buku, (3) masing-masing butir soal harus saling independen, tidak saling mempermudah atau mempersulit butir soal yang lain, (4) jika menggunakan lambang-lambang atau simbolsimbol, hendaknya dijelaskan arti lambang-lambang atau simbol-simbol tersebut, (5) dalam menulis soal matematika, hendaknya jangan dikacaukan antara bahasa matematika dan bahasa verbal, (6) jangan menulis butir soal yang berlebihan, (7) hendaknya digunakan kaidahkaidah kebahasaan yang benar, dan (8) soal-soal yang telah selesai didraft, hendaknya direview lebih dulu. Tipe Tes Objektif Secara garis besar, tes objektif dapat dibedakan atas lima jenis, yaitu: (1) tes benar-salah, (2) tes isian singkat, (3) tes jawaban singkat, (4) tes menjodohkan, dan (5) tes pilihan ganda. Di sisi lain, tes pilihan ganda (multiple choice test) dapat dibedakan atas: (1) bentuk melengkapi lima pilihan, (2) bentuk asosiasi dengan lima pilihan, (3) bentuk hal kecuali, (4) bentuk analisis hubungan antar hal, (5) bentuk analisis kasus, (6) bentuk perbandingan kuantitatif, (7) bentuk hubungan dinamik, (8) bentuk melengkapi berganda, dan (9) bentuk pemakaian gambar, diagram, dan/atau grafik. Tes bentuk pilihan ganda terdiri dari batang tubuh yang berupa suatu pernyataan, atau pernyataan yang belum lengkap, atau suatu pertanyaan, yang diikuti oleh sejumlah kemungkinan jawaban. Batang tubuh tadi disebut stem. Kemungkinan jawaban disebut option. Option yang merupakan jawaban yang benar disebut kunci ( key) dan optionoption yang bukan kunci jawaban disebut pengecoh (distraktor, umpan). Soal-soal bentuk pilihan ganda lebih fleksibel dan lebih efektif daripada bentuk-bentuk lain. Jika dikonstruksi dengan baik, soal bentuk pilihan ganda amat efektif untuk mengukur kemampuan menguraikan 21

informasi,

perbendaharaan

kata-kata,

aplikasi

suatu

konsep,

atau

kemampuan menginterpretasikan sesuatu. Kecuali itu, jika dikonstruksi dengan baik, menentukan soal pilihan ganda juga dapat mendiskriminasikan, pendapat, dan menarik kesimpulan. Satu-satunya

kemampuan yang tidak dapat diukur dengan soal tipe pilihan ganda adalah kemampuan mengorganisir sesuatu. Untuk mengkonstruksi tes pilihan ganda dengan baik, sangat sukar dan memerlukan waktu lama. Tidak jarang pembuat soal hanya memasukkan hal-hal yang mudah-mudah saja, yaitu yang sekedar mengukur hal-hal yang bersifat pengetahuan (hafalan). Berikut ini diberikan beberapa saran jika tes bentuk pilihan ganda ingin digunakan, yaitu: (1) hendaknya disusun segera setelah suatu pokok bahasan tertentu selesai diberikan, (2) distraktor-distraktor hendaknya disusun sama kuat, (3) option-optionnya jangan terlalu banyak dan jangan terlalu sedikit, (4) stem harus benar-benar merumuskan suatu masalah secara jelas dan memuat informasi yang penting, (5) hanya terdapat satu kunci jawaban yang tepat atau paling tepat, (6) jangan membuat distraktor yang nyata-nyata salah, dan (6) jawaban yang benar hendaknya tidak mempunyai pola tertentu. Berikut ini beberapa contoh soal bentuk pilihan ganda. Bentuk Melengkapi Lima Pilihan Petunjuk: Pilihlah salah satu jawaban yang Anda anggap benar di antara kemungkinan-kemungkinan jawaban yang benar dengan memberi tanda silang pada lembar jawaban! 1. Luas P(1,0), bayangan Q(6,0), PQR dan dengan 2. Pernyataan oleh (p q)

R(6,3)

bernilai salah, jika ... . a. p benar, q benar, dan r benar b. p salah, q

transformasi yang sesuai dengan matriks


2 1 4 3

dilanjutkan

oleh salah, dan r benar c. p benar, q benar, dan r salah d. p salah, q salah, dan r salah e. p benar, q salah, dan r salah

transformasi yang sesuai dengan matriks luas. a. 15 b. 30 c. 45


2 5 0 adalah satuan 1

22

d. 50 e. 60 Bentuk Analisis Kasus Petunjuk: Ikutilah kasus di bawah ini. Kemudian, pilihlah salah satu jawaban yang Anda anggap benar di antara kemungkinan-kemungkinan jawaban yang benar dengan memberi tanda silang pada lembar jawaban! Amir dan Ani duduk pada kelas yang sama. Pada semester ini, ia menempuh 15 mata pelajaran. Kemarin, mereka menerima buku rapor mereka. Nilai-nilai mereka tampak seperti berikut ini. Amir : 7, 9, 10, 7, 8, 8, 9, 8, 8, 8, 8, 6, 7, 8, 9 Ani : 8, 8, 8, 8, 9, 8, 9, 8, 7, 8, 8, 9, 8, 7, 7 2. Jangkauan nilai Amir adalah ... . a. dua kali jangkauan nilai Ani b. satu lebihnya dari jangkauan nilai Ani c. sama dengan jangkauan nilai Ani d. sama dengan nol e. setengah kali jangkauan nilai Ani Bentuk Melengkapi Berganda Petunjuk: Di bawah ini terdapat butir-butir soal yang mempunyai kejadian yang dapat muncul bersama-sama. Pada lembar jawaban, silanglah: a. jika hanya 1, 2, dan 3 yang benar b. jika hanya 1 dan 3 yang benar c. jika hanya 2 dan 4 yang benar d. jika hanya 4 yang benar e. jika 1, 2, 3, dan 4 benar 1. Yang merupakan himpunan kosong 2. Jika y = 1. Himpunan dari semua himpunan 2. Himpunan bilangan genap yang
x3 + x 2 + 5 ,

1. Rerata nilai Ani adalah ... . a. 5 b. 6 c. 7 d. 8 e. 9

maka ... .

adalah ... .

1. y(0) = 5 2. y(1) = 7 3. y(2) = 14

23

habis dibagi dua 3. Himpunan bilangan cacah yang kurang dari 10 4. Himpunan yang anggotanya bilangan asli yang terbesar

4. y(3) = 41

Langkah-langkah Konstruksi Tes Hasil Belajar Sebelum dibicarakan langkah-langkah konstruksi tes, baik untuk tes uraian maupun tes objektif, dibicarakan dulu penggolongan tujuan pembelajaran menurut Bloom. Terdapat banyak penggolongan tujuan pembelajaran pada ranah kognitif, salah satu di antaranya adalah penggolongan tujuan pembelajaran berdasarkan taksonomi Bloom. Menurut Bloom, tujuan pembelajaran pada ranah kognitif pada dasarnya dapat dibedakan menjadi 6 tingkatan hirarkis, yaitu: (1) pengetahuan (knowledge), (2) pemahaman (comprehension), (3) penerapan (application), (4) analisis (analysis), (5) sintesis (synthesis), dan (6) evaluasi (evaluation). Aspek Pengetahuan Tujuan pembelajaran pada aspek pengetahuan berkenaan dengan ingatan bahan yang telah dipelajari, yang biasanya cenderung bersifat hafalan. Tujuan pada aspek ini telah tercapai apabila siswa sudah mampu menyebutkan kembali informasi yang telah diperolehnya. Tujuan pada aspek ini sudah dapat diungkap apabila siswa telah ingat dan dapat menyebutkan tentang: simbul, fakta, konsep, definisi, dalil, klasifikasi, dan terminologi. Contoh: Pilihlah salah satu jawaban yang Anda anggap benar di antara kemungkinan-kemungkinan jawaban yang benar dengan memberi tanda silang pada lembar jawaban! 1. Formula yang ditulis dalam bentuk
a2 + b2 = c 2
4 5

2. Lambang untuk ... .

adalah lambang

disebut

formula ... . a. Pythagoras b. Euler c. Archimides d. Del Hospital

a. bilangan asli b. bilangan cacah c. pecahan d. bilangan kompleks e. bilangan bulat 24

e. Fibbonaci Aspek Pemahaman Tujuan pembelajaran pada aspek pemahaman berkenaan dengan kemampuan memahami arti suatu bahan pelajaran, namun dalam tingkatan yang rendah, misalnya mampu mengubah suatu informasi ke dalam informasi lain yang lebih bermakna dan memberikan suatu interpretasi. Perbuatannya itu dilakukan atas suruhan tanpa ada kaitannya dengan yang lain. Juga tidak dituntut pemakaiannya dalam situasi yang lain. Menurut Bloom, tujuan pada aspek pemahaman dapat dibedakan menjadi tiga bagian, yaitu: (a) pengubahan (translation), (b) pemberian arti (interpretation), dan (c) pemerkiraan (extrapolation). Contoh: Pilihlah salah satu jawaban yang Anda anggap benar di antara kemungkinan-kemungkinan jawaban yang benar dengan memberi tanda silang pada lembar jawaban! 1. Bilangan 100010 dua dapat ditulis sebagai ... . a. 100010 b. 48 c. 45 d. 42 e. 34 Aspek Penerapan Tujuan pembelajaran pada aspek penerapan berkenaan dengan penggunaan ketentuan-ketentuan, prinsip-prinsip, dan/atau konsepkonsep yang telah diterima siswa. Tujuan pada aspek ini telah tercapai jika siswa telah dapat menggunakan apa yang telah diperolehnya dalam situasi khusus yang baru, baik yang masih terdapat dalam satu mata pelajaran maupun penggunaannya di mata pelajaran lain. Contoh: Pilihlah salah satu jawaban yang Anda anggap benar di antara kemungkinan-kemungkinan jawaban yang benar dengan memberi tanda silang pada lembar jawaban! 2. Himpunan penyelesaian dari
x2 4 = 0

adalah ... .

a. b. {4} c. {2} d. {2, 2} e. {4, 4}

25

1. Aku adalah suatu bilangan. Jika aku dikalikan 7 dan kemudian ditambah dengan kuadrat aku, maka hasilnya adalah nol. Andaikan aku adalah bilangan bulat, maka aku adalah ... . a. 0 b. 7 c. 7 d. 7 atau 0 e. 0 atau 7 Aspek Analisis

2. Misalnya terdapat papan catur raksasa. Seseorang meletakkan 1 butir jagung pada kotak ke-1 papan catur tersebut, 2 butir jagung pada kotak ke-2, 4 butir jagung pada kotak ke-3, 8 butir jagung pada kotak ke-4, dan seterusnya dengan menggunakan aturan yang sama. Banyaknya butir jagung pada kotak terakhir papan catur tersebut adalah ... . a. tak dapat dihitung b. 2 61 butir c. 262 butir d. 2 63 butir e. tak terhingga butir

Tujuan pembelajaran pada aspek analisis ingin melihat apakah siswa telah dapat mengurai suatu sistem ke dalam bagian-bagiannya, mencari hubungan antara bagian-bagiannya, dan mengenal bagianbagian itu sebagai satu sistem yang baru. Contoh: Pilihlah salah satu jawaban yang Anda anggap benar di antara kemungkinan-kemungkinan jawaban yang benar dengan memberi tanda silang pada lembar jawaban! 1. Diketahui m dan n bilangan ganjil positif yang kurang daripada 5 dengan n < m. Bilangan genap positif terbesar yang dapat membagi bilangan dengan bentuk
m 2 n 2 adalah ... .

2. Setiap bilangan rasional mempunyai invers perkalian, kecuali ... . a. 2 b. 1 c. 0 d. 1 e. 2

a. 2 b. 4 c. 6 d. 8 e. 10

26

Aspek Sintesis Tujuan pembelajaran pada aspek sintesis ingin melihat apakah siswa telah dapat bekerja dengan bagian-bagian, elemen-elemen, atau unsur-unsur untuk kemudian menyusunnya menjadi suatu sistem yang baru. Jadi, aspek sintesis berkaitan dengan kemampuan seseorang untuk menyusun sesuatu yang baru dari berbagai unsur, konsep, pola, aturan, dan sebagainya. Unsur-unsur yang telah ia miliki harus ia organisasikan untuk memperoleh sesuatu yang baru. Menulis soal dalam mata pelajaran matematika pada aspek sintesis biasanya sangat sukar, karena sifat matematika yang bersifat terstruktur. Contoh: A. Kerjakan soal-soal berikut ini. 1. Buktikan bahwa jumlah n bilangan ganjil yang pertama adalah n2. 2. Tunjukkan bahwa A = {x | x3 = 1} adalah group perkalian. B. Pilihlah salah satu jawaban yang Anda anggap benar di antara kemungkinan-kemungkinan jawaban yang benar dengan memberi tanda silang pada lembar jawaban! 1. Jika A adalah himpunan penyelesaian dari
x 3 2x 2 + x = 0 ,

2. Jika p dan q adalah akarakar dari


x 2 x 12 = 0
q

dan

maka

banyaknya himpunan bagian A adalah ... . a. 0 b. 1 c. 2 d. 4 e. 8

p < q, maka ( 2 x + 4)dx =


p

... . a. 28 b. 30 c. 35 d. 40 e. 2p + 4 q

Aspek Evaluasi Tujuan pembelajaran pada aspek evaluasi telah dapat dicapai oleh siswa jika siswa telah mampu membuat kriteria, memberikan pertimbangan, mengkaji (kekeliruan, ketepatan, ketetapan), dan mampu menilai. Aspek evaluasi merupakan aspek kelompok kognitif tertinggi tingkatannya, sebab menyangkut semua aspek yang lain. Menulis soal dalam mata pelajaran matematika pada aspek evaluasi biasanya juga sangat sukar.

27

Contoh: Jawablah soal-soal berikut ini. 1. Beberapa orang mengatakan bahwa sistem desimal adalah sistem penulisan bilangan yang paling unggul. Jelaskan mengapa beberapa orang berpendapat seperti itu! 2. Dua dari banyak permasalahan di kota besar adalah peledakan penduduk dan kemacetan lalu lintas. Buatlah perencanaan kota yang dapat mengatasi kemacetan lalu lintas, namun tetap nyaman bagi lingkungan padat penduduk. Jika kita membuat tes yang mengungkap aspek pengetahuan dan pemahaman saja, berarti kita hanya ingin mengukur kemampuan yang rendah. Sebaliknya, jika kita membuat tes yang mengungkap aspek penerapan, analisis, sintesis, dan evaluasi, maka berarti kita mengukur kemampuan yang tinggi. Perlu diketahui bahwa batas antara aspek yang satu dengan aspek yang lain tidak dapat dibuat definitif, sehingga kadang-kadang agak sukar membedakan ciri-ciri soal yang mengungkap masing-masing aspek. Juga tidak semua bentuk tes cocok untuk mengungkap tujuan di semua aspek. Tes objektif, misalnya agak sukar mengungkap tujuan-tujuan di aspek sintesis dan evaluasi, tetapi sangat mudah dipakai untuk mengungkap tujuan-tujuan di aspek pengetahuan, pemahaman, dan penerapan.

28

PENGADMINISTRASIAN TES
Kompetensi dasar : Mahasiswa mampu melakukan pengadministrasian dan pengolahan tes Indikator : 1. Memahami pengadministrasian tes 2. Memahami pengolahan hasil tes 3. Memahami pendekatan penilaian Yang dimaksud dengan pengadministrasian tes adalah : A. Penyusunan perangkat tes Terdapat dua hal yang harus dipertimbangkan: 1. Penyuntingan naskah tes Tes bentuk obyektif sebaiknya tidak dilaksanakan secara lisan Butir tes disusun mulai dari materi yang dibahas paling awal hingga akhir Tingkat kesukaran disusun mulai dari yang termudah hingga sukar Butir tes yang setipe hendaknya dijadikan dalam satu kelompok Tulis petunjuk pengerjaan dengan jelas Atur penyusunan sedemikian rupa sehingga memudahkan testee membaca Susun stem dan seluruh option dalam satu halaman yang sama Hindari meletakkan kunci jawaban dalam pola tertentu Setelah naskah tes disunting, langkah berikutnya adalah penggandaan naskah tes. Tentu saja prosedur penggandaan ini harus dapat 29

2. Penggandaan naskah tes

menjamin

kerahasiaan tidak

tes,

disamping

adanya

jamina testee

hasil dalam

penggandaan

mengganggu

konsentrasi

melaksanakan tes. B. Pelaksanaan Tes 1. Open vs Close Book Open Book Kekuatan Kelemahan 1. Testee tidak terlalu tegang 1. Siswa malas belajar karena 2. Testee akan betanya kepada alasan bebas membuka buku buku ketimbang mencontek saat ujian 3. Siswa akan terbiasa membuat 2. Siswa yang jarang membaca catatan yang baik/ memiliki buku akan menghabiskan buku karena paham waktu untuk mencari jawab manfaatnya di buku 4. Siswa akan terbiasa membaca 3. Kecenderungan siswa malas buku berpikir 4. Siswa dengan kelengkapan belajar minim akan dirugikan Closed book Kekuatan Kelemahan 1. Membiasakan siswa untuk 1. Menimbulkan sikap memahami isi buku mencontek 2. Membiasakan siswa berpikir 2. Siswa belum tentu terlatih sendiri menggunakan buku sebagai 3. Membiasakan siswa sumber belajar membuat rangkuman 2. Tes yang diumumkan vs Dirahasiakan Tes yang dirahasiakan pelaksanaannya mempunyai kelebihan sebagai berikut : 1. Dapat mengukur pengetahuan siap yang dimiliki siswa 2. Memotivasi usaha belajar siswa 3. Sebagai alat peningkatan disiplin belajar siswa Bagaimana dengan hasil tes yang diumumkan atau dirahasiakan ? Hasil tes yang diumumkan Kekuatan Kelemahan 1. Peserta yang lulus, jika 1. Membuat malu peserta yang nilainya bagus akan bangga tidak lulus karena diketahui temannya, 2. Kesempatan demokratis memacu dia untuk terus dapat menjadi protes berprestasi 3. Memerlukan kemampuan 2. Kepercayaan siswa terhadap administrasi yang baik lembaga pendidikan 3. Guru/ dosen akan mengoreksi/memberi nilai 30

dengan cermat Hasil Tes yang dirahasiakan Kekuatan Kelemahan 1. Tidak menuntut kemampuan 1. Tes tidak komunikatif administrative yang baik 2. Dimungkinkan sikap 2. Tidak akan terjadi protes menang sendiri 3. Jika perlu, nilai dapat guru/dosen ditentukan dengan mengikutsertakan factor non tes 3. Tes lisan dan tes tulis Buatlah tabel kekuatan dan kelemahan dari tes tulis dan tes lisan

main oleh

PAN dan PAP

Penilaian Acuan Normatif (PAN) Nilai sekelompok peserta didik (siswa) dalam suatu proses pembelajaran didasarkan pada tingkat penguasaan di kelompok itu. Artinya pemberian nilai mengacu pada perolehan nilai di kelompok itu. Contoh: Suatu kelompok peserta didik (siswa) terdiri dari 9 orang mendapat skor (nilai mentah): 50, 45, 45, 40, 40, 40, 35, 35, 30 Dari skor mentah ini dapat dibaca bahwa perolehan tertinggi adalah 50 dan perolehan terendah adalah 30. Dengan demikian nilai tertinggi diberikan terhadap skor tertinggi, misalnya 10. Secara proporsional skor di atas dapat diberi nilai 10, 9, 9, 8, 8, 8, 7, 7, 6. Cara lain ialah dengan menghitung persentase jawaban benar yang dijawab oleh setiap siswa. Kemudian kepada siswa yang memperoleh persentase tertinggi diberikan nilai tertinggi. Jika skor (nilai mentah) di atas didapat dari 60 butir pertanyaan atau skor maksimalnya 60, maka (perhatikan tabel di bawah ini)! Tabel. 1 31

Menghitung Nilai dari Skor (Nilai Mentah) Nilai mentah 50 45 45 Persentase 83,3 75,0 75,0 jawaban yang benar Nilai 10 9 9 (1-10) Untuk mengubah persentase menjadi 40 40 40 35 35 30 66,7 66,7 66,7 58,5 58,5 50,0 8 8 8 7 7 6

nilai (1-10) dengan cara bahwa

persentase tertinggi diberi nilai 10, ini berarti bahwa 83,3% dihargai 10, maka 75,0% harganya adalah (75,0%/83,3%) x 10 = 9,0. Dapat juga dicari faktor pengali terlebih dahulu, yaitu: 83,3% adalah 10 atau (83,3/100) x n = 10 atau n = 12. Jadi faktor pengalinya adalah 12, sehingga 66,7% pada nilai (1-10) adalah 66,7% x 12 = 7,9 atau 8. Sekelompok siswa terdiri dari 40 orang dalam satu ujian memperoleh nilai mentah sebagai berikut : 55 52 49 48 46 43 43 43 42 39 39 40 40 40 38 38 37 37 37 37 37 36 36 36 36 35 35 35 34 34 34 34 33 33 32 32 30 28 22 21

Penyebaran nilai mentah di atas dapat ditulis seperti tabel berikut: Tabel. 2 Pengolahan Nilai Mentah Menjadi (1-10) No. Nilai Jumlah Mentah Siswa 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 2 55 52 49 48 46 43 42 40 39 38 37 36 35 34 33 32 30 3 1 1 1 1 1 3 1 3 2 2 5 4 3 4 2 2 1 Jika 55 Jika skor diberi 10 maks. 75 maka maka % yg benar 4 5 10,0 73,3 9,5 69,3 9,0 65,3 8,7 64,0 8,4 61,3 7,8 57,3 7,6 56,0 7,3 53,3 7,1 52,0 6,9 50,7 6,7 49,3 6,5 48,0 6,4 46,7 6,2 45,3 6,0 44,9 5,8 42,7 5,5 40,0 Persentase diubah menjadi (1-10) 6 10,0 9,5 9,0 8,7 8,4 7,8 7,6 7,3 7,1 6,9 6,7 6,5 6,4 6,2 6,0 5,8 5,5 32

18 28 1 19 22 1 20 21 1 Jumlah siswa: 40

5,1 4,0 3,8

37,3 29,3 28,0

5,1 4,0 3,8

Jika nilai mentah yang paling tinggi 55, diberi nilai 10 maka nilai untuk: 52 adalah (52/55) x 10 = 9,5. Misalnya dalam ujian tersebut nilai maksimalnya 75, maka besar presentase dihitung sebagai berikut: (55/75) x 100% = 73,3%. Nilai akhir yang dihitung berdasarkan perubahan nilai mentah menjadi nilai (1-10) atau nilai mentah menjadi persentase kemudian menjadi nilai (1-10) hasilnya sama, sebagaimana terlihat pada kolom 4 dan kolom 6 pada tabel 2 di atas. Bilamana jumlah anggota kelompok tidak hanya satu kelas tetapi beberapa kelas sehingga banyaknya peserta didik (siswa) ratusan jumlahnya maka untuk memberi nilai kepada setiap anggota kelompok digunakan statistik sederhana dengan menentukan besarnya skor ratarata kelompok dan simpangan baku kelompok (mean and standard deviation). sedang, normal. Menurut distribusi kurva normal kalau sekelompok peserta didik (siswa) yang memiliki skor rata-rata 60, maka jumlah siswa yang mendapat skor 60 ke atas adalah: 60 sampai dengan (60 + 1.SD) adalah 34,13% (60 + 1.SD) sampai dengan (60 + 2.SD) adalah 13,59% (60 + 2.SD) sampai dengan (60 + 3.SD) adalah 2,14% Begitu pula siswa yang mendapat skor 60 ke bawah adalah: 60 sampai dengan (60 1.SD) adalah 34,13% (60 1.SD) sampai dengan (60 2.SD) adalah 13,59% (60 2.SD) sampai dengan (60 3.SD) adalah 2,14% Dengan kata lain jumlah siswa yang memperoleh skor antara (+ 1.SD sampai dengan 1.SD) adalah 68,26%, yang memperoleh skor antara (+ 2.SD sampai dengan 2.SD) adalah 95,44%. Tabel. 3 Konversi Skor Mentah ke dalam Nilai (1-10) 33 Jumlah dan anggota sangat kelompok kurang. yang hal besar, ini distribusi penyebaran (penyebaran) kemampuannya mulai dari yang paling pandai, pandai, kurang Dalam kemampuan anggota kelompok biasanya digambarkan menurut kurva

Skor Mentah Skor Rata-rata + 2,25SD Skor Rata-rata + 1,75SD Skor Rata-rata + 1,25SD Skor Rata-rata + 0,75SD Skor Rata-rata + 0,25SD Skor Rata-rata 0,25SD Skor Rata-rata 0,75SD Skor Rata-rata 1,25SD Skor Rata-rata 1,75SD Skor Rata-rata 2,25SD

Nilai (1-10) 10 9 8 7 5 6 4 3 2 1

Contoh Perhatikan table. 2, peserta dengan skor mentah 49 mendapat nilai: 37,4 + 6,8n = 49 ( n = besar penyimpangan antara + 2,25 sampai dengan 2,25, maka didapat n = 1, 71. Dengan demikian peserta dengan skor mentah 49 mendapat nilai 8,5.

Pengembangan Butir Soal untuk PAN Di atas telah disebutkan bahwa dasar penentuan nilai akhir adalah kurva normal, artinya peserta ujian dianggap mengikuti kurva normal, yaitu 68,3% dari mereka memiliki kemampuan akademis yang sedang, 13,6% memiliki kemampuan akademis baik, dan 2,3% memiliki kemampuan akademis baik sekali, sebaliknya 13,6% kemampuannya kurang dan 2,3% kemampuannya kurang sekali. Dengan demikian kalau membuat soal yang semuanya sukar akan berakibat hanya sebagian kecil yang lulus, sebaliknya kalau membuat soal yang semuanya mudah maka kebanyakan atau hampir semuanya akan lulus. Dengan kata lain soal yang semuanya sukar atau soal yang semuanya mudah tidak akan memenuhi kondisi kurva normal. Susunlah soal yang sebagian besar tingkat kesukarannya sedang, sebagian kecil ada yang mudah dan ada yang sukar. Dengan penyusunan perangkat soal seperti ini akan dapat diharapkan bahwa peserta yang pintar akan dapat menjawab semua butir soal, sehingga mereka akan ada yang memperoleh nilai tertinggi pada skala (1-10), namun kebanyakan peserta akan dapat menjawab butir-butir pertanyaan yang mudah dan yang sedang, dan sebagian kecil peserta ujian hanya

34

menjawab dengan tepat butir-butir soal yang mudah ditambah sebagian kecil dari butir soal yang sedang, mereka inilah calon peserta yang tidak lulus. Dengan kata lain, mencantumkan butir soal pada saat satu perangkat soal ditentukan oleh kemampuan kelompok yang akan mengikuti ujian, bukan ditentukan konsep-konsep yang harus dikuasai oleh peserta ujian. Dampak pengukuran PAN pada masing-masing individu adalah alat ukur yang digunakan belum pasti dapat mengukur kemampuan maksimal yang dimiliki seseorang (peserta ujian). Penilaian Acuan Patokan (PAP) Penilaian Acuan Patokan (PAP) didasarkan pada adanya tujuan instruksional yang dapat diukur. Tujuan inilah yang dipedomani untuk melaksanakan pembelajaran dan untuk mengembangkan (menulis) alat ukur. Dengan kata lain apa yang direncanakan, maka dilaksanakan dalam proses pembelajaran dan diukur untuk menentukan apakah proses pembelajaran sudah mencapai tujuan. Dengan PAP setiap individu dapat diketahui apa yang telah dan belum dikuasainya. Bimbingan individual untuk meningkatkan penguasaan siswa terhadap materi pelajaran dapat dirancang, demikian pula untuk memantapkan apa yang telah dikuasainya dapat dikembangkan. Guru dan setiap peserta didik (siswa) mendapat manfaat dari adanya PAP. Melalui PAP berkembang upaya untuk meningkatkan kualitas pembelajaran dengan melaksanakan tes awal (pre test) dan tes akhir (post test). Perbedaan hasil tes akhir dengan test awal merupakan petunjuk tentang kualitas proses pembelajaran. Pembelajaran yang menuntut pencapaian kompetensi tertentu sebagaimana diharapkan dan termuat pada kurikulum saat ini, PAP merupakan cara pandang yang harus diterapkan. PAP juga dapat digunakan untuk menghindari hal-hal yang tidak diinginkan, misalnya kurang terkontrolnya penguasaan materi, terdapat siswa yang diuntungkan atau dirugikan, dan tidak dipenuhinya nilai-nilai kelompok berdistribusi normal. PAP ini menggunakan prinsip belajar tuntas (mastery learning). Pada cara ini hanya mereka yang telah menguasai paling sedikit sekian persen soal-soal yang ditanyakan, siswa yang dianggap menguasai materi yang ditanyakan itu. Batas kelulusan itu misalnya dapat menjawab

35

pertanyaan-pertanyaan sebanyak 75%. Bila hendak dikonversi terhadap nilai A, B, C, D atau E, dapat menggunakan pedoman berikut: Tabel. 4 Konversi Angka terhadap Nilai Angka 95 100 87 94 75 86 60 74 Nilai (Huruf) A B C D

<> E (Gagal) Pengelompokan nilai-nilai mentah kedalam huruf-huruf tersebut tanpa adanya alasan ilmiah, hanya rasional saja. Pengembangan Butir Soal untuk PAP Pengembangan butir soal untuk PAP tingkat kesukarannya tidak diperhatikan karena maksud soal ini bukan membedakan siswa yang pandai dari siswa yang kurang, tetapi melihat penguasaan seseorang terhadap bahan atau tujuan instruksional. Juga daya pembeda tidak diperhatikan dalam PAP, tetapi yang menjadi perhatian ialah daya serap siswa. PAN dan PAP, keduanya digunakan dalam penilaian kognitif (pengetahuan). Kedua pendekatan ini akhirnya dapat menggunakan angka (1-10) atau (1-100) atau A, B, C, D, E. Sedangkan penilaian untuk yang non kognitif (sikap, keberhasilan, disiplin misalnya) dinyatakan secara verbal seperti baik sekali, baik, sedang, kurang, atau kurang sekali. Perbandingan PAP dan PAN No. Penilaian Acuan Patokan (PAP) Penilaian Acuan Normatif (PAN) 1. PAP digunakan untuk PAN digunakan untuk menentukan status setiap direncanakan Tidak memperdulikan perbedaan individual Keragaman bukan menjadi faktor penentu dalam PAP, tes akan membedakan peserta yang telah menguasai menentukan status setiap peserta lain Perbedaan individual mendapat penekanan dalam PAN Pengembang PAN berupaya untuk menghasilkan tes-tes yang cukup berarti peserta terhadap tujuan yang terhadap kemampuan peserta 2. 3.

walaupun pada akhirnya tes- menghasilkan keragaman yang

36

No. Penilaian Acuan Patokan (PAP) Penilaian Acuan Normatif (PAN) dan belum menguasai 4. PAP secara khusus PAN mengukur kompetensi umum menekankan pada ranah (kawasan ) tertentu yang 5. harus dipelajari peserta didik Butir-butir soal ditulis PAN menghasilkan penguasaan berdasarkan pengelompokkan, setiap kelompok terpusat pada 6. tujuan tertentu PAP memberikan indikator tujuan telah tercapai 7. PAP memiliki standar penguasaan untuk semua peserta yaitu berhasil atau gagal PAN memberikan hasil terhadap penguasaan secara umum mengenai pembelajaran PAN memiliki kecendrungan untuk menggunakan rentangan tingkat penguasaan seseorang terhadap kelompoknya, mulai dari yang sangat istimewa sampai dengan yang mengalami kesulitan yang 8. PAP memberikan penjelasan tentang penguasaan sejumlah tujuan Mudah menentukan materi yang belum dikuasai peserta serius PAN memberikan skor yang menggambarkan penguasaan peserta didik secara umum dalam bidang pembelajaran tertentu peserta didik

yang lebih meyakinkan bahwa pengukuran yang meyakinkan

kelompok terhadap satu atau kelompok 9. Sukar menentukan dan memberi bantuan materi yang belum

didik dan mudah memberikan dikuasai peserta didik 10 bantuan untuk menguasainya Baik PAP maupun PAN diperlukan dalam pengukuran, karena keputusan yang tepat untuk memilih alat ukur yang digunakan akan sangat menentukan, misal alat ukur untuk UN berbeda dengan alat ukur untuk UMPT

Analisis Butir Soal Untuk Soal Pilihan Ganda

37

Tujuan Pembelajaran : Mahasiswa mampu melakukan analisis butir soal dalam upaya menentukan butir soal yang baik, yang memenuhi kriteria distraktor DP, TK dan berfungsinya

Soal

tes adalah salah satu faktor di antara banyak faktor di antara

banyak faktor di luar diri siswa yang berpengaruh kepada tinggi rendahnya hasil tes. Walaupun tes yang dibuat telah disusun berdasar kriteria yang telah ditentukan, tetapi kadang belum demikian halnya, dan ini diketahui setelah tes dikenakan kepada sekelompok siswa. Oleh karena itu sangat dianjurkan untuk mencobakan dulu soal yang akan digunakan kepada siswa sesungguhnya. Berdasar fungsi tes, maka soal tes perlu dianalisis dalam hal : daya beda, derajat kesukaran dan berfungsi/tidaknya distraktor. Namun perlu diketahui, bahwa analisis soal tidak dapat menggantikan usaha merencanakan, mengkontruksi dan menyusun stem soal. Hal tersebut harus tetap dilakukan. Tingkat Kesukaran (Difficulty) Tingkat kesukaran butir soal menyatakan proporsi banyaknya peserta yang menjawab benar butir soal tersebut terhadap seluruh peserta tes. Indeks tingkat kesukaran butir soal dapat dirumuskan dengan rumus berikut. P=
B N

dengan P adalah indeks tingkat kesukaran suatu butir soal, B adalah banyaknya peserta tes yang menjawab benar butir soal tersebut, dan N adalah banyaknya seluruh peserta tes. Berdasarkan rumus tersebut, maka rentang nilai indeks tingkat kesukaran adalah:
0 P 1

Berdasarkan rumus itu pula dapat disimpulkan bahwa semakin tinggi nilai P, maka semakin mudah suatu butir soal dan semakin rendah nilai P maka semakin sukar butir soal tersebut. Semakin tinggi TK, maka semakin mudah soal tersebut, sehingga tingkat kesukaran disebut juga derajat kemudahan. Karena asumsi dasar yang digunakan dalam pengukuran adalah perbedaan individu, maka jika soal dengan p=0 atau p=1, tidak

38

akan memberika kontribusi apapun terhadap perbedaan kemampuan peserta tes, sebab ke dua peserta akan sama-sama betul/ sama-sama salah. Ada beberapa rumus untuk menentukan TK, rumus diatas adalah yang paling umum digunakan : 1. proporsi menjawab benar maksimum 2. skala kesukaran linier 3. indeks Davis 4. Skala bivariat Terdapat kelemahan terhadap TK, yakni : Tingkat kesukaran p sebenarnya ukuran kemudahan soal, makin tinggi p maka makin mudah soalnya TK tidak berhubungan linier dengan skala kesukaran soal
p= x S N Sm m

skor

Pada tingkat

analisis

tingkat

kesukaran, konteks

maka

pengembang atau

tes

harus yang

menentukan kapan suatu butir dipertahankan dalam suatu tes dari sisi kesukaran. Dalam penelitian penilaian menggunakan pendekatan acuan norma (PAN), untuk memperoleh variabel terikat yang semakin menyebar, maka butir soal yang semakin mendekati tingkat kesukaran 0,5, semakin baik. Misalnya peneliti memutuskan bahwa suatu butir soal dipakai jika mempunyai tingkat kesukaran pada interval 0,20 P 0,80 atau 0,25 P 0,75 atau 0,30

P 0,70 tergantung kepada urgensi penelitian. Biasanya, yang dipakai


sebagai kriteria butir yang baik adalah 0,30 P 0,70. Pada penilaian yang menggunakan pendekatan acuan patokan (PAP), misalnya pada pelaksanaan kurikulum berbasis kompetensi atau KTSP, analisis tingkat kesukaran menjadi tidak relevan untuk dibicarakan, karena yang terpenting pada kurikulum berbasis kompetensi adalah apakah peserta didik telah memenuhi standar minimal kelulusan atau belum. Pada pelaksanaan KTSP, seorang guru pasti mengharapkan semua butir soal dapat dikerjakan oleh semua siswa, yang berarti kalau dikaitkan dengan tingkat kesukaran, maka yang diharapkan adalah butir soal yang tingkat kesukarannya tinggi. Contoh

39

Suatu tes pilihan ganda terdiri dari 15 butir dikenakan kepada 10 siswa. Sebaran skor untuk masing-masing butir dan skor total peserta tes tampak pada tabel berikut. Nomo r Urut Siswa 1 2 3 4 5 6 7 8 9 10 Nomor Butir Soal 1 1 0 1 0 0 1 0 1 1 1 2 1 0 0 1 1 1 0 1 1 0 3 1 1 1 1 0 1 1 1 1 1 4 0 1 1 1 0 1 0 1 1 1 5 1 0 1 1 0 1 1 1 1 1 6 0 0 1 1 1 1 0 1 1 1 7 0 0 1 1 1 1 1 1 1 1 8 1 1 1 1 1 0 0 1 1 1 9 1 1 1 1 1 0 1 1 1 1 1 0 1 0 1 1 0 0 0 1 1 0 1 1 0 1 1 1 1 1 1 1 0 1 1 2 1 0 1 1 1 1 0 1 1 1 1 3 1 0 1 0 1 1 1 1 0 1 1 4 0 1 1 0 0 1 0 1 0 1 Skor 1 Tota 5 l 1 10 0 6 1 14 0 11 1 9 1 12 1 7 1 15 1 12 1 13

Dari tabel tersebut dapat diperoleh indeks tingkat kesukaran masingmasing butir sebagai berikut. 6 6 9 8 P 1 = 10 = 0,6 , P2 = 10 = 0,6 , P3 = 10 = 0,9 , ... , P 10 = 10 = 0,8 Misalnya diberikan batasan bahwa butir soal yang baik dari sisi tingkat kesukaran adalah 0,30 P 0,70, maka butir yang tidak baik adalah butir soal nomor 3, 5, 7, 8, 9, 11, 12, dan 15. Misalnya diberikan batasan bahwa butir soal yang baik dari sisi tingkat kesukaran adalah 0,20 P 0,80, maka butir yang tidak baik adalah butir soal nomor 3, dan 9. b. Daya Pembeda (Discrimination Power) Suatu butir soal mempunyai daya pembeda baik jika kelompok siswa pandai menjawab benar butir soal lebih banyak daripada kelompok siswa tidak pandai. Dengan demikian, daya pembeda suatu butir soal dapat dipakai untuk membedakan siswa yang pandai dan tidak pandai. Sebagai tolok ukur pandai atau tidak pandai adalah skor total dari sekumpulan butir yang dianalisis. Cara yang biasa dipakai untuk mencari indeks daya beda adalah sebagai berikut. Peserta tes diurutkan dari skor total tertinggi sampai dengan skor total terrendah. Berdasarkan aturan tertentu, peserta tes dikelompokkan menjadi dua kelompok, yaitu kelompok atas (pandai) dan kelompok bawah (tidak pandai). Biasanya penentuan itu didasarkan atas mediannya, yang berarti separuh dari peserta tes adalah kelompok atas dan separuh dari peserta tes adalah kelompok bawah. Jika peserta tesnya 40

dalam jumlah besar, dapat digunakan aturan bahwa 27% urutan teratas adalah kelompok atas dan 27% urutan terbawah adalah kelompok bawah. Hal ini didasarkan pada pengalaman empirik bahwa 27% kelompok atas dan 27% kelompok bawah dapat mewakili separuh kelompok atas dan separuh kelompok bawah. Indeks daya pembeda dirumuskan sebagai berikut.
a b 1. D = N N a b B B

dengan D adalah indeks daya pembeda butir soal, B a adalah banyaknya peserta tes pada kelompok atas yang menjawab benar, Na adalah banyaknya peserta tes pada kelompok atas, B b adalah banyaknya peserta tes pada kelompok bawah yang menjawab benar, dan N b adalah banyaknya peserta tes pada kelompok bawah. Jika pembagian menjadi kelompok atas dan kelompok bawah didasarkan kepada median, maka banyaknya peserta tes pada kelompok atas sama dengan banyaknya peserta tes pada kelompok bawah. Jika pembagiannya didasarkan atas rerata, maka bisa jadi banyaknya peserta tes pada kelompok atas tidak sama dengan banyaknya peserta tes pada kelompok bawah.

Contoh Suatu tes pilihan ganda terdiri dari 15 butir dikenakan kepada 10 siswa. Sebaran skor untuk masing-masing butir dan skor total peserta tes tampak pada tabel berikut. Nomo r Urut Siswa 1 2 3 4 5 6 7 8 9 10 Nomor Butir Soal 1 1 0 1 0 0 1 0 1 1 1 2 1 0 0 1 1 1 0 1 1 0 3 1 1 1 1 0 1 1 1 1 1 4 0 1 1 1 0 1 0 1 1 1 5 1 0 1 1 0 1 1 1 1 1 6 0 0 1 1 1 1 0 1 1 1 7 0 0 1 1 1 1 1 1 1 1 8 1 1 1 1 1 0 0 1 1 1 9 1 1 1 1 1 0 1 1 1 1 1 0 1 0 1 1 0 0 0 1 1 0 1 1 0 1 1 1 1 1 1 1 0 1 1 2 1 0 1 1 1 1 0 1 1 1 1 3 1 0 1 0 1 1 1 1 0 1 1 4 0 1 1 0 0 1 0 1 0 1 1 5 1 0 1 0 1 1 1 1 1 1 Skor Tota l 10 6 14 11 9 12 7 15 12 13

Untuk mencari indeks daya pembeda dengan cara pertama, peserta tes diurutkan dari skor total tertinggi ke terrendah seperti pada tabel berikut.
No Urut Sisw 1 2 3 4 5 Nomor Butir Soal 6 7 8 9 1 1 1 1 1 1 Skor Total KEL

41

8 3 10 9 6 4 1 5 7 2

1 1 1 1 1 0 1 0 0 0

1 0 0 1 1 1 1 1 0 0

1 1 1 1 1 1 1 0 1 1

1 1 1 1 1 1 0 0 0 1

1 1 1 1 1 1 1 0 1 0

1 1 1 1 1 1 0 1 0 0

1 1 1 1 1 1 0 1 1 0

1 1 1 1 0 1 1 1 0 1

1 1 1 1 0 1 1 1 1 1

0 1 1 0 1 0 1 1 0 0 0

1 1 1 1 0 1 1 0 1 1 1

2 1 1 1 1 1 1 1 1 0 0

3 1 1 1 0 1 0 1 1 1 0

4 1 1 1 0 1 0 0 0 0 1

5 1 1 1 1 1 0 1 1 1 0

15 14 13 12 12 11 10 9 7 6

Atas Atas Atas Atas Atas Bawa h Bawa h Bawa h Bawa h Bawa h

Untuk butir nomor 1, misalnya, indeks daya pembeda dapat dicari dengan cara berikut.
5 1 a b D1 = N N = 5 = 0,8 5 a b Dengan cara yang sama, diperoleh: D2 = 0, D3 = 0,2, D4 = 0,6, D5 = 0,2, D6 = 0,6, D7 = 0,4, D8 = 0, D9 = 0,2, D10 = 0,2, D11 = 0, D12 = 0,4, D13 = 0,2, D14 = 0,6, dan D15 = 0,4.
B B

Perhatikan kembali indeks daya pembeda dirumuskan sebagai berikut.


a b D= N N a b B B

Perhatikan bahwa Na merupakan tingkat kesulitan butir pada siswaa siswa kelompok atas, sedangkan Nb merupakan tingkat kesulitan pada b siswa-siswa kelompok bawah. Dengan demikian, indeks daya beda suatu butir dapat dicari dari formula berikut. D = Pa Pb dengan Pa adalah tingkat kesulitan pada kelompok atas dan Pb adalah tingkat kesulitan pada kelompok bawah. Biasanya, suatu butir soal dikatakan mempunyai daya beda yang baik apabila indeks daya bedanya sama atau lebih dari 0,30. (jadi, D 0,30).
M M p t SD

2.

korelasi point biserial

r = bis

p q

42

Mp benar Mt SD P q

= rerata skor pada tes dari peserta tes yang memiliki jawaban = rerata skor total = standar deviasi skor total = proporsi peserta tes yang jawabannya benar pd soal = 1-p

3. Rumus korelasi product momen


r= N XY ( X )(Y ) ( N X 2 ( X ) 2 )( N Y 2 ( Y ) 2 )

c. Berfungsinya Pengecoh Pengecoh yang baik harus dipilih oleh peserta tes. Untuk menentukan apakah pengecoh berfungsi atau tidak, biasanya, diambil nilai ambang 5%. Artinya, salah satu syarat agar pengecoh dikatakan berfungsi baik adalah jika pengecoh tersebut dipilih oleh paling sedikit 5% peserta tes. Pada peserta mata tes. pelajaran tertentu, seperti misalnya matematika, penyelesaian pengecoh disusun berdasarkan kesalahan yang mungkin dilakukan oleh Misalnya stemnya adalah Himpunan persamaan kuadrat berikut.
4 x 2 1 = 0 4 x 2 1 = 0

adalah ... .

Kunci jawaban dari butir soal tersebut dapat dicari dari pengerjaan

(2 x +1)(2 x 1) = 0 2x + 1 = 0 atau 2x 1 = 0 x=1 2 atau x =


1 HP = { 1 2 , 2 } 1 2

Untuk menentukan pengecoh dari stem tersebut, kesalahan yang mungkin dilakukan oleh siswa. Diduga ada siswa yang mengerjakan soal tersebut dengan cara berikut.
4 x 2 1 = 0 4 x 2 1 = 0

(4 x +1)(4 x 1) = 0 4x + 1 = 0 atau 4x 1 = 0
x=1 4 atau x =
1 HP = { 1 4 , 4 } 1 4

4 x 2 =1
x2 = 1
4

x=

1 2

HP = { 1 2 }

43

4 x 2 1 = 0

4 x 2 1 = 0

4 x 2 =1
x2 = 1
4

3x 2 = 0 x2 = 0

x=

1 4

x=0
HP = {0}

HP = { 1 4 }

Dengan pemikiran seperti itu, maka butir soal tersebut dapat disusun seperti berikut.
Himpunan penyelesaian persamaan kuadrat 4 x 2 1 = 0 adalah ... . a. {0} b. { 1 4 } c. { 1 2 }
1 1 1 d. { 1 4 , 4 }e. { 2 , 2 }

Kecuali dipilih oleh paling sedikit 5% peserta tes, pengecoh yang baik harus lebih mengecoh kelompok bawah daripada kelompok atas. Artinya, peserta tes kelompok bawah yang memilih pengecoh tersebut lebih banyak daripada peserta tes kelompok atas. Perhatikan contoh berikut. Contoh:
Berikut ini terdapat sebaran jawaban sekelompok peserta tes untuk butir soal tertentu.

Kelompok Kelompok Atas 1 Kelompok Bawah 9 Keterangan: kunci jawaban C

B 5 5

Pilihan Jawaban C D 42 26 4 3

E 0 9

Butir soal tersebut mempunyai indeks tingkat kesukaran P =


42 26 52 52

68 104

= 0,65 dan D =

= 0,31, yang berarti merupakan butir soal yang cukup baik untuk

mengambil data prestasi belajar pada suatu penelitian, sebab 0,30 dan D

P 0,70

0,30. Namun demikian, pengecoh B dan pengecoh D tidak berfungsi

baik, sebab kelompok bawah tidak lebih banyak yang memilih pengecohpengecoh tersebut dibandingkan dengan kelompok atas.

44

ANALISIS BUTIR SOAL URAIAN

1). Tingkat Kesukaran Indeks tingkat kesukaran untuk tes uraian dirumuskan sebagai berikut. P=
S Smaks

dengan P adalah indeks tingkat kesukaran, S adalah rerata untuk skor butir, dan Smaks adalah skor maksimum untuk butir tersebut. Contoh: Misalnya terdapat 5 butir soal uraian yang dikenakan pada 10 orang siswa. Setiap butir diskor dengan skala 10 (skor minimal 1 dan skor maksimal 10). Sebaran skor mereka adalah sebagai berikut.

45

No Butir 1 2 3 4 5 Skor Siswa

1 6 7 6 5 8 32

2 9 8 9 7 9 42

3 7 7 6 8 7 35

No Urut Siswa 4 5 6 7 9 9 9 10 9 46 7 7 7 8 7 36 4 5 5 4 6 24 7 8 7 8 7 37

Jumla 8 6 7 6 6 8 33 9 5 7 8 6 7 33 10 5 3 4 4 6 22 h Skor 65 66 67 66 74

Total

Dalam kasus ini, skor maksimal untuk masing-masing butir soal adal 10, sehingga indeks tingkat kesukaran untuk butir soal nomor 1 dicari sebagai berikut.
P1 =
S Smaks 65

= 10 =
10

6,5 10

= 0,65

Dengan cara yang sama, diperoleh: P2 = 0,66; dan P5 = 0,74. 2). Daya Pembeda

P3 = 0,67;

P4 = 0,66;

Indeks daya pembeda dicari dengan mencari koefisien korelasi antara skor butir dengan skor total sebagai berikut. D = rpbis =
n XY ( X)(Y) ( n X 2 ( X) 2 )( n Y 2 ( Y) 2 )

dengan X adalah skor butir dan Y adalah skor total

Contoh: Untuk menghitung indeks daya pembeda untuk butir soal pertama, dicari koefisien korelasi antara skor butir pertama dengan skor total, sebagai berikut.
No Urut Sisw a Skor Butir ke-1 (X) Skor Total Sisw a (Y) XY 1 2 3 4 5 6 7 8 9 10 Total

65

32

42

35

46

36

24

37

33

33

22

340

192

378

245

414

252

96

259

198

165

110

2309

46

X2 Y2

36 1024

81 1764

49 1225

81 2116

49 1296

16 576

49 1369

36 108 9

25 108 9

25 484

447 1203 2

Indeks daya pembeda untuk butir soal nomor 1 dicari sebagai berikut, D1 = rpbis = =
n XY ( X)(Y) ( n X 2 ( X) 2 )(n Y 2 ( Y) 2 )

((10)(447) 652 )((10)(12032) 3402 ) = 0,92

(10)(2309) - (65)(340)

Dengan cara yang sama, diperoleh D2 = 0,94; D3 = 0,91; D4 = 0,90; dan D5 = 0,84.

VALIDITAS DAN RELIABILITAS Validitas Banyak definisi mengenai validitas tes. Nunnaly (1978: 86) dan Allen dan Yen (1979, 95) mengatakan bahwa suatu tes disebut valid jika tes tersebut mengukur apa yang seharusnya diukur. Ini adalah definisi validitas yang banyak digunakan orang. Pada definisi tersebut, istilah validitas dikaitkan dengan instrumen, yaitu tes.

47

Namun demikian, banyak ahli yang mendefinisikan validitas dalam kaitannya dengan skor tes, seperti yang dikatakan oleh Guilford (1954: 398) bahwa istilah validitas menunjuk kepada sejauh mana skor tes dapat memprediksi kriteria yang telah ditentukan. Senada dengan itu, Cronbach (1971) seperti yang ditulis oleh Crocker dan Algina (1986:217) mendefinisikan validasi sebagai suatu proses di mana pengembang tes atau pengguna tes mengumpulkan bukti-bukti untuk mendukung berbagai jenis inferensi yang dapat ditarik dari skor tes. Definisi lebih komprehensif dari validitas dikemukakan oleh Messick (1989: 13) sebagai berikut: validity is an integrated evaluative judgment of the degree to which empirical evidence and theoretical rational support the adequacy and appropriateness of inference and actions based on test scores or other modes of assessment . Pada sisi lain, Standards for Educational and Psychological Testing Tahun 1999 (dalam Kane, 2001: 328) mendefinisikan validitas sebagai the degree to which evidence and theory support the interpretation of test score entailed by proposed uses of test. Berdasar itu dapat dikatakan bahwa validitas adalah penilaian evaluatif terintegrasi yang dilakukan oleh penilai mengenai seberapa jauh bukti-bukti empirik dan rasional teoritis mendukung ketepatan inferensi dan tindakan berdasar skor tes atau asesmen yang lain. Jenis-jenis Validitas Konsep teoritik validitas berkembang dari tahun ke tahun. Pada mulanya validitas berkenaan dengan prediksi dari kriteria spesifik, seperti yang dikatakan oleh Guilford pada tahun 1946 bahwa tes adalah valid untuk sesuatu yang berkorelasi dengannya. Kemudian, fokus dari validitas adalah interpretasi dari skor tes. Pergeseran dari prediksi ke eksplanasi sebagai fokus dari validitas ini, menyebabkan bahwa penggunaan, relevansi, dan pentingnya prediksi tidak dapat diukur ketika tidak ada skor yang dapat dipakai untuk melakukan prediksi. Pada tahun 1954, APA (American Psychological Assosiation), menyatakan ada empat jenis validitas, yaitu: validitas isi, validitas prediktif, validitas konkuren, dan validitas konstruk. Kemudian, pada tahun 1966, APA mereduksinya menjadi tiga jenis (Messick, 1989:18), yaitu validitas isi (content validity), validitas berdasar kriteria (criterionrelated validity), dan validitas konstruk (construct validity). Penggolongan validitas ke beberapa jenis tersebut didasarkan kepada tujuan khusus dari 48

instrumen yang dikenakannya. Pada 1966 Standards, dikatakan bahwa validitas isi bertujuan untuk menentukan apakah yang ditampak-kan secara individual dapat pula ditampakkan pada keseluruhan ( universe) situasi; validitas berdasar kriteria bertujuan untuk memprediksi keadaan masa depan individual atau keadaannya sekarang berdasar beberapa variabel yang berbeda dengan tes yang ditempuhnya; dan validitas konstruk bertujuan untuk menarik kesimpulan mengenai tingkatan kualitas seseorang berdasarkan kepada kinerjanya dalam tes. Walaupun ada tiga jenis validitas di atas, Cronbach (1984), seperti yang dinyatakan oleh Messick (1989:19), menekankan bahwa penggolongan validitas ke dalam tiga tipe tersebut tidaklah saling pilah. Cronbach mengatakan bahwa the end goal of validation is explanation and understanding, sehingga dia sampai kepada kesimpulan bahwa the profession is coming around to the view that all validation is construct validation. Jadi, Cronbach mengatakan bahwa pada dasarnya validitas adalah validitas konstruk. (a) Validitas isi Pada beberapa instrumen, validitas bergantung kepada ketepatan pemilihan sampel atas domain atau isi tertentu suatu behaviour (tingkah laku). Dengan demikian, suatu instrumen valid menurut validitas isi apabila isi instrumen tersebut telah merupakan sampel yang representatif dari keseluruhan isi hal yang akan diukur. Dikatakan oleh Nunnally (1978, 92) bahwa ada dua standar utama untuk meyakinkan adanya validitas isi, yaitu: (1) koleksi butir-butir soal yang representatif terhadap semestanya, dan (2) metode penyusunan tes yang masuk akal (sensible). Dalam tes prestasi, untuk meyakinkan bahwa butir-butir soal telah mewakili tujuan pembelajaran atau kompetensi dasar tertentu, diperlukan adanya outline rinci, atau blue-print (kisi-kisi) yang memuat pertanyaan atau permasalahan apa saja yang harus diujikan. Dalam kasus-kasus seperti ini, penilaian kualitas kisi-kisi merupakan bagian penting untuk menilai validitas isi. Untuk tes hasil belajar, supaya tes mempunyai validitas isi, harus diperhatikan hal-hal berikut. (1)Bahan ujian (tes) harus merupakan sampel yang representatif untuk mengukur sampai seberapa jauh tujuan pembelajaran tercapai ditinjau dari materi yang diajarkan maupun dari sudut proses belajar.

49

(2)Titik berat bahan yang harus diujikan harus seimbang dengan titik berat bahan yang telah diajarkan. (3)Tidak diperlukan pengetahuan lain yang tidak atau belum diajarkan untuk menjawab soal-soal ujian dengan benar. Untuk mempertinggi validitas isi, disarankan agar pembuat soal melalui langkah-langkah: (1) Mengidentifikasikan bahan-bahan yang telah diberikan beserta tujuan instruksionalnya atau indikator-indikator dari kompetensi dasar yang diukur. (2) Membuat kisi-kisi dari soal tes yang akan ditulis. Cara yang ditempuh adalah membuat tabel dua jalan yang memuat isi pokok bahasan yang akan diukur dan aspek tingkah laku yang akan dinilai (menurut Taksonomi Bloom, misalnya). (3) Menyusun soal tes beserta kuncinya. Dalam hal ini menyusun kunci sesaat setelah menulis soal tes sangat dianjurkan. (4) Menelaah soal tes sebelum dicetak. Penelaahan ini akan lebih baik apabila dilakukan oleh satu tim yang terdiri dari ahli-ahli yang relevan. Kadang-kadang pengembang tes menyatakan bahwa penulisan butirbutir tes dengan baik dari domain-domain spesifik (di kisi-kisi) yang disusun secara cermat telah memenuhi validitas isi. Tetapi ini sebenarnya bukan merupakan kegiatan validasi isi. Kegiatan validasi isi adalah serangkaian kegiatan yang berlangsung setelah bentuk awal instrumen telah selesai ditulis. Kegiatan ini dapat dilakukan oleh pengembang tes ataupun oleh pengguna tes yang tidak terlibat dalam penyusunan tes. Untuk menilai apakah suatu instrumen mempunyai validitas isi yang tinggi, yang biasanya dilakukan adalah melalui experts judgment (penilaian yang dilakukan oleh para pakar). Dalam hal ini para penilai (yang sering disebut subject-mater experts), melakukan dua hal pokok. Pertama, para penilai menilai apakah kisi-kisi yang dibuat oleh pengembang tes telah menunjukkan bahwa klasifikasi kisi-kisi telah mewakili isi (substansi) yang akan diukur atau telah sesuai dengan konsep yang telah didefinisikan. Kedua, para penilai menilai apakah masing-masing butir tes yang telah disusun cocok atau relevan dengan klasifikasi kisi-kisi yang ditentukan. Cara ini sering disebut relevance ratings (penilaian berdasar relevansi). Pada cara ini, biasanya, kepada para penilai diberikan suatu rentangan skala tertentu (misalnya 1-10, di mana 1 menunjukkan sangat-sangat tidak relevan dan 10 menunjukkan sangat-sangat relevan, atau hanya dua kemungkinan yaitu baik dan tidak 50

baik), kemudian ditentukan suatu rating (yang merupakan rataan dari para penilai) untuk masing-masing klasifikasi kisi-kisi dan masing-masing butir soal. Hasil dari relevance ratings ini dapat berupa modifikasi kisi-kisi, atau modifikasi butir soal, atau keduanya. Secara singkat, pada tingkat minimum, langkah-langkah dalam melakukan validasi isi, Crocker dan Algina menawarkan adanya empat langkah berikut: (1)Mendefinisikan domain kinerja yang akan diukur (pada tes prestasi dapat berupa serangkaian tujuan pembelajaran atau pokok-pokok bahasan atau sejumlah kompetensi dasar yang diwujudkan dalam kisikisi), (2)Membentuk sebuah panel yang ahli ( qualified) dalam domain-domain tersebut, (3)Menyediakan kerangka terstruktur untuk proses pencocokan butir-butir soal dengan domain performans yang terkait (kerangka terstruktur ini biasanya berwujud tabel-tabel atau matriks-matriks), dan (4)Mengumpulkan data dan menyimpulkan berdasar data yang diperoleh dari proses pencocokan pada Langkah (3). Allen dan Yen (1979:95-96) membedakan validitas isi menjadi dua tipe, yaitu: (1) validitas tampang (face validity) dan (2) validitas logik (logic validity) atau validitas sampling (sampling validity). Validitas tampang dipenuhi apabila terdapat similaritas (kesesuaian) antara hasil tes dengan trait (kemampuan) yang relevan yang diukur dengan tes tersebut. Misalnya, suatu tes aritmetika mempunyai validitas tampang apabila tes tersebut mengukur kinerja peserta tes dalam melakukan pengerjaan aritmetika. Di sisi lain, validitas logik dipenuhi apabila behaviour yang diukur oleh tes dan disain logik dari butir-butir tes telah mencakup aspek-aspek penting dalam domainnya. Validitas logik ini sangat esensial dalam pengembangan tes prestasi. Biasanya, yang disebut dengan validitas isi pada umumnya adalah validitas logik menurut Allen dan Yen. Dalam perkembangannya, validitas isi menjadi kontroversial sebab banyak pakar pengembang tes yang mendefinisikan validitas dalam arti yang terkait dengan inferensi yang ditarik dari skor tes (lihat definisi dari Messick di muka). Pada hal studi pada validitas isi jarang yang bertumpu pada data skor tes. Biasanya, isi suatu tes divalidasi melalui metode subjektif seperti misalnya meminta penilai untuk memberi rating (skala) pada butir-butir tes apakah sesuai dengan klasifikasi kisi-kisi. Oleh karena 51

itu, banyak yang mengusulkan penggantian nama validitas isi dengan nama lain yang lebih cocok, misalnya relevansi isi ( content relevance), atau representasi isi (content representation), atau keterwakilan isi (content represen-tativeness) (Sireci dan Geisinger, 1992:17). Berikut ini adalah sebuah contoh lembar kerja untuk validasi isi. Contoh Lembar untuk Melihat Kecocokan Kisi-kisi dengan Kemampuan (Kompetensi Dasar) yang Diukur

Petunjuk: Perhatikan kisi-kisi yang telah dibuat oleh pengembang tes. Berikan komentar mengenai kisi-kisi tersebut dalam hubungannya dengan kompetensi dasar yang akan diukur, misalnya dalam kaitannya dengan halhal berikut: (1) Apakah kompetensi dasar yang akan diukur telah lengkap? (2) Jika terlalu banyak, kompetensi dasar saja yang harus dikurangi, dan jika terlalu sedikit, kompetensi dasar apa yang perlu ditambahkan. Komentar Pereview:

Contoh Tabel untuk Melihat Kesesuaian Butir Soal dengan Kisikisi Petunjuk: Berilah tanda chek pada kolom yang sesuai, jika butir soal telah memenuhi kriteria yang disebutkan. Jika tidak sesuai, berilah tanda silang, dan berikan komentar perbaikan mengenai butir soal tersebut.
No Kriteria penelahaan Nomor Butir 1 2 4 0

Segi Materi (Substansi) 1 Butir soal sesuai dengan kompetensi dasar yang ingin dicapai 2 Materi telah dipelajari oleh siswa 3 Kunci jawaban pada butir soal telah benar Segi Konstruksi 4 Pokok soal dirumuskan dengan singkat dan jelas 5 Pokok soal bebas dari pernyataan yang dapat menimbulkan penafsiran ganda 6 Butir soal tidak tergantung kepada jawaban butir soal yang lain 7 Pengecohnya sudah disusun dengan baik Segi Bahasa 8 Soal menggunakan bahasa Indonesia yang baik dan benar 9 Soal menggunakan bahasa yang komunikatif 10 Soal tidak menggunakan bahasa yang berlaku setempat

(b) Validitas berdasar kriteria 52

Oleh Allen dan Yen (1979:97) dikatakan bahwa validitas berdasar kriteria (criterion-related validity) digunakan ketika skor tes dapat dihubungkan dengan sebuah kriteria tertentu. Dalam hal ini kriteria adalah tingkah laku tertentu yang skor tes dapat digunakan untuk memprediksinya. Dengan demikian, validitas berdasar kriteria adalah validitas yang ditinjau dari segi hubungan dengan alat pengukur lain yang dipandang sebagai kriteria untuk menentukan tinggi rendahnya validitas alat ukur yang sedang dipersoalkan. Validitas semacam ini lebih menekankan pada kriterianya, bukan pada instrumennya itu sendiri. Berbeda dengan validitas isi, validitas berdasar kriteria ini menggunakan teknik-teknik empiris hubungan antara skor instrumen yang dipersoalkan dengan kriteria luar, sehingga identifikasi kriteria menjadi penting. Beberapa ciri yang harus dimiliki oleh suatu ukuran kriteria adalah relevansi, reliabel, dan bebas dari bias. Ciri pertama adalah relevansi. Peneliti harus menilai apakah kriteria yang telah dipilih itu benar-benar menggambarkan ciri-ciri yang tepat dari tingkah laku yang diselidiki. Jika kriteria tersebut tidak mencerminkan atribut yang sedang diteliti, maka akan tidak ada artinya menggunakan kriteria tersebut. Ciri kedua adalah reliabilitas. Hal ini berarti bahwa kriteria tersebut harus merupakan ukuran yang ajeg bagi atribut tersebut, dari waktu ke waktu dan dari satu situasi ke situasi yang lain. Apabila kriteria itu sendiri tidak konsisten, maka tidak dapat diharapkan bahwa alat ukur yang dipersoalkan akan memberikan keajegan. Ciri ketiga adalah bebas dari bias. Ini berarti bahwa pemberian skor pada suatu kriteria hendaknya tidak dipengaruhi oleh faktor-faktor selain penampilan sebenarnya pada kriteria itu. Misalnya, agar supaya sebuah tes penerimaan pegawai dapat mempunyai validitas berdasar kriteria, skor tes penerimaan tersebut harus berkorelasi dengan kriteria tertentu, misalnya efektivitas kerja ( job effectiveness). Contoh lain, sebuah tes masuk perguruan tinggi mempunyai validitas berdasar kriteria apabila skor hasil tes berkorelasi dengan suatu kriteria tertentu, misalnya indeks prestasi mahasiswa. Tinggi rendahnya indeks validitas berdasar kriteria biasanya dinyatakan oleh koefisien korelasi antara skor tes (prediktor) dengan skor kriteria. Salah satu koefisien korelasi yang dapat dipakai adalah koefisien korelasi momen produk dari Karl Pearson yang dirumuskan berikut:

53

rxy =

n XY (X)(Y) ( n X 2 ( X) 2 )( n Y 2 ( Y) 2 )

dengan rxy adalah koefisien validitas, X adalah skor tes, dan Y adalah skor kriteria. Secara umum, desain untuk melakukan validasi berdasar kriteria adalah sebagai berikut (Crocker dan Algina, 1986:224): (1)Identifikasikan behaviour kriteria yang cocok dan cara untuk mengukur behaviour tersebut, (2)Identifikasikan sampel dari peserta tes yang dapat mewakili peserta tes yang sesungguhnya akan dikenai tes, (3)Selenggarakan tes dan simpanlah skor dari sampel peserta tes, (4)Ketika kriteria sudah diperoleh, lakukan pengukuran kinerja pada kriteria tersebut untuk setiap sampel peserta, dan (5)Tentukan koefisien korelasi antara skor tes dengan skor kinerja sebagai kriteria, yang koefisien korelasi tersebut merupakan koefisien validitas. Validitas berdasar kriteria dikelompokkan menjadi dua jenis, yaitu validitas prediktif (predictive validity) dan validitas konkuren (concurent validity). Pada validitas prediktif, skor tes yang dipakai untuk memprediksi behaviour tidak tersedia ketika tes dilakukan, tetapi tersedia di kemudian hari. Jadi, pada kasus ini, kriterianya tidak tersedia pada saat tes berlangsung, namun kriterianya baru dapat ditentukan setelah selang waktu tertentu. Misalnya, pada tes penerimaan karyawan baru, kriterianya adalah kinerja pegawai. Indeks kinerja pegawai ini baru dapat ditentukan setelah pegawai yang diterima diobservasi kualitas kinerjanya setelah beberapa waktu, misalnya setelah satu tahun bekerja. Pada kasus seperti ini, indeks validitas prediktif hanya dapat dilihat pada mereka yang telah diterima sebagai pegawai, yang indeks validitas berdasar cara ini pada umumnya berada di bawah indeks validitas yang sebenarnya. Tentu saja validitas prediktif ini menjadi mahal dan memerlukan waktu yang lama. Di sisi lain, pada validitas konkuren, kriteria yang dipakai untuk mengkorelasikan hasil tes telah ada (atau dapat dicari) pada saat tes berlangsung. Misalnya, untuk melihat validitas suatu tes yang baru disusun, digunakan tes standar yang telah diakui mempunyai indeks validitas yang tinggi. Kedua tes tersebut dikenakan pada sekelompok siswa yang sama (atau dua kelompok siswa yang sama kondisinya) pada

54

saat yang sama (atau hampir bersamaan), kemudian dicari koefisien korelasi antara skor tes yang baru disusun dengan skor tes standar. Apabila koefisien korelasinya tinggi, maka dapat disimpulkan bahwa tes yang baru disusun mempunyai indeks validitas konkuren yang tinggi. (c) Validitas konstruks Validitas konstruks (construct validity) adalah jenis validitas yang paling akhir dikembangkan orang (Cronbach dan Meehl, 1955, pada Allen dan Yen, 1979:108). Validitas konstruk suatu tes adalah sejauh mana tes tersebut mengukur konstruk atau trait (kemampuan) yang dimaksudkan untuk diukur. Menurut Allen dan Yen, pengujian validitas konstruk ini melalui tahapan sebagai berikut. Berdasar teori terbaru mengenai trait yang akan diukur, pengembang tes membuat prediksi mengenai bagaimana skor tes seharusnya bertindak (behave) pada berbagai situasi. Prediksi itu kemudian diuji. Jika prediksi tersebut didukung oleh data, maka validitas konstruk terjadi. Jika tidak, maka tesnya tidak mempunyai validitas konstruks. Reliabilitas Suatu instrumen disebut reliabel apabila hasil pengukuran dengan instrumen tersebut adalah sama jika sekiranya pengukuran tersebut dilakukan pada orang yang sama pada waktu yang berlainan atau pada orang-orang yang berlainan (tetapi mempunyai kondisi yang sama) pada waktu yang sama atau pada waktu yang berlainan. Dengan kata lain, sebuah tes disebut reliabel jika seseorang diuji dengan tes tersebut beberapa kali akan menghasilkan skor yang sama atau beberapa orang yang kemampuannya sama diuji dengan tes tersebut akan menghasilkan skor yang sama. Kata reliabel sering disebut dengan nama lain, misalnya terpercaya, terandalkan, ajeg, stabil, konsisten, dan lain sebagainya. Reliabilitas menunjuk kepada konsistensi pengukuran jika dilakukan pengukuran berulang-ulang pada individu-individu atau kelompokkelompok dalam suatu populasi (AERA, APA, & NCME, 1999: 25). Ini berarti, keterandalan suatu tes menunjuk kepada besarnya kesalahan pengukuran yang dihasilkan oleh tes tersebut. Semakin besar koefisien keterandalan suatu tes akan semakin kecil kesalahan pengukurannya (Djemari Mardapi, 2002: 113). Pada umumnya tidak pernah didapatkan instrumen yang mempunyai reliabilitas sempurna, sebab setiap kali mengadakan pengukuran dengan 55

alat yang sama terhadap subjek yang sama biasanya diperoleh hasil yang berbeda. Hal ini disebabkan adanya kesalahan (yang mungkin juga ditimbulkan oleh instrumen itu sendiri atau ditimbulkan oleh orang yang menggunakan instrumen itu), yang akibatnya skor yang diperoleh dari suatu subjek bukanlah skor yang sebenarnya, melainkan skor yang sudah ditambah dengan kesalahannya. Dengan demikian, sebuah instrumen mempunyai reliabilitas yang tinggi apabila derajat kesalahannya kecil. Mengacu kepada adanya kesalahan tersebut, biasanya orang mengatakan bahwa hasil pengukuran dapat dipercaya apabila dalam beberapa kali pelaksanaan pengukuran terhadap subjek yang sama atau kelompok subjek yang sama diperoleh hasil pengukuran yang relatif sama, selama aspek yang diukur dalam diri subjek atau kelompok subjek itu memang tidak berubah. Tentu saja suatu instrumen tidak harus dikenakan beberapa kali kepada subjek yang sama. Jika suatu instrumen tidak dikenakan kepada subjek (atau kelompok subjek) yang sama, suatu instrumen menghasilkan hasil pengukuran yang dapat dipercaya jika dikenakan kepada subjek (atau kelompok subjek) yang berlainan, tetapi dengan kondisi yang sama, menghasilkan hasil pengukuran yang relatif sama. Alat ukur tinggi badan, misalnya mempunyai reliabilitas yang tinggi, sebab jika dipakai untuk mengukur seseorang akan menghasilkan tinggi badan yang sama, sekalipun pengukuran itu dilakukan berulangulang. Jika alat ukur tinggi badan itu dipakai untuk mengukur orang yang berlainan, tetapi mempu-nyai tinggi badan yang sama, pasti akan menghasilkan tinggi badan yang sama. Pendekatan yang digunakan untuk mengestimasi koefisien reliabilitas instrumen (terutama tes hasil belajar) dapat dikelompokkan menjadi tiga golongan besar, yaitu: (a) metode satu kali tes, (b) metode tes ulang, dan (c) metode bentuk sejajar. Pendekatan mana yang sebaiknya dipakai, tidak ada aturan baku. Namun, biasanya orang akan memilih pendekatan satu kali tes, sebab pendekatan ini mudah dilakukan dan berbiaya murah dibandingkan dengan dua pendekatan yang lainnya. Perlu diketahui bahwa tiga macam pendekatan tersebut menghasilkan koefisien reliabilitas yang berbeda-beda. Dianjurkan kepada pengembang tes untuk mencantumkan pendekatan dan teknik mana yang dipakai. Pencantuman tersebut sangat penting untuk menghindari (mengurangi) salah tafsir dari pihak yang menggunakan tes tersebut.

56

1) Metode Satu Kali Tes Metode ini disebut juga single-test method atau single-trial method. Dengan metode ini pengembang tes hanya melakukan pengukuran (menggunakan instrumen yang dipersoalkan reliabilitasnya) terhadap sekelompok subjek satu kali saja. Reliabilitas yang didasarkan atas metode ini biasanya disebut internal consistency reliability. Pendekatan dengan metode ini merupakan pendekatan yang paling banyak dipakai karena merupakan metode yang paling ekonomis dan paling praktis. Beberapa teknik yang sering digunakan dalam metode satu kali tes adalah sebagai berikut. 2) Teknik Spearman-Brown Teknik ini dikenal pula dengan teknik belah-dua, sebab dalam menentukan koefisien reliabilitasnya, soal tes dikelompokkan menjadi dua bagian yang sebanding. Cara yang banyak digunakan ialah membelah alat pengukur menjadi butir-butir yang bernomor genap menjadi satu bagian dan butir-butir yang bernomor gasal menjadi bagian yang lain. Oleh kare-na itu, teknik ini sering disebut teknik gasal-genap ( odd-even technique). Instrumen (yang sebenarnya terdiri dari dua bagian) itu diberikan kepada sekelompok subjek. Dengan sendirinya masing-masing subjek akan mempunyai dua buah skor, yaitu skor bagian pertama dan skor bagian kedua. Koefisien korelasi antara dua macam skor itu dipandang sebagai koefisien realibilitas dari instrumen tersebut. Spearman dan Brown merumuskan koefisien reliabilitas instrumen sebagai berikut.
2r 1 1 22 r 11 = 1+r 1 1 22

dengan

r 11 adalah koefisien reliabilitas instrumen dan

r1 1

22

adalah

koefisien korelasi antara skor bagian dan bagian kedua. Untuk menggunakan rumus Spearman-Brown, ada beberapa syarat yang harus dipenuhi, yaitu: (a) Dua belahan yang diciptakan harus paralel. Menurut beberapa pendapat, dua belahan disebut paralel apabila mempunyai rerata skor yang sama, variabilitas yang sama, dan bentuk distribusi yang sama. (b) Banyaknya butir instrumen harus genap. (c) Instrumen yang dicari reliabilitasnya harus homogen. 3) Teknik Flanagan

57

Kelemahan dari teknik Spearman-Brown ialah bahwa syarat pertama tersebut di atas sulit dipenuhi. Untuk menutupi kelemahan itu, Flanagan menciptakan rumus sebagai berikut.
r11 = 2(1
2 +s 2 s1 2 s2 t

2 dengan r11 adalah koefisien reliabilitas instrumen, s1 adalah variansi

instrumen belahan pertama. s 2 2 adalah variansi instrumen belahan kedua, dan s 2 t adalah variansi instrumen total. Jika dikenakan kepada populasi, rumus tersebut berubah menjadi berikut.
r 11 = 2(1
2 2 1 +2 ) 2 t

4) Teknik Rulon Teknik lain yang mendasarkan pada pembelahan alat pengukur menjadi dua bagian yang sama ialah teknik yang dikembangkan oleh Rulon. Teknik ini berpangkal kepada dasar pemikiran bahwa perbedaan antara skor subjek uji coba pada bagian pertama dan skor subjek uji coba pada bagian kedua adalah karena kesalahan pengukuran. Oleh karena itu, variansi yang diperoleh berdasarkan perbedaan tersebut dapat dipandang sebagai variansi kesalahan. Rumus yang dikemukakan oleh Rulon adalah sebagai berikut.
2 sd 1 r = 11 s2 t
2 dengan r11 adalah koefisien reliabilitas instrumen, s d adalah variansi

perbedaan skor antara dua belahan, dan s 2 t adalah variansi skor total. Jika dikenakan kepada populasi, rumus tersebut berubah menjadi berikut.
2 d 1 r 11 = 2 t

5) Teknik Kuder-Richardson Kuder dan Richardson merasa tidak puas dengan teknik belah dua. Mereka menganggap bahwa pembelahan instrumen menjadi dua bagian bukan merupakan teknik yang baik untuk mencari koefisien reliabilitas. Hal ini disebabkan dalam praktik, pembelahan menjadi dua bagian dapat dilakukan dengan bermacam-macam cara yang biasanya memperoleh hasil yang berbeda. 58

Untuk menghindari hal ini, Kuder dan Richardson tidak membelah menjadi dua, melainkan memperhatikan banyaknya butir dan memperhatikan banyaknya subjek yang menjawab benar pada tiap-tiap butir. Ini berarti bahwa teknik Kuder-Richardson mendasarkan kepada analisis masing-masing butir. Namun perlu diingat bahwa teknik ini hanya dapat dipakai untuk instrumen yang dikhotomus (setiap butir hanya mempunyai dua kategori skor yaitu benar atau salah, seperti pada misalnya tes pilihan berganda). Rumus dari Kuder-Richardson berbentuk sebagai berikut.
s 2 pi qi n r t 11 = 2 n 1 s t

dengan

r 11

adalah koefisien reliabilitas instrumen,

adalah

banyaknya butir instrumen,

p i adalah proporsi banyaknya subjek yang

menjawab benar pada butir ke-i, q i = 1 p i , dan s 2 t adalah variansi untuk skor total Rumus di atas biasanya disebut rumus KR-20. Contoh Misalnya terdapat 10 butir soal yang diujicobakan kepada 8 siswa dengan data sebagai berikut.
N o 1 2 3 4 5 6 7 8 Nam a Aa Bb Cc Dd Ee Ff Gg Hh p q pq 1 1 1 1 1 1 1 1 1 1 0 0 2 0 0 0 0 0 0 0 0 0 1 0 3 1 1 1 1 0 0 0 0 0,5 0,5 0,2 5 Nomor Butir Soal 4 0 0 0 0 1 1 1 1 0,5 0,5 0,2 5 5 1 1 1 0 0 1 0 0 0,5 0,5 0,2 5 6 1 1 1 1 1 0 0 0 0,6 3 0,3 8 0,2 3 7 1 0 0 1 1 0 1 0 0, 5 0, 5 0, 3 8 1 1 1 1 0 1 0 0 0,6 3 0,3 8 0,2 3 9 1 1 1 0 1 0 0 0 0,5 0,5 0,2 5 10 1 1 1 1 0 0 0 1 0,6 3 0,3 8 0,2 3 pq = 1,95 Skor Total 8 7 7 6 5 4 3 3

Setelah dihitung, diperoleh s 2 t =3,69, sehingga:


s2 p q n r t 2 i i 11 = n 1 st 10 3,69 1,95 = = 0,523 9 3,69

59

Berdasarkan perhitungan tersebut, diperoleh koefisien reliabilitas tes sebesar 0,523. Pada rumus di atas, jika datanya dianggap merupakan data populasi, maka rumus dari Kuder-Richardson berbentuk sebagai berikut.
2 p q n r t 2 i i 11 = n 1 t

dengan

r 11

adalah

koefisien

reliabilitas

instrumen,

adalah

banyaknya butir instrumen,

p i adalah proporsi banyaknya subjek yang

2 menjawab benar pada butir ke-i, q i = 1 p i , dan t adalah variansi total

Di samping rumus KR-20, Kuder dan Richardson juga mengemukakan rumusnya yang lain, yang disebut rumus KR-21, sebagai berikut.
r 11 =
R (n R ) n 1 2 n 1 ns t

dengan r11 adalah koefisien reliabilitas instrumen, n adalah banyaknya butir instrumen, R adalah rerata skor total, dan s 2 t adalah variansi skor total Hasil penghitungan dengan KR-20 dan dengan KR-21 akan menghasilkan koefisien reliabilitas yang identik. 6) Teknik Alpha Teknik alpha (koefisien alpha) ini dikembangkan pertama kali oleh Cronbach pada tahun 1951, dan karenanya sering disebut teknik Cronbach alpha. Berbeda dengan teknik Kuder-Richarson, teknik alpha dapat dipakai untuk instrumen yang tidak dikotomus (misalnya pada angket atau tes uraian). Pada teknik ini, sebuah tes dapat dibelah menjadi beberapa bagian, misalnya k bagian (dengan k n, n adalah banyaknya butir soal). Pada praktiknya, instrumen dapat dibelah menjadi n bagian, yang berarti masing-masing bagian terdiri dari satu butir saja. Pada teknik ini, masingmasing bagian dicari variansi skornya. Juga dicari variansi skor totalnya. Kemudian, koefisien reliabilitas dihitung dengan rumus berikut.
r 11 =
2 si n 1 2 n 1 st

dengan

r 11

adalah

koefisien

reliabilitas

instrumen,

adalah

2 banyaknya butir instrumen, s i adalah variansi belahan ke-i, i = 1, 2, ..., k

60

(k n) atau variansi butir ke-i, i = 1, 2, 3, 4, , n , dan s 2 t adalah variansi skor total yang diperoleh subjek uji coba. Contoh Misalnya terdapat 10 butir soal yang diujicobakan kepada 8 siswa dengan data sebagai berikut.
N o 1 2 3 4 5 6 7 8 Nam a Aa Bb Cc Dd Ee Ff Gg Hh
2 si

1 1 1 1 1 1 1 1 1 0

2 0 0 0 0 0 0 0 0 0

3 1 1 1 1 0 0 0 0 0,2 9

Nomor Butir Soal 4 5 6 7 0 1 1 1 0 1 1 0 0 1 1 0 0 0 1 1 1 0 1 1 1 1 0 0 1 0 0 1 1 0 0 0 0,2 0,2 0,2 0,2 9 9 7 9


si
2

8 1 1 1 1 0 1 0 0 0,2 7

9 1 1 1 0 1 0 0 0 0,2 9

10 1 1 1 1 0 0 0 1 0,2 7

Skor Total 8 7 7 6 5 4 3 3 3,69

Setelah dihitung, diperoleh diperoleh:


r 11 =
2 si n 1 n 1 s2 t

= 2,26 dan s 2 t =3,69, sehingga

2,26 10 = 0,431 1 = 9 3,69

Pada rumus di atas, jika datanya dianggap merupakan data populasi, maka rumus dari Cronbach alpha berbentuk sebagai berikut.
r 11 =

i2 n 1 2 n 1 t

(a) Metode Tes Ulang Metode ini disebut juga test-re-test method. Pada metode ini dilakukan pengukuran kepada sekelompok subjek dua kali dengan alat pengukur yang sama dalam waktu yang hampir bersamaan. Koefisien reliabilitasnya dihitung dengan mencari koefisien korelasi antara hasil pengukuran yang pertama dengan yang kedua. Rumus yang dipakai biasanya adalah rumus korelasi momen produk dari Karl Pearson. (b) Metode Bentuk Sejajar Metode ini disebut juga parallel-form method, equivalent method, atau alternate forms. Pada metode ini dibuat dua buah instrumen yang paralel (ekuivalen, sama). Untuk menentukan reliabilitasnya, maka kedua instrumen tersebut diberikan kepada sekelompok subjek secara berturut-

61

turut. Kemudian, hasil pengukuran dari instrumen tersebut dicari koefisien korelasinya. Koefisien korelasi tersebut sekaligus menentukan koefisien reliabilitas instrumen. Rumus yang biasanya digunakan adalah rumus korelasi momen produk dari Karl Pearson. Penafsiran koefisien reliabilitas Pada dasarnya rumus-rumus koefisien reliabilitas instrumen dikembangkan dari rumus-rumus koefisien korelasi momen produk dari Karl Pearson. Setelah koefisien reliabilitas instrumen diperoleh, lalu diadakan penafsiran terhadap koefisien tersebut. Pada umumnya, suatu instrumen dikatakan reliabel apabila koefisien reliabilitasnya 0,70 atau lebih. Ini berarti, hasil pengukuran yang mempunyai koefisien reliabilitas 0,70 atau lebih cukup baik nilai kemanfaatannya, dalam arti instrumennya dapat dipakai untuk melakukan pengukuran. Faktor-faktor yang mempengaruhi koefisien reliabilitas Ada beberapa faktor yang mempengaruhi koefisien reliabilitas dari instrumen yang berupa tes, di antaranya: (a) Panjang Tes. Pada umumnya semakin panjang tes (dalam arti cacah butirnya makin banyak) semakin tinggi reliabilitasnya. Hal ini disebabkan tes yang cacah butirnya banyak akan memuat cukup banyak tingkah laku yang diukur. (b)Penyebaran Skor. Koefisien reliabilitas dipengaruhi oleh penyebaran skor. Makin lebar penyebaran skor makin tinggi estimasi koefisien reliabilitasnya. Hal ini disebabkan koefisien reliabilitas akan semakin tinggi apabila individu-individu cenderung tetap pada kedudukan relatifnya terhadap kelompoknya. (c) Tingkat Kesukaran Tes. Tes yang terlalu sukar atau terlalu mudah cenderung menurunkan koefisien reliabilitas. Hal ini disebabkan tes yang terlalu sukar atau terlalu mudah menghasilkan sebaran yang terbatas dan terkumpul di ujung bawah atau di ujung atas. (d)Objektivitas. Objektivitas suatu tes menunjukkan seberapa jauh dua orang yang mempunyai kemampuan yang sama mendapatkan skor yang sama. Dalam hal ini skor yang diperoleh oleh subjek yang dikenai tes tidak dipengaruhi oleh keputusan dan perasaan orang yang

62

menentukan

skor.

Tes

yang

objektivitasnya

tinggi

cenderung

mempunyai koefisien reliabilitas yang tinggi pula.

63

You might also like