Selasa, 06 November 2012

Analisis Butir Soal secara Modern


BAB I
PENDAHULUAN

A.    Latar Belakang Masalah
Menurut Jahja Umar, dkk, tes adalah himpunan pertanyaan yang harus dijawab atau pernyataan-pernyataan yang harus dipilih/ditanggapi atau tugas-tugas yang harus dilakukan oleh orang yang dites (tester) dengan tujuan untuk mengukur suatu aspek (perilaku) tertentu dari orang yang dites.[1] Tes merupakan alat ukur, pengukuran merupakan proses pemberian angka yang bersifat kuantitatif dan penilaian merupakan proses pengambilan keputusan yang bersifat kualitatif berdasarkan hasil pengukuran. Pengukuran adalah proses pemberian angka atau usaha memperoleh deskripsi numerik dari suatu tingkatan di mana seorang peserta didik telah mencapai karakteristik tertentu. Kemampuan dalam pengukuran ini dibutuhkan keahlian tersendiri. Oleh sebab itu, kemampuan dalam membuat tes dan melakukan pengukuran dan penilaian merupakan kemampuan profesional yang harus dimiliki oleh guru.
Tes sebagai alat penilaian adalah pertanyaan-pertanyaan yang diberikan kepada siswa untuk mendapat jawaban dari siswa dalam bentuk lisan (tes lisan), dalam bentuk tulisan (tes tulisan), atau dalam bentuk perbuatan (tes tindakan). Tes pada umumnya digunakan untuk menilai dan mengukur hasil belajar siswa, terutama hasil belajar kognitif berkenaan dengan penguasaan bahan pengajaran sesuai dengan tujuan pendidikan dan pengajaran. Untuk dapat menentukan nilai, diperlukan adanya ukuran atau kriteria yang dijadikan dasar. Untuk menentukan bahwa suatu sistem itu baik atau kurang baik, perlu ada ketentuan tentang bagaimana yang baik tersebut, dan ketentuan inilah yang disebut kriteria.[2]
Pencapaian hasil belajar siswa yang rendah tidak selalu menunjukkan kompetensi siswa yang rendah atau pembelajaran yang kurang bermakna. Pencapaian tersebut mungkin disebabkan oleh kualitas instrumen hasil belajar yang kurang memadai. Untuk meningkatkan kualitas instrumen hasil belajar dalam bentuk tes dapat dilakukan dengan cara analisis soal. Di samping itu hasil analisis juga dapat memberikan informasi untuk perbaikan pembelajaran jika ada masalah dalam pembelajaran. Analisis butir soal menghasilkan soal yang siap direvisi.
Pengembangan bank soal akan mempermudah guru atau sekolah dalam menyediakan soal yang sudah diketahui kualitasnya dalam aspek spesifikasi dan karakteristiknya. Tes adalah satu atau seperangkat pertanyaan yang direncanakan untuk memperoleh informasi akurat tentang hasil belajar. Pertanyaan tersebut harus mempunyai jawaban yang benar. Tes dapat berupa tes formatif yang dimaksudkan untuk mengetahui apakah siswa sudah atau belum memahami materi yang diajarkan oleh guru. Tes juga dapat berupa tes sumatif yang merupakan tes hasil belajar dalam suatu periode waktu tertentu sesuai kebutuhan.
Kedudukan evaluasi dalam proses belajar mengajar sangat penting dan tidak dapat dipisahkan. Demikian juga, agar proses evaluasi itu berfungsi dengan semestinya dan sesuai tujuan, maka alat evaluasi itu sendiri harus baik. Hal ini seringkali dilupakan oleh para praktisi pendidikan di lapangan, mereka hanya berhenti pada pelaporan hasil evaluasi tanpa merasa perlu untuk mengetahui seberapa baik alat evaluasi yang telah mereka gunakan. Alat evaluasi yang dimaksud adalah tes hasil belajar yang berisi butir-butir soal.
B.     Perumusan Masalah
Berdasarkan uraian latar belakang masalah di atas, maka dapat dirumuskan permasalahan-permasalahan sebagai berikut :
1.      Apa yang dimaksud dengan analisis butir soal?
2.      Bagaimana teknik menganalisis butir soal secara modern?
C.    Tujuan Pembahasan
Berdasarkan uraian latar belakang dan perumusan masalah di atas, maka tujuan pembahasan dalam makalah ini adalah sebagai berikut :
1.      Untuk mengetahui apa yang dimaksud dengan analisis butir soal;
2.      Untuk mengetahui bagimana menganalisis butir soal secara modern.



BAB II
PEMBAHASAN

Analisis butir soal secara modern yaitu penelaahan butir soal dengan menggunakan Item Response Theory (IRT) atau teori jawaban butir soal. Teori ini merupakan suatu teori yang menggunakan fungsi matematika untuk menghubungkan antara peluang menjawab benar suatu scal dengan kemampuan siswa. Nama lain IRT adalah latent trait theory (LTT), atau characteristics curve theory (ICC).
Asal mula IRT adalah kombinasi suatu versi hukum phi-gamma dengan suatu analisis faktor butir soal (item factor analisis) kemudian bernama Teori Trait Latent (Latent Trait Theory), kemudian sekarang secara umum dikenal menjadi teori jawaban butir soal (Item Response Theory).[3]
Dalam pembahasan ini akan disajikan kelebihan analisis secara IRT dan kalibrasi butir soal dan pengukuran kemampuan orang.
A.    Kelebihan Analisis IRT
Untuk mengetahui kelebihan analisis IRT, maka para guru perlu mengetahui keterbatasan analisis secara klasik. Keterbatasan model pengukuran secara klasik bila dibandingkan dengan teori jawaban butir soal adalah seperti berikut : (1) Tingkat kemampuan dalam teori klasik adalah "true score". Jika tes sulit artinya tingkat kemampuan peserta didik mudah. Jika tes mudah artinya tingkat kemampuan  peserta didik tinggi. (2) Tingkat kesukaran soal didefinisikan sebagai proporsi  peserta didik dalam grup yang menjawab benar soal. Mudah/sulitnya butir soal tergantung pada kemampuan peserta didik yang dites dan kemampuan tes yang diberikan. (3) Daya pembeda, reliabilitas, dan validitas soal/tes didefinisikan berdasarkan grup peserta didik. Adapun kelebihan IRT adalah bahwa: (1) IRT tidak berdasarkan grup dependent, (2) skor siswa dideskripsikan bukan test dependent, (3) model ini menekankan pada tingkat butir soal bukan tes, (4) IRT tidak memerlukan paralel tes untuk menentukan relilabilitas tes, (5) IRT suatu model yang memerlukan suatu pengukuran ketepatan untuk setiap skor tingkat kemampuan.[4]
Kelemahan teori tes klasik di atas diperkuat Hambleton dan Swaminathan yaitu: (1) tingkat kesukaran dan daya pembeda tergantung pada sampel; (2) penggunaan metode dan teknik untuk desain dan analisis tes dengan memperbandingkan kemampuan siswa pada pernbagian kelompok atas, tengah, bawah. Meningkatnya validitas skor tes diperoleh dari tingkat kesukaran tes dihubungkan dengan tingkat kemampuan setiap siswa; (3) konsep reliabilitas tes didefinisikan dari istilah tes paralel; (4) tidak ada dasar teori untuk menentukan bagaimana siswa memperoleh tes yang sesuai dengan kemampuan siswa; (5) Standar error of measurement (SEM) hanya berlaku untuk seluruh peserta didik.[5]
Selanjutnya Hambleton dan Swaminathan menyatakan bahwa tujuan utama IRT adalah memberikan kesamaan antara statistik soal dan estimasi kemampuan. Ada tiga keuntungan IRT adalah: (1) asumsi banyak soal yang diukur pada trait yang sama, perkiraan tingkat kemampuan peserta didik adalah independen; (2) asumsi pada populasi tingkat kesukaran, daya pembeda merupakan independen sampel yang menggambarkan untuk tujuan kalibrasi soal; (3) statistik yang digunakan untuk menghitung tingkat kemampuan siswa diperkirakan dapat terlaksana. Jadi IRT merupakan hubungan antara probabilitas jawaban suatu butir soal yang benar dan kemampuan siswa atau tingkatan/level prestasi siswa. Namun kelemahan bekerja dengan model IRT adalah bekerja melalui suatu proses yang sulit karena kelebihan IRT adalah: (1) tanpa varian pada parameter butir soal, (2) tanpa varian pada parameter abilitas, (3) adanya ketepatan pada pengukuran lokal.[6]
Ada empat macam model 1RT yaitu : (1) Model satu parameter (Model Rasch), yaitu untuk menganalisis data yang hanya menitikberatkan pada parameter tingkat kesukaran coal. (2) Model dua paremeter, yaitu untuk menganalisis data yang hanya menitikberatkan pada parameter tingkat kesukaran dan daya pembeda soal. (3) Model tiga parameter, yaitu untuk menganalisis data yang menitikberatkan pada parameter tingkat kesukaran soal, daya pembeda soal, dan menebak (guessing). (4) Model empat parameter, yaitu untuk menganalisis data yang menitikberatkan pada parameter tingkat kesukaran soal, daya beda soal, menebak, dan penyebab lain.
Hambleton dan Swaminathan menjelaskan bahwa siswa yang memiliki kemampuan tinggi tidak selalu menjawab soal dengan betel. Kadang-kadang mereka sembrono (mengerjakan dengan serampangan), memiliki informasi yang berlebihan, sehingga mereka menjawab salah pada suatu soal. Untuk mengatasi masalah ini diperlukan model 4 parameter.
Dari keempat model itu tidak sama penekanannya dan sudah barang tentu tiap-tiap model itu memiliki kelebihan dan kekurangan. Kelebihan dan kekurangan itu dapat diklasifkasikan sesuai dengan jumlah parameter yang ditentukan pada masing-masing model dan tujuan menggunakan model yang bersangkutan. Adapun contoh kurva ciri soal model satu parameter atau Rasch terlihat seperti pada grafik di bawah ini.

B.    Kalibrasi Butir Soal dan Pengukuran Kemampuan Orang
Kalibrasi butir soal dan pengukuran kemampuan orang  merupakan proses estimasi parameter pada model respon butir. Model persamaan dasar Rasch adalah model probabilistik yang mencakup hasil dari suatu interaksi butir soal-orang. Proses mengestimasi kemampuan orang dinamakan pengukuran, sedangkan proses mengestimasi parameter tingkat kesukaran butir soal dinamakan kalibrasi. Jadi kalibrasi soal merupakan proses penyamaan skala soal yang didasarkan pada tingkat kesukaran butir soal dan tingkat kemampuan siswa. Adapun ciri suatu skala adalah mempunyai titik awal, biasanya 0, dan mempunyai satuan ukuran atau unit pengukuran.
Prosedur estimasi dapat dilakukan dengan tangan atau komputer. Ada beberapa langkah yang dapat dilakukan dalam mengkalibrasi butir dan mengukir kemampuan orang dengan tangan[7] seperti berikut ini :
a.     Menyusun jawaban peserta didik untuk setiap butir soal ke dalam tabel.
Dalam menyusun jawaban peserta didik untuk setiap butir ke dalam tabel perlu disediakan kolom: (1) siswa, (2) butir soal, (3) skor siswa, dan (4) skor butir soal. Data berbentuk angka 1 untuk jawaban benar dan 0 untuk jawaban salah.
b.     Mengedit data
Berdasarkan model Rasch, butir soal yang dijawab siswa betul semua atau salah semua dan siswa yang dapat menjawab dengan betul semua atau salah semua, soal atau siswa yang bersangkutan tidak dianalisis atau dikeluarkan dari tabel. Pada langkah kedua ini perlu disediakan tambahan kolom: (1) proporsi skor siswa dan (2) proporsi skor butir soal. Proporsi skor  peserta didik adalah skor siswa : jumlah butir soal; sedangkan proporsi skor soal adalah skor soal : jumlah siswa.
c.     Menghitung distribusi skor soal
Berdasarkan skor soal yang sudah diedit, maka skor soal diklasifikasikan menjadi beberapa kelompok berdasarkan skor yang sama. Untuk memudahkan penghitungan Distribusi skor butir soal, maka perlu disusun beberapa kolom di dalam tabel, seperti kolom: (1) kelompok skor soal (i) yaitu kelompok skor yang didasarkan pada skor  soal yang sama, kolom ini berhubungan langsung dengan kolom 2 dan kolom 3; (2) nomor butir soal, (3) skor soal (Si), (4) frekuensi soal (Fi) yaitu jumlah soal yang memiliki skor­soal sama; (5) proporsi benar (Pi) yaitu Si : jumlah peserta tes; (6) proporsi salah (1-Pi), (7) logit (log odds unit)-proporsi salah (Xi) yaitu Ln [(1 -Pi)/Pi], (8) hasil kali frekuensi soal dengan logit proporsi salah (FiXi), (9) kuadrat logit proporsi salah (FiXi)2 , (10) hasil kali frekuensi soal dengan kuadrat logit proporsi salah(FiXi2), (11) inisial kalibrasi butir soal yaitu di° = Xi - nilal rata-rata skor soal, dan (12) hasil kali antara frekuensi soal dengan kuadrat nilai rata-rata skor coal (FIX ?).
d.     Menghitung distribusi skor  peserta didik.
Untuk memudahkan di dalam menghitung distribusi skor  peserta didik perlu disusun beberapa kolom yaitu kolom: (1) kemungkinan skor  peserta didik (r) yang disusun secara berurutan dimulai dan skor terendah sampai tertinggi; (2) skor  peserta didik, yaitu berupa toli skor peserta didik; (3) frekuensi peserta didik (nr) yang memperoleh skor; (4) proporsi benar (Pi-) yaitu skor  peserta didik dibagi jumlah soal, (5) logit proporsi benar (Yr) yaitu Ln [Pr/(1-Pr)]; (6) perkalian antara frekuensi siswa dengan logit proporsi benar (nrYr); (7) logic proporsi  benar yang dikuadraktan (Yr kuadrat); (8)  hasil perkalian antara frekuensi   peserta didik dengan logic proporsi benar yang dikuadratkan (nrYr kuadrat); (9) inisial pengukuran kemampuan peserta didik (br Yr); (10) perkalian antara frekuensi peserta didik dengan nilai rata-rata skor peserta didik (nrYr kuadrat).
e.     Menghitung faktor ekspansi kemampuan  peserta didik (x) dan kesukaran butir soal (Y).
Dalam menghitung faktor ekspansi diperlukan variasi distribusi kelompok skor soal (U) dan variance distribusi kelompok skor siswa (V). Faktor ekspansi kemampuan peserta didik terhadap keluasan tes adalah X = [ (I 4-U/2,89)/ (1-UV/8,35)]" 2 Faktor ekspansi kemampuan peserta didik terhadap penyebaran sampel adalah X =_ [ (1+U/2,89)/ (1-UV/8,35)]12
f.      Menghitung tingkat kesukaran dan kesalahan standar butir soal
Dalam menghitung tingkat kesukaran dan kesalahan standar soal perlu disusun beberapa kolom di dalam tabel, yaitu kolom: (1) kelompok skor soal (1); (2) nomor soal; (3) inisial kalibrasi soal (d); (4) faktor ekspansi kesukaran soal terhadap penyebaran sampel (Y); (5) tingkat kesukaran soal atau Yd; = d;; (6) skor soal (S); (7) kesalahan standar kalibrasi soal yang dikoreksi [SE(di)] atau SE = [ N/Si (N-Si)]ll2
g.     Menghitung tingkat kemampuan dan kesalahan standar siswa
Dalam menghitung tingkat kemampuan dan kesalahan standar siswa disusun beberapa kolom, yaitu kolom: (1) kemungkinan skor siswa (r); (2) initial pengukuran kemampuan siswa (br); (3) faktor ekspansi kemampuan siswa terhadap keluasan tes (X); (4) tingkat kemampuan siswa (br) atau (Xbr); (5) kesalahan standar pengukuran kemampuan siswa yang dikoreksi [SE (br)] yaitu X [ L/r (L-r)]112 ; (6) peserta tes.
h.     Menghitung probabilitas atau peluang menjawab benar setiap butir soal [P(0)}.
Untuk menghitung peluang menjawab benar setiap butir pada model Rasch atau model satu parameter digunakan rumus berikut ini.

                                            e IX° - bi)                                    1
Pi (0) =    ¾¾¾¾¾¾     atau Pi (0) =          ¾¾¾¾¾¾¾       
                                            1 + e D(O - bi)      1 + e D(E) - bi)

Estimasi data yang lebih teliti dan akurat hasilnya adalah menggunakan komputer seperti menggunakan program Bigsteps. Dalam program Bigsteps, estimasi data digunakan metode Appoximation Maximum Likelihood (PROX) dan Unconditional Maximum Likelihood (UCON). Untuk menghasilkan hasil yang akurat, estimasi data dengan komputer dapat melakukan iterasi maksimum untuk metode PROX, misal bisa sampai 20 kali kemudian dilanjutkan dengan metode UCON sampai dengan 50 kali tergantung banyaknya data. Perbedaan hasil kalibrasi pada setiap iterasi semakin lama semakin kecil dan akan berhenti bila prosesnya sudah terpenuhi (converge) atau lebih kecil dari 0,01.
Kriteria data sesuai dengan model Rasch adalah apabila hasil korelasi point bhiserial tidak negatif dan outfitnya < 2 baik outfit butir soal maupun outfit orang. Hal ini menunjukkan bahwa data adalah fit dengan model. Maksudnya bahwa data soal sesuai dengan model Rasch atau valid yang memiliki mean= 0 dan SD=1. Metode pengujian fit tergantung pada jumlah butir soal dalam tes: (a) tes sangat pendek (10 atau beberapa butir), (b) tes pendek (11-20 butir), atau (c) tes panjang ( >20 butir).
Outfit orang maksudnya statistik orang menunjukkan bagaimana perilaku yang tidak diharapkan pada butir soal yang mempunyai tingkat kesukaran jauh dengan kemampuan orang yang bersangkutan. Adapun Outfit butir maksudnya statistik butir soal menunjukkan bagaimana perilaku yang tidak diharapkan dari orang yang mempunyai kemampuan lebih dengan tingkat kesukaran butir yang bersangkutan.
Dalam pelaksanaannya, analisis secara IRT tidak serumit seperti penjelasan di atas. Pelaksanaannya sangat mudah dipahami oleh para guru karena dalam analisis digunakan program komputer, seperti program RASCAL, PASCAL, BIGSTEPS, atau QUEST.


BAB III
PENUTUP

A.    Kesimpulan
Agar proses evaluasi itu berfungsi dengan semestinya dan sesuai tujuan, maka alat evaluasi itu sendiri harus baik. Hal ini seringkali dilupakan oleh para praktisi pendidikan di lapangan, mereka hanya berhenti pada pelaporan hasil evaluasi tanpa merasa perlu untuk mengetahui seberapa baik alat evaluasi yang telah mereka gunakan. Alat evaluasi yang dimaksud adalah tes hasil belajar yang berisi butir-butir soal.
Analisis butir soal secara modern yaitu penelaahan butir soal dengan menggunakan Item Response Theory (IRT) atau teori jawaban butir soal. Teori ini merupakan suatu teori yang menggunakan fungsi matematika untuk menghubungkan antara peluang menjawab benar suatu scal dengan kemampuan siswa. Nama lain IRT adalah latent trait theory (LTT), atau characteristics curve theory (ICC). Asal mula IRT adalah kombinasi suatu versi hukum phi-gamma dengan suatu analisis faktor butir soal (item factor analisis) kemudian bernama Teori Trait Latent (Latent Trait Theory), kemudian sekarang secara umum dikenal menjadi teori jawaban butir soal (Item Response Theory)
B.     Saran
1.      Analisis butir soal secara modern memerlukan ketelitian dan pengetahuan yang lebih, sehingga seyogyanya analisis ini dilakukan oleh para pakar dari berbagai disiplin ilmu yang terkait;
2.      Analisis butir soal secara modern hendaknya dilaksanakan oleh para penganalisis melaksanakannya seobjektif mungkin, agar hasilnya optimal dan akuntabel;
3.      Penganalisis hendaknya menggunakan prosedur standar yang telah dibakukan dalam menganalisis butir soal, sehingga tingkat error dapat diminimalisir.





DAFTAR PUSTAKA


Bejar, Isaac I. 1983. Introduction to Item Response Theory and Their- Assumptions. Hambleton, Ronald K. (Editor). Applications of Item Response Theory. Canada: Educational Research Institute of British Columbia.
Hambleton, R.K. & Swaminathan, H. 1985. Item Response Theory: Principles and Applications. Boston: Kluwer. Nijhof'f Publishing.
Hambleton, Ronald K.; Swaminathan. H.; and Rogers, H. Jane. 1991. Fundamentals of Item Response Theory. California: Sage Publications, The International Professional Publishers.
McDonald, Roderich P. 1999. Test Theory: A Unified Treatment. New Jersey: Larvrence Erbaum Associates, Publishers.
Sudjana, Nana Sudjana & Ibrahim. 2009. Penelitian dan Penilaian Pendidikan, Cetakan  5. Bandung : Sinar Baru Algensindo.
Umar, Jahja, dkk. 2000. Penilaian dan Pengujian untuk Guru SLTP, Edisi Ke-1, Cetakan Ke-1. Jakarta : Direktorat Jenderal Pendidikan Dasar dan Menengah Direktorat Sekolah Lanjutan Tingkat Pertama Departemen Pendidikan Nasional.
Wright, Benjamin D. and Linacre, John M. 1992. A User's Guide to BIGSTEPS: Rasch­ Model Computer Program, Version 2.2. Chicago: MESA Press. Wright, B.D. and Stone,


[1] Jahja Umar, Ph.D, dkk, Penilaian dan Pengujian untuk Guru SLTP, Edisi Ke-1, Cetakan Ke-1, (Jakarta : Direktorat Jenderal Pendidikan Dasar dan Menengah Direktorat Sekolah Lanjutan Tingkat Pertama Departemen Pendidikan Nasional, 2000), hal. 11.
[2] Dr. Nana Sudjana & Dr. Ibrahim, M.A, Penelitian dan Penilaian Pendidikan, Cet. 5,  (Bandung : Sinar Baru Algensindo, 2009), hal. 219.
[3] Roderich P McDonald, Test Theory: A Unified Treatment, (New Jersey: Larvrence Erbaum Associates, Publishers, 1999), hal. 8.
[4] Ronald K Hambleton; Swaminathan.; and H. Jane Rogers, Fundamentals of Item Response Theory, (California: Sage Publications, The International Professional Publishers, 1991), hal. 2 – 5.
[5] R.K Hambleton & H. Swaminathan, Item Response Theory: Principles and Applications, (Boston: Kluwer. Nijhof'f Publishing, 1985), hal. 1 – 3.
[6] Isaac I Bejar, Introduction to Item Response Theory and Their- Assumptions. Hambleton, Ronald K. (Editor). Applications of Item Response Theory, (Canada: Educational Research Institute of British Columbia, 1983), hal. 3 – 4.
[7] Benjamin D. Wright and John M. Linacre, A User's Guide to BIGSTEPS: Rasch­ Model Computer Program, Version 2.2, (Chicago: MESA Press. Wright, B.D. and Stone, 1992), hal.  32 – 45.

Tidak ada komentar:

Posting Komentar

Silakan tulis komentar Anda