BAB I
PENDAHULUAN
A.
Latar
Belakang Masalah
Menurut Jahja
Umar, dkk, tes adalah himpunan pertanyaan yang harus dijawab atau
pernyataan-pernyataan yang harus dipilih/ditanggapi atau tugas-tugas yang harus
dilakukan oleh orang yang dites (tester)
dengan tujuan untuk mengukur suatu aspek (perilaku) tertentu dari orang yang
dites.[1] Tes
merupakan alat ukur, pengukuran merupakan proses pemberian angka yang bersifat
kuantitatif dan penilaian merupakan proses pengambilan keputusan yang bersifat
kualitatif berdasarkan hasil pengukuran. Pengukuran adalah proses pemberian
angka atau usaha memperoleh deskripsi numerik dari suatu tingkatan di mana
seorang peserta didik telah mencapai karakteristik tertentu. Kemampuan dalam
pengukuran ini dibutuhkan keahlian tersendiri. Oleh sebab itu, kemampuan dalam
membuat tes dan melakukan pengukuran dan penilaian merupakan kemampuan
profesional yang harus dimiliki oleh guru.
Tes sebagai alat penilaian adalah pertanyaan-pertanyaan yang diberikan
kepada siswa untuk mendapat jawaban dari siswa dalam bentuk lisan (tes lisan),
dalam bentuk tulisan (tes tulisan), atau dalam bentuk perbuatan (tes tindakan).
Tes pada umumnya digunakan untuk menilai dan mengukur hasil belajar siswa,
terutama hasil belajar kognitif berkenaan dengan penguasaan bahan pengajaran
sesuai dengan tujuan pendidikan dan pengajaran. Untuk dapat menentukan nilai,
diperlukan adanya ukuran atau kriteria yang dijadikan dasar. Untuk menentukan
bahwa suatu sistem itu baik atau kurang baik, perlu ada ketentuan tentang
bagaimana yang baik tersebut, dan ketentuan inilah yang disebut kriteria.[2]
Pencapaian hasil belajar
siswa yang rendah tidak selalu menunjukkan kompetensi siswa yang rendah atau
pembelajaran yang kurang bermakna. Pencapaian tersebut mungkin disebabkan oleh
kualitas instrumen hasil belajar yang kurang memadai. Untuk meningkatkan
kualitas instrumen hasil belajar dalam bentuk tes dapat dilakukan dengan cara
analisis soal. Di samping itu hasil analisis juga dapat memberikan informasi
untuk perbaikan pembelajaran jika ada masalah dalam pembelajaran. Analisis
butir soal menghasilkan soal yang siap direvisi.
Pengembangan bank soal
akan mempermudah guru atau sekolah dalam menyediakan soal yang sudah diketahui
kualitasnya dalam aspek spesifikasi dan karakteristiknya. Tes adalah satu atau
seperangkat pertanyaan yang direncanakan untuk memperoleh informasi akurat
tentang hasil belajar. Pertanyaan tersebut harus mempunyai jawaban yang benar.
Tes dapat berupa tes formatif yang dimaksudkan untuk mengetahui apakah siswa
sudah atau belum memahami materi yang diajarkan oleh guru. Tes juga dapat
berupa tes sumatif yang merupakan tes hasil belajar dalam suatu periode waktu
tertentu sesuai kebutuhan.
Kedudukan evaluasi dalam proses belajar mengajar sangat penting dan tidak
dapat dipisahkan. Demikian juga, agar proses evaluasi itu berfungsi dengan
semestinya dan sesuai tujuan, maka alat evaluasi itu sendiri harus baik. Hal
ini seringkali dilupakan oleh para praktisi pendidikan di lapangan, mereka
hanya berhenti pada pelaporan hasil evaluasi tanpa merasa perlu untuk
mengetahui seberapa baik alat evaluasi yang telah mereka gunakan. Alat evaluasi
yang dimaksud adalah tes hasil belajar yang berisi butir-butir soal.
B.
Perumusan
Masalah
Berdasarkan uraian
latar belakang masalah di atas, maka dapat dirumuskan permasalahan-permasalahan
sebagai berikut :
1. Apa
yang dimaksud dengan analisis butir soal?
2. Bagaimana
teknik menganalisis butir soal secara modern?
C.
Tujuan
Pembahasan
Berdasarkan uraian
latar belakang dan perumusan masalah di atas, maka tujuan pembahasan dalam
makalah ini adalah sebagai berikut :
1. Untuk
mengetahui apa yang dimaksud dengan analisis butir soal;
2. Untuk
mengetahui bagimana menganalisis butir soal secara modern.
BAB II
PEMBAHASAN
Analisis butir soal secara
modern yaitu penelaahan butir soal dengan menggunakan Item Response Theory (IRT) atau teori jawaban butir soal. Teori ini
merupakan suatu teori yang menggunakan fungsi matematika untuk menghubungkan
antara peluang menjawab benar suatu scal
dengan kemampuan siswa. Nama lain IRT adalah latent trait theory (LTT), atau characteristics
curve theory (ICC).
Asal mula IRT adalah kombinasi
suatu versi hukum phi-gamma dengan suatu analisis faktor butir soal (item
factor analisis) kemudian bernama Teori Trait Latent (Latent Trait Theory), kemudian sekarang secara umum dikenal menjadi
teori jawaban butir soal (Item Response
Theory).[3]
Dalam pembahasan ini akan disajikan kelebihan
analisis secara IRT dan kalibrasi butir soal dan pengukuran kemampuan orang.
A. Kelebihan Analisis IRT
Untuk mengetahui kelebihan analisis
IRT, maka para guru perlu mengetahui keterbatasan analisis secara klasik.
Keterbatasan model pengukuran secara klasik bila dibandingkan dengan teori
jawaban butir soal adalah seperti berikut : (1) Tingkat kemampuan dalam teori klasik adalah "true score". Jika tes sulit artinya tingkat kemampuan peserta
didik mudah. Jika tes mudah artinya tingkat kemampuan peserta didik tinggi. (2) Tingkat kesukaran
soal didefinisikan sebagai proporsi
peserta didik dalam grup yang menjawab benar soal. Mudah/sulitnya butir
soal tergantung pada kemampuan peserta didik yang dites dan kemampuan tes yang
diberikan. (3) Daya pembeda, reliabilitas, dan validitas soal/tes didefinisikan
berdasarkan grup peserta didik. Adapun kelebihan IRT adalah bahwa: (1) IRT
tidak berdasarkan grup dependent, (2) skor siswa dideskripsikan bukan test
dependent, (3) model ini menekankan pada tingkat butir soal bukan tes, (4) IRT
tidak memerlukan paralel tes untuk menentukan relilabilitas tes, (5) IRT suatu
model yang memerlukan suatu pengukuran ketepatan untuk setiap skor tingkat
kemampuan.[4]
Kelemahan teori tes klasik di atas
diperkuat Hambleton dan Swaminathan yaitu: (1) tingkat kesukaran dan daya pembeda tergantung pada sampel; (2)
penggunaan metode dan teknik untuk desain dan analisis tes dengan
memperbandingkan kemampuan siswa pada pernbagian kelompok atas, tengah, bawah.
Meningkatnya validitas skor tes diperoleh dari tingkat kesukaran tes
dihubungkan dengan tingkat kemampuan setiap siswa; (3) konsep reliabilitas tes
didefinisikan dari istilah tes paralel; (4) tidak ada dasar teori untuk
menentukan bagaimana siswa memperoleh tes yang sesuai dengan kemampuan siswa;
(5) Standar error of measurement
(SEM) hanya berlaku untuk seluruh peserta didik.[5]
Selanjutnya Hambleton dan Swaminathan menyatakan bahwa
tujuan utama IRT adalah memberikan kesamaan antara statistik soal dan estimasi
kemampuan. Ada tiga keuntungan IRT adalah: (1) asumsi banyak soal yang diukur
pada trait yang sama, perkiraan tingkat kemampuan peserta didik adalah
independen; (2) asumsi pada populasi tingkat kesukaran, daya pembeda merupakan
independen sampel yang menggambarkan untuk tujuan kalibrasi soal; (3) statistik
yang digunakan untuk menghitung tingkat kemampuan siswa diperkirakan dapat
terlaksana. Jadi IRT merupakan hubungan
antara probabilitas jawaban suatu butir soal yang benar dan kemampuan siswa
atau tingkatan/level prestasi siswa. Namun kelemahan bekerja dengan model IRT
adalah bekerja melalui suatu proses yang sulit karena kelebihan IRT adalah: (1)
tanpa varian pada parameter butir soal, (2) tanpa varian pada parameter
abilitas, (3) adanya ketepatan pada pengukuran lokal.[6]
Ada empat macam model 1RT yaitu : (1) Model satu parameter (Model Rasch), yaitu untuk menganalisis data yang
hanya menitikberatkan pada parameter tingkat kesukaran coal. (2) Model dua
paremeter, yaitu untuk menganalisis data yang hanya menitikberatkan pada
parameter tingkat kesukaran dan daya pembeda soal. (3) Model tiga parameter,
yaitu untuk menganalisis data yang menitikberatkan pada parameter tingkat
kesukaran soal, daya pembeda soal, dan menebak (guessing). (4) Model empat
parameter, yaitu untuk menganalisis data yang menitikberatkan pada parameter
tingkat kesukaran soal, daya beda soal, menebak, dan penyebab lain.
Hambleton dan Swaminathan menjelaskan bahwa siswa yang
memiliki kemampuan tinggi tidak selalu menjawab soal dengan betel.
Kadang-kadang mereka sembrono (mengerjakan dengan serampangan), memiliki
informasi yang berlebihan, sehingga mereka menjawab salah pada suatu soal.
Untuk mengatasi masalah ini diperlukan model 4 parameter.
Dari keempat model itu tidak sama penekanannya dan sudah
barang tentu tiap-tiap model itu memiliki kelebihan dan kekurangan. Kelebihan
dan kekurangan itu dapat diklasifkasikan sesuai dengan jumlah parameter yang
ditentukan pada masing-masing model dan tujuan menggunakan model yang
bersangkutan. Adapun contoh
kurva ciri soal model satu parameter atau Rasch terlihat seperti pada grafik di
bawah ini.
B. Kalibrasi Butir Soal dan Pengukuran
Kemampuan Orang
Kalibrasi butir soal dan pengukuran
kemampuan orang merupakan proses
estimasi parameter pada model respon butir. Model persamaan dasar Rasch adalah
model probabilistik yang mencakup hasil dari suatu interaksi butir soal-orang.
Proses mengestimasi kemampuan orang dinamakan pengukuran, sedangkan proses
mengestimasi parameter tingkat kesukaran butir soal dinamakan kalibrasi. Jadi
kalibrasi soal merupakan proses penyamaan skala soal yang didasarkan pada
tingkat kesukaran butir soal dan tingkat kemampuan siswa. Adapun ciri suatu
skala adalah mempunyai titik awal, biasanya 0, dan mempunyai satuan ukuran atau
unit pengukuran.
Prosedur estimasi dapat dilakukan
dengan tangan atau komputer. Ada beberapa langkah yang dapat dilakukan dalam mengkalibrasi
butir dan mengukir kemampuan orang dengan tangan[7]
seperti berikut ini :
a. Menyusun jawaban peserta didik
untuk setiap butir soal ke dalam tabel.
Dalam menyusun jawaban peserta didik untuk setiap butir ke dalam tabel
perlu disediakan kolom: (1) siswa, (2) butir soal, (3) skor siswa, dan (4) skor
butir soal. Data berbentuk angka 1 untuk jawaban benar dan 0 untuk jawaban
salah.
b. Mengedit data
Berdasarkan model Rasch, butir soal yang dijawab siswa betul semua atau
salah semua dan siswa yang dapat menjawab dengan betul semua atau salah semua,
soal atau siswa yang bersangkutan tidak dianalisis atau dikeluarkan dari tabel.
Pada langkah kedua ini perlu disediakan tambahan kolom: (1) proporsi skor siswa
dan (2) proporsi skor butir soal. Proporsi skor
peserta didik adalah skor siswa : jumlah butir soal; sedangkan proporsi
skor soal adalah skor soal : jumlah siswa.
c. Menghitung distribusi skor soal
Berdasarkan skor soal yang sudah diedit, maka skor soal diklasifikasikan
menjadi beberapa kelompok berdasarkan skor yang sama. Untuk memudahkan
penghitungan Distribusi skor butir soal, maka perlu disusun beberapa kolom di
dalam tabel, seperti kolom: (1) kelompok skor soal (i) yaitu kelompok skor yang
didasarkan pada skor soal yang sama,
kolom ini berhubungan langsung dengan kolom 2 dan kolom 3; (2) nomor butir
soal, (3) skor soal (Si), (4) frekuensi soal (Fi) yaitu jumlah soal yang
memiliki skorsoal sama; (5) proporsi benar (Pi) yaitu Si : jumlah
peserta tes; (6) proporsi salah (1-Pi), (7) logit (log odds unit)-proporsi
salah (Xi) yaitu Ln [(1 -Pi)/Pi], (8) hasil kali frekuensi soal dengan logit
proporsi salah (FiXi), (9) kuadrat logit proporsi salah (FiXi)2 ,
(10) hasil kali frekuensi soal dengan kuadrat logit proporsi salah(FiXi2),
(11) inisial kalibrasi butir soal yaitu di° = Xi - nilal rata-rata
skor soal, dan (12) hasil kali antara frekuensi soal dengan kuadrat nilai
rata-rata skor coal (FIX ?).
d. Menghitung distribusi skor peserta didik.
Untuk memudahkan di dalam menghitung distribusi skor peserta didik perlu disusun beberapa kolom
yaitu kolom: (1) kemungkinan skor peserta didik (r) yang disusun secara
berurutan dimulai dan skor terendah sampai tertinggi; (2) skor peserta didik, yaitu berupa toli skor peserta
didik; (3) frekuensi peserta didik (nr) yang memperoleh skor; (4) proporsi
benar (Pi-) yaitu skor
peserta didik dibagi jumlah soal, (5) logit proporsi benar (Yr) yaitu Ln
[Pr/(1-Pr)]; (6) perkalian antara frekuensi siswa dengan logit proporsi benar
(nrYr); (7) logic proporsi benar yang
dikuadraktan (Yr kuadrat); (8) hasil
perkalian antara frekuensi peserta
didik dengan logic proporsi benar yang dikuadratkan (nrYr kuadrat); (9) inisial
pengukuran kemampuan peserta didik (br Yr); (10) perkalian antara frekuensi
peserta didik dengan nilai rata-rata skor peserta didik (nrYr kuadrat).
e. Menghitung faktor ekspansi kemampuan peserta didik (x) dan kesukaran butir soal
(Y).
Dalam menghitung faktor ekspansi diperlukan variasi
distribusi kelompok skor soal (U) dan variance distribusi kelompok skor siswa
(V). Faktor ekspansi kemampuan peserta didik terhadap keluasan tes adalah X = [
(I 4-U/2,89)/ (1-UV/8,35)]" 2 Faktor ekspansi kemampuan peserta
didik terhadap penyebaran sampel adalah X =_ [
(1+U/2,89)/ (1-UV/8,35)]12
f. Menghitung tingkat kesukaran
dan kesalahan standar butir soal
Dalam menghitung tingkat kesukaran dan kesalahan standar
soal perlu disusun beberapa kolom di dalam tabel, yaitu kolom: (1) kelompok
skor soal (1); (2) nomor soal; (3) inisial kalibrasi soal (d); (4) faktor
ekspansi kesukaran soal terhadap penyebaran sampel (Y); (5) tingkat kesukaran
soal atau Yd; = d;; (6) skor soal (S); (7) kesalahan standar kalibrasi soal
yang dikoreksi [SE(di)] atau SE = [ N/Si (N-Si)]ll2
g. Menghitung tingkat kemampuan
dan kesalahan standar siswa
Dalam menghitung tingkat kemampuan dan kesalahan standar
siswa disusun beberapa kolom, yaitu kolom: (1) kemungkinan skor siswa (r); (2)
initial pengukuran kemampuan siswa (br); (3) faktor ekspansi kemampuan siswa
terhadap keluasan tes (X); (4) tingkat kemampuan siswa (br) atau (Xbr); (5)
kesalahan standar pengukuran kemampuan siswa yang dikoreksi [SE (br)] yaitu X [
L/r (L-r)]112 ; (6) peserta tes.
h. Menghitung probabilitas atau
peluang menjawab benar setiap butir soal [P(0)}.
Untuk menghitung peluang menjawab benar setiap butir pada model Rasch atau
model satu parameter digunakan rumus berikut ini.
e IX° - bi) 1
Pi (0) = ¾¾¾¾¾¾ atau Pi (0) = ¾¾¾¾¾¾¾
1
+ e D(O - bi) 1 + e D(E) - bi)
Estimasi data yang lebih teliti dan
akurat hasilnya adalah menggunakan komputer seperti menggunakan program
Bigsteps. Dalam program Bigsteps, estimasi data digunakan metode Appoximation Maximum Likelihood (PROX)
dan Unconditional Maximum Likelihood
(UCON). Untuk menghasilkan hasil yang akurat, estimasi data dengan komputer
dapat melakukan iterasi maksimum untuk metode PROX, misal bisa sampai 20 kali kemudian dilanjutkan dengan metode UCON sampai
dengan 50 kali tergantung banyaknya data. Perbedaan hasil kalibrasi pada setiap
iterasi semakin lama semakin kecil dan akan berhenti bila prosesnya sudah
terpenuhi (converge) atau lebih kecil
dari 0,01.
Kriteria data sesuai dengan model Rasch adalah apabila
hasil korelasi point bhiserial tidak
negatif dan outfitnya < 2 baik outfit
butir soal maupun outfit orang. Hal
ini menunjukkan bahwa data adalah fit
dengan model. Maksudnya bahwa data soal sesuai dengan model Rasch atau valid
yang memiliki mean= 0 dan SD=1. Metode pengujian fit tergantung pada jumlah butir soal dalam tes: (a) tes sangat
pendek (10 atau beberapa butir), (b) tes pendek (11-20 butir), atau (c) tes
panjang ( >20 butir).
Outfit orang maksudnya statistik orang menunjukkan bagaimana perilaku yang tidak
diharapkan pada butir soal yang mempunyai tingkat kesukaran jauh dengan
kemampuan orang yang bersangkutan. Adapun Outfit
butir maksudnya statistik butir soal menunjukkan bagaimana perilaku yang tidak
diharapkan dari orang yang mempunyai kemampuan lebih dengan tingkat kesukaran
butir yang bersangkutan.
Dalam pelaksanaannya, analisis secara IRT tidak serumit
seperti penjelasan di atas. Pelaksanaannya sangat mudah dipahami oleh para guru
karena dalam analisis digunakan program komputer, seperti program RASCAL, PASCAL,
BIGSTEPS, atau QUEST.
BAB III
PENUTUP
A.
Kesimpulan
Agar proses evaluasi itu berfungsi dengan semestinya dan
sesuai tujuan, maka alat evaluasi itu sendiri harus baik. Hal ini seringkali
dilupakan oleh para praktisi pendidikan di lapangan, mereka hanya berhenti pada
pelaporan hasil evaluasi tanpa merasa perlu untuk mengetahui seberapa baik alat
evaluasi yang telah mereka gunakan. Alat evaluasi yang dimaksud adalah tes
hasil belajar yang berisi butir-butir soal.
Analisis butir soal secara modern yaitu
penelaahan butir soal dengan menggunakan Item
Response Theory (IRT) atau teori jawaban butir soal. Teori ini merupakan
suatu teori yang menggunakan fungsi matematika untuk menghubungkan antara
peluang menjawab benar suatu scal
dengan kemampuan siswa. Nama lain IRT adalah latent
trait theory (LTT), atau characteristics
curve theory (ICC). Asal mula IRT adalah kombinasi suatu versi hukum phi-gamma dengan suatu
analisis faktor butir soal (item factor analisis) kemudian bernama Teori Trait
Latent (Latent Trait Theory), kemudian
sekarang secara umum dikenal menjadi teori jawaban butir soal (Item Response Theory)
B.
Saran
1. Analisis
butir soal secara modern memerlukan ketelitian dan pengetahuan yang lebih,
sehingga seyogyanya analisis ini dilakukan oleh para pakar dari berbagai
disiplin ilmu yang terkait;
2. Analisis
butir soal secara modern hendaknya dilaksanakan oleh para penganalisis
melaksanakannya seobjektif mungkin, agar hasilnya optimal dan akuntabel;
3. Penganalisis
hendaknya menggunakan prosedur standar yang telah dibakukan dalam menganalisis
butir soal, sehingga tingkat error dapat
diminimalisir.
DAFTAR
PUSTAKA
Bejar,
Isaac I. 1983. Introduction to Item
Response Theory and Their- Assumptions. Hambleton, Ronald K.
(Editor). Applications of Item Response Theory. Canada: Educational
Research Institute of British Columbia.
Hambleton,
R.K. & Swaminathan, H. 1985. Item
Response Theory: Principles and Applications. Boston: Kluwer. Nijhof'f
Publishing.
Hambleton,
Ronald K.; Swaminathan. H.; and Rogers, H. Jane. 1991. Fundamentals of Item Response Theory. California: Sage
Publications, The International Professional Publishers.
McDonald,
Roderich P. 1999. Test Theory: A Unified
Treatment. New Jersey: Larvrence Erbaum Associates, Publishers.
Sudjana, Nana Sudjana & Ibrahim. 2009. Penelitian dan Penilaian Pendidikan, Cetakan 5. Bandung : Sinar Baru
Algensindo.
Umar, Jahja, dkk. 2000. Penilaian dan Pengujian untuk Guru SLTP, Edisi Ke-1, Cetakan
Ke-1. Jakarta : Direktorat Jenderal
Pendidikan Dasar dan Menengah Direktorat Sekolah Lanjutan Tingkat Pertama
Departemen Pendidikan Nasional.
Wright,
Benjamin D. and Linacre, John M. 1992. A
User's Guide to BIGSTEPS: Rasch Model Computer Program, Version 2.2. Chicago:
MESA Press. Wright, B.D. and Stone,
[1]
Jahja Umar, Ph.D, dkk, Penilaian dan
Pengujian untuk Guru SLTP, Edisi Ke-1, Cetakan Ke-1, (Jakarta : Direktorat
Jenderal Pendidikan Dasar dan Menengah Direktorat Sekolah Lanjutan Tingkat
Pertama Departemen Pendidikan Nasional, 2000), hal. 11.
[2]
Dr. Nana Sudjana & Dr. Ibrahim, M.A, Penelitian
dan Penilaian Pendidikan, Cet. 5, (Bandung
: Sinar Baru Algensindo, 2009), hal. 219.
[3] Roderich P McDonald, Test Theory: A Unified
Treatment, (New Jersey: Larvrence
Erbaum Associates, Publishers, 1999), hal. 8.
[4] Ronald K
Hambleton; Swaminathan.; and H. Jane Rogers, Fundamentals of Item Response Theory, (California: Sage Publications, The International
Professional Publishers, 1991), hal. 2 – 5.
[5] R.K Hambleton & H. Swaminathan,
Item Response Theory: Principles and
Applications, (Boston: Kluwer. Nijhof'f
Publishing, 1985),
hal. 1 – 3.
[6] Isaac I Bejar, Introduction to Item Response Theory and
Their- Assumptions. Hambleton, Ronald K. (Editor). Applications of
Item Response Theory, (Canada: Educational
Research Institute of British Columbia, 1983), hal. 3 – 4.
[7] Benjamin D.
Wright and John M.
Linacre, A User's Guide to BIGSTEPS:
Rasch Model Computer Program, Version 2.2, (Chicago: MESA Press.
Wright, B.D. and Stone, 1992), hal. 32 – 45.
Tidak ada komentar:
Posting Komentar
Silakan tulis komentar Anda