Agus Subandi, Drs. MBA
ANALISIS SOAL BENTUK KUANTITATIF
A. Pengertian
Penelaahan soal secara kuantitatif maksudnya adalah penelaahan butir soaldidasarkan pada data empirik dari butir soal yang bersangkutan. Data empirikini diperoleh dari soal yang telah diujikan.
B.Analisis Butir Soal
Ada dua pendekatan dalam analisis secara kuantitatif, yaitu pendekatan
secara klasik dan modern.
1. Klasik
Analisis butir soal secara klasik adalah proses penelaahan butir soalmelalui informasi dari jawaban peserta didik guna meningkatkan mutubutir soal yang bersangkutan dengan menggunakan teori tes klasik.
Kelebihan analisis butir soal secara klasik adalah murah, dapatdilaksanakan sehari-hari dengan cepat menggunakan komputer, murah,sederhana, familier dan dapat menggunakan data dari beberapa pesertadidik atau sampel kecil (Millman dan Greene, 1993: 358).
Adapun proses analisisnya sudah banyak dilaksanakan para guru di
sekolah seperti beberapa contoh di bawah ini.
a.Langkah pertama yang dilakukan adalah menabulasi jawaban yangtelah dibuat pada setiap butir soal yang meliputi berapa peserta didikyang: (1) menjawab benar pada setiap soal, (2) menjawab salah(option pengecoh), (3) tidak menjawab soal. Berdasarkan tabulasi ini,dapat diketahui tingkat kesukaran setiap butir soal, daya pembedasoal, alternatif jawaban yang dipilih peserta didik.
b.Misalnya analisis untuk 32 siswa, maka langkah (1) urutkan skor siswadari yang tertinggi sampai yang terendah. (2) Pilih 10 lembar jawabanpada kelompok atas dan 10 lembar jawaban pada kelompok bawah.(3) Ambil kelompok tengah (12 lembar jawaban) dan tidak disertakandalam analisis. (4) Untuk masing-masing soal, susun jumlah siswakelompok atas dan bawah pada setiap pilihan jawaban. (5) Hitung
tingkat kesukaran pada butir soal . (6) Hitung daya pembeda soal (7) Analisis efektivitas pengecoh pada setiap soal (Linn danGronlund, 1995: 318-319).
Aspek yang perlu diperhatikan dalam analisis butir soal secara klasik adalahsetiap butir soal ditelaah dari segi: tingkat kesukaran butir, daya pembedabutir, dan penyebaran pilihan jawaban (untuk soal bentuk obyektif) ataufrekuensi jawaban pada setiap pilihan jawaban.
a. Tingkat Kesukaran (TK)
Tingkat kesukaran soal adalah peluang untuk menjawab benar suatusoal pada tingkat kemampuan tertentu yang biasanya dinyatakan dalambentuk indeks. Indeks tingkat kesukaran ini pada umumnya dinyatakandalam bentuk proporsi yang besarnya berkisar 0,00 - 1,00 (Aiken (1994:66). Semakin besar indeks tingkat kesukaran yang diperoleh darihasil hitungan, berarti semakin mudah soal itu. Suatu soal memiliki TK=0,00 artinya bahwa tidak ada siswa yang menjawab benar dan bilamemiliki TK= 1,00 artinya bahwa siswa menjawab benar. Perhitunganindeks tingkat kesukaran ini dilakukan untuk setiap nomor soal. Padaprinsipnya, skor rata-rata yang diperoleh peserta didik pada butir soalyang bersangkutan dinamakan tingkat kesukaran butir soal itu.Rumusini dipergunakan untuk soal obyektif. Rumusnya adalah sepertiberikut ini (Nitko, 1996: 310).
Tingkat Kesukaran (TK) = Jumlah siswa yang menjawab benar butir soal
Jumlah siswa yang mengikuti tes
Fungsi tingkat kesukaran butir soal biasanya dikaitkan dengan tujuan tes. Misalnya untuk keperluan ujian semester digunakan butir soalyang memiliki tingkat kesukaran sedang, untuk keperluan seleksidigunakan butir soal yang memiliki tingkat kesukaran tinggi/sukar, danuntuk keperluan diagnostik biasanya digunakan butir soal yang memilikitingkat kesukaran rendah/mudah.
Untuk mengetahui tingkat kesukaran soal bentuk uraian digunakan rumus berikut ini ;
Mean = Jumlah skor siswa peserta tes pada suatu soal
Jumlah peserta didik yang mengikuti tes
Tingkat kesulitan = Mean
__________________________
Skor maksimum yang ditetapkan
Hasil perhitungan dengan menggunakan rumus di atas menggambarkan tingkat kesukaran soal itu. Klasifikasi tingkat kesukaran soal dapatdicontohkan seperti berikut ini.
0,00 - 0,30 soal tergolong sukar
0,31 - 0,70 soal tergolong sedang
0,71 - 1,00 soal tergolong mudah
Tingkat kesukaran butir soal dapat mempengaruhi bentuk distribusi total
skor tes. Untuk tes yang sangat sukar (TK= < 0,25) distribusinyaberbentuk positif skewed, sedangkan tes yang mudah dengan TK= >0,80)distribusinya berbentuk negatif skewed.
Panduan Analisis Butir Soal
Tingkat kesukaran butir soal memiliki 2 kegunaan, yaitu kegunaan bagiguru dan kegunaan bagi pengujian dan pengajaran (Nitko, 1996: 310-313). Kegunaannya bagi guru adalah: (1) sebagai pengenalan konsepterhadap pembelajaran ulang dan memberi masukan kepada siswatentang hasil belajar mereka, (2) memperoleh informasi tentangpenekanan kurikulum atau mencurigai terhadap butir soal yang bias.Adapun kegunaannya bagi pengujian dan pengajaran adalah: (a)pengenalan konsep yang diperlukan untuk diajarkan ulang, (b) tanda-tanda terhadap kelebihan dan kelemahan pada kurikulum sekolah, (c)memberi masukan kepada siswa, (d) tanda-tanda kemungkinan adanyabutir soal yang bias, (e) merakit tes yang memiliki ketepatan data soal.
Di samping kedua kegunaan di atas, dalam konstruksi tes, tingkatkesukaran butir soal sangat penting karena tingkat kesukaran butirdapat: (1) mempengaruhi karakteristik distribusi skor (mempengaruhibentuk dan penyebaran skor tes atau jumlah soal dan korelasiantarsoal), (2) berhubungan dengan reliabilitas. Menurut koefisien alfaclan KR-20, semakin tinggi korelasi antarsoal, semakin tinggi reliabilitas(Nunnally, 1981: 270-271).
Tingkat kesukaran butir soal juga dapat digunakan untuk mempredikstalat ukur itu sendiri (soal) dan kemampuan peserta didik dalammemahami materi yang diajarkan guru. Misalnya satu butir soaltermasuk kategori mudah, maka prediksi terhadap informasi ini adalahseperti berikut.
1)Pengecoh butir soal itu tidak berfungsi.
2)Sebagian besar siswa menjawab benar butir soal itu; artinya bahwa
sebagian besar siswa telah memahami materi yang ditanyakan.
Bila suatu butir soal termasuk kategori sukar, maka prediksi terhadap
informasi ini adalah seperti berikut.
1)Butir soal itu "mungkin" salah kunci jawaban.
2)Butir soal itu mempunyai 2 atau lebih jawaban yang benar.
3) Materi yang ditanyakan belum diajarkan atau belum tuntaspembelajarannya, sehingga kompetensi minimum yang harusdikuasai siswa belum tercapai.
4. Materi yang diukur tidak cocok ditanyakan dengan menggunakan bentuk soal yang diberikan (misalnya meringkas cerita ataumengarang ditanyakan dalam bentuk pilihan ganda).
5)Pernyataan atau kalimat soal terlalu kompleks dan panjang
Namun, analisis secara klasik ini memang memiliki keterbatasan, yaitu : bahwa tingkat kesukaran sangat sulit untuk mengestimasi secara tepatkarena estimasi tingkat kesukaran dibiaskan oleh sampel (Haladyna,1994: 145). Jika sampel berkemampuan tinggi, maka soal akan sangatmudah (TK= >0,90). Jika sampel berkemampuan rendah, maka soal akansangat sulit (TK = < 0,40). Oleh karena itu memang merupakan kelebihananalisis secara IRT, karena 1RT dapat mengestimasi tingkat kesukaransoal tanpa menentukan siapa peserta tesnya (invariance). Dalam IRT,komposisi sampel dapat mengestimasi parameter dan tingkat kesukaransoal tanpa bias.
b.Daya Pembeda (DP)
Daya pembeda soal adalah kemampuan suatu butir soal dapatmembedakan antara warga belajar/siswa yang telah menguasai materiyang ditanyakan dan warga belajar/siswa yang tidak/kurang/belummenguasai materi yang ditanyakan. Manfaat daya pembeda butir soaladalah seperti berikut ini.
1)Untuk meningkatkan mutu setiap butir soal melalui dataempiriknya. Berdasarkan indeks daya pembeda, setiap butir soaldapat diketahui apakah butir soal itu baik, direvisi, atau ditolak.
2)Untuk mengetahui seberapa jauh setiap butir soal dapatmendeteksi/membedakan kemampuan siswa, yaitu siswa yang telahmemahami atau belum memahami materi yang diajarkan guru.Apabila suatu butir soal tidak dapat membedakan keduakemampuan siswa itu, maka butir soal itu dapat dicurigai"kemungkinannya" seperti berikut ini.
•Kunci jawaban butir soal itu tidak tepat.
•Butir soal itu memiliki 2 atau lebih kunci jawaban yang benar
•Kompetensi yang diukur tidak jelas
•Pengecoh tidak berfungsi
•Materi yang ditanyakan terlalu sulit, schingga banyak siswa yang
menebak
•Sebagian besar siswa yang memahami materi yang ditanyakan
berpikir ada yang salah informasi dalam butir soalnya
Indeks daya pembeda setiap butir soal biasanya juga dinyatakan dalam bentuk proporsi. Semakin tinggi indeks daya pembeda soal berartisemakin mampu soal yang bersangkutan membedakan wargabelajar/siswa yang telah memahami materi dengan wargabelajar/peserta didik yang belum memahami materi. Indeks dayapembeda berkisar antara -1,00 sampai dengan +1,00. Semakin tinggidaya pembeda suatu soal, maka semakin kuat/baik soal itu. Jika dayapembeda negatif (<0) berarti lebih banyak kelompok bawah (wargabelajar/peserta didik yang tidak memahami materi) menjawab benarsoal dibanding dengan kelompok atas (warga belajar/peserta didik yangmemahami materi yang diajarkan guru)
Untuk mengetahui daya pembeda soal bentuk pilihan ganda adalah dengan menggunakan rumus berikut ini :
BA – BB 2 (BA – BB)
DP = _______ atau DP = N
½ N
DP = Daya Pembeda
BA = Jumlah jawaban benar pada kelompok atas
BB = Jumlah jawaban benar pada kelompok bawah
N = Jumlah siswa yang mengerjakan tes
Disamping rumus di atas untuk mengetahui daya pembeda soal bentuk pilihan ganda dapat dipergunukan rumus korelasi point biserial (r pbis)dan korelasi biserial (r bis) (Miliman and (ireene, 1993: 359-360) dan(Glass and Stanley, 1970: 169-170) seperti berikut.
_ _
Xb - Xs √ pq
rpbis = SD dan rbis = Yb - Ys . nb.ns
SD un√n2 - n
Xb, Yb adalah rata-rata skor warga belajar/siswa yang menjawab benar
Xs, Ys adalah rata-rata skor warga belajar siswa yang menjawab salah
SDt adalah simpangan baku skor total
nb dan n, adalah jumlah siswa yang menjawab benar dan jumlah siswa yang
menjawab salah, serta nb + n, = n.
p adalah proporsi jawaban benar terhadap semua jawaban siswa
q adalah I –p
U adalah ordinat kurva normal.
Untuk mengetahui daya pembeda soal bentuk uraian adalah dengan menggunakan rumus berikut ini :
DP = Mean kelompok atas - Mean kelompok bawah
Skor maksimum soal
Hasil perhitungan dengan menggunakan rumus di atas dapat menggambarkan tingkat kemampuan soal dalam membedakan antara peserta didik yang sudah memahami materi yang diujikan dengan peserta didik yang belum/tidak memahami materi yang diujikan. Adapun klasifikasinya adalah berikut ini (Crocker & Algina,1986: 315)
0,40 - 1,00 soal diterima baik
0,30 - 0,39 soal diterima tetapi perlu diperbaiki
0,20 - 0,29 soal diperbaiki
0,19 - 0,00 soal tidak dipakai/dibuang
rpbis merupakan korelasi product moment antara skor dikotomus dan
pengukuran kriterion, sedangkan rbis merupakan korelasi product moment antara variabel latent distribusi normal berdasarkan dikotomi benar-salah dan pengukuran kriterion. Oleh karena itu, untuk perhitungan pada data yang sama rpbis = 0, sedangkan r bis paling sedikit 25% lebih besar dari pada rpbis. Kedua korelasi ini masing-masing memiliki kelebihan (Millman and Greene, 1993: 360) walaupun para guru/pengambil kebijakan banyak yang suka menggunakan rpbis.
Kelebihan korelasi point biserial: (1) memberikan refleksi konstribusi soal secara sesungguhnya terhadap fungsi tes. Maksudnya ini mengukur bagaimana baiknya soal berkorelasi dengan criterion (tidak bagaimana baiknya beberapa / secara abstrak); (2) sederhana dan langsung berhubungan dengan statistik tes, (3) tidak pernah mempunyai value1,00 karena hanya variabel-variabel dengan distribusi bentuk yang sama yang dapat berkorelasi secara tepat, dan variabel kontinyu (kriterion) dan skor dikotonius tidak mempunyai bentuk yang sama.
Adapun kelebihan korelasi biserial adalah: (1) cenderung lebih stabil dari sampel ke sampel, (2) penilaian lebih akurat tentang bagaimana soal dapat diharapkan untuk membedakan pada beberapa perbedaan point di skala abilitas, (3) value rbis yang sederhana lebih langsung berhubungan dengan indikator diskriminasi ICC.
Contoh menghitung korelasi point biserial (rpbis)
DAFTAR SKOR SISWA SOAL NOMOR 5
Nomor siswa yang menjawab benar Jumlah skor keseluruhan Nomor siswa yang menjawab salah Jumlah skor keseluruhan
1
2
3
4
5
6
7
8
9
10
19
18
18
16
16
16
15
13
13
13
12
12
11
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30 17
16
15
14
14
12
12
12
12
12
11
11
10
9
8
8
7
Jumlah 192 200
Jumlah siswa yang menjawab benar = 13
Jumlah siswa yang menjawab salah = 17
Jumlah siswa keseluruhan = 30
Rata-rata siswa yang menjawab benar = 192 : 13 = 14,7692
Rata-rata siswa yang menjawab salah = 200 : 17 = 11,7647
Rata-rata siswa skor keseluruhan = (192 + 200) : 30 = 13,667
Simpangan baku skor total = 3,0954
Jumlah skor keseluruhan = 392
- -
r = Xb - Xs √ pq
pbis SD
r = 14,7692 – 11,7647 √ 13 . 17
pbis 3,0954 30 30
r = 3,0045 √ (0,433333) (0,566666)
pbis 3,0954
= (0,9706338) (0,4955355)
= 0,4809835
= 0,48
(Artinya butir soal nomor lima diterima/baik)
Disamping menggunakan criteria di atas, untuk menentukan diterima tidaknya (signifikansi) suatu butir dapat ditentukan dengan menggunakan tabel Z bila n >_ 30 dengan menggunakan rumus Z = r 4 N-1atau tabel t bila n < 30 dengan rumus t = r (N2)I(1-r2) (Bruning dan Kintz,1987: 179-180). Contoh untuk data di atas digunakan tabel Z.
Z = r √n-1
Z = 0,48√ 30-1
Z = 2,58
Dalam tabel Z dapat diketahui untuk α = 0,05 dengan 2 sisi (2 tailed), Zkritiknya adalah ±1,96 dan Z=2,58 probabilitasnya ("area di atas Z" atau"bidang tersempit") = 0,0049. Caranya adalah lihat Tabel Z padalampiran buku ini.
Penyebaran (distribusi) jawaban
Penyebaran pilihan jawaban dijadikan dasar dalam penelaahan soal. Halini dimaksudkan untuk mengetahui berfungsi tidaknya jawaban yangtersedia. Suatu pilihan jawaban (pengecoh) dapat dikatakan berfungsiapabila pengecoh:
1)paling tidak dipilih oleh 5 % peserta tes/siswa,
2)lebih banyak dipilih oleh kelompok siswa yang belum paham materi
Reliabilitas skor tes
Tujuan utama menghitung reliabilitas skor tes adalah untuk mengetahui tingkat ketepatan (precision) dan keajegan (consistency) skor tes.Indeks reliabilitas berkisar antara 0 - 1. Semakin tinggi koefisien reliabilitas suatu tes (mendekati 1), makin tinggi pula keajegan / ketepatannya.
Tes yang memiliki konsistensi reliabilitas tinggi adalah akurat,reproducibel, dan generalized terhadap kesempatan testing dan instrumen tes lainnya. Secara rinci faktor yang mempengaruhi reliabilitas skor tes di antaranya:
1)Semakin banyak jumlah butir soal, semakin ajek suatu tes.
2) Semakin lama waktu tes, semakin ajek.
3) Semakin sempit range kesukaran butir soal, semakin besar
keajegan.
4) Soal-soal yang saling berhubungan akan mengurangi keajegan.
5) Semakin objektif pemberian skor, semakin besar keajegan.
6) Ketidak tepatan pemberian skor.
7) Menjawab besar soal dengan cara menebak.
8) Semakin homogen materi semakin besar keajegan.
9) Pengalaman peserta ujian.
10)Salah penafsiran terhadap butir soal.
11)Menjawab soal dengan buru-buru/cepat.
12)Kesiapan mental peserta ujian.
13)Adanya gangguan dalam pelaksanaan tes.
14)Jarak antara tes pertama dengan tes kedua.
15)Mencontek dalam mengerjakan tes.
16)Posisi individu dalam belajar.
17)Kondisi fisik peserta ujian.
Ada 3 cara yang dapat dilakukan untuk menentukan reliabilitas skor tes,
yaitu :
1) Keajegan pengukuran ulang: kesesuaian antara hasil pengukuranpertama dan kedua dari sesuatu alat ukur terhadap kelompok yangsama.
2) Keajegan pengukuran setara: kesesuaian hasil pengukuran dan 2
atau lebih alat ukur berdasarkan kompetensi kisi-kisi yang lama.
3) Keajegan belah dua: kesesuaian antara hasil pengukuran belahan
pertama dan belahan kedua dari alat ukur yang sama.
Penggunaan rumus untuk mengetahui koefisien ketiga jenis reliabilitas
di atas dijelaskan secara rinci berikut ini.
e. Reliabilitas Instrumen Tes (soal bentuk pilihan ganda)
Untuk mengetahui koefisien reliabilitas tes soal bentuk pilihan ganda
digunakan rumus Kuder Richadson 20 (KR-20) seperti berikut ini.
K ∑p (1 – p)
KR – 20 = k – 1 { 1- (SD) 2 }
Keterangan :
k = jumlah butir soal
(SD) 2 = Varian
Contoh menghitung KR – 20 :
Siswa soal _ _ _ 2
1 2 3 4 ∑skor X X – X (X-X)
A
B
C
D
E
F
1
1
0
0
1
1 0
1
0
0
1
1 0
0
1
0
0
1 0
0
1
0
1
1 1
2
2
0
3
4 2
2
2
2
2
2 -1
0
0
-2
-1
-2 1
0
0
4
1
4
p 0,67 0,50 0,33 0,50 12 10
(1-p) = 0,33 0,50 0,67 0,50
P(1-p) = 0,22 0,25 0,22 0,25
∑p(1-p) = 0,22 + 0,25 + 0,22 + 0,25 = 0,944
Jumlah siswa = 6 orang
Jumlah skor = 12
_
Variance = ∑ (X-X) 2 / N
= 10 : 6
= 1,67
Standar Deviasi = √ 1,67
= 1,29
k ∑p (1 – p)
KR – 20 = k – 1 { 1- (SD) 2 }
4 0,944
KR – 20 = 4 - 1 { 1 - ------- }
1,67
= 0,58
(Artinya bahwa tingkat keajegan tes ini rendah)
Hal ini disebabkan butir soal yang dianalisis hanya 4 butir soal.
Disamping KR – 20 di atas ada teknik lain untuk menghitung reliabilitas tes yaitu :
Yang dikembangkan oleh Spearman Brown. Caranya adalah dengan mengelompokkan
nomor butir yang ganjil dengan genap.
Nama
Peserta didik Nomor soal ∑skor
1 2 3 4
Nur Azizah
Salim Musa
Abdul Latif
Agus Sugiha
Moh. Roji
Rif’ah Tahto 1
1
0
1
1
1
0
1
0
0
1
1 0
0
1
0
0
1 0
0
1
0
1
1 1
2
2
0
3
4
p 0.67 0,50 0,33 0,50 12
Nama Peserta didik Butir Ganjil
(1+3) Butir Genap
(2+4) Skor Z untuk
Zgan X Zgen
Ganjil Genap
Nur Azizah
Salim Musa
Abdul Latif
Agus Sugiha
Moh. Roji
Rif’ah Tahto
1
1
1
0
1
2 0
1
1
0
2
2 0
0
0
-1,72
0
+1,72 -1,22
0
0
-1,22
+1,22
+1.22 0
0
0
2,10
0
2,10
p 0,67 0,50 0,33 0,50 12
n = 6 Mean = 1,0 1,0 Jumlah = 4,2
SD = 0,58 0,82
r 12 = ∑ Zgan X Zgen
n
r 12 = 42
6
= 0,70
Reliabilitas Spearman Brown = 2r1.2
1+r1.2
= 2(0,70)
1 + 0,70
= 0,82
(Artinya bahwa tingkat keajegan / konsistensi tes ini adalah tinggi, sehingga tes
ini dapat dipercaya penggunaannya.
Modern
Analisis butir soal secara modern yaitu penelaahan butir soal dengan menggunakan Item Response Theory (IRT) atau teori jawaban butir soal.Teori ini merupakan suatu teori yang menggunakan fungsi matematika untukmenghubungkan antara peluang menjawab benar suatu scal dengankemampuan siswa. Nama lain IRT adalah latent trait theory (LTT), ataucharacteristics curve theory (ICC).
Asal mula IRT adalah kombinasi suatu versi hukum phi-gamma dengan suatuanalisis faktor butir soal (item factor analisis) kemudian bernama Teori TraitLatent (Latent Trait Theory), kemudian sekarang secara umum dikenalmenjadi teori jawaban butir soal (Item Response Theory) (McDonald, 1999: 8).
Dalam subbab ini akan disajikan kelebihan analisis secara IRT dan kalibrasi
butir soal dan pengukuran kemampuan orang.
1.Kelebihan Analisis IRT
Untuk mengetahui kelebihan analisis IRT, maka para guru perlumengetahui keterbatasan analisis secara klasik. Keterbatasan modelpengukuran secara klasik bila dibandingkan dengan teori jawaban butirsoal adalah seperti berikut (Hambleton, Swaminathan, dan Rogers, 1991:2-5). (1) Tingkat kemampuan dalam teori klasik adalah "true score". Jikates sulit artinya tingkat kemampuan peserta didik mudah. Jika tesmudah artinya tingkat kemampuanpeserta didik tinggi. (2) Tingkatkesukaran soal didefinisikan sebagai proporsipeserta didik dalam grupyang menjawab benar soal. Mudah/sulitnya butir soal tergantung padakemampuan peserta didik yang dites dan kemampuan tes yangdiberikan. (3) Daya pembeda, reliabilitas, dan validitas soal/tesdidefinisikan berdasarkan grup peserta didik. Adapun kelebihan IRTadalah bahwa: (1) IRT tidak berdasarkan grup dependent, (2) skor siswadideskripsikan bukan test dependent, (3) model ini menekankan padatingkat butir soal bukan tes, (4) IRT tidak memerlukan paralel tes untukmenentukan relilabilitas tes, (5) IRT suatu model yang memerlukansuatu pengukuran ketepatan untuk setiap skor tingkat kemampuan.
Kelemahan teori tes klasik di atas diperkuat Hambleton dan Swaminathan (1985: 1-3) yaitu: (1) tingkat kesukaran dan daya pembedatergantung pada sampel; (2) penggunaan metode dan teknik untukdesain dan analisis tes dengan memperbandingkan kemampuan siswapada pernbagian kelompok atas, tengah, bawah. Meningkatnya validitasskor tes diperoleh dari tingkat kesukaran tes dihubungkan dengantingkat kemampuan setiap siswa; (3) konsep reliabilitas tes didefinisikandari istilah tes paralel; (4) tidak ada dasar teori untuk menentukanbagaimana siswa memperoleh tes yang sesuai dengan kemampuan siswa;(5) Standar error of measurement (SEM) hanya berlaku untuk seluruhpeserta didik.
Selanjutnya Hambleton dan Swaminathan (1985: 13) menyatakan bahwa tujuan utama IRT adalah memberikan kesamaan antara statistik soal danestimasi kemampuan. Ada tiga keuntungan IRT adalah: (1) asumsibanyak soal yang diukur pada trait yang sama, perkiraan tingkatkemampuan peserta didik adalah independen; (2) asumsi pada populasitingkat kesukaran, daya pembeda merupakan independen sampel yangmenggambarkan untuk tujuan kalibrasi soal; (3) statistik yang digunakanuntuk menghitung tingkat kemampuan siswa diperkirakan dapatterlaksana, (Hableton dan Swaminathan, 1985: 11). Jadi IRT merupakanhubungan antara probabilitas jawaban suatu butir soal yang benar dankemampuan siswa atau tingkatan/level prestasi siswa. Namunkelemahan bekerja dengan model IRT adalah bekerja melalui suatuproses yang sulit karena kelebihan IRT adalah: (1) tanpa varian padaparameter butir soal, (2) tanpa varian pada parameter abilitas, (3)adanya ketepatan pada pengukuran lokal, (Bejar, 1983: 3-4).
Ada empat macam model 1RT (Hambleton, 1993: 154-157; Hambletondan Swaminathan, 1985: 34-50). (1) Model satu parameter (Model Rasch), yaitu untuk menganalisis data yang hanya menitikberatkan padaparameter tingkat kesukaran coal. (2) Model dua paremeter, yaitu untukmenganalisis data yang hanya menitikberatkan pada parameter tingkatkesukaran dan daya pembeda soal. (3) Model tiga parameter, yaitu untukmenganalisis data yang menitikberatkan pada parameter tingkat kesukaran soal, daya pembeda soal, dan menebak (guessing). (4) Modelempat parameter, yaitu untuk menganalisis data yang menitikberatkanpada parameter tingkat kesukaran soal, daya beda soal, menebak, danpenyebab lain.
Hambleton dan Swaminathan (1985: 48) menjelaskan bahwa siswa yangmemiliki kemampuan tinggi tidak selalu menjawab soal dengan betel.Kadang-kadang mereka sembrono (mengerjakan dengan serampangan),memiliki informasi yang berlebihan, sehingga mereka menjawab salahpada suatu soal. Untuk mengatasi masalah ini diperlukan model 4 parameter.
Dari keempat model itu tidak sama penekanannya dan sudah barangtentu tiap-tiap model itu memiliki kelebihan dan kekurangan. Kelebihandan kekurangan itu dapat diklasifkasikan sesuai dengan jumlahparameter yang ditentukan pada masing-masing model dan tujuanmenggunakan model yang bersangkutan.
Adapun contoh kurva ciri soal model satu parameter atau Rasch terlihat
seperti pada grafik di bawah ini
peluang menjawab benar
1,00
----------------------------------------------------
-
-
0,90
----------------------------------------------------
-
-
-
0,50
----------------------------------------------------
- -
- -
- -
0,30
-3 -2 -1 -0,52 0 0,87 1 1,28
Kemampuan siswa
2. Kalibrasi Butir Soal dan Pengukuran Kemampuan Orang
Kalibrasi butir soal dan pengukuran kemampuan orangmerupakanproses estimasi parameter pada model respon butir. Model persamaandasar Rasch adalah model probabilistik yang mencakup hasil dari suatuinteraksi butir soal-orang. Proses mengestimasi kemampuan orangdinamakan pengukuran, sedangkan proses mengestimasi parametertingkat kesukaran butir soal dinamakan kalibrasi. Jadi kalibrasi soalmerupakan proses penyamaan skala soal yang didasarkan pada tingkatkesukaran butir soal dan tingkat kemampuan siswa. Adapun ciri suatuskala adalah mempunyai titik awal, biasanya 0, dan mempunyai satuanukuran atau unit pengukuran.
Prosedur estimasi dapat dilakukan dengan tangan atau komputer. Adabeberapa langkah yang dapat dilakukan dalam mengkalibrasi butir danmenguki.r kemampuan orang dengan tangan (Wright and Linacre, 1992:32-45) seperti berikut ini.
a. Menyusun jawaban peserta didik untuk setiap butir soal ke dalam tabel.
Dalam menyusun jawaban peserta didik untuk setiap butir ke dalam table perlu disediakan kolom : (1) siswa (2) butir soal (3) skor siswa, dan (4) skor butir soal. Data berbentuk angka 1 untukjawaban benar dan 0 untuk jawaban salah.
b. Mengedit data
Berdasarkan model Rasch, butir soal yang dijawab siswa betulsemua atau salah semua dan siswa yang dapat menjawab denganbetul semua atau salah semua, soal atau siswa yang bersangkutantidak dianalisis atau dikeluarkan dari tabel. Pada langkah kedua iniperlu disediakan tambahan kolom: (1) proporsi skor siswa dan (2) proporsi skor butir soal. Proporsi skorpeserta didik adalah skorsiswa : jumlah butir soal; sedangkan proporsi skor soal adalah skor soal : jumlah siswa.
c. Menghitung distribusi skor soal
Berdasarkan skor soal yang sudah diedit, maka skor soaldiklasifikasikan menjadi beberapa kelompok berdasarkan skor yangsama. Untuk memudahkan penghitungan Distribusi skor butir soal,maka perlu disusun beberapa kolom di dalam tabel, seperti kolom:(1) kelompok skor soal (i) yaitu kelompok skor yang didasarkan padaskorsoal yang sama, kolom ini berhubungan langsung dengan kolom2 dan kolom 3; (2) nomor butir soal, (3) skor soal (Si), (4) frekuensisoal (Fi) yaitu jumlah soal yang memiliki skorsoal sama; (5) proporsibenar (Pi) yaitu Si : jumlah peserta tes; (6) proporsi salah (1-Pi), (7)logit (log odds unit)-proporsi salah (Xi) yaitu Ln [(1 -Pi)/Pi], (8) hasilkali frekuensi soal dengan logit proporsi salah (FiXi), (9) kuadratlogit proporsi salah (FiXi)2 , (10) hasil kali frekuensi soal dengankuadrat logit proporsi salah(FiXi2), (11) inisial kalibrasi butir soalyaitu di° = Xi - nilal rata-rata skor soal, dan (12) hasil kali antarafrekuensi soal dengan kuadrat nilai rata-rata skor coal (FIX ?).
d. Menghitung distribusi skorpeserta didik.
Untuk memudahkan di dalam menghitung distribusi skor peserta didik perlu disusun beberapa kolom yaitu kolom: (1) kemungkinan skorpeserta didik (r) yang disusun secara berurutan dimulai dan skorterendah sampai tertinggi; (2) skorpeserta didik, yaitu berupa toliskor peserta didik; (3) frekuensi peserta didik (nr) yang memperolehskor; (4) proporsi benar (Pi-) yaitu skorpeserta didik dibagi jumlahsoal, (5) logit proporsi benar (Yr) yaitu Ln [Pr/(1-Pr)]; (6) perkalianantara frekuensi siswa dengan logit proporsi benar (nrYr); (7) logicproporsibenar yang dikuadraktan (Yr kuadrat); (8)hasil perkalianantara frekuensipeserta didik dengan logic proporsi benar yangdikuadratkan (nrYr kuadrat); (9) inisial pengukuran kemampuanpeserta didik (br Yr); (10) perkalian antara frekuensi peserta didikdengan nilai rata-rata skor peserta didik (nrYr kuadrat).
e. Menghitung faktor ekspansi kemampuanpeserta didik (x) dankesukaran butir soal (Y). Dalam menghitung faktor ekspansidiperlukan variasi distribusi kelompok skor soal (U) dan variance distribusi kelompok skor siswa (V). Faktor ekspansi kemampuanpeserta didik terhadap keluasan tes adalah X = [ (I 4-U/2,89)/ (1-UV/8,35)]"2 Faktor ekspansi kemampuan peserta didik terhadappenyebaran sampel adalah X =_ [ (1+U/2,89)/ (1-UV/8,35)]12
f. Menghitung tingkat kesukaran dan kesalahan standar butir soal
Dalam menghitung tingkat kesukaran dan kesalahan standar soalperlu disusun beberapa kolom di dalam tabel, yaitu kolom: (1)kelompok skor soal (1); (2) nomor soal; (3) inisial kalibrasi soal (d);(4) faktor ekspansi kesukaran soal terhadap penyebaran sampel (Y);(5) tingkat kesukaran soal atau Yd; = d;; (6) skor soal (S); (7)kesalahan standar kalibrasi soal yang dikoreksi [SE(di)] atau SE =[ N/Si (N-Si)]ll2
g. Menghitung tingkat kemampuan dan kesalahan standar siswa
Dalam menghitung tingkat kemampuan dan kesalahan standar siswadisusun beberapa kolom, yaitu kolom: (1) kemungkinan skor siswa(r); (2) initial pengukuran kemampuan siswa (br); (3) faktor ekspansikemampuan siswa terhadap keluasan tes (X); (4) tingkatkemampuan siswa (br) atau (Xbr); (5) kesalahan standar pengukurankemampuan siswa yang dikoreksi [SE (br)] yaitu X [ L/r (L-r)]112 ; (6)peserta tes.
h. Menghitung probabilitas atau peluang menjawab benar setiap butir
soal [P(0)}.
Untuk menghitung peluang menjawab benar setiap butir pada model
Rasch atau model satu parameter digunakan rumus berikut ini.
Pi (0) = e IX°- b i) atau pi (0) = 1_____
1 +e D(O - bi) 1 +e D(E) - bi)
Estimasi data yang lebih teliti dan akurat hasilnya adalah menggunakankomputer seperti menggunakan program Bigsteps. Dalam programBigsteps, estimasi data digunakan metode Appoximation Maximum
Likelihood (PROX) dan Unconditional Maximum Likelihood (UCON).Untuk menghasilkan hasil yang akurat, estimasi data dengan komputerdapat melakukan iterasi maksimum untuk metode PROX, misal bisasampai 20 kali kemudian dilanjutkan dengan metode UCON sampai dengan 50 kali tergantung banyaknya data. Perbedaan hasil kalibrasi pada setiap iterasisemakin lama semakin kecil dan akan berhenti bila prosesnya sudahterpenuhi (converge) atau lebih kecil dari 0,01.
Kriteria data sesuai dengan model Rasch adalah apabila hasil korelasipoint biserial tidak negatif dan out fitnya < 2 baik outfit butir soalmaupun outfit orang. Hal ini menunjukkan bahwa data adalah fit dengan model. Maksudnya bahwa data soal sesuai dengan model Rasch atauvalid yang memiliki mean= 0 dan SD=1. Metode pengujian fit tergantungpada jumlah butir soal dalam tes: (a) tes sangat pendek (10 ataubeberapa butir), (b) tes pendek (11-20 butir), atau (c) tes panjang ( >20butir).
Out fit orang maksudnya statistik orang menunjukkan bagaimana perilakuyang tidak diharapkan pada butir soal yang mempunyai tingkat kesukaran jauh dengan kemampuan orang yang bersangkutan. AdapunOutfit butir maksudnya statistik butir soal menunjukkan bagaimanaperilaku yang tidak diharapkan dari orang yang mempunyai kemampuanlebih dengan tingkat kesukaran butir yang bersangkutan.
Dalam pelaksanaannya, analisis secara IRT tidak serumit sepertipenjelasan di atas. Pelaksanaannya sangat mudah dipahami oleh paraguru karena dalam analisis digunakan program komputer, sepertiprogram RASCAL, PASCAL, BIGSTEPS, atau QUEST. Untuk mengenal lebihjauh program-program ini, bacalah pada bab berikut.
Tidak ada komentar:
Posting Komentar