Homoskedastik

Apa Homoskedastik?

Homoskedastik (juga dieja “homoscedastic”) mengacu pada suatu kondisi di mana varian dari residual, atau istilah kesalahan, dalam model regresi adalah konstan. Artinya, istilah kesalahan tidak banyak bervariasi karena nilai variabel prediktor berubah. Cara lain untuk mengatakan ini adalah varians dari titik data kira-kira sama untuk semua titik data. Ini menunjukkan tingkat konsistensi dan membuatnya lebih mudah untuk membuat model dan bekerja dengan data melalui regresi. Namun, kurangnya homoskedastisitas mungkin menunjukkan bahwa model regresi mungkin perlu memasukkan variabel prediktor tambahan untuk menjelaskan kinerja variabel dependen.

Poin Penting

  • Homoskedastisitas terjadi ketika varian dari istilah kesalahan dalam model regresi konstan. 
  • Jika varians dari istilah kesalahan homoskedastik, modelnya terdefinisi dengan baik. Jika ada terlalu banyak varian, model mungkin tidak dapat didefinisikan dengan baik. 
  • Menambahkan variabel prediktor tambahan dapat membantu menjelaskan kinerja variabel dependen.
  • Sebaliknya, heteroskedastisitas terjadi ketika varians dari suku kesalahan tidak konstan.

Bagaimana Homoskedastisitas Bekerja

Homoskedastisitas merupakan salah satu asumsi pemodelan regresi linier dan data jenis ini bekerja dengan baik dengan metode kuadrat terkecil. Jika varians kesalahan di sekitar garis regresi sangat bervariasi, model regresi mungkin tidak dapat didefinisikan dengan baik. Kebalikan dari homoskedastisitas adalah heteroskedastisitas, sama seperti kebalikan dari “homogen” adalah “heterogen”. Heteroskedastisitas (juga dieja “heteroskedastisitas”) mengacu pada kondisi di mana varian dari istilah kesalahan dalam persamaan regresi tidak konstan.

Referensi cepat

Ketika mempertimbangkan varians itu adalah perbedaan terukur antara hasil yang diprediksi dan hasil aktual dari situasi tertentu, menentukan homoskedastisitas dapat membantu menentukan faktor mana yang perlu disesuaikan untuk keakuratannya.

Pertimbangan Khusus

Model regresi sederhana, atau persamaan, terdiri dari empat istilah. Di sisi kiri adalah variabel dependen. Ini mewakili fenomena yang ingin “dijelaskan” oleh model. Di sisi kanan adalah konstanta, variabel prediktor, dan suku residual, atau kesalahan. Istilah error menunjukkan besarnya variabilitas variabel dependen yang tidak dijelaskan oleh variabel prediktor.

Contoh Homoskedastik

Misalnya, Anda ingin menjelaskan nilai ujian siswa menggunakan jumlah waktu yang dihabiskan setiap siswa untuk belajar. Dalam hal ini, nilai tes akan menjadi variabel dependen dan waktu yang dihabiskan untuk belajar menjadi variabel prediktor. 

Istilah kesalahan akan menunjukkan jumlah varians dalam nilai tes yang tidak dijelaskan oleh jumlah waktu belajar. Jika varians tersebut seragam, atau homoskedastik, maka model tersebut mungkin merupakan penjelasan yang memadai untuk kinerja tes — menjelaskannya dalam kaitannya dengan waktu yang dihabiskan untuk belajar.

Tetapi variansnya mungkin heteroskedastik. Sebuah plot dari data error term mungkin menunjukkan sejumlah besar waktu belajar yang berhubungan sangat dekat dengan nilai tes yang tinggi tetapi nilai tes untuk waktu belajar yang rendah sangat bervariasi dan bahkan termasuk beberapa nilai yang sangat tinggi. Jadi varians skor tidak akan dijelaskan dengan baik hanya oleh satu variabel prediktor — jumlah waktu belajar. Dalam kasus ini, beberapa faktor lain mungkin sedang bekerja, dan model tersebut mungkin perlu ditingkatkan untuk mengidentifikasinya atau mereka.

Penyelidikan lebih lanjut mungkin mengungkapkan bahwa beberapa siswa telah melihat jawaban tes sebelumnya atau bahwa mereka sebelumnya telah mengambil tes serupa, dan oleh karena itu tidak perlu belajar untuk tes khusus ini. Untuk masalah ini, mungkin saja ternyata siswa memiliki tingkat kemampuan kelulusan tes yang berbeda terlepas dari waktu belajar dan kinerja mereka pada tes sebelumnya, apa pun subjeknya.

Untuk memperbaiki model regresi, peneliti harus mencoba variabel penjelas lain yang dapat memberikan kesesuaian yang lebih akurat untuk data. Jika, misalnya, beberapa siswa telah melihat jawaban sebelumnya, model regresi kemudian akan memiliki dua variabel penjelas: waktu belajar, dan apakah siswa memiliki pengetahuan sebelumnya tentang jawaban tersebut. Dengan dua variabel ini, lebih banyak varians dari skor tes akan dijelaskan dan varians dari istilah kesalahan mungkin homoskedastis, menunjukkan bahwa model itu terdefinisi dengan baik.