Kesalahan Memahami Signifikansi Statistik

Saya terpikat oleh sebuah paper dari Raymond Hubbard dan J. Scott Armstrong (2005) yang berjudul “Why We Don’t Really Know What ‘Statistical Significance’ Means: A Major Educational Failure”. Meskipun paper tersebut sudah cukup tua, namun topik yang dibawakan masih cukup nendang bagi saya. Paper tersebut menunjukkan bahwa kerap terdapat kesalahan pemahaman makna signifikansi statistik dalam jurnal-jurnal dan buku-buku teks riset bisnis. Banyak penulis yang telah salah mengartikan makna signifikansi statistik dengan menggunakan kriteria p < α sebagai uji signifikansi statistik.

Buku-buku teks yang ditemukan bermasalah di antaranya adalah:

  1. Marketing Research within a changing information environment (Hair, Bush dan Ortinau, 2003);
  2. Marketing Research (Cooper dan Schindler, 2006);
  3. Marketing Research (Aaker, Kumar dan Day, 2001);
  4. Marketing Research: An applied orientation (Malhotra, 2004);
  5. Marketing Research: The impact of the internet (McDaniel dan Gates, 2002);
  6. Marketing Research (Parasuraman, Grewal dan Khrisnan, 2004).

Note: (nama pengarang yang dicetak tebal adalah referensi yang pernah saya gunakan). 

Riset

Bagaimana seharusnya uji signifikansi yang benar? Bagaimana kesalahpahaman kriteria p < α mulai muncul di ranah akademis? Dalam tulisan ini, saya akan menceritakan kembali isi paper tersebut kepada Anda.

Uji Signifikansi ala Fisher (p-value) dan ala Neyman-Pearson (α-level)

Uji signifikansi adalah salah satu tahap terpenting dalam sebuah riset, wa bil khusus riset yang bermetodologi kuantitatif. Uji ini yang akan menentukan simpulan hasil riset. Uji signifikansi menentukan apakah hipotesis yang dibuat di awal riset akan diterima atau ditolak. Karena peran pentingnya itulah, para ahli mencari cara terbaik yang dapat membedakan hasil pengamatan secara meyakinkan. Tingkat keyakinan yang memadai untuk dapat menerima suatu hipotesis tersebut yang kerap disebut dengan istilah signifikansi statistik (statistical significance).

Terdapat dua mazhab besar dalam penentuan signifikansi statistik dalam riset ilmu sosial. Mazhab Fisher menggunakan nilai p untuk menunjukkan uji signifikansi dan inferensi induktif. Sementara mazhab Neyman-Pearson menggunakan nilai alpha untuk menunjukkan perilaku yang terpilih di antara hipotesis null (H0) dan hipotesis alternatif (HA).

Mazhab yang dianut oleh Fisher berdasarkan cara berpikir induktif. Fisher menggunakan nilai p untuk menentukan signifikansi. Nilai p ini menunjukkan probabilitas hasil pengamatan (x) tidak memiliki efek atau hubungan dengan hipotesis null (H0), dinotasikan dengan P (x | H0). Nilai p menunjukkan besarnya probabilitas kebenaran hipotesis null (H0) saja tanpa ada hipotesis alternatif (HA). Jika H0 terbukti signifikan, maka bisa disimpulkan (inferensial) bahwa H0 diterima.

Mazhab Neyman-Pearson menggunakan uji hipotesis untuk mencari titik signifikansi antara dua hipotesis. Menurut mazhab ini, titik signifikansi tersebut tercapai saat model penelitian bebas dari kesalahan, atau setidaknya error/kesalahan dalam pengamatan bisa diminimalisasi. Signifikansi tersebut ditentukan oleh besarnya dua macam error, yaitu salah menolak H0, atau kerap disebut Type I Error (α), dan salah menerima HA, atau disebut Type Error II (β).

Dengan demikian, penggunaan p-value dan Type I error tidak dapat dicampuradukkan. Walaupun keduanya sama-sama mengamati ekor distribusi (tail distribution), tetapi P-value menunjukkan di area distribusi mana hasil penelitian terletak dan hanya bisa diketahui setelah uji statistik, sementara Type I Error menunjukkan apakah hasil penelitian akan jatuh di area distribusi yang diterima atau ditolak; dan nilainya ditentukan oleh peneliti sebelum uji statistik. Kombinasi keduanya untuk menguji signifikansi statistik tentu adalah sebuah metode penilaian yang bias.

Pendapat ini juga diamini oleh Wikipedia. Dalam lema mengenai P-value, wikipedia mengingatkan bahwa:

“…, P-value bukanlah probabilitas hipotesis null akan diterima, P-value juga tidak sama dengan tingkat kesalahan Tipe I, α.”   (http://en.wikipedia.org/wiki/P-value)

Demikian pula di lema mengenai signifikansi statistik, wikipedia menyebutkan hal yang serupa:

“Perlu ditekankan bahwa nilai-p Fisherian secara filosofis berbeda dari Tipe I kesalahan Neyman-Pearson . Kebingungan ini sayangnya masih disebarkan oleh banyak buku-buku statistik.”(http://en.wikipedia.org/wiki/Statistical_significance)

 

Sejak Kapan Kriteria p < α Mulai Muncul?

Ronald Fisher sendiri telah mengeluhkan bahwa uji signifikansi telah “terasimilasi” ke dalam kerangka pengujian hipotesis Neyman-Pearson. Melalui tulisannya berjudul “Statistical methods and scientific induction” yang diterbitkan tahun 1955 di Journal of the Royal Statistical Society, B, Volume 17: hal. 69–78, Fisher menolak asimilasi penggunaan p-value dan Type I Error tersebut.

Dalam berbagai sumber statistik untuk pentlitian bisnis dan ilmu-ilmu sosial, diajarkan bahwa penelitian dilakukan kurang lebih sebagai berikut:

  1. Peneliti menentukan hipotesis null (H0) dan hipotesis alternatif (HA).
  2. Peneliti menentukan tingkat signifikansi dengan menentukan nilai α (kesalahan Tipe I).
  3. Peneliti menghitung kekuatan tes (misalnya dengan nilai z). Sampai di sini, langkah-langkah riset telah sesuai dengan aliran Neyman-Pearson.
  4. Setelah itu, uji statistik dihitung, dan nilai p ditentukan.
  5. Signifikansi statistik riset ini kemudian ditentukan dengan menggunakan kriteria p <α. Jika p <α, hasilnya dianggap signifikan secara statistik, sedangkan jika p> α, maka hasil riset tidak signifikan.

Hasil akhir dari metode asimilasi Fisher dan Neyman-Pearson adalah bahwa, meskipun entitas yang sama sekali berbeda dengan interpretasi yang sama sekali berbeda pula, nilai p adalah dalam pikiran peneliti sekarang dipandang memiliki keterkaitaitan dengan tingkat kesalahan Tipe I, α. Dan karena keduanya sama-sama konsep probabilitas ekor wilayah distribusi, nilai p keliru ditafsirkan sebagai pengamatan berbasis frekuensi sebagaimana tingkat kesalahan tipe I, dan juga disalahgunakan sebagai bukti pengukuran terhadap H0 (yaitu, p <α) .

Penutup

Waktu membuka buku Metode Riset Bisnis edisi International (2008) yang disusun oleh Cooper dan Schindler, saya masih menemukan kriteria p<α digunakan di Bab Hypothesis Testing. Untungnya, tesis saya tidak menggunakan kriteria p <α ini.

Apakah mungkin skripsi-skripsi, tesis-tesis dan jurnal-jurnal masih salah kaprah pula memahami hal ini? Bagaimana dengan penelitian Anda? Ditunggu masukan dan pengalaman Anda di kotak komentar.

Gambar dari laman web Sekolah Pascasarjana UGM

  • Pingback: Hipotesis Penelitian – Antara Ilmu Sosial dan Eksakta | Wahyu Widhiarso()

  • ppak kalau kesalahan fisher test itu apa ya maksudnya mas?

    • Taking the ovrveiew, this post is first class

  • Amelia

    Mau tanya mas,dlm mengambil keputusan menolak atau menerima H0, nilai p yg kita dapat lalu kita bandingkan dengan nilai apa ya, jika misalnya kita mau konsisten pakai metode Fisher? Terima kasih.

  • Hartanto –

    jika nilai p=0.02 dalam riset itu berarti, peluang Ho untuk diterima sangatlah kecil (0.02), dan berada dibawah 0.05 (batas peluang itu bisa diilmiahkan kemunculannya), berarti Ha diterima karena dia berada di sisi lawan 0.02 atau lebih banyak muncul keluar diatas 0.02. jadi menurut saya p value Ronald Fisher tetap memakai Ho dan Ha untuk menjelaskan hasil riset. dan menurut saya itu lebih mudah dibanding Tipe 1 error alpha.