Konten :
Apa itu P-Value?
Dalam pengujian hipotesis statistik, P-Value atau kadang disebut nilai probabilitas, digunakan untuk mengamati hasil pengujian atau hasil yang lebih ekstrim dengan mengasumsikan bahwa null hypothesis (H0) adalah benar. Dalam data science, ada banyak konsep yang dipinjam dari berbagai disiplin ilmu, dan p-value adalah salah satunya. Konsep p-value berasal dari ilmu statistik dan banyak digunakan dalam Machine Learning dan Data Science.
P-value juga digunakan sebagai alternatif untuk menentukan titik penolakan guna memberikan tingkat signifikansi terkecil dimana null hypothesis paling kecil atau ditolak.
Hal ini dinyatakan sebagai tingkat signifikansi yang terletak antara 0 dan 1, dan jika nilai p lebih kecil, maka akan ada bukti kuat untuk menolak null hypothesis. Jika nilai p-value sangat kecil, maka berarti output yang diamati layak tetapi tidak berada di bawah kondisi null hypothesis (H0).
P-Value 0,05 dikenal sebagai tingkat signifikansi (α) [alpha]. Biasanya, itu dianggap menggunakan dua saran, yang diberikan di bawah ini:
- Jika p-value > 0,05: Besarnya p-value menunjukkan bahwa null hypothesis perlu diterima.
- Jika p-value < 0,05: Nilai p yang kecil menunjukkan bahwa null hypotehsis perlu ditolak, dan hasilnya dinyatakan signifikan secara statis.
Dalam Statistik, tujuan utama kami adalah untuk menentukan signifikansi statistik dari hasil kami, dan signifikansi statistik ini dibuat berdasarkan tiga konsep di bawah ini:
- Pengujian Hipotesis
- Distribusi normal
- Signifikansi Statistik
Mari kita pahami masing-masing.
Pengujian Hipotesis
Pengujian hipotesis dapat didefinisikan antara dua istilah; null hypothesis dan alternative hypothesis.
Ini digunakan untuk memeriksa validitas null hypothesis atau klaim yang dibuat dengan menggunakan data sampel. Di sini, null hypothesis (H0) didefinisikan sebagai hipotesis tanpa signifikansi statistik antara dua variabel, sedangkan hipotesis alternatif didefinisikan sebagai hipotesis dengan signifikansi statistik antara dua variabel.
Tidak adanya hubungan yang signifikan antara kedua variabel tersebut menunjukkan bahwa variabel yang satu tidak akan mempengaruhi variabel yang lain.
Null hypothesis mengatakan bahwa apa yang akan dibuktikan tidak benar-benar terjadi. Jika variabel bebas tidak mempengaruhi variabel terikat, maka menunjukkan kondisi alternative hypothesis.
Secara sederhana, kita dapat mengatakan bahwa dalam pengujian hipotesis, pertama, kita membuat klaim yang diasumsikan sebagai null hypothesis dengan menggunakan sampel dari data. Jika klaim ini ditemukan tidak valid, maka alternative hypothesis yang dipilih.
Asumsi atau klaim ini divalidasi dengan menggunakan p-value untuk melihat apakah signifikan secara statistik atau tidak menggunakan bukti. Jika bukti mendukung hipotesis alternatif, maka null hypothesis ditolak.
Langkah-langkah Pengujian Hipotesis
Berikut adalah langkah-langkah melakukan percobaan untuk pengujian hipotesis:
- Klaim atau nyatakan hipotesis Null untuk eksperimen.
- Nyatakan hipotesis alternatif, yang berlawanan dengan hipotesis nol.
- Atur nilai alpha yang akan digunakan dalam percobaan.
- Tentukan Z-Score dengan menggunakan distribusi normal.
- Bandingkan p-value untuk memvalidasi signifikansi statistik.
Distribusi Normal
Distribusi normal, yang juga dikenal sebagai distribusi Gaussian, adalah fungsi distribusi Probabilitas. Bersifat simetris terhadap mean, dan digunakan untuk melihat sebaran data menggunakan plot grafik.
Hal ini menunjukkan bahwa data yang mendekati mean lebih sering muncul dibandingkan dengan data yang jauh dari mean, dan terlihat seperti kurva berbentuk lonceng.
Dua istilah utama dari distribusi normal adalah mean(μ) dan standar deviasi(σ). Untuk distribusi normal, rata-ratanya adalah nol, dan simpangan bakunya adalah 1.
Dalam pengujian hipotesis, kita perlu menghitung z-score. Z-Score adalah jumlah standar deviasi dari rata-rata titik data.
Di sini, z-score memberi tahu kami bahwa di mana letak data dibandingkan dengan rata-rata populasi.
Signifikansi Statistik
Untuk menentukan signifikansi statistik dari uji hipotesis dengan tujuan menghitung nilai-p. Untuk melakukan ini, pertama, kita perlu menetapkan ambang batas, yang dikatakan alfa.
Kita harus selalu menyetel nilai alfa sebelum eksperimen, dan itu diubah menjadi 0,05 atau 0,01 (bergantung pada jenis masalahnya).
Hasil tersebut disimpulkan sebagai hasil yang signifikan jika p-value yang diamati lebih rendah dari alpha.
Kesalahan dalam P-Value
Dua jenis kesalahan didefinisikan untuk nilai-p; kesalahan ini diberikan di bawah ini:
- Error tipe I
- Error tipe II
Error Tipe I:
Ini didefinisikan sebagai penolakan yang salah atau salah dari hipotesis Null. Untuk kesalahan ini, probabilitas maksimum adalah alfa, dan sudah diatur sebelumnya. Kesalahan tidak terpengaruh oleh ukuran sampel kumpulan data. Kesalahan tipe I meningkat saat kami meningkatkan jumlah tes atau titik akhir.
Error tipe II
Kesalahan tipe II didefinisikan sebagai penerimaan yang salah dari hipotesis null. Probabilitas kesalahan tipe II adalah beta, dan beta tergantung pada ukuran sampel dan nilai alfa. Beta tidak dapat ditentukan sebagai fungsi dari efek populasi sebenarnya. Nilai beta berbanding terbalik dengan ukuran sampel, dan itu berarti beta menurun seiring dengan bertambahnya ukuran sampel.
Nilai beta juga berkurang ketika kita meningkatkan jumlah tes atau titik akhir.
Kepentingan P-Value
Pentingnya nilai p dapat dipahami dalam dua aspek:
- Aspek Statistik: Dalam statistik, konsep nilai-p penting untuk pengujian hipotesis dan metode statistik seperti Regresi.
- Aspek Data Science : Dalam data science juga, ini merupakan salah satu aspek penting. Di sini p-value yang lebih kecil menunjukkan bahwa ada hubungan antara prediktor dan respons. Disarankan saat bekerja dengan masalah machine learning dalam data science, p-value harus diambil dengan hati-hati (bergantung dari confidence interval dan data tersebut).