Data cleaning merupakan salah satu bagian penting dari machine learning. Ini memainkan peran penting dalam membangun model. Ini tentu saja bukan bagian paling mewah dari machine learning dan pada saat yang sama, tidak ada trik atau rahasia tersembunyi untuk diungkap. Namun, keberhasilan atau kegagalan suatu projek machine learning sangat bergantung pada proses data cleaning yang tepat. Data Scientist biasanya menggunakan sebagian besar waktu mereka dalam langkah ini karena keyakinan bahwa “Data yang lebih baik mengalahkan algoritma yang lebih bagus”.
Apa itu Data Cleaning ?
Data cleaning, atau cleansing, adalah proses mengoreksi dan menghapus record yang tidak akurat dari database atau tabel. Secara garis besar data cleaning atau cleansing terdiri dari identifikasi dan penggantian data dan record yang tidak lengkap, tidak akurat, tidak relevan, atau yang bermasalah.
Dengan proses data cleaning yang efektif, semua dataset harus konsisten dan bebas dari kesalahan apa pun yang dapat menjadi masalah selama penggunaan atau analisis nanti.
Aspek Dan Konsep Data Cleaning
Kualitas data
Terus terang, saya tidak dapat menemukan penjelasan yang lebih baik untuk kriteria kualitas selain yang ada di Wikipedia. Jadi, saya akan meringkasnya di sini.
Validitas
Tingkat kesesuaian data dengan aturan atau batasan bisnis yang ditentukan.
- Batasan Tipe Data : nilai dalam kolom tertentu harus dari tipe data tertentu, misalnya, boolean, numerik, tanggal, dll.
- Range Constraints : biasanya, angka atau tanggal harus berada dalam rentang tertentu.
- Mandatory Constraints : kolom tertentu tidak boleh kosong.
- Kendala Unik : sebuah bidang, atau kombinasi bidang, harus unik di seluruh dataset.
- Kendala Set-Keanggotaan : nilai kolom berasal dari satu set nilai diskrit, misalnya nilai enum. Misalnya, jenis kelamin seseorang mungkin laki-laki atau perempuan.
- Foreign-key constraints : seperti dalam database relasional, kolom foreign key tidak dapat memiliki nilai yang tidak ada dalam primary key yang direferensikan.
- Pola ekspresi reguler : kolom teks yang harus berada dalam pola tertentu. Misalnya, nomor telepon mungkin diharuskan memiliki pola (999) 999-9999.
- Validasi lintas-bidang : kondisi tertentu yang mencakup beberapa bidang harus berlaku. Misalnya, tanggal keluar pasien dari rumah sakit tidak boleh lebih awal dari tanggal masuk.
Akurasi
Sejauh mana data mendekati nilai yang sebenarnya.
Meskipun dengan mendefinisikan semua kemungkinan nilai yang valid memungkinkan nilai yang tidak valid dapat dengan mudah ditemukan, tidak berarti bahwa nilai tersebut akurat.
Alamat jalan yang valid mungkin tidak benar-benar ada. Warna mata seseorang yang valid, misalnya biru, mungkin valid, tetapi tidak benar (tidak mewakili kenyataan).
Hal lain yang perlu diperhatikan adalah perbedaan antara akurasi dan presisi. Mengatakan bahwa Anda tinggal di bumi, sebenarnya benar. Tapi, tidak tepat. Di mana di bumi? Mengatakan bahwa Anda tinggal di alamat jalan tertentu lebih tepat.
Kelengkapan
Sejauh mana semua data yang diperlukan diketahui.
Data yang hilang akan terjadi karena berbagai alasan. Seseorang dapat mengurangi masalah ini dengan mempertanyakan sumber aslinya jika memungkinkan, misalnya mewawancarai kembali subjeknya.
Kemungkinannya adalah, subjek akan memberikan jawaban yang berbeda atau akan sulit dijangkau lagi.
Konsistensi
Sejauh mana data konsisten, dalam kumpulan data yang sama atau di beberapa kumpulan data.
Ketidakkonsistenan terjadi ketika dua nilai dalam kumpulan data saling bertentangan.
Usia yang valid, katakanlah 10 tahun, mungkin tidak cocok dengan status perkawinan, katakanlah bercerai. Seorang pelanggan dicatat dalam dua tabel yang berbeda dengan dua alamat yang berbeda.
Keseragaman
Derajat di mana data ditentukan dengan menggunakan satuan ukuran yang sama.
Berat badan dapat dicatat baik dalam pon atau kilo. Mata uang kadang-kadang dalam mata uang rupiah dan kadang-kadang dalam USD.
Maka data harus dikonversi ke unit ukuran tunggal.
Duplikasi
Duplikasi adalah titik data yang terulang dalam dataset Anda.
Ini sering terjadi ketika misalnya
- Data digabungkan dari sumber yang berbeda
- Pengguna mungkin menekan tombol kirim dua kali karena mengira formulir tidak benar-benar dikirimkan.
- Permintaan untuk pemesanan online dikirimkan dua kali mengoreksi informasi yang salah yang dimasukkan secara tidak sengaja pada saat pertama kali.
- Gejala yang umum adalah ketika dua pengguna memiliki nomor identitas yang sama. Atau, artikel yang sama dihapus dua kali.
Dan oleh karena itu, mereka harus dihapus.
Alur kerja
Alur kerja adalah urutan tiga langkah yang bertujuan menghasilkan data berkualitas tinggi dan mempertimbangkan semua kriteria yang telah kita bicarakan.
- Inspeksi : Mendeteksi data yang tidak terduga, salah, dan tidak konsisten.
- Cleaning : Memperbaiki atau menghapus anomali yang ditemukan.
- Validasi : Setelah proses data cleaning dilakukan, hasilnya diperiksa untuk divalidasi lebih lanjut.
- Pelaporan : Laporan terkait dengan perubahan yang dibuat dan kualitas data yang disimpan saat ini dicatat.
Apa yang Anda lihat sebagai proses yang berurutan, pada kenyataannya, merupakan proses yang berulang dan tanpa akhir. Seseorang bisa beralih dari memverifikasi ke inspeksi ketika kekurangan baru terdeteksi.
Mengapa Data Cleaning Penting ?
Di bawah ini adalah beberapa alasan mengapa membersihkan data itu penting:
Menjaga integritas data
Sebagai seorang profesional IT, tujuan utama Anda mungkin untuk mendapatkan pengetahuan dan wawasan berharga dari data mentah Anda. Seringkali, data mentah ini mungkin tidak berkualitas, nilai yang tidak teratur dan tidak konsisten dan dapat menghasilkan hasil yang salah kecuali jika Anda menerapkan proses data cleaning. Data yang bersih dapat membantu Anda menghasilkan hasil dan kesimpulan yang dapat diandalkan dan akurat.
Meningkatkan pengambilan keputusan
Membersihkan data dapat meningkatkan kualitas data Anda dan memungkinkan analisis yang lebih akurat untuk membantu dalam proses pengambilan keputusan. Dengan memanfaatkan data saat ini, Anda dapat lebih memahami audiens target Anda dan menetapkan taktik yang lebih sukses yang dapat menambah kesuksesan jangka panjang Anda secara keseluruhan. Data yang akurat dan terkini dapat membuat analisis data lebih mudah, kemudian memberi Anda temuan untuk pengambilan keputusan dan eksekusi yang lebih baik.
Meningkatkan kualitas data
Membersihkan data dari banyak sumber dapat mempermudah untuk mengubahnya menjadi format yang dapat dipahami oleh dat analyst dan data scientist. Membersihkan data dapat membantu dalam meningkatkan kualitas data dan akurasi machine learning. Ketika Anda sedang membersihkan data Anda, Anda menyingkirkan informasi lama atau tidak relevan, sehingga Anda hanya memiliki data berkualitas. Hal ini dapat menghilangkan kebutuhan Anda untuk mencari dokumen lama dan memaksimalkan jam kerja Anda.
Menghapus data yang tidak diperlukan
Proses data cleaning dapat membantu Anda menghapus semua titik data yang tidak terhubung dan tidak perlu dari set yang Anda analisis. Jika Anda mentransfer data sebelum membersihkannya, informasi yang tidak relevan dapat membuat kesalahan dan salah hitung saat mengumpulkan data mentah. Untuk akurasi dan kualitas informasi, Anda dapat mengidentifikasi dan menghapus setiap bit data yang tidak terkait dengan analisis yang Anda lakukan.
Memastikan bahwa Anda hanya menyimpan data penting di komputer Anda
Banyak informasi pribadi di komputer Anda mungkin tidak relevan dari waktu ke waktu dan dapat menimbulkan masalah keamanan. Seiring berjalannya waktu, Anda mungkin juga menumpuk sejumlah besar data pribadi di komputer Anda. Data cleaning individual memungkinkan Anda untuk hanya menyimpan informasi penting karena semua informasi ini bisa menjadi sangat banyak.
Memastikan konsistensi dari Data
Saat melakukan analisis komersial, konsistensi data mungkin sangat penting. Ketika beberapa sumber data tersedia, membersihkan data Anda sebelum menyimpannya dapat membantu mengurangi kesalahan, duplikasi, dan data yang hilang. Proses ini dapat memeriksa hubungan logis antara set data dan inkonsistensi, seperti kontradiksi dan kesenjangan data. Proses data cleaning memastikan bahwa data yang Anda atur, urutkan, dan simpan untuk operasi bisnis lebih konsisten, sehingga lebih mudah diakses dan dianalisis.
Memungkinkan pembacaan dan penggunaan data dengan mudah
Data cleaning dapat membantu Anda membuang data yang tidak relevan dan duplikat, yang mungkin membuat Anda kewalahan selama analisis.
Memiliki informasi yang akurat dan terkini dapat membantu Anda memetakan berbagai fungsi data dengan lebih baik untuk memahami apa yang dapat dilakukan oleh data Anda. Data yang bersih dapat membantu Anda menciptakan solusi yang lebih sukses.
Aplikasi Data Cleaning di Dunia Nyata
Bisnis
- Pemasaran : Kampanye iklan yang menggunakan data berkualitas rendah dan menjangkau pengguna dengan penawaran yang tidak relevan. Hal ini tidak hanya mengurangi kepuasan pelanggan, tetapi juga melewatkan peluang penjualan yang signifikan.
- Penjualan : Perwakilan penjualan gagal menghubungi pelanggan sebelumnya, karena tidak memiliki data yang lengkap dan akurat.
- Kepatuhan : Setiap bisnis online yang menerima hukuman dari pemerintah karena tidak memenuhi aturan privasi data untuk pelanggannya. Oleh karena itu, vendor data cleaning harus memberi Anda jaminan yang cukup bahwa data akan diproses dalam kerangka kepatuhan GDPR.
- Operasi : Mengkonfigurasi robot dan produksi mesin lainnya berdasarkan data operasional berkualitas rendah, dapat menyebabkan masalah besar bagi perusahaan manufaktur
Industri
- Kesehatan : Dalam perawatan kesehatan, data yang kotor dapat menyebabkan perawatan yang salah dan obat farmasi yang gagal. Menurut survei Accenture, 18 persen eksekutif kesehatan percaya bahwa kurangnya data yang bersih adalah hambatan utama bagi Artificial Intelligence (AI) untuk mencapai potensi nyata dalam perawatan kesehatan.
- Akuntansi & Keuangan : Data yang tidak akurat dan tidak lengkap dapat menyebabkan pelanggaran peraturan, keputusan yang tertunda karena pemeriksaan manual, dan strategi perdagangan yang tidak optimal.
- Manufaktur & logistik : Penilaian inventaris bergantung pada data yang akurat. Jika data hilang atau tidak konsisten, hal ini dapat menyebabkan masalah pengiriman dan pelanggan yang tidak puas.