clustering

Pengenalan Clustering

Clustering┬ámerupakan sebuah metode Machine Learning, yang mengelompokkan kumpulan data yang tidak berlabel. Ini dapat didefinisikan sebagai “Suatu cara mengelompokkan titik-titik data ke dalam cluster yang berbeda, terdiri dari titik-titik data yang serupa. Objek-objek dengan kemungkinan kesamaan tetap berada dalam kelompok yang kurang atau tidak memiliki kesamaan dengan kelompok lain.”

Itu dilakukan dengan menemukan beberapa pola serupa dalam kumpulan data yang tidak berlabel seperti bentuk, ukuran, warna, perilaku, dll. Lalu, data tersebut dibagi sesuai dengan pola menurut algoritma itu sendiri.

Ini adalah metode unsupervised learning, karena tidak adanya label data yang diberikan pada algoritma tersebut, dan ini berkaitan dengan kumpulan data yang tidak berlabel.

Setelah menerapkan metode clustering ini, setiap cluster atau grup diberikan sebuah label-cluster. Sistem Machine Learning dapat menggunakan id ini untuk menyederhanakan pemrosesan kumpulan data yang besar dan kompleks.

Metode clustering biasanya digunakan untuk analisis data dengan metode-metode statistik.

Metode clustering dapat digunakan secara luas dengan berbagai kasus. Beberapa penggunaan yang paling umumnya dari metode ini adalah:

  • Segmentasi pasar
  • Analisis data statistik
  • Analisis jaringan sosial media
  • Segmentasi gambar
  • Deteksi anomali, dll.

Terlepas dari penggunaan pada umumnya, metode clustering digunakan oleh Amazon dalam sistem rekomendasinya untuk memberikan rekomendasi sesuai pencarian produk sebelumnya oleh user. Netflix juga menggunakan metode ini untuk merekomendasikan serial film kepada user sesuai dengan riwayat tontonan.

Jenis Metode Clustering

Metode clustering secara garis besar dibagi menjadi Hard clustering (titik data hanya dimiliki oleh satu grup) dan Soft Clustering (titik data juga dapat dimiliki oleh grup lain). Tetapi ada juga berbagai pendekatan Clustering lainnya. Di bawah ini adalah metode pengelompokan utama yang digunakan dalam Machine Learning:

  • Cluster berbasis Partisi
  • Cluster Berbasis Kepadatan
  • Cluster Berbasis Model Distribusi
  • Cluster Hierarkis
  • Cluster Fuzzy
  • Cluster Partisi

Ini adalah jenis pengelompokan yang membagi data menjadi kelompok non-hierarki. Ini juga dikenal sebagai metode berbasis centroid. Contoh paling umum dari clustering partisi adalah algoritma K-Means Clustering.

Dalam tipe ini, dataset dibagi menjadi satu set k grup, di mana K digunakan untuk menentukan jumlah grup yang telah ditentukan sebelumnya. Pusat cluster dibuat sedemikian rupa sehingga jarak antara titik-titik data dari satu cluster minimum dibandingkan dengan centroid cluster lainnya.

Clustering Berbasis Density

Metode clustering berbasis kepadatan menghubungkan daerah yang sangat padat ke dalam kelompok, dan distribusi berbentuk arbitrer terbentuk selama daerah padat dapat dihubungkan. Algoritma ini melakukannya dengan mengidentifikasi cluster yang berbeda dalam dataset dan menghubungkan area dengan kepadatan tinggi ke dalam cluster. Area padat dalam ruang data dibagi satu sama lain oleh area yang lebih jarang.

Algoritma-algoritma ini dapat menghadapi kesulitan dalam mengelompokkan titik-titik data jika kumpulan data memiliki kepadatan yang bervariasi dan dimensi yang tinggi.

dbscan

Clustering Berbasis Distribusi Model

Dalam metode pengelompokan berbasis distribusi model, data dibagi berdasarkan probabilitas dalam arti bagaimana suatu kumpulan data termasuk dalam distribusi tertentu. Pengelompokan dilakukan dengan beberapa asumsi (bergantung dari algoritma yang diaplikasikan).

Contoh dari tipe ini adalah algoritma Expectation-Maximization Clustering yang menggunakan Gaussian Mixture Models (GMM).

gmm

Clustering Hierarki

Clustering hierarki dapat digunakan sebagai alternatif untuk pengelompokan yang dipartisi karena tidak ada persyaratan untuk menentukan jumlah cluster yang akan dibuat. Dalam metode ini, dataset dibagi menjadi beberapa cluster untuk membuat struktur seperti pohon, biasanya disebut dendrogram. Pengamatan atau sejumlah cluster dapat dipilih dengan dengan mengelompokkan data ke pohon pada tingkat yang benar. Contoh paling umum dari metode ini adalah algoritma Agglomerative Hierarchical Clustering.

dendrogram

Fuzzy Clustering

Fuzzy clustering adalah jenis metode di mana objek data memiliki kemungkinan lebih dari satu kelompok atau cluster. Setiap dataset memiliki anggota himpunan koefisien, yang bergantung pada derajat anggota sebuah cluster. Algoritma Fuzzy C-Means adalah contoh dari tipe clustering ini, kadang juga dikenal sebagai algoritma Fuzzy K-Means.

Algoritma Clustering

Algoritma Clustering dapat dibagi berdasarkan model mereka yang dijelaskan di atas artikel ini. Ada berbagai jenis algoritma clustering yang ditemukan oleh para peneliti, tetapi hanya sedikit yang pada umumnya digunakan. Algoritma clustering didasarkan pada jenis data yang kita gunakan. Seperti, beberapa algoritma perlu menebak jumlah cluster dalam dataset yang diberikan, sedangkan beberapa diperlukan untuk menemukan jarak minimum antara pengamatan dataset.

  • Algoritma K-Means : Algoritma K-Means adalah salah satu algoritma clustering yang paling populer. Ini mengklasifikasikan dataset dengan membagi sampel ke dalam kelompok yang berbeda dari varians yang sama. Jumlah cluster harus ditentukan dalam algoritma ini.
  • Algoritma Mean-Shift : Algoritma Mean-Shift mencoba menemukan area padat dalam density suatu data yang halus. Ini adalah salah satu contoh model yang berbasis centroid, yang bekerja untuk memperbarui kandidat centroid menjadi pusat titik dalam wilayah tertentu.
  • Algoritma DBSCAN : Singkatan dari Density-Based Spatial Clustering of Applications with Noise. Ini adalah contoh model berbasis kepadatan yang mirip dengan pergeseran rata-rata, tetapi dengan beberapa keunggulan luar biasa. Dalam algoritma ini, area dengan kepadatan tinggi dipisahkan oleh area dengan kepadatan rendah. Karena itu, cluster dapat ditemukan dalam bentuk sembarang.
  • Expectation-Maximization Clustering menggunakan GMM : Algoritma ini dapat digunakan sebagai alternatif untuk algoritma K-Means atau untuk beberapa kasus di mana K-Means gagal untuk mencari centroid yang jelas. Algoritma GMM berasumsi kalau sifat dari data tersebut bersifat distribusi gaussian.
  • Agglomerative Hierarchical Clustering :Agglomerative Hierarchical Clustering melakukan pengelompokan hirarkis (bisa dipikirkan seperti anak tangga). Dalam hal ini, setiap titik data diperlakukan sebagai satu cluster di awal. Kemudian, cluster tersebut digabungkan secara berurutan. Hirarki cluster dapat direpresentasikan sebagai struktur pohon berupa dendrogram.
  • Affinity Propagation : Sifat dari algoritma clustering ini beda dengan algoritma yang lain karena tidak perlu menentukan jumlah cluster. Dalam hal ini, setiap titik data mengirimkan pesan antara pasangan titik data hingga algoritma mengalami convergence.

Aplikasi Clustering

Di bawah ini adalah beberapa aplikasi metode clustering yang umum dikenal dalam Machine Learning:

  • Identifikasi Sel Kanker: Algoritma clustering banyak digunakan untuk identifikasi sel kanker. Algoritma clustering digunakan untuk mencari pola dan mencari perbedaan antar dataset gambar kanker dan non-kanker dan melakukan pengelompokan.
  • Search Engine : Search Engine juga menggunakan metode pengelompokan. Hasil pencarian muncul berdasarkan objek terdekat/persamaan yang terdekat berdasarkan pencarian user. Ini dilakukan dengan mengelompokkan objek data serupa dalam satu kelompok yang jauh dari objek lain yang berbeda. Hasil yang akurat dari sebuah query tergantung pada kualitas dari algoritma clustering dan data yang digunakan.
  • Segmentasi Pelanggan: Ini digunakan dalam riset pasar untuk mengelompokkan pelanggan berdasarkan pilihan dan preferensi mereka.
  • Biologi: Ini digunakan dalam bidang biologi untuk mengklasifikasikan berbagai spesies tumbuhan dan hewan menggunakan metode deteksi objek.
  • Lahan : Metode clustering digunakan untuk mengidentifikasi area penggunaan lahan yang serupa di database bersifat geografis (GIS). Ini sangat berguna untuk mengetahui bahwa tujuan tanah tertentu yang harus digunakan, dengan tujuan apakah lahan tersebut cocok.

Tinggalkan Komentar

Alamat email Anda tidak akan dipublikasikan.