Site icon Digital Polar

Pengenalan Clustering

clustering

Clustering merupakan sebuah metode Machine Learning, yang mengelompokkan kumpulan data yang tidak berlabel. Ini dapat didefinisikan sebagai “Suatu cara mengelompokkan titik-titik data ke dalam cluster yang berbeda, terdiri dari titik-titik data yang serupa. Objek-objek dengan kemungkinan kesamaan tetap berada dalam kelompok yang kurang atau tidak memiliki kesamaan dengan kelompok lain.”

Itu dilakukan dengan menemukan beberapa pola serupa dalam kumpulan data yang tidak berlabel seperti bentuk, ukuran, warna, perilaku, dll. Lalu, data tersebut dibagi sesuai dengan pola menurut algoritma itu sendiri.

Ini adalah metode unsupervised learning, karena tidak adanya label data yang diberikan pada algoritma tersebut, dan ini berkaitan dengan kumpulan data yang tidak berlabel.

Setelah menerapkan metode clustering ini, setiap cluster atau grup diberikan sebuah label-cluster. Sistem Machine Learning dapat menggunakan id ini untuk menyederhanakan pemrosesan kumpulan data yang besar dan kompleks.

Metode clustering biasanya digunakan untuk analisis data dengan metode-metode statistik.

Metode clustering dapat digunakan secara luas dengan berbagai kasus. Beberapa penggunaan yang paling umumnya dari metode ini adalah:

Terlepas dari penggunaan pada umumnya, metode clustering digunakan oleh Amazon dalam sistem rekomendasinya untuk memberikan rekomendasi sesuai pencarian produk sebelumnya oleh user. Netflix juga menggunakan metode ini untuk merekomendasikan serial film kepada user sesuai dengan riwayat tontonan.

Jenis Metode Clustering

Metode clustering secara garis besar dibagi menjadi Hard clustering (titik data hanya dimiliki oleh satu grup) dan Soft Clustering (titik data juga dapat dimiliki oleh grup lain). Tetapi ada juga berbagai pendekatan Clustering lainnya. Di bawah ini adalah metode pengelompokan utama yang digunakan dalam Machine Learning:

Ini adalah jenis pengelompokan yang membagi data menjadi kelompok non-hierarki. Ini juga dikenal sebagai metode berbasis centroid. Contoh paling umum dari clustering partisi adalah algoritma K-Means Clustering.

Dalam tipe ini, dataset dibagi menjadi satu set k grup, di mana K digunakan untuk menentukan jumlah grup yang telah ditentukan sebelumnya. Pusat cluster dibuat sedemikian rupa sehingga jarak antara titik-titik data dari satu cluster minimum dibandingkan dengan centroid cluster lainnya.

Clustering Berbasis Density

Metode clustering berbasis kepadatan menghubungkan daerah yang sangat padat ke dalam kelompok, dan distribusi berbentuk arbitrer terbentuk selama daerah padat dapat dihubungkan. Algoritma ini melakukannya dengan mengidentifikasi cluster yang berbeda dalam dataset dan menghubungkan area dengan kepadatan tinggi ke dalam cluster. Area padat dalam ruang data dibagi satu sama lain oleh area yang lebih jarang.

Algoritma-algoritma ini dapat menghadapi kesulitan dalam mengelompokkan titik-titik data jika kumpulan data memiliki kepadatan yang bervariasi dan dimensi yang tinggi.

Clustering Berbasis Distribusi Model

Dalam metode pengelompokan berbasis distribusi model, data dibagi berdasarkan probabilitas dalam arti bagaimana suatu kumpulan data termasuk dalam distribusi tertentu. Pengelompokan dilakukan dengan beberapa asumsi (bergantung dari algoritma yang diaplikasikan).

Contoh dari tipe ini adalah algoritma Expectation-Maximization Clustering yang menggunakan Gaussian Mixture Models (GMM).

Clustering Hierarki

Clustering hierarki dapat digunakan sebagai alternatif untuk pengelompokan yang dipartisi karena tidak ada persyaratan untuk menentukan jumlah cluster yang akan dibuat. Dalam metode ini, dataset dibagi menjadi beberapa cluster untuk membuat struktur seperti pohon, biasanya disebut dendrogram. Pengamatan atau sejumlah cluster dapat dipilih dengan dengan mengelompokkan data ke pohon pada tingkat yang benar. Contoh paling umum dari metode ini adalah algoritma Agglomerative Hierarchical Clustering.

Fuzzy Clustering

Fuzzy clustering adalah jenis metode di mana objek data memiliki kemungkinan lebih dari satu kelompok atau cluster. Setiap dataset memiliki anggota himpunan koefisien, yang bergantung pada derajat anggota sebuah cluster. Algoritma Fuzzy C-Means adalah contoh dari tipe clustering ini, kadang juga dikenal sebagai algoritma Fuzzy K-Means.

Algoritma Clustering

Algoritma Clustering dapat dibagi berdasarkan model mereka yang dijelaskan di atas artikel ini. Ada berbagai jenis algoritma clustering yang ditemukan oleh para peneliti, tetapi hanya sedikit yang pada umumnya digunakan. Algoritma clustering didasarkan pada jenis data yang kita gunakan. Seperti, beberapa algoritma perlu menebak jumlah cluster dalam dataset yang diberikan, sedangkan beberapa diperlukan untuk menemukan jarak minimum antara pengamatan dataset.

Aplikasi Clustering

Di bawah ini adalah beberapa aplikasi metode clustering yang umum dikenal dalam Machine Learning:

Exit mobile version