Ketahui 10 Jenis Algoritma Machine Learning

algoritma machine learning

Algoritma Machine Learning adalah program yang dapat mempelajari pola tersembunyi dari data, memprediksi output, dan meningkatkan performa dari pengalaman mereka sendiri. Algoritma Machine Learning yang berbeda dapat digunakan dalam kasus yang berbeda, seperti simple linear regression yang dapat digunakan untuk masalah prediksi seperti prediksi pasar saham, dan algoritma KNN dapat digunakan untuk masalah klasifikasi.

Dalam topik ini, kita akan melihat ikhtisar dari beberapa algoritma Machine Learning yang populer dan paling umum digunakan algoritma bersama dengan kasus penggunaan dan kategorinya.

1. Linear Regression

Linear Regression adalah salah satu algoritma machine learning paling populer dan sederhana yang digunakan untuk analisis prediktif. Di sini, analisis prediktif mendefinisikan prediksi sesuatu, dan linear regression membuat prediksi untuk angka kontinu seperti gaji, usia, dan lain-lain.

Ini menunjukkan hubungan linier antara variabel dependen dan independen, dan menunjukkan bagaimana variabel dependen (y) berubah sesuai dengan variabel independen (x).

Ini mencoba untuk paling cocok dengan garis antara variabel dependen dan independen, dan garis paling cocok ini dikenal sebagai garis regresi.

Persamaan garis regresinya adalah:

y= a0+ a*x+ b
  • x = variabel bebas
  • y = variabel bergantung
  • a= Intercept of line.

Linear Regression terbagi lagi menjadi dua jenis:

Simple Linear Regression : Dalam simple linear regression, variabel bebas dapat digunakan untuk memprediksi nilai variabel bergantunng.

Multiple Linear Regression : Dalam multiple linear regression, lebih dari satu variabel independen digunakan untuk memprediksi nilai variabel dependen.

2. Logistic Regression

Logistic Regression adalah algoritma supervised learning, yang digunakan untuk memprediksi variabel kategorikal atau variabel bernilai diskrit. Ini dapat digunakan untuk masalah klasifikasi dalam algoritma machine learning, dan output dari algoritma logistic regression dapat berupa “Ya atau Tidak”, “0 atau 1”, “Merah atau Biru”, dan lain-lain.

Logistic Regression mirip dengan linear regression kecuali cara penggunaannya, seperti Linear Regression digunakan untuk menyelesaikan masalah regresi dan memprediksi nilai kontinu, sedangkan Logistic Regression digunakan untuk menyelesaikan masalah klasifikasi dan digunakan untuk memprediksi nilai diskrit.

Alih-alih memasang garis yang paling sesuai, ia membentuk kurva berbentuk S yang terletak antara 0 dan 1. Kurva berbentuk S juga dikenal sebagai fungsi logistik yang menggunakan konsep threshold batas. Setiap nilai di atas ambang batas akan cenderung 1, dan di bawah ambang batas akan cenderung 0.

logistic regression

3. Decision Tree

Decision Tree adalah algoritma supervised learning yang terutama digunakan untuk memecahkan masalah klasifikasi tetapi sering juga digunakan untuk masalah regresi. Ini dapat bekerja dengan variabel kategorikal dan variabel kontinu.

Ini menunjukkan struktur seperti pohon yang mencakup simpul dan cabang, dan dimulai dengan simpul akar yang meluas ke cabang selanjutnya hingga simpul daun. Node internal digunakan untuk mewakili fitur dataset, cabang menunjukkan aturan keputusan, dan node daun mewakili hasil dari masalah.

Beberapa aplikasi algoritma Decsion Tree di dunia nyata adalah identifikasi antara sel kanker dan non-kanker, saran kepada pelanggan untuk membeli mobil, dan lain-lain.

decision tree

4. Support Vector Machine

Support Vector Machine atau SVM adalah algoritma supervised learning yang juga dapat digunakan untuk masalah klasifikasi dan regresi. Namun, ini terutama digunakan untuk masalah klasifikasi. Tujuan SVM adalah untuk membuat hyperplane atau batas keputusan yang dapat memisahkan kumpulan data ke dalam kelas yang berbeda.

Titik data yang membantu untuk mendefinisikan hyperplane dikenal sebagai support vector, dan karenanya disebut sebagai algoritma support vector machine.

Beberapa aplikasi kehidupan nyata SVM adalah deteksi wajah, klasifikasi gambar, penemuan obat, dan lain-lain.

svm

5. Naive Bayes

Pengklasifikasi Naive Bayes adalah algoritma supervised learning, yang digunakan untuk membuat prediksi berdasarkan probabilitas objek (bersifat kondisi). Algoritma ini bernama Naive Bayes karena didasarkan pada teorema Bayes, dan mengikuti asumsi naif yang berbunyi “satu variabel independen dari variabel lain”.

Teorema Bayes didasarkan pada probabilitas bersyarat; itu berarti kemungkinan bahwa peristiwa (A) akan terjadi, ketika diberikan bahwa peristiwa (B) telah terjadi. Persamaan untuk teorema Bayes diberikan sebagai:

Algoritma Machine Learning Naive Bayes adalah salah satu pengklasifikasi terbaik yang memberikan hasil yang baik untuk masalah yang diberikan. Sangat mudah untuk membangun model bayesian yang naif, dan sangat cocok untuk sejumlah besar dataset. Hal ini sebagian besar digunakan untuk klasifikasi teks.

naive bayes

6. K-Nearest Neighbor (KNN)

K-Nearest Neighbor adalah algoritma supervised learning yang dapat digunakan untuk masalah klasifikasi maupun regresi. Algoritma Machine Learning ini bekerja dengan mengasumsikan persamaan antara titik data baru dan titik data yang tersedia (training data). Berdasarkan kemiripan tersebut, titik data yang baru dimasukkan ke dalam kategori yang paling mirip. Ini juga dikenal sebagai algoritma machine learning yang malas  karena menyimpan semua kumpulan data yang tersedia dan mengklasifikasikan setiap kasus baru dengan bantuan jumlah dari N-Neighbours. Kasus baru ditugaskan ke kelas terdekat dengan paling banyak kesamaan, dan setiap fungsi jarak mengukur jarak antara titik data. Pada umumnya, fungsi jarak yang sering digunakan merupakan jarak Euclidean, Minkowski, Manhattan, Hamming.

knn

7. K-Means Clustering

K-Means Clustering adalah salah satu algoritma unsupervised learning yang paling sederhana, yang digunakan untuk menyelesaikan masalah clustering.

Dataset kemudian di cluster ke dalam K-Cluster yang membedakan berdasarkan kesamaan dan ketidaksamaan, artinya dataset dengan sebagian besar kesamaan tetap berada dalam satu cluster yang memiliki sangat sedikit atau tidak ada kesamaan antara cluster lainnya. Dalam K-Means, K dari K-Means hanya mengacu pada jumlah cluster, dan mean mengacu pada rata-rata dataset untuk menemukan centroid.

Ini adalah algoritma machine learninng yang berbasis centroid, dan setiap cluster dikaitkan dengan centroid. Algoritma ini bertujuan untuk mengurangi jarak antara titik data dan centroidnya dalam sebuah cluster.

Algoritma Machine Learning ini dimulai dengan sekelompok centroid yang dipilih secara acak yang membentuk cluster di awal dan kemudian melakukan proses iteratif untuk mengoptimalkan posisi centroid tersebut.

Ini dapat digunakan untuk deteksi dan penyaringan spam, identifikasi berita palsu, dan lain-lain.

k means clustering

8. Random Forest

Random Forest adalah algoritma supervised learning yang dapat digunakan untuk masalah klasifikasi dan regresi dalam algoritma machine learning.

Ini adalah teknik ensemble learning yang memberikan prediksi dengan menggabungkan beberapa pengklasifikasi dan meningkatkan kinerja model.

Ini berisi beberapa algoritma decision tree untuk subset dari dataset yang diberikan, dan menemukan rata-rata untuk meningkatkan akurasi dari prediksi model.

Pada umumnya, sebuah random forest berjumlah 64-128 pohon. Semakin banyak jumlah pohon mengarah ke akurasi yang lebih tinggi dari algoritma. (Note : terlalu banyak jumlah pohon bisa mengarah ke overfitting)

Untuk mengklasifikasi dataset atau objek baru, setiap pohon memberikan hasil klasifikasi dan berdasarkan voting terbanyak, algoritma machine learning tersebut akan memprediksi hasil akhir.

Random Forest adalah algoritma yang cepat, dan secara efisien dapat menangani data yang hilang & salah.

random forest

9. Apriori

Apriori adalah algoritma unsupervised learning yang digunakan untuk menyelesaikan masalah asosiasi. Menggunakan frekuensi dari itemsets untuk menghasilkan association rule, dan dirancang untuk bekerja pada database yang berisi transaksi.

Dengan bantuan aturan asosiasi ini, ini menentukan seberapa kuat atau seberapa lemah dua objek terhubung satu sama lain. Algoritma ini menggunakan pencarian luas-pertama dan Hash Tree untuk menghitung itemset secara efisien.

Proses algoritma machine learning ini diprogram secara iteratif untuk menemukan frequent itemset dari dataset besar.

Algoritma Machine Learning Apriori diberikan oleh R. Agrawal dan Srikant pada tahun 1994. Hal ini terutama digunakan untuk market basket analysis dan membantu untuk memahami produk yang dapat dibeli oleh customer. Ini juga dapat digunakan di bidang perawatan kesehatan untuk menemukan reaksi obat pada pasien.

apriori

10. Principal Component Analysis

Principal Component Analysis (PCA) adalah teknik unsupervised learning, yang digunakan untuk reduksi dimensi data. Ini membantu dalam mengurangi dimensi dataset yang berisi banyak fitur yang berkorelasi satu sama lain.

Ini adalah proses statistik yang mengubah pengamatan fitur yang berkorelasi menjadi satu set fitur yang tidak berkorelasi linier dengan bantuan transformasi ortogonal. Ini adalah salah satu alat populer yang digunakan untuk exploratory data analysis dan pemodelan prediktif.

PCA bekerja dengan mempertimbangkan varians dari setiap atribut karena varians yang tinggi menunjukkan pemisahan yang baik antara kelas, dan karenanya mengurangi dimensi.

Beberapa aplikasi PCA dunia nyata adalah pemrosesan gambar, sistem rekomendasi film, mengoptimalkan alokasi daya di berbagai saluran komunikasi.

Tinggalkan Komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *