Big Data

big data

Apa itu Big Data ?

Big data adalah kombinasi dari data terstruktur, semi-terstruktur, dan tidak terstruktur yang dikumpulkan oleh organisasi yang dapat ditambang untuk informasi dan digunakan dalam projek machine learning, pemodelan prediktif, dan aplikasi analitik lanjutan lainnya.

Sistem yang memproses dan menyimpan big data telah menjadi komponen umum dari arsitektur manajemen data dalam organisasi, dikombinasikan dengan alat yang mendukung penggunaan analitik. Big data sering dicirikan oleh tiga V:

  • Volume data yang besar di banyak lingkungan
  • Berbagai macam tipe data yang sering disimpan
  • Kecepatan di mana sebagian besar data dihasilkan, dikumpulkan, dan diproses.

Karakteristik ini pertama kali ditemukan pada tahun 2001 oleh Doug Laney, yang kemudian menjadi analis di perusahaan konsultan Meta Group Inc. Gartner semakin mempopulerkannya setelah mengakuisisi Meta Group pada tahun 2005. Baru-baru ini, beberapa V lainnya telah ditambahkan ke deskripsi berbeda dari big data, termasuk seberapa akurat data tersebut, nilai, dan variabilitas.

Meskipun big data tidak sama dengan volume data tertentu, penerapan big data sering kali melibatkan data sejumlah ukuran terabyte, petabyte, dan bahkan hexabyte data yang dibuat dan dikumpulkan dari waktu ke waktu.

Mengapa Big Data penting?

Perusahaan menggunakan big data dalam sistem mereka untuk meningkatkan operasi, memberikan layanan pelanggan yang lebih baik, membuat marketing campaign yang dipersonalisasi, dan mengambil tindakan lain yang, pada akhirnya, dapat meningkatkan pendapatan dan keuntungan. Bisnis yang menggunakannya secara efektif memiliki keunggulan kompetitif potensial atas mereka yang tidak karena mereka mampu membuat keputusan bisnis yang lebih cepat dan lebih tepat.

Misalnya, big data memberikan wawasan berharga kepada pelanggan yang dapat digunakan perusahaan untuk menyempurnakan periklanan, promosi, marketing dan sales dapat digunakan untuk meningkatkan keterlibatan pelanggan dan tingkat konversi. Data historis dan real-time dapat dianalisis untuk menilai preferensi konsumen atau pembeli korporat yang berkembang, memungkinkan bisnis menjadi lebih responsif terhadap keinginan dan kebutuhan pelanggan.

Big Data juga digunakan oleh peneliti medis untuk mengidentifikasi tanda-tanda penyakit dan faktor risiko dan oleh dokter untuk membantu mendiagnosis penyakit dan kondisi medis pada pasien. Selain itu, kombinasi data dari catatan kesehatan elektronik, situs media sosial, web, dan sumber lain memberikan informasi terkini kepada organisasi kesehatan dan lembaga pemerintah tentang ancaman atau wabah penyakit yang menular.

Berikut adalah beberapa contoh bagaimana big data digunakan oleh organisasi:

  • Industri energi : big data membantu perusahaan minyak dan gas mengidentifikasi lokasi pengeboran potensial dan memantau operasi pipa tersebut. Utilitas menggunakannya untuk melacak jaringan listrik.
  • Jasa Keuangan : sistem big data membantu jasa keuangan untuk manajemen risiko dan analisis data pasar secara real-time.
  • Produsen dan Perusahaan Transportasi : mengandalkan big data untuk mengelola rantai supply dan produksi mereka dan mengoptimalkan rute pengiriman.

Contoh Big Data

Big Data berasal dari banyak sekali sumber. Beberapa contohnya adalah sistem pemrosesan transaksi, basis data pelanggan, dokumen, email, catatan medis, log clickstream internet, aplikasi seluler, dan jejaring sosial. Ini juga mencakup data yang dihasilkan mesin, seperti log file dari jaringan dan server dan data dari sensor pada mesin manufaktur, peralatan industri, dan perangkat internet of things (IoT).

Selain data dari sistem internal, lingkungan big data sering kali menggabungkan data eksternal tentang konsumen, pasar keuangan, kondisi cuaca dan lalu lintas, informasi geografis, penelitian ilmiah, dan banyak lagi. Gambar, video, dan file audio juga merupakan bentukan dari big data, dan banyak aplikasi big data melibatkan data streaming yang diproses dan dikumpulkan secara terus-menerus.

Memecah Karakteristik 3V dari Big Data

Volume adalah salah satu karakteristik big data yang paling sering dikutip. Lingkungan big data tidak harus berisi sejumlah besar data, tetapi sebagian besar karena sifat data yang dikumpulkan dan disimpan di dalamnya. Clickstreams, log sistem, dan sistem pemrosesan aliran adalah beberapa sumber yang biasanya menghasilkan volume data yang sangat besar secara berkelanjutan.

Big data juga mencakup berbagai jenis data, termasuk yang berikut:

  • data terstruktur, seperti transaksi dan catatan keuangan
  • data tidak terstruktur, seperti teks, dokumen dan file multimedia
  • data semi terstruktur, seperti log server dari web dan data streaming dari sensor.

Berbagai tipe data mungkin perlu disimpan dan dikelola bersama dalam sistem big data. Selain itu, aplikasi big data sering kali menyertakan beberapa kumpulan data yang mungkin tidak terintegrasi di awal. Misalnya, proyek analisis big data dapat mencoba memperkirakan penjualan suatu produk dengan menghubungkan data tentang penjualan sebelumnya, pengembalian, ulasan online, dan panggilan layanan pelanggan.

Velocity mengacu pada kecepatan di mana data dihasilkan dan harus diproses dan dianalisis terlebih dahulu. Dalam banyak kasus, kumpulan big data diperbarui secara real-time atau mendekati real-time, bukan pembaruan harian, mingguan, atau bulanan yang dibuat di banyak data warehouse. Mengelola seberapa cepat data masuk merupakan salah satu kepentingan penting dikarenakan analisis big data berkembang lebih jauh ke dalam machine learning dan artificial intelligence (AI), di mana proses analisis secara otomatis menemukan pola dalam data dan menggunakannya untuk menghasilkan wawasan.

Karakteristik Big Data yang lain

Melihat di luar tiga V asli, berikut adalah detail dari beberapa V lainnya yang sekarang sering dikaitkan dengan big data:

Veracity mengacu pada tingkat akurasi dalam kumpulan data dan seberapa dapat dipercaya mereka. Data mentah yang dikumpulkan dari berbagai sumber dapat menyebabkan masalah kualitas data yang mungkin sulit untuk ditentukan. Jika tidak diperbaiki melalui proses pembersihan data, data yang buruk menyebabkan kesalahan analisis yang dapat merusak nilai inisiatif analisis bisnis. Manajemen data dan tim analyst juga perlu memastikan bahwa mereka memiliki cukup data akurat yang tersedia untuk menghasilkan hasil yang valid.

Beberapa ilmuwan dan konsultan data juga menambahkan nilai pada daftar karakteristik big data. Tidak semua data yang dikumpulkan memiliki nilai atau manfaat bisnis yang nyata. Akibatnya, organisasi perlu mengonfirmasi bahwa data terkait dengan masalah bisnis yang relevan sebelum digunakan dalam proyek analisis.

Variability juga sering berlaku untuk kumpulan big data, yang mungkin memiliki banyak arti atau diformat secara berbeda dalam sumber data terpisah (faktor yang semakin memperumit manajemen dan analisis big data).

Beberapa orang menganggap lebih banyak komponen nilai V untuk big data.

Penyimpanan dan Pemrosesan Big Data

Big data sering disimpan di danau data. Sementara data warehouse umumnya dibangun di atas basis data relasional dan hanya berisi data terstruktur, data lake dapat mendukung berbagai tipe data dan biasanya didasarkan pada cluster Hadoop, layanan penyimpanan objek cloud, basis data NoSQL, atau platform lainnya.

Banyak lingkungan big data menggabungkan beberapa sistem dalam arsitektur terdistribusi; misalnya, data lake pusat mungkin terintegrasi dengan platform lain, termasuk database relasional atau data warehouse. Data dalam sistem big data dapat dibiarkan dalam bentuk mentahnya dan kemudian disaring dan diatur sesuai kebutuhan untuk penggunaan analisis tertentu. Dalam kasus lain, data tersebut diproses terlebih dahulu sebelum menggunakan alat data mining dan software data preparation sehingga siap untuk aplikasi yang dijalankan secara teratur.

Pemrosesan big data menempatkan tuntutan berat pada infrastruktur komputasi yang mendasarinya. Daya komputasi yang dibutuhkan seringkali disediakan oleh sistem cluster yang mendistribusikan beban kerja pemrosesan di ratusan atau ribuan server komoditas, menggunakan teknologi seperti Hadoop dan mesin pemrosesan Spark.

Mendapatkan kapasitas pemrosesan semacam itu dengan cara yang hemat biaya adalah sebuah tantangan. Akibatnya, cloud menjadi lokasi populer untuk sistem big data. Organisasi dapat menerapkan sistem berbasis cloud mereka sendiri atau menggunakan penawaran Big-Data-as-a-Service (BDaaS) terkelola dari penyedia cloud. Pengguna cloud dapat meningkatkan jumlah server yang diperlukan cukup lama untuk menyelesaikan proyek analisis big data. Bisnis hanya membayar penyimpanan dan waktu komputasi yang digunakannya, dan instans cloud dapat dimatikan hingga dibutuhkan lagi.

Cara Kerja Analisis Big Data

Untuk mendapatkan hasil yang valid dan relevan dari aplikasi analisis big data, data scientist dan analis data lainnya harus memiliki pemahaman mendetail tentang data yang tersedia dan pemahaman terkait apa yang mereka cari di dalamnya. Ini membuat persiapan data, yang mencakup pembuatan profil, pembersihan, validasi, dan transformasi kumpulan data, menjadi langkah pertama yang penting dalam proses analisis.

Setelah data dikumpulkan dan disiapkan untuk analisis, berbagai ilmu data dan disiplin analisis tingkat lanjut dapat diterapkan untuk menjalankan berbagai aplikasi, menggunakan alat yang menyediakan fitur dan kemampuan analisis big data. Disiplin tersebut termasuk machine learning dan deep learning, pemodelan prediktif, data mining, analisis statistik, streaming analytics, text mining, dan banyak lagi.

Menggunakan data pelanggan sebagai contoh, berbagai cabang analisis yang dapat dilakukan dengan kumpulan big data meliputi yang berikut:

  • Analisis Perbandingan : Ini memeriksa metrik dari perilaku pelanggan dan keterlibatan pelanggan waktu nyata untuk membandingkan produk, layanan, dan merek perusahaan dengan produk pesaingnya.
  • Analisis Media Sosial : Ini menganalisis apa yang dikatakan orang di media sosial terkait bisnis atau produk, yang dapat membantu mengidentifikasi potensi masalah dan audiens target untuk marketing campaign.
  • Analisis Marketing : Ini memberikan informasi yang dapat digunakan untuk meningkatkan marketing campaign dan penawaran promosi untuk produk, layanan, dan inisiatif bisnis.
  • Analisis Sentimen : Semua data yang dikumpulkan terkait dengan pelanggan dapat dianalisis untuk mengungkapkan respon mereka terhadap suatu perusahaan atau brand, tingkat kepuasan pelanggan, masalah potensial, dan bagaimana layanan pelanggan dapat ditingkatkan.

Teknologi Manajemen Big Data

Hadoop, kerangka kerja pemrosesan terdistribusi open source yang dirilis pada tahun 2006, awalnya berada di pusat sebagian besar arsitektur dari big data. Perkembangan dari Apache Spark dan mesin pemrosesan lainnya mendorong MapReduce, mesin yang dibangun ke dalam Hadoop, lebih ke samping. Hasilnya adalah ekosistem teknologi big data yang dapat digunakan untuk aplikasi yang berbeda tetapi sering digunakan bersama-sama.

Platform big data dan layanan terkelola yang ditawarkan oleh vendor IT menggabungkan banyak teknologi tersebut dalam satu paket, terutama untuk digunakan di cloud. Saat ini, itu termasuk penawaran ini, terdaftar menurut abjad:

  • Amazon EMR (sebelumnya Elastic MapReduce)
  • Platform Data Cloudera
  • Google Cloud Dataproc
  • HPE Ezmeral Data Fabric
  • Microsoft Azure HDInsight

Untuk organisasi yang ingin menerapkan sistem big data sendiri, baik di tempat atau di cloud, teknologi yang tersedia untuk mereka selain Hadoop dan Spark mencakup kategori alat berikut:

  • Penyimpanan direktori (folder), seperti Hadoop Distributed File System (HDFS) dan layanan penyimpanan objek cloud yang mencakup Amazon Simple Storage Service (S3), Google Cloud Storage, dan Azure Blob Storage;
  • Kerangka kerja manajemen cluster, seperti Kubernetes, Mesos dan YARN, pengelola sumber daya dan penjadwal pekerjaan bawaan Hadoop, yang merupakan singkatan dari Yet Another Resource Negotiator tetapi umumnya dikenal dengan akronim saja.
  • Stream engine processor, seperti modul Flink, Hudi, Kafka, Samza, Storm dan Spark Streaming dan Streaming Terstruktur yang dibangun ke dalam Spark.
  • Basis data NoSQL yang mencakup Cassandra, Couchbase, CouchDB, HBase, MarkLogic Data Hub, MongoDB, Neo4j, Redis, dan berbagai teknologi lainnya.
  • Data lake dan platform data warehouse, di antaranya Amazon Redshift, Delta Lake, Google BigQuery, Kylin, dan Snowflake.
  • Mesin kueri SQL, seperti Hive, Impala, dan Presto.

Frequently Asked Question (FAQ)

Apa Saja 5V dari Big Data?

  • Volume : Volume mewakili volume yaitu jumlah data yang tumbuh dengan kecepatan tinggi yaitu volume data dalam Petabyte
  • Velocity : Velocity adalah kecepatan pertumbuhan data. Media sosial berkontribusi besar dalam kecepatan pertumbuhan data.
  • Variety : Variety mengacu pada tipe data yang berbeda yaitu berbagai format data seperti teks, audio, video, dll.
  • Veracity : Veracity mengacu pada volatilitas data yang tersedia. Veracity muncul karena tingginya volume data yang membawa ketidaklengkapan dan inkonsistensi.
  • Value : Value mengacu pada mengubah data menjadi nilai. Dengan mengubah big data yang diakses menjadi nilai, bisnis dapat menghasilkan pendapatan.

Bagaimana analisis big data membantu dalam meningkatkan pendapatan bisnis ?

Analisis big data menjadi sangat penting bagi bisnis. Ini membantu bisnis untuk membedakan diri mereka dari orang lain dan meningkatkan pendapatan. Melalui analisis prediktif, big data analytics  memberikan rekomendasi dan saran yang disesuaikan untuk bisnis. Selain itu, big data analytics memungkinkan bisnis meluncurkan produk baru tergantung pada kebutuhan dan preferensi pelanggan.

Faktor-faktor ini membuat bisnis memperoleh lebih banyak pendapatan, dan dengan demikian perusahaan menggunakan big data analytics.

Apa Saja Langkah-Langkah Pembangunan Arsitektur Big Data ?

Data Ingestion

Langkah pertama untuk menerapkan solusi big data adalah penyerapan data, yaitu ekstraksi data dari berbagai sumber. Sumber data dapat berupa CRM seperti Salesforce, SAP, RDBMS seperti MySQL atau log file lainnya. Data dapat diserap baik melalui pekerjaan batch atau data streaming. Data yang diekstraksi kemudian disimpan dalam HDFS.

Data Storage

Setelah pengambilan data, langkah selanjutnya adalah menyimpan data yang telah diekstraksi. Data disimpan dalam database HDFS atau NoSQL (yaitu HBase). Penyimpanan HDFS bekerja dengan baik untuk akses sekuensial sedangkan HBase untuk akses baca/tulis acak.

Data Processing

Langkah terakhir dalam menerapkan solusi big data adalah pemrosesan data. Data diproses melalui salah satu kerangka pemrosesan seperti Spark, MapReduce, Pig, dll.

Jenis Analisis apa yang cocok dengan Big Data ?

Jenis analisis yang diterapkan pada big data sering disebut analisis lanjutan. Istilah yang lebih baik adalah analisis penemuan karena itulah yang coba dicapai pengguna. Dengan kata lain, dengan analisis big data, pengguna biasanya adalah seorang analis bisnis yang mencoba menemukan fakta bisnis baru yang tidak diketahui oleh siapa pun di perusahaan sebelumnya. Untuk melakukan itu, data dalam jumlah yang besar dibutuhkan yang memiliki detail yang banyak.

Tinggalkan Komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *