Extract, Transform, Load (ETL)

ETL

Apa itu ETL?

ETL merupakan sebuah mekanisme penggalian informasi dari sistem sumber dan membawanya ke gudang data biasa disebut ETL, yang merupakan singkatan dari Extraction, Transformation and Loading.

Proses ETL membutuhkan masukan aktif dari berbagai pemangku kepentingan, termasuk pengembang, analis, penguji, eksekutif puncak dan secara teknis menantang.

Untuk mempertahankan nilainya sebagai alat bagi pengambil keputusan, teknik data warehouse perlu berubah seiring dengan perubahan bisnis. ETL adalah metode berulang (harian, mingguan, bulanan) dari sistem gudang data dan harus gesit, otomatis, dan didokumentasikan dengan baik.

Tujuan ETL

ETL memungkinkan bisnis untuk mengkonsolidasikan data dari beberapa database dan sumber lain ke dalam satu repositori dengan data yang telah diformat dengan benar dan memenuhi syarat dalam persiapan untuk analisis.

Repositori data terpadu ini memungkinkan akses yang disederhanakan untuk analisis dan pemrosesan tambahan. Ini juga menyediakan satu sumber kebenaran, memastikan bahwa semua data perusahaan konsisten dengan tujuan.

Ekstraksi

Ekstraksi adalah operasi penggalian informasi dari sistem sumber untuk digunakan lebih lanjut dalam lingkungan gudang data. Ini adalah tahap pertama dari proses ETL.

Proses ekstraksi seringkali merupakan salah satu tugas yang paling memakan waktu di ETL.

Sistem sumber mungkin rumit dan didokumentasikan dengan buruk, dan dengan demikian menentukan data mana yang perlu diekstraksi bisa jadi sulit.

Data harus diekstraksi beberapa kali secara berkala untuk memasok semua data yang diubah ke gudang dan tetap up-to-date.

Cleaning

Tahap cleaning sangat penting dalam teknik data warehouse karena diharapkan dapat meningkatkan kualitas data. Fitur cleaning data utama yang ditemukan di alat ETL adalah rektifikasi dan homogenisasi.

Mereka menggunakan kamus khusus yang sering disebut juga dengan corpus (terms di NLP) untuk memperbaiki kesalahan pengetikan dan mengenali sinonim, serta cleaning berbasis aturan untuk menegakkan aturan khusus domain dan mendefinisikan asosiasi yang sesuai antara nilai.

Contoh berikut menunjukkan pentingnya data cleaning:

  • Jika suatu perusahaan ingin menghubungi pengguna atau pemasoknya, daftar alamat kontak, alamat email, dan nomor telepon yang lengkap, akurat dan terkini harus tersedia.
  • Jika klien atau pemasok menelepon, staf yang merespons harus dapat dengan cepat menemukan orang tersebut di database perusahaan, tetapi ini memerlukan nama penelepon atau nama perusahaannya tercantum dalam database.
  • Jika pengguna muncul di database dengan dua atau lebih nama yang sedikit berbeda atau nomor rekening yang berbeda, akan sulit untuk memperbarui informasi pelanggan.

Transformasi

Transformasi adalah inti dari fase rekonsiliasi. Ini mengubah catatan dari format sumber operasionalnya menjadi format gudang data tertentu. Jika kita menerapkan arsitektur tiga lapis, fase ini mengeluarkan lapisan data yang direkonsiliasi.

Poin-poin berikut harus diperbaiki dalam fase ini:

  • Kalimat yang panjang dapat menyembunyikan informasi berharga. Misalnya, perusahaan PT. XYZ tidak secara eksplisit menunjukkan bahwa ini adalah perusahaan Kemitraan Terbatas.
  • Format yang berbeda dapat digunakan untuk data individual. Misalnya, data dapat disimpan sebagai string atau sebagai tiga bilangan bulat.

Berikut ini adalah proses transformasi utama yang ditujukan untuk mengisi lapisan data yang direkonsiliasi:

  • Konversi dan normalisasi yang beroperasi pada format penyimpanan dan satuan ukuran untuk membuat data menjadi seragam.
  • Pencocokan yang mengaitkan bidang yang setara di sumber yang berbeda.
  • Seleksi yang mengurangi jumlah bidang dan rekaman sumber.

Proses Cleaning dan Transformasi sering kali terkait erat dalam alat ETL.

Load

Load adalah proses penulisan data ke dalam database target. Selama langkah pemuatan, perlu untuk memastikan bahwa pemuatan dilakukan dengan benar dan dengan sumber daya sesedikit mungkin.

Pemuatan dapat dilakukan dengan dua cara:

  1. Refresh: Data Data Warehouse sepenuhnya ditulis ulang. Ini berarti bahwa file yang lebih lama diganti. Refresh biasanya digunakan dalam kombinasi dengan ekstraksi statis untuk mengisi gudang data pada awalnya.
  2. Pembaruan: Hanya perubahan yang diterapkan pada informasi sumber yang ditambahkan ke Gudang Data. Pembaruan biasanya dilakukan tanpa menghapus atau memodifikasi data yang sudah ada sebelumnya. Metode ini digunakan dalam kombinasi dengan ekstraksi tambahan untuk memperbarui gudang data secara teratur.

Pemilihan Tools ETL

Pemilihan Tools untuk ETL yang tepat merupakan keputusan penting yang harus dibuat dalam memilih pentingnya ODS atau aplikasi data warehousing. Tools ETL diperlukan untuk menyediakan akses terkoordinasi ke berbagai sumber data sehingga data yang relevan dapat diambil darinya.

Pada umumnya, tools ETL berisi alat untuk data cleaning, re-organisir, transformasi, agregasi, perhitungan dan loading informasi secara otomatis ke dalam objek database.

Tools ETL harus menyediakan antarmuka pengguna sederhana yang memungkinkan data cleaning dan aturan transformasi data ditentukan menggunakan pendekatan titik-dan-klik. Ketika semua pemetaan dan transformasi telah ditentukan, tools ETL harus secara otomatis menghasilkan program ekstraksi/transformasi/loading data, yang biasanya berjalan dalam batch mode.

Contoh Aplikasi ETL

Strategi data lebih kompleks dari sebelumnya. Perusahaan seperti SaaS (Software as a service) memberikan akses data ke perusahaan yang memiliki sumber yang banyak dibanding sebelumnya. Tools ETL memungkinkan untuk mengubah sejumlah big data menjadi business intelligence.

Pertimbangkan jumlah data mentah yang tersedia untuk produsen. Selain data yang dihasilkan oleh sensor di fasilitas dan mesin di jalur perakitan, perusahaan juga mengumpulkan data marketing, penjualan, logistik, dan keuangan (seringkali menggunakan alat SaaS).

Semua data melalui proses ekstraksi, transformasi, dan load untuk dianalisis. ETL memungkinkan manajemen data, data intelligence, data analyst, data scientist, dan kemampuan machine learning dengan:

Menyampaikan Satu Sudut Pandang

Mengelola beberapa kumpulan data di dunia data perusahaan menuntut waktu dan koordinasi, dan dapat mengakibatkan inefisiensi dan penundaan. ETL menggabungkan database dan berbagai bentuk data ke dalam satu tampilan terpadu. Ini membuatnya lebih mudah untuk menggabungkan, menganalisis, memvisualisasikan, dan memahami kumpulan big data.

Menyediakan Konteks Data Historis

ETL memungkinkan kombinasi data perusahaan lama dengan data yang dikumpulkan dari platform dan aplikasi baru. Ini menghasilkan tampilan data jangka panjang sehingga kumpulan data yang lebih lama dapat dilihat bersama dengan informasi yang lebih baru.

Meningkatkan Efisiensi dan Produktivitas

Perangkat software ETL mengotomasikan proses migrasi dan penyerapan data dengan kode tangan, menjadikannya layanan mandiri. Akibatnya, pengembang dan tim mereka dapat menghabiskan lebih banyak waktu untuk inovasi dan lebih sedikit waktu untuk mengelola tugas yang melelahkan dalam menulis kode untuk memindahkan dan memformat data.

Tinggalkan Komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *