Detail

Mengenal Istilah dan Pengertian Data Lake

Tue, Jan 08 2019 | Author: PT. Central Data Technology

Data Lake dapat menjadi repositori yang jauh lebih fleksibel daripada data warehouse. Jika Anda mengikuti konsep teknologi terbaru tentang Big Data, anda mungkin akan mendengar istilah "Data Lake”.

Definisi Data Lake

Data Lake menyimpan sejumlah besar data mentah dan tidak terstruktur dalam format aslinya. Oleh karena itu yang anda butuhkan adalah perangkat yang mendukung sistem file datar, yang berarti anda dapat menggunakan mainframe jika diinginkan. Data dipindahkan ke server lain untuk diproses. Sebagian besar perusahaan menggunakan Hadoop File System (HDFS), karena dirancang untuk pemrosesan cepat dan digunakan dalam lingkungan Big Data dimana Data Lake kemungkinan akan digunakan.

Dukungan untuk data format asli membawa manfaat utama. "Jika saya ingin mendapatkan jumlah data tertentu dan mencari tahu apa yang harus dilakukan dengannya, itu sesuai dengan mantra yang kita lakukan dengan Data Lake sekarang," kata Michael Hiskey, kepala strategi di Semarchy, vendor data - perangkat lunak manajemen.

Data Lake vs Data Warehouse

Repositori data bukanlah hal baru, Data Warehouse telah ada selama beberapa dekade. Dan sementara itu wajar untuk membandingkan Data Warehouse dengan Data Lake, ada perbedaan mendasar yang memisahkan Data Warehouse dari Data Lake, mulai dari jenis data yang disimpan hingga bagaimana diproses. 

Data Lake tidak memerlukan perangkat keras khusus 

Salah satu perbedaan utama antara data lake dan data warehouse adalah bahwa data lake tidak memerlukan perangkat keras atau perangkat lunak khusus, tidak seperti data warehouse. 

Data Lake lebih fleksibel

Seperti dicatat, Data Lake menyimpan sejumlah besar data mentah dan tidak terstruktur dalam format aslinya, sedangkan Data Warehouse jauh lebih terstruktur ke dalam folder, baris, dan kolom. Akibatnya, data lake jauh lebih fleksibel tentang data daripada data warehouse.

Hal tersebut penting karena aturan 80% : Kembali pada tahun 1998, Merrill Lynch memperkirakan bahwa 80% data perusahaan tidak terstruktur, dan itu pada dasarnya tetap benar. Yang kesimpulannya berarti Data Warehouse sangat terbatas dalam ruang lingkup analisis data potensial mereka.

Hiskey berpendapat bahwa Data Lake lebih berguna daripada Data Warehouse karena anda dapat mengumpulkan dan menyimpan data sekarang, bahkan jika anda tidak menggunakan elemen data itu, tetapi dapat kembali berminggu-minggu, berbulan-bulan, atau bertahun-tahun kemudian dan melakukan analisis pada data lama yang mungkin telah dibuang. 

Perbedaan terkait fleksibilitas antara data lake dan data warehouse adalah schema on read vs schema on write. Skema adalah deskripsi logis dari seluruh database, dengan nama dan deskripsi catatan dari semua tipe rekaman.

Data Warehouse berlaku schema on write, jadi anda harus tahu persis bagaimana menyusun data sebelum anda menyimpannya. Hal tersebut berarti banyak persiapan sebelum asupan, atau setidaknya sebelum penyimpanan. Sebaliknya, Data Lake menerapkan schema on read, sehingga anda dapat memformatnya saat anda membaca dan memprosesnya. Schema on write berarti anda dapat membuang semuanya ke dalam wadah, seperti file log, file web, atau hal-hal tanpa struktur yang berarti, dan kemudian mencari tahu nanti.

“Data Warehouse sangat terstruktur. anda harus benar-benar memahami data sebelum anda melakukan apa pun di atasnya, ”kata Joe Wilhelmy, direktur rekayasa data di American Associate of Insurance Services (AAIS). “Dengan Data Lake, anda dapat membawanya secara iteratif melalui siklus jatuh tempo dari data sumber mentah ke proyeksi terstruktur. Anda dapat melihatnya sepanjang jalan tidak harus terikat pada insinyur data dan TI untuk menghasilkan data tersebut sebelum dapat digunakan. "

Setiap elemen data di Data Lake diberi pengidentifikasi unik dan ditandai dengan satu set tag metadata yang diperluas. Ketika seseorang melakukan kueri bisnis berdasarkan metadata tertentu, semua data yang ditandai kemudian dianalisis untuk kueri atau pertanyaan. 

Tidak seperti Data Warehouse, Data Lake tidak memiliki basis data yang mendasarinya. Sebagai gantinya, Data Lake menggunakan sistem file datar. Dengan database, anda harus memilih data dan kolom sebelum anda menulisnya. Imbalannya adalah mungkin butuh waktu beberapa saat untuk memasukkan data ke dalam basis data, tetapi ketika anda melakukan kueri itu jauh lebih cepat daripada di Data Lake, yang harus memproses data saat dibaca. 

Perangkat lunak Data Lake kelas enterprise sekarang telah tersedia

Amazon, Microsoft, Google, dan IBM semuanya menawarkan berbagai alat Data Lake bersama dengan layanan penyimpanan cloud dasar mereka, sehingga anda dapat membangun Data Lake anda di tempat atau di cloud.

 

Produk Data Lake komersial lainnya meliputi 

Hitachi Vantara : Hitachi Vantara memiliki Pentaho yang pertama kali menciptakan istilah "Data Lake." Pentaho dikenal dengan alat integrasi datanya di luar hanya danau data dan menawarkan integrasi dengan Hadoop, Spark, Kafka, dan NoSQL untuk memberikan keamanan, tata kelola, integrasi, dan transformasi data.

Apache NiFi : Alat sumber terbuka berlisensi Apache ini digunakan untuk perutean dan transformasi data di Data Lae dan analitik. Ini tersedia sebagai produk komersial dari Hortonworks dengan nama DataFlow. 

Cambridge Semantics : Versi terbaru dari produk Data Lake Anzo Smart menambahkan lapisan semantik ke data tentang konsumsi dan membaca, sehingga anda dapat melakukan persiapan dan analisis sesuai permintaan. Hal ini juga memiliki model grafik untuk menampilkan analisis data secara visual.

Tentang Central Data Technology

Central Data Technology merupakan salah satu Value Added Distributor terbesar di Indonesia. Central Data Technology sebagai Perusahaan teknologi informasi yang mendistribusikan berbagai brand terkemuka di dunia Teknologi Informasi antara lain Oracle, F5, Fujitsu, Hitachi Vantara, Commvault, Talend, Pentaho, Mapr, Apple, AWS, dan Sundray. Central Data Technology telah menjadi penyedia berbagai solusi untuk Security, Server Storage, Database, Backup, WLAN, dan Cloud yang terdepan.

Info lebih lanjut hubungi : marketing@centraldatatech.com

 

https://www.infoworld.com/article/3305843/big-data/what-is-a-data-lake-flexible-big-data-management-explained.html