Detail

Berkenalan dengan Data Lake sebagai Wadah Repositori Data untuk Bisnis

Tue, Jan 08 2019 | Author: PT. Central Data Technology

Di era informasi saat ini, produksi data terus terjadi tiap harinya. Hal ini dapat dilihat dari jumlah data yang diproduksi mencapai 2.5 quintillion bytes tiap harinya. Dengan angka tersebut, maka tak mengherankan apabila data dianalogikan sebagai bahan bakar bagi jalannya bisnis. Jumlah data yang semakin meningkat membuat bisnis membutuhkan repositori data yang memadai untuk menyimpan dan menganalisis data. Salah satu repositori data yang dapat dipilih ialah data lake. 

Data lake adalah repositori data yang menyimpan data mentah (raw) yang tidak berstruktur dengan format asalnya (native). Dengan demikian, Anda hanya membutuhkan perangkat yang mendukung sistem datar (flat system) dan data akan dipindahkan ke server yang ada untuk diproses. Mayoritas perusahaan menggunakan Hadoop File System (HDFS) karena HDFS didesain untuk mampu memproses set data dalam jumlah besar secara cepat dan digunakan dalam lingkungan Big Data dimana data lake kemungkinan besar digunakan. Perlu diingat bahwa sebelum data lake hadir, data warehouse telah hadir terlebih dahulu untuk memenuhi kebutuhan repositori data bagi bisnis. Namun, terdapat beberapa perbedaan karakteristik diantara keduanya, seperti yang terlihat di bawah ini:

Data Warehouse:

Data yang tersimpan lebih terstruktur di dalam folder, barisan maupun kolom.

Memiliki sistem dengan fixed configuration karena data yang berstruktur. Hal ini tentunya membuat data warehouse menjadi less agile.

Mengingat 80% data tidak berstruktur (IDC), maka dapat dibilang bahwa data warehouse memiliki ruang lingkup yang terbatas dalam menganalisis data.

Mengaplikasikan schema-on-write yang berarti Anda harus mengerti bagaimana menstruktur data yang ada sebelum menyimpannya. 

Data Lake

Data yang tersimpan adalah data mentah (raw) yang tidak berstruktur dengan format asalnya (native).

Dengan data yang tidak berstruktur berarti data lake tidak membutuhkan konfigurasi khusus untuk beroperasi. Maka dari itu, data lake dapat dibilang memiliki agility yang tinggi.

Ruang lingkup data lake dalam menganalisis data cukup luas. Dengan demikian, bisnis akan mendapatkan insight yang lebih.

Mengaplikasikan schema-on-read yang berarti Anda dapat langsung menyimpan data dalam segala bentuk, tanpa harus menstruktur datanya terlebih dahulu. Dengan demikian, Anda dapat menghemat waktu dan sumber daya.

Dengan kelebihan yang dimiliki data lake, maka tak heran kalau perusahaan-perusahaan TI terkemuka di dunia, seperti Hitachi Vantara, Cambridge Semantics dan Apache NiFi menawarkan data lake tools dan cloud storage standar agar Anda dapat membangun data lake di on-premise ataupun di cloud.

Tentang Central Data Technology

Central Data Technology (CDT) adalah anak perusahaan CTI Group yang menawarkan berbagai solusi TI, dengan portofolio produk terdepan, proses implementasi yang efektif, dan tim pelaksana andal untuk membantu industry mencapai tujuan bisnis. CDT dipercaya oleh para pemegang merk TI ternama dunia seperti Oracle, F5, Fujitsu, Hitachi Vantara, Commvault, Talend, Pentaho, Mapr, Apple, AWS, dan Sundray. Dengan berbagai portofolio solusi enterprise, CDT berkomitmen untuk memberikan solusi TI terbaik mulai dari Digital Transformation, Infrastruktur, Perlindungan Data dan Business Continuity, Database and Middleware, Mobility, Cloud dan Security.

Info lebih lanjut hubungi: digital@centraldatatech.com