BIG DATA

Konsep Big Data
Oleh: Febiyan Rachman
Dikutip dari: http://datascience.or.id/2015/08/15/konsep-big-data/

Di berbagai organisasi, terminologi “data science”, “big data”, dan “hadoop” seakan sudah menjadi setali tiga uang. Kita akan jarang mendengar suatu diskusi atau pembicaraan tentang salah satunya tanpa disertai yang lainnya. Kalau melihat dari trend, data science adalah sebuah terminologi yang mulai ngetrend di tahun 2013; ketika Hadoop dan big data sudah menjadi buzzword di berbagai organisasi. Kita bisa melihat hal tersebut dari google search trend.

Image

Dari grafik search trend yang sama, bisa kita lihat bahwa popularitas Hadoop sangat berhubungan erat dengan popularitas big data dan data science. Karena ini adalah blog yang berhubungan dengan statistik, saya tidak bisa mengatakan bahwa popularitas Hadoop menyebabkan popularitas kedua term lainnya. Namun, saya bisa mengatakan bahwa popularitas Hadoop memiliki korelasi yang positif terhadap kedua term tersebut.

Artikel ini akan fokus dalam membahas big data. Hadoop akan di bahas di artikel lainnya di blog ini. Jadi, jangan lupa bookmark blog ini dan cek update artikelnya 1-2 minggu sekali. Sebelum membaca artikel ini, saya menyarankan kamu baca artikel ini dulu: http://datascience.or.id/2015/08/13/bagaimana-peran-teknologi-dalam-data-science-part-01/

Untuk kamu yang sudah mulai membaca artikel ini, tapi belum punya gambaran data science itu makhluk seperti apa, berikut saya copy-paste definisinya dari Wikipedia,

“Data Science is the extraction of knowledge from large volumes of data that are structured or unstructured, which is a continuation of the field data mining and predictive analytics, also known as knowledge discovery and data mining (KDD).”

Apa itu Big Data?

Image

Banyak yang telah mencoba memberikan definisi terhadap big data. Dari Wikipedia:

“Big data is a broad term for data sets so large or complex that traditional data processing applications are inadequate. Challenges include analysis, capture, data curation, search, sharing, storage, transfer, visualization, and information privacy.”

Sedangkan definisi big data dari Gartner,

“Big data is high-volume, high-velocity and high-variety information assets that demand cost-effective, innovative forms of information processing for enhanced insight and decision making.”

Mana yang benar? Mana yang salah? Saya pikir, masih terlalu dini untuk “mengkafirkan” atau “mengkultuskan” definisi-definisi big data yang muncul sekarang ini. Tidak ada yang salah. Saya pribadi lebih menyukai definisi big data dari perusahaan yang memperkerjakan saya, Teradata, dan partnernya, Hortonworks. Menurut saya, definisi tersebut menggambarkan big data dengan lebih simple, namun akurat.

Definisi big data dari Teradata dan Hortonworks kira-kira seperti ini kalau dalam bahasa Indonesia,

“Big Data adalah gerakan atau inisiatif organisasi-organisasi untuk mengambil, menyimpan, memroses, dan menganalisa data-data yang sebelumnya tidak memungkinkan atau tidak ekonomis untuk diambil, disimpan, diproses, dan dianalisa.”

Bagaimana? Menurut kamu, mana yang lebih masuk akal dan menggambarkan big data? Mana yang lebih mudah dicerna?

Big Data dan 3V

Image

Dari pengalaman saya berkutat di pengembangan teknologi, ada tiga penyebab suatu teknologi atau konsep dikembangkan:

Untuk menyelesaikan suatu masalah
Untuk mempermudah penyelesaian suatu masalah
Ada orang pintar yang sedang iseng dan nggak ada kerjaan

Untungnya, menurut saya, big data ini jatuh ke kategori pertama dan kedua. Teknologi yang berkembang di dunia big data ada untuk memecahkan suatu masalah atau mempermudah penyelesaian suatu masalah. Dari berbagai literatur, terdapat 3 dimensi atau masalah utama yang big data coba selesaikan. 3 masalah biasa disebut “The 3V of Data”, atau secara singkat disebut 3V; Volume, Velocity, Variety.
Volume

Mari kita bahas mulai dari volume. Salah satu permasalahan yang big data coba pecahkan adalah meledaknya volume data yang suatu organisasi ingin simpan atau proses. Salah satu perusahaan telekomunikasi yang pernah saya tangani butuh menyimpan lebih dari 1 milyar record data aktivitas browsing internet pengguna. Jangan kaget, 1 milyar record itu hanya data sehari, dan data yang ingin dikumpulkan tentunya berbulan-bulan.

Apakah permasalahan volume data ini hanya bisa dipecahkan oleh big data? Jawabannya, tidak juga. Sebenarnya suatu sistem database atau data warehouse pun bisa menyimpan data yang sangat besar. Namun, price per terabyte Hadoop, sebagai platform big data, jauh lebih rendah dibandingkan keduanya. Selain itu, berbeda dengan sekedar network storage, teknologi big data tidak hanya menyediakan solusi untuk menyimpan data, namun juga untuk mengolah dan menganalisa data bervolume besar.

Lalu, kenapa tidak semua data dilempar ke big data saja? Kenapa harus masih memakai database atau data warehouse atau network storage? Saya akan mencoba menjawab dengan analogi simple: mobil sport bagus untuk berlari kencang di jalanan mulus, truk berguna untuk mengangkut barang dalam jumlah besar, mobil MPV umumnya hemat bensin, nyaman dan mampu membawa banyak orang.

Image

Database / data warehouse sangat ideal untuk menyimpan data yang dibutuhkan untuk operasional day-to-day suatu organisasi, atau untuk menghasilkan report bulanan. Namun, cost per terabyte (biaya penyimpanan) jauh lebih tinggi dibandingkan big data platform seperti Hadoop. Oleh karena itu, untuk menyimpan data-data yang belum diketahui nilai bisnisnya dan dalam volume besar, platform berbasis big data seperti Hadoop memberikan solusi yang lebih masuk akal.

Lalu, sebesar apakah volume data agar bisa disebut big data? Apakah jumlah datanya harus selalu lebih dari 1 milyar record per hari? Walaupun masih banyak perdebatan soal ini, sekarang sudah banyak pihak yang sepakat bahwa: jika volume data membuat data tersebut tidak ekonomis / mungkin lagi untuk disimpan di solusi penyimpanan data tradisional (network storage / database / data warehouse), maka “Houston, we’ve got the volume problem!”
Velocity

Permasalahan yang kedua: data velocity atau kecepatan data dibuat. Bisa dibilang, permasalahan ini berkaitan erat dengan permasalahan volume data, karena kecepatan data dibuat umumnya berbanding lurus dengan volume data. Data tidak hanya datang dalam jumlah besar, tetapi juga dalam tempo yang lebih singkat dan bahkan ada yang real-time.

Salah satu perusahaan telekomunikasi di Australia, misalnya, butuh untuk menganalisa kualitas koneksi internet jutaan pelanggannya secara near real-time. Setiap beberapa menit sekali, jutaan record data jaringan ditaruh ke platform big data, lalu dianalisa pada saat itu juga. Hasil analisa tersebut langsung divisualisasikan ke dashboard tim jaringan, dan tim jaringan bisa langsung bertindak apabila ada satu daerah yang mendadak mengalami penurunan kualitas koneksi internet.

Lagi-lagi, tentu platform data konvensional juga bisa melakukan hal tersebut. Seperti alasan pemilihan big data untuk memecahkan masalah volume data, menyimpan dan mengolah data akan lebih ekonomis di platform big data. Beban penyimpanan dan pemrosesan data di data warehouse akan lebih berguna apabila diutilisasi untuk data-data yang berhubungan langsung dengan bisnis — data transaksi, keuangan, dan pelanggan.

Image

Variety! Finally! Ini adalah permasalahan, yang menurut saya, “Big data banget!”. Mengapa? Menurut saya pribadi, permasalahan ini akan sangat sulit dipecahkan oleh data platform tradisional, baik itu database atau data warehouse. Variety adalah permasalahan yang terjadi karena keberagaman data, baik itu dari format file data yang masuk, maupun format / struktur dari isi data tersebut.

Berbicara tentang masalah data variety, saya teringat salah satu project di produsen hard disk server. Perusahaan tersebut telah memproduksi hard disk dari tahun 90-an, dan apabila telah terpasang di server, hard disk itu akan mengirimkan log pemakaian blok-blok memori hard disk secara periodik. Data log tadi akan dianalisa untuk mencari part yang bermasalah dari hard disk (apabila ada laporan dari customer). Jika diketahui part mana yang bermasalah, perusahaan tersebut bisa mencari hard disk lain yang menggunakan part yang sama dan dari batch produksi yang sama. Perusahaan tersebut lalu bisa mengganti hard disk lainnya sebelum hard disk itu rusak dan customer komplain.

Permasalahannya, data-data tersebut dikirimkan dalam format yang berbeda-beda. Untuk 1 data yang sama saja, bisa berbagai macam variasi format atau struktur data. Ada yang berupa file XML, CSV, TSV, dan bahkan ada yang dikompresi dalam format GZip, Zip, dan Tar.

Karena kasus seperti ini bukan tidak mungkin terjadi, platform big data memungkinkan kita untuk “store first, define structure later”. Pada Hadoop, contohnya, kita bisa menaruh file-file tadi dalam format mentahnya, lalu kita kelompokkan saja file-file yang sejenis. Lalu ketika kita butuh membaca data, baru kita gunakan tools yang tersedia untuk mengekstrak sisi data. Hal ini dengan implementasi database atau data warehouse di mana kita harus menerapkan dan meng-enforce skema/struktur ketika kita memulai akuisisi data.
Jadi, Apa Hubungannya Dengan Data Science?

Kita kembali lagi ke topik utama artikel ini. Dalam dunia bisnis, apa hubungannya big data dengan data science? Jika dilihat dari sudut pandang teknologi, menurut saya big data adalah sebagai enabler dan promoter untuk aktivitas data science, terutama untuk data-data yang sebelumnya sulit atau belum pernah diproses dan digali nilainya.

Teknologi yang berhubungan dengan big data akan memudahkan proses pengumpulan data-data yang sebelumnya tidak bisa / mudah untuk dikumpulkan. Dan ketika data-data tersebut sudah terkumpul dan sudah ada kebutuhan untuk mendapatkan insight yang baru, data scientist juga bisa menggabungkan data yang ada di data di platform data konvensional dengan big data, dan menggunakan sebanyak mungkin data (bukan sampling dalam jumlah kecil) untuk menghasilkan informasi atau insight yang akurat dan berguna.

Beberapa paragraf di atas menjelaskan konsep big data dan hubungannya dengan data science. Untuk memberikan contoh yang jelas terhadap implementasi dari konsep big data, Data Science Indonesia juga akan menulis artikel yang menarik tentang Hadoop. Stay tuned!

Referensi:

https://en.wikipedia.org/wiki/Big_data
http://www.gartner.com/it-glossary/big-data

Sumber Gambar:

http://datascience.or.id/2015/08/15/konsep-big-data/

Sebarkan..

Mungkin Anda juga menyukai

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *