Pengertian dan Fungsi Hadoop dalam Big Data

2

Apa itu Apache™ Hadoop®?

Hadoop adalah library software (pustaka software) yang merupakan framework open source dari bahasa pemrograman Java di bawah lisensi Apache yang digunakan untuk melakukan pemrosesan big data menggunakan model pemrograman sederhana.

Artikel terkait: Apa itu Big Data?

Hadoop dirancang untuk melakukan komputasi data dari satu server sampai ribuan server yang terhubung antara satu sama lainnya. Hal ini dapat memberikan kemudahan dari sisi penyimpanan data untuk melakukan analisis data. Selain itu Hadoop dapat memberikan informasi real time untuk mendeteksi kesalahan terkait kegagalan akses dan ketersediaan data pada masing-masing server.


A. Pengertian dan Fungsi Hadoop dari Produk Utamanya

Hadoop merupakan sebuah framework yang terus dikembangkan untuk melakukan pemrosesan big data. Berikut produk utama yang dikembangkan dalam Hadoop.

  1. Hadoop Common

    Hadoop Common adalah library-library umum yang mendukung library lainnya untuk dapat digunakan. Ini terkait perintah-perintah dasar yang ada pada Hadoop.

  2. Hadoop Distributed File System (HDFS™)

    Berbeda dengan system file data pada umumnya yaitu FAT32 dan NTFS yang dapat menyimpan 1 file data berkisaran antara 4 GB hingga 16 TB. HDFS adalah format sistem file yang dapat menampung 1 file data yang sangat besar dengan mengecilkan cluster sekelompok host data storage.

  3. Hadoop YARN

    Hadoop YARN adalah framework yang digunakan untuk mengatur pekerjaan secara terjadwal (schedule) dan manajemen cluster data.

  4. Hadoop MapReduce

    Hadoop MapReduce adalah paradigma pemrosesan data yang mengambil spesifikasi big data untuk menentukan bagaimana data tersebut dijadikan input dan output untuk diterapkan. MapReduce terintegrasi erat dengan HDFS untuk menyimpan data yang diperlukan.


B. Fungsi Produk terkait Apache Hadoop

Berikut beberapa produk yang dapat disandingkan dengan Hadoop:

  1. Ambari™

    Produk ini digunakan pada sistem yang berbasis web untuk penyediaan, pengelolaan, dan pemantauan cluster Apache Hadoop yang mencakup dukungan untuk HDFS Hadoop, Hadoop MapReduce, Hive, HCatalog, HBase, Zookeeper, Oozie, Pig, dan Sqoop. Ambari juga menyediakan dashboard untuk melihat kondisi klaster seperti heatmap dan kemampuan untuk melihat kondisi aplikasi MapReduce, Babi dan Hive secara visual. Ambari juga dilengkapi fitur untuk mendiagnosis karakteristik kinerja Hadoop dengan antarmuka yang ramah.

  2. Avro™

    Avro™ adalah sistem serialisasi data.

  3. Cassandra™

    Cassandra™ adalah database multi-master yang dapat diukur untuk mengelola data yang berkapasitas besar.

  4. Chukwa™

    Chukwa™ adalah sistem pengumpulan data untuk mengelola sistem terdistribusi yang besar.

  5. HBase™

    HBase™ adalah database yang dapat diukur untuk mendukung penyimpanan data terstruktur dengan tabel yang besar.

  6. Hive ™

    Hive™ adalah Infrastruktur data warehouse yang menyediakan data summarization dan ad hoc querying.

  7. Mahout™

    Mahout™ adalah library machine learning dan data mining.

  8. Babi™

    Babi™ adalah bahasa pemrograman tinggi aliran data (data-flow) yang digunakan melakukan eksekusi framework untuk melakukan komputasi data secara paralel.

  9. Spark™

    Spark™ adalah model pemrograman yang digunakan untuk menghitung data dengan cepat. Spark menyediakan model pemrograman yang sederhana dan ekspresif yang mendukung berbagai aplikasi, termasuk ETL, machine learning, stream processing, dan graph computation.

  10. Tez™

    Tez™ adalah framework bahasa pemrograman untuk membangun data-flow.

  11. ZooKeeper™

    ZooKeeper™ adalah layanan koordinasi untuk pendistribusian aplikasi dengan performa tinggi.

Baca juga tutorial lainnya: Daftar Isi Big Data


Sekian artikel Pengertian dan Fungsi Hadoop dalam Big Data. Nantikan artikel menarik lainnya dan mohon kesediaannya untuk share dan juga menyukai halaman Advernesia. Terima kasih…

2 DISKUSI PEMBACA

  1. Artikelnya bagus-bagus.
    Mohon pencerahan, bagus mana menggunakan SAS, MATLAB, atau R.
    Karena, baru2 sy ikut Training Machine Learning, instrukturnya menggunakan R.
    Terima kasih

    • Menurut developer masing-masing software, semua bisa digunakan untuk big data. Tapi sepertinya R lebih mudah karena untuk menggunakanya tidak perlu mengeluarkan biaya, sedangkan SAS & MATLAB mempunyai harga yang cukup tinggi untuk membeli lisensinya.

Ayo Berdiskusi Bersama! Belajar Lebih Indah dengan Saling Membantu :)

Tulis komentar
Masukkan nama Anda