Anda di halaman 1dari 10

REVIEW PAPER TOPIK KHUSUS TETI

Implementasi Teknologi HADOOP pada BIG DATA


(Lecturer : Adhistya Erna Permanasari, , S.T., M.T., Ph.D)
Andris Faesal
14/370660/PTK/9626
Gadjah Mada University, Yogyakarta. April, 2015

Astract
Konsep Big Data bukan hanya sekedar mengelola data yang besar saja, melainkan tentang
mengelola data yang kompleks dan tidak terstruktur namun memiliki nilai pada data tersebut. Big
Data merupakan data yang mempunya volume yang besar sehingga tidak dapat diproses
menggunakan alat biasa dan harus menggunakan cara dan alat baru untuk mendapatkan nilai dari
data ini. Dengan munculnya teknologi Hadoop yang dapat menganalis dan memanejemen data
dalam jumlah besar tersebut, hadoop ini menggunakan algoritma MapReduce dan sistem file kerja
Google sehingga dapat melakukan proses secara terukur dan di distribusikan ke hardware
komoditas. Pada review paper ini akan dibahas tentang teknologi Hadoop dalam penggunaannya
pada Big Data serta membandingkan dari contoh-contoh pada paper-paper lain yang terkait
dengan topik ini.

I. Background
Aplikasi terbaru seperti pencarian indeks web, social networking, transaksi perbankan,
mesin rekomendasi, mesin berbasis pengetahuan dalam kehidupan sehari - hari menghasilkan
sejumlah besar data dalam bentuk log, blog, email, dan lainnya baik terstruktur dan tidak
terstruktur aliran informasi. Data ini harus disimpan, diproses dan terkait untuk mendapatkan
pandangan bisnis proses saat ini. Kebutuhan untuk memelihara data terstruktur dan data tidak
terstruktur untuk memenuhi peraturan pemerintah di sektor industri tertentu memerlukan
penyimpanan, pengolahan dan analisis data dalam jumlah besar.
Sementara itu diskusi terkait Big Data sering dibahas. Istilah "Big Data" biasanya dianggap
sebagai kumpulan data yang memiliki data begitu besar itu tidak dapat terjangkau atau secara
efektif dikelola menggunakan alat manajemen data konvensional seperti tradisional sistem
manajemen database relasional (RDBMS) atau mesin pencari konvensional, berdasarkan tugas di
tangan. Istilah berdengung lain "Big Data Analytics" adalah dimana teknik analisis canggih yang
dibuat untuk beroperasi pada dataset yang besar. Dengan demikian, Data analisis besar adalah
benar-benar tentang dua hal yaitu, analisis data yang besar dan bagaimana keduanya telah
bersatu untuk membuat satu tren dalam inteligent bisnis (BI). Ada beberapa cara untuk
menyimpan, mengolah dan menganalisa volume besar data dalam skala besar-besaran
paralel. Hadoop dianggap sebagai contoh terbaik untuk penyimpanan paralel secara besarbesaran dalam sistem pengolahan dan diterapkan dalam kasus beberapa perusahaan.

Hadoop adalah sebuah framework software berbasis Java dan opensource yang berfungsi
untuk mengolah data yang sangat besar secara terdistribusi dan berjalan di atas cluster yang
terdiri dari beberapa komputer yang saling terhubung. Hadoop dapat mengolah data dalam
jumlah yang sangat besar hingga petabyte dan dijalankan di atas ribuan komputer [1]. Dengan
menggunakan algoritma MapReduce dan sistem file kerja Google untuk menerapkan algoritma
MapReduce secara terukur dan didistribusikan pada perangkat keras komoditas, Hadoop
memungkinkan pengguna untuk menyimpan dan memproses volume data yang besar dan
menganalisis dengan cara yang sebelumnya tidak mungkin dengan pendekatan berbasis SQL
atau solusi yang kurang terukur. Peningkatan luar biasa dalam sumber daya konvensional
menghitung dan penyimpanan membantu membuat cluster Hadoop layak untuk kebanyakan
organisasi. Makalah ini dimulai dengan pembahasan evolusi Big Data dan masa depan Big Data
berdasarkan Gartner Hype Cycle. Kami telah menjelaskan bagaimana Hadoop Distributed File
System (HDFS) bekerja dan arsitektur dengan ilustrasi yang sesuai. Hadoop MapReduce
paradigma penyebaran tugas di beberapa node dalam Hadoop dibahas dengan set data sampel.
Kerja dari MapReduce dan HDFS ketika mereka menempatkan semua bersama-sama dibahas.
Akhirnya kertas berakhir dengan diskusi tentang Big Data Hadoop kasus penggunaan sampel
yang menunjukkan bagaimana perusahaan dapat memperoleh manfaat kompetitif dengan
menjadi pengadopsi awal dari analisis data yang besar [2].

Gambar 1. Arsitektur Big Data and Deep Analysis[2]

Pada paper yang berjudul Evaluation and Analysis of GreenHDFS: A Self-Adaptive, EnergyConserving Variant of the Hadoop Distributed File System, dijelaskkan bahwa Hadoop
menggunakan algoritma Map Reduce Google dan Distributed File System (HDFS) / berkas sistem
kerja. Dimana untuk mengimplementasikan algoritma MapReduce dalam mode scalable dan
didistribusikan pada komoditas hardware. Selain itu Hadoop memungkinkan pengguna untuk
menyimpan dan memproses volume data dalam jumlah yang besar [3]. Sedangkan pada paper
lain juga diterangkan implementasi untuk Hadoop cluster bisa digunakan untuk kebanyakan
organisasi. Sedangkan Hadoop Distributed File System (HDFS) bekerja dan memiliki arsitektur,
MapReduce Hadoop bekerja dengan mendistribusikan tugas di beberapa node, dalam Hadoop
dibahas dengan data set sampel. MapReduce dan HDFS bekerja ketika mereka menempatkan
seluruhnya secara bersama sama [4].

Hadoop adalah open source kerangka kerja perangkat lunak Apache yang mengevaluasi
gigabyte atau petabyte terstruktur atau tidak terstruktur data dan mengubahnya menjadi
bentuk yang lebih mudah dikelola untuk aplikasi. Hadoop dapat memproses data yang diberikan
dengan cepat, dan itu dianggap sebagai keuntungan atau kunci untuk skalabilitas. Hadoop
muncul sebagai platform perangkat lunak yang didistribusikan untuk mengubah dan mengelola
sejumlah besar data, dan telah berkembang menjadi salah satu alat yang paling popular. Hadoop
terinspirasi dari whitepaper Google yang membahas tentang MapReduce dan Google File
System yang dibuat oleh Doug Cutting dan nama hadoop ini berasal dari boneka gajah milik
anaknya. Asal muasalnya hadoop ini adalah sub project dari Nutch yang digunakan untuk Search
Engine. Hadoop bersifat open source dan berada dibawah bendera Apache Software
Foundation. Inti dari hadoop adalah terdiri dari [1]:
a) HDFS (Hadoop Distributed File System) - Data yang terdistribusi
b) MapReduce - Framework dari aplikasi yang terdistribusi
Dari paper yang lain juga di sebutkan komponen yang terdapat pada Hadoop yaitu terdiri
dari dua komponen dasar, antara lain:
a) Sistem berkas terdistribusi (distributed le system) - Google File System.
Ini memberikan toleransi kesalahan sementara berjalan pada perangkat keras
komoditas murah, dan memberikan performa agregat tinggi untuk sejumlah besar
klien. [5].
b) Kerangka komputasi (computing framework) - Google MapReduce.
Hadoops data-intensive computing framework yang intensif dibangun pada skala
besar, sangat tangguh penyimpanan cluster berbasis obyek dikelola oleh Hadoop
Distributed File System (HDFS) [3].
Dalam komponen pertama dari dua di atas, data disimpan dalam Hadoop Distributed File
System (HDFS). Hadoop Distributed File System (HDFS) menggunakan write-sekali, baca-banyak
model yang istirahat data ke blok yang menyebar di banyak node untuk toleransi kesalahan dan
kinerja tinggi. Hadoop dan HDFS menggunakan arsitektur master-slave.
Teknologi hadoop sendiri tidak hanya digunakan pada Big Data, ada beberapa
implementasi yang lainnya, pada beberapa paper yang membahas teknologi hadoop
menjelaskan bahwa Hadoop merupakan sumber awan platform komputasi terbuka Yayasan
Apache yang menyediakan kerangka kerja pemrograman perangkat lunak yang merupakan satu
set tool berbasis Linux yang menggunakan perangkat keras komoditas, yang relatif murah, untuk
menangani, menganalisis dan mengubah jumlah besar data [6].
Dalam inplementasinya pada beberapa perusahaan, biasanya menggunakan suatu
perangkat komputer dengan spesifikasi tinggi yang akan akan memproses data dalam jumlah
besar. Tetapi tidak selamanya yang di proses adalah data besar dan scalable, sedangkan Hadoop
mengikuti suatu pendekatan sangat berbeda dibandingkan dengan perusahaan yang tradisional.
Pada proses Big Data ini yang pertama kali diterobos yaitu melakukan pemecahan data menjadi
kecil sehingga data yang dalam jumlah besar tadi dapat ditangani secara efisien dan secara
efektif. Bersama dengan pemecahan data tersebut, Hadoop juga melakukan pemecahan
perhitungan sesuai data yang dipecah tadi, dan ketika semua proses perhitungan telah selese
baru dikombinasikan / digabung kembali semua data tersebut baru dikirim sesuai yang

dibutuhkan aplikasi / user. Seperti yang diterapkan pada paper yang membuat Web log file
untuk keperluan Data mining dengan skema seperti gambar berikut.

Gambar 2. Big Data Characteristics [7]

II. Method
Dalam implentasinya, banyak method yang bisa digunakan pada Big Data, berikut beberapa
method yang bisa dijadikan acuan antara lain :
a. The Rise Of Big Data And Hype Cycle
The Hype Cycle memberikan pernyataan tentang Emerging Technologies pada Hype
Cycle tahunan terpanjang, memberikan pendapat sudut pandang silang pada sebuah industri
pada teknologi dan tren yang senior yang eksekutif, strategi, inovator, CIO, pengembang
bisnis dan perencana teknologi harus menganggap sebagai dalam mengembangkan muncul
portofolio teknologi.
Hype Cycle Gartner menawarkan strategi dan perencanaan dengan evaluasi
kematangan, manfaat bisnis dan masa depan, kearah lebih dari 2.000 teknologi,
dikelompokkan menjadi 98 daerah. Siklus Hype guesstimates menentukan berapa lama
teknologi dan tren akan mendapatkan kematangan dan membantu organisasi membuat
keputusan kapan harus melaksanakan. Informasi ini menggambarkan tahap teknologi adopsi
baru dan dimulai dengan Teknologi Pemicu: penemuan baru atau inovasi. Dalam 2012 dan
2008 (sesuai tahun paper) versi Hype Siklus untuk Emerging Technologies, Gartner
memperkirakan bahwa akan mengambil 2-5 tahun sebelum data besar akan mencapai
produktivitas tertinggi [8][9].
Pada tahun ini, sesuai perkiraan Gartner bahwa prediksinya untuk Tren terhubung erat
dari Internet of Things yang semulanya antara 5 sampai 10 tahun ternyata pada tahun 2014
kemarin mengatakan masih memerlukan lebih dari 10 tahun lagi untuk dapat mencapai
produktivitas tertinggi, seperti diprediksi tahun lalu.
Berikut Gambaran Gartner hype cycle untuk emerging Technologies yang dibuat pada
tahun 2013 kemarin.

Gambar 3. Gartner hype cycle for emerging Technologies 2013 [2][9]

b. MapReduce Framework
MapReduce adalah replika pemrograman dan terkait pelaksanaan pengolahan dan
menghasilkan dataset yang besar [10]. Program MapReduce pada dasarnya paralel dan
sangat cocok untuk lingkungan terdistribusi. Sedangkan Hadoop mengambil cluster node
untuk menjalankan program MapReduce besar-besaran secara paralel.
Program MapReduce terdiri dari dua langkah utama, yaitu peta langkah proses input
data dan langkah berikutnya mengurangi merakit untuk menjadi hasil akhir. Kedua
penggunaan pasangan kunci-nilai yang ditetapkan oleh pengguna sebagai input dan
output. Ini memungkinkan output dari satu pekerjaan untuk memberikan secara langsung
sebagai masukan untuk yang lain. Program MapReduce berjalan pada sistem file lokal dan
CPU lokal untuk setiap node cluster. Data yang rusak menjadi data blok (biasanya dalam
ukuran blok 64MB), disimpan di seluruh
Pengolahan data yang dilakukan dapat mencakup berbagai operasi tergantung
kebutuhan seperti pemusnahan (culling), penandaan (tagging), menyoroti (highlighting),
pengindeksan (indexing), pencarian (searching), pendekteksian (faceting), operasi
(operations) dll. Hal ini tidak mungkin dikerjakan oleh mesin tunggal atau lebih untuk
menyimpan atau memproses sejumlah besar data ini dalam jangka waktu yang terbatas. [11]

Gambar 4. MapReduce data flow with a single reduce task [10]

c. HDFS & Map Reduce Put Together


Ketika kita mempunyai berbagai macam data, dimana data - data tersebut dapat
disimpan dan diproses ke dalam DBMS dengan sistem cluster terdistribusi seperti Hadoop
Distributed File System (HDFS). HDFS adalah sistem penyimpanan jangka panjang untuk log
web misalnya. Log web ini berubah menjadi perilaku browsing dengan menjalankan program
MapReduce di cluster dan menghasilkan hasil yang dikumpulkan di dalam cluster yang sama.
Hasil ini dikumpulkan kemudian dimuat ke dalam sistem DBMS relasional [12].
Secara arsitektur, komponen kritikal yang memecah bagian tersebut adalah layer
integrasi yang ada di tengah. Layer integrasi ini perlu untuk diperluas ke seluruh tipe data
dan domain, dan menjadi jembatan antara data penerimaan yang baru dan tradisional, dan
pengolahan kerangka. Kapabilitas integrasi data perlu untuk menutupi keseluruhan
spektrum dari kecepatan dan frekuensi. Hal tersebut diperlukan untuk menangani
kebutuhan ekstrim dan volume yang terus bertambah banyak. Oleh karena itu diperlukan
teknologi yang memungkinkan untuk mengintegrasikan HDFS dan MapReduce dengan data
warehouse.
Kerangka menghitung Hadoop didistribusikan disebut MapReduce, memanfaatkan
arsitektur penyimpanan yang didistribusikan sistem file Hadoop HDFS untuk memberikan
scalable, jasa pemrosesan paralel dapat diandalkan untuk algoritma sewenang-wenang [13].
Pola acak MapReduce dan beberapa Sistem Hadoop Distributed File (HDFS) operasi yang
menjangkau link terkendala sangat sensitif terhadap kinerja jaringan. Fitur Hadoop itu
topologi kesadaran dapat mengurangi hukuman ini untuk tingkat sederhana dalam skenario
bandwidth yang hybrid. Pengamatan tambahan menunjukkan bahwa pertentangan antara
co-terletak mesin virtual merupakan sumber kinerja teratur untuk aplikasi Hadoop pada
virtual cloud infrastructure [12].
Dalam paper lain, penggunaan MapReduce dapat di kombinasikan dengan algoritma
Reducing the Search Space untuk data mining dimana data yang diakses adalah data yang
besar untuk pola yang sering digunakan. Dengan memanfaatkan sifat kendala, algoritma ini
sangat mengurangi ruang pencarian untuk Big data mining [14].

Berikut adalah atribut yang dimiliki HDFS dan MapReduce :


a) The Hadoop Distributed File System (HDFS)
1. Tingginya ketersediaan : Menyediakan alur kerja mission-critical dan aplikasi.
2. Kesalahan Toleransi : otomatis dan tanpa cacat pulih dari kegagalan
3. Scale-Out Architecture : Dapat menambahkan server untuk meningkatkan daya
tampung
4. Akses Fleksibel : banyak dan kerangka terbuka untuk seralisasi dan jumlah file
system
5. Load Balancing : Posisi data yang cerdas untuk efisiensi maksimum dan
pemanfaatan
6. Tunable Replication : Beberapa salinan dari setiap file memberikan
perlindungan data dan kinerja komputasi
b) MapReduce
1. Resource Manager: Mempekerjakan Data lokalitas dan server sumber daya
untuk menentukan operasi komputasi optimal
2. Optimized Scheduling: diselesaikan pekerjaan sesuai dengan prioritas
3. Flexibility : Prosedur dapat ditulis di hampir semua bahasa pemrograman
4. Resiliency (ketahanan) & High Availability: Beberapa pekerjaan dan pelacak
tugas memastikan bahwa pekerjaan gagal secara independen dan me-restart
secara otomatis
5. Scale-out Architecture: Dapat menambahkan server untuk meningkatkan
kekuatan pemrosesan.

Gambar 5. Mapreduce word count Example

III. Produk yang dihasilkan


Salah satu implementasi yang terapkan pada teknologi Hadoop adalah menunjukkan kasus dari
end to end penggunaan Hadoop. Berikut adalah hasil dari kumpulan kasus dengan menggunakan
Hadoop yang diambil dari beberapa paper.

a. Kesehatan (Menyimpan dan Pengolahan Medical Records)


Masalah
Sebuah perusahaan kesehatan IT menerapkan kebijakan menyimpan 7 tahun klaim historis
namun dalam in-house sistem database mengalami kesulitan memenuhi data persyaratan
saat memproses jutaan klaim setiap hari.
Solusi
Sebuah sistem Hadoop memungkinkan pengarsipan tujuh tahun klaim dan pengiriman data,
yang mana membutuhkan kompleks pengolahan untuk mendapatkan ke dalam format
normal, logging terabyte data yang dihasilkan dari sistem transaksional harian, dan
penyimpanan mereka di CDH untuk tujuan analisis
Hadoop vendor : Cloudera
Cluster / ukuran data : rata- rata 1TB data / hari
Kasus penggunaan real-time ini didasarkan pada penyimpanan dan pengolahan rekam medis dari
yang diperiksa [15].
b. Nokia
Masalah
- Berurusan dengan 100TB data terstruktur dan 500TB + data semi-terstruktur
- 10s PB di Nokia, 1TB / hari
Solusi
HDFS data warehouse memungkinkan menyimpan semua data terstruktur / multi-struktur
data dan menawarkan pengolahan data di skala petabyte.
Hadoop Vendor: Cloudera
Ukuran Cluster / Data :
- 500TB data
- 10s PB di Nokia, 1TB / hari
Nokia mengumpulkan dan menganalisis sejumlah besar data dari ponsel telepon. Use case ini
didasarkan pada studi kasus di mana Nokia diperlukan untuk menemukan solusi teknologi yang
akan mendukung pengumpulan, penyimpanan dan analisis data yang hampir tak terbatas jenis
dan volume [16].
c.

Telecoms
Masalah
Menyimpan miliaran catatan panggilan mobile dan menyediakan akses real time ke catatan
panggilan dan penagihan informasi kepada pelanggan. Penyimpanan tradisional tidak bisa
untuk membuka dan menyediakan solusi biaya yang efektif.
Solusi
HBase digunakan untuk menyimpan miliaran baris rincian data panggilan telecoms. 30TB
data ditambahkan tiap bulannya.
Hadoop Vendro: Intel
Ukuran Hadoop cluster yang 100 + node
Solusi Intel hardware dan software membantu China Mobile Guangdong membangun kinerja
tinggi yang baru, dapat diandalkan dan rincian biaya tagihan penyelidikan yang efektif karena
untuk pertumbuhan pelanggan yang berkelanjutan. Use case ini didasarkan pada laporan studi
Intel [17].

d. Penyimpanan Data Net - App


Masalah
NetApp mengumpulkan data melebihi 600.000 transaksi mingguan, yang terdiri dari log
terstruktur dan sistem informasi diagnostik. Penyimpanan data tradisional sistem terbukti
tidak memadai untuk melakukan capture dan memproses data ini.
Solusi
Sebuah sistem Cloudera Hadoop menangkap data dan memungkinkan pemrosesan paralel
data.
Hadoop Vendor: Cloudera
Cluster / ukuran data: 30 + node; 7TB data / bulan
Cloudera menawarkan organisasi solusi yang sangat terukur dengan fitur penyimpanan
enterprise yang meningkatkan keandalan dan kinerja dan mengurangi biaya [18].
e. Jasa Keuangan (Dodd-Frank Kepatuhan di bank)
Masalah
Solusi sebelumnya menggunakan Teradata dan IBM Netezza adalah memakan waktu dan
kompleks, dan pendekatan data market tidak memberikan kelengkapan data yang
dibutuhkan untuk menentukan kualitas data secara keseluruhan.
Solusi
Sebuah platform Cloudera + Datameer memungkinkan menganalisis triliunan catatan yang
saat ini mengakibatkan sekitar satu terabyte per bulan laporan. Hasil dilaporkan melalui
dashboard kualitas data.
Hadoop Vendor: Cloudera + Datameer
Cluster / ukuran data : 20 + node; 1TB data / bulan
Sebuah bank ritel terkemuka menggunakan Cloudera dan Datameer untuk memvalidasi
keakuratan data dan kualitas untuk mematuhi peraturan seperti Dodd-Frank [19]

IV. Kesimpulan
Kita berada di era Big Data, dimana setiap hari menghasilkan miliaran bahkan triliunan byte
data yang menunjukkan bahwa data di dunia sangat banyak dan bayangkan jika dalam bentuk
hard berapa banyak data tersebut jika dikumpulkan, lapangan bola mugkin masih kurang. Dari
review paper ini telah disoroti terkait evolusi dan kenaikan data besar menggunakan teknologi
Hadoop, selain itu ada HDFS yang menghasilkan beberapa replika data blok dan
mendistribusikan mereka pada node komputasi di seluruh cluster, dan perhitungan serta proses
yang sangat cepat, selain itu ada konsep MapReduce yang telah diimplementasikan juga untuk
besar seperti mesin cluster yang terdiri dari ribuan mesin.
Dari Teknologi-teknologi diatas, kita dapat menyimpulkan bahwa dengan data yang begitu
besar tadi jika tidak di kelola dengan baik maka akan menjadi data biasa saja, yang mungkin akan
dihapus karena dianggap tidak terlalu penting, tetapi dengan adanya teknologi-teknologi
tersebut data yang tadinya menumpuk dapat di kelola dengan baik sesuai algoritma yang
digunakan sehingga menghasilkan informasi yang baru dan bermanfaat bagi yang mempunyai
kepentingan untuk data tersebut, seperti Data mining, Pengambilan Keputusan, Sistem yang
berbasis kepakaran dan lain sebagainya.

V. Referensi
[1]

W. Is, A. Hadoop, D. Hadoop, W. U. Hadoop, M. Guardian, I. Awards, and Z. Graduates,


Welcome to ApacheTM HadoopTM!, Innovation, no. November 2008, pp. 20092012, 2012.

[2]

E. Sivaraman and R. Manickachezian, High Performance and Fault Tolerant Distributed File
System for Big Data Storage and Processing Using Hadoop, 2014 Int. Conf. Intell. Comput.
Appl., pp. 3236, 2014.

[3]

R. T. Kaushik, M. Bhandarkar, and K. Nahrstedt, Evaluation and analysis of GreenHDFS: A


self-adaptive, energy-conserving variant of the hadoop distributed file system, Proc. - 2nd
IEEE Int. Conf. Cloud Comput. Technol. Sci. CloudCom 2010, pp. 274287, 2010.

[4]

J. Dean and S. Ghemawat, MapReduce: simplified data processing on large clusters, Cacm,
vol. 51, no. 1, pp. 107113, 2012.

[5]

S. Ghemawat, H. Gobioff, and S.-T. Leung, The Google file system, ACM SIGOPS Oper. Syst.
Rev., vol. 37, no. 5, p. 29, 2003.

[6]

K. Singh and R. Kaur, Hadoop: Addressing challenges of Big Data, Souvenir 2014 IEEE Int.
Adv. Comput. Conf. IACC 2014, pp. 686689, 2014.

[7]

B. Kotiyal, A. Kumar, B. Pant, R. H. Goudar, and B. Road, Big Data: Mining of Log File through
Hadoop.

[8]

B. Liu, Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data. 2011.

[9]

H. Jrvenp and S. J. Mkinen, Empirically detecting the Hype Cycle with the life cycle
indicators: An exploratory analysis of three technologies, 2008 IEEE Int. Conf. Ind. Eng. Eng.
Manag. IEEM 2008, pp. 1216, 2008.

[10]

N. Technologies, A. Pal, P. Agrawal, and K. Jain, 2014 Fourth International Conference on


Communication Systems and Network Technologies A Performance Analysis of MapReduce
Task with Large Number of Files Dataset in Big Data Using Hadoop, 2014.

[11]

A. B. Patel, M. Birla, and U. Nair, Addressing Big Data Problem Using Hadoop and Map
Reduce, pp. 68, 2012.

[12]

A. Mandal, Y. Xin, I. Baldine, P. Ruth, and C. Heerman, Provisioning and Evaluating Multidomain Networked Clouds for Hadoop-based Applications, vol. di.

[13]

S. Narayan and S. Bailey, Hadoop Acceleration in an OpenFlow-based cluster, pp. 535538,


2013.

[14]

C. K. Leung, Reducing the Search Space for Big Data Mining for Interesting Patterns from
Uncertain Data, 2014.

[15]

S. Cloudera Customer Case, Streamlining Healthcare Connectivity with Big Data, 2012.

[16]

S. Cloudera Customer Case, Nokia: Using Big Data to Bridge the Virtual & Physical Worlds,
2012.

[17]

P. Madiraju and Y.-Q. Zhang, Web usage data mining agent, in Proceedings of SPIE - The
International Society for Optical Engineering, 2002, vol. 4730, pp. 224228.

[18]

S. Cloudera Customer Case, NetApp Improves Customer Support by Deploying Cloudera


Enterprise, 2012.

[19]

S. Cloudera Customer Case, Joint Success Story: Major Retail Bank, 2012.