Anda di halaman 1dari 16

Sejarah & Perkembangan BIG

DATA
I Made Satrya Ramayu, S.Kom., M.Kom
Sejarah

• Tahun 1937 awal mula mengenal penyimpanan data yang besar milik Administrasi Franklin D. Roosevelt di
Amerika Serikat terkait melacak data kontribusi 26 juta orang Amerika dan lebih dari 3 juta pemberi kerja.
IBM dipercaya untuk menyelesaikan proyek besar ini dengan membuat mesin hole punch card
• Era Tahun 1943 dikembangkan oleh Inggris untuk memecahkan kode tentara Nazi selama Perang Dunia ke
2. alat Colossus ini bertugas untuk mencari pola dalam pesan yang disadap oleh inggris
• Era Tahun 1952 Badan Keamanan Nasional (NSA) Amerika dibentuk pada tahun 1952 dan dalam waktu
lebih dari 10 tahun, mereka telah mengontrak 12.000 orang ahli kriptografi karena NSA dihadapkan dengan
data yang sangat banyak selama perang dingin.
Lanjutan ..

• Era Tahun 1965 Amerika Serikat membangut pusat data untuk


menyimpan lebih dari 742 juta pengembalian pajak dan 175 juta set sidik
jari dengan mentransfer semua catatan tersebut ke pita komputer
magnetik yang harus disimpan di satu lokasi.
• Tahun 1989 era mulai berkembangnya big data. ilmuwan komputer
Inggris Tim Berners-Lee menciptakan World Wide Web. Tujuan
memfasilitasi proses berbagi informasi menggunakan sistem ‘hypertext’.
Lanjutan ..

• Era Tahun 1995 data yang tersebar didunia semakin banyak dikarenakan terhubung
dengan IoT device atau PC. Tahun ini juga superkomputer pertama dibangun
• Era Tahun 2005 Roger Mougalas dari O’Reilly Media menciptakan istilah Big Data
untuk pertama kalinya.Big Data ini mengacu pada kumpulan data besar yang hampir
tidak mungkin untuk dikelola dan diproses menggunakan alat intelijen bisnis
tradisional.pada th tersebut yahoo menciptakan Hadoop yang berjalan di atas
Google MapReduce. Tujuannya adalah untuk mengindeks seluruh World Wide Web
Lanjutan ..

• Doug Laney menyampaikan istilah data berukuran besar tersebut menjadi 3V, yaitu;
• Volume
• Velocity
• Varietas
Volume

• volume atau jumlah data, yaitu kegiatan dimana perusahaan mulai


mengumpulkan data sebanyak mungkin. Data ini didapatkan dari
berbagai macam sumber seperti transaksi bisnis, media sosial,
perangkat pintar, video, peralatan industri, dan masih banyak
beberapa sumber lainnya.
Velocity (kecepatan aliran data)

• Kecepatan aliran data menjadi salah satu hal yang penting sebab
data berukuran besar akan mengalir dengan kecepatan tertentu
dari media penyimpanan atau memori. Semakin besar atau
semakin banyak jumlah data, maka alirannya akan semakin cepat.
Varietas

• Varietas mengarah pada aneka macam atau jenis data yang


berhasil didapatkan dari berbagai macam sumber. Jenis big data ini
kemudian semakin beragam, bahkan bentuknya menjadi tidak
terstruktur. Sedangkan untuk data tradisional biasanya lebih
terstruktur, sehingga mudah untuk dikelola dan dimanfaatkan.
Lanjutan ..

• tahun 2009 mulai munculnya era biometric yang dilakukan oleh pemerintah india terkait
pemindaian iris mata, sidik jari, dan foto
• Tahun 2015 Google dan Microsoft memimpin pembangunan data center secara masif
• Tahun 2017 Huawei dan tencent bergabung dengan Alibaba membangun Data Center di China
• Tahun 2018 Pemimpin pasar di dunia data center menggunakan jaringan 400G yang dimana
jaringan ini dapat melakukan transfer secepat 400 Gigabyte per detik. Dan di th 2021 bahkan
sudah menggunakan jaringan 1000G yang dimana jaringan ini dapat melakukan transfer
secepat 1000 Gigabyte per detik
Cara Kerja • Integrasi Data (missal : traffic di laman website
Big Data dan media sosialmu )
• Manage (cara menyimpan data , cloud storage )
• Analisis Data (membuat pemodelan data
menggunakan machine learning dan artificial
intelligence sehingga bisa dianalisis dengan baik
dan menghasilkan penemuan baru)
Sumber 1. Penggunaan Internet
Big data 2. Penggunaan Smartphone (Aplikasi GPS)
3. Media Sosial
4. Digitalisasi Media (Netflix,Spotify, Kindle
/eBook)
5. Smart Devices (smart tv)
hadoop

• Hadoop adalah framework open


source yang sangat efektif untuk
menyimpan dataset dalam jumlah
yang sangat besar. Selain menyimpan,
framework ini tentunya juga bisa
memproses data mulai dari ukuran
gigabyte hingga petabyte secara
efisien.
Cara Kerja

• Hadoop bekerja dengan mendistribusi dataset dalam jumlah besar ke beberapa mesin berbeda, untuk kemudian data-data
ini diproses di waktu yang bersamaan.
• Empat modul utama Hadoop
• Hadoop Distributed File System (HDFS) merupakan sistem yang terdistribusi dan beroperasi di hardware standar
maupun low-end.
• Yet Another Resource Negotiator (YARN) merupakan sistem yang mengatur dan memonitor cluster node dan resource
usage.
• MapReduce marupakan framework yang membantu program untuk melakukan komputasi data secara parallel
• Hadoop Common merupakan penyedia library Java yang dapat digunakan oleh semua modul
Lanjutan • HDFS digunakan untuk menyimpan data dan MapReduce memproses data
tersebut, sementara itu YARN berfungsi untuk membagi tugas.
… • Hadoop memiliki ekosistem berupa berbagai tool dan aplikasi yang bisa
membantu pengumpulan, penyimpanan, analisis, dan pengolahan Big Data.
• S3 dan HDFS. Tool ini dibuat untuk memproses table dengan baris dalam
jumlah yang sangat banyak.
• tools tersebut diantaranya:
1.Spark
Spark merupakan processing system yang terdistribusi dan bersifat open
source, dimama tools ini digunakan untuk melakukan batch processing,
streamimg analytics, machine learning, graph database, dan ad hoc query.

2.Presto
Seperti halnya Spark, Presto juga salah satu software yang bersifat open
source. Presto sendiri meupakan SQL query engine terdistribusi yang
digunakan untuk analisis data ad hoc low-latency. Dengan Presto inilah, kita
dapat memproses data dari sumber yang berbeda-beda, termasuk HDFS
dan Amazon S3.
Lanjutan
… 3.Hive
Hive digunakan untuk MapReduce dengan
interface SQL, sehingga tool ini cocok untuk
analisis data dalam jumlah yang besar.

4.HBase
• HBase adalah database yang digunakan Amazon

Selain keempat software tersebut, masih ada juga


software lain yakni Apache, Impala, Pig,
Zookeeper, Sqoop, dan Oozie.
Kelebihan  Fleksibel

Hadoop • Data bisa disimpan dalam format apapun, baik secara


structured maupun unstructured. Hal ini memungkinkan
pengguna mengakses data dari sumber manapun dengan tipe
apapun.

 Upgrade kapasitas
• Hadoop merupakan teknologi yang memberikan solusi pada
sistem tradisional. Sistem tradisional memiliki data storage
yang terbatas, sementara Hadoop bisa ditingkatkan
kapasitasnya, sebab framework ini bekerja secara terdistribusi.

 Ketahanan tinggi
• HDFS merupakan bagian dari ekosistem Hadoop, yang dikenal
memiliki ketahanan tinggi dan meminimalkan risiko kegagalan
baik software maupun hardware.
• Meskipun satu node rusak atau mengalami masalah, HDFS
bisa menyediakan backup data untuk melanjutkan proses.

Anda mungkin juga menyukai