Anda di halaman 1dari 12

Nama : Egina Charista G

NIM : 21.2.0012

RINGKASAN MATERI
BISNIS ANALITIK DAN BIG DATA

BAB IV
TEKNIK PREDIKSI DAN STUDI KASUS
Prediksi pada hasil panen padi sebelum masa panen dapat menjamin
ketersediaan beras. Hasil dari prediksi tersebut dapat dimanfaatkan untuk
memutuskan berapa banyak beras yang harus diimpor atau diekspor. Jika tanpa
menggunakan data pengindraan jauh satelit, prediksi padi dapat dihitung
menggunakan data hasil survei di sawah-sawah. Tetapi dalam pengumpulan data
tersebut memerlukan waktu yang lama, sehingga prediksi yang digunakan sudah
terlambat. Sedangkan jika menggunakan pengindraan jarak jauh memiliki
kelebihan yaitu tersedia secara real time, data berkualitas bagus, memberikan
informasi yang memadai terkait pertumbuhan padi. Satelit dimanfaatkan untul
keperluan diberbagai bidang, misalnya :
a) Bidang meteorologi dan klimatologi : peramalan cuaca dan bencana alam
yang terkait dengan cuaca, badai, putting beliung dan banjir.
b) Bidang hidrologi : pemetaan daerah aliran sungai (DAS) terkait dengan
potensi banjir.
c) Bidang kelautan :pengamatan delombang laut dan pemetaan perubahan
pantai akibat erosi dan sedimentasi.
d) Bidang pertanian dan kehutanan ; pengenalan dan klasifikasi jenis
tanaman, evaluasi kondisi tanaman, perkembangan luas hutan dan
perkiraan produksi tanaman.
Pengindaraan jauh merupakan ilmu, seni dan teknik untuk memperoleh
informasi suatu objek, daerah, dan atau fenomena melalui analisis data dengan
suatu alat suatu alat tanpa harus kontak langsung dengan objek, daerah, atau
fenomena yang dikaji. Dengan pengindraan jauh, wilayah yang sulit diakses dapat
dianalisis dan menghasilkan info yang dapat dipercaya. Alat pengindraan
contohnya satelit, pesawat udara, dan balon udara. Satelit mengirim gelombang
elektromagnetik lalu bumi menangkap pantulan gelombang dan dikirim lagi ke
stasiun di bumi. Satelit SPOT-4 diluncurkan tahun 1986 oleh negaranya Perancis
dan diperbaharui tahun 1998. Data SPOT-4 masih digunakan sampai sekarang,
data tersebut terdiri dari 5 band yaitu : blue, green, red, SWIR, dan pankromatik.
Data hasil pengindraan jauh memiliki kelebihan bagi perhitungan potensi
panen padi yaitu waktu tersedia secara real time, data berkualitas bagus,
memerikan informasi yang memadai. Jadi potensi panen dapat dilakukan pada
saat tanaman padi masih hijau. Beberapa metode untuk memprediksi hasil panen
sawah dengan memanfaatkan dat satelit telah dikembangkan, contohnya
memanfaatkan data satelit pengindraan jauh SPOT-4.
Sistem satelit megukur (merekam) berbagai band spektral pada rentang tenagj
infra-red yang nampak pada spektrum elektromagnetik. Penyerapan spektral
biasanya terjadi pada Panjang gelombang elektromagnetik dengan rentang 670
sampai 780 nm. Klorofil pada daun menyerap banyak gelombang dan memiliki
pantulan tinggi terhadap gelombang infrared. Gelombang near infrared
bermanfaat untuk survei dan pemetaan vegetasi “steep gradient” hanya diproduksi
oleh vegetasi atau tumbuh-tumbuhan. Tumbuhan yang sehat memiliki niali
Normalized Difference Vegetation Index (NDVI) yang tinggi karena tumbuhan
sedikit memantulkan spektrum merah. Alogaritma Machine learning yang dapat
dimanfaatkan untuk membuat model prediksi adalah regresi, alogaritma ini
menerima masukan himpunan data yang memiliki variable-variable predictor
untuk mebuat model. Ada dua tipe regresi yaitu linear dan non linear. Komputasi
non linear lebih kompleks dibandingkan linear.
Alogaritma regresi yang digunakan untuk membuat model terdiri dari dua
tahap, tahap pelatihan dan tahap prediksi. Tahap pelatihan, model dibuat
berdasarkan himpunan data (dataset) pekatihan dan target yang diumpankan
alogaritma. Model tersebut lalu diuji menggunakna data uji, jika model tersebut
berkualitas baik maka tahap selanjutnya model tersebut dimanfaatkan untuk
memprediksi nilai target.
Nilai VI dan NDVI berkaitan dengan band-band spectral satelit, sedangkan
band LAI diukur dengan alat dilokasi sawah. Cara untuk mendapatkan nilai VI,
NDVI, LAI yang benar dan respresentatif? Kita memerlukan tahap kegiatan dan
komputasi yang cukup komples. Lokasi area sawah haruslah yang diidera oleh
satelit SPOT-4. Pada data satelit LAI diambil Sembilan puluh hari sebelum masa
panen dan pengukuran pada 6- kotak di area sawah berdasarkan pebagian dengan
grid. Nilai indeks vegetasi dihitung dengan rumus matematika tertentu dengan
menggunakan nilai band merah dan near-infrared. Nilai tersebut yaitu : Green
Vegetation Index (GVI), Ratio Vegetation Index (RVI) Infrared Percentage
Index (IPVI), Difference Vegetion Index (DVI), Normalized Difference
Vegetaion Index (NDVI) dan Soil Adjusted Vegetation Index (SAVI).
Pengembangan model regresi terdiri dari dua tahap, yaitu pembuatan model
dan pemanfaatan model. Tahap pembuatan model perlu diketahu bahwa model
harus berkualitas bagus sehingga bisa dimanfaatkan untuk memprediksi nilai
panen. Pembuatan dan pengujian regresi hanya dipilih 1 kolom untuk regresi
sederhana dan 2 kolom LAI dan kolom lainnya untuk multiple-regresi.
Alogaritma regresi sederhana memiliki 1 kolom predictor yaitu (HIJ, MDER,
NIR, dll) dan 2 kolom predictor (pasangan kolom LAI dengan kolom lainnya,
misal HIJ-LAI, MDER-LAI, NIR-LAI, GVI-LAI, dll). Dari hasil pengujian
model, didapatkan hasil penting sebagai berikut :
a) Model multiple-regression memiliki kualitas yang baik (R2 secara umum
lebih besar dari 0,89)
b) Model dengan nilai R2 tertinggi adalah model yang dibuat dengan data
pelatihan dengan kolom NIR-LAI dan DVI-LAI, dimana R2 adalah 0,97.
Berdasarkan hasil penguji tersebut, model terbaik yang digunakan untuk
memprediksi panen padi pada masa yang akan datang dengan data input yang
dibutuhkan yaitu NIR, DVI, dan LAI. Model akan memberikan keluaran hasil
prediksi berupa angka panen dalam satuan ton dan hektar. Model yang dihasilkan
hanya dapat dimanfaatkan pada lingkungan dan kondisi tertentu.
BAB V
PREDIKSI, KLASIFIKASI DATA DAN DATA WEARABLE DEVICE

Wearable device merupakan salah satu perangkat Internet of Things (IoT),


sedangkan IoT merupakan salah satu alat yang dipasang pada suatu bagian
tertentu, yang berkerja untuk mendeteksi aktivitas atau kejadian pada suatu bagian
tubuh tertentu. Salah satu kemampuannya yaitu mengukur detak jantung manusia
seseorang, alat tersebut dapat dipasang dipergelangan tangan. Wearable device
memiliki beberapa sensor dam microcontroller yang berkerja untuk tujuan
tertentu, contohnya untuk mengukur nilai yaitu, detak jantung, suhu, tubuh, dll.
Wearable device umumnya hanya beroprasi untuk mendapatkan nilai dari sensor,
data yang didapatkan akan dikirim ke smartphone.
Teknik klasifikasi data dikategorikan ke dalam teknik prediksi, teknik prediksi
menghasilkan model yang dapat digunakan untuk memprediksi nilai kategorial
atau diskret dengan cara memproses data dengan format tertentu. klasifikasi data
terdiri dari dua tahap utama yairu :
1. Pemisahan data masukan (hasil perolahan data) secara acak menjadi data
training dan uji. Data tersebut akhirnya akan diolah dan seorang ahli data
akan memilih data mana yang paling tepat. Jika tepat maka data tersebut
kana dimanfaatkan di tahap kedua.
2. Penggunaan model untuk mengklasifikasi data baru, yaitu jika sebuah
record belum diketahui kelasnya, yang akan memberikan jawaban hasil
perhitungannya.
Jaringan Syarat Tiruan (JST) merupakan tools dan pendekatan yang digunakan
padavalogaritma Machine Learning. JST sering digunakan dalam kehidupan
sehari-hari, contohnta untuk mengenali bentuk gambar, kata-kata, penyortiran
email, diagnosis penyakit-penyakit, dll. JST dirancang untuk menggunakan
banyak perceptron yang tersambung dan membentuk jaringan sama seperti otak
manusia yang cara kerjanya menghubungkan berjuta-juta neutron pada otak.
Contoh dari JST adalah Multilayer Perceptrons (MLP) yang merupakan
kelompok deep learning sederhana. MLP mempunyai tiga komponen utama yaitu
input layer, hidden layer, dan output layer dengan penjelasan sebagai berikut :
1. Input layer merupakan layer yang menerimadata berformat vector dengan
jumlah elemen sesuai dengn jumlah atribut predictor yang yang akan
diproses. Pada model klasifikasi, tiap elemen vector disambungkan ke tiap
atribut predictor. Jika misalnya terdapat 4 atribut predictor, akan terdapat 4
elemen vector pada lapis masukan.
2. Hidden layer dapat terdiri dari satu atau lebih lapis. Tiap lapis berisi
sejumlah perceptron. Jika lapis tersembunyi hanya terdiri dari satu lapis
masukan tiap perceptron tersambung ke elemen vector pada lapisa
masukan, sedangkan iuaran tiap perceptron tersambung ke lapis luaran.
Tiap hubungan dari perceptron ke lapis masukan maupun lapis luaran
memiliki bobot tersendiri. Jumlah lapis tersembunyi dan jumlah perceptron
pada tiap lapis yang tepat biasanya didapatkan melalui berbagai eksperimen
yang diuji-coba, dapat dipilih MLP yang memberikan akurasi terbaik
dengan komputasi
3. Output layer terdiri dari satu atau lebih percepton. Penentuan jumlah
perceptron ini biasanya juga didasarkan pada ekperimen. Jika nilai yang
akan diprediksi terdiri dari dua nilai (0 atau 1), pada lapis keluaran dapat
digunakan satu perceptron yang menghasilkan luaran dengan niali yang
mendekati 0 atau 1.
Pembuatan model klasifikasi dengan memanfaatkan MLP. Tahapan utama
pada system yang memanfaatkan teknik klasifikasi untuk memprediksi kualitas
tidur yaitu detak jantung pengguna Ketika melakukan kegiatan akan dideteksi
oleh sensor pada smartwatch dan akan akan dikirimkan menggunakaan bluetooth
ke smartphone, melalui internet maka data detak jantung akan dikirimkan ke
server di cloud, program di cloud menggunakan data dari banyak orang untuk
membangun klasifikasi. Jika model sudah diuji dan terbukti akurat untuk
memprediksi kualitas tidur orang.
Data yang direkam oleh smartwatch memiliki beberapa sensor yang
terintegrasi dengan sebuah microprosesor. Sensor akselerometer pada smartwatch
menangkap tiga buah nilai, yang menginterpetasi pergerakan horizontal (sumbu
x), vertical (sumbu y) dan orthogonal (sumbu z), sensor ini sangat persisi sehingga
pergerakan tangan sedikit akan terdeteksi.
Data yang diambil pada sensor gerak masih berupa data mentah yang belum
dapat digunakan untuk melatih MLP. Data mentah harus disiapkan dahulu dan
kualitas tidur perlu didefinisakan berdasarkan variable-variable untuk menentukan
apakah tidur sesorang berkualitas atau tidak. Karena jumlah baris pada data yang
terkumpul sangat banyak maka data perlu diubah, kita dapat mengambil rata-rata
dari data tersebut. Data yang berisi record-rekord dapat diumpan ke alogaritma
Logistric regression maupun MLP. Hasil dari penyiapan data terdapat keterangan
pada setiap kolom yaitu :
a) Vector bangun, sekumpulan data continue dan turut menurut waktu pada
saat orang tidak tidur
b) Max, nilai maximum pada vector bangun
c) Min, nilai minimum pada vector bagun
d) Rata-rata, nilai rata-rata pada vector bangun
e) Vector tidur, sekumpulan data continue dan turut menurut waktu pada saat
orang tidur
f) Banyak gerak, berisi nilai yang mepresentasikan banyak gerak yang
dihitung dengan rumus/alogaritma tertentu dari vector bangun dan vector
tidur dengan rumus tertentu
g) Kategori/kelas, nilai yang menyatakan kualitas tidur seseorang dan
ditentukan berdasarkan nilai efisien tidur
Hasil penyiapan data masih perlu dilakukan pemilihan data lain. Sebagai
contohnya pada MLP dipilih kolom Max, Min, Rata-rata dan Banyak Gerak
sebagai kolom predictor. Sedangkan Kategori/Kelas dijadikan kolom kelas.
Ilustrasi pelatihan MLP dan model hasilnya dibahas dibawah ini. Dalam membuat
model klasifikasi diperlukan untuk merancang strukturnya terlebuh dahulu yaitu
jumlah elemen/node pada lapis masukan (input layer), jumlah lapisan tersembunyi
(hidden layer) dan tiap lapis memiliki beberapa perceptron/neutron, fungsi
aktivasi pada tiap neuron dan beberapa jumlah elemen/node pada lapis luaran
(output layer). Dalam kasus ini, data training memiliki 4 atribut predictor, pada
MLP dirancang 4 elemen pada input layer. Setiap elem harus dirancang sesui
bobotnya, tiap bobot diberi nama inisial atau niali awal, lalu MLP tersebut dilatih.
Terdapat tahap pelatihan, yaitu :
a) Feed-forward (pengumpanan kedepan), keluaran pada setiap perceptron
dihitung berdasarkan data masukan yang diterima dan bobot-bobot pada
jaringan, dengan urutan dari lapis terdepan ke belakang
b) Back-propagation (propagasi balik), dengan menggunakan turunan fungsi
aktivasi, sebuah learning rate dan bobot-bobot saat sekarang, dilakukan
perbaikan nilai-nilai bobot dari lapis terbelakang ke depan.
Langkah tersebut dilkaukan secara bergantian untuk setiap baris/record pada data
training atau pelatihan. Jadi, perbaikan bobot-bobot dilakukan pada pemrosesan
tiap baris/record. Hal yang perlu diketahui untuk melatih MLP, semakin banyak
kasus (baris) pada data training yang mewakili tiap kelas , umumnya bobot-bobot
akan semakin baik. Dengan kata lain, model MLP akan semakin akurat (dalam
melakukan prediksi).
Pada penelitian yang dilaporkan disimpulkan bahwa model MLP cocok
dimanfaatkan untuk memprediksi kualitas tidur karena memiliki tingkat akurasi
yang baik. Cara pemanfaatan model MLP untuk memprediksi kualitas tidur
seseorang yaitu dengan cara mengumpankan sebuah record (baris) berisi nilai-
nilai fitur, lalu model akan menghitung nilai keluaran (kualitas tidur) berdasarkan
data input dan bobot-bobot pada input layer dan output layer. Jika angka
menghasilkan nilai diantara 0-0,5 berarti prediksinya adalah “Tidak Berkualitas”
sedangkan jika nilainya diantara 0,5-1 prediksinya adalah “Berkualitas”.
BAB VI
MENGENAL BIG DATA DAN BIG DATA ANALYSIS

Dampak penting dari perkembangan teknologi dan informasi adalah tersedia


data dan informasi pada teknologi internet (virtual data). Data dan informasi yang
tersedia di database teknologi internet disebut Big Data (BD). Big Data adalah
paradigma baru teknologi yang menghasilkan volume, variasi, dan kecepatan data
yang tinggi. Tetapi tidak semua orang dapat memanfaatkan database yang ada
untuk kepentingannya. Orang yang dapat memanfaatkan BD adalah orang yang
memahami prosedur akses BD dan menggunakan tools Big Data Analysis (BDA).
BDA sendiri merupakan seperangkat aplikasi teknologi yang digunakan dalam
menganalisis Big Data.
Big data memiliki definisi yang berbeda-beda menurut para sarjana. Akan
tetapi Big Data telah banyak dilakukan oleh bnayak sarjana dalam konteks
ontology, epistimologi, dan aksiologi Big Data. Big Data dapat didefinisikan
sebagai sebuah system yang mengintegrasikan dunia nyata, manusia, dan
dunia maya, dunia yang berkaitan dengan realitas social yang terrefleksikan
kedalam dunia maya melalui teknologi dan internet of thing. Manusia
menghasilkan big data dengan memproduksi melalui ,ekanisme teknologi,
computer, kecerdasan buatan, mobile internet. Big data diklasifikasikan kedalam
dua kategori yaitu, data dari dunia nyata dan data berasal dari manusia (human
society).
Kajian terhadap big data yakni mempertanyakan epistimologi big data yakni
bagaimana data diproduksi, dianalisis, dan digunakan untuk kepentingan public,
baik organisasi maupun individu. Dan pertanyaan yang muncul lainnya yaitu
bagaimana ilmu dikembangkan, urusan bisnis dijalankan, dan tata Kelola
pemerintah ditetapkan. Thomas Kuhn sudah lama mengklasifikasi perkembangan
ilmu big data, dengan membagi kedalam empat bagian experimental science,
theoretical science, computation science, dan explanatory science. Yang
menggambarkan perkembangan ilmu dari yang sifatnya empiris, generalis,
sumulasi, dan ekplorasi data statistical. Di era big data, data dapat diakses oleh
siapapun dan untuk kepentingan apapun. Pendekatan big data menekankan pada
penggunaan kombinasi pendekatan deduktif dan induktif. Penggunaan
pendekatan deduktif untuk menemukan hipotesis dan pengetahuan dari data
daripada teori. Pendekatan induktif digunakan untuk menjelaskan teori atau
temuan yang beredar sebelumnya. Elaborasi dari kedua pendekatan tersebut
menggambarkan epistimologi big data. Epistimologi big data adalah sebuah
pendekatan baru dalam penelitian empiris yang menekankan pada langkah-
langkah pengembangan ilmu melalui penggunaan cyber-big data dengan
menggunakan pendekatan induktif dan deduktif yang didukung oleh sejumlah
aplikasi teknologi dan internet.
Dalam paradigma empirisme, penggunaan big data dalam konteks isu-isu tau
fenomena social mengadopsi pendekatan riset empiris, dimana tradisi ini
kemusian dikenal riset positivistic. Riset ini mengukur hubungan atar variable
dalam lingkup fenomena social, seperti ideologi, budaya, dan system kepercayaan.
Bagi penelitian di bidang ilmu social, big data menawarkan keuntungan dan
kemudahan untuk mengembangkan riset dengan cara yang efektif, memperluas
skala riset dengan mudah, dan menggambarkan model jejaring fenomena social
melalui sejumlah aplikasi yang interaktif dan visual. Big Data Analysis dihunakan
untuk menganalisis dan memfisualisasikan data secara interaktif, menghubungkan
atar banyak variable yang terkait dengan topik penelitian, memungkinkan peneliti
menggunakan ribuan data yang tersedia didalam cyberdatabase, dan menekankan
pada konektivitas antara digital dan manusia sehingga proses penelitian dapat
berlangsung secara interaktif.
Jenis paper big data yang sering dipublikasikan adalah research paper, dimana
paper ditulis dan disusun berdasarkan pendekatan riset. Negara yang paling
perhatian dengan anlisis isu big data adalah negara China, USA, Australia, UK,
Republic of Korea, Spain, Canada, Germany, Malaysia. Dalam banyak hasil
study, negara-negara maju jauh lebih responsive daripada negara-negara
berkembang. Karena itu, banyak analisis mengatakan bahwa ekonomi dunia di era
big data akan didominasi oleh negara-negara maju.
Internetisasi data dan informasi merupakan fenomena yang berlangsung massif
di era teknologi dan informasi. Internetisasi tersebut merupakan dampak langsung
perkembangan teknologi internet dan social media. Era ini disebut era Big Data
(DB). Pemanfaatan DB adalah untuk kepentingan bisnis, kebijakan,
pengembangan ilmu, dan kepentingan lainnya. Dalam era DB perlu memahami
mekanisme penggunaan karena terdapat peluang dan tantangan. Tantangan pada
era DB dibagi menjadi tiga yaitu data, proses, dan manajemen. Tantangan pada
konteks data berkaitan dengan karakteristik data yang meliputi nilai,
keberagaman, kapasitas dan karakteristik lainnya. Pada era proses, tantangan DB
adalah penggunaan DB membutuhkan kemampuan interpertasi data, amalisis, dan
pemodelan, agregasi dan integrasi, dan kemampuan memaknai data. Tantangan
pada manajemen data adalah menjaga kerahasiaan dan keamanan data, tata kelola
data, berbagai data dan informasi, biaya yang dibutuhkan, dan kepemilikan data.
Big Data Analysis mempunyai lima kategori analisis yaitu, analisis informasi,
pengetahuan, pengambilan keputusan, dan tindakan, kategori tersebut
memerlukan analisis yang mendukung sesuai kebutuhan masing-masing. Ada pula
tiga core BDA yaitu analisis deskriptif yaitu analisis untuk memahami apa yang
terjadi, analisis prediktif yaitu analisis untuk menganalisis apa yang akan
terjadi, dan preskriptif analisis yaitu untuk mengetahui apa yang diminta dalam
melakukan sesuatu.
Big Data merupakan salah satu bagian paling penting dari perkembangan
teknologi informasi teknologi memberikan kesempatan bagi setiap organisasi
untuk membuat data berupa data structure, semi struktur, dan unstruktur. Ketiga
data tersebut dapat memproduksi DB yang diperlukan organisasi. Unstrucktur
data memproduksi DB berupa data text, photo, audio, video. Semi stucktur data
adalah jenis data yang sulit dispesifikasikan sehingga lambat dalam prosesing
untuk dijadikan DB. Terdapat tiga dimensi DB yaitu volume, veloncity, dan
variety dan didalam tiga dimensi tersebut terdapat lima dimesi DB yaitu veracity,
variability, complexcity, decay, dan value.
Perkembangan Big Data atau DB dari masa kemasa :
1) Big Data 1.0 (1994-2004)
BD 1.0 mengacu pada era teknologi web, dimana web digunakan
untuk menganalisis aktifitas online pengguna. Pemakaian web dapat
dibagi menjadi tiga : pemanfaatan web, struktur web, dan content web.
Analisis penggunaan web adalah analisis dengan menggunakan web
selama mereka browsing (perilaku). Analaisis struktur web adalah
proses analisis struktur web atau web page. Analisis content web adalah
proses pemanfaatan informasi dari content web.
2) Big Data 2.0 (2005-2014)
BD 2.0 mengacu pada perkembangan social media, dimana era ini
user web diijinkan berinteraksi langsung dengan pemilik content web,
bahkan user web dapat memberikan kontribusi data dan informasi untuk
content web. Social media analisis (SMA) digunakan untuk menganalisa
bahasa yang natural, alamiah, dan content independent, SMA focus pada
Sentiment Analysis (SA) dan Social Network Analysis (SNA).
3) Big Data 3.0 (2015-2017)
BD 3.0 menggunakan data dari 1.0 dan 2.0. kontribusi dari 3.0 adalah
IoT application yang menghasilkan data dalam bentuk image, audio,
video. Teknologi ini dapat mengidentifikasi data tanpa melibatkan
manusia.
4) Big Data 4.0 (2017-2018)
BD 4.0 menandai adanya perubahan pada manajemen industry yang
ditekankan pada smart planning, application, dan controlling. Dalam big
data ini IoT digunakan untuk mendukung akselerasi pencapaian tujuan,
visi, dan misi organisasi. Pada revolusi industry 4.0 lebih banyak
menggunakan IoT daripada melibatkan manusia didalamnya.
5) Big Data 5.0 (2019-)
BD 5.0 hadir untuk mengintegrasikna peran IoT dan peran manusia di
dalam manajemen organisasi. Misi revolusi 5.0 adalah menyeimbangkan
antara peran manusia dan teknologi. Kediran revolusi ini untuk
menjawab kesenjangan relasi antara manusia dan teknologi informasi.
BAB VIII
KONSEP BIG DATA

Bab ini menjelaskan konsep utama big data, megapa analisis canggih
diperlukan, perbedaan Data Science vs Busines Intelligence (BI), dan apa peran
baru yang diperlukan untuk ekosistem Big Data. Sebuah penelitian eksplanatori
menurut Singarimbun merupakan penelitian yang menjelaskan hubungan kasual
(sebab akibat) antara Variable penelitian dengan pengajuan hipotesa. Dlam
penelitian eksplanatori, pendekatan yang dipakai dalam penelitian ini adalah
metode survey, yaitu penelitian yang dilakukan untuk memperoleh fakta-fakta
mengenai fenomena-fenomena yang ada di dalam obyek penelitian dan mencari
keterangan secara actual sistematis. Pengertian dari riset eksploratori adalah riset
yang ditunjukan utnuk mengeksplor atau untuk mengumpulkan pemehaman
mendalam (penyelidikan) mengenai suatu masakah.
Menurut McKinsey Global (2011), Big Data dapat didefinisikan dengan data
yang memiliki skala (volume), distribusi (velocity), keragaman (variety) yang
sangat besar, dan atau abadi, sehingga membutuhkan penggunaan arsitektur
teknikal atau metode analitikyang inovatif untuk mendapatkan wawasan yang
dapat memberikan nailai bisnis baru (informasi yang bermakna).
Karakter Big Data (3V)
1) Volume
o Facebook menghasilkan 10TB data baru setiap hari, Twiter 7TB
o Sebuah Boeing 737 menghasilkan 240TB data penerbangan selama
penerbangan dari suatu wilayah AS kewilayah yang lain
o Microsoft kini memiliki 1jt, kurang dari Google, tetapi lebih dari
Amazon kata Ballmer (2013)
Kata big data mengarah kepada managemen informasi skala besar dan
teknologi analisis yang melebihi kapbilitas teknologi data secara
tradisional. Terdapat perbeddan antara Tradisional dan Big Data, yaitu
amount of data (volume), the rate of data generation and transmission
(velocity) dan the types of structured and unstructured data (variety).
Teknologi big data menjadi dua kelompok : batch processing yang
digunakan untuk menganalisis data yang sudah settle (data at rest)
pada satu tertentu dan streaming processing yang digunakan untuk
mneganlisis sata yang terus menerus terupdate setiap waktu (data in
motion).
2) Velocity
Velocity adalah kecepatan data yang masuk. Clickstreams dan transfer
data asynchronous yang dapat menangkap apa saja yang dilakukan oleh
jutaan atau lebih pengguna yang dilakukan saat ini. Sebuah clickstrams
meliputi suatu rekaman untuk setiap permintaan halaman dari setiap
pengunjung website. Jadi clicstreams merekam setiap gesture yang dibuat
oleh pengunjung dan gesture ini memiliki potensi untuk memberikan
deskripsi mengenai kebiasaan dari pengunjung yang bersangkutan.
3) Variety
Variety merupakan kumpulan dari berbagai macam data, baik data yang
terstuktur, semi terstruktur maupun data tidak terstruktur.
Ekosistem data analytics, apa yang dimaksud dengan analytics? Analytics
adalah cara untuk mengeksplorasi/ menyelidiki/ memahami secara mendalam
suatu objek samapai ke akar-akarnya, hasil analytics biasanya tidak menyebabkan
kebingungan, karena konteksnya membuat makna yang jelas. Perkembangan
analytics dimuali dari Decision Support Systems (DSS) kemudian berkembang
menjadi Business Intelligence (BI). BI dapat dilihat sebagia istilah umum untuk
semua aplikasi yang mendukung DSS, dan bagaimana hal itu ditafsirkan dalam
industri dan semakin meluas sapai dikalangan akademis. Big Data Analytics
merupakan alat dan Teknik analisis yang akan sangat membantu dalam
memahami big data dengan syarat alogaritma yang menjadi bagian dari alat-alat
tersebut harus mempu bekerja dengan jumlah besar pada kondisi real time dan
pada data yang berbeda-beda. Bidang pekerjaan Big data analytics antara lain :
1) Deep Analytical Talent / Data scientists : orang-orang dengan latar
belakang yang kuat dalam alogaritma-alogaritma system cerdas, atau
matematika terapan, atau ekonomi, atau ilmu pengetahuan lainnya
2) Data Savvy Professionals : Mereka tau bagaimana untuk berfikir tentang
data, bagaimana mengajukan jenis pertanyaan yang tepat seauai dengan
kebutuhan lembaga/ perusahaan/ lainnya dan mampu memahami dan
mengklarifikasi jawaban yang mereka terima.
3) Technology and Data Enablers : mampu memberikan dukungan integrasi
antara data dengan teknologi yang sesuai, dan paling berkembang saat ini.
Berdasarkan dari ekostem big data yang begitu kompleks, maka hal yang
paling dapat dilakukan dalam membangun Ekosistem Hadop adalah
mengidentifikasi kegunaan dan bagiaman interaksi antara, atau masing-masing
Tool Big Data, serta apa saja yang nantinya akan digunakan dalam melakukan
pembuatan implementasi pada lingkungan Hadoop. Pada Ekosistem Hadoop yang
lebih kerarah “Industrial Best Practices” untuk diterapkan pada bidang apapun,
misal Kesehatan (Healthcare) bisa mengguanakan Hadoop Distribution (HD).
Berapa perusahaan yang membuat HD terbaik sebgai berikut :
1) Cloudera : didirikan oleh orang-orang yang berkontribusi di project
Hadoop di Apache, memiliki pangsa paling besar, membuat HD versi
gratis dan juga versi enterprise yang tidak gratis.
2) HOrtonWorks: didirikan orang-orang yang berkontribusi di project
Hadoop juga, diadopsi di Microsoft Azure dan menjadi Microsoft HD
Insight
3) MapR Technologies : seperti HortonWorks, memberikan gratis untuk versi
enterprisenya dan mendapat keuntungan dari support dan training.
Hadoop yang dari Apache memiliki kemiripan dengan Linux dari segi
komposisis, konfigurasi, dan distribusinya namun bukan hal fungsionalitas.
Hadoop Distribution adalah perusahaan yang membuat sebuah paket Hadoop siap
pakai dan menjaulnya, dari konfigurasi Hadoop standart dengan tool-tool Big
Data lain yang sesuai dengan desain kofigurasi komposisi yang menurut mereka
terbaik, yang didalamnya ada Ekosistem Hadoop dan juga Arsitektur.

Anda mungkin juga menyukai