NIM : 21.2.0012
RINGKASAN MATERI
BISNIS ANALITIK DAN BIG DATA
BAB IV
TEKNIK PREDIKSI DAN STUDI KASUS
Prediksi pada hasil panen padi sebelum masa panen dapat menjamin
ketersediaan beras. Hasil dari prediksi tersebut dapat dimanfaatkan untuk
memutuskan berapa banyak beras yang harus diimpor atau diekspor. Jika tanpa
menggunakan data pengindraan jauh satelit, prediksi padi dapat dihitung
menggunakan data hasil survei di sawah-sawah. Tetapi dalam pengumpulan data
tersebut memerlukan waktu yang lama, sehingga prediksi yang digunakan sudah
terlambat. Sedangkan jika menggunakan pengindraan jarak jauh memiliki
kelebihan yaitu tersedia secara real time, data berkualitas bagus, memberikan
informasi yang memadai terkait pertumbuhan padi. Satelit dimanfaatkan untul
keperluan diberbagai bidang, misalnya :
a) Bidang meteorologi dan klimatologi : peramalan cuaca dan bencana alam
yang terkait dengan cuaca, badai, putting beliung dan banjir.
b) Bidang hidrologi : pemetaan daerah aliran sungai (DAS) terkait dengan
potensi banjir.
c) Bidang kelautan :pengamatan delombang laut dan pemetaan perubahan
pantai akibat erosi dan sedimentasi.
d) Bidang pertanian dan kehutanan ; pengenalan dan klasifikasi jenis
tanaman, evaluasi kondisi tanaman, perkembangan luas hutan dan
perkiraan produksi tanaman.
Pengindaraan jauh merupakan ilmu, seni dan teknik untuk memperoleh
informasi suatu objek, daerah, dan atau fenomena melalui analisis data dengan
suatu alat suatu alat tanpa harus kontak langsung dengan objek, daerah, atau
fenomena yang dikaji. Dengan pengindraan jauh, wilayah yang sulit diakses dapat
dianalisis dan menghasilkan info yang dapat dipercaya. Alat pengindraan
contohnya satelit, pesawat udara, dan balon udara. Satelit mengirim gelombang
elektromagnetik lalu bumi menangkap pantulan gelombang dan dikirim lagi ke
stasiun di bumi. Satelit SPOT-4 diluncurkan tahun 1986 oleh negaranya Perancis
dan diperbaharui tahun 1998. Data SPOT-4 masih digunakan sampai sekarang,
data tersebut terdiri dari 5 band yaitu : blue, green, red, SWIR, dan pankromatik.
Data hasil pengindraan jauh memiliki kelebihan bagi perhitungan potensi
panen padi yaitu waktu tersedia secara real time, data berkualitas bagus,
memerikan informasi yang memadai. Jadi potensi panen dapat dilakukan pada
saat tanaman padi masih hijau. Beberapa metode untuk memprediksi hasil panen
sawah dengan memanfaatkan dat satelit telah dikembangkan, contohnya
memanfaatkan data satelit pengindraan jauh SPOT-4.
Sistem satelit megukur (merekam) berbagai band spektral pada rentang tenagj
infra-red yang nampak pada spektrum elektromagnetik. Penyerapan spektral
biasanya terjadi pada Panjang gelombang elektromagnetik dengan rentang 670
sampai 780 nm. Klorofil pada daun menyerap banyak gelombang dan memiliki
pantulan tinggi terhadap gelombang infrared. Gelombang near infrared
bermanfaat untuk survei dan pemetaan vegetasi “steep gradient” hanya diproduksi
oleh vegetasi atau tumbuh-tumbuhan. Tumbuhan yang sehat memiliki niali
Normalized Difference Vegetation Index (NDVI) yang tinggi karena tumbuhan
sedikit memantulkan spektrum merah. Alogaritma Machine learning yang dapat
dimanfaatkan untuk membuat model prediksi adalah regresi, alogaritma ini
menerima masukan himpunan data yang memiliki variable-variable predictor
untuk mebuat model. Ada dua tipe regresi yaitu linear dan non linear. Komputasi
non linear lebih kompleks dibandingkan linear.
Alogaritma regresi yang digunakan untuk membuat model terdiri dari dua
tahap, tahap pelatihan dan tahap prediksi. Tahap pelatihan, model dibuat
berdasarkan himpunan data (dataset) pekatihan dan target yang diumpankan
alogaritma. Model tersebut lalu diuji menggunakna data uji, jika model tersebut
berkualitas baik maka tahap selanjutnya model tersebut dimanfaatkan untuk
memprediksi nilai target.
Nilai VI dan NDVI berkaitan dengan band-band spectral satelit, sedangkan
band LAI diukur dengan alat dilokasi sawah. Cara untuk mendapatkan nilai VI,
NDVI, LAI yang benar dan respresentatif? Kita memerlukan tahap kegiatan dan
komputasi yang cukup komples. Lokasi area sawah haruslah yang diidera oleh
satelit SPOT-4. Pada data satelit LAI diambil Sembilan puluh hari sebelum masa
panen dan pengukuran pada 6- kotak di area sawah berdasarkan pebagian dengan
grid. Nilai indeks vegetasi dihitung dengan rumus matematika tertentu dengan
menggunakan nilai band merah dan near-infrared. Nilai tersebut yaitu : Green
Vegetation Index (GVI), Ratio Vegetation Index (RVI) Infrared Percentage
Index (IPVI), Difference Vegetion Index (DVI), Normalized Difference
Vegetaion Index (NDVI) dan Soil Adjusted Vegetation Index (SAVI).
Pengembangan model regresi terdiri dari dua tahap, yaitu pembuatan model
dan pemanfaatan model. Tahap pembuatan model perlu diketahu bahwa model
harus berkualitas bagus sehingga bisa dimanfaatkan untuk memprediksi nilai
panen. Pembuatan dan pengujian regresi hanya dipilih 1 kolom untuk regresi
sederhana dan 2 kolom LAI dan kolom lainnya untuk multiple-regresi.
Alogaritma regresi sederhana memiliki 1 kolom predictor yaitu (HIJ, MDER,
NIR, dll) dan 2 kolom predictor (pasangan kolom LAI dengan kolom lainnya,
misal HIJ-LAI, MDER-LAI, NIR-LAI, GVI-LAI, dll). Dari hasil pengujian
model, didapatkan hasil penting sebagai berikut :
a) Model multiple-regression memiliki kualitas yang baik (R2 secara umum
lebih besar dari 0,89)
b) Model dengan nilai R2 tertinggi adalah model yang dibuat dengan data
pelatihan dengan kolom NIR-LAI dan DVI-LAI, dimana R2 adalah 0,97.
Berdasarkan hasil penguji tersebut, model terbaik yang digunakan untuk
memprediksi panen padi pada masa yang akan datang dengan data input yang
dibutuhkan yaitu NIR, DVI, dan LAI. Model akan memberikan keluaran hasil
prediksi berupa angka panen dalam satuan ton dan hektar. Model yang dihasilkan
hanya dapat dimanfaatkan pada lingkungan dan kondisi tertentu.
BAB V
PREDIKSI, KLASIFIKASI DATA DAN DATA WEARABLE DEVICE
Bab ini menjelaskan konsep utama big data, megapa analisis canggih
diperlukan, perbedaan Data Science vs Busines Intelligence (BI), dan apa peran
baru yang diperlukan untuk ekosistem Big Data. Sebuah penelitian eksplanatori
menurut Singarimbun merupakan penelitian yang menjelaskan hubungan kasual
(sebab akibat) antara Variable penelitian dengan pengajuan hipotesa. Dlam
penelitian eksplanatori, pendekatan yang dipakai dalam penelitian ini adalah
metode survey, yaitu penelitian yang dilakukan untuk memperoleh fakta-fakta
mengenai fenomena-fenomena yang ada di dalam obyek penelitian dan mencari
keterangan secara actual sistematis. Pengertian dari riset eksploratori adalah riset
yang ditunjukan utnuk mengeksplor atau untuk mengumpulkan pemehaman
mendalam (penyelidikan) mengenai suatu masakah.
Menurut McKinsey Global (2011), Big Data dapat didefinisikan dengan data
yang memiliki skala (volume), distribusi (velocity), keragaman (variety) yang
sangat besar, dan atau abadi, sehingga membutuhkan penggunaan arsitektur
teknikal atau metode analitikyang inovatif untuk mendapatkan wawasan yang
dapat memberikan nailai bisnis baru (informasi yang bermakna).
Karakter Big Data (3V)
1) Volume
o Facebook menghasilkan 10TB data baru setiap hari, Twiter 7TB
o Sebuah Boeing 737 menghasilkan 240TB data penerbangan selama
penerbangan dari suatu wilayah AS kewilayah yang lain
o Microsoft kini memiliki 1jt, kurang dari Google, tetapi lebih dari
Amazon kata Ballmer (2013)
Kata big data mengarah kepada managemen informasi skala besar dan
teknologi analisis yang melebihi kapbilitas teknologi data secara
tradisional. Terdapat perbeddan antara Tradisional dan Big Data, yaitu
amount of data (volume), the rate of data generation and transmission
(velocity) dan the types of structured and unstructured data (variety).
Teknologi big data menjadi dua kelompok : batch processing yang
digunakan untuk menganalisis data yang sudah settle (data at rest)
pada satu tertentu dan streaming processing yang digunakan untuk
mneganlisis sata yang terus menerus terupdate setiap waktu (data in
motion).
2) Velocity
Velocity adalah kecepatan data yang masuk. Clickstreams dan transfer
data asynchronous yang dapat menangkap apa saja yang dilakukan oleh
jutaan atau lebih pengguna yang dilakukan saat ini. Sebuah clickstrams
meliputi suatu rekaman untuk setiap permintaan halaman dari setiap
pengunjung website. Jadi clicstreams merekam setiap gesture yang dibuat
oleh pengunjung dan gesture ini memiliki potensi untuk memberikan
deskripsi mengenai kebiasaan dari pengunjung yang bersangkutan.
3) Variety
Variety merupakan kumpulan dari berbagai macam data, baik data yang
terstuktur, semi terstruktur maupun data tidak terstruktur.
Ekosistem data analytics, apa yang dimaksud dengan analytics? Analytics
adalah cara untuk mengeksplorasi/ menyelidiki/ memahami secara mendalam
suatu objek samapai ke akar-akarnya, hasil analytics biasanya tidak menyebabkan
kebingungan, karena konteksnya membuat makna yang jelas. Perkembangan
analytics dimuali dari Decision Support Systems (DSS) kemudian berkembang
menjadi Business Intelligence (BI). BI dapat dilihat sebagia istilah umum untuk
semua aplikasi yang mendukung DSS, dan bagaimana hal itu ditafsirkan dalam
industri dan semakin meluas sapai dikalangan akademis. Big Data Analytics
merupakan alat dan Teknik analisis yang akan sangat membantu dalam
memahami big data dengan syarat alogaritma yang menjadi bagian dari alat-alat
tersebut harus mempu bekerja dengan jumlah besar pada kondisi real time dan
pada data yang berbeda-beda. Bidang pekerjaan Big data analytics antara lain :
1) Deep Analytical Talent / Data scientists : orang-orang dengan latar
belakang yang kuat dalam alogaritma-alogaritma system cerdas, atau
matematika terapan, atau ekonomi, atau ilmu pengetahuan lainnya
2) Data Savvy Professionals : Mereka tau bagaimana untuk berfikir tentang
data, bagaimana mengajukan jenis pertanyaan yang tepat seauai dengan
kebutuhan lembaga/ perusahaan/ lainnya dan mampu memahami dan
mengklarifikasi jawaban yang mereka terima.
3) Technology and Data Enablers : mampu memberikan dukungan integrasi
antara data dengan teknologi yang sesuai, dan paling berkembang saat ini.
Berdasarkan dari ekostem big data yang begitu kompleks, maka hal yang
paling dapat dilakukan dalam membangun Ekosistem Hadop adalah
mengidentifikasi kegunaan dan bagiaman interaksi antara, atau masing-masing
Tool Big Data, serta apa saja yang nantinya akan digunakan dalam melakukan
pembuatan implementasi pada lingkungan Hadoop. Pada Ekosistem Hadoop yang
lebih kerarah “Industrial Best Practices” untuk diterapkan pada bidang apapun,
misal Kesehatan (Healthcare) bisa mengguanakan Hadoop Distribution (HD).
Berapa perusahaan yang membuat HD terbaik sebgai berikut :
1) Cloudera : didirikan oleh orang-orang yang berkontribusi di project
Hadoop di Apache, memiliki pangsa paling besar, membuat HD versi
gratis dan juga versi enterprise yang tidak gratis.
2) HOrtonWorks: didirikan orang-orang yang berkontribusi di project
Hadoop juga, diadopsi di Microsoft Azure dan menjadi Microsoft HD
Insight
3) MapR Technologies : seperti HortonWorks, memberikan gratis untuk versi
enterprisenya dan mendapat keuntungan dari support dan training.
Hadoop yang dari Apache memiliki kemiripan dengan Linux dari segi
komposisis, konfigurasi, dan distribusinya namun bukan hal fungsionalitas.
Hadoop Distribution adalah perusahaan yang membuat sebuah paket Hadoop siap
pakai dan menjaulnya, dari konfigurasi Hadoop standart dengan tool-tool Big
Data lain yang sesuai dengan desain kofigurasi komposisi yang menurut mereka
terbaik, yang didalamnya ada Ekosistem Hadoop dan juga Arsitektur.