Yelvi 220910015 MakalahEssential Ganjil

TUGAS MANDIRI
THE ESSENTIAL INFORMATION LITERARY

BIG DATA DAN DATA MINING
Nama : Yelvi
NPM : 220910015
Dosen Pengampu : Alfannisa Annurrullah
Fajrin, S.Kom., M.Kom
MANAJEMEN
FAKULTAS ILMU SOSIAL DAN HUMANIORA
UNIVERSITAS PUTERA BATAM
2023
KATA PENGANTAR
Puji syukur saya panjatkan kepada Tuhan Yang Maha Esa, atas berkat dan
rahmat-Nya sehingga saya dapat menyelesaikan makalah ini dengan baik.
Makalah ini merupakan salah satu tugas dari mata kuliah The Essential
Information Literary. Penulisan makalah ini bertujuan untuk memberikan
pemahaman dan pengetahuan kepada pembaca tentang “Big Data dan Data
Mining”.
Dalam penyusunan makalah ini, saya telah berusaha semaksimal mungkin

untuk mengumpulkan sumber-sumber yang valid dan up-to-date agar makalah
ini dapat memberikan manfaat yang sebesar-besarnya bagi pembaca. Namun
demikian, saya menyadari bahwa masih terdapat kekurangan dalam penyusunan
makalah ini. Oleh karena itu, saya dengan sangat terbuka menerima saran dan
kritik yang membangun demi terciptanya makalah yang lebih baik di kemudian
hari.
Semoga makalah ini dapat memberikan manfaat bagi pembaca, serta menjadi
salah satu sumbangan yang bermanfaat bagi perkembangan ilmu pengetahuan.
Yel
vi
220910015
DAFTAR ISI
KATA PENGANTAR.......................................................................................................0
BAB 1 PENDAHULUAN...................................................................................................0
1. Latar Belakang.......................................................................................................0
BAB 2 LANDASAN TEORI...............................................................................................0
1. Pengertian Data......................................................................................................0
2. Pengertian Informasi..............................................................................................0
3. Pengertian pengetahuan..........................................................................................0
4. Pengertian Keputusan.............................................................................................0
5. Pengertian Volume.................................................................................................0
6. Pengertian Distribusi (kecepatan)...........................................................................0
7. Pengertian ragam....................................................................................................0
8. Pengertian Big Data...............................................................................................0
9. Analitis dan gaya hidup..........................................................................................0
BAB 3 PEMBAHASAN......................................................................................................0
1. Big Data.................................................................................................................0
2. Dimensi -Dimensi Big Data...................................................................................0
3. Dimensi Ketidakpastian data..................................................................................0
4. Arsitektur Big Data................................................................................................0
5. Big Data for development......................................................................................0
6. Pengunaan Big Data dalam perusahaan..................................................................0
7. Membangun Big Data Platform.............................................................................0
8. Tantangan dalam pemanfaatan Big Data................................................................0
BAB I PENDAHULUAN...................................................................................................0
1. Latar Belakang.......................................................................................................0
BAB II PEMBAHASAN.....................................................................................................0
1. Pengertian dan definisi Data Mining......................................................................0
2. Fungsi dan Proses dari Data Mining.......................................................................0
3. Tujuan Data Mining dan Proses Data Mining........................................................0
4. Proses Data Mining................................................................................................0
5. Implementasi (Penerapan Data Mining).................................................................0
BAB 4 PENUTUP...............................................................................................................0
DAFTAR PUSTAKA.........................................................................................................0
DAFTAR GAMBAR
Gambar 3. 1..............................................................................................................0
Gambar 3. 2..............................................................................................................0
Gambar 3. 3..............................................................................................................0
Gambar 3. 4..............................................................................................................0
Gambar 3. 5..............................................................................................................0
Gambar 3. 6..............................................................................................................0
Gambar 3. 7..............................................................................................................0
Gambar 3. 8..............................................................................................................0
Gambar 3. 9..............................................................................................................0
BAB 1
PENDAHULUAN
1. Latar Belakang
Perkembangan jaman hingga saat ini sangat berdampak besar terhadap

kehidupan sekarang. Salah satu hal yang berubah adalah cara
menggunakan data. Hal tersebut sangat dipengaruhi oleh perkembangan
teknologi, karena dapat dilihat sekarang penggunaan tiap individu
terhadap data sudah sangat tinggi, hampir semua orang memiliki data
dalam setiap perangkatnya (komputer / laptop, smartphone, flashdisk,
harddisk eksternal, dll) yang jika dijumlahkan akan menjadi besar sekali.
Hal ini dipengaruhi juga dengan mudahnya tiap individu untuk
mendapatkan data yang diinginkannya (film, musik, games, dll) melalui
internet. Internet menghubungkan tiap individu di seluruh dunia dengan
mudah tanpa memperdulikan jarak / lokasi dan waktu. Sekarang dengan
terjadinya perkembangan teknologi, data menjadi hal yang penting dalam
menjalankan berbagai hal, beberapa diantaranya; mengetahui tren pasar,
mengetahui keinginan konsumen saat ini, meningkatkan hasil penjualan,
dll. Hasil perubahan ini sangatlah besar, data pun diolah dengan lebih
terkomputerisasi sehingga penyimpanan beberapa data dapat menghemat
tempat dalam kantor perusahaan dengan cara penyimpanan softcopy. Data
yang tersimpan ini lama kelamaan menjadi sangat banyak dan besar
sehingga semakin susah untuk digunakan, hal tersebut disebut big data.
Dengan perkembangan sekarang, big data ini sudah dapat diolah dan
digunakan lagi, bahkan memberikan hasil yang lebih baik karena
mencakup pengolahan data yang ada di dalam social media.
Dengan perkembangan data inilah big data muncul dan saat ini mulai
berkembang. Penggunaannya pun semakin luas, hingga mencakup social
media, sehingga dapat menganalisa tren pasar dengan melihat sentimen
analisis pelanggan melalui social media. Dengan perkembangan saat ini,
ada baiknya untuk memahami lebih dalam mengenai big data, sehingga
dapat dimanfaatkan dengan lebih maksimal.
BAB 2
LANDASAN TEORI
1. Pengertian Data
Data adalah Fakta yang bisa berupa angka, video dan lain sebagainya yang
tidak memiliki arti. Fungsi dari data ini adalah sebagai acuan untuk mengambil
keputusan dalam memecahkan suatu masalah karena dapat dijadikan pedoman
atau pelaksanaan suatu kegiatan.
2. Pengertian Informasi
Informasi Sedangkan yang dimaksud dengan informasi adalah sekumpulan
data yang telah diolah dan dikelola sehingga memiliki arti dan dapat bermanfaat
bagi penerimanya.
3. Pengertian pengetahuan
Pengetahuan Merupakan pemahaman tentang fakta atau kebenaran

informasi yang diperoleh melalui pembelajaran. Pengetahuan juga dikenal
sebagai keterampilan yang dimiliki seseorang terkait dengan data dan informasi
yang diketahui secara praktis
4. Pengertian Keputusan
Keputusan Merupakan suatu pengambilan keputusan yang berkaitan dengan
pilihan-pilihan berdasarkan penelusuran masalah sehingga dapat membentuk
suatu kesimpulan sehingga dapat mengambil keputusan.
5. Pengertian Volume
Volume (skala) dikatakan sebagai nilai karena big data mengacu pada
jumlah big data yang dihasilkan per detik. dapat diartikan sebagai kumpulan data
dalam jumlah dan volume yang sangat besar dan terkadang tidak terstruktur dan
dapat diambil contoh yaitu feed istagram.
5
6. Pengertian Distribusi (kecepatan)
Distribusi (kecepatan), yaitu untuk mengukur kecepatan yang masuk dalam
satuan jam, per detik dan lain-lain. Data dapat diakses dengan kecepatan yang
sangat cepat sehingga dapat langsung digunakan. Hal ini terlihat misalnya seperti
adanya sistem operasi online berbasis Microsoft Silverlight, aplikasi perkantoran
berbasis web seperti Office 365, cloud storage seperti Dropbox dan GDrive.
7. Pengertian ragam
Ragam adalah kumpulan berbagai data yang memiliki karakteristik
beragam dan tidak homogen tetapi memiliki banyak variabel dan sangat
beragam. Data tersebut adalah data terstruktur, semi terstruktur, dan tidak
terstruktur. Sementara itu, data yang tidak terstruktur membutuhkan algoritma
yang berbeda seperti gambar, suara, data teks dan video. Karena data semacam
ini membutuhkan lebih banyak waktu untuk memprosesnya.
8. Pengertian Big Data
Menurut (Eaton, Dirk, Tom, George, & Paul) Big Data merupakan istilah
yang berlaku untuk informasi yang tidak dapat diproses atau dianalisis
menggunakan alat tradisional.
Menurut (Dumbill, 2012) , Big Data adalah data yang melebihi proses
kapasitas dari kovensi sistem database yang ada. Data terlalu besar dan terlalu
cepat atau tidak sesuai dengan struktur arsitektur database yang ada. Untuk
mendapatkan nilai dari data, maka harus memilih jalan altenatif untuk
memprosesnya.
Berdasarkan pengertian para ahli di atas, dapat disimpulkan bahwa Big Data
adalah data yang memiliki volume besar sehingga tidak dapat diproses
menggunakan alat tradisional biasa dan harus menggunakan cara dan alat baru
untuk mendapatkan nilai dari data ini.
6
9. Analitis dan gaya hidup
Big Data Analysis adalah keseluruhan proses mengumpulkan, merapikan,
menganalisis sehingga dapat diperoleh informasi yang berharga untuk membantu
dalam pengambilan keputusan dalam suatu sistem.
Strategi yang digunakan untuk mengatasi masalah yang terkait dengan analitik
data adalah:
a) Teknologi Canggih (Advance Technology) Big Data

b) Peran Kunci Kunci Keberhasilan proyek analitik
c) Siklus Hidup Analisis Data
8
BAB 3
PEMBAHASAN
1. Big Data
Setiap hari, kita menciptakan 2,5 triliun byte data - begitu banyak bahwa
90% dari data di dunia saat ini telah dibuat dalam dua tahun terakhir saja. Data
ini berasal dari mana-mana, sensor digunakan untuk mengumpulkan informasi
iklim, posting ke situs media sosial, gambar digital dan video, catatan transaksi
pembelian, dan sinyal ponsel GPS untuk beberapa nama. Data ini adalah big
data.
Big Data mengacu pada dataset yang ukurannya diluar kemampuan dari
database software tools untuk meng-capture, menyimpan,me-manage dan
menganalisis. Definisi ini sengaja dibuat subjective agar mampu digabungkan
oleh definisi Big Data yang masi belum ada baku. Ukuran big data sekitar
beberapa lusin TeraByte sampai ke beberapa PetaByte tergantung jenis Industri
Isi dari Big Data adalah Transaksi+interaksi dan observasi atau bisa di bilang
segalanya yang berhubungan dengan jaringan internet, jaringan komunikasi, dan
jaringan satelit.
GAMBAR 3. 1
9
Big Data dapat juga didefinisikan sebagai sebuah masalah domain dimana

teknologi tradisional seperti relasional database tidak mampu lagi untuk
melayani.
Big data lebih dari hanya masalah ukuran, itu adalah kesempatan untuk
menemukan wawasan dalam jenis baru dan muncul data dan konten, untuk
membuat bisnis Anda lebih gesit, dan menjawab pertanyaan yang sebelumnya
dianggap di luar jangkauan Anda.
Big data dapat di artikan kedalam 9 karakter (IBM) menurut responden

sehingga disimpulkan oleh IBM, Big data adalah data yang memiliki scope
informasi yang sangat besar, model informasi yang real-time, memiliki volume
yang besar, dan berasalkan social media data jadi dapat disimpulkan bahwa Big
data adalah dataset yang memiliki volume besar dan salah satu isinya
berdasarkan social media data, dan informasi dari Big data selalu yang terbaru
(latestdata) sehingga model informasi nya real-time, dan scope informasi nya
tidak terfocus pada industri-indrustri kecil saja atau industri-indrustri besar saja
melainkan semuanya baik industry kecil maupun besar.
10
GAMBAR 3. 2
2. Dimensi -Dimensi Big Data
Ada 3 dimensi awal dalam Big Data yaitu 3V: Volume, Variety dan Velocity
GAMBAR 3. 3
a. Volume
perusahaan tertimbun dengan data yang terus tumbuh dari semua jenis
sektor, dengan mudah mengumpulkan terabyte bahkan petabyte-informasi.
1) Mengubah 12 terabyte Tweet dibuat setiap hari ke dalam peningkatan

sentimen analisis produk.
2) Mengkonvert 350 milliar pembacaan tahunan untuk lebih baik dalam
memprediksi kemampuan beli pasar.
Mungkin karakteristik ini yang paling mudah dimengerti karena besarnya

data. Volume juga mengacu pada jumlah massa data, bahwa organisasi berusaha
untuk memanfaatkan data untuk meningkatkan pengambilan keputusan yang
banyak perusahaan di banyak negara. Volume data juga terus meningkat dan
belum pernah terjadi sampai sethinggi ini sehingga tidak dapat diprediksi jumlah
11
pasti dan juga ukuran dari data sekitar lebih kecil dari petabyte sampai zetabyte.
Dataset big data sekitar 1 terabyte sampai 1 petabyte perperusahaan jadi jika big
data digabungkan dalam sebuah organisasi / group perusahaan ukurannya
mungkin bisa sampai zetabyte dan jika hari ini jumlah data sampai 1000
zetabyte, besok pasti akan lebih tinggi dari 1000 zetabyte.
b. Variety
Volume data yang banyak tersebut bertambah dengan kecepatan yang

begitu cepat sehingga sulit bagi kita untuk mengelola hal tersebut. Kadang-
kadang 2 menit sudah menjadi terlambat. Untuk proses dalam waktu sensitif
seperti penangkapan penipuan, data yang besar harus digunakan sebagai
aliran ke dalam perusahaan Anda untuk memaksimalkan nilainya.
1) Meneliti 5 juta transaksi yang dibuat setiap hari untuk mengidentifikasi
potensi penipuan
2) Menganalisis 500 juta detail catatan panggilan setiap hari secara real-time
untuk memprediksi gejolak pelanggan lebih cepat.
Berbagai jenis data dan sumber data. Variasi adalah tentang mengelolah
kompleksitas beberapa jenis data, termasuk structured data, unstructured data dan
semi-structured data. Organisasi perlu mengintegrasikan dan menganalisis data
dari array yang kompleks dari kedua sumber informasi Traditional dan non
traditional informasi, dari dalam dan luar perusahaan. Dengan begitu banyaknya
sensor, perangkat pintar (smart device) dan teknologi kolaborasi sosial, data yang
dihasilkan dalam bentuk yang tak terhitung jumlahnya, termasuk text, web data,
tweet, sensor data, audio, video, click stream, log file dan banyak lagi.
12
c. Velocity :
Big Data adalah setiap jenis data - data baik yang terstruktur maupun
tidak terstruktur seperti teks, data sensor, audio, video, klik stream, file log
dan banyak lagi. Wawasan baru ditemukan ketika menganalisis kedua jenis
data ini bersama-sama.
1) Memantau 100 video masukan langsung dari kamera pengintai untuk
menargetkan tempat tujuan.
2) Mengeksploitasi 80% perkembangan data dalam gambar, video, dan
dokumen untuk meningkatkan kepuasan pelanggan.
Data dalam gerak. Kecepatan di mana data dibuat, diolah dan dianalisis terus
menerus. Berkontribusi untuk kecepatan yang lebih tinggi adalah sifat penciptaan
data secara real-time, serta kebutuhan untuk memasukkan streaming data ke
dalam proses bisnis dan dalam pengambilan keputusan. Dampak Velocity
latency, jeda waktu antara saat data dibuat atau data yang ditangkap, dan ketika
itu juga dapat diakses. Hari ini, data terus-menerus dihasilkan pada kecepatan
yang mustahil untuk sistem tradisional untuk menangkap, menyimpan dan
menganalisis. Jenis tertentu dari data harus dianalisis secara real time untuk
menjadi nilai bagi bisnis.
13
3. Dimensi Ketidakpastian data
GAMBAR 3. 4
Dalam industri untuk meningkatan sebuah data lebih berkualitas dibutuhkan

dimensi ke empat yaitu Veracity, pencantuman Veracity dapat menekankan
pengelolahan dan penanganan untuk suatu ketidakpastian yang melekat dalam
beberapa jenis data.
Veracity
1 dari 3 pemimpin bisnis tidak mempercayai informasi yang mereka

gunakan untuk membuat keputusan. Bagaimana Anda dapat bertindak atas
informasi yang anda tidak percaya? Membangun kepercayaan atas big data
menghadirkan tantangan besar sebagai variasi dan sumber untuk pertumbuhan
perusahaan.
ketidakpastian data. Veracity mengacu pada tingkat keandalan yang terkait

dengan jenis tertentu dari data. Berjuang untuk kualitas data yang tinggi
merupakan syarat big data penting dan tantangan, tapi bahkan metode
pembersihan data yang terbaik tidak dapat menghapus ketidakpastian yang
melekat pada beberapa data, seperti cuaca, ekonomi, atau aktual keputusan
14
membeli pelanggan masa depan. Kebutuhan untuk mengakui dan merencanakan

ketidakpastian adalah dimensi data besar yang telah diperkenalkan sebagai
eksekutif berusaha untuk lebih memahami dunia di sekitar mereka.
Beberapa data tidak pasti, misalnya: sentimen dan kebenaran pada manusia,
sensor GPS memantul antara pencakar langit Manhattan, cuaca kondisi-kondisi,
faktor ekonomi, dan masa depan. Ketika berhadapan dengan jenis data, tidak
ada metode pembersihan data dapat memperbaiki untuk semua itu. Namun,
meski ketidakpastian, data masih mengandung informasi yang berharga.
Kebutuhan untuk mengakui dan menerima ketidakpastian ini merupakan ciri
dari data.Uncertainty besar memanifestasikan dirinya dalam data besar dalam
banyak cara. Sekarang dalam skeptisisme yang mengelilingi data yang dibuat
dalam lingkungan manusia seperti jaringan sosial, dalam ketidaktahuan
bagaimana masa depan akan terungkap dan bagaimana orang-orang, alam atau
kekuatan pasar yang tak terlihat akan bereaksi terhadap variabilitas dari dunia di
sekitar mereka.
Untuk mengelola ketidakpastian, analis perlu menciptakan konteks sekitar

data. Salah satu cara untuk mencapai ini adalah melalui data fusion, di mana
menggabungkan beberapa sumber yang kurang dapat diandalkan menciptakan
lebih akurat dan berguna point data, seperti komentar sosial ditambahkan ke
geospasial informasi lokasi. Cara lain untuk mengelola ketidakpastian adalah
melalui matematika canggih yang mencakup hal itu, seperti teknik optimasi
yang kuat dan pendekatan fuzzy logic. Manusia secara alami, tidak menyukai
ketidakpastian, tetapi hanya mengabaikannya dapat menciptakan lebih banyak
masalah daripada ketidakpastian itu sendiri. Dalam era big data, eksekutif akan
perlu pendekatan dimensi ketidakpastian berbeda. Mereka akan perlu untuk
mengakuinya, menerimanya dan menentukan.
15
4. Arsitektur Big Data
Traditional Information Architecture Capabilities
Untuk memahami level aspek arsitektur yang tinggi dari Big Data,
sebelumnya harus memahami arsitektur informasi logis untuk data yang
terstruktur. Pada gambar di bawah ini menunjukkan dua sumber data yang
menggunakan teknik integrasi (ETL / Change Data Capture) untuk mentransfer
data ke dalam DBMS data warehouse atau operational data store, lalu
menyediakan bermacam-macam variasi dari kemampuan analisis untuk
menampilkan data. Beberapa kemampuan analisis ini termasuk,; dashboards,
laporan, EPM/BI Applications, ringkasan dan query statistic, interpretasi
semantic untuk data tekstual, dan alat visualisasi untuk data yang padat.
Informasi utama dalam prinsip arsitektur ini termasuk cara memperlakukan data
sebagai asset melalui nilai, biaya, resiko, waktu, kualitas dan akurasi data.
GAMBAR 3. 5
d. Adding Big Data Capabilities
Mendefinisikan kemampuan memproses untuk big data architecture,

diperlukan beberapa hal yang perlu dilengkapi; volume, percepatan, variasi,
dan nilai yang menjadi tuntutan. Ada strategi teknologi yang berbeda untuk
real-time dan keperluan batch processing. Untuk real-time, menyimpan data
nilai kunci, seperti NoSQL, memungkinkan untuk performa tinggi, dan
pengambilan data berdasarkan indeks. Untuk batch processing, digunakan
teknik yang dikenal sebagai Map Reduce, memfilter data berdasarkan pada
data yang spesifik pada strategi penemuan. Setelah data yang difilter
ditemukan, maka akan dianalisis secara langsung, dimasukkan ke dalam
16
unstructured database yang lain, dikirimkan ke dalam perangkat mobile atau

digabungkan ke dalam lingkungan data warehouse tradisional dan berkolerasi
pada data terstruktur.
GAMBAR 3. 6
Sebagai tambahan untuk unstructured data yang baru, ada dua kunci
perbedaan untuk big data. Pertama, karena ukuran dari data set, raw data
tidak dapat secara langsung dipindahkan ke dalam suatu data warehouse.
Namun, setelah proses Map Reduce ada kemungkinan akan terjadi reduksi
hasil dalam lingkungan data warehouse sehingga dapat memanfaatkan
pelaporan business intelligence, statistik, semantik, dan kemampuan korelasi
yang biasa. Akan sangat ideal untuk memiliki kemampuan analitik yang
mengkombinasikan perangkat BI bersamaan dengan visualisasi big data dan
kemampuan query. Kedua, untuk memfasilitasi analisis dalam laingkungan
Hadoop, lingkungan sandbox dapat dibuat.
Untuk beberapa kasus, big data perlu mendapatkan data yang terus
berubah dan tidak dapat diperkirakan, untuk menganilisis data tersebut,
dibutuhkan arsitektur yang baru. Dalam perusahaan retail, contoh yang bagus
adalah dengan menangkap jalur lalu lintas secara real-time dengan maksud
untuk memasang iklan atau promosi toko di tempat strategis yang dilewati
banyak orang, mengecek peletakan barang dan promosi, mengamati secara
langsung pergerakan dan tingkah laku pelanggan.
Dalam kasus lain, suatu analisis tidak dapat diselesaikan sampai

dihubungkan dengan data perusahaan dan data terstruktur lainnya. Sebagai
contohnya, analisis perasaan pelanggan, mendapatkan respon positif atau
negatif dari social media akan memiliki suatu nilai, tetapi dengan
mengasosiasikannya dengan segala macam pelanggan (paling
17
menguntungkan atau bahkan yang paling tidak menguntungkan) akan

memberikan nilai yang lebih berharga. Jadi, untuk memenuhi kebutuhan
yang diperlukan oleh big data BI adalah konteks dan pemahaman.
Menggunakan kekuatan peralatan statistikal dan semantik akan sangat
memungkinkan untuk dapat memprediksikan kemungkinan – kemungkinan
di masa depan.
e. An Integrated Information Architecture
Salah satu tantangan yang diteliti dalam pemakaian Hadoop dalam

perusahaan adalah kurangnya integrasi dengan ekosistem BI yang ada. Saat
ini BI tradisional dan ekosistem big data terpisah dan menyebabkan analis
data terintegrasi mengalami kebingungan. Sebagai hasilnya, hal ini tidaklah
siap untuk digunakan oleh pengguna bisnis dan eksekutif biasa.
Pengguna big data yang pertama kali mencoba menggunakan, seringkali

menulis kode khusus untuk memindahkan hasil big data yang telah diproses
kembali ke dalam database untuk dibuat laporan dan dianalisa. Pilihan –
pilihan ini mungkin tidak layak dan ekonomis untuk perusahaan IT. Pertama,
karena menyebabkan penyebaran salah satu data dan standar yang berbeda,
sehingga arsitekturnya mempengaruhi ekonomi IT. Big data dilakukan secara
independen untuk menjalankan resiko investasi yang redundan, sebagai
tambahannya, banyak bisnis yang sama sekali tidak memiliki staff dan
ketrampilan yang dibutuhkan untuk pengembangan pekerjaan yang khusus.
Pilihan yang paling tepat adalah menggabungkan hasil big data ke dalam data
warehouse. Kekuatan informasi ada dalam kemampuan untuk asosiasi dan
korelasi. Maka yang dibutuhkan adalah kemampuan untuk membawa sumber
data yang berbeda-beda, memproses kebutuhan bersama – sama secara tepat
waktu dan analisis yang berharga.
18
GAMBAR 3. 7
Ketika bermacam – macam data telah didapatkan, data tersebut dapat

disimpan dan diproses ke dalam DBMS tradisional, simple files, atau sistem
cluster terdistribusi seperti NoSQL dan Hadoop Distributed File System (HDFS).
Secara arsitektur, komponen kritikal yang memecah bagian tersebut adalah

layer integrasi yang ada di tengah. Layer integrasi ini perlu untuk diperluas ke
seluruh tipe data dan domain, dan menjadi jembatan antara data penerimaan yang
baru dan tradisional, dan pengolahan kerangka. Kapabilitas integrasi data perlu
untuk menutupi keseluruhan spektrum dari kecepatan dan frekuensi. Hal tersebut
diperlukan untuk menangani kebutuhan ekstrim dan volume yang terus
bertambah banyak. Oleh karena itu diperlukan teknologi yang memungkinkan
untuk mengintegrasikan Hadoop / Map Reduce dengan data warehouse dan data
transaksi.
Layer berikutnya digunakan untuk Load hasil reduksi dari big data ke
dalam data warehouse untuk analisis lebih lanjut. Diperlukan juga kemampuan
untuk mengakses data terstruktur seperti informasi profil pelanggan ketika
memproses dalam big data untuk mendapatkan pola seperti mendeteksi aktivitas
yang mencurigakan.
Hasil pemrosesan data akan dimasukkan ke dalam ODS tradisional, data

warehouse, dan data marts untuk analisis lebih lanjut seperti data transaksi.
19
Komponen tambahan dalam layer ini adalah Complex Event Processing untuk
menganalisa arus data secara real-time. Layer business intelligence akan
dilengkapi dengan analisis lanjutan, dalam analisis database statistik, dan
visualisasi lanjutan, diterapkan dalam komponen tradisional seperti laporan,
dashboards, dan query. Pemerintahan, keamanan, dan pengelolaan operasional
juga mencakup seluruh spektrum data dan lanskap informasi pada tingkat
enterprise.
Dengan arsitektur ini, pengguna bisnis tidak melihat suatu pemisah, bahkan
tidak sadar akan perbedaan antara data transaksi tradisional dan big data. Data
dan arus analisis akan terasa mulus tanpa halangan ketika dihadapkan pada
bermacam – macam data dan set informasi, hipotesis, pola analisis, dan membuat
keputusan.
5. Big Data for development
Big Data untuk keperluan development berkaitan dengan, tetapi berbeda dari,
'tradisional Data pembangunan '(misalnya data survei, statistik resmi), dan sektor
swasta dan media mainstream menyebutnya 'Big Data’.
Big Data untuk sumber Pengembangan umumnya memiliki beberapa / semua

fitur ini:
a). Digitally generated
Data yang dihasilkan secara digital (sebagai lawan yang didigitalkan

manual), dan dapat disimpan dengan menggunakan rangkaian satu dan nol,
dan dengan demikian dapat dimanipulasi oleh komputer
b). Passively produced
Data ini merupakan data yang dihasilkan atau produk dari kehidupan kita
sehari-hari atau interaksi dengan jasa digital.
c). Automatically collected
Data-data yang terbentuk dari data-data operasional dan transaksi yang

dikumpulkan dan telah diproses (ETL) dan si simpan kedalam data mart
20
21
d). Geographically or temporally trackable
Data –data yang menunjukan lokasi atau posisi, misalnya data lokasi
ponsel atau durasi waktu panggilan
e). Continuously analysed
informasi yang relevan dengan kesejahteraan manusia dan pembangunan

dan dapat dianalisis secara real-time
6. Pengunaan Big Data dalam perusahaan

a) IT logs Analytics
Penyimpanan Log jangka panjang, digunakan untuk analisa proses sistem

yang sedang berjalan untuk mencegah dan menaggulangi kegagalan dalam
sistem, mengunakan hasil analisa log untuk menemukan dan mentukan
secara pasti kegagalan apa yang terjadi didalam sistem, menyiapkan langkah-
langkah pasti yang dapat digunakan sebagai solusi masalah sistem.
b) Fraud Detection Pattern

Banyak digunakan dalam Bidang keuangan atau dimana saja transaksi
finasial terlibat, Memaksimalkan pengunaan data-data yang ada untuk
memberikan kemampuan unutk mendeteksi fraud ketika transaksi sedang
berlangsung
c) The Social Media Pattern

Pengunaan Big data untuk analisa media social dan sentiment pelangan,
memberikan kemampuan bagi perusahan untuk mengetahui keinginan
customer secara luas, mendapatkan feedback secara langsung, dan mengenali
langsung dampak sentimen terhadap penjualan, serta efektivitas dan
penerimaan pelangan terhadap pemasaran yang dilakukan.
22
d) The Call centere Mantra

Penyimpanan hasil perbincangan atau laporan customer dalam bentuk
text yang kemudian digunakan sebagai data untuk analisa masalah yang
dihadapai customer, memberikan kemampuan bagi perusahaan untuk
memberikan tanggapan yang cepat maupun secara langsung terhadap
masalah yang dihadapi customer, serta kemampuan unutk mendeteksi
penurunan loyalitas customer dikarenakan masalah dan ketidakpuasaan.
e) Risk: Patterns for Modeling and Management

Memberikan kempuaan pengunaan data secara penuh dan analisis dalam
pemodelan resiko dan menejemen resiko untuk memberikan pengetahuan
akan resiko dan penanggulangannya secara tepat dan langsung
f) Big data and The Energy Sector
Memberikan kemampuan penyimpanan dan pemrosesan data secara

langsung dari berbagai sumber(sensor), analisa dan kemudahan dalam
pengenalan noise untuk memisahkannya dari signal.
7. Membangun Big Data Platform
Seperti data pergudangan, toko web atau platform TI, infrastruktur untuk data
yang besar memiliki kebutuhan yang unik. Dalam mempertimbangkan semua
komponen platform data yang besar, penting untuk diingat bahwa tujuan akhir
adalah untuk dengan mudah mengintegrasikan data yang besar dengan data
perusahaan Anda untuk memungkinkan Anda untuk melakukan analisis
mendalam pada set data gabungan.
23
Infrastructure Requirements
Requirement dalam big data infrastruktur:
a. data acquisition,
b. data organization
c. data analysis
1) Data acquisition
Tahap akuisisi adalah salah satu perubahan besar dalam infrastruktur

pada hari-hari sebelum big data. Karena big data mengacu pada aliran data
dengan kecepatan yang lebih tinggi dan ragam yang bervariasi, infrastruktur
yang diperlukan untuk mendukung akuisisi data yang besar harus
disampaikan secara perlahan, dapat diprediksi baik di dalam menangkap data
dan dalam memprosesnya secara cepat dan sederhana, dapat menangani
volume transaksi yang sangat tinggi , sering dalam lingkungan terdistribusi,
dan dukungan yang fleksibel, struktur data dinamis.
Database NoSQL sering digunakan untuk mengambil dan menyimpan big

data. Mereka cocok untuk struktur data dinamis dan sangat terukur. Data
yang disimpan dalam database NoSQL biasanya dari berbagai variasi/ragam
karena sistem dimaksudkan untuk hanya menangkap semua data tanpa
mengelompokkan dan parsing data.
Sebagai contoh, database NoSQL sering digunakan untuk mengumpulkan

dan menyimpan data media sosial. Ketika aplikasi yang digunakan pelanggan
sering berubah, struktur penyimpanan dibuat tetap sederhana. Alih-alih
merancang skema dengan hubungan antar entitas, struktur sederhana sering
hanya berisi kunci utama untuk mengidentifikasi titik data, dan kemudian
wadah konten memegang data yang relevan. Struktur sederhana dan dinamis
ini memungkinkan perubahan berlangsung tanpa reorganisasi pada lapisan
penyimpanan.
2) Data Organization
Dalam istilah Data pergudangan klasik, pengorganisasian data disebut

integrasi data. Karena ada volume/jumlah data yang sangat besar, ada
24
kecenderungan untuk mengatur data pada lokasi penyimpanan aslinya,

sehingga menghemat waktu dan uang dengan tidak memindah-midahkan data
dengen volume yang besar. Infrastruktur yang diperlukan untuk mengatur
data yang besar harus mampu mengolah dan memanipulasi data di lokasi
penyimpanan asli. Biasanya diproses didalam batch untuk memproses data
yang besar, beragam format, dari tidak terstruktur menjadi terstruktur.
Apache Hadoop adalah sebuah teknologi baru yang memungkinkan

volume data yang besar untuk diatur dan diproses sambil menjaga data pada
cluster penyimpanan data asli. Hadoop Distributed File System (HDFS)
adalah sistem penyimpanan jangka panjang untuk log web misalnya. Log
web ini berubah menjadi perilaku browsing dengan menjalankan program
MapReduce di cluster dan menghasilkan hasil yang dikumpulkan di dalam
cluster yang sama. Hasil ini dikumpulkan kemudian dimuat ke dalam sistem
DBMS relasional.
3) Data Analysis
Karena data tidak selalu bergerak selama fase organisasi, analisis ini
juga dapat dilakukan dalam lingkungan terdistribusi, di mana beberapa data
akan tinggal di mana data itu awalnya disimpan dan diakses secara transparan
dari sebuah data warehouse. Infrastruktur yang diperlukan untuk
menganalisis data yang besar harus mampu mendukung analisis yang lebih
dalam seperti analisis statistik dan data mining, pada data dengan jenis yang
beragam dan disimpan dalam sistem yang terpisah, memberikan waktu
respon lebih cepat didorong oleh perubahan perilaku; dan mengotomatisasi
keputusan berdasarkan model analitis. Yang paling penting, infrastruktur
harus mampu mengintegrasikan analisis pada kombinasi data yang besar dan
data perusahaan tradisional. Wawasan baru datang bukan hanya dari analisis
data baru, tapi dari menganalisisnya dalam konteks yang lama untuk
memberikan perspektif baru tentang masalah lama.
Misalnya, menganalisis data persediaan dari mesin penjual otomatis cerdas

dalam kombinasi dengan acara kalender untuk tempat di mana mesin penjual
otomatis berada, akan menentukan kombinasi produk yang optimal dan
jadwal pengisian untuk mesin penjual otomatis.
25
8. Tantangan dalam pemanfaatan Big Data
Dalam usaha pemanfaatan Big Data dapat terdapat banyak hambatan dan
tantangan, beberapa hal diantaranya berhubungan dengan data dimana
melibatkan acquisition, sharing dan privasi data, serta dalam analisis dan
pengolahan data
a. Privasi
Privasi merupakan isu yang paling sensitif, dengan konseptual,

hukum, dan teknologi, Privasi dapat dipahami dalam arti luas sebagai usaha
perusahaan untuk melindungi daya saing dan konsumen mereka. Data-data
yang digunakan / disimpan sebagai big data
b. Access dan sharing
Akses terhadap data, baik data lama maupun data baru dapat menjadi
hambatan dalam mendapatkan data untuk big data, terlebih pada data lama
dimana data- data tersimpan dalam bentuk – bentuk yang berbeda-beda dan
beragam ataupun dalam bentuk fisik, akses terhadap data baru juga
membutuhkan usaha yang lebih kerana diperlukannya izin dan lisensi untuk
mengakses data-data non-public secara legal.
c. Analisis
Bekerja dengan sumber data baru membawa sejumlah tantangan

analitis. relevansi dan tingkat keparahan tantangan akan bervariasi
tergantung pada jenis analisis sedang dilakukan, dan pada jenis keputusan
yang akhirnya akan bisa diinformasikan oleh data.
Tergantung dari jenis data terdapat 3 kategori dalam analisis data
1) Penentuan gambaran yang benar

Masalah ini biasanya ditemukan dalam penanganan unstructured
user-generated text-based data dimana data yang didapatkan belum tentu
benar karena data atau sumber yang salah.
26
2) Interpreting Data
Kesalahan –kesalahan seperti Sampling selection bias merupakan hal
yang sering ditemukan dimana data yang ada tidak dapat digunakan untuk
mepresentasikan semua populasi yang ada, dan apophenia, melihat adanya
pola walaupun tidak benar-benar ada dikarenakan jumlah data yang besar,
dan kesalahan dalam menginterpreasikan hubungan dalam data.
3) Defining and detecting anomalies

Tantangan sensitivitas terhadap spesifisitas pemantauansistem.
Sensitivitas mengacu pada kemampuan sistem pemantauan untuk
mendeteksi semua kasus sudah diatur untuk mendeteksi sementara
spesifisitas mengacu pada kemampuannya untuk mendeteksi hanya kasus-
kasus yang relevan. kegagalan untukmencapai hasil yang terakhir "Tipe I
kesalahan keputusan", juga dikenal sebagai "positif palsu"; kegagalanuntuk
mencapai mantan "Type II error", atau "negatif palsu." Kedua kesalahan
yang tidak diinginkan ketika mencoba untuk mendeteksi malfungsi atau
anomali, bagaimanapun didefinisikan, untuk berbagai alasan. Positif palsu
merusak kredibilitas sistem sementara negatif palsu dilemparkan ragu pada
relevansinya. Tapi apakah negatif palsu lebih atau kurang bermasalah
daripada positif palsu tergantung pada apa yang sedang dipantau, dan
mengapa itu sedang dipantau.
27
BAB 1
PENDAHULUAN
1. Latar Belakang
Penyimpanan dokumen secara digital berkembang dengan pesat seiring
meningkatnya penggunaan komputer. Kondisi tersebut memunculkan masalah
untuk mengakses informasi yang diinginkan secara akurat dan cepat. Oleh karena
itu, walaupun sebagian besar dokumen digital tersimpan dalam bentuk teks dan
berbagai algoritma yang efisien untuk pencarian teks telah dikembangkan, teknik
pencarian terhadap seluruh isi dokumen yang tersimpan bukanlah solusi yang
tepat mengingat pertumbuhan ukuran data yang tersimpan umumnya. Pencarian
informasi (Information Retrieval) adalah salah satu cabang ilmu yang menangani
masalah ini yang bertujuan untuk membantu pengguna dalam menemukan
informasi yang relevan dengan kebutuhan mereka dalam waktu singkat.
Aplikasi pencarian informasi yang telah ada salah satunya adalah web
mining untuk pencarian berdasarkan kata kunci dengan teknik clustering. Selain
itu, pada dokumen dilakukan juga text mining dan perhitungan jumlah kata, dari
jumlah kata tersebut dilakukan pengklusteran dengan metode CLHM (Centroid
Linkage Hierarchical Method). Untuk jumlah klusternya, pemakai tidak
mengetahui berapa jumlah yang tepat untuk mengklusterkan dokumen-dokumen
tersebut. Untuk itu, dipakailah metode Hill Climbing yang bertugas untuk
melakukan identifikasi terhadap pergerakan varian dari tiap tahap pembentukan
kluster dan menganalisa polanya sehingga jumlah kluster akan terbentuk secara
otomatis.
Penggunaan text mining, pengklusteran dengan CLHM dan proses Hill
Climbing Automatic Clustering sangat memudahkan pemakai karena
menghasilkan kluster secara otomatis dan tepat dengan waktu yang cepat.
28
BAB 2
PEMBAHASAN
1. Pengertian dan definisi Data Mining
Data mining adalah aktivitas yang memanfaatkan statistik, matematika,

kecerdasan buatan, dan pembelajaran mesin dengan tujuan untuk mengekstrak
dan mengidentifikasi informasi sehingga menghasilkan pengetahuan yang
berguna terkait dengan basis data yang besar.
Keluaran dari data mining bisa dipakai untuk memperbaiki pengambilan

keputusan dimasa depan (Budi Santosa, 2007)
Data mining adalah sebuah proses percarian secara otomatis informasi yang
berguna dalam tempat penyimpanan data berukuran besar. Istilah lain yang
sering digunakan diantaranya knowledge discovery (mining) in databases
(KDD), knowledge extraction, data/pattern analysis, data archeology, data
dredging, information harvesting, dan business intelligence. Teknik data mining
digunakan untuk memeriksa basis data berukuran besar sebagai cara untuk
menemukan pola yang baru dan berguna. Tidak semua pekerjaan pencarian
informasi dinyatakan sebagai data mining. Sebagai contoh, pencarian record
individual menggunakan database management system atau pencarian halaman
we tertentu melalui kueri ke semua search engine adalah pekerjaan pencarian
informasi yang erat kaitannya dengan information retrieval. Teknik-teknik data
mining dapat digunakan untuk meningkatkan kemampuan sistem-sistem
information retrieval.
29
GAMBAR 3. 8
Data input dapat disimpan dalam berbagai format seperti flat

file,spreadsheet, atau tabel-tabel relasional, dan dapat menempati tempat
penyimpanan data terpusat atau terdistribusi pada banyak tempat. Tujuan dari
preprocessing adalah mentransformasikan data input mentah ke dalam format
yang sesuai untuk analisis selanjutnya. Langkah-langkah yang terlibat dalam
preprocessing data meliputi mengabungkan data dari berbagai sumber,
membersihkan (cleaning) data untuk membuang noise dan observasi duplikat,
dan menyeleksirecord dan fitur yang relevan untuk pekerjaandata mining.
Karena terdapat banyak cara mengumpulkan dan menyimpan data, tahapan
preprocessing data merupakan langkat yang banyak menghabiskan waktu dalam
KDD.
Hasil dari data mining sering kali diintegrasikan dengan decision support
system (DSS). Sebagai contoh, dalam aplikasi bisnis informasi yang dihasilkan
olehdata mining dapat diintegrasikan dengan tool manajemen kampanye produk
sehingga promosi pemasaran yang efektif yang dilaksanakan dan dapat diuji.
Integrasi demikian memerlukan langkah postprocessing yang menjamin bahwa
hanya hasil yang valid dan berguna yang akan digabungkan dengan DSS. Salah
satu pekerjaan dan postprocessing adalah visualisasi yang memungkinkan
analyst untuk mengeksplor data dan hasil data mining dari berbagai sudur
pandang. Ukuran-ukuran statistik dan metode pengujian hipotesis dapat
digunakan selama postprocessing untuk membuang hasil data mining yang
palsu.
Secara khusus,data mining menggunakan ide-ide seperti (1) pengambilan

contoh, estimasi, dan pengujian hipotesis, dari statistika dan (2) algoritme
pencarian, teknik pemodelan, dan teori pembelajaran dari kecerdasan buatan,
pengenalan pola, dan machine learning. Data mining juga telah mengadopsi
ide-ide dari area lain meliputi optimisasi, evolutionary computing, teori
informasi, pemrosesan sinyal, visualisasi dan information retrieval. Sejumlah
area lain juga memberikan peran pendukung dalam data mining, seperti sistem
basis data yang dibutuhkan untuk menyediakan tempat penyimpanan yang
30
efisien, indexing dan pemrosesan kueri. Gambar 1.2 menunjukkan hubungan

data mining dengan area-area lain.
GAMBAR 3. 9
Data mining merupakan proses pencarian pengetahuan yang menarik

daridata berukuran besar yang disimpan dalam basis data, data warehouse atau
tempat penyimpanan informasi lainnya. Dengan demikian arsitektur system data
mining memiliki komponen-komponen utama yaitu:
a. Basis data,data warehouse atau tempat penyimpanan informasi lainnya.

b. Basis data dan data warehouse server. Komponen ini bertanggung jawab
dalam pengambilan relevant data, berdasarkan permintaan pengguna.
c. Basis pengetahuan. Komponen ini merupakan domain knowledge
yangdigunakan untuk memandu pencarian atau mengevaluasi pola-pola
yangdihasilkan. Pengetahuan tersebut meliputi hirarki konsep yang
digunakanuntuk mengorganisasikan atribut atau nilai atribut ke dalam level
abstraksiyang berbeda. Pengetahuan tersebut juga dapat berupa kepercayaan
pengguna(user belief), yang dapat digunakan untuk menentukan
kemenarikan pola yangdiperoleh. Contoh lain dari domain knowledge
adalah threshold dan metadatayang menjelaskan data dari berbagai sumber
yang heterogen.
d. Data mining engine. Bagian ini merupakan komponen penting
dalamarsitektur sistemdata mining. Komponen ini terdiri modul-modul
31
fungsionaldata mining seperti karakterisasi, asosiasi, klasifikasi, dan analisis

cluster.
e. Modul evaluasi pola. Komponen ini menggunakan ukuran-
ukurankemenarikan dan berinteraksi dengan moduldata mining dalam
pencarian pola.
32
f. pola menarik. Modul evaluasi pola dapat menggunakan

thresholdkemenaikan untuk mem-filter pola-pola yang diperoleh.
g. Antarmuka pengguna grafis. Modul ini berkomunikasi dengan pengguna
dansistemdata mining. Melalui modul ini, pengguna berinteraksi dengan
sistemmengan menentukan kueri atau taskdata mining. Antarmuka juga
menyediakan informasi untuk memfokuskan pencarian dan
melakukaneksplorasi data mining berdasarkan hasil data mining antara.
Komponen ini juga memungkinkan pengguna untuk mencari (browse) basis
data dan skema data warehouse atau struktur data, evaluasi pola yang
diperoleh danvisualisasi pola dalam berbagai bentuk.
2. Fungsi dan Proses dari Data Mining

a. Fungsi Data mining
Data Mining mengidentifikasi fakta-fakta atau kesimpulan-kesimpulan

yang di sarankan berdasarkan penyaringan melalui data untuk menjelajahi
pola-pola atau anomali-anomali data. Data Mining mempunyai 5 fungsi:
1) Classification
Classification, yaitu proses penemuan model atau fungsi yang

menjelaskan atau membedakan konsep atau kelas data, dengan tujuan
untuk dapat memperkirakan kelas dari suatu objek yang labelnya tidak
diketahui atau menyimpulkan definisi-definisi karakteristik sebuah grup.
Contoh: pelanggan-pelanggan perusahaan yang telah berpindah
kesaingan perusahaan yang lain.
2) Clustering
Clustering termasuk metode yang sudah cukup dikenal dan banyak

dipakai dalam data mining. Sampai sekarang para ilmuwan dalam bidang
data inining masih melakukan berbagai usaha untuk melakukan
perbaikan model clustering karena metode yang dikembangkan sekarang
masih bersifat heuristic. Usaha-usaha untuk menghitung jumlah cluster
yang optimal dan pengklasteran yang paling baik masih terus dilakukan.
Denga demikian menggunakan metode yang sekarang, tidak bisa
33
menjamin hasil pengklasteran sudah merupakan hasil yang optimal.

Namun, hasil yang dicapai biasanya sudah cukup bagus dari segi praktis.
Clustering, yaitu mengindentifikasikan kelompok-kelompok dari barang-

barang atau produk-produk yang mempunyai karakteristik
khusus(clustering berbeda dengan classification, dimana pada clustering
tidak terdapat definisi-definisi karakteristik awak yang di berikan pada
waktu classification.)
3) Association
Association, yaitu mengidentifikasikan hubungan antara kejadian-

kejadian yang terjadi pada suatu waktu, seperti isi-isi dari keranjang
belanja.
4) Sequencing
Hampir sama dengan association, sequencing mengidentifikasikan

hubungan-hubungan yang berbeda pada suatu periode waktu tertentu,
seperti pelanggan-pelanggan yang mengunjungi supermarket secara
berulang-ulang.
5) Forecasting
Forecasting memperkirakan nilai pada masa yang akan datang

berdasarkan pola-pola dengan sekumpulan data yang besar, seperti
peramalan permintaan pasar.
6) Regretion
adalah proses pemetaam data dalam suatu nilai prediksi

34
7) Solution
adalah proses penemuan akar masalah dan problem solving dari persoalan
bisnis yang dihadapi atau paling tidak sebagai informasi pendukung
dalam pengambilan keputusan.
3. Tujuan Data Mining dan Proses Data Mining

a. Tujuan Data Mining
1) Explanatory
Untuk menjelaskan beberapa kondisi penelitian, seperti mengapa

penjualan truk pick up meningkat di colorado.
2) Confirmatory
Untuk mempertegas hipotesis, seperti halnya 2 kali pendapatan keluarga

lebih suka di pakai untuk membeli peralatan keluarga, di bandingkan
dengan satu kali pendapatan keluarga.
3) Exploratory
Menganalisis data untuk hubungan yang baru yang tidak di harapkan,

seperti halnya pola apa yang cocok untuk kasus penggelapan kartu
kredit.
4. Proses Data Mining
Data mining sesunggunghnya merupakan salah satu rangkaian dari proses

pencarian pengetahuan pada database (Knowledge Discovery in
Database/KDD). KDD berhubungan dengan teknik integrasi dan penemuan
ilmiah, interprestasi dan visualisasi dari pola-pola sejumlah kumpulan data.
KDD adalah keseluruhan proses non-trivial untuk mencari dan mengidentifikasi
pola (pattern) dalam data, dimana pola yang ditemukan bersifat sah, baru, dapat
bermanfaat dan dapat dimengerti. Serangkaian proses tersebut yang memiliki
tahap sebagai berikut (Tan, 2004):
35
a. Pembersihan data dan integrasi data (cleaning and integration)
Proses ini digunakan untuk membuang data yang tidak konsisten dan
bersifat noise dari data yang terdapat di berbagai basisdata yang mungkin
berbeda format maupun platform yang kemudian diintegrasikan dalam satu
database datawarehouse.
Pembersihan data merupakan proses menghilangkan noise dan data yang

tidak relevan. Pada umumnya data yang diperoleh, baik dari database
memiliki isian-isian yang tidak sempurna seperti data yang hilang, data yang
tidak valid atau juga hanya sekedar salah ketik.Datadata yang tidak relevan
itu juga lebih baik dibuang. Pembersihan data juga akan mempengaruhi
performasi dari teknik data mining karena data yang ditangani akan
berkurang jumlah dan kompleksitasnya.
Integrasi data merupakan penggabungan data dari berbagai database ke

dalam satu database baru.Integrasi data perlu dilakukan secara cermat
karena kesalahan pada integrasi data bisa menghasilkan hasil yang
menyimpang dan bahkan menyesatkan pengambilan aksi nantinya. Sebagai
contoh bila integrasi data berdasarkan jenis produk ternyata menggabungkan
produk dari kategori yang berbeda maka akan didapatkan korelasi antar
produk yang sebenarnya tidak ada.
b. Seleksi dan transformasi data (selection and transformation)
Data yang terdapat dalam database datawarehouse kemudian direduksi

dengan berbagai teknik. Proses reduksi diperlukan untuk mendapatkan hasil
yang lebih akurat dan mengurangi waktu komputasi terutama utuk masalah
dengan skala besar (large scale problem). Beberapa cara seleksi, antra lain:
1) Sampling, adalah seleksi subset representatif dari populasi data yang

besar.
2) Denoising, adalah proses menghilangkan noise dari data yang akan
ditransformasikan
3) Feature extraction, adalah proses membuka spesifikasi data yang
signifikan dalam konteks tertentu.
36
Transformasi data diperlukan sebagai tahap pre-procecing, dimana data

yang diolah siap untuk ditambang. Beberapa cara transformsi, antara lain
(Santosa, 2007):
4) Centering, mengurangi setiap data dengan rata-rata dari setiap atribut
yang ada. • Normalisation, membagi setiap data yang dicentering
dengan standar deviasi dari atribut bersangkutan.
5) Scaling, mengubah data sehingga berada dalam skala tertentu.
GAMBAR 3. 10
c. Penambangan data (data mining)
Data-data yang telah diseleksi dan ditransformasi ditambang dengan

berbagai teknik. Proses data mining adalah proses mencari pola atau
informasi menarik dalam data terpilih dengan menggunakan fungsi-fungsi
tertentu. Fungsi atau algoritma dalam data mining sangat bervariasi.
Pemilihan fungsi atau algoritma yang tepat sangat bergantung pada tujuan
dan proses pencaraian pengetahuan secara keseluruhan.
d. Evaluasi pola dan presentasi pengetahuan
Tahap ini merupakan bagian dari proses pencarian pengetahuan yang

mencakup pemeriksaan apakah pola atau informasi yang ditemukan
bertentangan dengan fakta atau hipotesa yang ada sebelumnya. Langkah
37
terakhir KDD adalah mempresentasikan pengetahuan dalam bentuk yang

mudah dipahami oleh pengguna.
Untuk mengidentifikasi pola-pola menarik kedalam knowledge based yang

ditemukan. Dalam tahap ini hasilnya berupa pola-pola yang khas maupun
model prediksi dievaluasi untuk menilai apakah hipotesa yang ada memang
tercapai.
e. Presentasi pengetahuan (knowledge presentation)
Merupakan visualisasi dan penyajian pengetahuan mengenai metode yang

digunakan untuk memperoleh pengetahuan yang diperoleh pengguna.Tahap
terakhir adalah bagaimana memformulasikan keputusan atau aksi dari hasil
analisis yang didapat.Karenanya presentasi dalam bentuk pengetahuan yang
bisa dipahami semua orang adalah satu tahapan yang diperlukan.Dalam
presentasi ini, visualisasi juga bisa membantu mengkomunikasikan hasil
data mining (Han, 2006).
5. Implementasi (Penerapan Data Mining)
Berikut beberapa contoh bidang penerapan data mining:
a. Analisa pasar dan manajemen.
Solusi yang dapat diselesaikan dengan data mining, diantaranya: Menembak

target pasar, Melihat pola beli pemakai dari waktu ke waktu, Cross-Market
analysis, Profil Customer, Identifikasi kebutuhan Customer, Menilai
loyalitas Customer, Informasi Summary.
b. Analisa Perusahaan dan Manajemen resiko.
Solusi yang dapat diselesaikan dengan data mining, diantaranya:

Perencanaan keuangan dan Evaluasi aset, Perencanaan sumber daya
(Resource Planning), Persaingan (Competition).
c. Telekomunikasi.
Sebuah perusahaan telekomunikasi menerapkan data mining untuk melihat

dari jutaan transaksi yang masuk, transaksi mana sajakah yang masih harus
ditangani secara manual.
38
d. Keuangan.
Financial Crimes Enforcement Network di Amerika Serikat baru-baru ini

menggunakan data mining untuk me-nambang trilyunan dari berbagai
subyek seperti property, rekening bank dan transaksi keuangan lainnya
untuk mendeteksi transaksi transaksi keuangan yang mencurigakan (seperti
money laundry) .
e. Asuransi.
Australian Health Insurance Commision menggunakan data mining untuk

mengidentifikasi layanan kesehatan yang sebenarnya tidak perlu tetapi tetap
dilakukan oleh peserta asuransi .
f. Olahraga.
IBM Advanced Scout menggunakan data mining untuk menganalisis

statistikpermainan NBA (jumlah shots blocked, assists dan fouls) dalam
rangka mencapai keunggulan bersaing (competitive advantage) untuk tim
New York Knicks dan Miami Heat.
g. Astronomi.
Jet Propulsion Laboratory (JPL) di Pasadena, California dan Palomar

Observatory berhasil menemukan 22 quasar dengan bantuan data mining.
Hal ini merupakan salah satu kesuksesan penerapan data mining di bidang
astronomi dan ilmu ruang angkasa.
h. Internet Web surf-aid
IBM Surf-Aid menggunakan algoritma data mining untuk mendata akses

halaman Web khususnya yang berkaitan dengan pemasaran guna melihat
prilaku dan minat customer serta melihat ke- efektif-an pemasaran melalui
Web.
BAB 4
PENUTUP
Kesimpulan Big Data
Dapat disimpulkan bahwa big data sudah mulai dimanfaatkan dan akan sangat
berguna untuk dipahami lebih dalam untuk mengimbangi perkembangan jaman ke
arah teknologi dan analisis yang lebih praktis.
Saran
- Mempelajari lebih dalam mengenai big data, karena hal ini akan sangat berguna
bagi perusahaan, dimana perusahaan jaman sekarang mulai mempelajari tren
pasar dan pola hidup konsumen.
- Dalam penerapannya, perusahaan akan membutuhkan orang yang khusus dalam

bidang data mining, karena hal ini cukup rumit dan diperlukan orang yang paham
cara untuk menggunakan data.
Kesimpulan Data Mining
Dengan menggunakan data mining, perusahaan dapat menentukan targeted

marketing yaitu dengan melihat nama nasabah mana saja yang berpotensi membeli
produk baru, perusahaan dapat melihat nasabah yang aktif dan yang paling aktif.
Kemudian dengan adanya data mining kita bisa melihat data history yang data
tersebut dapat kita gunakan untuk melakukan training data dan testing data.
DAFTAR PUSTAKA
Dumbill, E. (2012). Big Data Now Current Perspective. O'Reilly Media.

Eaton, C., Dirk, D., Tom, D., George, L., & Paul, Z. (n.d.). Understanding Big Data. Mc
Graw Hill.
Global Pulse. (2012). Big Data for Development:Challenges & Opportunities. Global
Pulse.
H., I. (2006). METADATA – CENTRALIZED AND DISTRIBUTED IN DW2.0. 3-5.
H.Immon, W. (2005). Building the Data Warehouse, 4th Edition. Indianapolis, Indiana:
Wiley Publishing, Inc.
IBM. (n.d.). Analytics: The real-world use of big data. Retrieved from How innovative
enterprises extract value from uncertain data:
http://www-935.ibm.com/services/us/gbs/thoughtleadership/ibv-big-data-at-
work.html
R. Kelly Rainer, C. (2011). Introduction to Information Systems. John Wiley & Sons
(Asia) Pte Ltd.
Sun, H., & Heller, P. (2012). Oracle Information Architecture. Oracle Information
Architecture.
Yuli Asriningtias, Rodhyah Mardhiyah Program Studi Teknik Informatika Fakultas
Bisnis & Teknologi Informasi, Universitas Teknologi Yogyakarta. JURNAL
INFORMATIKA Vol. 8, No. 1, Januari 2014
Muhammad Thoriq Agung, Bowo Nurhadiyono Penerapan Data Mining Pada Data
Transaksi Penjualan Untuk Mengatur Penempatan Barang Menggunakan
Algoritma Apriori. Semarang: Program Studi Teknik Informatika-S1, Fakultas Ilmu
Komputer Universitas Dian Nuswantoro.
Kennedi Tampubolon 1), Hoga Saragih 2), Bobby Reza 3). 2013. Implementasi Data
Mining Algoritma Apriori Pada Sitem Persedian Alat-Alat Kesehatan. Medan:
Majalah Ilmiah.
http://repository.widyatama.ac.id/xmlui/bitstream/handle/123456789/2362/bab
%202%20landasan%20teori.pdf?sequence=4 , diakses November 2017
http://www.gunadarma.ac.id/library/articles/postgraduate/information-system/Sistem
%20Informasi%20Akuntansi/Artikel_92106032.pdf, diakses pada November 2017
PENDAHULUAN
A. LATAR BELAKANG
MASALAH
Teknologi komputer,
terutama robotika di masa
sekarang sudah menjadi
bagian
penting dalam kehidupan
manusia. Robot sendiri
yaitu peralatan elektro-
mekanik atau
bio-mekanik, atau gabungan
peralatan yang
menghasilkan gerakan yang
otonomi
maupun gerakan
berdasarkan gerakan yang
diperintahkan. Robot dalam
beberapa hal
dapat menggantikan peran
manusia, hal ini terlihat
pada robot-robot yang
diterapkan
dalam berbagai bidang
seperti industri, kesehatan
(health), pertahanan
(defense),
pertanian (agriculture),
penelitian (research),
pemainan (game), dan lain-
lain. Dalam
industri modern, robot telah
mengambil alih posisi para
pekerja di pabrik-pabrik.
Misalnya dalam industri
automotif, alat elektronik,
peranti komputer, robot telah
menjadi
penggerak utama dari industri
ini. Alasan utama
penggunaan robot adalah
karena, robot
dalam kondisi tertentu (syarat
minimum operasi terpenuhi)
dapat menjadi pekerja yang
ideal, robot memiliki tingkat
akurasi dan efisiensi yang
tinggi, serta yang lebih
penting
adalah biaya operasinya
rendah dengan output yang
dihasilkan lebih tinggi.
Ada beberapa tipe robot,
yang secara umum dapat
dibagi menjadi dua kelompok
yakni robot manipulator
dan robot mobil (mobile
robot). Robot manipulator
dicirikan
dengan memiliki lengan
(arm robot), dan banyak
digunakan untuk robot
industri.
Sedangkan robot mobil
merupakan robot yang
dapat bergerak berpindah
tempat,
meskipun nantinya robot
tersebut juga dipasang
manipulator. Robot mobil
dapat
dikelompokkan lagi menjadi
tiga yaitu robot daratan
(ground robot), robot air
(Underwater Robot), dan
robot terbang (aerial robot).
Ketiga jenis robot ini
sangat
banyak dikembangkan karena
melihat sifatnya yang sangat
fungsional.
Perkembangan ini dapat
dilihat dari teknologi
mikrokontroler yang
merupakan
suatu terobosan teknologi
mikroprosessor dan
mikrokomputer.
Mikrokontroler ini
banyak digunakan pada
berbagai sistem kontrol.
Untuk membuat robot cerdas
kita harus melakukan
pertimbangan – pertimbangan
yang sering menjadi
kendala dalam perancangan
sebuah robot, sebab
terkadang jika
mengutamakan salah satu
faktor misalnya faktor
kecepatan, maka faktor
yang lainnya
seperti kestabilan gerak
bisa saja tidak tercapai.
Untuk mengatasi berbagai
kendala
tersebut, maka harus
dilakukan studi yang
sekaligus merancang sebuah
robot denga

Yelvi 220910015 MakalahEssential Ganjil

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Yelvi 220910015 MakalahEssential Ganjil

Diunggah oleh

Hak Cipta:

Format Tersedia

TUGAS MANDIRI

THE ESSENTIAL INFORMATION LITERARY

Dalam penyusunan makalah ini, saya telah berusaha semaksimal mungkin

Perkembangan jaman hingga saat ini sangat berdampak besar terhadap

Pengetahuan Merupakan pemahaman tentang fakta atau kebenaran

a) Teknologi Canggih (Advance Technology) Big Data

Big Data dapat juga didefinisikan sebagai sebuah masalah domain dimana

Big data dapat di artikan kedalam 9 karakter (IBM) menurut responden

2. Dimensi -Dimensi Big Data

1) Mengubah 12 terabyte Tweet dibuat setiap hari ke dalam peningkatan

Mungkin karakteristik ini yang paling mudah dimengerti karena besarnya

Volume data yang banyak tersebut bertambah dengan kecepatan yang

3. Dimensi Ketidakpastian data

Dalam industri untuk meningkatan sebuah data lebih berkualitas dibutuhkan

1 dari 3 pemimpin bisnis tidak mempercayai informasi yang mereka

ketidakpastian data. Veracity mengacu pada tingkat keandalan yang terkait

membeli pelanggan masa depan. Kebutuhan untuk mengakui dan merencanakan

Untuk mengelola ketidakpastian, analis perlu menciptakan konteks sekitar

4. Arsitektur Big Data

Traditional Information Architecture Capabilities

d. Adding Big Data Capabilities

Mendefinisikan kemampuan memproses untuk big data architecture,

unstructured database yang lain, dikirimkan ke dalam perangkat mobile atau

Dalam kasus lain, suatu analisis tidak dapat diselesaikan sampai

menguntungkan atau bahkan yang paling tidak menguntungkan) akan

e. An Integrated Information Architecture

Salah satu tantangan yang diteliti dalam pemakaian Hadoop dalam

Pengguna big data yang pertama kali mencoba menggunakan, seringkali

Ketika bermacam – macam data telah didapatkan, data tersebut dapat

Secara arsitektur, komponen kritikal yang memecah bagian tersebut adalah

Hasil pemrosesan data akan dimasukkan ke dalam ODS tradisional, data

5. Big Data for development

Big Data untuk sumber Pengembangan umumnya memiliki beberapa / semua

a). Digitally generated

Data yang dihasilkan secara digital (sebagai lawan yang didigitalkan

b). Passively produced

c). Automatically collected

Data-data yang terbentuk dari data-data operasional dan transaksi yang

d). Geographically or temporally trackable

e). Continuously analysed

informasi yang relevan dengan kesejahteraan manusia dan pembangunan

6. Pengunaan Big Data dalam perusahaan

Penyimpanan Log jangka panjang, digunakan untuk analisa proses sistem

b) Fraud Detection Pattern

c) The Social Media Pattern

d) The Call centere Mantra

e) Risk: Patterns for Modeling and Management

f) Big data and The Energy Sector

Memberikan kemampuan penyimpanan dan pemrosesan data secara

7. Membangun Big Data Platform

Requirement dalam big data infrastruktur:

Tahap akuisisi adalah salah satu perubahan besar dalam infrastruktur

Database NoSQL sering digunakan untuk mengambil dan menyimpan big

Sebagai contoh, database NoSQL sering digunakan untuk mengumpulkan

Dalam istilah Data pergudangan klasik, pengorganisasian data disebut

kecenderungan untuk mengatur data pada lokasi penyimpanan aslinya,

Apache Hadoop adalah sebuah teknologi baru yang memungkinkan

Misalnya, menganalisis data persediaan dari mesin penjual otomatis cerdas

8. Tantangan dalam pemanfaatan Big Data

Privasi merupakan isu yang paling sensitif, dengan konseptual,

b. Access dan sharing

Bekerja dengan sumber data baru membawa sejumlah tantangan

Tergantung dari jenis data terdapat 3 kategori dalam analisis data

1) Penentuan gambaran yang benar