Anda di halaman 1dari 5

Lihat diskusi, statistik, dan penulis pro fi les untuk publikasi ini di: https://www.researchgate.

net/publication/322057585

Suatu Tinjauan pada Konsep Big Data dan berbagai Teknik Analytic

Artikel · Oktober 2017


DOI: 10,14445 / 22.312.803 / IJCTT-V52P104

CITATIONS Dibaca

0 17

3 penulis . termasuk:

Sharadchandra Kawale Jayant Dipak Bokefode

SVERI's College of Engineering SVERI's College of Engineering

1 PUBLIKASI 0 CITATIONS 9 PUBLIKASI 18 CITATIONS

MELIHAT PROFIL MELIHAT PROFIL

Semua konten berikut halaman ini diunggah oleh Jayant Dipak Bokefode di 02 April 2018. Pengguna telah meminta peningkatan dari fi le

download.
International Journal of Tren Komputer dan Teknologi (IJCTT) - Volume 52 Nomor 1 Oktober 2017

Suatu Tinjauan pada Konsep Big Data dan berbagai


Teknik Analytic
Kawale SM # 1, Dr. Holambe AN * 2, Bokefode JD # 3
#
Dosen & Departemen ilmu komputer, perguruan tinggi teknik (poli), Pandharpur Solapur, Maharashtra, India. * HOD & Departemen
ilmu komputer, perguruan tinggi teknik, Osmanabad Osmanabad, Maharashtra, India.
# 3 Asst. Prof. & Departemen ilmu komputer, perguruan tinggi teknik, Pandharpur Solapur, Maharashtra, India

Abstrak sekaligus menciptakan, mengelola dan menganalisis data besar. Hadoop

'Big Data' adalah teknik berkembang pesat dan modern untuk mengumpulkan, bertahan, menyediakan platform untuk penataan dan pengelolaan Big Data, dan

berbagi, mengawasi dan memeriksa dataset berukuran besar yang datang dengan membuatnya berguna untuk tujuan analisis. Big Data analisis adalah teknik

kecepatan tinggi dan memiliki struktur yang berbeda. dataset data besar adalah mereka analisis penting dan canggih yang beroperasi pada data besar untuk

yang melebihi kapasitas jenis sederhana dari database dan manajemen data arsitektur memeriksa data dalam jumlah besar. Dalam analisis, data yang dibagi

yang digunakan dalam hari sebelumnya. Data dapat terstruktur; terstruktur atau semi- menjadi sektor yang berbeda untuk menilai sesuai dengan waktu, dan

terstruktur yang membutuhkan lebih banyak kekuatan komputasi untuk mengumpulkan membandingkan satu sektor ke sektor lain. Dengan bantuan perusahaan

dan menganalisis data yang dikumpulkan dari sumber yang berbeda. data besar dapat big data dapat mengembangkan pemahaman yang lebih sistematis dan

mengelola berbagai data seperti data terstruktur, semistructured dan tidak terstruktur. perseptif bisnis mereka, yang membantu untuk meningkatkan

Data terstruktur berarti mereka data yang diformat dengan cara langsung sesuai dengan produktivitas dan inovasi.

sistem manajemen database. data semi-terstruktur dan tidak terstruktur berisi semua jenis
data terformat seperti multimedia dan konten media sosial. Data yang besar
membutuhkan arsitektur baru untuk mengelola data, teknik baru dan algoritma untuk
A. Definisi
mengambil data dan analisis untuk menemukan pengetahuan yang tersembunyi dari itu
karena kumpulan data besar yang memiliki berbagai macam, variasi, dan kesulitan. data besar dapat disebut sebagai set data atau kumpulan data set
Makalah ini menjelaskan data besar dan istilah terkait mereka seperti analisis data besar, yang memiliki kecepatan tinggi, ukuran dan kerumitan, yang membuat
mengeksplorasi kemungkinan tentang penelitian di masa depan dan menyajikan dalam mereka sulit untuk mengelola dan proses dengan teknologi tradisional
penelitian kemajuan dan temuan terkait yang dapat membantu penelitian sarjana, bisnis dan alat dan juga sulit untuk menangkap dengan data rate tinggi dan
dan penyedia layanan data untuk mempelajari dan mengembangkan analisis data besar sulit
proyek. Sekarang hari, sebagian besar mengeksplorasi kemungkinan tentang penelitian di untuk melakukan analisis menggunakan database relasional
masa depan dan menyajikan berlangsung penelitian dan temuan terkait yang dapat dan statistik atau visualisasi teknik [1]. Tergantung
membantu penelitian sarjana, bisnis dan penyedia layanan data untuk mempelajari dan pada ukuran data set set data tertentu dianggap sebagai data yang
mengembangkan proyek-proyek data analisis besar. Sekarang hari, sebagian besar besar, set data memiliki ukuran 40-50 terabyte ke beberapa petabyte.
mengeksplorasi kemungkinan tentang penelitian di masa depan dan menyajikan Big Data System memiliki arsitektur berlapis dan memiliki tiga lapisan.
berlangsung penelitian dan temuan terkait yang dapat membantu penelitian sarjana, Lapisan tersebut Infrastruktur Layer, Computing Layer, dan
bisnis dan penyedia layanan data untuk mempelajari dan mengembangkan proyek- Application Layer dapat ditunjukkan pada gambar 2.
proyek data analisis besar. Sekarang hari, sebagian besar

itu
B. Menggambarkan data besar melalui Tiga Vs
perusahaan yang menyelidiki data yang besar untuk memperbaiki posisi
organisasi dalam tren pasar saat ini. Volume data:
Kata kunci: Big Data, Analytics, MapReduce, HDFS.
Volume dapat disebut sebagai ukuran data. sejumlah besar data
dikumpulkan dari berbagai sumber seperti, transaksi, media sosial,

I. saya P ENDAHULUAN
sensor, ritel, audio, video, sektor pemerintah dll berkisar dari terabyte
ke petabyte.
Hari ini, setiap bidang didasarkan pada digitalisasi dan tumbuh
secara eksponensial. Karena pertumbuhan yang tinggi di digitalisasi
jumlah besar terstruktur serta data terstruktur yang dihasilkan dan Berbagai data:
proses yang sedang terjadi terus menerus. Data yang dihasilkan dan
Berbagai data berarti jenis data yang Big dukungan data. data
dikumpulkan dari berbagai sumber seperti, transaksi, media sosial,
besar mendukung berbagai jenis data seperti terstruktur, tidak
sensor,
terstruktur dan semi terstruktur.
ritel, audio, video,
sektor pemerintah dll Sebagai contoh, di facebook setiap bulan 40
miliar isinya sedang bersama. Hal ini diperlukan bagi organisasi untuk
menambang data ini terus bertahan di tren pasar saat ini dan menjadi
pesaing yang baik. Ketika data dianalisis benar membantu organisasi
untuk menentukan strategi saat ini dan masa depan. Teknik
pengolahan data konvensional memberikan kinerja terdegradasi

ISSN: 2231-2803 http://www.ijcttjournal.org halaman 13


International Journal of Tren Komputer dan Teknologi (IJCTT) - Volume 52 Nomor 1 Oktober 2017

B. Skala

Data yang dikumpulkan untuk analisis sangat besar; mengelola data ini
membutuhkan daya scalable komputasi, sensor kecepatan tinggi, jaringan yang
kuat, dan kemampuan penyimpanan yang besar. [2] [5]

C. Ketepatan waktu

Informasi yang dihasilkan dari berbagai sumber perlu proses


sebelum menganalisanya. Oleh karena itu membutuhkan lebih banyak
waktu untuk menganalisanya [5].

D. Privasi

Masalah kerahasiaan data yang lebih penting dalam konteks Big


Data. Mengelola privasi harus diatasi sambil mengelola data besar [5].
Gambar 1 Tiga Vs Big Data

Kecepatan data: Velocity dianggap sebagai kecepatan menangkap data,


AKU AKU AKU. C HALLENGES DI DATA BIG
pengolahan dan visualisasi itu. Banyak daerah sensitif terhadap waktu
memainkan data besar peran yang sangat penting [4].

Gambar. 3 Proses untuk mengekstraksi wawasan dari data besar.

Sebuah. Akuisisi Data dan Recording

Data yang besar telah dihasilkan dari data yang berbeda menangkap
sumber. Sebagai contoh, simulasi dan percobaan ilmiah yang berbeda
dengan mudah menghasilkan byte PETA. Sebagian besar data ini tidak
berguna; perlu disaring. Tantangan pertama adalah, data perlu disaring
sedemikian rupa sehingga data penting tidak akan lepas. Tantangan kedua
adalah, menghasilkan metadata yang benar untuk data yang tersimpan.

b. Informasi Ekstraksi dan Pembersihan


Terserah Informasi dikumpulkan dari
sumber yang berbeda tidak dalam format yang dibutuhkan untuk analisis.
Informasi ini perlu dibersihkan dan mengatur ke dalam format yang tepat
Gambar. 2 Layered Architecture of Big Data
untuk analisis. Untuk yang membutuhkan alat ekstraksi informasi, bahwa
mengambil data yang diperlukan dari sumber-sumber penting.
II. C HALLENGES DI DATA BIG

SEBUAH. Heterogenitas dan Ketidaklengkapan


Data yang dikumpulkan dari berbagai sumber yang
heterogen. Teknik analisis data membutuhkan jenis yang sama c. Data Integration, Agregasi, dan
(terstruktur) dan data lengkap untuk memvisualisasikan dalam cara Perwakilan
dimengerti. Ada data harus struktur hati-hati sebelum analisis data.
data besar yang heterogen di alam, tidak mudah untuk
Tantangan pertama adalah representasi yang efisien dan
menyimpan dan lob ke repositori. Data ini perlu untuk struktur
pengumpulan data heterogen. Hadoop memberikan dukungan untuk
hati-hati sehingga akan berguna untuk
pengolahan data yang heterogen dan analisis data ini [2] [5].
data analisis. manajemen yang efektif, representasi,
kebijakan akses data harus dipertimbangkan.

ISSN: 2231-2803 http://www.ijcttjournal.org halaman 14


International Journal of Tren Komputer dan Teknologi (IJCTT) - Volume 52 Nomor 1 Oktober 2017

d. Query Processing, Modeling Data, dan diperiksa untuk sentimen positif atau negatif [3]. Dalam teknik
Analisis Kalimat-tingkat, kalimat dikumpulkan di-scan untuk polaritas untuk
dikenal entitas hadir. Dalam Aspek berbasis
metode yang berbeda tersedia untuk pertambangan data yang
teknik, dokumen yang
berpengetahuan dari data besar. Query Big Data yang berbeda dari
ditentukan untuk sentimen dan entitas aspek diidentifikasi
teknik tradisional karena heterogen, dinamis dan saling terkait. Query
untuk memperjelas yang masing-masing sentimen mengacu.
atau Mining Data Big memerlukan teknik data yang terintegrasi dan
efisien diakses dan algoritma pertambangan scalable. c. analisis Audio

analisis Audio diterapkan untuk pidato atau audio diucapkan. Teknik ini
juga disebut sebagai analisis pidato. Sekarang hari, analisis audio yang
e. Interpretasi memainkan peran penting dalam call center dan sistem kesehatan. Semua
teknik ini membantu untuk mengevaluasi kinerja agen, untuk meningkatkan
Menganalisis Big Data tidak memiliki nilai jika informasi analitis
tidak disajikan dengan cara userfriendly. Ini penjualan

informasi harus menilai, untuk memahami pelanggan


perilaku dan untuk mengidentifikasi dan memecahkan masalah terkait produk [4].
ditafsirkan dengan visualisasi yang tepat dan spesifikasi yang jelas.
Dengan penafsiran ini pedoman atau informasi tambahan harus
disediakan untuk pemahaman yang lebih baik. Informasi tambahan ini
d. analisis video
dianggap sebagai asal dari data.
Dalam analisis Video, video stream dianalisis untuk informasi yang
berarti .Ini analisis juga dikenal sebagai analisis konten video (VCA)

.Untuk memberikan keamanan dan pengawasan atas tempat analisis


IV. B IG D ATA A NALYTICS video digunakan. Misalnya, di YouTube video harian yang tak
terhitung jumlahnya di-upload dan dilihat. Untuk memahami perilaku
data besar memiliki volume data yang besar. Organisasi
pengguna dan mengambil wawasan yang berarti dari teknik analisis
memerlukan algoritma efisien atau teknik untuk
yang berbeda video yang digunakan [4].
memproses volume tinggi data untuk mengubahnya menjadi
informasi yang berguna. Data kecepatan tinggi dan tidak terstruktur
itu harus dianalisis. Proses penggalian data yang berarti dari data e. analisis media sosial
besar dilakukan dalam lima tahap, ditunjukkan pada Gambar. 3. Kelima
Media sosial analisis pertama digunakan di
tahapan lagi dikategorikan ke dalam dua sub proses, pertama adalah
industri telekomunikasi, dan kemudian diadopsi oleh sosiolog
manajemen data dan kedua adalah analisis. Manajemen Data
untuk mengerti interpersonal yang

hubungan. analisis ini digunakan untuk menganalisis hubungan


memerlukan prosedur dan berbeda
antara masyarakat yang bekerja di berbagai bidang. Sosial media
teknik yang akan diperlukan untuk menyimpan data dan mengaturnya dikumpulkan dari situs sosial yang berbeda seperti Facebook, reedit,
dengan cara yang tepat untuk melakukan analisis di atasnya. Analytics dan blog [7]. Untuk mengekstrak informasi dari struktur jaringan sosial
melibatkan teknik yang berbeda digunakan untuk menganalisis data dan yang berbeda
untuk mengambil wawasan yang berarti dan intelijen dari data besar. teknik diperkenalkan seperti, deteksi Komunitas,
bagian berikutnya menggambarkan teknik analisis yang berbeda yang analisis pengaruh sosial, Link prediksi [5].
digunakan untuk data terstruktur serta tidak terstruktur [6].

f. analisis prediktif
Sebuah. analisis teks
analisis prediktif tidak lain adalah peramalan tentang hasil masa
Teks analisis adalah teknik yang digunakan untuk mengambil data depan dari data saat ini dan sejarah. probabilitas ini digunakan untuk
yang berarti dari data tekstual. Data tekstual yang diselenggarakan oleh merencanakan bisnis dan sesuai dengan itu pekerjaan yang telah
bisnis, sisi jaringan sosial, log email, aplikasi online dan
dilakukan [9]. analisis prediktif digunakan untuk memahami
forum, pendidikan kebutuhan pelanggan di masa depan, untuk merancang produk
dokumen, saluran berita, dan call center log ini merupakan sumber sesuai dengan tren pasar dan untuk mengidentifikasi risiko
data tekstual. Dalam analisis teks, berisi tiga tahapan utama analisis kemungkinan dan ruang lingkup untuk organisasi. Analytics prediksi
statistik, linguistik komputasi, dan mesin belajar. analisis teks dilakukan melalui teknik yang berbeda tapi salah satu teknik terkenal
memfasilitasi bisnis dan organisasi untuk mengambil ringkasan berarti adalah pembelajaran mesin, fuzzy logic, data mining dan analisis
dari volume besar teks yang dihasilkan, yang membantu untuk regresi yang membantu analis untuk membuat hipotesis mengenai
pengambilan keputusan. bisnis untuk meningkatkan posisi sebuah organisasi [6].

b. Analisis sentimen

Analisis sentimen membantu bisnis untuk menentukan sentimen


dari pelanggan mereka mengenai produk. teknik analisis sentimen V. B IG D ATA A NALYTICS S OFTWARE
dapat dikategorikan menjadi tiga kelompok yaitu documentlevel, Apache Hadoop adalah salah satu yang terbaik dan terkenal platform yang
digunakan untuk pengolahan data besar [8] .Ini adalah “sebuah proyek perangkat
lunak open source
kalimat-tingkat, dan aspek berbasis. Di
bahwa berdasarkan
Dokumen-tingkat teknik, dokumen adalah

ISSN: 2231-2803 http://www.ijcttjournal.org halaman 15


International Journal of Tren Komputer dan Teknologi (IJCTT) - Volume 52 Nomor 1 Oktober 2017

didistribusikan pengolahan atas data besar yang disimpan dalam [15] http://en.wikipedia.org/wiki/Apache_Hadoop.
server”[11] [12]. Desain Hadoop adalah fleksibel dan scalable yang
skala sesuai dengan kebutuhan dan skala sampai ribuan server. Ini
memberikan tingkat tinggi
kesalahan toleransi. software Apache
landasan mengambil inisiatif untuk merancang perangkat lunak yang
menangani volume data yang besar. Ini menangani semua jenis data.
Platform Hadoop terutama dikategorikan ke dalam dua proyek MapReduce
dan HDFS [10]. kerangka MapReduce menetapkan karya untuk cluster
yang berbeda simpul sedangkan HDFS (Hadoop Distributed File System)
cluster Link node ke node lokal untuk membuat satu sistem berkas Big
[13].

VI. C ONCLUSION

Makalah ini, menggambarkan Big data dan konsep dasar yang terkait dan
tantangan diidentifikasi terkait dengan itu dan jika organisasi harus memenuhi
tren pasar saat ini. Mereka harus harus mengumpulkan sejumlah besar data
dan perlu untuk mengimplementasikan kemampuan pemrosesan yang tinggi
untuk mengolah data tersebut maka data ini dapat disempurnakan dengan
menggunakan teknik analisis yang berbeda untuk pengambilan keputusan yang
tepat dan perencanaan strategis. Hadoop menyediakan platform yang fleksibel
untuk memproses dan menganalisis data Big.

R EFERENCES
[1] Memajukan Penemuan dalam Sains dan Teknik.
Konsorsium Masyarakat Computing. Musim semi 2011. [2]
Labrinidis, A., & Jagadish, HV (2012). Tantangan dan peluang
dengan data.Proceedings besar dari VLDB Endowment, 5 (12),
2032-2033. [3]
Feldman, R. (2013). Teknik dan aplikasi untuk analisis sentimen.
Komunikasi-kation dari ACM, 56 (4), 82-89. [4] Amir Gandomi, Murtaza
Haider. Luar hype: Big

konsep data, metode, dan analytics.International Jurnal Manajemen


Informatika, ScienceDirect. [5] MM Anwar, MF Zafar, Z. Ahmed. Suatu
usulan Pencegahan
Sistem Keamanan Informasi. IEEE
Konferensi Internasional Teknik Elektro, April,
2007.
[6] MacDonald, Neil, 2012, Keamanan Informasi adalah Menjadi
Data Big Analytic Soal, Gartner, (23 Maret 2012), DOI =
http://www.gartner.com/id=1960615 [7]
Larry Barrett, “analisa data Big: perusahaan itu besar berikutnya
Senjata keamanan?”Februari 2014. [14]
http: //www.edupristine [8] G. Noseworthy, Infographic: Mengelola
Big Banjir Big
Data di Digital Pemasaran, 2012
http://analyzingmedia.com/2012/infograp
hik-besar-banjir-ofbig-data-di-pemasaran digital. [9] H. moed, The
Evolution of Big Data sebagai Riset dan Ilmiah Topik: Sekilas Sastra
2012, kecenderungan Riset, http://www.researchtrends.com. [10] Sebuah
Navint Mitra White Paper, “Mengapa Data BIG

Penting?" Mungkin 2012,


http://www.navint.com/images/Big.Data.pdf [11] Greenplum. Sebuah mesin
terpadu untuk RDBMS dan Peta
Mengurangi 2009.
http://www.greenplum.com/resources/mapreduce/. [12] Oracle
Informasi Arsitektur: Panduan Arsitek untuk
Big Data, Sebuah Oracle White Paper di Enterprise
Arsitektur Agustus 2012 [13] http://bigdataarchitecture.com/ [14] http://www.informationweek.com/softw
Sistem Basis Data

majalah vol. III, tidak ada. 4/2012 13 adalah / bisnis-


intelijen / sas-mendapat-hip-tohadoop-untuk-besar-ata / 240009035pgno = 2

ISSN: 2231-2803 http://www.ijcttjournal.org halaman 16

statistik Lihatpublikasipublikasi Lihat

Anda mungkin juga menyukai