Tk3 Big Data

TIM 3:
1. Noer Lisna Anjani (2401983565)

2. Aida Safitri (2402983810)
3. Fendy Purnomo (2401979763)
4. Aliffannisa Ananta (2401979706)
5. Dhiyah Jhunniarti (2401981143)
Tugas Kelompok ke-3

Week 8
Jawablah soal berikut dengan benar!
A. Soal Essay
1. Kapan kita menggunakan analisa kualitatif dan kuantitatif pada proses pengolahan
big data?
2. Spark mempunyai berbagai macam tools. Sebut dan jelaskan tools tersebut
3. Sebut dan Jelaskan apa saja komponen dalam Spark MLlib?
4. Apakah keuntungan dan kerugian menggunakan metode Naive Bayes? Serta
bedanya dengan Teorema Bayes?
B. Soal Case
1. Carilah artikel atau jurnal mengenai penggunaan analisis big data, lalu lakukanlah
Analisa mengenai hal tersebut (minimal 3 artikel). Artikel atau jurnal dapat dicari
melalui google scholar. Scopus.com atau media lainnya.
No Judul Penerbit Abstrak Penjelasan

1 Data:
Metode:
Tujuan:
Manfaat:
Analisa:
Hasil:
Saran:
Contoh artikel
1. https://www.sciencedirect.com/science/article/pii/S1389128617302591
Jawaban:
1. Kapan kita menggunakan analisa kualitatif dan kuantitatif pada proses pengolahan
big data?
Data kualitatif digunakan ketika ingin menggali pertanyaan-pertanyaan
yang berkaitan dengan alasan-alasan suatu permasalahan dan bersifat investigasi.
Data kualitatif juga digunakan jika ingin memahami suatu konsep pemikiran atau
pengalaman tertentu. Teknik analisis data kualitatif biasanya dilakukan untuk
mengetahui permasalah secara mendalam dari suatu penelitian maka hanya
membutuhkan sedikit responden. Data kualitatif tidak selalu diukur dengan
menggunakan angka pasti yang dapat digunakan pengembangan grafik dan diagram
melainkan digunakan untuk lebih ke pemahaman akan suatu permasalahan, konteks,
kompleksitas, dan subjektivitas. Sumber data kualitatif bisa berupa teks,
audio/video, dan gambar.
COMP6725 - Big Data Technologies

Sedangkan data kuantitatif digunakan ketika kamu ingin mengkonfirmasi
atau menguji suatu teori atau hipotesis. Data kuantitatif lebih terstruktur dan
bersifat terstruktur, kaku, terdefinisi dan lebih objektif. D ata kuantitatif dapat
diukur dengan angka dan grafik sehingga akan membutuhkan lebih banyak
responden. Data kuantitatif diukur berdasarkan angka dan grafik agar dapat
menguji atau mengkonfirmasi teori serta asumsi dalam penelitian sehingga lebih
mengedepankan fakta yang dapat digeneralisasikan tentang suatu topik penelitian.
Sumber data kuantitatif bisa berupa, angka, grafik, tabel/matriks, dan laporan
penjualan.
2. Macam-macam Spark Tools
Spark Core adalah mesin dasar untuk pemrosesan data paralel dan
terdistribusi skala besar. Library tambahan dapat dibangun di atas Spark
Core sehingga memungkinkan beragam pemrosesan seperti untuk streaming,
SQL, dan Macine Learning untuk mendukung berbagai aktivitas pemrosesan
data.
Spark SQL adalah library yang mengintegrasikan pemrosesan data relasional

dengan Spark functional programming API. Library ini mendukung pengolahan
data menggunakan kueri, baik melalui SQL atau melalui Bahasa Kueri Hive.
MLlibadalah library yang berisi berbagai macam Algoritma Machine Learning

yang ditawarkan oleh Spark. MLib menyediakan berbagai function yang dapat
dipanggil untuk melakukan pembelajaran Supervised maupun Un-supervised,
Regression maupun Classification.
GraphX
Library ini adalah API Apache Spark untuk menjalankan komputasi grafik secara
paralel. Library ini dapat mengolah data yang tersimpan dalam format RDD
(Resilient Distributed Dataset), kemudian membuat grafik yang memiliki arah
pada setiap vertex dan edge.
Spark MLlib merupakan library machine learning yang dapat di scale up

kecepatan tinggi dan digunakan untuk melakukan machine learning di Apache
Spark.
3. Berikut komponen-komponen yang ada dalam Spark MLlib :

a. ML Algortihms: membentuk inti dari MLlib. Ini termasuk algoritma
machine learning seperti klasifikasi, regresi, pengelompokan, dan
pemfilteran kolaboratif. MLlib menstandarkan API untuk memudahkan
penggabungan beberapa algoritma ke dalam satu pipeline, atau alur kerja.
Konsep utamanya adalah Pipelines API, di mana konsep pipeline
terinspirasi oleh proyek scikit-learn.
b. Featurization. Memiliki keistimewaan yang mencakup :
- Feature Extraction, yakni mengekstrak fitur dari data mentah/raw data.
- Feature Transformation mencakup scaling, renovating, atau modifying
features.
- Feature Selection, melibatkan pemilihan subset fitur yang diperlukan dari
sekumpulan besar fitur.
Tugas 03
Group Assignment ©Arif 2|9
c. Pipelines: menyatukan beberapa Transformer dan Estimator untuk menentukan
alur kerja ML. Selain itu, pipelines juga menyediakan fitur untuk membangun,
mengevaluasi, dan menyesuaikan Pipelines ML
d. Persistence: membantu dalam menyimpan dan memuat algoritma, model, dan
Pipelines. Hal ini membantu dalam mengurangi waktu dan upaya karena model
tersebut persistensi, dapat dimuat atau digunakan kembali kapanpun bila
diperlukan seperti data yang disimpan dalam format HDFS, JSON, ataupun
Pickle.
e. Utilities: untuk aljabar linier, statistic, dan penanganan data. Contohnya,
mllib.linalg yang merupakan utilitas MLlib untuk aljabar linier.
4. Metode Naïve Bayes
Keuntungan Kerugian
Model algoritma yang sederhana dibanding Asumsi bahwa masing-masing

dengan algoritma klasifikasi yang lain variabel independen membuat
berkurangnya akurasi, karena biasanya
ada korelasi antara variabel yang satu
dengan variabel yang lain
Bisa dipakai untuk data kuantitatif maupun Apabila probabilitas kondisionalnya

kualitatif bernilai nol, maka probabilitas
prediksi juga akan bernilai nol
Tidak memerlukan jumlah data yang banyak Keakuratannya tidak bisa diukur
menggunakan satu probabilitas saja.
Butuh bukti-bukti lain untuk
membuktikannya.
Tidak perlu melakukan data training yang Untuk membuat keputusan, diperlukan
banyak pengetahuan awal atau pengetahuan
mengenai masa sebelumnya.
Keberhasilannya sangat bergantung
pada pengetahuan awal tersebut
Banyak celah yang bisa mengurangi
efektivitasnya
Dirancang untuk mendeteksi kata-kata

saja, tidak bisa berupa gambar
Jika ada nilai yang hilang, maka bisa diabaikan

dalam perhitungan.
Perhitungannya cepat dan efisien
Bisa digunakan untuk klasifikasi masalah biner

ataupun multiclass
Pengklasifikasian dokumen dapat

dipersonalisasi, disesuaikan dengan kebutuhan
setiap orang
Perbedaan antara
Metode Naïve Bayes Teorema Naïve Bayes
Tugas 03
Metode klasifikasi data berdasarkan Teorema yang menggambarkan hubungan
probabilitas yang bisa saja terjadi di masa antara suda peluang bersyarat yang
depan dengan menggunakan dasar atau menyatakan seberapa jauh derajat
berakar dari Teorema Naïve Bayes kepercayaan subjektif harus berubah
secara rasional ketika berlaku ajar baru
atau menjelaskan representasi invers
probabilitas dua kejadian/event.
Dapat digunakan untuk berbagai macam Dapat digunakan sebagai alat

keperluan antara lain untuk klasifikasi pengambilan keputusan untuk
dokumen, deteksi spam atau filtering memperbaharui tingkat kepercayaan dari
spam, dan masalah klasifikasi lainnya suatu informasi.
B1. Berikut ini merupakan hasil analisa 3 jurnal mengenai penggunaan big data
analisis:
Judul Jurnal 1 : Knowledge absorption capacity’s efficacy to enhance innovation
performance through big data analytics and digital platform
capability
Penerbit : Journal Innovation Knowledge
Abstrak : The 2018 Global Innovation Index ranks Pakistan 118 out of 126
in innovation. One of the main reasons why developing countries,
such as Pakistan, fail to innovate is their improvisation of astute
and concurrent knowledge. This study explores the contemporary
hurdles that lead to manufacturing firms’ low agility and
innovation performance. Based on the theory of dynamic
capability view and the theory of absorptive capacity, we propose
that the knowledge absorption capacity of firms can help them
organize or utilize dynamic capabilities, such as big data analytics
and digital platform capability, to enhance their agility and
innovation performance. However, in the presence of a diversified
organizational culture (i.e., flexibility orientations and datadriven
culture), the desired outcomes may be affected. For this purpose,
this study performed a questionnaire survey to collect data for
validating the theoretical model. The collected responses from 325
manufacturing firms were analyzed using structural equation
modeling, and empirical results reveal a positive relationship
between the knowledge absorption capacity, agility, and
innovation performance of firms mediated by big data analytics
and DP capabilities. Flexibility orientations also showed a
significant moderating role, but the role of data-driven culture was
not significant. Statistical results reject the hypothesis. This study
enriches the scope of the theories mentioned above and comes up
with several other interesting theoretical and managerial
implications valuable for academicians and policymakers.
Penjelasan Data:
- Statistik dari web resmi pemerintah Pakistan, Survei Ekonomi
Tugas 03
Pakistan dan Biro Statistik Pakistan
- Responden dari 325 perusahaan manufaktur
Metode: Teknik Simple random sampling
Tujuan: mengeksplorasi rintangan kontemporer yang menyebabkan

rendahnya kelincahan dan inovasi perusahaan manufaktur
dalam mengembangkan pengetahuan.
Manfaat: mengusulkan bahwa kapasitas penyerapan pengetahuan

perusahaan dapat membantu mereka mengatur atau memanfaatkan
kemampuan dinamis, seperti analitik data besar dan kemampuan
platform digital, untuk meningkatkan kelincahan dan kinerja inovasi
mereka.
Analisa: penelitian ini berkontribusi pada literatur tentang BDAC (Big

Data Analytic Capability) dan DPC dengan menggabungkan
kemampuan ini menjadi satu kemampuan dinamis yang meningkatkan
kelincahan perusahaan manufaktur Temuan dari penelitian ini adalah
bahwa, dalam banyak kasus, kelincahan suatu perusahaan mungkin
merupakan hasil dari sumber dayanya yang tidak berubah dari segi
kemampuan. Penelitian ini terutama berkontribusi pada literatur tentang
Budaya organisasi. Dalam setiap penelitian tingkat perusahaan, peran
organisasi budaya harus dipertimbangkan, mengingat potensinya untuk
mengganggu hubungan antara hasil yang diinginkan.
Hasil: Hasil ini membuktikan bahwa KAC (knowledge absorption

capacity) dapat membantu perusahaan melengkapi diri mereka
dengan: kemampuan dinamis untuk memenuhi kebutuhan mereka
dan memenuhi kebutuhan lingkungan eksternal.
Saran: karena penelitian dilakukan pada masa pandemi Covid-19, data

hanya dikumpulkan menggunakan media online, yang dapat
menimbulkan ambiguitas dalam pengumpulan tanggapan survei.
Penelitian selanjutnya dapat menggunakan data sekunder untuk
menghasilkan hasil yang beragam, seperti proxy untuk inovasi dan
analisis data. Perbandingan kinerja di negara-negara berkembang
tetangga juga dapat dilakukan dengan menggunakan variabel yang sama
Judul Jurnal 2 : Linking green supply chain management practices with

competitiveness during covid 19: The role of big data analytics.
Penerbit : Elvesier, Technology in Society
Tugas 03
Abstrak : Although the global green supply chain management (GSCM) practice
has attracted considerable scholarly attention, its efficacy for
environmental management systems (EMS) and market competitiveness
during Covid19 has not been fully capitalized. Therefore, the existing
literature indicates that the important link between GSCM, EMS, and
market competitiveness is missing as supply management is crucial to
maintaining market competitiveness. To fill this research gap, the current
study examines whether EMS affects the relationship between GSCM
practices and market competitiveness. We also propose the moderating
role of big data analytics and artificial intelligence (BDA-AI) and
environmental visibility on these associations from a Covid-19
perspective. We tested a proposed model using the primary data (N =
283) from regression-based structural equation modeling (SEM). The
results provide empirical support for the impact of GSCM on ESM and
market competitiveness. Furthermore, the results show that BDA-AI and
environmental visibility strengthen the positive relationship between
GSCM-EMS and EMS and market competitiveness, respectively.
Current research provides thoughtful insights for supply chain
practitioners, policymakers, managers, and academics that organizations
should opt for formal EMS, BDA-AI, and environmental visibility to
achieve market competitiveness, even in times of crisis such as Covid-
19.
Penjelasan Data:
- Data sekunder dari website perusahaan industri makanan
untuk menentukan kriteria.
- Data primer dari hasil pengisian kuesioner kepada manager
supply chain, manager operation, akademisi, dan
mahasiswa.
Metode:
- Mencari data sekunder dengan analisis web industri
makanan
- Menyebarkan kuesioner kepada manager supply chain,
manager operation, akademisi, dan mahasiswa.
Tujuan:
Untuk meneliti peran moderasi Analisis Artificial Intelligent (BDA-
AI) pada asosiasi Green Supply Chain Management (GSCM) dan
Enviromental Management System (EMS).
Situasi pandemi Covid-19 memberikan tantangan tersediri bagi para
pengusaha khususnya dalam penyediaan pasokan. Sehingga tujuan
dari jurnal ini adalah untuk mengatasi kesenjangan ini, studi saat ini
membantu mengungkap bagaimana BDA-AI dapat memengaruhi
praktik GSCM dan hasil terkait seperti daya saing pasar, khususnya
selama Covid-19.
Manfaat:
Enviromental Management System (EMS) tidak hanya menawarkan
keuntungan finansial tetapi juga memungkinkan perusahaan untuk
Tugas 03
meningkatkan daya saing kerja, sehingga penting untuk
mengeksplorasi bagaimana GSCM dapat membantu organisasi
menjadi kompetitif melalui penerapan EMS di tempat kerja selama
periode yang tidak pasti seperti Covid-19.
Analisa:
Menggunakan model persamaan struktural menggunakan
AMOSuntuk menguji model yang diusulkan. AMOS
memungkinkan untuk menguji kovarians dan juga SEM berbasis
varians (VB-SEM) dan kedua ukuran ini berhasil diadopsi oleh para
sarjana untuk menguji hipotesis mereka (misalnya, Ref. Kami
menggunakan varians- berbasis SEM yaitu, untuk menguji model
kami karena VB-SEM lebih lunak mengenai ukuran sampel, paling
cocok dalam pengujian teori. Kami menguji pengukuran model dan
model struktural.
Hasil:
Studi ini mempromosikan gagasan GSCM tentang bagaimana
penggabungan dengan praktik GSCM, EM, EV, BDA-AI dapat
memperoleh daya saing pasar selama periode krisis seperti Covid-
19. Organisasi dapat membangun lingkungan yang lebih baik
dengan menekankan adopsi GSCM dan BDA-AI yang pada
akhirnya mengarah pada pencapaian posisi kompetitif organisasi.
Selain itu, penelitian ini mengusulkan lima hipotesis untuk
mengeksplorasi analisis multidimensi seperti yang dirangkum pada
Gambar 2. RQ1 menanyakan tentang bagaimana praktik GSCM
dapat meningkatkan efektivitas EMS selama Covid-19. Untuk
menjawab pertanyaan ini, kami menguji hubungan langsung antara
GSCM dan EMS (yaitu, H1).
Saran:
Terlepas dari kontribusi, penelitian kami juga memiliki
keterbatasan dalam generalisasi. Misalnya penelitian saat ini
didasarkan pada data laporan diri yang mungkin menderita CMB.
Meskipun, kami mengesampingkan semua kemungkinan data CMB,
namun, kami akan menyarankan menggunakan data sekunder
bersama dengan data primer untuk memastikan hubungan sebab
akibat tetap utuh. Kedua, kami menggunakan BDA-AI dan EV
masing-masing pada moderator tahap pertama dan kedua, penelitian
masa depan harus memeriksa moderator lain seperti sistem memori
transaktif pemangku kepentingan, daya serap karyawan dan
manajer. Ini akan memberikan jalan baru dan wawasan yang
bijaksana bagi para sarjana serta pembuat kebijakan untuk
mengubah desain EMS.
Judul Jurnal 3 : Big data analytics in smart cities’ transportation infrastructure
modernization
Penerbit : Transportation Research Procedia
Abtsrak : Using big data in supply chain management (SCM) has the potential to
have a significant impact on the industry in general and international
transportation in particular. Big data have a direct influence on
transportation capacity in future cities. There has been a significant
increase in urbanization over the last decade in which one in three
Tugas 03
people will live in an urban area by 2050. An updated transportation
infrastructure is essential to keep up with the present flow of goods,
while also limiting its impact on the environment and human health and
this is likely to be achieved using big data analytics technique. To
overcome this problem, smart cities are becoming more popular. With
the use of information and communication technology (ICT), a smart
city aims to address public concerns in an inclusive, municipally-based
partnership. A big data transportations system may be built using the
superstructure of a smart city. A good way to define it is the modeling
and analysis of urban transportation and distribution networks using
enormous data sets created by GPS, mobile phones, and transactional
data from company activities. Big Data analytics may be used in public
transportation to better understand how people go about the city. A
better understanding of passengers' travel patterns might help
transportation providers make better judgments regarding service
quality. People who travel by automobile on a regular basis may now be
predicted based on the triangulation of mobile phone data from millions
of anonymous users. Local and national polls may demonstrate the
paradigm's applicability. To compute the time it takes for passengers to
board and exit trains, Metro and iBus vehicle position data may be
combined with information from smart cards. Big Data analytics for
traffic management may benefit from these findings.
Penjelasan Data:
Smart city dan aplikasi big data pada moda transportasi
Metode:
Metode penelitian kualitatif menggunakan data sekunder dan teori
pendukung big data dan information and communication technology
(ICT).
Tujuan:
- Untuk mengatasi masalah publik secara inklusif, berbasis kota
Kemitraan.
- Untuk berkontribusi pada teori operasi dengan menyelidiki
bagaimana big data memengaruhi infrastruktur transportasi di
smart city.
Manfaat:
Data besar harus kuat, dapat diakses, dan dapat dipahami untuk
memberikan kota dan perusahaan dengan signifikan
kemungkinan dan solusi mengenai infrastruktur transportasi yang
solid. Administrator kota masa depan akan menginginkan
alat strategis untuk mencapai visi mereka tentang sistem
transportasi yang efisien dan produktif.
Analisa:
Analisa yang dilakukan menggunakan analisa kualitatif dari teori
big data, penelitian sebelumnya, dan hipotesa.
Tugas 03
Hasil:
Penelitian ini mengusulkan paradigma baru untuk smart city
berbasis big data untuk meningkatkan infrastruktur transportasi.
Saran:
Kajian ini hanya mengandalkan teori pendukung big data khususnya
untuk manajemen transportasi di kota pintar (smart city), penelitian
ini kurang memanfaatkan data primer mengenai pendapat
masyarakat kota besar mengenai pemanfaatan big data dalam
manajemen transportasi di smart city.
References
Khan, A., & Tao, M. (2022). Knowledge absorption capacity’sefﬁcacy to enhance innovation
performance through big data analytics and digital platform capability. Jurnal of
Innovation & Knowledge.
Ushakov, D., Dudukalov, E., Mironenko, E., & Shatila, K. (2022). Big data analytics in smart
cities’ transportation infrastructure Modernization. Transportation Research Procedia.
Zhang, Q., Gao, B., & Luqman, A. (2022). Linking green supply chain management practices with
competitiveness during covid 19: The role of big data analytics. Elsevier: Technology in
Society.
- https://www.dqlab.id/perbedaan-teknik-analisis-data-kualitatif-vs-kuantitatif
- https://softscients.com/2020/11/12/mengenal-spark-mllib-untuk-big-data-dan-
machine-learning/
- https://binus.ac.id/bandung/2019/12/algoritma-naive-bayes/
- https://blog.algorit.ma/kelebihan-naive-bayes/
- http://kk.sttbandung.ac.id/id3/2-3042-2940/Aturan-Bayes_52206_kk-
sttbandung.html
-
Tugas 03

Tk3 Big Data

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Tk3 Big Data

Diunggah oleh

Hak Cipta:

Format Tersedia

TIM 3:

1. Noer Lisna Anjani (2401983565)

Tugas Kelompok ke-3

Jawablah soal berikut dengan benar!

No Judul Penerbit Abstrak Penjelasan

COMP6725 - Big Data Technologies

2. Macam-macam Spark Tools

Spark SQL adalah library yang mengintegrasikan pemrosesan data relasional

MLlibadalah library yang berisi berbagai macam Algoritma Machine Learning

Spark MLlib merupakan library machine learning yang dapat di scale up

3. Berikut komponen-komponen yang ada dalam Spark MLlib :

Model algoritma yang sederhana dibanding Asumsi bahwa masing-masing

Bisa dipakai untuk data kuantitatif maupun Apabila probabilitas kondisionalnya

Dirancang untuk mendeteksi kata-kata

Jika ada nilai yang hilang, maka bisa diabaikan

Perhitungannya cepat dan efisien

Bisa digunakan untuk klasifikasi masalah biner

Pengklasifikasian dokumen dapat

Dapat digunakan untuk berbagai macam Dapat digunakan sebagai alat

Penerbit : Journal Innovation Knowledge

Tujuan: mengeksplorasi rintangan kontemporer yang menyebabkan

Manfaat: mengusulkan bahwa kapasitas penyerapan pengetahuan

Analisa: penelitian ini berkontribusi pada literatur tentang BDAC (Big

Hasil: Hasil ini membuktikan bahwa KAC (knowledge absorption

Saran: karena penelitian dilakukan pada masa pandemi Covid-19, data

Judul Jurnal 2 : Linking green supply chain management practices with

Penerbit : Elvesier, Technology in Society

Penerbit : Transportation Research Procedia

Anda mungkin juga menyukai