Anda di halaman 1dari 11

YULIA EKA PUTRI MUCHTAR

1825041024

PTA S1 B/02

TUGAS PERTEMUAN 3

LATIHAN ULANGAN

1. Jelaskan definisi Big Data Analyst Menurut Mckinsey?


Jawaban:

“Big Data is data whose scale, distribution, diversity, and/or timeliness


require the use of new technical architectures and analytics to enable insights
that unlock new sources of business value”
“McKinsey & Co.; Big Data: The Next Frontier for Innovation, Competition,
and Productivity “

2. Sebutkan Hal-hal yang mendorong terjadinya banjir data?


Jawaban:

a. Mobile Sensors
b. Social Media
c. Video Surveillance
d. Video Rendering
e. Smart Grids
f. Geophysical Exploration
g. Medical Imaging
h. Gene Sequencing

3. Jelaskan contoh masing-masing dari empat tipe utama struktur data yang
mungkin terlihat?
Jawaban:

a. Terstruktur data: Data yang berisi tipe data yang ditentukan, format,
dan struktur (yaitu, data transaksi, pengolahan analitik online [OLAP]
data kubus, RDBMS tradisional, file CSV, dan bahkan spreadsheet
sederhana).
b. Data semi-terstruktur: File data tekstual dengan pola yang dapat
dilihat yang memungkinkan parsing (seperti file data Extensible
Markup Language [XML] yang mendeskripsikan diri dan ditentukan
oleh skema XML).
c. Quasi-structured data: Data tekstual dengan format data tidak menentu
yang dapat diformat dengan upaya, alat, dan waktu (misalnya, data
clickstream web yang mungkin berisi ketidakkonsistenan dalam nilai
dan format data).
d. Data tidak terstruktur: Data yang tidak memiliki struktur yang
melekat, yang mungkin termasuk dokumen teks, PDF, gambar, dan
video.

4. Apakah yang dimaksud dengan Perspektif Analisis Data Repositori?


Jawaban:

Pengenalan spreadsheets memungkinkan pengguna bisnis untuk membuat


logika sederhana pada data yang terstruktur dalam baris dan kolom dan
membuat analisis mereka sendiri tentang masalah bisnis. Pelatihan
administrator database tidak diperlukan untuk membuat spreadsheet: Mereka
dapat diatur untuk melakukan banyak hal dengan cepat dan independen dari
kelompok teknologi informasi (TI). Spreadsheets mudah dibagikan, dan
pengguna akhir memiliki kontrol atas logika yang terlibat. Namun, proliferasi
mereka dapat menghasilkan "banyak versi kebenaran." Dengan kata lain,
mungkin sulit untuk menentukan apakah pengguna tertentu memiliki versi
spreadsheet yang paling relevan, dengan data dan logika terbaru di dalamnya.
Selain itu, jika laptop hilang atau file menjadi rusak, data dan logika dalam
spreadsheet bisa hilang. Ini adalah tantangan berkelanjutan karena program
spreadsheet seperti Microsoft Excel masih berjalan di banyak komputer di
seluruh dunia. Dengan menjamurnya pulau data (atau menyebar martens),
kebutuhan untuk memusatkan data lebih mendesak dari sebelumnya.

Seiring dengan meningkatnya kebutuhan data, begitu pula solusi pergudangan


data yang lebih skalabel. Teknologi ini memungkinkan data dikelola secara
terpusat, memberikan manfaat keamanan, failover, dan repositori tunggal
tempat pengguna dapat mengandalkan sumber data "resmi" untuk pelaporan
keuangan atau tugas penting lainnya. Struktur ini juga memungkinkan
pembuatan kubus ANDAP dan 81 alat analitis, yang menyediakan akses
cepat ke satu set dimensi dalam RD8MS. Fitur yang lebih canggih
memungkinkan kinerja teknik analisis mendalam seperti regresi dan jaringan
syaraf. Enterprise Data Warehouses (EDWs) sangat penting untuk pelaporan
dan 81 tugas dan menyelesaikan banyak masalah yang berkembang biak
menyebar, seperti yang mana dari beberapa versi spreadsheet sudah benar.
EDWs dan strategi yang baik-81 menyediakan umpan data langsung dari
sumber yang dikelola secara terpusat, didukung, dan diamankan.

Meskipun manfaat EDW dan 81, sistem ini cenderung membatasi fleksibilitas
yang diperlukan untuk melakukan analisis data yang kuat atau eksplorasi.
Dengan model EDW, data dikelola dan dikendalikan oleh kelompok TI dan
administrator basis data (D8A), dan analis data harus bergantung pada TI
untuk akses dan perubahan pada skema data. Ini membebankan lead time
yang lebih lama bagi analis untuk mendapatkan data; sebagian besar waktu
dihabiskan untuk menunggu persetujuan daripada memulai pekerjaan yang
berarti. Selain itu, banyak kali aturan EDW membatasi analis dari
membangun dataset. Akibatnya, adalah umum untuk sistem tambahan untuk
muncul yang berisi data penting untuk membangun kumpulan data analitik,
yang dikelola secara lokal oleh pengguna daya. Kelompok TI umumnya tidak
menyukai keberadaan sumber data di luar kendali mereka karena, tidak
seperti EDW, kumpulan data ini tidak dikelola, diamankan, atau dicadangkan.
Dari perspektif analis, EDW dan 81 memecahkan masalah yang terkait
dengan akurasi dan ketersediaan data. Namun, EDW dan 81 memperkenalkan
masalah baru yang terkait dengan fleksibilitas dan kelincahan, yang kurang
menonjol ketika berhadapan dengan spreadsheet.

Ada beberapa hal yang perlu dipertimbangkan dengan proyek Big Data
Analytics untuk memastikan pendekatan sesuai dengan sasaran yang
diinginkan. Karena karakteristik Big Data, proyek-proyek ini memberikan
dukungan keputusan untuk pengambilan keputusan strategis bernilai tinggi
dengan kompleksitas pemrosesan yang tinggi. Teknik analitik yang
digunakan dalam konteks ini harus iteratif dan fleksibel, karena tingginya
volume data dan kompleksitasnya. Melakukan analisis yang cepat dan
kompleks membutuhkan koneksi jaringan throughput yang tinggi dan
pertimbangan untuk jumlah latensi yang dapat diterima. Misalnya,
mengembangkan rekomendasi produk real-time untuk situs web
memberlakukan tuntutan sistem yang lebih besar daripada mengembangkan
pendorong waktu nyata, yang mungkin masih memberikan kinerja yang dapat
diterima, memiliki latensi sedikit lebih besar, dan mungkin lebih murah untuk
diterapkan. Pertimbangan ini memerlukan pendekatan yang berbeda untuk
memikirkan tantangan analitik, yang akan dieksplorasi lebih lanjut di bagian
selanjutnya.
5. Berikanlah Contoh tentang Big data Analytics?
Jawaban:

Hadoop mewakili contoh lain dari inovasi Big Data pada infrastruktur TI.
Apache Hadoop adalah kerangka kerja open source yang memungkinkan
perusahaan untuk memproses sejumlah besar informasi dengan cara yang
sangat paralel. Hadoop merupakan implementasi spesifik dari paradigma
MapReduce dan dirancang oleh Doug Cutting dan Mike Cafarella pada tahun
2005 untuk menggunakan data dengan berbagai struktur. Ini adalah kerangka
teknis yang ideal untuk banyak proyek Big Data, yang bergantung pada
kumpulan data besar atau berat dengan struktur data yang tidak konvensional.
Salah satu manfaat utama dari Hadoop adalah menggunakan sistem file
terdistribusi, yang berarti dapat menggunakan sekumpulan server dan
perangkat keras komoditas terdistribusi untuk memproses sejumlah besar
data.

Beberapa contoh paling umum dari implementasi Hadoop adalah di ruang


media sosial, di mana Hadoop dapat mengelola transaksi, memberikan
pembaruan teks, dan mengembangkan grafik sosial di antara jutaan pengguna.
Twitter dan Facebook menghasilkan sejumlah besar data tidak terstruktur dan
menggunakan Hadoop dan ekosistem alat untuk mengelola volume tinggi ini.
Hadoop dan ekosistemnya tercakup dalam Bab 10, "Advanced
AnalyticsTechnology and Tools: MapReduce dan Hadoop."

Akhirnya, media sosial merupakan peluang luar biasa untuk meningkatkan


interaksi sosial dan profesional untuk memperoleh wawasan baru. Tertaut
Dalam memberikan contoh perusahaan tempat data itu sendiri adalah produk.
Sejak awal, pendiri Linkedln, Reid Hoffman melihat peluang untuk membuat
jejaring sosial bagi para profesional yang bekerja.

Pada 2014, Linkedln memiliki lebih dari 250 juta akun pengguna dan telah
menambahkan banyak fitur tambahan dan produk terkait data, seperti
perekrutan, alat pencari kerja, iklan, dan lnMaps, yang menunjukkan grafik
sosial dari jaringan profesional pengguna. Gambar 1-14 adalah contoh dari
visualisasi In Map yang memungkinkan pengguna Linked In untuk
mendapatkan pandangan yang lebih luas tentang keterkaitan kontaknya dan
memahami bagaimana dia tahu sebagian besar dari mereka.
6. Jelaskan Pengertian Data Warehouse?
Jawaban:

Data warehouse merupakan metode dalam perancangan database, yang


menunjang DSS(Decission Support System) dan EIS (Executive Information
System). Secara fisik data warehouse adalah database, tapi perancangan data
warehouse dan database sangat berbeda. Dalam perancangan database
tradisional menggunakan normalisasi, sedangkan pada data warehouse
normalisasi bukanlah cara yang terbaik.

7. Jelaskan Perbedaan Data Operasional dengan Data Warehouse?


Jawaban:

a. Data operasional dirancang beroperasi pada aplikasi dan fungsi


tertentu sedangkan data warehouse dirancang berdasar pada subjek-
subjek tertenrtu.
b. Data operasional fokusnya pada desain database dan proses sedangkan
data warehouse fokusnya pada pemodelan data dan desain data.
c. Data operasional berisi rincian atau detail data sedangkan data
warehouse berisi data-data gostory yang akan dipakai dalam proses
analisis.
d. Data operasional memiliki relasi antar tabel berdasar aturan terkini
sedangkan data warehouse banyak aturan bisnis dapat tersaji antara
tabel-tabel.

8. Sebutkan dan jelaskan 4 tugas Data warehouse Menurut Williams?


Jawaban:

a. Pembuatan Laporan.
Pembuatan laporan merupakan salah satu kegunaan data warehouse
yang paling umum dilakukan. Dengan menggunakan query sederhana
didapatkan laporan perhari,perbulan, pertahun atau jangka waktu
kapanpun yang diinginkan.

b. On-Line Analytical Processing.


Dengan adanya data warehouse,semua informasi baik detail maupun
hasil summary yang dibutuhkan dalam proses analisa mudah didapat.
OLAP mendayagunakan konsep data multi dimensi dan
memungkinkan para pemakai menganalisa data sampai mendetail,
tanpa mengetikkan satupun perintah SQL. Hal ini dimungkinkan
karena pada konsep multi dimensi, maka data yang berupa fakta yang
sama bisa dilihat dengan menggunakan fungsi yang berbeda. Fasilitas
lain yang ada pada sofware OLAP adalah fasilitas rool-up dan drill-
down. Drill-down adalah kemampuan untuk melihat detail dari suatu
informasi dan roll-up adalah kebalikannya.

c. Sebagai Data Mining


Data mining merupakan proses untuk menggali(mining) pengetahuan
dan informasi baru dari data yang berjumlah banyak pada data
warehouse, dengan menggunakan kecerdasan buatan (Artificial
Intelegence), statistik dan matematika. Data mining merupakan
teknologi yang diharapkan dapat menjembatani komunikasi antara
data dan pemakainya.

d. Proses Informasi Executive


Data warehouse dapat membuat ringkasan informasi yang penting
dengan tujuan membuat keputusan bisnis, tanpa harus menjelajahi
keseluruhan data. Dengan menggunakan data warehouse segala
laporan telah diringkas dan dapat pula mengetahui segala rinciannya
secara lengkap, sehingga mempermudah proses pengambilan
keputusan. Informasi dan data pada laporan data warehouse menjadi
target informative bagi user.

9. Apakah yang dimaksud dengan Metadata dalam Warehouse?


Jawaban:

Metadata dalam sebuah Data Warehouse mirip dengan kamus data atau
katalog data dalam sebuah DBMS. Dalam kamus data, informasi seperti
struktur data dijaga, informasi mengenai file dan alamatnya, informasi
mengenai indeks dan lain sebagainya. Kamus data berisikan data tentang data
di dalam database. Komponen Metadata adalah data mengenai data di dalam
Data Warehouse. Metadata di dalam Data Warehouse mirip dengan sebuah
sebuah kamus data, namun lebih dari sekedar kamus data.

10. Mengapa metadata sangat penting dalam Data Warehouse?


Jawaban:

Metadata sangat penting dalam Data Warehouse, karena :


a. Pertama, ia bertindak sebagai perekat yang menghubungkan semua
bagian DataWarehouse.
b. Kemudian, menyediakan informasi mengenai isi dan struktur
pengembang.
c. Akhirnya, membuka pintu bagi pengguna-akhir dan menjadikan isinya
dapat dikenali dengan terminologinya mereka sendiri.

11. Jelaskan secara singkat yang dimaksud data mining?


Jawaban:

Data mining adalah suatu algoritma di dalam menggali informasi berharga


yang terpendam atau tersembunyi pada suatu koleksi data (database) yang
sangat besar sehingga ditemukan suatu pola yang menarik yang sebelumnya
tidak diketahui.

12. Jelaskan tujuan dari penggunaan data mining?


Jawaban:

Tujuan penggunaan data mining adalah “menggali” hal-hal penting yang


belum diketahui sebelumnya atau memprediksi apa yang akan terjadi.

13. Sebutkan dan jelaskan tugas utama dari data mining?


Jawaban:

a. Klasifikasi adalah fungsi pembelajaran yang memetakan


(mengklasifikasi) sebuah unsur (item) data ke dalam salah satu dari
beberapa kelas yang sudah didefinisikan. Gambar 3.5 menunjukkan
pembagian sederhana pada data peminjaman menjadi dua ruang kelas
(punya dan tidak punya peminjaman).
b. Regresi adalah fungsi pembelajaran yang memetakan sebuah unsur
data ke sebuah variabel prediksi bernilai nyata. Aplikasi dari regresisi
ini misalnya adalah pada prediksi volume biomasa di hutan dengan
didasari pada pengukuran gelombang mikro penginderaan jarak jauh
(remotely-sensed), prediksi kebutuhan kustomer terhadap sebuah
produk baru sebagai fungsi dari pembiayaan advertensi, dll.
c. Pengelompokan (clustering) merupakan tugas deskripsi yang banyak
digunakan dalam mengidentifikasi sebuah himpunan terbatas pada
kategori atau cluster untuk mendeskripsikan data yang ditelaah.
Kategori-kategori ini dapat bersifat eksklusif dan ekshaustif mutual,
atau mengandung representasi yang lebih kaya seperti kategori yang
hirarkis atau saling menumpu (overlapping). Gambar 4 menunjukkan
pembagian himpunan data peminjaman menjadi 3 cluster. Di sini,
cluster - cluster dapat saling menumpu, sehingga titik-titik data dapat
menjadi anggota lebih dari satu cluster.

14. Bagaimana cara kerja data mining?


Jawaban:

Bagaimana tepatnya data mining “menggali” hal-hal penting yang belum


diketahui sebelumnya atau memprediksi apa yang akan terjadi? Teknik yang
digunakan untuk melaksanakan tugas ini disebut pemodelan. Pemodelan di
sini dimaksudkan sebagai kegiatan untuk membangun sebuah model pada
situasi yang telah diketahui “jawabannya” dan kemudian menerapkannya
pada situasi lain yang akan dicari jawabannya. Sebagai contoh di sini diambil
pencarian solusi bisnis di bidang telekomunikasi3. Ada beberapa perusahaan
telekomunikasi yang beroperasi di sebuah negara dan dimisalkan pihak
manajemen sebuah perusahaan bermaksud untuk menjaring kustomer baru
untuk jasa layanan sambungan langsung jarak jauh (SLJJ).

Pihak manajemen dapat “menghubungi” calon-calon kustomer dengan


memilih secara acak kemudian menawari mereka dengan diskon khusus,
dengan hasil yang kemungkinan besar kurang menggemberikan, atau dengan
memanfaatkan pengalaman-pengalaman bisnis yang saat ini sudah tersimpan
di basis data perusahaan untuk membangun sebuah model. Perusahaan ini
telah memiliki banyak informasi mengenai kustomer perusahaan tersebut:
umur, jenis kelamin, sejarah penggunaan fasilitas kredit dan penggunaan
SLJJ. Juga sudah diketahui informasi mengenai calon-calon kustomer: umur,
jenis kelamin, sejarah penggunaan fasilitas kredit, dll. Masalahnya adalah
penggunaan SLJJ untuk para calon kustomer ini belum diketahui, karena
mereka saat ini menjadi kustomer dari perusahaan lain. Yang dipikirkan pihak
manajemen adalah mencari calon kustomer yang akan menggunakan banyak
jasa SLJJ. Usaha untuk mencari jawaban masalah ini dilakukan dengan
membangun sebuah model.

15. Sebutkan dan jelaskan Metodologi Data Mining Yang Populer?


Jawaban:

a. Aturan dan Pohon Keputusan


Metodologi ini, yang menggunakan pemisahan (split) univariate,
mudah dipahami oleh pemakai karena bentuk representasinya yang
sederhana. Akan tetapi, batasan-batasan yang diterapkan pada
representasi aturan dan pohon tertentu dapat secara signifikan
membatasi bentuk fungsional dari model. Sebagai contoh, Gambar 2
memberikan ilustrasi mengenai efek penerapan pemisahan, yang
didasarkan pada nilai ambang tertentu, pada variabel penghasilan
(income) di himpunan data peminjaman : sangat jelas terlihat bahwa
penerapan pemisahan nilai ambang sederhana sangat membatasi tipe
batas (boundary) klasifikasi yang dapat dihasilkan. Jika ruang model
dilebarkan untuk memfasilitasi ekspresi-ekspresi yang lebih umum
(misalnya multivariate hyperplanes pada berbagai sudut), maka model
ini menjadi lebih canggih untuk prediksi. Hanya saja, mungkin akan
lebih sulit untuk dipahami pemakai. Metodologi ini terutama
digunakan untuk pemodelan prediksi, keduanya untuk klasifikasi dan
regresi4. Selain itu, dapat digunakan juga untuk pemodelan deskripsi
ringkasan.

b. Metodologi Klasifikasi dan Regresi Non-Linier


Kedua metodologi ini terdiri dari sekumpulan teknik-teknik untuk
memprediksi kombinasi variabel-variabel masukan yang pas dengan
kombinasi linier dan non-linier pada fungsi-fungsi dasar (sigmoid,
splines, polinomial). Contohnya antara lain adalah jaringan saraf
feedforward, metodologi spline adaptif, dan proyeksi regresi pursuit.
Gambar 5 menunjukkan tipe boundary keputusan non-linier yang
mungkin dihasilkan oleh jaringan saraf. Metodologi regresi non-linier,
walaupun canggih dalam representasinya, mungkin sulit untuk
diinterpretasikan.

c. Metodologi Berbasis Sampel


Representasi dari metodologi ini cukup sederhana: gunakan sampel
dari basis data untuk mengaproksimasi sebuah model, misalnya,
prediksi sampel-sampel baru diturunkan dari properti sampel-sampel
yang “mirip” di dalam model yang prediksinya sudah diketahui.
Teknik ini misalnya adalah klasifikasi tetanggaterdekat, algoritma
regresi dan sistem reasoning berbasis-kasus.

d. Model Kebergantungan Grafik Probabilistik


Jawaban:

Model grafik menspesifikasikan kebergantungan probabilistik yang


mendasari sebuah model dalam menggunakan struktur grafik. Dalam
bentuknya yang paling sederhana, model ini menspesifikasikan
variabel-variabel mana yang bergantung satu sama lain. Pada
umumnya, model ini digunakan dengan variabel kategorial atau
bernilai diskret, tapi pengembangan untuk kasus khusus, seperti
densitas Gausian, untuk variabel yang bernilai real (pecahan) juga
dimungkinkan. Baru-baru ini riset di bidang inteligensia buatan dan
statistic dilakukan untuk mencari teknik dimana struktur dan
parameter-parameter pada model grafik “dipelajari” secara langsung
dari basisdata.

e. Model Belajar Relasional


Jika aturan dan pohon-keputusan memiliki sebuah representasi yang
terbatas pada logika proporsional, pembelajaran relasional (yang juga
dikenal sebagai pemrograman logika induksi) menggunakan bahasa
pola yang lebih sederhana dengan logika tingkatsatu. Pembelajar
relasional dengan mudah dapat menemukan formula seperti X=Y.
Kebanyakan riset pada metodologi evaluasi model untuk
pembelajaran relasional bersifat logik.

f. Teknologi yang Mendatangkan Profit


Banyak perusahaan yang sudah meluncurkan aplikasi data mining
(KDD) dan telah mendapatkan keuntungan. Teknologi ini tidak hanya
cocok untuk digunakan oleh industri- industri yang mengelola
informasi secara intensif seperti perbankan, tetapi juga perusahaan apa
saja yang ingin memanfaatkan gudang data untuk memanajemen
kustomer dengan lebih baik.

g. Pengembangan KDD Data Mining


Walaupun telah banyak diaplikasikan di dunia bisnis dan
mendatangkan profit, teknologi KDD dan Data Mining masih
memiliki tantangan-tantangan yang harus diatasi. Riset untuk
menyempurnakan KDD diperlukan antar lain untuk mengatasi :
 Basisdata yang berukuran besar, dengan ratusan tabel, jutaan
record dan berukuran sampai dengan multigigabyte.
 Dimensi yang besar, basisdata tidak hanya memiliki jutaan
rekord tetapi juga jumlah field (atribut, variabel) yang besar.
 Data dan pengetahuan yang berubah terus sehingga pola-pola
yang telah ditemukan sebelumnya menjadi tidak berlaku lagi.
 Data yang hilang dan banyak salah, hal ini banyak terjadi pada
basis data.
 Relasi antar-field basisdata yang kompleks. Saat ini data
mining masih dirancang untuk relasi yang cukup sederhana.
 Integrasi dengan sistem lain. Sistem KDD standalone bisa jadi
agak kurang bermanfaat. Integrasi yang dimaksud bisa terjadi
dengan DBMS, kakas-kakas spreadsheet dan visualisasi, serta
pencatat sensor waktu-nyata.

Anda mungkin juga menyukai