Anda di halaman 1dari 6

Nama : Nurzulhijjah

Nim : 12170009
Kelas : Data Science (A)

1. Jelaskan Perbedaan Antara Populasi, Observasi, Dan Sample !

- Populasi
dalam inferensi statistik, populasi tidak hanya digunakan untuk menggambarkan
orang. Ini bisa berupa kumpulan objek atau unit, seperti tweet atau foto
- Observasi
jika kita bisa mengukur karakteristik atau mengekstraksi karakteristik semua objek
itu, kita akan memiliki satu set pengamatan yang lengkap.
- Sample
subset dari unit ukuran N untuk memeriksa pengamatan untuk menarik
kesimpulandan membuat kesimpulan tentang populasi

2. Sebutkan Tahpan-Tahapan EDA !

- Buat pertanyaan tentang data Anda siklus berulang


- Cari jawaban dengan memvisualisasikan, mengubah, dan memodelkan data Anda.
- Gunakan apa yang Anda pelajari untuk memperbaiki pertanyaan Anda dan / atau
menghasilkan pertanyaan baru.

3. Jelaskan Perbedaan Antara Data Mining, Data Science dan Data Engineering !
Seringkali Data Science dipandang dalam arti luas sementara Data Mining
dianggap sebagai ceruk. Beberapa aktivitas dalam Penambangan Data seperti analisis
statistik, penulisan aliran data, dan pengenalan pola dapat bersinggungan dengan Data
Science. Oleh karena itu, Penambangan Data menjadi bagian dari Data Science .

- Data Mining
kegiatan yang merupakan bagian dari Penemuan Pengetahuan yang lebih luas
dalam Proses Databases (KDD) sementara Ilmu Data adalah bidang studi seperti
Matematika Terapan atau Ilmu Komputer.

- Data Science
bidang studi yang mencakup segala sesuatu dari Big Data Analytics, Data Mining,
Predictive Modeling, Visualisasi Data, Matematika, dan Statistik
- Dtaa Engineering
Bidang yang mencakup tentang segala codingan dan pengembangan memastikan
aliran kualitas, ujung ke ujung

4. Proses Data Science


a. Jelaskan Tiap Langka-langkah inti dalam proses Data Science !
- REAL WORD
Di dalam Dunia Nyata ada banyak orang yang sibuk di berbagai kegiatan.
Beberapa orang menggunakan Instagram, yang lain melakukan olahraga, dan ada
pengirim spam yang mengirim spam. Katakanlah kita memiliki data tentang salah
satu dari hal-hal ini.

- RAW DATA IS COLLECTED → CLEAN DATA


Secara khusus, kita akan mulai dengan data mentah — log, catatan, atau email.
Kami ingin memproses ini agar bersih untuk analisis. Akhirnya kami
mendapatkan data ke format yang bagus, seperti sesuatu dengan kolom: name |
acara | tahun | jenis kelamin | waktu acara Jadi kami membangun dan
menggunakan jalur pipa data munging: bergabung, memo, perselisihan, atau apa
pun yang Anda ingin menyebutnya. Untuk melakukan ini, kami menggunakan
alat seperti Python, atau R.

- EXPLORATORY DATA ANALYSIS (EDA)


Setelah kita memiliki dataset bersih ini, kita harus melakukan semacam EDA.
Saat melakukan EDA, kita mungkin menyadari bahwa itu tidak benar-benar
bersih karena duplikat, nilai yang hilang, pencilan yang absurd, dan data yang
tidak benar-benar dicatat atau tidak dicatat dengan benar. Jika itu masalahnya,
kami mungkin harus kembali untuk mengumpulkan lebih banyak data, atau
menghabiskan lebih banyak waktu membersihkan dataset.

- MODEL
Selanjutnya, kami merancang model kami untuk menggunakan beberapa
algoritma seperti k-tetangga terdekat (k-NN), regresi linier, Naif Bayes, atau yang
lainnya. Model yang kami pilih tergantung pada jenis masalah yang kami coba
selesaikan, tentu saja, yang bisa berupa masalah klasifikasi, masalah prediksi, atau
masalah deskripsi dasar.

- COMMUNICATE
Kami kemudian dapat menafsirkan, memvisualisasikan, melaporkan, atau
mengomunikasikan hasil kami. Ini bisa berbentuk pelaporan hasilnya kepada bos
atau rekan kerja kami, atau menerbitkan makalah dalam jurnal dan keluar dan
memberikan ceramah akademis tentang hal itu.
- BUILD DATA PRODUCT
1. Atau, tujuan kami mungkin untuk membangun atau membuat prototipe
"produk data"; mis., klasifikasi spam, atau algoritma peringkat pencarian, atau
sistem rekomendasi. Sekarang kunci di sini yang membuat ilmu data istimewa
dan berbeda dari statistik adalah bahwa produk data ini kemudian dimasukkan
kembali ke dunia nyata, kemudian, pengguna berinteraksi dengan produk itu,
dan yang menghasilkan lebih banyak data, yang menciptakan umpan balik
2. Pertimbangkan perulangan ini dalam setiap analisis yang Anda lakukan
dengan menyesuaikan bias apa pun yang disebabkan oleh model Anda. Model
Anda tidak hanya memprediksi masa depan, tetapi juga menyebab

b. Sebutkan Peranan Data Science Dalam Langkah-langkah inti dalam proses Data
Science

- Dunia
1. manusia berperilaku
2. biologi
3. keuangan
4. Internet
5. Obat
6. Sosiologi
7. Olimpiade
- Data mentah dikumpulkan
1. Email
2. Log
3. rekam medis
4. survei
5. diambil darah
6. catatan olimpiade
7. Halaman web NYT (artikel)
- Proses Data
1. jaringan pipa
2. pengikisan web
3. pembersihan
4. munging
5. bergabung
6. perselisihan
- Membersihkan Data
1. Bersih
2. Pencilan
3. nilai yang hilang
4. debugging
5. meja
c. Berikan contoh penyelesaiannya masalah di kehidupan sehari-hari dengan
memperhatikan langkah-langkah inti dalam proses Data Science

data berita hoax, baik itu dari sosial media ataupun dari situs web yang khusus
menyajikan berita untuk khalayak umum. Langkah yang di ambil untuk mencari daya
yakni dapat mencari dataset yang telah tersedia di berbagai website, contoh nya
turnbackhoax.id adalah sebuah situs web yang menyediakan datadata tersebut,
terlebih situs ini mengkhususkan diri untuk menyediakan berita hoax dan non-hoax
yang sudah diklasifikasikan berdasarkan hasil diskusi dan penelusuran fakta yang
dilakukan oleh anggotanya maupun informasi-informasi yang didapatkan dari non-
anggota yang membagikan fakta atau hanya sekedar untuk mengklarifikasi sebuah
berita.

5. Sebutkan Dan jelaskan langkah-langkah inti dalam proses data mining

- PREDICTION
Mirip dengan klasifikasi, kecuali bahwa kami mencoba memprediksi nilai variabel
numerik (mis., Jumlah pembelian) daripada kelas (mis., Pembeli atau bukan pembeli).
Dalam klasifikasi kami mencoba untuk memprediksi suatu kelas, tetapi istilah
prediksi mengacu pada prediksi nilai variabel kontinu. (Terkadang dalam literatur
data mining, istilah estimasi dan regresi digunakan untuk merujuk pada prediksi nilai
variabel kontinu, dan prediksi dapat digunakan untuk data kontinu dan kategorikal.)

- ASSOCIATION RULES AND RECOMMENDATION SYSTEMS


Aturan asosiasi, atau analisis afinitas, dirancang untuk menemukan pola asosiasi
umum antara item dalam database besar. Aturan kemudian dapat digunakan dalam
berbagai cara.

- PREDICTIVE ANALYTICS
Klasifikasi, prediksi, dan sampai batas tertentu, aturan asosiasi dan penyaringan
kolaboratif merupakan metode analitik yang digunakan dalam analitik prediktif.
Istilah analytics prediktif kadang-kadang digunakan juga untuk memasukkan metode
identifikasi pola data seperti pengelompokan.

- DATA REDUCTION AND DIMENSION REDUCTION


Proses konsolidasi sejumlah besar catatan (atau kasus) ke dalam set yang lebih kecil
disebut pengurangan data. Mengurangi jumlah variabel biasanya disebut pengurangan
dimensi. Reduksi dimensi adalah langkah awal yang umum sebelum menerapkan
metode penambangan data, yang dimaksudkan untuk meningkatkan daya prediksi,
kemampuan mengelola, dan kemampuan menafsirkan

- SUPERVISED LEARNING
Data mengandung hasil yang diketahui. data validasi di mana hasilnya diketahui
tetapi awalnya disembunyikan, untuk melihat seberapa baik hasilnya dibandingkan
dengan model lain.

- UNSUPERVISED LEARNING
Algoritma pembelajaran yang tidak diawasi adalah yang digunakan di mana tidak ada
variabel hasil untuk memprediksi atau mengklasifikasikan. Oleh karena itu, tidak ada
"belajar" dari kasus-kasus di mana variabel hasil diketahui. Aturan asosiasi, metode
pengurangan dimensi, dan teknik pengelompokan semua metode pembelajaran yang
tidak diawasi.

6. Temuka Permasalahan di kehidupan sehari-hari yang dapat diselesaikan dengan


implementasi Top-K dan Skyline.
a. Jelaskan Permasalahan Dan data yang anda gunakan

Hoax bertumbuh-kembang seiring dengan popularitas media sosial. Media sosial


memungkinan semua orang menjadi penyebar berita, bahkan seringkali mereka
membuat berita yang mereka bikin sendiri atau yang dibuat-buat . data yang
digunakan adalah data berita hoax, baik itu dari sosial media ataupun dari situs web
yang khusus menyajikan berita untuk khalayak umum.

b. SelesaikaN dengan menggunakan Top-K dan Skyline Jelaskan proses atau langkah-
langkah penyelesaian secara detail.

- Top-K
A1 A2 A3 A4 A5 Id A1 A2 A3 A4 A5
O2 25 O0 37 O0 35 O2 49 O2 33 O2 25 40 42 49 33
O0 50 O2 40 O2 42 O0 43 O1 27 O0 50 37 35 43 20
O4 05 O4 02 O1 07 O4 30 O0 20 O1 05 02 30 30 27
O3 15 O1 49 O3 15 O3 01 O3 15 O4 05 02 30 30 15
O1 20 O3 07 O4 30 O1 30 O4 27
Langkah diatas ini pada table pertama data belum
diurut oleh karena itu data nya harus diurutkan habis diurutkan kita jumlahin id Dari 02 sampai
04. setelah dijumlahin kita ambil nilai tertinggi. Jadi yang tertinggi disini yaitu Id o2 sama O0.
Jumlah :
199
185
133
82
Buffer : 199
185
207
A1 A2 A3 A4 A5 Id A1 A2 A3 A4 A5
O2 25 O0 37 O0 35 O2 49 O2 33 O2 25 40 42 49 33
O0 50 O2 40 O2 42 O0 43 O1 27 O0 50 37 35 43 20
O4 05 O4 02 O1 07 O4 30 O0 20 O4 05 02 30 30 15
O3 15 O1 49 O3 15 O3 01 O3 15
O1 20 O3 07 O4 30 O1 30 O4 27
P1 : T= 25+37+35+49+33 = 179
P2 : T= 50+40+42+43+27 = 202

- Skyline
Kos Price (in thousand $) Distance(m)
K1 50 750
K2 700 250
K3 350 300
K4 650 500
K5 450 650
K6 800 50
K7 200 150
K8 100 600
K9 500 100
K10 250 700
Tabel diatas merupakan contoh data dari kos.
c. Berikan analisis hasilnya
Untuk hasilnya kita dapatkan dari Top-k yaitu hasil dari buffer nya sendiri 199 sma
185 dan P1 dan P2 Kita dapat hasil dengan menjumlahkan O2 dan O0 dari table
pertama untuk dan skyline kita bikin tabel dari kos.

Anda mungkin juga menyukai