Nim : 12170009
Kelas : Data Science (A)
- Populasi
dalam inferensi statistik, populasi tidak hanya digunakan untuk menggambarkan
orang. Ini bisa berupa kumpulan objek atau unit, seperti tweet atau foto
- Observasi
jika kita bisa mengukur karakteristik atau mengekstraksi karakteristik semua objek
itu, kita akan memiliki satu set pengamatan yang lengkap.
- Sample
subset dari unit ukuran N untuk memeriksa pengamatan untuk menarik
kesimpulandan membuat kesimpulan tentang populasi
3. Jelaskan Perbedaan Antara Data Mining, Data Science dan Data Engineering !
Seringkali Data Science dipandang dalam arti luas sementara Data Mining
dianggap sebagai ceruk. Beberapa aktivitas dalam Penambangan Data seperti analisis
statistik, penulisan aliran data, dan pengenalan pola dapat bersinggungan dengan Data
Science. Oleh karena itu, Penambangan Data menjadi bagian dari Data Science .
- Data Mining
kegiatan yang merupakan bagian dari Penemuan Pengetahuan yang lebih luas
dalam Proses Databases (KDD) sementara Ilmu Data adalah bidang studi seperti
Matematika Terapan atau Ilmu Komputer.
- Data Science
bidang studi yang mencakup segala sesuatu dari Big Data Analytics, Data Mining,
Predictive Modeling, Visualisasi Data, Matematika, dan Statistik
- Dtaa Engineering
Bidang yang mencakup tentang segala codingan dan pengembangan memastikan
aliran kualitas, ujung ke ujung
- MODEL
Selanjutnya, kami merancang model kami untuk menggunakan beberapa
algoritma seperti k-tetangga terdekat (k-NN), regresi linier, Naif Bayes, atau yang
lainnya. Model yang kami pilih tergantung pada jenis masalah yang kami coba
selesaikan, tentu saja, yang bisa berupa masalah klasifikasi, masalah prediksi, atau
masalah deskripsi dasar.
- COMMUNICATE
Kami kemudian dapat menafsirkan, memvisualisasikan, melaporkan, atau
mengomunikasikan hasil kami. Ini bisa berbentuk pelaporan hasilnya kepada bos
atau rekan kerja kami, atau menerbitkan makalah dalam jurnal dan keluar dan
memberikan ceramah akademis tentang hal itu.
- BUILD DATA PRODUCT
1. Atau, tujuan kami mungkin untuk membangun atau membuat prototipe
"produk data"; mis., klasifikasi spam, atau algoritma peringkat pencarian, atau
sistem rekomendasi. Sekarang kunci di sini yang membuat ilmu data istimewa
dan berbeda dari statistik adalah bahwa produk data ini kemudian dimasukkan
kembali ke dunia nyata, kemudian, pengguna berinteraksi dengan produk itu,
dan yang menghasilkan lebih banyak data, yang menciptakan umpan balik
2. Pertimbangkan perulangan ini dalam setiap analisis yang Anda lakukan
dengan menyesuaikan bias apa pun yang disebabkan oleh model Anda. Model
Anda tidak hanya memprediksi masa depan, tetapi juga menyebab
b. Sebutkan Peranan Data Science Dalam Langkah-langkah inti dalam proses Data
Science
- Dunia
1. manusia berperilaku
2. biologi
3. keuangan
4. Internet
5. Obat
6. Sosiologi
7. Olimpiade
- Data mentah dikumpulkan
1. Email
2. Log
3. rekam medis
4. survei
5. diambil darah
6. catatan olimpiade
7. Halaman web NYT (artikel)
- Proses Data
1. jaringan pipa
2. pengikisan web
3. pembersihan
4. munging
5. bergabung
6. perselisihan
- Membersihkan Data
1. Bersih
2. Pencilan
3. nilai yang hilang
4. debugging
5. meja
c. Berikan contoh penyelesaiannya masalah di kehidupan sehari-hari dengan
memperhatikan langkah-langkah inti dalam proses Data Science
data berita hoax, baik itu dari sosial media ataupun dari situs web yang khusus
menyajikan berita untuk khalayak umum. Langkah yang di ambil untuk mencari daya
yakni dapat mencari dataset yang telah tersedia di berbagai website, contoh nya
turnbackhoax.id adalah sebuah situs web yang menyediakan datadata tersebut,
terlebih situs ini mengkhususkan diri untuk menyediakan berita hoax dan non-hoax
yang sudah diklasifikasikan berdasarkan hasil diskusi dan penelusuran fakta yang
dilakukan oleh anggotanya maupun informasi-informasi yang didapatkan dari non-
anggota yang membagikan fakta atau hanya sekedar untuk mengklarifikasi sebuah
berita.
- PREDICTION
Mirip dengan klasifikasi, kecuali bahwa kami mencoba memprediksi nilai variabel
numerik (mis., Jumlah pembelian) daripada kelas (mis., Pembeli atau bukan pembeli).
Dalam klasifikasi kami mencoba untuk memprediksi suatu kelas, tetapi istilah
prediksi mengacu pada prediksi nilai variabel kontinu. (Terkadang dalam literatur
data mining, istilah estimasi dan regresi digunakan untuk merujuk pada prediksi nilai
variabel kontinu, dan prediksi dapat digunakan untuk data kontinu dan kategorikal.)
- PREDICTIVE ANALYTICS
Klasifikasi, prediksi, dan sampai batas tertentu, aturan asosiasi dan penyaringan
kolaboratif merupakan metode analitik yang digunakan dalam analitik prediktif.
Istilah analytics prediktif kadang-kadang digunakan juga untuk memasukkan metode
identifikasi pola data seperti pengelompokan.
- SUPERVISED LEARNING
Data mengandung hasil yang diketahui. data validasi di mana hasilnya diketahui
tetapi awalnya disembunyikan, untuk melihat seberapa baik hasilnya dibandingkan
dengan model lain.
- UNSUPERVISED LEARNING
Algoritma pembelajaran yang tidak diawasi adalah yang digunakan di mana tidak ada
variabel hasil untuk memprediksi atau mengklasifikasikan. Oleh karena itu, tidak ada
"belajar" dari kasus-kasus di mana variabel hasil diketahui. Aturan asosiasi, metode
pengurangan dimensi, dan teknik pengelompokan semua metode pembelajaran yang
tidak diawasi.
b. SelesaikaN dengan menggunakan Top-K dan Skyline Jelaskan proses atau langkah-
langkah penyelesaian secara detail.
- Top-K
A1 A2 A3 A4 A5 Id A1 A2 A3 A4 A5
O2 25 O0 37 O0 35 O2 49 O2 33 O2 25 40 42 49 33
O0 50 O2 40 O2 42 O0 43 O1 27 O0 50 37 35 43 20
O4 05 O4 02 O1 07 O4 30 O0 20 O1 05 02 30 30 27
O3 15 O1 49 O3 15 O3 01 O3 15 O4 05 02 30 30 15
O1 20 O3 07 O4 30 O1 30 O4 27
Langkah diatas ini pada table pertama data belum
diurut oleh karena itu data nya harus diurutkan habis diurutkan kita jumlahin id Dari 02 sampai
04. setelah dijumlahin kita ambil nilai tertinggi. Jadi yang tertinggi disini yaitu Id o2 sama O0.
Jumlah :
199
185
133
82
Buffer : 199
185
207
A1 A2 A3 A4 A5 Id A1 A2 A3 A4 A5
O2 25 O0 37 O0 35 O2 49 O2 33 O2 25 40 42 49 33
O0 50 O2 40 O2 42 O0 43 O1 27 O0 50 37 35 43 20
O4 05 O4 02 O1 07 O4 30 O0 20 O4 05 02 30 30 15
O3 15 O1 49 O3 15 O3 01 O3 15
O1 20 O3 07 O4 30 O1 30 O4 27
P1 : T= 25+37+35+49+33 = 179
P2 : T= 50+40+42+43+27 = 202
- Skyline
Kos Price (in thousand $) Distance(m)
K1 50 750
K2 700 250
K3 350 300
K4 650 500
K5 450 650
K6 800 50
K7 200 150
K8 100 600
K9 500 100
K10 250 700
Tabel diatas merupakan contoh data dari kos.
c. Berikan analisis hasilnya
Untuk hasilnya kita dapatkan dari Top-k yaitu hasil dari buffer nya sendiri 199 sma
185 dan P1 dan P2 Kita dapat hasil dengan menjumlahkan O2 dan O0 dari table
pertama untuk dan skyline kita bikin tabel dari kos.