Anda di halaman 1dari 7

Nama : Ida Widiarti

Npm : 22219889
Kelas : 2EB15
Praktikum Team Teaching M9

Data Science

Data Science atau Ilmu Data adalah bidang antar disiplin yang menggunakan metode, proses,
algoritme, dan sistem ilmiah untuk mengekstrak pengetahuan dan wawasan dari data
terstruktur dan tidak terstruktur, serta menerapkan pengetahuan dan wawasan yang dapat
ditindaklanjuti dari data di berbagai domain aplikasi. Data science bukan sebuah bidang yang
berdiri sendiri. Bidang ini merupakan kombinasi dari berbagai bidang termasuk Ilmu
Komputer, Matematika, Statistik, dan Strategi Bisnis. Tiga komponen yang terlibat dalam
data science, yaitu :

 Organising data adalah proses penyimpanan data yang digabungkan dengan


manajemen data.
 Packaging data merupakan proses manipulasi dan penggabungan data mentah yang
akan direpresentasikan.
 Delivering data merupakan proses untuk memastikan bahwa pesan data telah diakses
oleh mereka yang memerlukannya.

Menurut research tahun 2011, pada tahun 2020 dunia akan menghasilkan 50 kali lipat data
dibandingkan tahun 2011. Jadi dengan peningkatan aliran data yang drastis tersebut, akan
muncul alat-alat baru yang dapat digunakan untuk memanfaatkan data mentah dengan tepat.
Data science mencakup semua alat, teknik, dan teknologi yang akan membantu kita
menangani peningkatan aliran data tersebut. Data science merupakan perpaduan
interdisipliner dari penurunan data, pengembangan algoritma, dan teknologi untuk
memecahkan masalah analitik yang kompleks.

Menurut Urban Institute, data science merupakan keterampilan yang membutuhkan ilmu
komputer, pemrograman, teknologi, dan statistik yang berada di luar rangkaian pelatihan
standar bagi peneliti ilmu sosial. Keterampilan ini mencakup teknologi dan teknik seperti
memanfaatkan komputasi cloud, analisis big data, pemrosesan natural language,
pembelajaran tanpa pengawasan (unsupervised learning) seperti analisis cluster, Web
Scraping, teknik fuzzy, machine learning, dan lain sebagainya.

Data science dapat membantu peneliti agar dapat bekerja lebih efektif untuk menghasilkan
informasi baru yang tepat waktu, menjelajahi kumpulan data yang benar-benar baru dengan
cara baru, mengubah pemodelan simulasi, dan lain sebagainya dengan tujuan untuk
meningkatkan kuantitas dan kualitas bukti yang diperlukan untuk membuat kebijakan yang
lebih baik, memperkuat komunitas, dan meningkatkan kehidupan masyarakat.

Seseorang yang memahami data science disebut data scientist. Seorang data scientist tidak
harus memahami semua kemampuan yang dibutuhkan karena biasanya data scientist bekerja
pada tim yang memiliki kemampuan dan keterampilan yang berbeda-beda sehingga dapat
saling melengkapi. Secara umum, keterampilan dasar terpenting untuk data scientist adalah
kemampuan untuk membuat kode dalam setidaknya dua bahasa pemrograman yaitu Python
dan R. Keterampilan umum lain yang diperlukan oleh seorang data scientist adalah
keterampilan organisasi yang baik, komunikasi yang jelas, dan kemampuan untuk menguasai
konsep dan teknik baru dengan cepat.

Alat untuk data science :

 Big Data
Dengan menggunakan big data, data scientist dapat membantu perusahaan untuk
memprediksi produk apa yang akan dijual, membantu perusahaan telekomunikasi
untuk memprediksi kapan dan mengapa pelanggan mengganti operator, dan
membantu perusahaan asuransi mobil untuk memahami seberapa baik pelanggan
mereka mengemudi, memprediksi penyebaran dan lain sebagainya.
 Machine Learning
Machine learning bersifat interdisipliner dan menggunakan teknik dari bidang ilmu
komputer, statistik, dan artificial intelligence. Komponen utama machine learning
adalah algoritma yang dapat belajar secara otomatis dari pengalaman untuk
memperbaiki kinerjanya. Algoritma ini dapat diterapkan di berbagai bidang.
 Data Mining
Data mining adalah penerapan algoritma khusus untuk mengekstraksi pola pada
sebuah kumpulan data. Data mining berhubungan erat dengan machine learning. Data
mining adalah sebuah proses yang menggunakan algoritma machine learning untuk
mengekstrak pola-pola informatif yang disimpan dalam kumpulan data.
 Deep Learning
Deep learning adalah proses penerapan teknologi deep neural network. Deep neural
network adalah arsitektur jaringan saraf dengan beberapa lapisan tersembunyi untuk
memecahkan masalah.
 Artificial Intelligence
Artificial intelligence atau biasa disebut AI adalah bidang ilmu komputer yang
menekankan pada penciptaan mesin cerdas yang bekerja dan bereaksi seperti
manusia. Komponen inti dari artificial intelligence adalah pemrograman komputer
untuk sifat-sifat tertentu seperti pengetahuan, penalaran, pemecahan masalah,
persepsi, pembelajaran, perencanaan, dan lain sebagainya.

Penerapan data science

Data science dapat diterapkan di semua bidang mulai dari bidang jurnalisme, sosial, finansial,
dan lain sebagainya. Penerapan data science di dunia nyata yang pertama adalah
menggunakan pemrosesan natural language dan machine learning pada artikel berita untuk
mengidentifikasi reformasi zonasi. Data scientist di Pusat Kebijakan Perumahan dan
Komunitas Metropolitan Urban ingin memperkirakan dampak reformasi zonasi pada pasokan
perumahan di sejumlah wilayah metropolitan di Amerika Serikat. Data scientist tidak
mungkin mendapatkan data historis dari ribuan kotamadya di area metro ini sehingga mereka
menggunakan data dari lebih dari 2.000 sumber berita lokal untuk mengidentifikasi reformasi
lokal. Dengan menerapkan pemrosesan natural language dan machine learning, mereka dapat
menandai artikel yang menyebutkan reformasi besar dan menambahkan metadata yang
relevan seperti apakah artikel tersebut menyebutkan parkir, batas ketinggian, atau
karakteristik lainnya. Dengan menggunakan metode ini, data scientist dapat mengumpulkan
kumpulan data berdasarkan jenisnya.
Penerapan lainnya adalah menyalin catatan pengadilan untuk menginformasikan kebijakan
pemeriksaan latar belakang kriminal. Para data scientist di Pusat Kebijakan Kehakiman ingin
membuat perkiraan jumlah orang di Washington DC yang mungkin memiliki catatan
kriminal. Tim data scientist bekerja sama dengan tim researcher untuk mengumpulkan data
dari alat penelusuran online Pengadilan Tinggi Washington yang digunakan oleh para data
scientist untuk membuat statistik mengenai latar belakang kriminal masyarakat di
Washington DC.

Matriks

Dalam matematika, matriks merupakan larik persegi panjang atau tabel angka, simbol, atau
ekspresi, yang disusun dalam baris dan kolom. Pada dasarnya mungkin matriks hanya
digunakan untuk menuliskan sistem persamaan, hanya tabel angka. Berbeda dengan
komputer, komputer tidak mengenal bagaimana melakukan proses substitusi dan eliminasi
sebagai mana manusia menyelesaikan sebuah permasalahan algebra.

Sehingga, untuk menyelesaikan sistem matematika kompleks dengan cepat tidak cukup
menggunakan kalkulator dengan RAM besar dan / atau clock rate (CPU) yang tinggi. Tentu
saja, semakin kuat kalkulatornya, semakin cepat Anda mendapatkan solusinya. Tetapi
terkadang, cepat disini masih membutuhkan waktu berhari-hari (atau lebih), jika Anda
menangani masalah dengan cara yang salah. Waktu yang dibutuhkan untuk melakukan proses
komputasi ini disebut sebagai biaya komputasi.

Untuk mengurangi biaya komputasi, Anda harus menghasilkan algoritme yang baik, ide yang
cerdas. Tetapi untuk melakukannya, Anda perlu mengeksploitasi beberapa properti atau
beberapa struktur sistem linier Anda. Properti ini entah bagaimana dikodekan dalam koefisien
matriks A.

Oleh karena itu, mempelajari matriks dan propertinya sangat penting dalam mencoba
meningkatkan efisiensi pemecah linier. Menyadari bahwa matriks menikmati properti tertentu
mungkin penting untuk mengembangkan algoritme yang cepat atau bahkan untuk
membuktikan bahwa solusi itu ada, atau bahwa solusi tersebut memiliki properti yang bagus.

Dalam konteks data mining atau penambangan data sebagian besar perangkat lunak
penambangan data menggunakan matriks untuk menghitung algoritma penambangan data
dengan menggunakan sistem matematika yang kompleks. Sedangkan dalam robotika, matriks
memungkinkan kita melakukan perhitungan translasi dan rotasi yang dilakukan oleh robot.

konvolusi

Secara garis besar konvolusi merupakan sebuah operasi matematis antar dua buah matriks
yaitu, matriks gambar dan matriks kernel. Konvolusi (convolution) adalah sebuah proses
dimana citra dimanipulasi dengan menggunakan eksternal mask / subwindows untuk
menghasilkan citra yang baru. Sedangkan Filtering tanpa menggunakan ekternal mask tetapi
hanya menggunakan pixel tetangga untuk mendapatkan pixel yang baru. Konvolusi sangat
banyak dipergunakan dalam pengolahan citra untuk memperhalus (smoothing), menajamkan
(crispening), mendeteksi tepi (edge detection), serta efek lainnya, seperti:

 Embossing
Embossing yaitu membuat citra seolah diukir pada permukaaan selembar nikel.
Koefisien jendela konvolusi memiliki bobot tengah bernilai 0 & jumlah seluruh bobot
= 0.
 Blurring
Blurring (Pengaburan) yaitu filter spasial low-pass yang melenyapkan detil halus dari
suatu citra. Pengaburan dicapai melalui konvolusi dari seluruh koefisien mask
bernilai sama. Blurring ini perataan nilai pixel-pixel tetangga, makin besar ukuran
mask maka makin besar efek pengaburan
 Sharpening
Sharpening (Penajaman) yaitu memperjelas detil suatu citra(menambah kontras)
dengan penjumlahan atas citra tepi dengan citra aslinya maka bagian tepi objek akan
terlihat berbeda dengan latarnya, sehingga citra terkesan lebih tajam.
 Edge Detection
Deteksi tepi yaitu proses menentukan lokasi titik-titik yang merupakan tepi objek.

Pada konvolusi image, semakin kecil nilai pixel semakin gelap warnanya begitupun
sebaliknya, semakin besar nilai pixel maka semakin terang warnanya. Kernel merupakan
sebuah matriks yang ukurannya lebih kecil dari image , dan kernal juga memiliki nilai di
setiap elemennya. Kernel konvolusi banyak jenisnya, salah satunya yaitu smooth filter (atau
biasa disebut juga blur filter) dan laplacian of gaussion filter ( menghasilkan gambar tepi dari
image awal).

CPU dan GPU

CPU (Central Processing Unit) Tempat pemprosesan matematis secara terpusat. Sedangkan
GPU (Graphics Processing Unit) Pusat pemprosesan matematis untuk kebutuhan grafis. CPU
+ GPU Artinya setiap CPU pasti memiliki GPU yang disebut Integrated
GPU.Kekurangannya Harus berbagi memori antara GPU dengan CPU dan Performanya
kurang jika untuk pemprosesan grafis yang tinggi seperti bemain game, memutar video
resolusi tinggi, dll.

GPU Diskrit GPU yang terpisah dari CPU secara fisik. Memiliki memori sendiri dengan istilah
VRAM. CPU (Central Processing Unit) Melakukan penghitungan yang rumit, Lantency
Rendah, dan Perprosesan Serial. GPU (Graphics Processing Unit) Melakukan perhitungan
sederhana yang masiv, Throughput Tinggi, dan Pemprosesan Paralel.

Penggunaan GPU : Virtual Desktop Infrastructure (VDI), Artificial Intelligence (AI), Machine
Learning, Deep Learning, dan High Performance Computing.
GPU pada CLOUD : Performa Tinggi, Bisa digunakan untuk virtual, dan Bayar sesuai dengan
kebutuhan.

DGX A100 dan DGX-1

DGX A-100 dan DGX-1, MIG, Docker, dan DGX A-100 Docker.

DGX A-100

• GPUs: 8x NVIDIA A100 Tensor Core GPUs


• GPU Memory: 320 GB total
• Performance: 5 petaFLOPS AI 10 petaOPS Int8
• NVIDIA NVSwitches: 6
• System Power Usage: 6.5 W max
• CPU: Dual AMD Rome 7742, 128 Cores total, 2.25 GHz (base), 3.4 GHz (max boost)
• System Memory: 1 TB
• Networking: 8x Single-Port Mellanox ConnectX-6 VPI, 200Gb/s HDR InfiniBand, 1x
Dual-Port Mellanox, ConnectX-6 VPI, 10/ 25/ 50/ 100/ 200 Gb/s Ethernet
• Storage: OS 2x 1.92 TB M.2 NVME Drives, Internal Storage: 15TB (4x 3.84 TB) U.2
NVME Drives
• Software: Ubuntu Linux OS
• System Weight: 271 lbs (123kgs)
• Packaged System Weight: 315 lbs (143 kgs)
• System Dimensions: Height 10.4 in (264.0 mm), width 19.0 in (482.3 mm) MAX,
length 35.3 in (897.1 mm) MAX
• Operating Temperature Range: 5 derajat C to 30 derajat C (41 derajat F to 86 derajat F)

DGX-1

• GPUs: 8x Tesla GP100


• TFLOPS (GPU FP16/CPU FP32): 170/3
• GPU Memory: 16 GB per GPU
• CPU: Dual 20-core Intel Xeon E5-2698 v4 2.2 Ghz
• NVIDIA CUDA Cores: 28672
• System Memory: 512 GB 2133 MHz DDR4 LRDIMM
• Storage: 4x 1.92 TB SSD Raid 0
• Network: Dual 10 GbE, 4 IB EDR
• Software: Ubuntu Server Linux OS DGX-1 Recommended GPU Driver
• System Weight: 134 lbs
• System Dimension: 866 D x 444 W x 131 H (mm)
• Packing Dimensions: 1180 D x 730 W x 284 H (mm)
• Maximum Power Requirements: 3200W
• Operating Temperature Range: 10 - 35 derajat C

Usage: DGX A-100 dan DGX-1

• Artificial Intelligence (AI)


• HPC
• Visualization

GPU Problems : Satu Proses Melibatkan GPU Hanya bisa Optimal jika dijalkan oleh satu core
satu proses, Ada beberapa pendekatan yang dapat dilakukan namun tetap menurunkan
performa, Pada DGX-1 Hanya Terdapat 8 Core, berarti secara optimal hanya bisa ada 8 Prosess
Yang memenfaatkan GPU dalam Satu waktu., Sehingga Penggunaan Multi user tidak dapat
Optimal dilakukan pada mesin DGX-1 ataupun single GPU CPU.

Multi Instance GPU (MIG) : Tujuan utama MIG adalah meningkatkan utilitas GPU, MIG
A100: Dipisah secara fisik bukan logical, ataupun software dan Cuda Programming.

Jupiter Notebook

Jupyter (https://jupyter.org/) adalah organisasi non-profit untuk mengembangkan software


interaktif dalam berbagai bahasa pemrograman.

Notebook merupakan satu software buatan Jupyter, adalah aplikasi web open-source yang
memungkinkan untuk membuat dan berbagi dokumen interaktif yang berisi kode live,
persamaan, visualisasi, dan teks naratif yang kaya.

Jupyter Notebook menyatukan teks/narasi, kode hidup, persamaan, tampilan hasil, gambar
statis, dan visualisasi grafis, dalam satu file interaktif. Kelebihan lainnya, Jupiter notebook
dapat dijalankan ulang oleh siapapun yang membukanya, untuk mereproduksi eksekusi kode
di dalamnya.

Kode pada contoh ini bukan hanya cuplikan tulisan kode di dokumentasi, tapi adalah kode
hidup. Tampilannya tidak akan berubah, tetapi jika menjalankan file notebook ini di instalasi
Jupyter, maka siapapun dapat menjalankan kode pada contoh dan nanti akan keluar tampilan
waktu yang berbeda tentunya.

Jenis keluaran kode yang didukung juga tidak sebatas teks sederhana. Keluaran dari Jupyter
notebook dapat berupa grafik. Jupyter Notebook juga dapat menampilkan table atau yang
disebut sebagai Data Frame dengan menggunakan library pada Python yaitu Pandas.

Banyak jenis-jenis media lain yang bisa ditampilkan secara hidup, misalnya Markdown,
HTML, audio, video, Javascript, dan sebagainya. Dengan begitu kayanya interativitas yang
disediakan Jupyter notebook, maka dapat dilihat potensi penggunaannya, terutama untuk riset
dan kolaborasi. Salah satu contoh penggunaan Jupyter notebook, misalnya di kursus-kursus
online (MOOC) sebagai platform bagi siswa untuk melakukan pemrograman, di Kaggle, dan
banyak riset yang membagikan karyanya dalam bentuk notebook.

Jupiter notebook tidak hanya digunakan untuk menuliskan kode program dalam Bahasa
Pemrograman Python. Walaupun Jupyter notebook ditulis dalam bahasa Python, namun
kemampuan untuk mendukung suatu bahasa pemrograman di dalam notebook
diimplementasikan secara modular dalam bentuk kernel. Saat ini ada lebih dari 130 kernel yang
mendukung hampir 100 bahasa pemrograman.

Anda mungkin juga menyukai