Anda di halaman 1dari 4

1. Apa dan mengapa sains data?

Sains data adalah ilmu yang menggabungkan matematika,statistika dengan ilmu


computer dengan tujuan untuk menganalisis data dari suatu himpunan data mulai dari skala
kecil hingga besar. Tujuannya adalah untuk mendapatkan sebuah pengetahuan atau informasi
dari data. Ilmu data merupakan ilmu yang penting, karena bisnis kecil maupun besar sangat
bergantung pada data. Jika perusahaan tidak mampu mengolah data, bisnis tidak akan memiliki
pedoman untuk strategi operasi yang efektif dan efisien untuk mendapat keuntungan.Jika
sebuah bisnis ingin Anda kembangkan dan tetap relevan, ia harus mampu
mengimplementasikan data science .Ketika berbicara mengenai data science maka hal ini juga
akan bersinggungan dengan istilah big data, yaitu merupakan kumpulankumpulan data yang
begitu besar dan kompleks sehingga sulit untuk dilakukan proses analisis.w

2. Peran utama dan metode sains data?

Tanpa keahlian yang professional yang mengubah teknologi mutakhir menjadi


wawasan/informasi yang penting, big data bukanlah apa apa. Diperlukan keahlian dalam
mengolah data agar menjadi sebuah informasi yan relevan. Banyak peranan data sains di era
serba digital sekarang ini. Data sains dapat digunakan untuk memberdayakan manajemen untuk
membuat keputusan terbaik, mengarahkan berdasarkan tren, mengidentifikasi peluang, sebagai
alat untuk pengambilan keputusan dengan bukti yang dapat di ukur, menguji keputusan. Dan
masih banyak peranan data sain di dalam kehidupan tergantung dari apa tujuan kita mengambil
informasi dari data tersebut.

Terdapat beberapa metode data sains yaitu :

a. Classification, metode ini mengharuskan kita untuk mengumpulkan beberapa atribut


sekaligus dalam satu kategori yang dapat dilihat. Maksutnya adalah, atribut tersebut
nantinya bisa dipakai untuk mengambil kesimpulan atau menjalankan beberapa fungsi.

Misalnya, Ketika kita mengumpulkan data mengenai Riwayat pembelian user sebuah e
commerce yang kemudian digabungkan dengan latar belakang keuangan. Dari situ, kita
dapat membuat beberapa kategori yang mengelompokan resiko kredit user mulai dari level
rendah,sedang hingga tinggi.

b. Clustering, metode ini mirip dengan metode classification. Hanya saja kumpulan data yang
diambil haruslah memiliki kemiripan tertentu. Katakanlah Anda ingin mengelompokkan data
siswa SMA 123. Maka, Anda bisa membuat kelompok data berdasarkan hobi, kecamatan
tempat tinggal, atau minat jurusan kuliah mereka.
c. Association, berhubungan dengan membaca pola. Namun, pola di sini terbatas pada variabel
yang terkait dan saling bergantung satu sama lain. Misalnya, Anda menemukan bahwa
orang yang mendengarkan lagu dari wali cenderung menyukai lagu penyanyi raisa juga.
Biasanya, metode inilah yang digunakan untuk membuat rekomendasi kepada user.
d. Regression, Metode regression biasanya digunakan untuk mengidentifikasi
kemungkinan suatu variabel dengan mempertimbangkan variabel lain. Katakanlah
Anda ingin membuat proyeksi harga produk kopi susu, maka diperlukan data
mengenai ketersediaan kopi di pasaran, harga bahan, permintaan konsumen, hingga
tingkat persaingan yang ada. Regression juga menampilkan hubungan pasti dari dua
(atau lebih) variabel yang ada dalam suatu kumpulan data.
e. Forecasting, Metode  yang satu ini digunakan untuk memprediksi masa depan berdasarkan
tren masa lalu dan masa sekarang. Forecasting  biasanya diaplikasikan bersama metode
yang lain. Sebagai contoh data mining  dengan metode forecasting, katakanlah Perusahaan T
ingin memprediksi berapa besar pemasukan mereka pada akhir tahun 2022 nanti dengan
menggunakan data penjualan tahun 2020 dan 2021. Maka, metode regression  cocok
untuk forecasting  karena bisa menampilkan hubungan antara variabel yang dependen dan
independen sekaligus.
f. Sequence analysis, Metode ini berkaitan dengan pola yang relevan secara statistik antar
sampel data. Sebab, beberapa sampel data yang nilainya ditampilkan secara berurutan
cenderung punya relevansi. Sequence Analysis  biasanya digunakan pada data
mining  terstruktur khusus.
g. Deviation Analysis,  digunakan untuk menampilkan fakta tersembunyi dalam sebuah
kumpulan data, entah itu berupa penyimpangan, anomali, atau bahkan outlier. Metode  ini
sangat penting dipelajari karena bisa mengantarkan Anda pada temuan baru yang dapat
dijadikan dasar pengambilan keputusan penting.

3. Sejarah dan penerapan data sains?

Sejarah sains data dimulai sejak tahun 1962 yang dimana john tukey menulis the future
of data analysis yang menggambarkan pergeseran dalam dunia statistic. Tukey mengacu pada
penggabungan satistik dan ilmu computer. Tahun 1974, peter naur menulis buku “the concise
survey of computer methods”. Dalam buku tersebut, terdapat survei mengenai metode
pemrosesan data kontemporer dalam banyak aplikasi. Peter mendefinisikan data sain sebagai
ilmu mengelola data. Thaun 1977, The International Association for Statistical Computing (IASC)
dibentuk dengan misi menghubungkan teknologi komputer modern, metodologi statistik
tradisional, serta pengetahuan untuk menghasilkan informasi dan pengetahuan berbasis data.
Tahun 1989, Gregory Piatetsky-Shapiro menyelenggarakan dan memimpin workshop berjudul
"Knowledge Discovery in Databases" (KDD) untuk yang pertama kalinya. Tahun 1994, Business
Week menerbitkan "Database Marketing" yang menggambarkan bagaimana perusahaan
mengumpulkan begitu banyak informasi tentang konsumen agar dapat diolah untuk membuat
prediksi perilaku konsumen. Hasil dari proses tersebut akan digunakan untuk menyusun
pemasaran yang tepat. Namun, masih banyak perusahaan yang kewalahan dalam mengelola
banyaknya data yang mereka miliki. Tahun 1996, dimasukkan dalam judul konferensi oleh
International Federation of Classification Societies (IFCS). Di samping itu, Usama Fayyad, Gregory
Piatetsky-Shapiro, dan Padhraic Smyth menerbitkan “From Data Mining to Knowledge Discovery
in Databases (KDD)” yang menjabarkan keseluruhan proses untuk menemukan informasi
penting dari data. Tahun 1997, Profesor C. F. Jeff Wu dalam kuliah perdana statistik di
Universitas Michigan, menyerukan agar statistik diganti namanya menjadi data science dan dan
ahli statistik diganti namanya menjadi data scientic. Tahun 1999, Jacob Zahavi mengatakan
perlunya alat baru untuk menangani jumlah data yang sangat besar dan terus berkembang.
Dalam tulisan “Mining Data for Nuggets of Knowledge”, Zahavi menekankan pada masalah
skalabilitas dalam data mining yang menunjukkan tantangan teknis dalam mengembangkan
model untuk menganalisis data dengan lebih baik, mendeteksi hubungan. Tahun 2001, sejarah
datascience di tahun ini adalah terciptanya software-as-a-service(saas) untuk pertamal= kalinya.
Tahun 2002. International Council for Science: Committee on Data for Science and Technology
mulai menerbitkan “Data Science Journal” yang berupa patform bagi sdata scientic untuk
bertukar ide. Tahun 2005, Thomas H. Davenport, Don Cohen, dan Al Jacobson menerbitkan
“Competing on Analytics,” yang mengungkapkan bahwa beberapa perusahaan mulai
menggunakan analisis statistik dan kuantitatif serta pemodelan prediktif sebagai elemen utama
dalam menghadapi persaingan. Penelitian ini kemudian diterbitkan di Harvard Business Review
dan diperluas (bersama Jeanne G. Harris) ke dalam buku "Competing on Analytics: The New
Science of Winning". Tahun 2006, Hadoop 0.1.0. open source data base bersifat nonrelasional
dirilis dan menjadi bagian dalam rangkaian sejarah data sains. Tahun 2008, " menjadi kata kunci
dan akhirnya menjadi bagian dari bahasa. DJ Patil dan Jeff Hammerbacher dari LinkedIn dan
Facebook diberi pujian karena memulai penggunaannya sebagai kata kunci.. tahun 2009, Istilah
NoSQL diperkenalkan kembali oleh Johan Oskarsson ketika ia mengadakan diskusi tentang open
source database nonrelasional. Tahun 2010, Drew Conway membuat “The Data Science Venn
Diagram” yang mencakup keterampilan meretas, pengetahuan matematika dan statistik, dan
keahlian substantif.. tahun 2011, daftar pekerjaan untuk sains data sebesar 15.00% serta
terdapat peningkatan seminar dan konferensi yang dikhususkan untuk data sains dan big data.
Di satu sisi, james Dixon,CTO Pentaho mempromosikan konsep data lakes yang mengacu pada
penerimaan informasi menggunakan database nonrelasional(NoSQL). Pada tahun 2015, dengan
memanfaatkan prosedur Deep Learning, pengakuan wacana Google, Google Voice, mengalami
lompatan presentasi sensasional sebesar 49persen dan digunakan untuk membuat Google
Voice. Di dalam Google, total proyek perangkat lunak yang menggunakan AI meningkat menjadi
lebih dari 2.700 proyek sepanjang tahun. Thun 2019, Teknologi Rise of Deepfake: Deepfakes
menggunakan AI mampu memodifikasi file audio, gambar, atau video dari satu individu untuk
menyamar sebagai orang lain. Pada tahun 2019, suara deepfaked podcaster Joe Rogan menjadi
viral di jejaring sosial. Tahun 2022, Dalam tiga puluh tahun terakhir, Data Science diam-diam
telah berkembang untuk memasukkan bisnis dan organisasi di seluruh dunia. Sekarang sedang
digunakan oleh pemerintah, ahli genetika, insinyur, dan bahkan astronom. Selama evolusinya,
penggunaan data besar oleh Data Science bukan hanya "peningkatan" data, tetapi termasuk
beralih ke sistem baru untuk memproses data dan cara data dipelajari dan dianalisis. Data
Science telah menjadi bagian penting dari penelitian bisnis dan akademis. Secara teknis, ini
termasuk terjemahan mesin, robotika, pengenalan suara, ekonomi digital, dan mesin pencari.
Dalam hal bidang penelitian, Ilmu Data telah berkembang untuk mencakup ilmu biologi,
perawatan kesehatan, informatika medis, humaniora, dan ilmu sosial. Data Science sekarang
mempengaruhi ekonomi, pemerintah, dan bisnis dan keuangan. Salah satu hasil yang aneh, dan
berpotensi negatif, dari revolusi Ilmu Data adalah pergeseran bertahap ke penulisan
pemrograman yang semakin konservatif. Telah ditemukan data ccientists dapat menghabiskan
terlalu banyak waktu dan energi untuk mengembangkan algoritma kompleks yang tidak perlu,
ketika yang lebih sederhana bekerja lebih efektif.

Penerapan sains data sangat banyak sekali seperti pencatatan kehadiran karyawan dengan
system fingerprint, pencarian rute tercepat via google maps, pendeteksi adanya kanker dari foto
rontgen. Contoh lain, Penerapan data science yang pertama datang dari industri e-commerce
yaitu sistem website recommendation. Ketika kamu membuka platform e-commerce pasti kamu
terbiasa dengan saran tentang produk serupa bukan ?  Mereka tidak hanya membantu Anda
menemukan produk yang relevan dari miliaran produk yang tersedia bersama mereka, tetapi
juga menambahkan banyak hal pada pengalaman pengguna. Banyak perusahaan telah dengan
bersemangat menggunakan sistem ini untuk mempromosikan produk mereka sesuai dengan
minat pengguna dan relevansi informasi. Raksasa internet seperti Amazon, Twitter, Google Play,
Netflix, Linkedin, imdb, dan banyak lagi menggunakan sistem ini untuk meningkatkan
pengalaman pengguna. Rekomendasi dibuat berdasarkan hasil pencarian sebelumnya untuk
pengguna.

Anda mungkin juga menyukai