Anda di halaman 1dari 7

KELOMPOK : Muhamad Arif Rohman

Abu Ubaedillah

Muhammad Al-Kahfi

MATA KULIAH : BIG DATA

TUGAS : RANGKUMAN DATA ANALISIS PROSES (2.1-2.4)

2.1 DATA ANALYTICS LIFECYCLE

Data Analytics Lifecycle di desain khusus untuk masalah Big Data dan projek-projek data
science. Ada enam fase lifecycle dan dapat terjadi dalam bebrapa tahap sekaligus, dan fase ini dapat
bergerak maju dan kembali mundur. Gambaran iteratif dari siklus hidup ini dimaksudkan untuk lebih
dekat menggambarkan proyek nyata, di mana aspek proyek bergerak maju dan dapat kembali ke
tahap awal karena informasi baru ditemukan dan anggota tim belajar lebih banyak tentang berbagai
tahap proyek.

2.1.1 Key Roles for a Successful Analytics Project

Ada tujuh peran kunci yang perlu dipenuhi untuk tim sains data berfungsional tinggi

untuk melaksanakan proyek analitik dengan sukses.

1. Business User
Seseorang yang mengerti bidang domain dan biasanya mendapatkan keuntungan
dari hasilnya. Orang ini dapat berkonsultasi dan memberi saran kepada tim proyek
mengenai konteks proyek, nilai dari hasil, dan bagaimana output akan
dioperasionalkan. Biasanya seorang analis bisnis, line manager, atau ahli materi
pelajaran dalam domain proyek memenuhi peran ini.
2. Project Sponsor
Bertanggung jawab atas asal usul proyek. Menyediakan dorongan dan persyaratan
untuk proyek dan mendefinisikan masalah bisnis inti. Umumnya menyediakan dana
dan alat pengukur tingkat nilai dari hasil akhir tim kerja. Orang ini menetapkan
prioritas untuk project and clar ifies output yang diinginkan.
3. Project Manger
Memastikan bahwa tonggak dan sasaran utama terpenuhi tepat waktu dan sesuai
harapan kualitas.
4. Business Intelligent Analysis
Menyediakan keahlian domain bisnis berdasarkan pemahaman mendalam
data, indikator kinerja utama (KPis), metrik utama, dan intelijen bisnis dari
pelaporan perspektif. Analisis Kecerdasan Bisnis biasanya menciptakan dasbor dan
laporan dan memiliki pengetahuan dari data feed dan sumber.
5. Database Administrator (DBA)
Ketentuan dan konfigurasi lingkungan database untuk mendukung
analisis kebutuhan tim kerja. Tanggung jawab ini meliputi akses ke
database utama atau tabel dan memastikan tingkat keamanan yang sesuai
diterapkan pada data
repositori.
6. Data Engineer
Memanfaatkan keterampilan teknis yang dalam untuk membantu penyetelan query
SQL untuk pengelolaan data dan ekstraksi data, dan memberikan dukungan untuk
penyerapan data ke dalam kotak analitik. Sedangkan DBA mengatur dan
mengkonfigurasi Database yang akan digunakan, data engineer mengeksekusi
ekstraksi data aktual dan melakukan manipulasi data yang substansial untuk
memudahkan analisis. Insinyur data bekerja erat dengan ilmuwan data untuk
membantu membentuk data dengan cara yang benar untuk analisis.
7. Data Scientist
Menyediakan keahlian materi pelajaran untuk teknik analisis, pemodelan data, dan
menerapkan teknik analisis yang valid untuk memberikan masalah bisnis.
Memastikan keseluruhan tujuan analisis terpenuhi. Merancang dan menjalankan
metode analisis dan pendekatan dengan data yang tersedia untuk proyek.

2.2 Penemuan

Tahap pertama dalam Data Analytics Lifecycle adalah :

- Belajar untuk menyelidiki permasalahan

- Mengembangkan konteks dan pemahaman

- Mempelajari sumber data yang dibutuhkan dan tersedia untuk proyek

- Merumuskan hipotesis awal.

2.2.1 Memahami Wilayah Domain

Dalam banyak kasus, peneliti data akan memiliki pengetahuan secara kuantitatif dan
komputasi yang mendalam yang dapat diterapkan di berbagai disiplin ilmu.
Contoh peran : seorang ahli matematika dengan gelar tinggi. Ilmu yang dia miliki dapat
bermanfaat untuk menetapkan metode heuristik terhadap berbagai masalah bisnis dan
konseptual.

Contoh hal : seseorang dengan gelar Ph.D. orang ini akan memiliki pengetahuan di bidang
oseanografi, genetika atau biologi.

Pada tahap ini, tim perlu menentukan seberapa besar pengetahuan bisnis atau domain
peneliti data tersebut untuk bisa mengembangkan model selanjutnya. Semakin dini
dilakukan, tim akan mendapat penilaian yang semakin baik.

2.2.2 Sumber Daya

Tim perlu menilai sumber daya yang tersedia untuk mendukung sebuah proyek.
Sumber daya bisa meliputi teknologi, sistem, data dan orang. Pertimbangkan alat dan
teknologi yang tersedia yang akan digunakan dan jenisnya.

Misalnya untuk model yang dikembangkan untuk memiliki umur panjang dalam sebuah
organisasi, pertimbangkan jenis keterampilan dan peran akan dibutuhhkan yang mungkin
tidak ada sampai sekarang agar proyek jangka panjang memiliki kesuksesan.

Apakah tingkat keahlian yang dibutuhkan ada dalam organisasi tersebut dan apakah itu
harus dipertahankan? Untuk menjawab itu, perlu teknik yang dipilih tim dan jenis
implementasi untuk mengejar tahap berikutnya dari Data Analytics Lifecycle.

Selain itu kita harus melakukan inventarisasi jenis data, mempertimbangkan data apa yang
cukup untuk mendukung sebuah proyek. Tim harus menentukan apa harus memiliki data
tambahan, kapan mengurangi data atau mengubah data. Pastikan proyek juga memiliki
perpaduan antara pakar domain, pelanggan, bakat analitis dan proyek.

Setelah melakukan inventarisasi alat, teknologi, data dan orang, pertimbangkan juga apakah
tim sudah mencukupi sumber daya agar bisa berhasil dalam proyek ini.

2.2.3 Membingkai Masalah

Pembingkaian adalah proses penyebutan masalah analitis yang harus dipecahkan,


adalah cara terbaik untuk mengidentifikasi masalah dan membagikannya dengan para
pemangku kepentingan utama. Intinya, tim perlu dengan jelas mengartikulasikan situasi saat
ini dan tantangan utamanya.

Sebagai bagian diantaranya, penting untuk mengidentifikasi tujuan utama proyek,


kebutuhan utama untuk dicapai dalam bisnis, apa yang perlu dilakukan untuk memenuhi
kebutuhan dan mempertimbangkan tujuan dan kriteria keberhasilan proyek.

Selain itu kita juga harus menetapkan kriteria kegagalan. Sebagian orang hanya memikirkan
kriteria keberhasilan dengan asumsi proyeknya mencapai tujuan. Tapi tidak peduli seberapa
terencana, bisa saja ada kendala yang mungkin muncul pada sebuah proyek. Kriteria
kegagalan akan membimbing dan memahami kapan sebaiknya berhenti mencoba atau
menyelesaikan hasil yang telah dikumpulkan dari data.
2.2.4 Mengidentifikasi Stakeholder Utama

Selama diskusi, tim dapat mengidentifikasi kriteria keberhasilan, risiko utama, dan
pemagku kepentingan yang seharusnya termasuk siapa saja yang akan emndapat
keuntungan dari proyek atau akan terkenda dampak dari proyek. Kapan mewawancarai
stakeholder, belajar tentang wilayah domain dan riwayat yang relavan dan alaisis serupa
proyek.

Misalnya mengidentifikasi hasil yang diinginkan, kriteria yang menentukan keberhasilan


proyek.

2.2.5 Wawancara dengan Sponsor Analitik

Awalnya, sponsor proyek memiliki solusi yang telah ditentukan yang mungkin belum
tentu bisa diwujudkan. Dalam kasus ini, tim harus menggunakan pengetahuannya untuk
mengidentifikasi penyebab sebenarnya masalah dan solusi yang tepat.

Misalnya, pada tahap awal proyek tim diminta membuat sistem bisnis dan
mengintegrasikannya ke sistem perusahaan yang sudah ada. Tim akan memiliki
pengetahuan yang lebih tentang hal ini daripada stakeholder, lalu menyarankan sebuah
solusi. Tapi stakeholder memiliki pengalaman dari sistem tersebut.

Intinya, tim harus melakukan pendekatan obyektif, karena stakeholder sudah memiliki
pengalaman tentang sistem yang dimiliki. Untuk mencapai tujuan, saat mewawancarai
stakeholder utama, tim perlu meluangkan waktu untuk mewawancarai sponsor proyek yang
menjadi pihak yang mendanai proyek tersebut. Berikut beberapa tips mewawancarai
sponsor proyek :

 meyiapkan daftar pertanyaan dan tinjau ulang rekan kerja


 menggukanan pertanyaan terbuka dan hindari mengajukan pertanyaan
 probe untuk rincian dan mengajukan pertanyaan tidak lanjut
 hindari mengisi keheningan, berikan seseorang waktu untuk berpikir
 biarkan sponsor mengungkapkan gagasan dan klarifikasi mereka
 gunakan teknik mendengarkan yang aktif, ulangi pertanyaan untuk memastikan
 coba untuk mengekspresikan pendapat tim
 sadar terhadap bahasa tubuh pewawancara dan stakeholder
 minimalkan gangguan
 dokumentasikan apa saja yang didengar

Berikut ada beberapa daftar pertanyaan singkat yang sangat membantu pada saat fase
pertemuan untuk mewawancarai sponsor proyek :

 masalah apa yang ingin diselesaikan?


 apa hasil proyek yang diinginkan?
 sumber data apa yang tersedia?
 isu industri apa yang mungkin mempengaruhi analitis?
 garis waktu apa yang dipertimbangkan?
 siapa yang bisa memberi wawasan tentang proyek ini?
 siapa yang memiliki wewenang menentukan keputusan proyek ini?

2.2.6 Mengembangkan Hipotesis Awal

Langkah ini melibatkan pembentukan gagasan tim dapat menguji dengan data,
kemudian mengemukakan beberapa hipotesis utama untuk diuji dan kemudian dilakukan
beberapa pengembangan kreatif lagi. Dengan cara ini, tim bisa membandingkan jawabannya
dengan hasil eksperimen atau uji coba solusi kemungkinan tambahan untuk masalah.

Bagian lain dari proses ini melibatkan pengumpulan dan penilaian hipotesis dari stakeholder
dan domain pakar yang mungkin memiliki perspektif berbeda tentang masalah dan solusi.
Tim mungkin akan mengumpulkan banyak gagasan yang dapat menjelaskan asumsi operasi
para stakeholder.

Gagasan ini juga akan memberi kesempatan untuk tim agar memperluas ruang lingkup
proyek ke ruang yang berekatan dimana eksperimen ini masuk akal atau didesain dengan
cara yang berarti untuk menangani kepentingan terpenting para stakeholder.

2.2.7 Mengidentifikasi Sumber Data Potensial

Mempertimbangkan volume, jenis, dan jangka waktu data yang dibutuhkan untuk
hipotesis. Pastikan tim bisa mengakses lebih dari sekedar gabungan data. Dalam kebanyakan
kasus, tim memerlukan data mentah. Tim harus melakukan 5 kegiatan utama dalam fase ini :

 Identifikasi sumber data : buat daftar sumber data kandidat yang mungkin perlu
diuji hipotesis awal. Buat inventarisasi data yang ada saat ini dan saat itu.
 Ambil sumber data agregat : untuk melihat pratinjau data dan memberi tingkat
tinggi di bawah reputasi. Ini memungkinkan tim untuk mendapat gambaran
singkat tentang data dan melakukan eksplorasi lebih lanjut.
 Tinjau data mentah : dapatkan data awal dari umpan data awal. Mulailah
memahami saling ketergantungan antar atribut data, dan menjadi terbiasa
dengan isi data, kualitas dan keterbatasannya.
 Mengevaluasi struktur data dan alat yang dibutuhkan : tipe dan struktur data
menentukan alat mana yang bisa digunakan tim untuk menganalisis data.
Evaluasi juga menentukan teknologi mana yang mungkin menjadi kandidat
untuk proyek ini.
 Ruang lingkup jenis infrastruktur data yang dibutuhkan untuk jenis masalah ini :
selain alatnya, data mempengaruhi jenins infrastruktur yang dibutuhkan, seperti
kapasitas penyimpanan dan kapasitas kerja disk.

2.3 Data Preparation

Fase kedua dari Siklus Data Analitik yaitu persiapan data yang dimana mencakup langkah - langkah
untuk mengeksplorasi, pra-proses, dan kondisi data sebelum memulai pemodelan dan analisis.
Biasanya ini dilakukan dengan menyiapkan Analytics Sandbox (platform scalable dan developmental
untuk mengekplorasi kumpulan informasi melalui interaksi dan kolaborasi). Setelah itu data harus
dikondisikan dan mentransfromasinya kedalam format yang memudahkan analisis selanjutnya. Jika
data yang didapat tidak cukup maka kemungkinan besarnya tidak akan dapat melakukan langkah
selanjutnya dalam Siklus Data Analitik.

2.3.1 Preparing the Analytic Sandbox

Subfase pertama pada persiapan data yaitu mengharuskan adanya Sandbox atau
yang biasa disebut ruang kerja, yang dimana dapat menjelajahi data tanpa menganggu basis
data sebuah produksi secara langsung. Sebagai contoh dimana diperlukan data keuangan
perusahaan, cukup dengan mengakses salinan data keuangan yang sudah ada didalam
Sandbox dari pada mencheck data asli dari database perusahaan tersebut. Cara terbaik saat
membuat Sandbox yaitu mengumpulkan semua jenis data disana

Disarankan bahwa ukuran Sandbox besar karena bisa saja berisi data mentah, data
gabungan, dan jenis data yang lain. Ukuran Sandbox sangat bervariasi tergantung dari
proyek tersebut. Ciri - ciri Sandbox yang baik yaitu setidaknya ukuran Sandbox adalah 5 - 10
kali dari pada ukuran kumpulan data asli.

2.3.2 Performing ETLT

Saat memulai transformasi data pastikan Sandbox memiliki bandwidth yang cukup
dan koneksi yang stabil ke sumber data agar tidak menganggu proses saat me-read atau me-
write data tersebut. Pada proses ETL ini dilakukannya ekstraksi, transformasi dari data store.
Dalam kasus ini data diekstrasi dalam bentuk mentah dan dimasukkan ke dalam data store,
dimana para analisis dapat memilih mengubah data menjadi hal baru atau membiarkannya
tetap dalam kondisi awal. Pendekatan ELT memberikan akses kedata bersih untuk dianalisis
setelah dimasukkan kedalam database dan memberi akses kedata dalam bentuk aslinya
untuk menemukan informasi tersembunyi pada data tersebut.

2.3.3 Learning About the Data

Aspek penting dari sebuah proyek ilmu data adalah mengenal data itu sendiri. Selain
itu, penting untuk membuat katalog sumber data yang dapat diakses dan
mengidentifikasikan sumber data tambahan yang dapat dimanfaatkan.

 Mengklarifikasi data yang dimiliki tim sains data pada awal proyek
 Mengidentifikasi kumpulan data pada sebuah organisasi yang mungkin
bermanfaat, ini harus dimulai dengan membangun hubungan dengan pemilik data
tersebut agar dapat berbagi data secara cepat dan tepat.
 Mengidentifikasi data dari luar organisasi yang mungkin berguna, bisa lewat Open
APIs, data sharing, membeli data untuk melengkapi dataset yang sudah ada.

2.3.4 Data Conditioning

Pengkondisian data mengacu pada proses pembersihan data, menormalkan dataset,


dan melakukan transformasi pada data. Dapat melibatkan banyak langkah kompleks untuk
menggabungkan data yang memungkinkan analisis ke fase lebih lanjut. Langkah ini hanya
dilakukan oleh IT, pemilik data, DBA. Bagian pada fase ini yaitu menentukan aspek dataset
tertentu mana yang akan berguna untuk dianalisis dalam langkah berikutnya.

2.3.5 Survey and Visualize

Memanfaatkan alat visualisasi data untuk mendapatkan ikhtisar data. Melihat pola
tingkat tinggi data memungkinkan seseorang untuk memahami karakteristik data dengan
sangat cepat. Salah satu contohnya menggunakan visualisasi data untuk memeriksa kualitas
data.Saat melakukan pendekataan ini, direkomendasikan menggunakan pedoman sebagai
berikut :

 Tinjau data untuk memastikan bahwa perhitungan tetap konsisten dalam kolom
atau tabel untuk bidang data tertentu.
 Menilai Granularitas data, kisaran nilai, tingkat agregasi data
 Untuk variable yang terkait dengan waktu tentukan apakah wakt saat ini dengan
data memenuhi kebutuhan.

2.3.6 Common Tools for the Data Preparation Phase

 Hadoop, dapat melakukan analisis secara pararel dan masal dengan data yang
terstruktur maupun tidak dari berbagai sumber.
 Alpine Miner, menyediakan GUI untuk menciptakan alur kerja analitik, termasuk
manipulasi data dan serangkaian kejadian anailitik seperti teknik penambangan
data bertahap pada sumber postgres SQL dan Big Data lainnya.
 Open Refine, alat berbasis GUI untuk melakukan transformasi data yang
berantakan.

Anda mungkin juga menyukai