Anda di halaman 1dari 4

jadi satu-satunya tujuan rekayasa data adalah untuk mengambil data dari sumbernya dan

menyimpannya untuk membuatnya tersedia untuk analisis terus terang itu sangat sederhana seperti itu
bahkan tidak layak untuk dibicarakan Anda mengklik video dan youtube menyimpan acara ini dalam
database bagian yang menarik adalah apa yang terjadi setelah bagaimana youtube menggunakan
keajaiban pembelajaran mesinnya untuk merekomendasikan video lain kepada Anda, tetapi mari kita
mundur sedikit apakah itu benar-benar sesederhana itu untuk memasukkan klik Anda ke dalam
database mari kita lihat cara kerja rekayasa data [Musik] oke bayangkan a tim dengan aplikasi aplikasi
bekerja dengan baik lalu lintas tumbuh dan penjualan menjual mereka melacak hasil di google analytics
crm database aplikasi mungkin beberapa alat tambahan yang mereka beli untuk membumbui
powerpoint triwulanan dan tentu saja ada satu orang pendiam yang benar-benar buas dari excel
spreadsheet analytics hebat pada titik ini saluran data analytics mereka terlihat seperti ini ada beberapa
sumber data dan banyak borin g pekerjaan manual untuk memindahkan data ini ke dalam spreadsheet
excel ini menjadi tua cukup cepat baik pertama jumlah data menjadi lebih besar setiap bulan bersama
dengan keinginan untuk itu mungkin tim akan menambahkan beberapa sumber atau bidang data untuk
melacak tidak ada terlalu banyak data dalam hal analitik data dan tentu saja Anda harus melacak
dinamika dan meninjau kembali metrik yang sama berulang kali untuk melihat bagaimana perubahannya
dari bulan ke bulan. Jadi tahun 90-an, hari-hari orang analitik mulai menyerupai rutinitas seseorang
melewati batu bata satu per satu ada kutipan bagus oleh carla geyser dari google jika operator manusia
perlu menyentuh sistem Anda selama operasi normal, Anda memiliki bug jadi sebelum orang itu
kehabisan tenaga, tim memutuskan untuk mengotomatiskan hal-hal terlebih dahulu, mereka mencetak
kutipan dan menempel itu di dinding kemudian mereka meminta bantuan insinyur perangkat lunak dan
ini adalah titik bahwa rekayasa data dimulai dengan otomatisasi menggunakan pipa etl sehingga tujuan
awalnya adalah untuk mengotomatisasi secara otomatis menarik data dari semua sumber dan
memberikan waktu kepada orang analitik untuk mengekstrak data Anda biasanya menyiapkan koneksi
api antarmuka untuk mengakses data dari sumbernya kemudian Anda harus mengubahnya menghapus
kesalahan mengubah format memetakan jenis catatan yang sama untuk masing-masing lainnya dan
memvalidasi bahwa datanya baik-baik saja dan akhirnya memuatnya ke dalam database katakanlah
mysql jelas prosesnya harus berulang setiap bulan atau bahkan minggu sehingga insinyur harus
membuat skrip untuk itu masih pekerjaan paruh waktu untuk yang baru insinyur data tidak ada yang
perlu ditulis di rumah, tetapi selamat, ini adalah saluran etl sederhana untuk mengakses data, tim akan
menggunakan apa yang disebut alat bi, antarmuka intelijen bisnis, dasbor hebat dengan diagram
lingkaran, batang horizontal dan vertikal, dan tentu saja peta, selalu ada peta. biasanya alat bi
terintegrasi dengan database populer di luar kotak dan berfungsi dengan baik semua diagram tersebut
diisi dengan data baru setiap minggu untuk menganalisis iterasi meningkatkan dan berbagi karena ada
akses mudah ke wawasan budaya menggunakan data berkembang pemasaran sekarang dapat melacak
seluruh saluran penjualan dari kunjungan pertama ke langganan berbayar tim produk mengeksplorasi
perilaku pelanggan dan manajemen dapat memeriksa kpi tingkat tinggi semuanya terasa seperti
perusahaan baru saja memakai kacamata setelah bertahun-tahun kabur organisasi mulai menjadi data
didorong tim sekarang dapat membuat keputusan berdasarkan tindakan mereka dan menerima
wawasan melalui antarmuka intelijen bisnis tindakan menjadi bermakna Anda sekarang dapat melihat
bagaimana keputusan Anda mengubah cara perusahaan berfungsi dan kemudian semuanya membeku
laporan membutuhkan waktu beberapa menit untuk mengembalikan beberapa kueri sql hilang dan
saluran pipa saat ini sepertinya bukan opsi yang layak, jadi tahun 90-an lagi alasan ini terjadi adalah
bahwa saluran saat ini menggunakan database transaksional standar database transaksional seperti
mysql adalah dioptimalkan untuk mengisi tabel dengan cepat Sangat tangguh dan hebat untuk
menjalankan operasi aplikasi tetapi mereka tidak dioptimalkan untuk melakukan pekerjaan analitik dan
memproses kueri kompleks pada titik ini seorang insinyur perangkat lunak harus menjadi insinyur data
penuh waktu karena perusahaan membutuhkan gudang data oke apa itu data gudang [Musik] untuk tim
ini adalah tempat baru untuk menyimpan data alih-alih database standar repositori yang
mengkonsolidasikan data dari semua sumber di satu tempat pusat sekarang untuk memusatkan data ini
Anda harus mengaturnya entah bagaimana karena Anda menarik atau menelan data dari berbagai
sumber ada beberapa jenisnya ini mungkin laporan penjualan lalu lintas data Anda wawasan tentang
demografi dari layanan pihak ketiga Ide gudang adalah untuk menyusun data yang masuk ke tabel dan
kemudian tabel ke dalam skema hubungan antara data yang berbeda jenis data harus terstruktur
dengan cara yang berarti untuk tujuan analitik sehingga akan membutuhkan beberapa iterasi dan
wawancara dengan tim sebelum bijih tiba di desain gudang terbaik tetapi perbedaan utama antara
gudang dan database adalah bahwa gudang secara khusus dioptimalkan untuk menjalankan kueri
analitik yang kompleks sebagai lawan dari kueri transaksi sederhana dari database biasa dengan yang
keluar dari jalur pipa data yang terasa lengkap dan menyeluruh, tidak ada lagi kueri yang hilang dan
pemrosesan yang lama , data dihasilkan di sumber kemudian secara otomatis ditarik oleh skrip etl yang
diubah dan divalidasi dalam perjalanan dan akhirnya mengisi tabel di dalam gudang sekarang tim
dengan akses ke antarmuka intelijen bisnis dapat berinteraksi dengan ini data dan mendapatkan
wawasan yang hebat, insinyur data sekarang dapat fokus pada peningkatan dan menunda-nunda sedikit
dengan baik sampai perusahaan memutuskan untuk mempekerjakan seorang ilmuwan data jadi mari
kita bicara tentang bagaimana ilmuwan data dan insinyur data bekerja sama tugas seorang ilmuwan
data adalah menemukan wawasan tersembunyi di data dan membuat model prediktif untuk
meramalkan masa depan dan gudang data e mungkin tidak cukup untuk tugas-tugas ini itu terstruktur di
sekitar pelaporan metrik yang ditentukan sebelumnya sehingga pipa tidak memproses semua data itu
hanya menggunakan catatan yang tim pikir masuk akal pada saat tugas ilmuwan data adalah sedikit
lebih canggih ini berarti bahwa seorang insinyur data memiliki lebih banyak pekerjaan untuk melakukan
skenario umum terdengar seperti ini seorang manajer produk muncul dan bertanya kepada ilmuwan
data dapatkah Anda memprediksi penjualan untuk q3 di eropa tahun ini ilmuwan data tidak pernah
membuat janji yang berani jadi tanggapannya apakah itu tergantung itu tergantung pada apakah kita
bisa mendapatkan data berkualitas kita akan menebak siapa yang bertanggung jawab sekarang selain
memelihara dan meningkatkan pipa yang ada insinyur data biasanya akan merancang pipa kustom untuk
permintaan satu kali seperti mereka mengirimkan data ke ilmuwan dan menyebutnya a hari jenis sistem
lain yang dibutuhkan ketika Anda bekerja dengan ilmuwan data adalah data lake ingat bahwa gudang
hanya menyimpan data terstruktur yang ditujukan untuk melacak metrik tertentu dengan baik, data lake
adalah kebalikannya. Ini adalah jenis penyimpanan lain yang menyimpan semua data mentah tanpa pra-
pemrosesan dan menerapkan skema yang ditentukan, pipa dengan data lake mungkin terlihat seperti
ini, proses etl sekarang berubah menjadi beban ekstrak ke dalam danau dan kemudian berubah karena
ilmuwan datalah yang mendefinisikan cara memproses data agar berguna. Ini adalah taman bermain
yang kuat bagi ilmuwan data untuk menjelajahi cakrawala analitik baru dan membangun model
pembelajaran mesin sehingga tugas seorang insinyur data adalah mengaktifkan pasokan informasi yang
konstan ke danau danau adalah artefak dari era data besar ketika kita memiliki begitu banyak informasi
yang beragam dan tidak terstruktur sehingga menangkap dan menganalisisnya menjadi tantangan
tersendiri jadi apa itu data besar dengan baik itu adalah kata kunci langsung yang digunakan tanpa
berpikir di mana -mana bahkan ketika seseorang mengaitkan database transaksional ke antarmuka bi
tetapi ada kriteria yang lebih konkret dari profesi itu juga digunakan untuk menggambarkan data besar
mungkin Anda pernah mendengar tentang empat v mereka berdiri untuk volume jelas variasi data besar
dapat terstruktur dan selaras dengan beberapa skema atau tidak terstruktur kebenaran data harus
dipercaya dan memerlukan kontrol kualitas dan kecepatan data besar dihasilkan terus-menerus secara
real time sehingga perusahaan yang berurusan dengan data besar yang sebenarnya membutuhkan
seluruh tim teknik data atau bahkan tim teknik data besar dan mereka tidak akan menjalankan beberapa
aplikasi kecil pikirkan sistem pembayaran yang memproses ribuan transaksi secara bersamaan dan harus
menjalankan deteksi penipuan pada mereka atau layanan streaming seperti netflix dan youtube yang
mengumpulkan jutaan catatan setiap detik dapat menjalankan data besar berarti mendekati saluran
dengan cara yang sedikit berbeda saluran pipa normal yang kita miliki sekarang di sini menarik data dari
sumbernya memprosesnya dengan alat etl dan mengirimkan data ke gudang untuk digunakan oleh
analis dan karyawan lain yang memiliki akses ke dua antarmuka ilmuwan data menggunakan kedua data
yang tersedia di gudang tetapi juga mereka meminta data lake dengan semua data mentah dan tidak
terstruktur saluran pipa mereka akan disebut elt karena semua transformasi terjadi setelah data dimuat
ke dalam penyimpanan dan ada beberapa jalur pipa khusus untuk tugas ad hoc tapi mengapa tidak
bekerja untuk data besar yang terus-menerus mengalir ke sistem mari kita bicara tentang data
streaming hingga saat ini kita hanya membahas data batch ini berarti bahwa sistem mengambil catatan
pada beberapa jadwal setiap minggu setiap bulan atau bahkan setiap jam melalui apis tetapi bagaimana
jika data baru dihasilkan setiap detik dan Anda perlu mengalirkannya ke sistem analitik segera streaming
data menggunakan cara komunikasi yang disebut pub sub atau mempublikasikan dan berlangganan
contoh kecil di sini pikirkan panggilan telepon ketika Anda berbicara di telepon dengan seseorang ,
sepertinya Anda benar-benar sibuk dengan percakapan itu dan jika Anda sopan, Anda harus menunggu
sampai orang tersebut berbicara. di sisi lain menyelesaikan pemikiran mereka agar Anda mulai berbicara
dan merespons ini mirip dengan cara sebagian besar komunikasi web bekerja melalui apis sistem
mengirim permintaan dan menunggu hingga penyedia data mengirim respons ini akan menjadi
komunikasi sinkron dan itu menjadi cantik lambat jika sumber menghasilkan ribuan catatan baru Anda
memiliki banyak sumber dan banyak data konsumen sekarang bayangkan bahwa Anda menggunakan
tweet twitter ditambahkan ke timeline Anda secara mandiri dan Anda dapat menggunakan informasi ini
dengan kecepatan Anda sendiri Anda dapat berhenti membaca untuk sementara waktu dan kemudian
datang kembali Anda hanya perlu menggulir lebih banyak sehingga Anda mengontrol aliran informasi
dan beberapa sumber dapat mendukung Anda dengan data secara asinkron sub pub memungkinkan
percakapan asinkron antara beberapa sistem yang menghasilkan banyak data secara bersamaan mirip
dengan twitter itu memisahkan sumber data dari data konsumen sebagai gantinya data dibagi menjadi
berbagai topik atau profil di twitter dan konsumen data yang berlangganan topik ini ketika catatan atau
peristiwa data baru dibuat, itu diterbitkan di dalam topik yang memungkinkan pelanggan untuk
menggunakan data ini dengan kecepatan mereka sendiri dengan cara ini sistem tidak perlu menunggu
satu sama lain dan mengirim pesan sinkron yang sekarang dapat mereka lakukan menangani ribuan
peristiwa yang dihasilkan setiap detik teknologi sub pub paling populer adalah kafka bukan kafka ini ya
pendekatan lain yang digunakan dalam data besar adalah penyimpanan terdistribusi dan komputasi
terdistribusi apa komputasi terdistribusi Anda tidak dapat menyimpan petabyte data yang dihasilkan
setiap kedua pada laptop dan Anda tidak akan mungkin menyimpannya di satu server Anda perlu
memiliki beberapa server kadang-kadang ribuan digabungkan menjadi apa yang disebut cluster
teknologi umum yang digunakan untuk penyimpanan terdistribusi disebut hadoop yang berarti baik itu
sebenarnya tidak berarti apa -apa hanya cara seorang anak berusia dua tahun memanggil gajah
mainannya tetapi bocah itu kebetulan adalah putra doug cutting pencipta hadoop jadi hadoop adalah
kerangka kerja yang memungkinkan untuk menyimpan data dalam kelompok itu sangat terukur artinya
Anda dapat menambahkan lebih banyak dan lebih banyak komputer ke cluster karena data Anda terus
bertambah itu juga memiliki banyak redundansi untuk mengamankan informasi sehingga bahkan jika
beberapa komputer di cluster meledak menjadi api data tidak akan hilang dan tentu saja proses etl dan
elt memerlukan alat khusus untuk mengoperasikan cluster hadoop untuk membuat tumpukan terasa
lengkap, sebut saja percikan kerangka kerja pemrosesan data populer yang mampu melakukan
pekerjaan ini. perusahaan yang mengoperasikan data besar akan terlihat seperti Anda mengalirkan
ribuan rekaman secara bersamaan menggunakan subsistem pub seperti kafka, data ini diproses dengan
menggunakan kerangka kerja etl atau elt seperti percikan dan kemudian dimuat ke gudang danau atau
bergerak lebih jauh ke jalur pipa khusus dan semua repositori data dikerahkan pada kelompok beberapa
server yang berjalan dengan alat untuk penyimpanan terdistribusi e seperti hadoop tetapi ini bukan
akhir dari cerita selain ilmuwan data dan pengguna analitik, data dapat dikonsumsi oleh sistem lain
seperti algoritme pembelajaran mesin yang menghasilkan prediksi dan data baru sehingga satu-satunya
tujuan rekayasa data adalah mengambil data dari sumber dan menyimpannya untuk membuatnya
tersedia untuk analisis terdengar sederhana tetapi masalah sistem yang bekerja di bawah tenda ketika
Anda mengklik video youtube acara ini berjalan melalui hutan pipa disimpan di beberapa penyimpanan
yang berbeda beberapa di antaranya akan langsung dorong lebih jauh untuk menyarankan rekomendasi
video berikutnya menggunakan sihir pembelajaran mesin [Musik] berbicara tentang sihir periksa video
kami sebelumnya yang memiliki informasi lebih lanjut tentang ilmu data dan tim yang bekerja dengan
data terima kasih telah menonton

Anda mungkin juga menyukai