Data Warehouse adalah data yang menyimpan data historis dan data
terkini yang berpengaruh bagi kepentingan pengambilan keputusan
diseluruh perusahaan. Data tersebut ditunjukkan bagi banyak sistem
operasional transaksi penting seperti sistem penjualan data pelanggan,
manufaktur, termasuk data transaksi web. Data Warehouse menghasilkan
data historis dan data terkini dari berbagai sistem operasi pada organisasi.
Data ini di kombinasi sekaligus memperbaiki susunan data bagi
kepentingan pelaporan dan analisis data bagi pihak dengan data sumber
eksternal, serta mengoreksi data yang tidak akurat dan kurang lengkap,
sekaligus memperbaiki susunan data bagi kepentingan pelaporan dan
analisis data bagi pihak manajemen sebelum dimasukkan ke dalam data
warehouse. Data Mart adalah bagian dari data Warehouse yang diringkas
atau dikhususkan untuk penanganan jenis data tertentu pada database yang
terpisah untuk kelompok pengguna yang telah ditentukan. Untuk
menangani data berkapasitas besar yang semi terstruktur atau tidak sama
sekali perusahaan menggunakan hadoop. Hadoop adalah Kerangka kerja
open source yang dikelola oleh Apache Software Foundation yang
memungkinkan pendistribusian proses data berkapasitas besar secara
paralel pada computer berbiaya terjangkau. Hadoop memecah masalah data
besar tersebut menjadi bagian yang lebih kecil, kemudian
mendistribusikannya ke ribuan titik pemrosesan komputer yang berbiaya
terjangkau. Hadoop dapat menangani jenis data apapun dengan kapasitas
besar termasuk data transaksi terstruktur, data dengan struktur yang agak
longgar seperti masukan dari Facebook dan Twitter, data-data yang
kompleks seperti log file pada server web data audio dan video yang tidak
terstruktur
Cara lain untuk memfasilitasi analisis data yang besar adalah dengan
menggunakan komputasi dalam memori, yang sangat mengandalkan pada
memori utama dari computer untuk data penyimpanan. Para pengguna akan
mengakses data yang disimpan dalam memori system utama, dengan
demikian dapat menghilangkan kemacetan dari mengambil dan membaca
data dalam suatu database tradisional, berdasarkan pada disk dan secara
dramatis akan mempersingkat waktu tunggu atas permintaan. Produk
komersial terkemuka bagi komputasi dalam memori meliputi High
Performance Analytics Appliance (HANA) dari SAP dan Orale Exalytics.
Agar dapat memastikan bahwa data bagi bisnis tetap akurat, dapat
diandalkan, dan siap tersedia bagi mereka yang memerlukannya, maka bisnis
memerlukan kebijakan dan prosedur khusus untuk manajemen data.
Analisis kualitas data sering dimulai dengan audit kualitas data, yang
merupakan survey terstruktur atas keakuratan dan tingkat kelengkapan dari
data dalam suatu system informasi. Pembersihan data juga dikenal sebagai
data scrubbing, terdiri atas kegiatan mendeteksi dan mengoreksi data dalam
database yang tidak benar, tidak lengkap, dan tidak diformat dengan tepat.
Pembersihan data bukan hanya mengoreksi kesalahan, tetapi juga
menekankan konsistensi diantara serangkaian data yang berbeda yang
berasal dari system informasi yang terpisah.