Paper PDF

See discussions, stats, and author profiles for this publication at: https://www.researchgate.
net/publication/279480483
Integrasi Data Terstruktur dan Tidak Terstruktur dalam Sistem Inteligensi

Bisnis
Research · July 2015

DOI: 10.13140/RG.2.1.3251.8242
CITATIONS READS
0 2,325
1 author:
Choerul Afifanto
Statistics Indonesia
2 PUBLICATIONS 0 CITATIONS
SEE PROFILE
All content following this page was uploaded by Choerul Afifanto on 01 July 2015.
The user has requested enhancement of the downloaded file.

Integrasi Data Terstruktur dan Tidak Terstruktur dalam Sistem
Inteligensi Bisnis
Choerul Afifanto
Komputasi Statistik, Sekolah Tinggi Ilmu Statistik, Jakarta, Indonesia
12.7077@stis.ac.id
Abstract— Kuantitas data berkembang sangat I. PENDAHULUAN

pesat tiap harinya baik dari dalam maupun luar
perusahaan. Sangatlah penting untuk Besarnya data yang tersimpan di dalam sebuah
memanfaatkan data-data tersebut untuk dianalisa perusahaan berkembang sangat cepat tiap harinya.
sehingga bisa digunakan dalam inteligensi bisnis Kemampuan untuk mengakses dan menganalisa
maupun pengambilan keputusan yang strategis dan data tersebut dalam pembuatan keputusan yang
taktis.
cepat dan cerdas menjadi kunci kesuksesan sebuah
Data diklasifikasikan dalam 2 jenis, yatu
terstruktur dan tidak terstruktur. Data terstruktur perusahaan. Banyak perusahaan yang terus
direpresentasikan dalam skema yang jelas sehingga berkembang seiring dengan berputarnya waktu,
mudah untuk dianalisa maupun diintegrasikan sehingga menghasilkan informasi yang heterogen
dengan data terstruktur lainnya. Sedangkan data dari data yang terdistribusi di berbagai sumber.
tidak terstruktur direpresentasikan dalam berbagai Data tersebut disimpan dalam lokasi, sistem,
bentuk sehingga sangat sulit untuk dianalisa format dan skema yang berbeda dan memberikan
maupun diintegrasikan dengan sumber data lain. tantangan dalam penggunaan maupun
Data terstruktur dan tidak terstruktur apabila integrasinya.
diintegrasikan dalam menganilisa suatu Dalam pengambilan keputusan yang efektif dan
permasalahan akan memberikan pemahaman dan taktis, diperlukan kumpulan metodologi, proses,
solusi yang lebih lengkap dan tepat sasaran. Namun,
arsitektur dan teknologi yang mengubah data
bukanlah hal yang mudah untuk mengintegrasikan
kedua jenis data tersebut. Dibutuhkan teknik mentah menjadi informasi yang bermakna yang
maupun arsitektur yang tepat untuk mengatasi disebut Inteligensi Bisnis (IB)[2]. IB menggunakan
permasalahan tersebut. Gudang Data (GD) untuk mengelola data-datanya
Beberapa teknik yang bisa digunakan adalah text dalam jumlah besar. Namun tidak semua IB
tagging dan annotation. Teknik tersebut merupakan menggunakan GD dalam mengelola data-datanya.
teknik yang popular dalam natural processing IB digunakan untuk mendukung sejumlah besar
techniques untuk preprocessing data tidak keputusan bisnis mulai dari operasi sampai
terstruktur agar bisa dengan mudah diintegrasikan strategis. Keputusan operasi termasuk penempatan
dengan data terstruktur dan harga produk. Keputusan strategis termasuk
prioritas, tujuan dan arah pada tingkat yang lebih
Keywords— inteligensi bisnis, text tagging, luas. Pada semua kasus, IB lebih efektif bila data
annotation, natural processing techniques. yang didapat dari pasar tempat perusahaan
beroperasi (data eksternal) digabungkan dengan
data dari sumber internal bisnis perusahaan seperti
data operasi dan finansial (data internal). Bila
digabungkan, data eksternal dan internal bisa dikembangkan menjadi sistem komersil maupun
menyediakan gambaran yang lebih lengkap [1]. open-source. Saat ini sistem named entity
Secara umum, ada dua kategori data yaitu data detection telah memberikan akurasi yang akurat
terstruktur dan tidak terstruktur. Data terstruktur dan banyak digunakan di berbagai bidang dalam
tersedia sebesar 20% dari seluruh data, serta aplikasinya pada data mining, information
direpresentasikan dalam bentuk relasi yang mudah extraction (IE), serta natural language processing
dipetakan dan disimpan dalam database relasional. (NLP).
Sedangkan data tidak terstruktur tersedia sebanyak Paper ini akan menjelaskan peran text tagging
80% dari seluruh data yang direpresentasikan dan annotation pada tahap preprocessing dalam
dalam berbagai bentuk dokumen seperti laporan, integrasi data terstruktur dan tidak terstruktur
artikel berita, e-mail, dan konten web[3]. sehingga informasi berguna yang didapat dari
Data terstruktur biasanya disimpan dengan kumpulan teks berjumlah sangat besar bisa
skema yang terdefinisi sehingga mudah untuk diintegrasikan dengan data terstruktur untuk
dilakukan query, dianalisa, dan diintegrasikan analisa selanjutnya.
dengan data terstruktur lainnya. Berbeda dengan
data tidak terstruktur, yang secara alami susah
II. TEKNIK DAN ARSITEKTUR
untuk dilakukan query, dianalisa, maupun
diintegrasikan dengan sumber data lain. Namun di A. Text Tagging dan Annotation
balik itu semua, informasi tersembunyi yang
tersimpan dalam data tidak terstruktur bisa sangat Text tagging dan annotation atau biasa disebut
berperan dalam pengambilan keputusan. Sehingga named entitiy extraction merupakan teknik yang
apabila dalam pengambilan keputusan popular digunakan dalam pemrosesan data tidak
menggunakan integrasi data terstruktur dan data terstruktur seperti teks yang berdasarkan pada
tidak terstruktur bisa menambah nilai yang Natural Language Processing (NLP) dan machine
signifikan serta kebenaran yang sejati bagi learning. Text tagging dan annotation membentuk
perusahaan/organisasi. Inilah yang menjadi komponen yang penting dalam tugas pemrosesan
tantangan sekaligus manfaat dalam integrasi data bahasa, termasuk di dalamnya seperti text mining,
terstruktur dan tidak terstruktur. information retrieval, dan information extraction.
Text tagging dan annotation merupakan teknik Named entity extraction terdiri dari identifikasi
yang cukup popular dalam Natural Language nama entitas dalam teks bebas atau data tidak
Processing (NLP) dan Machine Learning. Serta terstruktur. Tipe entitas yang umum seperti kata
merupakan komponen penting dalam pemrosesan benda, nama, produk, perusahaan, lokasi, alamat e-
dokumen dan information extraction system. Text mail, waktu dan tanggal, serta nilai numerik seperti
tagging dan annotation terdiri atas analisa teks ukuran, persentase, nilai keuangan, dll.
bebas dan identifikasi kata seperti kata benda, Named entity extraction sudah banyak
kerja, maupun ekspresi numerik. Text annotation diaplikasikan di berbagai bidang di antaranya,
juga disebut sebagai Named Entity (NE) bidang kesehatan yaitu mendeteksi nama penyakit
Extraction. Dulu, teknik Named Entity Extraction berdasarkan literatur kedokteran, bidang militer
digunakan untuk mengidentifikasi entiti umum yaitu mendeteksi nama senjata, fasilitas dan
seperti nama orang, lokasi, perusahaan, tanggal, organisasi teroris, bidang IT yaitu membangun
besarnya pengeluaran dari kumpulan teks bebas. aplikasi pencarian semantic untuk mengatasi
Teknik tersebut banyak dijadikan subjek penelitian keterbatasan kata kunci regular berdasarkan search
selama beberapa dekade terakhir dan telah engine.
Beberapa pendekatan maupun teknik telah
dikembangkan untuk meningkatkan performa
named entity extraction, mulai dari
mengembangkan secara manual kumpulan dari
aturan menggunakan sebuah kamus serta sebuah
daftar yang nilainya didapat dari query database.
B. Generic and High-Level Architecture Diagram

Proses pengumpulan inteligensi atau kecerdasan Figure 1. Text tagging dan annotation serta ETL dalam
dari sumber data terstruktur dan tidak terstruktur pembentukan complete data warehouse (fase pertama)
dibagi menjadi 2 fase. Pada fase pertama, data
tidak terstruktur (seperti CMS, scan dokumen, tradisional seperti Relational Database
email, web konten) diubah menjadi data Manegement System (RDBMS), legacy systems,
intermediate yang karakteristiknya sama seperti dan aplikasi tempat penyimpanan perusahaan.
data terstruktur dengan teknik text tagging dan Sedangkan data tidak terstrukturnya berasal dari
annotation. Hasilnya akan diintegrasikan dengan dokumen, Content Management System (CMS),
data terstruktur dengan bantuan alat untuk serta mail system.
mengekstrak, mentransform dan memuat data yang Output dari fase pertama yaitu penyimpanan
disebut Extract, Transform, and Load (ETL) dari integrasi data terstruktur dan tidak terstruktur atau
database terpisah menjadi satu penyimpanan utuh disebut CDW berperan sebagai input dalam fase
yaitu Complete Data Warehouse (CDW) untuk kedua. Pada fase kedua ini, aplikasi Inteligensi
pelaporan dan analisis. Bisnis dibangun di atas sebuah versi kebenaran
Untuk membangun landasan pengambilan yang bisa dipercaya. Kebenaran tersebut
keputusan yang efektif, diperlukan informasi yang direpresentasikan dalam bentuk CDW.
sifatnya bisa dipercaya. Informasi tersebut
direpresentasikan oleh CDW yang merupakan
tempat dimana data terstruktur dan tidak
terstruktur diintegrasikan. Proses pengintegraian
tersebut melalui proses ETL, yaitu sebuah proses
yang fungsinya untuk memodifikasi dan
membersihkan data sesuai dengan format tertentu
yang standar sebelum data tersebut disimpan ke
dalam CDW untuk menjadi informasi yang
digunakan sebagai landasan dalam pengambilan Figure 2 Pembangunan aplikai Inteligensi Bisnis dari Complete
keputusan secara strategis dan taktis. Data Warehouse (fase 2)
Pada kasus sumber data tidak terstruktur, text
CDW meliputi semua pandangan dari aset data
tagging dan annotation platform mengekstrak
perusahaan dalam pembangunan Inteligensi Bisnis
informasi berdasarkan pada domain ontology atau
dan aplikasi pendukung pengambilan keputusan.
makna, properti maupun relasi dari data tersebut
Figure 2 menunjukkan pembangunan IB dan
terhadap suatu domain atau bidang menjadi sebuah
aplikasi pendukung pengambilan keputusan itu
database XML.
secara menyeluruh dengan menggunakan semua
Figure 1 menunjukkan bahwa data terstruktur di
data perusahaan dari internal maupun eksternal.
dalam perusahaan berasal dari sumber transaksi
Dengan menggunakan CDW, aplikasi lain seperti kemudian disimpan ke dalam CDW berupa
manajemen performa perusahaan bisa informasi aktual.
menghasilkan output yang handal dan bisa Hasil yang tersimpan dalam ETL tersebut
dipercaya. digunakan sebagai pembangunan inteligensi bisnis
yang dapat digunakan sebagai landasan pendukung
dalam pengambilan keputusan yang strategis dan
III. METODOLOGI
taktis. Selain itu, inteligensi bisnis dapat
diterapkan untuk tujuan bisnis seperti perkiraan,
A. Studi Kasus analitis, pelaporan perusahaan, kolaborasi serta
Studi kasus yang digunakan pada paper ini manajemen pengetahuan.
adalah studi kasus tentang mendapatkan informasi
yang lebih aktual dan berguna dari data terstruktur IV. HASIL DAN DISKUSI
dari BPS dengan data tidak terstruktur dari media
massa online, SINDONEWS, tentang informasi Informasi yang bersifat real-time tentang suatu
ekspor dan impor nonmigas. produk kita maupun kompetitor sangat krusial jika
kita tidak bisa menganalisanya secara bijak untuk
B. Prosedur Pengambilan Data kepentingan perusahaan kita. Seorang pengambil
keputusan harus bisa menyerap dan menganalisa
Data terstruktur BPS tentang nilai ekspor
informasi yang tersedia dalam jumlah yang sangat
nonmigas bulan Mei 2015 yang berupa tabel di-
besar yang muncul setiap saat. Umtuk menjaga
capture dan dicatat nilainya, sehingga didapat
persaingan antar perusahaan, sebuah perusahaan
angka mentah nilai ekspor nonmigas.
harus sadar dan waspada akan perubahan trend
Sedangkan untuk data tidak terstruktur yang
pasar, kebijakan kompetitor, produk terbaru
diambil dari salah satu berita pada koran
kompetitor, perubahan manajemen, penggabungan
SINDONEWS yaitu berita berjudul Wow! Butuh
dan akuisisi perusahaan yang diterbitkan dalam
Tujuh Tahun Pisang RI tembus Jepang[6] .Artikel
media cetak/online seperti koran, majalah, dan
berita tersebut berisin tentang informasi yang lebih
website.
detail mengenai ekpor pisang Indonesia ke negara
Artikel berita harian berupa kumpulan teks yang
Jepang, seperti total ekspor pisang dari Indonesia
tersusun rapi dalam beberapa paragraf. Untuk
ke Jepang, total konsumsi buah impor Jepang,
supermarket yang menjual buah-buah impor, dsb.
C. Analisis Data
Data tidak terstruktur yang berupa artikel berita
dari SINDONEWS pertama kali diubah formatnya
terlebih dahulu menjadi data terstruktur dengan
teknik text tagging dan annotation. Sedangkan
data terstruktur berupa data mentah ekspor
nonmigas Indonesia bulan Mei 2015. Kemudian Figure 3 Mendapatkan inteligensi pasar dari artikel berita
kedua jenis data, terstruktur dan tidak terstruktur,
dilakukan proses ekstrak, transform maupun muat mengumpulkan data yang tidak terstruktur tersebut
dengan alat ETL agar bisa diintegrasikan dan tidaklah mudah dan butuh waktu cukup lama untuk
melakukan review dan analisa. Kualitas dari
sebuah keputusan yang strategis dan taktis terletak
pada kualitas masukan informasi tersebut. tahun organisasi
Sehingga sangatlah penting untuk menganalisa
kualitas informasi sebaik mungkin dalam rentang
waktu yang terbatas.
Figure 3 mengilustrasikan sebuah skenario Tahun ini saja, Transpacific Foods Japan berencana
mengimpor pisang Cavendish dari PT Nusantara
dalam mendapatkan informasi dengan cara Tropical Farm (NTF) sebanyak 8.147 ton dan nanas
mencari informasi dari sumber berita harian, sebanyak 1.673 ton.
forum, blogs, artikel dan laporan. Kebanyakan
komoditi
orang mendapatkan informasi secara cepat dari kuantitas
artikel berita yaitu dengan cara membaca
headline/judulnya. Namun jika diimplementasikan Text annotator
oleh sistem, hal itu tidaklah mudah untuk
dilakukan dengan melakukan query pada natural
language text dari headline/judul untuk bisa XML
Output tahun organisasi komoditi kuantitas
dianalisis maksudnya. Kemudian bagaimana peran
dari text annotation tool dalam data tidak Tahun Transpacific pisang 8147 ton
ini Food Japan
terstruktur sehingga makna dari hasil bisa diterima
dengan baik.
Salah satu contoh kalimat dalam artikel berita <TAHUN>Tahun ini</TAHUN> saja,
SINDONEWS adalah: <ORGANISASI>Transpacific Foods
“Tahun ini saja, Transpacific Foods Japan Japan</ORGANISASI> berencana mengimpor
<KOMODITI>pisang</KOMODITI> Cavendish dari
berencana mengimpor pisang Cavendish dari PT PT Nusantara Tropical Farm (NTF) sebanyak
Nusantara Tropical Farm (NTF) sebanyak 8.147 <KUANTITAS>8.147 ton</KUANTITAS> dan nanas
ton dan nanas sebanyak 1.673 ton” sebanyak 1.673 ton
Entitas yang bisa didapat dari cuplikan berita Figure 4 Text annotation and tagging
tersebut diantaranya tahun, komoditi, organisasi, Keuntungan yang bisa diperoleh dari
dan kuantitas. Seperti yang ditampilkan pada penggabugan data terstruktur dengan data tidak
Figure 4, text annotator mengidentifikasi entitas terstruktur bisa dirasakan jika kita ingin
serta memberikan tags pada cuplikan berita mengetahui jawaban dari pertanyaan misal seperti
tersebut. Output yang dihasilkan dapat berupa berikut: “Perusahaan apa saja yang berencana
dokumen XML dan tabel database. Memberikan mengimpor pisang dari Indonesia, serta berapa
tag pada informasi yang penting dapat presentase pisang yang diimpor terhadap total
mempermudah dalam mendapatkan link entitas ekspor komoditas buah-buahan Indonesia?” Jika
dan analisis relasinya. Tag XML dan skema tabel untuk menjawab pertanyaan tersebut hanya
database harus didefinisikan terlebih dahulu menggunakan sumber data tunggal yaitu data
sebelumnya. Selain itu, text annotator tool juga terstruktur. Pertanyaan tersebut belum bisa
harus diatur dan diprogram supaya bisa mendeteksi terjawab secara sempurna. Namun, jika
entitas tertentu secara spesifik. Sehingga query menggunakan informasi yang tersimpan dalam
pada SQL bisa secara mudah dilakukan pada tabel CDW yang merupakan integrasi dari data
yang telah dihasilkan melalui proses text tagging terstruktur dan tidak terstruktur, maka pertanyaan
dan annotation. tersebut bisa terjawab dengan lengkap.
V. KESIMPULAN memanfaatkan data dari berbagai sumber baik itu
data terstruktur maupun tidak terstruktur.
Text tagging dan annotation berperan sangat
significant dalam integrasi data terstruktur dan
tidak terstruktur. Output dari integrasi data
tersebut, complete data warehouse, memberikan REFERENSI
landasan yang kuat dalam pendukung pengambilan [1] Coker, Frank (2014). Pulse: Understanding the Vital
keputusan dan inteligensi bisnis. Signs of Your Business. Ambient Light Publishing.
Menghilangkan pembatas antara data terstruktur hlm. 41-42. ISBN 978-0-9893086-0-1.
dan tidak terstruktur berdampak pada cara [2] Evelson, Boris (21 November 2008). "Topic
Overview: Business Intelligence"
perusahaan dalam memperlakukan dan mengolah [3] Knox, Rita, T. Eid, & A. White. “Management
datanya. Memang secara alami, data tidak Update: Companies should align their structured
terstruktur tersebut sangat sulit untuk diekstraks and unstructured data,” Gartner Research, Feb 2005
dan diintegrasikan dengan data terstruktur. Namun [4] K.P. Byung & Y.S. Il. “Toward Total Business
output dari integrasi data terstruktur dan tidak Intelligence Incorporating Structured and
Unstructured Data”. 2011.
terstruktur tersebut memberikan manfaat yang [5] Sukumuran. Sreekumar & Sureka, Ashish.
besar bagi perusahaan/organisasi. “Integrating Structured and Unstructured Data
Seperti yang telah diperlihatkan pada Using Text Tagging and Annotation”
pembahasan, teknologi ini bisa membantu [6] http://ekbis.sindonews.com/read/1018103/34/wow-
perusahaan dalam mengambil keputusan yang butuh-tujuh-tahun-pisang-ri-tembus-jepang-
1435564455 [terakhir diakses 30 Juni 2015]
strategis dan taktis dalam inteligensi bisnis dengan [7] https://id.wikipedia.org/wiki/Inteligensi_bisnis
View publication stats

Paper PDF

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Paper PDF

Diunggah oleh

Hak Cipta:

Format Tersedia

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

Integrasi Data Terstruktur dan Tidak Terstruktur dalam Sistem Inteligensi

Research · July 2015

The user has requested enhancement of the downloaded file.

Abstract— Kuantitas data berkembang sangat I. PENDAHULUAN

B. Generic and High-Level Architecture Diagram

View publication stats

Anda mungkin juga menyukai