Univ Pakuan Text Mining
Univ Pakuan Text Mining
TEXT MINING
TEKNOLOGI DAN IMPLEMENTASI
2
AGENDA
3
UNSTRUCTURED TEXT, GOLD, AND JOBS
DATA GROWTH: UNSTRUCTURED DATA
5
BIG DATA – BIG GROWTH
6
DATA IS THE NEW GOLD
7
8
RECOMMENDED BOOK
9
10
MACHINE LEARNING
APA ITU “MACHINE LEARNING”?
12
ARTI “LEARNING”
13
REFERENSI BUKU (RECOMMENDED)
Author – Tom M. Mitchell
Latest Edition – First
Publisher – McGraw Hill Education
Format – Paperback
Machine Learning by Tom M. Mitchell is a fitting book for getting
started with machine learning. It offers a comprehensive overview
of machine learning theorems with pseudocode summaries of the
respective algorithms. The Machine Learning book is full of
examples and case studies to ease a reader’s effort for learning and
grasping ml algorithms.
If you wish to start your career in machine learning, then this book
is a must-have. Thanks to a well-explained narrative, a thorough
explanation of ml basics, and project-oriented homework
assignments, the book on machine learning is a suitable candidate
to be included in any machine learning course or program.
Topics covered
• Genetic algorithms
• Inductive logic programming
• Introduction to primary approaches to machine learning
• Machine learning concepts and techniques
• Re-enforcement learning
14
REFERENSI ONLINE
ONLINE: http://www.cs.cmu.edu/~tom/mlbook-chapter-slides.html
15
TEXT MINING VS TEXT ANALYTICS
APA ITU “TEXT MINING”?
17
DEFINISI
18
FRAMEWORK
19
LANGUAGE
20
CONTOH PROSES
21
TAHAPAN: TEXT MINING VS TEXT ANALYTICS
22
TEXT PROCESSING
RECOMMENDED BOOK
24
TAHAPAN DALAM NLP
25
BASIC TEXT PROCESSING
• Regular Expressions
• Word Tokenization
• Word Normalization and Stemming
• Sentence Segmentation and Decision Trees
26
27
28
29
30
TEXT PROCESSING (MORE)
31
TOOLS TEXT MINING
LIBRARY ARTIFICIAL INTELLIGENCE
33
KEMAMPUAN SPARK NLP DALAM TEXT
PROCESSING
34
SPARK NLP DAN SPARK ML
35
FITUR SPARK NLP
36
CONTOH: NAMED ENTITY RECOGNITION
Inisiasi
Input Text
Anotasi (processing)
Tipe output
NER output
37
CONTOH: ANNOTATION
38
CONTOH: ANNOTATION (2)
39
SENTIMENT ANALYSIS
40
NAMED ENTITY RECOGNITION
41
FUNGSI YANG SUDAH TERSEDIA
42
TOOLS TEXT MINING: ORANGE
ORANGE: VISUAL TEXT MINING
44
DRAG AND DROP
45
TUTORIAL ORANGE: YOUTUBE
46
NLP DI DRONE EMPRIT / MEDIA KERNELS
ARSITEKTUR SISTEM
48
TEKNOLOGI NLP
49
CONTOH: UNSTRUCTURED TEXT
Artikel ini mendiskusikan dokrin Kewalian (al-walāyah) yang mempunyai basis yang kuat
dalam al-Qur’an dan hadis dan isu ini secara sistematis dibahas melalui ajaran Ibn ‘Arabi
yang kompleks.
Sementara dalam kajian tasawuf di Nusantara, sebutan wali ini sudah mulai dikenal
bersamaan dengan masuknya Islam ke negeri ini yang mengacu kepada dua pengertian,
wali sebagai orang yang memiliki kesaktian-kesaktian (occulties) sebagai implikasi dari
kekeramatan dan wali sebagai penguasa wilayah tertentu. Terlepas dari pengertian dan
cakupannya, ajaran kewalian yang sesungguhnya tidak lepas dari ajaran tentang kenabian
dan kerasulan yang menyiratkan pesan bahwa dunia manusia bukan hanya dunia material
yang identik dengan kenikmatan hedonis, tetapi di balik dunia fi sik terdapat dunia metafi
sik yang belum banyak diketahui manusia dan dari sanalah dunia fisik ini dikendalikan.
Kata-kata Kunci : wali, karamah, Nur Muhammad, kewalian, kenabian, penutup para wali
Fakultas Ushuluddin, UIN Syarif Hidayatullah. E-mail : yunasrilali@ymail.com
50
SEGMENTATION: PARAGRAPH
=====page1=====
-----------par----------
KANZ PHILOSOPHIA, Volume 3, Number 2, December 2013 201
-----------par----------
KEWALIAN DALAM TASAWUF NUSANTARA
-----------par----------
Artikel ini mendiskusikan dokrin Kewalian (al-walāyah) yang mempunyai basis yang kuat dalam al-
Qur’an dan hadis dan isu ini secara sistematis dibahas melalui ajaran Ibn ‘Arabi yang kompleks.
-----------par----------
Sementara dalam kajian tasawuf di Nusantara, sebutan wali ini sudah mulai dikenal bersamaan
dengan masuknya Islam ke negeri ini yang mengacu kepada dua pengertian, wali sebagai orang
yang memiliki kesaktian-kesaktian (occulties) sebagai implikasi dari kekeramatan dan wali sebagai
penguasa wilayah tertentu. Terlepas dari pengertian dan cakupannya, ajaran kewalian yang
sesungguhnya tidak lepas dari ajaran tentang kenabian dan kerasulan yang menyiratkan pesan
bahwa dunia manusia bukan hanya dunia material yang identik dengan kenikmatan hedonis, tetapi
di balik dunia fi sik terdapat dunia metafi sik yang belum banyak diketahui manusia dan dari
sanalah dunia fi sik ini dikendalikan.
-----------par----------
Kata-kata Kunci : wali, karamah, Nur Muhammad, kewalian, kenabian, penutup para wali 1 Fakultas
Ushuluddin, UIN Syarif Hidayatullah. E-mail : yunasrilali@ymail.com 51
SEGMENTATION: SENTENCE
-----------par----------
Sementara dalam kajian tasawuf di Nusantara, sebutan wali ini sudah mulai dikenal
bersamaan dengan masuknya Islam ke negeri ini yang mengacu kepada dua
pengertian, wali sebagai orang yang memiliki kesaktian-kesaktian (occulties) sebagai
implikasi dari kekeramatan dan wali sebagai penguasa wilayah tertentu.
Terlepas dari pengertian dan cakupannya, ajaran kewalian yang sesungguhnya tidak
lepas dari ajaran tentang kenabian dan kerasulan yang menyiratkan pesan bahwa dunia
manusia bukan hanya dunia material yang identik dengan kenikmatan hedonis, tetapi
di balik dunia fisik terdapat dunia metafi sik yang belum banyak diketahui manusia dan
dari sanalah dunia fisik ini dikendalikan.
52
PART-OF-SPEECH TAGGING
53
S-P-O TRIPLE
O
Grafik di kanan ini adalah tree-map, dari
relasi subyek, predikat, dan obyek yang
berhasil diekstrak dari fullteks. P
Manfaat dari tree map ini adalah
pengguna bisa mendapat insight S
dengan cepat tentang:
• Aktor person, organisasi, konsep
(subyek)
• Aktifitas terkait dengan aktor
• Obyek atau related entitis terkait
aktivitas subyek.
54
CO-OCCURRENCE ANTAR KONSEP
55
DIRECTED GRAPH
56
FACTMINER DRONE EMPRIT
DIAGRAM SISTEM
Berita Online
Natural
Language
Processing Semantic
Laporan Internal Engine Search Visualization
Engine
Person, Organization,
Location, Time,
S-P-O Relationship
Dokumen Lainnya
58
CONTOH PENCARIAN: DEMO, UNJUK RASA
Tren “demo atau unjuk rasa” selama tahun 2020 hingga hari ini. Kecenderungan naik mulai bulan Mei 2020.
Siapa tokoh dalam berita dan organisasi diekstrak dari dokumen. 59
ENTITAS PERISTIWA, WAKTU, DAN LOKASI
Selain tokoh dan organisasi, FactMiner juga mengekstrak peristiwa dalam berita, waktu, dan lokasi.
60
CONTOH FAKTA DARI ARTIKEL
Dalam kalimat mana di dokumen sumber terdapat kata kunci yang dicari. 61
EKSPLORASI PERISTIWA DALAM DOKUMEN
Obyek
Contoh:
Subyek = buruh
Predikat = menolak
Obyek = sebagian
besar tentang
Predikat
Omnibus Law, UU
Cilaka, Kenaikan
Subyek BPJS
62
CONTOH: MAHASISWA MENOLAK
Obyek
Predikat
Subyek
63
SEBARAN PERISTIWA DEMO DI INDONESIA
64
CONTOH DETAIL BERITA DI “MALUKU UTARA”
65
CONTOH DETAIL BERITA DI “PAPUA BARAT”
66
MELIHAT CO-OCCURRENCE ANTARA SUBYEK-
OBYEK
67
EKSPLORASI GRAPH DARI RELASI S-P-O
68
ZOOM “FERDINAND”, LALU “EXPAND”
69
SENTIMENT ANALYSIS
SENTIMENT ANALYSIS
Positif
MENTIONS
? Negatif
Netral
71
SENTIMENT ANALYSIS
Positif
MENTIONS
72
SENTIMENT ANALYSIS
MENTIONS
? Negatif
Untuk KPK
73
SENTIMENT ANALYSIS
MENTIONS
?
Untuk Hakim Cepi Iskandar
Netral
74
EVALUASI
75
http://www.sciencedirect.com/science/article/pii/S2090447914000550
SENTIMENT ANALYSIS TOOLS
Text Mining
Module
https://breakthroughanalysis.com/2012/01/08/what-are-
the-most-powerful-open-source-sentiment-analysis-tools/
76
SENTIMENT ANALYSIS: DRONE EMPRIT
77
DEMOGRAPHY ANALYSIS
Features
79
80
GITHUB LIBRARY
https://github.com/euagendas/m3inference
81
BOT ANALYSIS
BOTOMETER
Botometer adalah tools yang dibuat Indiana University untuk mengecek aktivitas sebuah akun di Twitter dan
memberi score seberapa besar probabilitas akun itu merupakan bot. Semakin besar scorenya, semakin tinggi
kemungkinan itu bot.
83
DRONE EMPRIT + BOTOMETER
Untuk menentukan score bot dari akun-akun yang muncul dalam percakapan, Drone Emprit menggunakan layanan Botometer
API. Setiap akun diambil profilenya, plus 200 cuitan terakhir, lalu dikirim ke server API Botometer. Response dari API adalah
score bot dari akun tersebut. Ini dilakukan untuk setiap akun, sehingga butuh waktu lama untuk menyelesaikan identifikasi bot
dari semua akun.
Botometer
Profile + 200 twits
API
Bot scores
https://rapidapi.com/OSoMe/api/botometer
84
HOW IT WORKS
85
VISUALISASI HASIL BOT ANALYSIS
HUMAN
CYBORG
ROBOT
86
AI UNTUK MENDETEKSI ROBOT DI TWITTER
HUMAN ROBOT
HUMAN ROBOT
TiLiK
HUMAN ROBOT
HUMAN ROBOT
PETA PERCAKAPAN “JEJAK KHILAFAH”
Pro Oposisi
robot
Pro Pemerintah
88
CONTOH AKUN ROBOT
89
AKSI ROBOT-ROBOT DI TWITTER
REGEX: EMOTION ANALYSIS
MENGGALI LEBIH DALAM EMOSI PUBLIK DALAM
PERCAKAPAN
• Secara kolosal, dari semua perakapan, kita bisa melihat tren emosi
publik terhadap sebuah isu tertentu.
• Dengan analisis emosi ini, kita bisa tahu:
• Apakah publik cenderung: percaya, tidak percaya, takut, senang, sedih,
marah, jijik, terkejut, atau penuh harapan?
• Apa yang membuat publik merasa percaya, takut, atau marah?
• Bagaimana tren emosi tertentu, dihubungkan dengan peristiwa yang
tengah terjadi?
• Untuk mengetahui emosi publik kita bisa menggunakan:
92
PLUTCHIK’S WHEEL OF EMOTIONS
https://www.6seconds.org/2017/04/27/plu
tchiks-model-of-emotions/
93
LEXICON BASED ANALYSIS
• JOY
• senang, bahagia, suka, seneng, hepi, menyenangkan, happy,
menggembirakan, gembira, fun, sukacita, riang, ceria, …
• TRUST
• FEAR
• SURPRISE
• SADNESS
• DISGUST
• ANGER
• ANTICIPATION
94
EMOSI: TIDAK YAKIN DENGAN KESIAPAN SARANA &
LAYANAN KESEHATAN, KURVA BELUM TURUN
Tidak disiplin
Kesiapan BUMN
96
TOPIK PENELITIAN
SOME TOPICS
98
MY DISSERTATION
99
SITASI DRONE EMPRIT
HOW TO CITE DRONE EMPRIT?
Source:
https://pers.droneemprit.id/how-to-cite-drone-emprit/
101
Ismail Fahmi, PhD.
THANK YOU