• Regular Expression
• Text normalization
Regular Expression
•[0123456789] = [0-9]
•[abcdefghijklmnopqrstuvwxyz] = [a-z]
•[ABCDEFGHIJKLMNOPQRSTUVWXYZ] = [A-Z]
•[mnopq] = [m-q]
•[abcdefghijklmnopqrstuvwxyz
ABCDEFGHIJKLMNOPQRSTUVWXYZ] = [A-z]
Negation In Disjunction
• Sifat social media sebagai jejaring social dimana satu user dapat secara
bebas berkomunikasi atau berpendapat sesuai keinginannya membuat format
data text pada social media menjadi beragam. Misalnya seseorang berkata
“ayo kita mkan sekaragn sj di MaLioBoro!! @yasirutomo”. Dari penggalan
tweet ini, kita bisa melihat beberapa kesalahan seperti ‘mkan’ yang
seharusnya makan ‘sekaragn’ yang harusnya ‘sekarang’, MaLioBoro yang
seharusnya cukup ‘Malioboro’ sj dan tanda ‘!!’ yang harusnya cukup sekali
saja ‘!’. Jika data text ini langsung diolah untuk sebuah analisis seperti
sentiment analisis, maka hasil yang didapat bisa saja keliru atau tidak
akurat.
Text Normalization (Cont)