Processamento de Linguagem Natural: Conceitos Fundamentais Prof a Maria das Graas Bruno Marietto graca.marietto@ufabc.edu.br Bacharelado em Cincia da Comuta!o Processamento de Linguagem Natural "MC #$%&' 2 REAS DE ESTUDOS DA LINGUSTICA (E)* +E E*,-+.* +) L/NG-0*,/C) 3 Vamos analisar as reas de estudo e pesuisa da lin!ua!em" #on$ti%a e #onolo!ia &or'olo!ia Sinta(e Sem)nti%a *ra!mti%a 4 REAS DE ESTUDOS DA LINGUSTICA" #ON+TICA E #ONOLOGIA F.N1,/C) E F.N.L.G/) 5 #on$ti%a e #onolo!ia s,o dis%iplinas da Lin!u-sti%a ue estudam os 'onemas. ou se/a. os sons das pala0ras e %omo eles s,o produ1idos A #on$ti%a estuda os sons da 'ala A #onolo!ia estuda a 'un2,o desses sons dentro de uma determinada l-n!ua *or e(emplo. a #on$ti%a estuda %omo $ produ1ido o som 345 e a #onolo!ia estuda ue 'un2,o esse som 345 tem na l-n!ua F.N1,/C) 6 A 'on$ti%a est rela%ionada ao estudo da produ2,o da 'ala 6umana. %onsiderando as uest7es 'isiol8!i%as en0ol0idas. tais %omo a estrutura do aparel6o 'onador" &and-9ula Larin!e :o%a Dentes L-n!ua Essa $ uma estrutura 9astante %omple(a. mais de ;<< m=s%ulos est,o en0ol0idos no %ontrole direto e %ont-nuo da produ2,o das ondas sonoras da 'ala F.N1,/C) 7 >uando 'alamos produ1imos uma %orrente de ar ue sai de nossos pulm7es e 0ai at$ nossa 9o%a passando por di0ersos 8r!,os e estruturas Os sons da 'ala s,o produ1idos uando al!uns desses 8r!,os e estruturas a!em so9re essa %orrente ou se/a. uando 6 mudan2a dessa %orrente de ar F.N1,/C) E F.N.L.G/): )PL/C)23E* 8 O dom-nio da #on$ti%a e da #onolo!ia $ ne%essrio ao desen0ol0imento dos sistemas de" Re%on6e%imento de 'ala ?0o1@ S-ntese de 'ala ?0o1@ F.N1,/C) E F.N.L.G/): (EC.N4EC/MEN,. +E F)L) 9 Re%on6e%imento de 'ala $ o pro%esso mediante o ual se %on0erte o sinal a%=sti%o produ1ido pelo ser 6umano ?%apturado por e(emplo por mi%ro'one ou tele'one@ em um %on/unto de pala0ras *ode o%orrer das se!uintes 'ormas" Re%on6e%imento de pala0ras %ara%teri1aAse por pro%essar um peueno tre%6o da 'ala. de modo a identi'i%ar ue tipo de a2,o o sistema de0e tomar *or e(emplo. em sistemas de %omando de 0o1 %omo no %aso de re%on6e%imento de 0o1 para apli%a2,o em %adeiras de rodas Este pro%essamento tornaAse simpli'i%ado. uma 0e1 ue o sistema / sa9e de antem,o uais os %omandos dispon-0eis para o usurio F.N1,/C) E F.N.L.G/): (EC.N4EC/MEN,. +E F)L) 10 *ode o%orrer das se!uintes 'ormas" Re%on6e%imento de 'ala natural ?ou 'ala %ont-nua@ en0ol0e uma ou mais 'rases. isto $. 0rias pala0ras ue ten6am um si!ni'i%ado sem)nti%oB A 'ala re%on6e%ida. ent,o. $ %on0ertida em te(to A autenti%a2,o 9aseiaAse no 'ato de ue a 0o1 $ =ni%a para %ada pessoa e pode ser utili1ada para identi'i%ar al!u$m F.N1,/C) E F.N.L.G/): *0N,E*E +E 5.6 11 A s-ntese de 0o1 $ o pro%esso %ontrrio ao re%on6e%imento de 'ala O sinteti1ador re%e9e um te(to na 'orma di!ital e trans'ormaAo em ondas sonoras 'a1endo uma leitura em 0o1 alta Uma das maiores di'i%uldades no desen0ol0imento desse tipo de sistema $ produ1ir pron=n%ia adeuada e %on0in%ente %om sonoridade similar C 'ala 6umana 12 REAS DE ESTUDOS DA LINGUSTICA" &OR#OLOGIA E SINTA4E M.(F.L.G/) E */N,)7E 13 &or'olo!ia estuda a pala0ra em si ?so1in6a@ &or'olo!ia etmolo!i%amente $ uma pala0ra" ue 0em do !re!o. morfh. D'ormaEF e logos. DestudoE. DtratadoE Ou se/a. na ori!em. mor'olo!ia $ o estudo da 'orma e. no %aso da Lin!u-sti%a. a 'orma das pala0ras Sinta(e estuda a 'rase. ou se/a. estuda as pala0ras em rela2,o Cs outras ue se en%ontram na mesma 'rase M.(F.L.G/) 14 &or'olo!ia estuda a pala0ra em si ?so1in6a@ Al!umas pala0ras. %omo r0ore. n,o podem ser ue9radas em unidades menores &as isso pode o%orrer %om pala0ras %omo r0ores ou ar0orezinhas Ou ainda pala0ras %omo imposs-0el. ou sobremesa As unidades %onstituintes das pala0ras s,o denominadas mor'emas tais %onstituintes podem ser independentes. %omo em r0ore ou dependentes %omo no %aso dos su'i(os ?s em r0ores@ e pre'i(os ?im em imposs-0el@ M.(F.L.G/) 15 &or'olo!ia estuda a pala0ra em si ?so1in6a@ Al$m de estudar a estrutura das pala0ras. em &or'olo!ia estudaAse a %lassi'i%a2,o das pala0ras em di'erentes %ate!orias !ramati%as. de a%ordo %om seu uso ou. %on'orme o termo popularmente %on6e%ido na rea. as pala0ras s,o %lassi'i%adas em partes do dis%urso ?part-of-speech. ou *OS@ G ;< %lasses !ramati%ais. ou *OS" Su9stanti0o Ad/eti0o *ronome Ver9o Ad0$r9io Ad/eti0o Con/un2,o *reposi2,o Numeral Arti!o M.(F.L.G/) 16 Anlise Morfolgica da frase Maria comprou um carro &aria" su9stanti0o pr8prio %omprou" 0er9o um" arti!o %arro" su9stanti0o %omum O analisador mor'ol8!i%o identi'i%a pala0ras ou e(press7es isoladas em uma senten2a. sendo este pro%esso au(iliado por delimitadores ?pontua2,o e espa2os em 9ran%o@ */N,)7E 17 Sinta(e estuda a 'rase. ou se/a. estuda as pala0ras em rela2,o Cs outras ue se en%ontram na mesma 'rase Estuda %ada pala0ra de uma 'rase de a%ordo %om o %onte(to da 'rase C ual ela est inserida Anlise Sinttica da frase Maria comprou um carro &aria" su/eito %omprou" n=%leo do predi%ado 0er9al ?%omprou um %arro@ um" ad/unto adnominal %arro" n=%leo do o9/eto direto ?um %arro@ */N,)7E 18 + atra0$s da anlise sintti%a ue se pode 0eri'i%ar. por e(emplo" Se a %on%ord)n%ia esta9ele%ida pelas re!ras da l-n!ua est sendo o9ede%ida pela 'rase Ou a interpreta2,o da 'rase Na 'rase 3O 6omem 0iu o menino %om o teles%8pio5 podemos 0eri'i%ar a possi9ilidade de di'erentes interpreta27es As di'erentes interpreta27es ?o menino %om o teles%8pio ou 0iu %om o teles%8pio@ n,o s,o de0idas C presen2a de am9i!uidade nas pala0ras. mas sim na estrutura 19 REAS DE ESTUDOS DA LINGUSTICA" SE&HNTICA E *RAG&TICA *EM8N,/C) E P()GM,/C) 20 Sem)nti%a $ o estudo do si!ni'i%ado das pala0ras. 'rases e te(tos de uma l-n!ua de maneira mais independente de uem as usa ou de %omo s,o usadas essas e(press7es ?sem 'o%ar no %onte(to@ *ra!mti%a $ o estudo do si!ni'i%ado das pala0ras. 'rases e te(tos. %onsiderandoAse o %onte(to em ue eles o%orrem A *ra!mti%a $ o estudo da lin!ua!em do ponto de 0ista de seus usurios. parti%ularmente das es%ol6as ue eles 'a1em. das restri27es ue eles en%ontram ao usar a lin!ua!em em intera27es so%iais. e dos e'eitos ue o uso da lin!ua!em. por parte desses usurios. tem so9re os outros parti%ipantes no ato da %omuni%a2,o *EM8N,/C) 21 Sem)nti%a $ o estudo do si!ni'i%ado das pala0ras. 'rases e te(tos de uma l-n!ua. sem 'o%ar no %onte(to O estudo do si!ni'i%ado pode ser %entrali1ado" No si!ni'i%ado das pala0ras. atra0$s da sem)nti%a le(i%al Ou no 0alor 0erdade de uma proposi2,o. atra0$s da sem)nti%a l8!i%a Com rela2,o C sem)nti%a le(i%al um dos primeiros pro9lemas a serem %onsiderados $ o 'ato de al!umas pala0ras apresentarem m=ltiplos sentidos ?am9i!uidade@ P()GM,/C) 22 A *ra!mti%a $ o estudo da lin!ua!em do ponto de 0ista de seus usurios. parti%ularmente das es%ol6as ue eles 'a1em das restri27es ue eles en%ontram ao usar a lin!ua!em em intera27es so%iais e dos e'eitos ue o uso da lin!ua!em. por parte desses usurios. tem so9re os outros parti%ipantes no ato da %omuni%a2,o A *ra!mti%a 0ai al$m do si!ni'i%ado das pala0ras estudado pela sem)nti%a e da %onstru2,o 'rsi%a estudada pela sinta(e. e(plorando a si!ni'i%a2,o das pala0ras mediante o %onte(to em ue o%orrem e a inten2,o %omuni%ati0a dos interlo%utores P()GM,/C) 23 Como e(emplos de *ra!mti%a temos" A per!unta 3+ muito tardeI5 em um %onte(to pode se re'erir a um pedido de in'orma2,o so9re as 6oras e em outro %onte(to pode se re'erir a uma interro!a2,o so9re ter %6e!ado a tempo ou n,o *ara 'ormular um a!rade%imento. podemos di1er" 3ValeuJ5. 3&uito o9ri!adaJ5. 3#i%o muito !rataJ5. entre outros. mediante o %on6e%imento do %onte(to mais 'ormal ou in'ormal em ue a mensa!em $ transmitida 9em %omo os di'erentes interlo%utores en0ol0idos no pro%esso %omuni%ati0o P()GM,/C) 24 Vale ressaltar ue a *ra!mti%a n,o $ apenas estudada por lin!uistas mas tam9$m por antrop8lo!os. 'il8so'os. psi%8lo!os. s8%ioAlin!uistas. psi%oAlin!uistas e %ientistas da Computa2,o *or e(emplo. para os s8%ioAlin!uistas. o interesse re%ai mais nas uest7es de intera27es %omuni%ati0a e no modo %omo estas podem ser in'luen%iadas pela %lasse so%ial e !Knero dos parti%ipantes P()GM,/C) 25 A CiKn%ia da Computa2,o. mais espe%i'i%amente a Inteli!Kn%ia Arti'i%ial Distri9u-da. est interessada nos me%anismos interati0os para modela!em de a!entes e so%iedades de a!entes Todo o estudo de %omuni%a2,o entre a!entes inteli!entes tem %omo 'undamento a teoria dos atos de 'ala de Austin e Searle 26 *ROCESSA&ENTO DE LINGUAGE& NATURAL" CONCEITO A&*LO P(.CE**)MEN,. +E L/NG-)GEM N),-()L "PLN': B(E5E 4/*,9(/) 27 No in-%io da d$%ada de L<. %ome2aram a sur!ir os primeiros tra9al6os de pesuisa so9re o tratamento in'ormati1ado da l-n!ua natural *ro%essamento de Lin!ua!em Natural $ um ramo da Inteli!Kn%ia Arti'i%ial ue 3tem por objetivo interpretar e gerar textos em uma lngua natural5 ?:ARROS e RO:IN. M<<;@ PLN: B(E5E 4/*,9(/) 28 A primeira demonstra2,o de um sistema de tradu2,o automti%a ue te0e Nsu%essoN a%onte%eu em ;OLP na Uni0ersidade de Geor!etoQn. em Ras6in!ton DBC #oi implantado um sistema de tradu2,o do russo para o in!lKs em um main'rame I:& ue %ontin6a um di%ionrio 9il-n!ue %om apro(imadamente ML< entradas O sistema %onse!uiu tradu1ir %om K(ito um %orpus de S< 'rases simples em russo por um pro%esso de su9stitui2,o pala0ra por pala0ra e %om al!umas re!ras adi%ionais para %onse!uir a ordem %orreta das pala0ras em in!lKs Mas os primeiros programas de traduo automtica (Russo-Ingls) caram em descrdito, devido baixa qualidade da traduo PLN: B(E5E 4/*,9(/) 29 O descrdito dos sistemas de traduo culminou com um relatrio em 1966 do ALPAC (Automatic Language Processing Advisory Committee). Este relatrio declarou que a traduo automtica havia falhado em atingir suas metas, uma vez que no existia nenhum sistema completamente automtico capaz de produzir tradues de boa qualidade Esse relatrio provocou um corte radical de verbas governamentais norte-americanas PLN N.* +/)* +E 4.:E: L/NG-0*,/C) C.MP-,)C/.N)L 30 A Lin!u-sti%a Computa%ional $ a rea de %on6e%imento ue e(plora as rela27es entre Lin!u-sti%a e Computa2,o tornando poss-0el a %onstru2,o de sistemas %om %apa%idade de re%on6e%er e produ1ir in'orma2,o apresentada em lin!ua!em natural L/NG-0*,/C) C.MP-,)C/.N)L: )LG-M)* )PL/C)23E* 31 A se!uir s,o %olo%adas al!umas apli%a27es na rea de Lin!u-sti%a Computa%ional" En0ol0endo as reas de #on$ti%a e #onolo!ia" Re%on6e%imento de 'ala S-ntese de 0o1 Chatterbots Tradutores automti%os Parsers Geradores automti%os de resumos Corretores orto!r'i%os !ramati%ais Classi'i%adores automti%os de do%umentos di!itais Consulta em :an%o de Dados utili1ando lin!ua!em natural 32 *ROCESSA&ENTO DE LINGUAGE& NATURAL" CONCEITO ES*EC#ICO ?CLSSICO@ PLN: C.NCE/,. CL**/C. 33 O termo *ro%essamento de Lin!ua!em Natural $ usado na literatura para representar umas das primeiras 'ormas de se tratar %om l-n!ua natural em Computa2,o As etapas do *LN %lssi%o podem ser des%ritas da se!uinte 'orma" Anlise l$(i%oAmor'ol8!i%a Anlise sintti%a Anlise sem)nti%a *ra!mti%a Cada uma destas etapas se!ue os prin%-pios %olo%ados no %ome2o destes slides. re'erentes Cs reas de estudos lin!u-sti%os Entretanto. a 'orma %omo estes prin%-pios s,o modelados se!ue a teoria de lin!ua!ens 'ormais PLN: C.NCE/,. CL**/C. 34 Uma lin!ua!em 'ormal $ um %on/unto de senten2as Cada senten2a $ uma %on%atena2,o de s-m9olos terminais ?pala0ras@ *or e(emplo. no Cl%ulo *roposi%ional. os s-m9olos terminais in%luem . p e e uma senten2a t-pi%a $ p
Lin!ua!ens 'ormais tais %omo Cl%ulos *roposi%ional. CTT e Ua0a tKm de'ini27es matemti%as ri!orosas Lin!ua!ens naturais tais %omo *ortu!uKs. C6inKs e In!lKs n,o s,o de'inidas ri!orosamente. mas utili1adas por uma %omunidade de pessoas Em PLN as linguagens naturais so tratadas como se fossem linguagens formais! embora a correspond"ncia no se#a perfeita