Anda di halaman 1dari 14

Tutorial (Bsico) de Utilizao do Iramuteq1

INTRODUO
O Iramuteq um software de analise textual baseado em estatsticas (Utilizando o
software estatstico R) que revelem ligaes e outras caractersticas textuais, o
posicionamento e a estruturao de palavras no texto, de forma que sejam retornados
indicadores e visualizaes intuitivas sobre a estrutura e ambientes do texto proposto para
anlise.

INSTALAO
Para instalar o Iramuteq necessrio primeiro instalar o software estatstico R que se
encontra no seguinte link: https://cran.r-project.org/bin/windows/base/

Download R

A instalao do software R, bem simples, clique em avanar e escolha as configuraes


recomendadas.
A ps instalar o R corretamente, chegou a hora de instalar o Iramuteq, ele se encontra
para download neste link: http://sourceforge.net/projects/iramuteq/

Download Iramuteq
1

Autor: Luis Felipe Rosa de Oliveira


E-mail: luisfelipeprf@gmail.com

A instalao do Iramuteq tambm bem simples, s clicar em avanar e esperar a


instalao do software.
Ao abrir o Iramuteq pela primeira vez, ele deve automaticamente informar que so
necessrias algumas bibliotecas do R, e ento vai comear a fazer a sincronizao e aps
isso o software est pronto para uso.

PASSOS P/ UTILIZAO
1 PASSO Tratamento do texto: O Iramuteq tem um padro especfico para o
processamento de texto. Para inserir diferentes textos de uma vez na anlise, necessrio
definir as variveis que nomearo os diferentes corpus de texto:
Exemplo:
**** *Corpus_1_Mussum
Mussum ipsum cacilds, vidis litro abertis. Consetis adipiscings elitis. Pra l, depois
divoltis porris, paradis. Paisis, filhis, espiritis santis. M faiz elementum girarzis, nisi eros
vermeio, in elementis m pra quem amistosis quis leo. Manduma pindureta quium dia
nois paga. Sapien in monti palavris qui num significa nadis i pareci latim. Interessantiss
quisso pudia ce receita de bolis, mais bolis eu num gostis.
Suco de cevadiss, um leite divinis, qui tem lupuliz, matis, aguis e fermentis. Interagi no
m, cursus quis, vehicula ac nisi. Aenean vel dui dui. Nullam leo erat, aliquet quis tempus
a, posuere ut mi. Ut scelerisque neque et turpis posuere pulvinar pellentesque nibh
ullamcorper. Pharetra in mattis molestie, volutpat elementum justo. Aenean ut ante turpis.
Pellentesque laoreet m vel lectus scelerisque interdum cursus velit auctor. Lorem ipsum
dolor sit amet, consectetur adipiscing elit. Etiam ac mauris lectus, non scelerisque augue.
Aenean justo massa.
**** *Corpus_2_Lorem
Lorem ipsum dolor sit amet, consectetur adipiscing elit. Cras quam ante, vulputate vel
eros id, laoreet finibus lorem. Nulla ac pretium magna. Suspendisse dictum ultrices enim
quis varius. Mauris et lobortis eros, ut ornare quam. Donec vulputate congue maximus.
Interdum et malesuada fames ac ante ipsum primis in faucibus. Etiam sagittis quam nibh,
nec suscipit lectus venenatis id. Phasellus ut felis felis

Ao estruturar o(s) texto(s) dessa forma, indicado que seja salvo em bloco de notas e em
formato txt. Atente-se classificao do texto em formato UTF-8:

*OBS: Talvez seja necessrio eliminar os pargrafos e concentrar o corpus de um


tema/varivel em um nico texto corrido.

2 PASSO Importao do Texto pelo Iramuteq: Para importar o texto j estrturado em


formato txt, inicie o iramuteq, e v em Fichier(Arquivo) Ouvrir un corpus
texte(Abrir um corpus de texto) Escolha o arquivo e v em abrir. Vai aparecer a
seguinte janela de parmetros de importao:

Na aba Gnerl, Geral:

- Em Corpus temos o endereo do arquivo importado.


- Em Nom du Corpus, possvel definir o nome dado ao arquivo principal de anlise.
- Em Encodage, tm-se as configuraes de codificao do texto. IMPORTANTE: Se
voc salvou o aquivo TXT em formato UTF-8, necessrio selecionar neste ponto a
codificao UTF-8 (ltima opo) ao invs de cp1252.
- Em Langue necessrio selecionar a linguagem do texto a ser analisado. O Iramuteq
tem dicionrios de anlise completo das seguintes lnguas: francs, ingls, italiano,
portugus e espanhol; As lnguas: alemo, sueco, grego e glico ainda esto em
experimentao.
- Em Dictionnaire, deixe por padro o dicionrio da lngua escolhida para anlise.
- Em Rpertoire em sortie voc pode escolher em qual diretrio deseja salvar a pasta
com as anlises feitas.
- Em Marquer du texte deixe por padro os quatro asteriscos, que delimitam os corpus
de textos.
- Em Utiliser le dictionaire des expressions, deixe selecionado para utilizar o dicionrio
de expresses.
- Em Faire des segments de texte, deixe selecionado para que o software separe o texto
em segmentos de texto (processo em que o software realiza uma separao do corpus
textual em segmentos de texto para a anlise fracionada e identificao de ambientes
lxicos).
- Em Mthode de construction des segments, selecione ocurrences para segmentar os
corpus textuais pela frequncia das palavras, caractres para segmentar a partir dos
caracteres e paragraphes para segmentar por pargrafos (por padro deixe por
frequncia).
- Em Tailles des segments de texte selecione o nmero que definir o tamanho dos
segmentos de texto. (Por padro deixe 40, se quiser que os ambientes de anlise sejam
menores ou maiores, aumente ou diminua o nmero respectivamente).

Na aba Nettoyage (Limpeza):

- Em Mettre le texte em minuscle, deixe marcado para padronizar o texto em letras


minsculas.
- Em Remplacer les apostrophes par des espaces, deixe selecionado para substituir as
aspas simples por espaos (em caso de anlise por tabela).
- Em Replacer les tirets par des espaces, deixe selecionado para substituir traos por
espaos.
- Em Conservar la pontuacin, selecione somente se desejar conservar a pontuao do
texto.

- Em Pas despace entre deux formes, selecione somente se desejar que os espaos entre
duas formas sejam removidos.
3 PASSO ANLISES DO TEXTO: Existem 5 tipos de anlises textuais que o
Iramuteq processa: Estatsticas textuais, Especificidades e AFC, CHD, Anlise de
Similitude, Nuvem de Palavras, cada uma tem caractersticas e reflexes especficas.
Para iniciar as anlises clique em Analyse de texte, esta a parte em que tratamos as
anlises do texto em si.
*OBS: Antes de cada anlise aparece uma janela para a definio dos parmetros:

Escolha Sim em Lematizao se quiser que o Iramuteq faa uma classificao de formas
reduzidas de algumas palavras, por exemplo: criao, criativo, criacionismo sero
classificados como criar, porm, mesmo assim cada uma ser classificada de acordo com
seu tipo gramatical (Recomenda-se que deixe marcado sim, para melhor aproveitamento
das anlises).
Ao selecionar Propriedades em Parmetros-chave, aberta uma janela com algumas
opes, em que voc pode modificar como o Iramuteq analisa as palavras*:

*0 para eliminar a o tipo, 1 para deixar o tipo como ativo e 2 para classifica-lo como
complementar mais a frente voc ter a opo de escolher analisar somente os ativos,
suplementares ou os dois.
Deixe selecionado Indexao em Dicionrio para que o Iramuteq utilize o dicionrio
padro da lngua, possibilitando que seja feito o cruzamento entre as formas do dicionrio
e a do corpus analisado.
TIPOS DE ANLISES:

1 - STATISTIQUES (ESTATSTICAS) Esta opo gera uma das sub-anlises do


corpus com 5 componentes (abas) de resultados:

O grfico apresentado na aba Rsum mostra a relao entre a frequncia e a


quantidade de formas do corpus em anlise. Por exemplo, no grfico apresentado acima,
quanto maior a frequncia de uma forma/palavra, menor a sua quantidade no texto.
Sendo assim, neste caso as palavras com frequncia 1 existem em grande quantidade no
texto, e palavras com frequncia 100 aparecem em menor quantidade (Padro normal de
corpus textuais menores).
Nas demais abas: Formes actives (Formas ativas), Formes Supplmentaires (Formas
Suplementares) e Total, possvel identificar as frequncias das palavras de cada
categoria, e em Hapax possvel visualizar as palavras com frequncia igual a 1.

2 - SPCIFICITS ET AFC (ESPECIFICIDADES E AFC), nesta anlise so


retornados as frequncias e os valores de correlao Qui de cada palavra do corpus a
partir da frequncia pr-definida. (Recomenda-se mais de uma varivel para melhor
proveito desta anlise).

Ao realizar esta anlise aparece uma tela de parametrizao:

Nesta janela voc pode escolher quais formas quer utilizar, se prefere selecionar por
variveis ou o todo o corpus, escolher o tipo de ndice e a frequncia mnima das palavras
a serem analisadas.
OBS. Ambos os ndices so usados para mostrar a probabilidade de existncia da
correlao entre as formas/palavras e as variveis trabalhadas ou o corpus.
OBS. Para fazer anlise entre variveis, escolha a seleo por modalidades e selecione
as variveis que deseja comparar.
Os resultados retornam 7 componentes de anlise, cada um com seus diferentes
resultados:

As abas Formes (Formas), Formes banales (Formas Banais), Frquences des


formes (Frequncia das formas), mostram a frequncia das palavras no corpus ou
variveis selecionadas e os ndices (hipergeomtrico/qui). As abas Types (Tipos) e
Frquences des types (Frequncias dos Tipos), mostra o valor do ndice e a frequncia
dos tipos das formas/palavras respectivamente: sendo sw = suplementar/artigos*, nom =
sujeito/nome, ver = verbo, nr = no reconhecido, num = numeral, adj = adjetivo. E as
abas sobre Frquences relatives (Frequncias relativas), mostram as frequncias
relativas das formas e dos tipos (em sequncia).
*O significado de sw pode no estar correto.
3 - CLASSIFICATION MTHOD REINERT (CASSIFICAO
MTODO REINERT) OU CHD (CLASSIFICAO HIERRQUICA
DESCENDENTE):
Esta uma das anlises mais importantes do Iramuteq, nela o software, ao utilizar da
lgica de correlao, utiliza as segmentaes do corpus textual, juntamente com a lista de
formas reduzidas e o dicionrio embutido para apresentar um esquema hierrquico de
classes.
Ou seja, o Iramuteq, processa o texto de modo que possam ser identificadas classes de
vocabulrio, sendo assim, possvel inferir quais ideias o corpus textual deseja transmitir.
(Vale lembrar que essa anlise feita a partir de uma lgica estatstica processada por
computador e aplicada de forma lexical. Resultados como este no podem ser comparados
uma anlise de contedo ou coisa parecida.)
Ao selecionar esta opo, ser aberta a seguinte janela de preferncias:

Em classificao, recomendado que deixe marcado simples sobre ST (anlise


sobre segmentos de texto), pois o programa processa por padro os segmentos de
texto, a primeira opo (dupla sobre RST) tem baixo aproveitamento do corpus e a
terceira (simples sobre textos), mais indicada para respostas curtas.
Deixe o tamanho de RST como padro.
No nmero de classes deixe como padro 10, porm se ocorrer erro, tente abaixar
este nmero at que funcione.
O resto deixe como est por padro.

Aps as definies ser obtido um resultado como este:

As classes divididas em cores, mostram quantos vocabulrios esto presentes no corpus


do texto e a porcentagem indica em qual a abrangncia deste vocabulrio.
As opes demarcadas no canto esquerdo superior mostram outras opes de
visualizao, sendo que a primeira indica um visualizao da esquerda para a direita das
classes com preenchimento em cores e em barras horizontais (visualizao acima); a
segunda apresenta uma visualizao das classes de cima para baixo, com preenchimento
em barras na vertical e quais as palavras que compe cada classe; e a terceira mostra
uma visualizao da esquerda para a direita das classes, com uma pequena nuvem de
palavras de cala classe.

Na aba Perfis:

Temos os indicadores das palavras que compe cada classe, referentes : quantidade,
quantidade, porcentagem, qui, tipo, forma, e probabilidade.
Na aba AFC:

Temos algumas representaes grficas na primeira sub-aba, elas representam o


posicionamento das classes de vocbulos no corpus textual, podemos ver quais classes se
complementam e concentram o corpus, e quais se distanciam do centro e mostram certa
especificidade.

Nas sub-abas, Fator e Grfico 3D, temos respectivamente dados sobre os fatores
que compes os eixos dos grficos e a porcentagem de representao dos mesmos, e, a
possibilidade de produzir um grfico 3D.
4 - ANLISE DE SIMILITUDE:
A anlise de similitude mostra uma grafo que representa a ligao entre as palavras do
corpus textual. A partir desta anlise possvel inferir a estrutura de construo do texto
e temas de relativa importncia.
Ao selecionar esta anlise aberta a seguinte janela de configurao:

A esquerda temos em formato de tabela duas colunas mostrando as palavras utilizadas e


um indicador de quantidade (peso) delas.
Na aba Configuraes grficas temos:
- Escore: possibilita escolar com qual indicador estatstico ser processada a anlise.
- Apresentao: permite escolher o algoritmo de visualizao do grafo.
- Tipos de Grficos: Permite escolher entre grafo esttico, dinmico (permite
interao), ou 3D, alm do formato de imagem de exportao do grafo.
- rvore mxima: define que o grafo no ter estrutura de rvore e ramificaes.
- Bordas limtrofes: define se existira limite nas arestas e a quantidade deste limite.
- Texto sobre os vrtices: permite escolher colocar as palavras como indicao dos
vrtices.

- Escore nas bordas: define se o tamanho das arestas ser definido por indicadores de
peso relacionado ligao entre as palavras.
- Edge curved: permite escolher arestas curvas.
- Tamanho do texto: escolhe o tamanho o texto sobre os vrtices.
- Comunidades: permite escolher formatos de representao em cores, o que reala os
grupos de palavras mais relacionados entre si. (Selecionando Halo, so criados crculos
coloridos de agrupamento).
- Selecione uma varivel: possibilita selecionar restringir o grafo variveis escolhidas
posteriormente.
*Na aba Ajustes grficos, possvel, escolher o tamanho da rea do grafo, o tamanho
do texto, vrtices, e arestas com base em quantidade ou qui, alm de cores e
transparncia.
Ao fim dos ajustes a anlise retornara alguns grafos como estes:

Grafo dinmico (direita)/Grafo esttico (esquerda).

Grafo utilizando visualizao por comunidades.

*Existe a possibilidade de exportao para imagem ou para programas de visualizao e


anlise de redes (Gephi, por exemplo).
5 - NUVEM DE PALAVRAS:
A anlise por meio de nuvem de palavras a mais tpica quando se trata de anlise de
texto, ela mostra um apanhado de palavras estruturadas em forma de nuvem, as palavras
so apresentadas de tamanho diferentes, ou seja, as palavras maiores so aquelas que
detm certa importncia no corpus textual (a partir de um simples indicador de frequncia
ou outro processo estatstico).

Ao selecionar esta anlise abrir a seguinte janela de configurao:

Nesta janela possvel configurar tamanho, formato, nmero mximo de palavras, qual
o tipo das palavras (ativas/complementares/ou as duas), qual o tamanho do texto e as
cores.
*Logo aps a configurao aparecer uma tabela de duas colunas mostrando as palavras
e seu indicador de frequncia (peso).
Ao terminar as configuraes ser retornado uma visualizao mais ou menos como esta:

OBSERVAES

Linguagem por padro o Iramuteq vem em francs, porm existe a


possibilidade de escolher outra linguagem de interface em: Edition Prfrences
Langue de linterface.

Definir Parmetros Lembre se, definir os parmetros (3 Passo) antes de cada


anlise pode especificar o resultado das anlises, ou seja, importante observar o
intuito da anlise e modificar os parmetros de acordo com este intuito e sua
necessidade.
REFERNCIAS

Anda mungkin juga menyukai