Anda di halaman 1dari 6

ISSN 1413-389X

Temas em Psicologia 2013, Vol. 21, n 2, 513-518


DOI: 10.9788/TP2013.2-16

IRAMUTEQ: Um Software Gratuito para Anlise


de Dados Textuais
IRAMUTEQ: Interface de R pour les Analyses
Multidimensionnelles de Textes et de Questionnaires
Resenha do software: Ratinaud, P. (2009). IRAMUTEQ: Interface de R pour les Analyses Multidimensionnelles de Textes et de Questionnaires [Computer software]. Retrieved from http://www.
iramuteq.org

Brigido Vizeu Camargo1


Programa de Ps-Graduao em Psicologia da Universidade Federal de Santa Catarina,
Florianpolis, Brasil
Coordenao do Laboratrio de Psicologia Social da Comunicao e Cognio,
Florianpolis, Brasil
Ana Maria Justo
Programa de Ps-Graduao em Psicologia da Universidade Federal de Santa Catarina,
Florianpolis, Brasil
Resumo
Esta nota visa apresentar o software IRAMUTEQ (Interface de R pour les Analyses Multidimensionnelles de Textes et de Questionnaires), desenvolvido por Pierre Ratinaud (2009). Trata-se de um programa
informtico gratuito, que se ancora no software R e permite diferentes formas de anlises estatsticas
sobre corpus textuais e sobre tabelas de indivduos por palavras. Desenvolvido inicialmente em lngua
francesa, este programa comeou a ser utilizado no Brasil em 2013. O dicionrio experimental em lngua portuguesa encontra-se em fase de aprimoramento, embora j seja bastante adequado. O IRAMUTEQ possibilita os seguintes tipos de anlises: estatsticas textuais clssicas; pesquisa de especificidades
de grupos; classificao hierrquica descendente; anlises de similitude e nuvem de palavras. Pelo seu
rigor estatstico, pelas diferentes possibilidades de anlise, interface simples e compreensvel, e, sobretudo por seu acesso gratuito, o IRAMUTEQ pode trazer muitas contribuies aos estudos em cincias
humanas e sociais, que tm o contedo simblico proveniente dos materiais textuais como uma fonte
importante de dados de pesquisa.
Palavras-chave: Anlise textual, classificao hierrquica descendente, IRAMUTEQ.

IRAMUTEQ: A Free Software for Analysis of Textual Data


Abstract
This note aims to present the software IRAMUTEQ (Interface de R pour les Analyses Multidimensionnelles de Textes et de Questionnaires), developed by Pierre Ratinaud (2009). This is a free program,

Endereo para correspondncia: Centro de Filosofia e Cincias Humanas, Programa de Ps-Graduao em


Psicologia, Universidade Federal de Santa Catarina, Campus Universitrio Reitor Joo David Ferreira Lima,
Trindade, Florianpolis, SC, Brasil 88040-900. E-mail: brigido.camargo@yahoo.com.br

Camargo, B. V., Justo, A. M.

514

anchored in R software; and it allows different means of textual statistics analysis in both textual material and tables (individuals by words). Developed originally in French, this software started to be used
in Brazil in 2013. An experimental Portuguese dictionary is being improved, nevertheless it allows
sufficiently accurate analyzes. The IRAMUTEQ enables different types of analysis: classical textual
statistics; specificities of groups; descending hierarchical classification; analyzes of similarity and word
cloud. Because of its statistical accuracy, of the distinct possibilities of analysis it allows us to carry
out, of its simple and understandable interface, and especially because it is free; IRAMUTEQ can bring
many contributions to humanities and social sciences, which are subject areas accustomed with working
with symbolic content derived from textual materials as an important kind of research data.
Keywords: Textual analysis, descendant hierarchical classification, IRAMUTEQ.

IRAMUTEQ: Un Software Libre para el Anlisis de Datos Textuales


Resumen
Esta nota presenta el software IRAMUTEQ (Interface de R pour les Analyses Multidimensionnelles de
Textes et de Questionnaires), desarrollado por Pierre Ratinaud (2009). Este es un software gratuito que
se basa en el software R y permite diferentes formas de anlisis estadsticas de corpus textual y de tablas:
individuos x palabras. Desarrollado originalmente en francs, este programa comenz a ser utilizado en
Brasil en 2013. El diccionario experimental de la lengua portuguesa se encuentra actualmente en la mejora, aunque es bastante adecuado. El IRAMUTEQ permite los siguientes tipos de anlisis: estadsticas
textuales clsicas; la investigacin grupos especficos; clasificacin jerrquica descendiente; anlisis de
similitud y la nube de palabras. Por su rigor estadstico, las diferentes posibilidades de anlisis, su presentacin simple y comprensible, y sobre todo por su acceso libre, el IRAMUTEQ puede traer muchas
contribuciones a los estudios de humanidades y ciencias sociales, que tienen el contenido simblico de
los materiales textuales de una fuente de datos importantes de investigacin.
Palabras clave: Anlisis textual, clasificacin jerrquica descendiente, IRAMUTEQ.

A Anlise Textual com Auxlio


de Programas Informticos
A anlise textual consiste num tipo especfico de anlise de dados, que se trata especificamente da anlise de material verbal transcrito,
ou seja, de textos produzidos em diferentes condies tais como: textos originalmente escritos,
entrevistas, documentos, redaes etc., fontes
usadas tradicionalmente em Cincias Humanas
e Sociais (Nascimento & Menandro, 2006). Por
tratar-se de dados que so compostos essencialmente pela linguagem, os mesmos mostram-se
relevantes aos estudos sobre pensamentos, crenas, opinies contedo simblico produzido
em relao a determinado fenmeno.
A anlise de dados textuais, ou anlise lexical, conforme Lahlou (1994) prope que se
supere a dicotomia clssica entre quantitativo e
qualitativo na anlise de dados, na medida em

que possibilita que se quantifique e empregue


clculos estatsticos sobre variveis essencialmente qualitativas os textos. Torna-se possvel, a partir da anlise textual, descrever um
material produzido por determinado produtor,
seja individual ou coletivamente (um indivduo
ou um grupo), como tambm pode ser utilizada
a anlise textual com a finalidade comparativa,
relacional, comparando produes diferentes em
funo de variveis especficas que descrevem
quem produziu o texto.
O uso softwares especficos para anlise de
dados textuais tem sido cada vez mais presente em estudos na rea de Cincias Humanas e
Sociais, especialmente naqueles estudos em que
o corpus a ser analisado bastante volumoso
(Chartier & Meunier, 2011; Lahlou, 2012; Nascimento & Meandro, 2006). No Brasil, j desde
a dcada de 1990 so utilizados alguns softwares
para anlises de textos, tais como o Ethnogra-

Resenha: IRAMUTEQ: Um Software Gratuito para Anlise de Dados Textuais

ph, o Nudist e o Atlas TI, os quais, ao organizarem os dados, facilitam a realizao de anlises
de contedo. Nesta poca, na Frana, o uso de
programas informticos para anlises de dados
textuais j era mais voltado para clculos estatsticos (anlise quantitativa de dados textuais).
Alguns dos softwares pioneiros foram o Tri
Deux Mots, desenvolvido por P. Cibois (1990);
o SPAD (Systme Portable pour lAnalyse des
Donnes), desenvolvido por L. Lebart (Lebart &
Salem, 1994; SPAD, 2008); Evocation e Similitude, desenvolvidos por P. Vergs (Vergs, Junique, Barbry, Scano, & Zeliger, 2002; Vergs,
Scano, & Junique, 2002), os quais realizam tanto
anlises estatsticas clssicas, quanto multivariadas, sobre dados textuais, e possibilitam que se
relacione as palavras encontradas na produo
textual, com variveis categoriais caracterizadoras dos produtores do texto.
Enquanto nos softwares at ento mencionados a unidade de anlise era obrigatoriamente
a palavra, um programa informtico inovador
desenvolvido por M. Reinert (Analyse Lexicale par Context dun Ensemble de Segments de
Texte [ALCESTE], 2009; Reinert, 1990) se diferenciou dos demais, pois possibilitou que se
recuperasse o contexto em que as palavras ocorriam. O ALCESTE apresenta um interesse particular, pois possibilita a execuo de uma anlise
do tipo Classificao Hierrquica Descendente
(CHD), que, alm de permitir uma anlise lexical do material textual, oferece contextos (classes lexicais), caracterizados por um vocabulrio
especfico e pelos segmentos de textos que compartilham este vocabulrio (Camargo, 2005). Ele
foi introduzido no Brasil em 1998 (Veloz, Nascimento-Schulze, & Camargo, 1999), e passou a
ser utilizado, sobretudo entre os pesquisadores
da rea de Representaes Sociais.
Recentemente surgiu uma alternativa para
realizao de anlises textuais to ou mais sofisticadas que o software ALCESTE. Em 2011,
o Laboratrio de Psicologia Social da Comunicao e Cognio da Universidade Federal de
Santa Catarina (LACCOS/UFSC) obteve informao de um software gratuito e com fonte
aberta, desenvolvido pelo pesquisador francs
Pierre Ratinaud (2009), que utiliza-se do mesmo

515

algortmico do ALCESTE (Reinert, 1990) para


realizar anlises estatsticas de textos. Tal informao j foi publicada por Lahlou (2012), o qual
salienta o profundo conhecimento de Ratinaud
na rea e seu brilhante trabalho no desenvolvimento do software IRAMUTEQ (Interface de R
pour les Analyses Multidimensionnelles de Textes et de Questionnaires), que incorpora, alm da
CHD proposta por Reinert (1990), outras anlises lexicais que no so realizadas pelo software
ALCESTE.

O Software IRAMUTEQ
O IRAMUTEQ um software gratuito e
desenvolvido sob a lgica da open source, licenciado por GNU GPL (v2). Ele ancora-se no ambiente estatstico do software R e na linguagem
python (www.python.org).
Este programa informtico viabiliza diferentes tipos de anlise de dados textuais, desde
aquelas bem simples, como a lexicografia bsica
(clculo de frequncia de palavras), at anlises
multivariadas (classificao hierrquica descendente, anlises de similitude). Ele organiza a
distribuio do vocabulrio de forma facilmente
compreensvel e visualmente clara (anlise de
similitude e nuvem de palavras).
Nas anlises lexicais clssicas, o programa identifica e reformata as unidades de texto,
transformando Unidades de Contexto Iniciais
(UCI) em Unidades de Contexto Elementares
(UCE); identifica a quantidade de palavras,
frequncia mdia e nmero de hapax (palavras
com frequncia um); pesquisa o vocabulrio e
reduz das palavras com base em suas razes (lematizao); cria dicionrio de formas reduzidas,
identifica formas ativas e suplementares.
Na anlise de especificidades, possvel associar diretamente os textos do banco de dados
com variveis descritoras dos seus produtores;
possvel analisar a produo textual em funo
das variveis de caracterizao. Trata-se de uma
anlise de contrastes, na qual o corpus dividido em funo de uma varivel escolhida pelo
pesquisador. Por exemplo, possvel comparar a
produo textual de homens e mulheres em relao a determinado tema.

516

O mtodo da Classificao Hierrquica


Descendente (CHD) proposto por Reinert (1990)
e utilizado pelo software ALCESTE classifica os
segmentos de texto em funo dos seus respectivos vocabulrios, e o conjunto deles repartido com base na frequncia das formas reduzidas
(palavras j lematizadas). Esta anlise visa obter
classes de UCE que, ao mesmo tempo, apresentam vocabulrio semelhante entre si, e vocabulrio diferente das UCE das outras classes. O
IRAMUTEQ tambm fornece outra forma de
apresentao dos resultados, por meio de uma
anlise fatorial de correspondncia feita a partir
da CHD (Anlise Ps-Fatorial) que representa
num plano cartesiano as diferentes palavras e
variveis associadas a cada uma das classes da
CHD. A interface possibilita que se recuperem,
no corpus original, os segmentos de texto associados a cada classe, momento em que se obtm
o contexto das palavras estatisticamente significativas, possibilitando uma anlise mais qualitativa dos dados.
A anlise de similitude se baseia na teoria
dos grafos, possibilita identificar as coocorrncias entre as palavras e seu resultado traz indicaes da conexidade entre as palavras, auxiliando
na identificao da estrutura de um corpus textual, distinguindo tambm as partes comuns e as
especificidades em funo das variveis ilustrativas (descritivas) identificadas na anlise (Marchand & Ratinaud, 2012).
A nuvem de palavras as agrupa e as organiza graficamente em funo da sua frequncia.
uma anlise lexical mais simples, porm graficamente bastante interessante, na medida em
que possibilita rpida identificao das palavraschave de um corpus.
Estas anlises podem ser realizadas tanto a
partir de um grupo de textos a respeito de uma
determinada temtica (corpus) reunidos em um
nico arquivo de texto; como a partir de tabelas
com indivduos em linha e palavras em coluna,
organizadas em planilhas, como o caso dos
bancos de dados construdos a partir de testes
de evocaes livres. Os textos ou tabelas devem
ser preferencialmente gerados pelos softwares
OpenOffice.org ou LibreOffice, para evitar bugs
relativos a codificao.

Camargo, B. V., Justo, A. M.

Para instalar o software gratuitamente basta fazer o download do software R em www.


r-project.org e instal-lo; e em seguida fazer o
download do software IRAMUTEQ em www.
iramuteq.org, e tambm instal-lo. necessrio
que antes de instalar o IRAMUTEQ se instale o
R, pois o IRAMUTEQ se utilizar do software R
para processar suas anlises.

IRAMUTEQ e Anlise de Dados em


Lngua Portuguesa
O software IRAMUTEQ foi desenvolvido
inicialmente em lngua francesa, onde estudos
j o empregam como ferramenta de anlise de
dados (Marchand & Ratinaud, 2012; Ratinaud &
Marchand, 2012) e tambm j possui os dicionrios completos nas lnguas inglesa e italiana. Ele
comeou a ser utilizado no Brasil em 2013. Neste momento a equipe do LACCOS (UFSC) em
parceria com o Centro Internacional de Estudos
em Representaes Sociais e Subjetividade
Educao, da Fundao Carlos Chagas (CIERS-ed/FCC); e com o grupo de pesquisa Valores,
Educao e Formao de Professores da Universidade Estadual Paulista Jlio de Mesquita Filho
(UNESP); esto aprimorando o dicionrio experimental em lngua portuguesa, o qual dever
ser concludo at o final deste ano, garantindo
anlises mais estveis. Mesmo assim, nos processamentos de dados j realizados nessa fase
experimental, observou-se que o atual dicionrio j est bem aprimorado, permitindo realizao de anlises suficientemente precisas, o que
torna o software IRAMUTEQ til para anlises
de dados em lngua portuguesa. Encontram-se
tambm em fase experimental os dicionrios nas
lnguas alem, sueca, espanhola e grega.

Concluses
O software IRAMUTEQ apresenta rigor estatstico e permite aos pesquisadores utilizarem
diferentes recursos tcnicos de anlise lexical.
Alm disso, sua interface simples e facilmente
compreensvel, e, sobretudo seu acesso gratuito e do tipo open source. Por estas caractersticas acredita-se que o mesmo possa trazer muitas

Resenha: IRAMUTEQ: Um Software Gratuito para Anlise de Dados Textuais

contribuies ao campo de estudo das cincias


humanas e sociais, em diversos pases do mundo, e em especial nos de lngua portuguesa.
O uso de softwares para anlise de textos
tem recebido algumas crticas, como mencionam Chartier e Meunier (2011) ao salientarem
que o uso de programas informticos, por facilitar o processamento de grandes volumes ou
nmero de textos, abre a possibilidade do pesquisador negligenciar seu papel na anlise dos
dados textuais. Nestes casos ocorre certo esvaziamento das relaes do material textual com o
contexto, alm de descries mecnicas do contedo estudado. Conforme Lahlou (2012), em
muitos casos, confunde-se o software utilizado
com um mtodo, o que se deu especialmente nas
publicaes que envolviam o uso do ALCESTE.
Concorda-se com os autores citados, que alm
do manejo do software importante que o pesquisador conhea as tcnicas de processamento
dos dados empregadas, a forma de recuperao
deste material analisado e o mtodo de pesquisa
usado no estudo que utiliza este recurso.
Lahlou (2012) aponta ainda que por alguns
anos houve certa carncia de publicaes em
lngua inglesa sobre as anlises envolvendo
estatsticas textuais; sendo a maior parte delas
publicadas exclusivamente em lngua francesa,
portanto de difcil acesso. No Brasil podemos
observar fenmeno semelhante, onde a carncia
de referncias em lngua portuguesa, somada
agilidade no tratamento dos textos, e a certo
fascnio que os softwares de anlise textual
exercem nos pesquisadores, resultam em inmeras publicaes que citam o prprio software
como se fosse a tcnica de anlise dos dados,
e ainda, como se fosse o mtodo da pesquisa.
Observa-se tambm que h trabalhos que restringem a anlise dos dados s informaes presentes nos outputs dos softwares, o que resulta
muito aqum do exerccio necessrio ao pesquisador, que consiste em explorar o material
de texto, interpretar os resultados apresentados
pelo software, considerando inclusive aqueles
dados que no foram diretamente expressos
pelo processamento informtico.
Considera-se que IRAMUTEQ pode trazer importantes contribuies aos estudos que

517

envolvam dados textuais. O processamento de


dados permitido pelo software viabiliza o aprimoramento das anlises, inclusive em grandes
volumes de texto. Pode-se utilizar das anlises
lexicais, sem que se perca o contexto em que a
palavra aparece, tornando possvel integrar nveis
quantitativos e qualitativos na anlise, trazendo
maior objetividade e avanos s interpretaes
dos dados de texto. Entretanto, lembramos a ressalva apontada por Chartier e Meunier (2011) e
reiterada por Lahlou (2012) de que um software
no um mtodo, e os relatrios gerados pelo
software no so, em si, a anlise dos dados. O
IRAMUTEQ pode ser muito til se acompanhado de um estudo sobre o significado das anlises
lexicais e do emprego de anlises multivariadas,
alm de um bom domnio do estado da arte que
envolve o tema especfico de cada pesquisa.

Referncias
Analyse Lexicale par Context dun Ensemble de Segments de Texte 2009: un logiciel danalyse de
donnes textuelles. Manuel dutilisateur [Computer and manual software]. (2009). Toulouse,
France: Socit Image.
Camargo, B. V. (2005). ALCESTE: Um programa
informtico de anlise quantitativa de dados textuais. In A. S. P. Moreira, B. V. Camargo, J. C.
Jesuno, & S. M. Nbrega (Eds.), Perspectivas
terico-metodolgicas em representaes sociais (pp. 511-539). Joo Pessoa, PB: Editora da
Universidade Federal da Paraba.
Chartier, J.-F., & Meunier, J.-G. (2011). Text mining methods for social representation analysis
in Large Corpora. Papers on Social Representations, 20(37), 1-47.
Cibois, P. (1990). Lanalyse des donnes en sociologie. Paris: Presses Universitaires de France.
Lahlou, S. (1994). Lanalyse lexicale. Variances, (3),
13-24.
Lahlou, S. (2012). Text mining methods: An answer
to Chartier and Meunier. Papers on Social Representations, 20(38), 1-7.
Lebart, L., & Salem, A. (1994). Statistique textuelle.
Paris: Dunod.
Marchand, P., & Ratinaud, P. (2012). Lanalyse de
similitude applique aux corpus textueles: les
primaires socialistes pour lelection prsiden-

Camargo, B. V., Justo, A. M.

518

tielle franaise. In Actes des 11eme Journes internationales dAnalyse statistique des Donnes
Textuelles. JADT 2012 (pp. 687-699). Lige,
Belgique. Retrieved April 13, 2013, from http://
lexicometrica.univ-paris3.fr/jadt/jadt2012/Communications/Marchand,%20Pascal%20et%20
al.%20-%20L%27analyse%20de%20similitude%20appliquee%20aux%20corpus%20textuels.pdf
Nascimento, A. R. A., & Menandro, P. R. M. (2006).
Anlise lexical e anlise de contedo: Uma proposta de utilizao conjugada. Estudos e Pesquisas em Psicologia, 6(2), 72-88.
Ratinaud, P. (2009). IRAMUTEQ: Interface de R
pour les Analyses Multidimensionnelles de Textes et de Questionnaires [Computer software].
Retrieved from http://www.iramuteq.org
Ratinaud, P., & Marchand, P. (2012). Application de
la mthode ALCESTE de gros corpus et stabilit des mondes lexicaux: analyse du CableGate avec IraMuTeQ. In: Actes des 11eme
Journes internationales dAnalyse statistique
des Donnes Textuelles (pp. 835-844). Lige,
Belgique. Retrieved April 13, 2013, from http://
lexicometrica.univ-paris3.fr/jadt/jadt2012/Communications/Ratinaud,%20Pierre%20et%20
al.%20-%20Application%20de%20la%20methode%20Alceste

Reinert, M. (1990). ALCESTE, une mthodologie


danalyse des donnes textuelles et une application: Aurlia de G. de Nerval. Bulletin de Mthodologie Sociologique, (28), 24-54.
Systme Portable pour lAnalyse des Donnes. Guide
de lutilisateur [Computer and manual software].
(2008). Courvoie, France: Coheris SPAD.
Veloz, M. C. T., Nascimento-Schulze, C. M., & Camargo, B. V. (1999). Representaes sociais do
envelhecimento. Psicologia: Reflexo e Crtica,
12(2), 479-501.
Vergs, P., Junique, C., Barbry, W., Scano, S., &
Zeliger, R. (2002). Ensembles de programmes
permettant lanalyse de similitude de questionnaires et de donnes numeriques. Aix en Provence, France: Universit Aix en Provence.
Vergs, P., Scano, S., & Junique, C. (2002). Ensembles de programmes permettant lanalyse des
evocations. Aix en Provence, France: Universit
Aix en Provence.

Recebido: 17/04/2012
Aceite final: 02/05/2013