Anda di halaman 1dari 16

A sociedade na era do big data: Dados demais, filtros de

menos

Pedro Alexandre Cabral 1


Gustavo Said 2

Resumo: O armazenamento da informao caracterstica intrnseca ao ser humano. Desde


as eras mais remotas o homem sempre pautou-se pela eminente necessidade de registrar
dados. Entretanto, nos dias atuais, com a profuso da internet, essa quantidade de informaes
alcanou um crescimento exponencial. Nesse contexto, o presente trabalho tem como objetivo
analisar como tcnicas de data mining podem ajudar na produo de conhecimento em
contextos em que o pesquisador lida com grandes volumes de dados. Para tanto, ser realizada
uma contextualizao acerca da sociedade na era do big data, de forma especial nos
cenrios que tangenciam a orquestrao de criao de dados a partir das redes sociais. Alm
disso, ser realizada uma incurso epistemolgica acerca do tema, pontuando a aplicabilidade
do datamining em meio a esses massivos volumes de dados, tendo como aporte
terico TURBAN (2005), LIMA JR (2004), dentre outros.
Palavras-chave: Big data, data mining, redes sociais
.

Pedro Alexandre Cabral Bacharel em Administrao pela Universidade Estadual do Piau UESPI.
Especialista em Administrao Estratgica pelo Centro de Ensino Unificado de Teresina- CEUT. Mestrando em
Comunicao no PPGCOM da UFPI. E-mail: pedroale@pedroale.com.
2
Gustavo Said doutor em Cincias da Comunicao pela Unisinos. Professor do Programa de Ps-Graduao
em Comunicao da Universidade Federal do Piau. E-mail: gsaid@uol.com.br.
1

1 INTRODUO
O armazenamento da informao caracterstica intrnseca ao ser humano. Ao
analisar a histria percebemos que desde os primrdios o homem carece da necessidade de
guardar informaes: figuras rupestres em cavernas ou escritas em paredes de pedras
encravadas nas pirmides egpcias so apenas alguns exemplos. Isto tambm visto nas
culturas que somente dominam a linguagem oral, na busca de perpetuar o antigo por
intermdio da oralidade (LIMA JUNIOR, 2011).
Hoje, a penetrao da internet e das tecnologias digitais no cotidiano do cidado
comum alavancou uma incrvel mobilidade e ubiquidade comunicacional e informacional
no nvel do indivduo, e no mais apenas no nvel das organizaes, catalisando assim, tanto
o controle e a transparncia, quanto s possibilidades de auto exposio em nveis inditos
na nossa histria (GABRIEL, 2010).
O valor mais acessvel de mquinas computacionais (processamento e memria) e dos
dispositivos de captura e armazenagem de dados (sensores, cmeras fotogrficas e de vdeo,
celulares, pen-drives, flash memory, discos rgidos externos, etc.) criaram inimaginvel
quantidade de dados, que esto sendo disponibilizados na Web, proporcionando a formao
da Era do Big Data (LIMA JUNIOR 2011).
Em outro trabalho desenvolvido em 2012 , intitulado de Big Data, Jornalismo
Computacional e Data Journalism: estrutura, pensamento e prtica profissional na Web de
dados, Lima Junior (2012, p. 211) define Big Data (BD) como sendo um

[...] conjunto de dados (dataset) cujo tamanho est alm da


habilidade de ferramentas tpicas de banco de dados em capturar,
gerenciar e analisar. A definio intencionalmente subjetiva e
incorpora uma definio que se move de como um grande conjunto
de dados necessita ser para ser considerado um big data.
Como o autor prope, no existe uma definio precisa acerca do Big Data, entretanto
autores como Zikopoulos et al (2012) advogam que o BD caracteriza-se pela presena de
quatro aspectos: volume, velocidade, variedade e veracidade. Volume refere-se, como o
prprio nome sugere, a quantidade de dados disponvel na internet e que nos ltimos anos
vem crescendo de forma exponencial. A velocidade diz respeito a rapidez que os dados
2

podem ser capturados e processados. Variedade, por sua vez, pauta-se nas diversas fontes de
dados em que estes podem ser encontrados e o ltimo aspecto, veracidade, abrange com
caracterstica o fato que estes dados no apresentam uma verdade absoluta, ou seja, certa
incerteza onde deve-se observ-los com muita parcimnia para que os mesmos possam
gerar informaes teis e oportunas.
Isto posto, o massivo crescimento de dados na internet traz consigo grandes bices no
que tange a disponibilizao da informao. Ao digitarmos a palavra identidade no
Google, por exemplo, encontramos aproximadamente 834.000.000 resultados3, dificultando
o processo de seleo e interpretao das informaes por parte do usurio. Outro grande
problema, segundo Sprink, Wolfram et al (2001) a dificuldade encontrada pelos usurios
em expressar a necessidade de informao por meio de palavras chaves, visto que
aproximadamente cinquenta e dois por cento das buscas realizadas nas mquinas so
reformuladas.
Dentro dessa nova perspectiva de utilizao das bases de dados, Machado e Palacios
(2007), em estudo sobre as competncias dos profissionais de Comunicao, citam a
existncia de pesquisas que tratam sobre a prtica dos profissionais da rea, em especial a
necessidade destes se adaptarem s novas exigncias do mercado, tendo o domnio dos
processos de digitalizao da informao.
Dentre as competncias digitais compiladas no estudo citado, eis algumas: uso bsico
do computador como ferramenta para busca, avaliao e classificao de informaes;
cultura de internet (MACHADO e PALACIOS, 2007, p.79); conhecimentos bsicos e
utilizao de programas de edio de texto, tratamento de imagem, udio, programao
visual; conhecimento terico sobre redes e seu funcionamento e alta capacidade de
aprendizagem de uso de novos programas.
Para Lima Junior (2011), a capacidade e facilidade em reunir e armazenar informaes
em um banco de dados, assim como sua utilizao, cresce a cada dia e na mesma proporo
que novas tecnologias so desenvolvidas e propagadas para facilitar o trabalho do
consumidor. Com a popularizao da rede mundial de computadores, quase todo e qualquer
contedo produzido passa a ser colocado em um espao considerado at ento infinito,

Pesquisa realizada em 05/07/2014


3

reflexo tambm da atualizao de produtos comunicacionais palpveis, como revistas,


jornais e principalmente livros.
Nesse contexto, organizaes de toda a ordem, bem como usurios comuns, esto
migrando seus contedos para os discos rgidos dos computadores. Logo, a atividade em
reunir a maior quantidade de informaes e disponibilizar de forma organizada, simples e
objetiva, comea a se tornar uma tarefa obrigatria no mundo da comunicao, mas
concomitantemente rdua e repleta de rudo. O modo mais clssico de armazenamento de
informao atravs da palavra escrita, impressa. O acesso informao estocada dessa
forma lento, difcil e de pouco rendimento. Para todas as etapas da manipulao da
informao necessria a presena do ser humano, e suas limitaes na capacidade de
aquisio de dados e processamento de grande volume de informaes constituem o
principal gargalo do processo (MANDEL, SIMON, & DELYRA, 1997).
Inobstante a este excesso de dados, a quantidade de informaes produzidas
encontra-se, em sua maioria disposta em base de dados no estruturadas, ou seja, base de
documentos textuais, cujo formato est adequado ao homem que, somente atravs da leitura,
capaz de decodificar a informao contida no texto e aprend-la (SCHIESSL, 2007).
Frente a este contexto de enormes mananciais de dados, a fim de prover uma fluidez e
agilidade no manuseio da informao, existe uma necessidade premente de associar novas
tecnologias ao contexto atual onde, dentro do nosso entendimento, as pesquisas atuais em
comunicao j no conseguem resolver suas inquietaes face a este grande volume de
dados. Assim sendo, sugere-se que exista uma interdisciplinaridade maior com outras reas,
sobretudo as que advm das cincias da computao.
2 REDES SOCIAIS E O EXCESSO DE DADOS
A sociedade contempornea est cada vez mais imersa em redes de conexes digitais,
nas quais os fluxos de informaes esto quase sempre associados a uma incua conversa
polissmica nos mais variados canais. A conectividade d lugar construo de novos
artefatos tecnolgicos, mas pode-se perguntar se ela est, de fato, a servio de uma
necessidade bsica da existncia humana: a socializao.
Mesmo antes do surgimento da internet essas interaes sociais, via tecnologia, j
eram percebidas. O processo se deu com o surgimento dos meios de transporte e de
4

comunicao (MCLUHAN 1964). Com o uso e acesso a novos servios e produtos


tecnolgicos, sobretudo os advindos da internet e, de uma forma mais fecunda as redes
sociais, temos percebido a articulao de plataformas tecnolgicas para formao de novas
comunidades e criao de mecanismos cada vez mais interacionais, onde, possivelmente, se
renovam de forma intensa e reforam a construo de discursos polifnicos e dialgicos.
Ainda dentro deste prisma, nota-se que a evoluo tecnolgica vem refletindo
diretamente sobre as sociedades e principalmente sobre o comportamento humano.
Percebemos que houve um crescimento exponencial de Tecnologias de Informao e
Comunicao (TICs) nos ltimos sculos. De modo geral, todas essas tecnologias
impulsionaram uma nova lgica social e cultural que, dentro desta premissa, o homem passa
a ser criador e usurio das ferramentas tecnolgicas, apropriando-se das possibilidades
tcnicas e, simultaneamente, sendo afetado por elas em todos os aspectos de sua existncia.
(TEIXEIRA 2011)
Em meio a todo esse crescimento tecnolgico percebe-se que, desde os primrdios, o
homem, por apresentar-se como um animal gregrio, precisou estar em grupos para
sobreviver e, assim, com o passar dos anos passou a utilizar cada vez mais ferramentas de
tecnologias de informao e comunicao para potencializar e diversificar as diversas
maneiras de se comunicar. Uma parcela considervel deste avano pauta-se na melhoria
incessante de processos que permeiam a atividade de comunicao. Hoje, a comunicao
toma uma outra extenso, pautada pelo uso de microchips, redes de internet sem fios e pelo
excesso de informao.
Atualmente, adentramos em uma era da conexo (WEINBERGER, 2003), onde
flagra-se de forma cada vez proeminente a necessidade de uma conexo ubqua e uso cada
vez mais frequente de gadgets que tem como objetivo tornar a pervasive computing 4 ainda
mais mandatria. (LEMOS 2002). A partir da popularizao do acesso a novas tecnologias
percebe-se uma difuso e de certo modo uma democratizao no acesso a internet. Em

disseminao dos computadores em todos os lugares.

recente pesquisa elaborada pela Nielsen5, no Brasil, a classe C consome mais internet que a
classe A e B, enquanto na classe A e B o consumo de mdio por pessoa de pginas era no
mximo 821, a classe C abriu, em mdia, 972 pginas no ms. Trata-se assim de
transformaes da prxis social e na forma de produzir e consumir informao. (LEMOS
2005).
Para Lemos (2005), a era da conexo a era da mobilidade, onde visualiza-se uma
densidade mobile, maior inclusive que a quantidade de computadores. Dados da Anatel
(Agncia Nacional de Telecomunicaes) revelam que o Brasil terminou o ms de maro de
2014 com 273,6 milhes de celulares, o que representa uma teledensidade de 135,3
dispositivos mveis para cada 100 habitantes. Em linhas gerais, este comportamento
presente em todos as unidades da federao. Apenas o estado do Maranho apresenta uma
densidade de celular menor que 100 aparelhos para cada 100 habitantes, conforme demostra
a figura I.

FIGURE 1 - Densidade do Celular Brasil (Fev/14)

Dentro desta acepo, Lemos (2005) destaca que a popularizao de celulares e das
redes de acesso a internet vem proporcionado mudanas na produo e consumo de
informao, uma vez que o acesso esta imbricado de uma forma cada vez mais

Empresa germnica americana especializado em prover pesquisas de mercado


6

pervasiva, ou seja conectividade em todos os lugares. Cooper, Green, Murtagh e Harper


(2002) partem do entendimento que a era da conexo a era da mobilidade. Essa nova era,
pressupe a ideia que os dispositivos mveis iro se tornar a principal forma de conexo
rede mundial de computadores. Em linhas gerais, percebe-se que o acesso mobile, nos
ltimos anos, vem crescendo e ficando cada vez mais presente no cotidiano das pessoas que,
de certo modo, geram mais dados, uma vez que o device esta sempre ao alcance da mo.
De acordo com projees da

CISCO, empresa estadunidense especializada em

solues em redes de comunicao e dados, o trfego na internet via dispositivos mveis em


2017 ser 13 vezes maior do que em 2012. Entretanto oportuno salientar que boa parte
deste acesso destinado para interao nas redes sociais. A Nielsen publicou em 2012 um
estudo intitulado State of the media6: the social media report onde flagrou um aumento
considervel no tempo gasto nas redes sociais, via smartphone, em relao ao ano de 2011 e
2012 conforme tabela abaixo:
Social Networking
Facebook
Twitter
foursquare
Pinterest

YOY%
Change
61,0%
48,0%
154,0%
6,1%

Table 1 - Total Minutes Spent Social Networking


Adaptado pelo autor

Dentro dessa premissa, estas redes do lugar a um ambiente de enorme interao e


gerao de informao. Ao analisar, de forma pontual, o buzz gerado em torno da morte do
CEO da Apple, Steve Jobs, a empresa australiana de monitoramento de mdia social, SR7,
estima que foram gerados 10 mil twittes por segundo citando o ocorrido. O exemplo citado
permite inferir que:
Na sociedade mediatizada, as instituies, as prticas sociais e
culturais articulam-se diretamente com os meios de comunicao, de
tal maneira que a mdia se torna progressivamente o lugar por
excelncia da produo social do sentido, modificando a ontologia
tradicional dos fatos sociais (SODR, 1999, p. 27).

Disponvel em http://www.nielsen.com/content/dam/corporate/us/en/reports-downloads/2012-Reports/TheSocial-Media-Report-2012.pdf acesso em 14/05/14

Esta modificao dar-se, sobretudo, na forma como as pessoas esto buscando e


criando informao. H algumas dcadas, basicamente, s tnhamos a TV e o rdio como
principais difusores de notcias. Hoje, as redes sociais funcionam tambm como agentes de
comunicao de massa. Essas novas interaes, por sua vez, geram cada vez mais enormes
quantidades de dados. Em outro estudo realizado pela CISCO, o trfego na internet
cresceu 45% em um ano (entre 2009 e 2010), chegando a 15 exabytes7 por ms, e as
projees so de que o fluxo de informao na internet em 2015 ser quatro vezes maior,
chegando a 767 exabytes no ano. Recentemente, o PennyStocks lab8 desenvolveu um
infogrfico interativo, onde mostra o que esta acontecendo na internet em tempo real.
Dentre os inmeros insights, a ferramenta mostra, por exemplo, que em um minuto, 27.780
posts so publicados no Tumblr, 204.166.680 e-mails so enviados, bem como 138.840
horas de contedo so assistidas no YouTube. Ao analisar os dados oriundos das redes
sociais percebe-se que esse trfego torna-se ainda mais expressivo, em apenas um minuto
temos:

a) WhatsApp: 11.088 contas criadas, 2.08.251.929 mensagens so enviadas;


b) Facebook: 3.549.328 likes, 60.088.768 posts e 6.612 Gb de dados so gerados;
c) Twitter: 6.617.700 twittes so enviados e 12.771 novas contas.

7
8

Um exabyte corresponde a 1 bilho de gigabytes.


Disponvel em http://pennystocks.la/ acesso em 19/05/14
8

FIGURE 2 - Penny Stocks

perceptvel que nas ltimas dcadas, a tecnologia, sobretudo as utilizadas na


produo e difuso de contedo na rea da comunicao, sofreu uma grande inovao.
Diversas plataformas digitais conectadas ficaram mais acessveis do ponto de vista
econmico e tambm foram reconfiguradas para serem acessadas de forma mais amigvel
por profissionais e amadores (LIMA JUNIOR, 2012)
Entretanto, oportuno destacar que as pesquisas em comunicao outrora utilizadas j
no conseguem mais resolver as inquietaes trazidas por essas novas formas de
sociabilizao digital. Neste mpeto, nasce a necessidade cada vez mais premente de
buscar uma interdisciplinaridade com outras reas do conhecimento, principalmente as de
base tecnolgica. Lima Junior (2012, p.4) parte do entendimento que

A expanso tecnolgica, alm de ampliar e baratear os custos das


possibilidades de produo e distribuio de contedos digitais, tambm
abriu novas frentes na rea da pesquisa acadmica [...] Para acompanhar
todo o processo de evoluo tecnolgica, premente que os pesquisadores
da rea da comunicao social ampliem seus ferramentais metodolgicos,
adaptando-os aos instrumentos de verificao que so desenvolvidos em
outras reas do conhecimento. (LIMA JUNIOR 2012, p.4)

Antes os estudos relacionadas ao comportamento humano citados nas pesquisas em


comunicao eram alicerados em metodologias behavioristas, agora tem-se a possibilidade
de usar aparatos tecnolgicos (LIMA JUNIOR, 2012). Dentro dessa conjectura, a ideia de
9

utilizar tecnologia na construo de novas pesquisas em comunicao engloba uma


importncia capital no alcance dos objetos. Isto posto, tem-se percebido que a sociedade, de
modo geral, tem visualizado um olhar diferente sobre temticas tecnolgicas que antes eram
utilizadas por experts em computao (LIMA JUNIOR, 2012).
O pesquisador canadense em filosofia da tecnologia da escola de comunicao Simon
Fraser University, Andrew Feenberg pontua no seu estudo What Is Philosophy of
Technology9? que olhar da sociedade esta cada vez imbricado em assuntos de cunho
tecnolgicos. Em resumo,
The public sphere appears to be opening slowly to encompass technical
issues that were formerly viewed as the exclusive preserve of experts. Can
this trend continue to the point where citizenship will involve the exercise
of human control over the technical framework of our lives? We must hope
so for the alternative appears to be certain destruction. Of course the
problems are not only technological. Democracy is in bad shape today on
all fronts, but no one has come up with a better alternative. If people are
able to conceive and pursue their intrinsic interest in peace and fulfillment
through the political process, they will inevitably address the question of
technology along with many other questions that hang in suspense today.
We can only hope this will happen sooner rather than later10

Dessa forma, o pressuposto de um pensamento computacional defendido por


Jeannete M. Wing pontua como temtica principal a resolubilidade trazida pelos mtodos
computacionais referenda nosso entendimento acerca da utilizao de tecnologia para
resolver problemas de pesquisas em comunicao, j que esta nova sociedade caracterizase pela utilizao e produo de grande volume de dados. Nesse contexto, sem algoritmos e
mtodos de pesquisa especficos para esse fim seria praticamente impossvel resolve-los, a
saber:
Mtodos e modelos computacionais nos encorajam a resolver problemas e
desenhar sistemas que nenhum de ns seria capaz de desenvolver sozinho.
O pensamento computacional envolve resolver problemas, desenhar
sistemas e entender o comportamento humano, inspirados nos conceitos
fundamentais das Cincias da Computao (Wing, 2006, p. 33).

Disponvel em http://www.sfu.ca/~andrewf/komaba.htm acesso em 19/06/2014,


A esfera pblica parece estar se abrindo lentamente para abranger assuntos tcnicos que antes eram vistos
como da esfera exclusiva dos especialistas. Pode esta tendncia continuar a ponto de a cidadania envolver o
exerccio de controle humano sobre a estrutura tcnica de nossas vidas? Esperemos que sim, pois a alternativa
parece levar a certa destruio. Naturalmente os problemas no so apenas tecnolgicos. A democracia est em
m forma hoje em todas as frentes, mas ningum props uma alternativa melhor. Se as pessoas puderem
conceber e perseguir seus interesses intrnsecos em paz e plenitude por meio do processo politico, elas
inevitavelmente abordaro a questo da tecnologia, juntamente com muitas outras questes que hoje esto em
suspenso. Resta-nos apenas esperar que isso acontea mais cedo que mais tarde. (FEENBERG, 2003; traduo
nossa)
10

10

3 O USO DO DATA MINING NA DESCOBERTA DE DADOS INVISVEIS


Estudos recentes comprovam que 85 % (oitenta e cinco por cento) de toda a
informao do mundo est em formato textual (GDS PUBLISHING, 2008) (IBM, 2008).
Entretanto, analisar base de dados no estruturadas como textos sempre representou um
bice, devido a grande dificuldade de sistematizar o significado do que est escrito. Signos
gramaticais como acentos e abreviaes promovem significados adversos e inserem uma
contextualizao diferente ao que foi dito. (PINHEIRO, 2009).
Face a este enorme manancial de dados, faz-se necessrio a utilizao de mecanismos
que visem descobrir padres e informaes at ento desconhecidas. Neste mpeto, o data
mining apresentam-se como um agente capital na descoberta destes conhecimentos. Weiss
(2007, p.87) define DM como sendo:
Busca de informao valiosa em grandes volumes de dados. Data mining
o esforo desenvolvido por homens e mquinas. Os homens desenham os
bancos de dados, descrevem os problemas e setam os objetivos. As
mquinas mineram os dados, em busca de padres que atendam a estes
objetivos (traduo do autor).

Weiss et al. (2007) corrobora com Wiess (2007) quando prope que o data mining
busca por regularidades, padres ou tendncias em textos de linguagem natural. J Hearst
(1999) traz uma definio mais holstica ao pontuar DM como sendo um mtodo de apoiar
pesquisadores a derivar novas e relevantes informaes de uma grande coleo de dados.
Outra definio bastante utilizada sobre DM a proposta trazida na obra From Data Mining
to Knowledge Discovery, na qual o data mining funciona como:

Extrao de conhecimento de Base de Dados o processo no-trivial de


identificao de padres vlidos, novos, potencialmente teis e
compreensveis embutidos nos dados (FAYYAD, PIATESKYSHAPIRO,
SMYTH, 1996, p. 6).

Mesmo no sendo uma tcnica nascida no seio da comunicao, a sua utilizao pode
trazer grandes benefcios para o campo e de forma mais fecunda para o Jornalismo. Neste
contexto, Fidalgo (2007, 161) trs vantagens principais para a aplicabilidade de DM, sendo
elas:
A primeira no exigir tanto tempo de trabalho de jornalistas como uma
11

anlise interativa (baseada em consultas individuais escolhidas caso a caso)


de um grande volume de dados pode implicar. A segunda um ganho de
capacidade de extrao de conhecimento, devido a ser possvel testar um
nmero muito mais vasto de hipotticas relaes interessantes ao nvel dos
dados do que seria possvel se essas hipteses tivessem de ser diretamente
sugeridas ao sistema de pesquisa (e os seus resultados tivessem de ser
diretamente avaliados) por especialistas humanos. A terceira vantagem,
mais subtil, que ao testarem automaticamente conjuntos exaustivos de
possveis padres, os sistemas de KDD (knowledge-discovery in
databases) tem mais probabilidades de testar e encontrar conhecimento
inesperado (e inovador) do que se pode esperar de consultas interativas
sugeridas com base no conhecimento sobre o domnio previamente
existente.

Ainda dentro desta perceptiva, Fidalgo (2007, 163) acredita que os jornalistas do
futuro sero uma espcie de McGyver, homens ou mulheres de mil e um recursos,
trabalhando sozinhos, equipados com uma cmara de vdeo digital, telefone satlite, porttil
com software de edio vdeo e html, e ligao sem fios Internet.

O que a possibilidade e a exequibilidade da minerao de dados nos


mostram a necessidade de formar jornalistas que integrados em equipas
multidisciplinares de informticos, especialistas de estatstica e de
hermenutica de dados, saibam detectar o valor noticioso das relaes e
dos padres extrados da massa imensa de dados, coligidos a acumulados a
uma rapidez estonteante. Teremos, tal como j temos hoje, jornalistas de
rua e jornalistas de secretria, sendo os primeiros de facto os tais backpack
journalists e os segundos investigadores de factos complexos, descobrindo
relaes importantssimas de um ponto de vista jornalstico entre
ocorrncias de uma absoluta trivialidade quanto encaradas isoladamente
(Fidalgo 2007).

Entretanto, para obteno de xito na utilizao de tcnicas de DM, de suma


importncia mapear e desenvolver fluxos de trabalho que permitam uma maior assertividade
no que diz respeito a sua utilizao. Sendo assim, Aranha (2007) sugere o seguinte fluxo:

12

Figure 3: Fases Data mining - adaptado pelo autor

A primeira fase a coleta, onde tem-se o processo de formao de uma base dados,
ferramenta essa indispensvel para elaborao do processo de data mining. A prxima etapa
o pr-processamento, pois sistemas de data mining no submetem aos seus algoritmos de
descoberta de conhecimento colees de textos despreparadas (GOMES, 2008). Uma vez
realizada a coleta de dados, o prximo passo a preparao dos textos para que os mesmos
possam ser manipulados pelos algoritmos de Minerao de Textos.
Aps o pre-processamento inicia-se a fase da indexao, que consiste no processo
responsvel pela criao de estruturas auxiliares denominadas ndices e que garantem a
rapidez e agilidade na recuperao dos dados. De acordo com Soares (2009 p. 99),

Tcnicas de indexao de documentos foram bastante difundidas pela


demanda e crescimento da rea de Recuperao de Informao desde a
dcada de sessenta. Contudo, muitas pessoas acreditam que esta uma rea
nova. Esta ideia talvez tenha surgido com a grande popularizao das
mquinas de buscas que tornaram possvel a pesquisa do contedo de
pginas web, ou seja, documentos textuais.

Uma vez indexados, os dados sero submetidos a algoritmos de aprendizados de


mquinas e estatstica. Segundo Manovich, (2001, p. 197) algoritmo um conjunto bem
definido de instrues em pseudo linguagem computacional ou linguagem de descrio, que
define as estruturas dos dados, com vistas a manipul-los e a formatar os resultados.
A quarta fase a etapa de minerao que ocorre a busca efetiva por conhecimentos
novos e teis a partir dos dados. Compreende a aplicao de algoritmos de Aprendizado de
Mquina sobre os dados de forma a abstrair o conhecimento implcito presente nestes.

13

Finalizado o processo de data mining, temos a etapa de anlise, onde ser realizada
avaliao de todo o conhecimento obtido pelo processo. Enquanto a etapa de anlise,
algumas vezes chamada de Ps-Processamento, abrange o tratamento do conhecimento
obtido na etapa de Minerao, atravs da anlise, visualizao e interpretao deste.

4 CONSIDERAES FINAIS
Em meio a este novo cenrio, onde as pessoas passaram de meras telespectadoras e
assumiram tambm a condio de produtores de informao, temos uma sociedade centrada
na era do big data, onde a quantidade de bytes produzidos na web, e de maneira mais
pontual nas redes sociais, necessitam de filtros cada vez mais dinmicos para transformar
este manancial de dados em informao til e relevante.
Diante desse contexto, o data mining apresenta-se como uma ferramenta que pode
alicerar estes filtros, uma vez que ele configura-se como um instrumento eficiente na busca
de padres de grandes volumes de dados at ento desconhecidos. Isto posto, necessrio
compreender tambm que, como boa parte destes dados esto dispostos de uma forma no
estruturada, uma leitura a olho nu torna o processo de anlise oneroso e muitas vezes
invivel face a premncia na analise destas informaes.
Ademais, em uma conjuntura onde a quantidade de dados passou a ser um bice
tanto para as organizaes quanto para as empresas, o emprego de tcnicas de minerao de
dados passa a ser condio fulcral na busca de insights e na produo de conhecimento.
5 REFERENCIAS
ARANHA, C., Freitas, M. C., Dias, M. C., e Passos, E. (2004). "Um modelo de
desambigizao de palavras e contextos". TIL 2004: Workshop de Tecnologia da
Informao e da Linguagem Humana
Fayyad, U. M.; Piatesky-Shapiro, G.; Smyth, P. From Data Mining to Knowledge
Discovery: An Overview. In: Advances in Knowledge Discovery and Data Mining, AAAI
Press, 1996.
FIDALGO, Antnio. A resoluo semntica no jornalismo online. In: BARBOSA, Suzana
(Org.). Jornalismo digital de terceira gerao. Coleo Estudos em Comunicao.
Covilh, PT: LabcomBooks, 2007b. p. 93-102.
14

GABRIEL, Marta. Marketing de Otimizao de Buscas na Web. So Paulo: Esfera, 2008.


GDS PUBLISHING. (2008). Managing the Data Explosion. Business Management .
LEMOS, Andr. Cibercultura e Mobilidade: a Era da Conexo.Razn Palabra,
Mxico,out.-nov.2004
LEMOS, Andr. Cibercultura, Tecnologia e Vida Social na Cultura. Contempornea.
Porto Alegre, Sulina. 2010
LIMA JR. Walter Teixeira. Jornalismo Inteligente na era do data mining. Publicado na
Revista do Programa de Ps-graduao da Faculdade Csper Lbero, ano IX no.18, p. 121126, 2011.
LIMA JUNIOR, W. T. . Big Data, Jornalismo Computacional e Data Journalism:
estrutura, pensamento e prtica profissional na Web de Dados. Estudos em
Comunicacao, v. 12, p. 207-222, 2012
LIMA JUNIOR, W. T. . Interseces possveis: tecnologia, comunicao e cincia
cognitiva.
Comunicao
&
Sociedade,
v.
34,
p.
93-119,
2013.
Homepage:http://https://www.metodista.br/revistas/revistasims/index.php/CSO/article/viewArticle/3310; Srie: 2; ISSN/ISBN: 01012657.
MACHADO, Elias. O ensino de jornalismo em tempos de ciberespao. In MACHADO,
Elias e PALACIOS, Marcos. O Ensino de Jornalismo em Redes de Alta Velocidade.
Metodologias e Softwares. Salvador: EDUFBA: 2007.
MANDEL, A., SIMON, I., & DELYRA, J. (1997). Informao: computao e
comunicao. Revista da USP , 35, 11-45.
SCHIESSSL, Jos Marcelo. Descoberta de conhecimento em texto aplicada a um
sistema de atendimento ao consumidor. 2007 Dissertao (mestrado em Cincia da
Inforamao) Universidade de Braslia), Braslia, 2007.
SCHIESSSL, Jos Marcelo. Descoberta de conhecimento em texto aplicada a um
sistema de atendimento ao consumidor. 2007 Dissertao (mestrado em Cincia da
Inforamao) Universidade de Braslia), Braslia, 2007.
SPINK, A., WOLFRAM, D., JANSEN, M. B., & SARACEVIC, T. (2001). Searching the
web: the public and their queries. Journal of the American Society for Information
Science and Technology , Vol. 52, 226234.
WEINBERGER, D., Why Open Spectrum Matters. The end of the broadcast nation., in
http://www.evident.com , 2003.
WEISS, S. M., Indurkhya, N., Zhang, T., e Damerau, F. (2005). Text Mining: Predictive
Methods for Analyzing Unstructured Information. Springer Science+Business Media, Inc.
WEISS. S.M . et al. TEXT MINING. Predictive Methods for Analyzing Unstructured
Information. Springer, New York 2005
15

WING, J. M. Computacional thinking. Communications of the ACM, v. 39, n. 3, 2006.


Disponvel em: http://www.cs.cmu. edu/afs/cs/usr/wing/www/publications/Wing06.pdf.
Acesso em: 19/06/2014
ZIKOPOULOS, P; DE ROOS, D; PARASURAMAN, K; DEUTSCH, T; GILES, J;
CORRIGAN, D. Harness the power of Big Data- The IBM Big Data Platform.
Emeryville: McGraw-Hill Osborne Media, 2012

16