Anda di halaman 1dari 261

i

Ivan Torres Pisa

TESE
Estudos em Descoberta de Conhecimento e
Minerao de Dados em Sade
ATENO!
Em se tratando de material para
prova de seleo de alunos no

Tese apresentada Universidade

Curso de Especializao em

Federal de So Paulo em Concurso

Informtica em Sade

de

UAB/UNIFESP, 4 edio 20152016, SOMENTE o captulo 2 deve


ser consultado para a prova online
de seleo.

Livre-Docncia

junto

ao

Departamento de Informtica em
Sade (Disciplina de Informtica em
Sade).

So Paulo
2013

ii

Ivan Torres Pisa

TESE
Estudos em Descoberta de Conhecimento e
Minerao de Dados em Sade

Tese apresentada Universidade


Federal de So Paulo em Concurso
de

Livre-Docncia

junto

ao

Departamento de Informtica em
Sade (Disciplina de Informtica em
Sade), de acordo com o processo
no 23089.001329/2012-11, edital no
819/2012 publicado em 24/12/2012,
e edital de retificao no 402/2013
publicado em 10/05/2013.

So Paulo
2013

iii

Pisa, Ivan Torres.


Estudos em descoberta de conhecimento e minerao de dados em sade.
Ivan Torres Pisa. -- So Paulo, 2013.
xvii, 261f.
Tese (Livre Docncia) Universidade Federal de So Paulo. Escola
Paulista de Medicina. Departamento de Informtica em Sade (Disciplina de
Informtica em Sade).
1. Informtica mdica. 2. Minerao de dados. 3. Classificao. 4. Bases
de conhecimento. 5. Inteligncia artificial. 6. Conhecimento.

iv

AGRADECIMENTO

Esta dcada pertence aos modelos distribudos,


no aos modelos centralizados.
colaborao, e no ao controle.
E aos pequenos dados, e no ao big data.
Esqueam big data. Small data a verdadeira revoluo.
A verdadeira oportunidade no est nas grandes bases
de dados, mas sim em muitos pequenos dados,
descentralizados, que no se entendem.
No est num nico anel para governar a todos
mas em pequenos pedaos fracamente conectados.
goo.gl/2PV2hF

Dr. Rufus Pollock,


goo.gl/5zmmDa
2013

De corao meus sinceros agradecimentos a todos os colegas, professores, tcnicoadministrativos e alunos que colaboraram, uns mais outros menos, com as atividades
de pesquisa apresentadas nesta tese. Tambm agradeo aos meus familiares e
agregados que me apoiaram, com pacincia e f, para que minha carreira acadmica
chegasse ao dia de hoje. Agradeo pela felicidade e oportunidade de poder escrever
este documento com vocs. Este documento resultado do que imaginamos juntos,
colaborativamente.
Vamos continuar pensando grande, sempre comeando pequeno e crescendo
rapidamente nossa coleo de pequenos dados da sade....

SUMRIO
AGRADECIMENTO .....................................................................................................IV
NDICE DE TABELAS..................................................................................................IX
NDICE DE QUADROS .................................................................................................X
NDICE DE FIGURAS ..................................................................................................XI
NDICE DE ABREVIATURAS E SIGLAS ...................................................................XIII
NOTAS ..................................................................................................................... XVI
RESUMO ................................................................................................................. XVII
1. INTRODUO ......................................................................................................... 1
1.1. Contexto...................................................................................................... 1
1.2. Organizao do Documento ........................................................................ 6
1.3. Referncias ................................................................................................. 8
2. ESTUDOS SOBRE A REA DE INFORMTICA EM SADE ................................ 11
2.1. Epistemologia da Informtica em Sade ................................................... 12
Tesauro para Modelagem de Domnios .................................................. 14
Pesquisas Realizadas........................................................................................ 15
Estatstica de Termos de Artigos PubMed .............................................. 17
Tesauro EpistemIS ................................................................................. 18
Publicaes no PubMed ......................................................................... 19
Pesquisa de Opinio .............................................................................. 21
Tecnocincia Interdisciplinar .................................................................. 22
Diferentes Nomenclaturas para Informtica em Sade........................... 23
Informtica em Sade como Melhor Nomenclatura ................................ 27
Nomenclaturas na Web .......................................................................... 29
Subreas da Informtica em Sade ....................................................... 29
2.2. Classificao de Artigos Cientficos da Informtica em Sade .................. 33
Classificao e Indexao de Artigos ..................................................... 34
Pesquisas Realizadas........................................................................................ 36
Portal ISI Web Of Knowledge ................................................................. 37
Estratgia de Classificao e Indexao dos Artigos.............................. 38
Separao de Domnios por Termos ...................................................... 40
Proposta de Mtodo de Indexao ......................................................... 41
2.3. Rede de Colaborao em Informtica em Sade ...................................... 44
Anlise de Rede Social .......................................................................... 45
Pesquisas Realizadas........................................................................................ 47

vi

Rede Social da Informtica em Sade em 2008 ..................................... 48


Ampliao da Anlise de Rede Social .................................................... 50
Rede Social Acadmica da Informtica em Sade ................................. 59
2.4. Consideraes Finais ................................................................................ 60
2.5. Referncias ............................................................................................... 63
3. ESTUDOS EM INFORMTICA PARA A SADE DO CONSUMIDOR ................... 71
3.1. Classificao de Contedo sobre Sade na Web ...................................... 72
Uso da Web para Deciso em Sade..................................................... 73
Recuperao de Informao na Web ..................................................... 74
Uso de Vocabulrios Controlados da Sade .......................................... 75
Pesquisas Realizadas........................................................................................ 77
Trs Estratgias de Classificao........................................................... 79
Concordncia com Especialistas e Voluntrios ...................................... 81
DeCS Aprimorou Classificao .............................................................. 83
Classificao por Proximidade Semntica .............................................. 83
Teste do JDI para Classificao Semntica na Web .............................. 85
Comparao com Classificao Humana ............................................... 86
Comparao com Classificao Humana ............................................... 87
Estudo em Andamento: Inter-relacionamento Semntico da Sade ....... 89
Estudo em Andamento: Anlise de Sentimento de Opinies no Twitter . 91
3.2. Qualidade da Informao sobre Sade na Web ........................................ 93
Credibilidade de Informao sobre Sade .............................................. 94
Critrios de Adequao de Contedos sobre Sade .............................. 95
Pesquisas Realizadas........................................................................................ 96
Avaliao de Pginas Web por Voluntrios ............................................ 97
Classificador Automtico de Critrios ticos .......................................... 97
Critrios ticos Versus Percepo da Qualidade ................................... 99
3.3. Alerta de Celular para Adeso ao Tratamento........................................... 99
SMS na Sade ..................................................................................... 101
Aumento de Publicaes em 2012 ....................................................... 103
Pesquisas Realizadas...................................................................................... 104
HIV/AIDS .............................................................................................. 105
Trs Medidas de Adeso ao Tratamento do HIV .................................. 107
Absentesmo a Consultas..................................................................... 109
Disfuno Temporomandibular (DTM) .................................................. 110
Trs Medidas de Impacto Clnico e Uma de Absentesmo.................... 111
Os Trs Estudos................................................................................... 111

vii

3.4. Consideraes Finais .............................................................................. 112


3.5. Referncias ............................................................................................. 116
4. ESTUDOS EM SISTEMAS DE APOIO A DECISO EM SADE ......................... 127
4.1. Diagnstico da Doena Celaca na Gastropediatria ................................ 129
Protocolos para Doena Celaca .......................................................... 130
Necessidade de Apoio no Diagnstico ................................................. 131
Inteligncia Artificial na Identificao de Diagnstico ............................ 133
Pesquisas Realizadas...................................................................................... 136
Classificador de Doena Celaca .......................................................... 137
Comparao com Especialistas e Bipsia ............................................ 140
4.2. Classificao em Transplante Renal ....................................................... 142
SADCs em Doena Heptica e Transplante ......................................... 143
Pesquisas Realizadas...................................................................................... 144
Dados de Pacientes Ps-transplantados .............................................. 145
Testes com Classificadores de Padro................................................. 147
Indicao para Bipsia e Diagnstico ................................................... 148
4.3. Classificao da Maturao Vertebral Cervical para Ortodontia .............. 149
Apoio a Deciso em Maturao ssea ................................................ 151
Pesquisas Realizadas...................................................................................... 152
Base de Radiografias Cefalomtricas Laterais ..................................... 152
Teste com Classificadores de Padro .................................................. 153
Avaliao com Especialistas ................................................................ 155
4.4. Minerao de Texto de Laudos de Bipsia Renal ................................... 156
Descoberta de Padro em Laudos ....................................................... 157
Pesquisas Realizadas...................................................................................... 158
Base de Laudos de Bipsia Renal ........................................................ 159
Construo de Taxonomia.................................................................... 161
Agrupamento de Laudos ...................................................................... 162
Anlise da Estrutura Completa do Laudo ............................................. 163
Classificao Auxiliada pela Terminologia DeCS ................................. 166
Avaliao por Especialistas .................................................................. 167
4.5. Consideraes Finais .............................................................................. 168
4.6. Referncias ............................................................................................. 171
5. INFORMTICA PARA A GESTO EM SADE.................................................... 183
5.1. Anlise de Cluster em Epidemiologia ...................................................... 184
Algoritmos de Clusterizao ................................................................. 186
Pesquisas Realizadas...................................................................................... 188

viii

Trs Grupos de Idosos ......................................................................... 190


Descrio dos Grupos .......................................................................... 191
Comunicao em Sade sob Medida ................................................... 195
5.2. Classificao de Internaes Hospitalares .............................................. 196
Diagnosis Related Groups (DRGs) ....................................................... 197
Avaliao das Autorizaes de Internao Hospitalar (AIHs) ............... 199
Pesquisas Realizadas...................................................................................... 201
Classificao das AIHs por DRGs ........................................................ 202
Clusterizao das AIHs ........................................................................ 206
5.3. Conformidade de Sistemas a Normas e Recomendaes....................... 207
Aes da HIPAA, ISO e ABNT ............................................................. 209
Pesquisas Realizadas...................................................................................... 210
Nvel de Conformidade de 11 Hospitais................................................ 212
Segurana da Informao Abaixo da Expectativa ................................ 215
Anlise de Cluster de Requisitos de Normas ........................................ 216
5.4. Avaliao de Programas de Telessade ................................................. 218
Telessade no Brasil ............................................................................ 220
Pesquisas Realizadas...................................................................................... 223
Cinco Eixos de Anlise ......................................................................... 223
Telessade como Recurso ................................................................... 224
Ensino como Propulsor de Telessade ................................................ 226
5.5. Comentrios Finais ................................................................................. 229
5.6. Referncias ............................................................................................. 232
6. CONSIDERAES FINAIS ................................................................................. 238
6.1. Referncias ............................................................................................. 242

ix

NDICE DE TABELAS
Tabela 1 Tesauro EpistemIS. Distribuio de termos nas reas de conhecimento e
categoria MeSH (Colepicolo 2008). ............................................................................ 18
Tabela 2 - Primeiros 30 nomes da rede social de 793 profissionais, pesquisadores e
estudantes da informtica em sade usando critrio do ndice Pisa de Popularidade.
Clculo realizado em 2008 (Costa et al. 2008)............................................................ 49
Tabela 3 - Mtricas globais dos grafos de relaes entre os currculos e suas ligaes
(coautorias) dentro de cada grande rea. ................................................................... 56
Tabela 4 - Mtricas globais dos grafos de relaes entre os currculos e suas ligaes
(coautorias) dentro das cinco reas mais citadas........................................................ 56
Tabela 5 - Top 5 de mtricas de centralidade (intermediao e proximidade) (a) global
e (b) nas 2 maiores grandes reas da informtica em sade. ..................................... 57
Tabela 6 - Quantidade de pginas web, contagem de palavras repetidas e contagem
de palavras no-repetidas para as bases de treinamento e validao do classificador
InDeCS de Mancini (2011). ......................................................................................... 78
Tabela 7 - Exemplo de 10 dos 100 termos DeCS encontrados aps a filtragem e suas
frequncias em cada seo e nmero total dos laudos, respectivamente (Nicolas
2013). ....................................................................................................................... 165
Tabela 8 - Valores mnimos e mximos da mdia e do coeficiente do tempo de
permanncia hospitalar e quantidade de DRGs de 1998 a 2006. Unidade de tempo em
dias (Dalmati 2012). .................................................................................................. 204
Tabela 9 - Valores mdios, desvio padro, mnimo e mximo do nmero de
hospitalizaes (sadas) e do coeficiente de variao de todos os anos, de 1998 a
2006 (Dalmati 2012). ................................................................................................ 206

NDICE DE QUADROS
Quadro 1 - Nmero aproximado de ocorrncias na web das principais nomenclaturas
associadas rea da informtica em sade. .............................................................. 30
Quadro 2 - Codificao dos atributos para construo do classificador de doena
celaca (Tenrio 2011). ............................................................................................. 138
Quadro 3 - Distribuio da importncia das variveis em cada cluster identificado no
projeto Epidoso. A ordem (de cima para baixo) das variveis representa sua
importncia (da mais para a menos importante) no grupo (cluster). A intensidade da
cor azul representa a importncia global da varivel para a clusterizao (Cohrs 2011).
................................................................................................................................. 192

xi

NDICE DE FIGURAS
Figura 1 - Descrio hierrquica do conceito descoberta de conhecimento e dos
conceitos relacionados (Bendoly 2003)......................................................................... 5
Figura 2 Contagem de artigos PubMed da rea de informtica em sade publicados
no perodo 1998-2005 de acordo com classificao EpistemIS (Colepcolo 2008)...... 21
Figura 3 Disciplinas que contribuem para a interdisciplinaridade da informtica em
sade (traduzido e adaptado) (Mantas et al. 2010). .................................................... 34
Figura 4 - Quantidade de termos nicos (35.484) e respectiva interseco presente
nos conjuntos de artigos cientficos dos domnios da cincia da computao,
informtica em sade e sade (Teixeira 2011). .......................................................... 41
Figura 5 - Distribuio dos artigos cientficos e descritores em relao aos domnios
estudados (30 categorias), de acordo com a indexao sugerida pelo mtodo de
competio de tcnicas (Teixeira 2011). ..................................................................... 43
Figura 6 - Grafo de relao entre as 9 grandes reas informadas nos currculos
analisados. Os pontos vermelhos representam as grandes reas. As ligaes
representam a coocorrncia com repetio entre grandes reas nos currculos. A
espessura das arestas e os nmeros informados representam a quantidade destas
coocorrncias. Verso digital em goo.gl/LJrqZ2.......................................................... 52
Figura 7 - Grafo de relao entre as 72 reas informadas nos currculos analisados.
Os pontos representam as reas e as ligaes representam a coocorrncia com
repetio entre reas nos currculos. A espessura das arestas representa a quantidade
destas coocorrncias. A cor do n representa a quantidade de ligaes de uma rea,
independente da quantidade de coocorrncias: azul significa mais ligaes, vermelho
menos ligaes. Verso digital em goo.gl/M1ZIJw. ..................................................... 52
Figura 8 - Grafos de relaes entre os currculos e suas ligaes (coautorias) dentro
de cada grande rea. A cor de cada ns (currculo) representa o grau de ligao com
outros currculos variando do vermelho (menor grau, menos currculos ligados) ao azul
(maior grau, mais currculos ligados). A espessura das arestas representa a
quantidade de coocorrncias entre currculos. ............................................................ 55
Figura 9 - Grafos de relaes entre todos os currculos e suas ligaes (coautorias).
Verso digital em goo.gl/jto2Gs. ................................................................................. 58
Figura 10 - Tela do buscador Busca Sade UNIFESP buscasaude.unifesp.br (Mancini
2011). ......................................................................................................................... 82
Figura 11 - Curva de revocao-preciso para as 19 posies do ranking de relevncia
de categorias (Sousa 2011). ....................................................................................... 88

xii

Figura 12 - Comparao entre a revocao dos classificadores e da classificao


humana para as cinco primeiras posies do ranking de relevncia (Sousa 2011). .... 88
Figura 13 Grfico com a quantidade de publicaes PubMed sobre uso de SMS
como suporte ao tratamento de doenas por ano, considerando (*) dados parciais de
2013. ........................................................................................................................ 103
Figura 14 - Mtodo para seleo do algoritmo para construo do sistema web de
classificao de doena celaca (Tenrio 2011)........................................................ 139
Figura 15 - Tela do sistema web para classificao de diagnstico de doena celaca
na primeira consulta (Tenrio 2011). ........................................................................ 141
Figura 16 Representao esquemtica dos estgios cervicais CS1 a CS6
considerando as vrtebras cervicais C2, C3 e C4 de acordo com o mtodo CVM
(Baccetti et al. 2005). ................................................................................................ 150
Figura 17 - Tela capturada: pgina de avaliao por meio da marcao dos pontos de
interesse e sugesto do SAD (Baptista 2012). .......................................................... 155
Figura 18 - Nuvem de termos referente aos trs primeiros termos dos campos
diagnsticos (Rocha 2013). ...................................................................................... 162
Figura 19 - Grfico em radar exibindo a importncia de cada varivel com
sobreposio dos trs grupos no projeto Epidoso e avaliao geral (Cohrs 2011).... 193
Figura 20 - Radar da conformidade mdia dos hospitais (a) em processos de gesto
de segurana da informao e (b) com S-RES implementados. Maior rea, maior
conformidade (Gottberg 2010). ................................................................................. 213
Figura 21 - Grfico de satisfao antes e depois da RUTE com ampliao da
resoluo na rea de interesse (quadrante I de avano na satisfao, antes 1,0 a 3,0 e
depois 3,0 a 5,0) e avaliao da mdia da importncia das perguntas (Lopes 2013).
................................................................................................................................. 227
Figura 22 - Grfico radar das respostas por eixo para o questionrio completo (Lopes
2013). ....................................................................................................................... 227

xiii

NDICE DE ABREVIATURAS E SIGLAS


ABNT

Associao Brasileira de Normas Tcnicas

ABNT/CEE

ABNT Comisso de Estudo Especial

ABRAHUE

Associao Brasileira de Hospitais Universitrios

ACG

adjusted clinical groups, grupos de ajuste clnico

ACM

Association for Computer Machinery (acm.org)

ACM

Association for Computing Machinery

ADG

adjusted diagnosis groups, grupos de diagnsticos ajustados

AIDS

acquired immunodeficiency syndrome, sndrome da imunodeficincia


adquirida

AIH

autorizao de internao hospitalar

AIH

alta de internao hospitalar

AJAX

asynchronous javascript and XML

AMIA

American Medical Informatics Association (amia.org)

ANEW-BR

Affective Norms for English Words BR

AUC

rea sob a curva ROC

B2B

business to business, negcio para negcio

B2C

business to consumer, negcio para consumidor

BIREME

Centro Latino-americano e do Caribe de Informaes em Cincia da


Sade

C2C

consumer to consumer, consumidor para consumidor

CBIS

Congresso Brasileiros de Informtica em Sade

CETIC

Centro de Estudos Sobre as Tecnologias da Informao e da


Comunicao

CFM

Conselho Federal de Medicina

CID/ICD

Classificao Internacional de Doenas

CNES

Cadastro Nacional de Estabelecimentos de Sade

CPDH

Centro de Processamento de Dados Hospitalares, USP Ribeiro Preto

CS

cervical stages

CVM

cervical vertebral maturation

DeCS

Descritores em Cincias da Sade

DIS

Departamento de Informtica em Sade

DRGs

diagnosis related groups, classificao da complexidade de pacientes


hospitalizados

DTM

disfuno temporomandibular

xiv

ECG

eletroencefalograma

EpistemIS

tesauro epistemolgico em informtica em sade

ERP

enterprise resource planning

GCD

grandes categorias diagnsticas

GT

grupo de trabalho

HIPAA

Health Insurance Portability and Accountability Act, EUA

HIV

human immunodeficiency vrus, vrus da imunodeficincia humana

HIVAS

HIV Alert System

HLA

antgeno leucocitrio humano

HON

Health On Net Foundation

HTML

HyperText Markup Language

IMIA

International Medical Informatics Association (imia.org)

INAMPS

Instituto Nacional de Assistncia Mdica da Previdncia Social

InDeCS

Indexao por Descritores em Cincia da Sade

IPP

ndice Pisa de popularidade

IR-DRG

International Refined Diagnosis Related Groups

ISO

International Organization for Standardization

JDI

Journal Descriptor Indexing, NLM

JSON

javascript object notation

KDD

knowledge discovery and data mining, descoberta de conhecimento e


minerao de dados

LDA

linear discriminant analyses

LILACS

Literatura Latino-Americana e do Caribe em Cincias da Sade

LOD

linked open data

MeSH

Medical Subject Headings, NLM

MS

Ministrio da Sade do Brasil

NIH

National Institutes of Health, EUA

NLM

National Library of Medicine, NIH, EUA

NUPAIG

Ncleo Multidisciplinar de Patologias Infecciosas da Gestao

ODR

Open Directory Project

OMS

Organizao Mundial da Sade

PD&I

pesquisa, desenvolvimento e inovao

PEP

pronturio eletrnico do paciente

PHP

PHP: Hypertext Preprocessor

RDC/TMD

Critrio e Diagnstico para Pesquisa em Disfuno Temporomandibular

RDF

resource description framework

RES

registro eletrnico em sade

xv

RNA

rede neural artificial

ROC

receiver operating characteristic, caracterstica de operao do receptor

RUTE

Rede Universitria de Telemedicina

SADC

sistema de apoio a deciso clnica

SAMHPS

Sistema de Ateno Mdica Hospitalar do Ministrio da Previdncia


Social

SBIS

Sociedade Brasileira de Informtica em Sade

SIGKDD

Special Interest Group KDD, acm.org

SIH/SUS

Sistema de Informaes Hospitalares do Sistema nico de Sade

SMS

short message servisse, servio de mensagens curtas, torpedo

SNA

social network analysis

SNOMED

Systematized Nomenclature of Medicine - Clinical Terms

S-RES

sistemas de registro eletrnico em sade

STI

Semantic Type Indexing, NLM

SUS

Sistema nico de Sade

TCLE

termo de consentimento livre e esclarecido

TIC

tecnologia da informao e comunicao

UMLS

Unified Medical Language System

UNIFESP

Universidade Federal de So Paulo

WHO

World Health Organization, Organizao Mundial de Sade

xvi

NOTAS
1. A nomenclatura informtica em sade a escolhida pelo pesquisador para
representar a grande rea de pesquisa. Mas outras nomenclaturas podem ocorrer
ao longo de todo o texto em respeito aos autores citados e especificidades.
2. Algumas denominaes da rea e subreas foram traduzidas. A traduo buscou
refletir uma compreenso comum do tema segundo a cultura acadmica brasileira.
3. Alguns termos no foram traduzidos para o portugus brasileiro para manter
fidelidade quanto ao seu emprego.
4. A tipografia dos termos estrangeiros no sofreu modificaes. Portanto, termos
estrangeiros so apresentados naturalmente ao longo do texto.

xvii

RESUMO
Pisa IT. Estudos em descoberta de conhecimento e minerao de dados em sade.
So Paulo. Tese [Livre-Docncia] - Universidade Federal de So Paulo, Escola
Paulista de Medicina, Departamento de Informtica em Sade (Disciplina de
Informtica em Sade). 2013.

Resumo. Descoberta de conhecimento e minerao de dados (KDD) se refere ao


processo, na sua forma mais ampla, de definir um conhecimento a partir de bases de
dados, enfatizando um alto nvel de aplicao de mtodos particulares de minerao
de dados. Este documento apresenta estudos de KDD aplicada a sade na rea de
informtica em sade (IS). Esto organizados em trs eixos, sendo (1) informtica
para a sade do consumidor, (2) sistemas de apoio a deciso em sade, e (3)
informtica para a gesto em sade. Contribuies para a rea de IS incluem um
estudo epistemolgico, uma proposta de classificao de artigos cientficos especficos
em IS e uma anlise de rede social de pesquisadores com atuao em IS.
Contribuies para o eixo (1) incluem um classificador de contedos textuais sobre
sade provenientes da web e avaliao do impacto do uso de mensagem de texto por
celular para aumentar a adeso a tratamentos e diminuir absentesmo. Contribuies
para o eixo (2) incluem um sistema de apoio para diagnstico de doena celaca, um
sistema para auxlio na indicao de bipsia para pacientes ps-transplantados renais,
um sistema de auxlio na classificao da maturao vertebral cervical para a
ortodontia e sistema semntico de taxonomias e relaes entre termos para laudos de
bipsia renal. Contribuies para o eixo (3) incluem anlise de agrupamentos para
discriminao epidemiolgica, anlise de homogeneidade de internaes hospitalares,
avaliao de conformidade de sistemas de informao hospitalares a normas e
recomendaes e avaliao da evoluo de programas de telessade. Alm das
tcnicas clssicas da rea de KDD aplicada sade, os estudos seguem no rumo de
incorporar representao semntica e anlise de rede social para aprimoramento dos
resultados dentro da rea de IS.

Palavras-chave. 1. Informtica mdica. 2. Minerao de dados. 3. Classificao. 4.


Bases de conhecimento. 5. Inteligncia artificial. 6. Conhecimento.

1.

INTRODUO

Este documento tem como objetivo apresentar estudos realizados pelo autor
considerando a rea de descoberta de conhecimento e minerao de dados, dentro da
grande rea da informtica em sade. Foi confeccionado com o objetivo de apresentar
resultados e discusses sobre pesquisas acadmicas realizadas pelo autor e seus
colaboradores para o Concurso de Livre Docncia 2013 da UNIFESP
Estes estudos foram realizados nos ltimos 5 anos junto ao grupo de pesquisa
acadmica Sade 360 (saude360.com.br), criado e liderado pelo autor deste
documento, associado ao Programa de Ps-graduao em Gesto e Informtica em
Sade, da Escola Paulista de Medicina, Universidade Federal de So Paulo
(UNIFESP). Contou com a participao de graduandos, ps-graduandos, professores
colaboradores e convidados, ligados ao grupo de pesquisa. Outros estudos
desenvolvidos e em desenvolvimento, que no esto descritos neste documento,
podem ser identificados pela pgina web do grupo e por meio de publicaes.

1.1. Contexto

A atividade de pesquisa descrita neste documento se enquadra na rea de informtica


em sade. A informtica em sade surgiu como uma aplicao da informtica
medicina. Shortliffe (1995) explica que o surgimento da rea ocorreu por 3 motivos
principais: (1) devido aos avanos da computao e das tecnologias de informao e
comunicao; (2) conscincia crescente de que a base de conhecimento da
medicina e das demais reas da sade no pode ser gerenciada apenas em suporte
papel; (3) convico de que o processo de tomada de deciso to importante para
a medicina quanto a coleo de fatos nos quais estas decises so baseadas, e que
ambos podem ser otimizados com o auxlio da informtica.
Shortliffe (1995) descreveu uma necessidade da implantao de setores de
tecnologia nas escolas mdicas, ao que tem se tornado uma realidade cada vez
mais comum em todo o mundo. Nas ltimas dcadas a informtica mdica foi
ampliando seu escopo para alm da medicina, atrelando-se necessidade de
organizao do conhecimento e da pesquisa em cincias da sade (Marin e Sigulem
2009). Mais que isso, seu escopo inclui a idia de otimizar processos relacionados s
prticas dessas cincias, por meio das tecnologias da informao e comunicao,

fomentando projetos multidisciplinares envolvendo informtica e cincias da sade.


Tais fatos justificaram denomin-la informtica em sade.
Um estudo comparativo (Colepcolo 2008), realizado no grupo de pesquisa
Sade 360, entre aspectos tericos e prticos considerando como etapas os estudos
estatstico, terminolgico e epistemolgico, expe que a rea da informtica em sade
uma tecnocincia interdisciplinar que se ocupa da soluo de problemas de um
amplo leque de domnios e fatos das cincias da vida, das cincias da sade e da
prtica do cuidado em sade, por meio da pesquisa cientfica proveniente de outras
reas do conhecimento e do desenvolvimento de suas prprias tecnologias para uso
na sociedade.
Dos diversos temas e aplicaes da rea da informtica em sade (Shortliffe
2006), nosso interesse no grupo de pesquisa concentrou-se em estudos de
descoberta de conhecimento e minerao de dados em sade. A denominao
descoberta de conhecimento e minerao de dados (knowledge discovery and data
mining KDD) se refere ao processo, na sua forma mais ampla, de definir um

conhecimento a partir de bases de dados, enfatizando um alto nvel de aplicao de


mtodos particulares de minerao de dados (KDD 2013). De fato, representa a
juno dos termos extrao de conhecimento de bases de dados (knowledge
discovery in databases), que enfatiza que o conhecimento o resultado final da
descoberta baseada em bases de dados, e do termo minerao de dados (data
mining), que foca na aplicao de algoritmos especficos para extrair padres de
dados. KDD, portanto, representa um processo amplo de preparao, seleo e
transformao de dados, com incorporao de conhecimento a priori para
interpretao adequada dos resultados da minerao, como procedimentos essenciais
para garantir que um conhecimento til seja extrado dos dados.
O processo de descoberta de conhecimento descreve tanto os procedimentos
gerais pelos quais a informao extrada e aglomerada como tambm descreve a
rea dedicada a realizar pesquisa de inovao neste processo (Fayyad 1996). Ainda,
h esforos em se oferecer ferramentas de minerao de dados que apoiem os
analistas na investigao de tarefas de descoberta de conhecimento no estruturadas.
Descoberta de conhecimento um termo que representa melhor uma natureza
iterativa e orientada ao processo, assim como sua nfase no desenvolvimento de
conhecimento estratgico e domnio de compreenso. Minerao de dados, por outro
lado, um termo que normalmente descreve uma investigao mais especfica em um
domnio de aplicao e representa uma ferramenta que possibilita encontrar regras e
relaes entre os dados (Bendoly 2003).

Podemos, assim, descrever nosso interesse de pesquisa como sendo uma


aplicao de KDD na rea da sade. O grupo tem como foco estudos sobre gesto e
informtica em sade em 3 eixos: (1) informtica para a sade do consumidor, (2)
sistemas de apoio a deciso em sade, e (3) informtica para a gesto em sade.
A denominao informtica para a sade do consumidor (IMIA 2013; AMIA
2013), tambm empregada como informtica para o consumidor em sade, ou
informtica em sade para o consumidor, representa a rea de aplicao da
informtica do ponto de vista dos consumidores e pacientes. Os temas incluem
informtica focada no paciente, literacia em sade e educao do consumidor. O foco
das pesquisas encontra-se nas estruturas e processo de informao que aumentam o
poder do consumidor em gerenciar sua prpria sade, como exemplos, literacia em
informao em sade, linguagem adequada ao consumidor, registro eletrnico em
sade, modalidades de entrega de informao e estratgias e recursos baseados na
web.
O termo sistema de apoio a deciso clnica (SADC), tambm denominado
sistema de auxlio deciso clnica ou mais amplamente sistema de apoio a deciso
em sade, representa um sistema de informao utilizado para integrar informaes
clnicas e do paciente, e prover apoio para a tomada de decises nos cuidados ao
paciente (Berner 2006). Um sistema de apoio deciso clnica qualquer programa
projetado para ajudar profissionais de sade na tomada de deciso (Musen et al.
2006). Sigulem et al. (1997) afirmam que a principal motivao para o
desenvolvimento desses sistemas reside no aumento progressivo da quantidade de
dados, informao e conhecimento que o profissional de sade de hoje deve utilizar
para exercer adequadamente a sua profisso. Esta motivao se faz ainda mais
premente atualmente. Segundo Denekamp (2007), a expectativa que os SADCs
diminuam a distncia entre as evidncias e a prtica clnica ao disponibilizar dados
relevantes e conhecimento no ponto de cuidado.
J a gesto em sade pode ser definida como uma rea que compreende
atividades de formao, implementao e avaliao de polticas, instituies,
programas, projetos e servios de sade, bem como a conduo, gesto e
planejamento de sistemas e servios de sade (termo DeCS goo.gl/gHaLbl). A
nomenclatura informtica para a gesto em sade representa, portanto, um esforo
em fundamentar, planejar, desenvolver, implantar e avaliar modelo e tcnicas da rea
da informtica para aplicao nos diferentes aspectos da gesto em sade. Inclui em
seu escopo abordagens da chamada informtica da sade pblica (public health
informatics) como definida por Kulikowski et al. (2012), que tambm por vezes
denominada informtica populacional ou informtica da sade global, mas no se

restringe a aplicaes de sade pblica. Esta subrea tem foco na anlise do uso da
informtica na perspectiva do gestor e suas necessidades de informao, estudos e
mtodos para tornar a informao acessvel ao gestor, e modelos e integrao de
preferncias do gestor em sistemas de informao em sade.
Estes 3 eixos, que consideram as diferentes perspectivas (1) do consumidor de
sade, (2) do profissional de sade e (3) do gestor, podem ser usados para organizar
nossos estudos neste documento. As pesquisas realizadas incluram temas como
minerao de dados e texto em sade, telemedicina, telessade, aplicativos mveis,
redes sociais em sade, anlise de grandes bases de dados, anlise de agrupamentos
(clusters), ontologias, tesauros e tcnicas de inteligncia artificial. Estes temas
tecnolgicos e cientficos esto includos na proposta de currculo para a rea de
descoberta de conhecimento e minerao de dados feita pela grupo especial de
interesse SIGKDD da Association for Computing Machinery (ACM acm.org)
(Chakrabarti et al. 2006). Mais recentemente o tema linked open data (LOD) (Bizer et
at. 2009) sensibilizou os participantes do grupo e direcionou novos estudos sobre
inter-relacionamento semntico de dados heterogneos da sade. A temtica big data,
bastante presente em discusses acadmicas atuais, conforme pode ser observado
no Medinfo 2013 realizado em julho em Copenhague, est presente em nossas
escolhas de pesquisa e metodolgica devido natureza complexa da informao em
sade e dos novos desafios (Peek 2013).
De fato, a adoo de sistemas de gesto empresarial (enterprise resource
planning ERP) em organizaes nos ltimos 25 anos, e mais recentemente em
organizaes provedoras de sade, veio acompanhada de um enorme aumento na
quantidade de dados produzidos e disponveis para anlise (Bendoly 2003). No
entanto, a relevncia desses dados comumente definida a partir da examinao de
mltiplos problemas simultaneamente e da habilidade de gerar inferncias crticas a
um plano estratgico (Berry e Linoff 1997). Os benefcios contribuem para a
inteligncia organizacional e subsequentemente vantagem competitiva global do
negcio (Francis 1997). Portanto, o desafio encontrado pela organizao, e pelos
analistas responsveis por manipular tais dados, est em sua habilidade em converter
as estratgias decorrentes da anlise dos dados em economia de esforo, tempo e
dinheiro. Um dos problemas fundamentais da extrao da informao que os
formatos das fontes de dados disponveis so frequentemente incompatveis,
requerendo um grande esforo de converso (Bendoly 2003).
Do ponto de vista da gesto do conhecimento, os processos de minerao de
dados possibilitam a criao de uma informao bem-definida, transfervel. Em
contraste, os processos de descoberta de conhecimento so caracterizados pela

recuperao de dados, limpeza de dados, especificao de critrios e anlise de


desempenho. Processos de KDD aglomeram informao inerente da organizao por
meio de aplicao de tcnicas como minerao de dados para a gerao de domnios
de conhecimento. Bendoly (2003) apresenta um quadro hierrquico, na Figura 1, das
relaes entre diferentes conceitos. Estes conceitos se tornam mais complexos a
medida em que aumenta a dependncia dos domnios de conhecimento envolvidos
para sua organizao.

Figura 1 - Descrio hierrquica do conceito descoberta de conhecimento e dos


conceitos relacionados (Bendoly 2003).

Uma aplicao especfica de KDD pode ter diferentes objetivos, por exemplo,
aqueles derivados das relaes de dependncia dos dados, desenvolvimento de
previses e classificao. O produto final pode ser uma juno de tais informaes,
organizado em um formato que pode ser aplicado como conhecimento relevante para
planejar uma atividade. No entanto, quando o processo de KDD possibilita oferecer
uma ferramenta de anlise, em qualquer ponto de iterao, seu resultado se torna
aplicvel e geralmente com impacto direto. Neste caso, ferramentas de minerao de
dados acabam se apresentando como uma soluo superior, com impacto imediato
nos objetivos definidos para sua aplicao. A maior parte da literatura de KDD tem
apresentado foco maior, portanto, na avaliao da eficincia de ferramentas e
algoritmos (Bendoly 2003).

1.2. Organizao do Documento


Este documento est organizado de acordo com os 3 eixos das pesquisas realizadas
pelo autor junto ao grupo Sade 360. Em cada captulo so apresentados os
conceitos subjacentes s pesquisas ali descritas, os temas que nortearam trabalhos
de ps-graduao realizados e resultados relevantes da literatura. Para facilidade do
leitor as referncias de cada captulo so apresentadas no prprio captulo.
O

Captulo

(pg.

11)

apresenta

estudos

que

foram

realizados

especificamente sobre a rea de informtica em sade. So apresentados os


trabalhos:

Epistemologia da informtica em sade (pg. 12): apresenta um estudo


epistemolgico sobre a rea, incluindo uma anlise estatstica de termos
provenientes de artigos cientficos em ingls e uma pesquisa de opinio com
profissionais-chave. Este estudo possibilitou construir um tesauro, EpistemIS,
que representa a terminologia da rea, e apresenta listas de subreas
utilizadas;

Classificao de artigos cientficos da informtica em sade (pg. 33):


apresenta experincia de criar um mtodo de classificao e indexao de
artigos e revistas do Portal ISI Web of Knowledge, gerando uma proposio de
reclassificao mais adequada s especificidades da rea de informtica em
sade; e

Rede de colaborao em informtica em sade (pg. 44): apresenta estudos e


clculos de anlise de rede social de pesquisadores da rea da informtica em
sade, explicitando seu carter interdisciplinar, a partir de currculos da
Plataforma Lattes CNPq.

O Captulo 3 (pg. 71) apresenta estudos que foram considerados no eixo de


informtica para a sade do consumidor. So apresentados os trabalhos:

Classificao de contedos sobre sade na web (pg. 72): apresenta a


construo e anlise de um classificador para contedos textuais provenientes
da web que tratam de temas de sade. Classificao de sade e no-sade e
19 categorias de temas de sade foram investigadas. A utilizao dos
Descritores em Cincias da Sade (DeCS) aprimorou resultados de
classificao, assim como a utilizao do algoritmo de indexao de artigos
Journal Descriptor Indexing (JDI) utilizado pela National Library of Medicine
(NLM), EUA. Apresenta um estudo em andamento que trata da construo de

mapa semntico de dados da sade provenientes de bases no-relacionadas


disponveis na web, e outro estudo que prope um classificador de opinies
sobre sade veiculadas em rede social baseado em anlise de sentimento,
repercusso e popularidade;

Qualidade da informao sobre sade na web (pg. 93): apresenta estudo de


critrios de adequao tica para pginas web com contedo sobre sade,
mtodos computacionais para medir esta adequao e uma avaliao da
percepo da qualidade por usurios;

Alerta de celular para adeso ao tratamento (pg. 99): apresenta 3 estudos que
conduzimos sobre o envio de mensagens de texto para o celular do paciente
com foco no aumento da adeso ao tratamento e diminuio do absentemos.
Foram investigados a adeso de pacientes portadores de HIV, junto ao Ncleo
Multidisciplinar de Patologias Infecciosas da Gestao (NUPAIG), UNIFESP, e
o impacto clnico em pacientes com disfuno temporomandibular (DTM), junto
ao Ambulatrio de DTM da UNIFESP.

O Captulo 4 (pg. 127) apresenta estudos que foram considerados no eixo de


sistemas de apoio a deciso em sade. So apresentados os trabalhos:

Diagnstico de doena celaca (pg. 129): apresenta um estudo sobre a


construo e avaliao de um classificador de pacientes com doena celaca
(alergia a glten) com indicao de bipsia, junto ao Ambulatrio de
Gastropediatria do Departamento de Pediatria da UNIFESP;

Classificao em transplante renal (pg. 142): apresenta um estudo sobre a


construo e avaliao de um classificador de pacientes ps-transplantados
renais quanto presena de nefrotoxicidade ou de rejeio celular, junto
Casa de Sade Santa Efignia, Caruaru PE;

Classificao da maturao ssea para ortodontia (pg. 149): apresenta um


estudo sobre a construo e avaliao de um classificador de maturao
vertebral cervical para a ortodontia, junto ao Departamento de Odontologia da
UNIP;

Minerao de texto de laudos de bipsia renal (pg. 156): apresenta 2 estudos


sobre a minerao de texto de laudos de bipsia renal, com a construo de
uma taxonomia e anlise de agrupamento de laudos, junto ao Servio de
Patologia do Hospital do Rim de Hipertenso, UNIFESP.

O Captulo 5 (pg. 183) apresenta estudos que foram considerados no eixo de


informtica para a gesto em sade. So apresentados os trabalhos:

Anlise de agrupamentos em epidemiologia (pg. 184): apresenta um estudo


de organizao e clusterizao de dados longitudinais de idosos atendidos nos
ambulatrios da UNIFESP como coorte do projeto Epidoso;

Classificao de internaes hospitalares (pg. 196): apresenta um estudo


sobre classificao e anlise de homogeneidade de altas de internao
hospitalar (AIH) da regio de Ribeiro Preto, junto ao Centro de
Processamento de Dados Hospitalares da USP;

Conformidade de sistemas a normas e recomendaes (pg. 207): apresenta


um estudo realizado junto a hospitais da grande So Paulo quanto
conformidade de seus sistemas de informao a normas e recomendaes
preconizadas na rea de informtica em sade. Um novo estudo est em
desenvolvimento para aprimorar a avaliao de adequao por meio de uma
anlise de agrupamentos dos requisitos de normas publicadas e com validao
de especialistas;

Avaliao de programas de telessade (pg. 218): apresenta um estudo


realizado junto Rede Universitria de Telemedicina (RUTE) para avaliar a
evoluo das atividades de telessade em 72 unidades considerando eixos de
educao, assistncia, pesquisa multicntrica, impacto social e pesquisa,
desenvolvimento e inovao.
Ao final de cada cpitulo apresentamos uma sntese e os principais

desdobramentos e impactos das pesquisas.


O Captulo 6 (pg. 238) apresenta comentrios finais sobre os estudos
descritos neste documento e os prximos passos de investigao no grupo de
pesquisa.

1.3. Referncias

AMIA. American Medical Informatics Association. The science of informatics.


Bethesda: AMIA, 2013. Last updated: 2013. [cited 2013 Oct 20]. Available
from: http://www.amia.org/about-amia/science-informatics.
Bendoly E. Theory and support for process frameworks of knowledge Discovery and
data mining from ERP systems. Information & Management. 2003;40:639-647.

Berner ES, Houston TK, Ray MN, Allison JJ, Heudebert GR, Chatham WW, et al.
Improving ambulatory prescribing safety with a handheld decision support
system:

randomized

controlled

trial.

Am

Med

Inform

Assoc.

2006;13(2):171-9.
Berners-Lee T, Chen Y, Chilton L, Connolly D, Dhanaraj R, Hollenbach J, Lerer A,
Sheets D. Tabulator: exploring and analyzing linked data on the Semantic
Web. In Proceedings of the 3rd international semantic web user interaction
workshop, Georgia, USA, 2006 November 6.
Berry MJA, Linoff G. Data Mining Techniques for Marketing, Sales, and Customer
Support, Wiley, New York, 1997.
Brasil. Lei no. 12.527, de 18 de novembro de 2011 [Internet]. 2011 [citado 15 de
outubro de 2013]. Disponvel em: http://www.presidencia.gov.br/ccivil_03/
_Ato2011-2014/2011/Lei/L12527.htm.
Chakrabarti S, Ester M, Fayyad U, Gehrke J, Han J, Morishita S, Piatetsky-Shapiro G,
Wang W. Data Mining Curriculum: A Proposal (Version 1.0). Intensive
Working Group of ACM SIGKDD Curriculum Committee. 2006 Apr 30. [cited
2013 Oct 20] Available from: http://www.kdd.org/sites/default/files/CURMay06
.pdf
Denekamp Y. Clinical decision support systems for addressing information needs of
physicians. Isr Med Assoc J. 2007;9(11):771-6.
Dietrich D, Gray J, McNamara T, Poikola A, Pollock R, Tait J, et al. Guia de Dados
Abertos - Open Data Handbook [Internet]. Open Data Handbook. [citado 10 de
outubro de 2013]. Available from: http://opendatahandbook.org/pt_BR.
Fayyad UM, Piatetsky-Shapiro G, Smyth P. From data mining to knowledge discovery:
an overview, in: Fayyad UM, et al. (Eds.), Knowledge Discovery in Databases,
The AAI Press, Menlo Park, CA, 1996, pp. 131.
Francis DB. Your competitors: who will they be? Competitive Intelligence Review 8,
1997, pp. 1623.
IMIA. International Medical Informatics Association. MedInfo 2013. Last updated: 2012.
[cited 2013 Oct 20]. Available from: http://www.medinfo2013.dk/node/13.
KDD [Internet]. Sig KDD: bringing together the data mining, data science and analytics
community. [cited 2013 Oct 15]. Available from: http://www.kdd.org.
Kulikowski CA, Shortliffe EH, Currie LM, Elkin PL, Hunter LE, Johnson TR, Kalet IJ,
Lenert LA, Musen MA, Ozbolt JG, Smith JW, Tarczy-Hornoch PZ, Williamson
JJ. AMIA Board white paper: definition of biomedical informatics and
specification of core competencies for graduate education in the discipline. J
Am Med Inform Assoc 2012;19:931-938 doi:10.1136/amiajnl-2012-001053.

10

Marin HF, Sigulem D. Informtica em sade: oportunidade em busca de melhor


qualidade em sade. Journal of Health Informatics. 2009; 1:4-5.
Musen MA, Shahar Y, Shortliffe EH. Clinical decision-support systems. In: Shortliffe
EH, Cimino JJ. Biomedical Informatics: Computer Applications in Health Care
and Biomedicine. 3a ed. New York: Springer; 2006. p. 698-736.
Peek N. Big data Analytics in Biomedicine and Health: Trends and Challenges. Panel
on Trends. In: Medinfo 2013 14th World Congress on Medical and Health
Informatics, Copenhage Denmark.
Shortliffe EH, Cimino JJ. Biomedical Informatics: Computer Applications in Health Care
and Biomedicine. Springer; 2006.
Shortliffe EH. Medical informatics meets medical education. JAMA 1995;273(13):1061,
1064-5.
Sigulem, D. Um novo paradigma de aprendizado na prtica mdica da UNIFESP/EPM.
So Paulo. Tese [livre-docncia] - Universidade Federal de So Paulo/Escola
Paulista de Medicina. 1997.
SWEO Linking Open Data community project. 2006. [cited 2013 Oct 20] Available from:
http://linkeddata.jiscpress.org/sweo-linking-open-data-community-project/.

11

2.

ESTUDOS SOBRE A REA DE INFORMTICA EM

SADE
A informtica em sade surgiu como uma aplicao da informtica medicina.
Shortliffe (1995) explica que o surgimento da rea ocorreu por 3 motivos principais: 1)
devido aos avanos da computao e das tecnologias de informao e comunicao;
2) conscincia crescente de que a base de conhecimento da medicina e das demais
reas da sade no pode ser gerenciada apenas em suporte papel; 3) convico de
que o processo de tomada de deciso to importante para a medicina quanto a
coleo de fatos nos quais estas decises so baseadas, e que ambos podem ser
otimizados com o auxlio da informtica. Shortliffe descreveu uma necessidade da
implantao de setores de tecnologia nas escolas mdicas, ao que tem se tornado
uma realidade cada vez mais comum em todo o mundo. Nas ltimas dcadas a
informtica mdica foi ampliando seu escopo para alm da medicina, atrelando-se
necessidade de organizao do conhecimento e da pesquisa em cincias da sade.
Mais que isso, seu escopo inclui a idia de otimizar processos relacionados s prticas
dessas cincias, por meio das tecnologias da informao e comunicao, fomentando
projetos multidisciplinares envolvendo informtica e cincias da sade. Tais fatos
justificaram denomin-la informtica em sade.
Nos dias de hoje o processamento de informao e de comunicao tornou-se
essencial para muitas atividades em cincias da sade, incluindo: registro e
recuperao de informao sobre pacientes; comunicao entre profissionais de
sade; acesso literatura mdica; seleo de procedimentos diagnsticos;
interpretao de resultados de laboratrio e coleo de dados clnicos (Georgiou
2002). A rea vem se tornando essencial na pesquisa em cincias da sade e, mais
recentemente, nas pesquisas biolgicas. Com isto, a informtica em sade vem se
estabelecendo e se consolidando como uma rea de conhecimento independente.
A informtica em sade uma disciplina que envolve diversas reas do
conhecimento, tanto cientficas, quanto tecnolgicas e at mesmo artsticas, e vem
sendo considerada de importncia primordial para os avanos das cincias da sade e
da informtica em todo o mundo. Esta importncia foi enfatizada por Parent et al.
(2001) ao afirmar, na dcada passada, que a globalizao efetiva ainda estava em
curso de se concretizar porque ainda no existia uma distribuio eqitativa do uso
das tecnologias da informao. Essa realidade vlida nos dias de hoje. Parent et al.
propuseram aes para melhorar essa realidade no mbito da sade global que

12

envolvem essencialmente a informtica em sade, tais como a implantao cada vez


mais ampla de sistemas de informao em sade na internet, a descentralizao da
avaliao da dados em sade e o treinamento em informtica em sade.
Este

captulo apresenta 3

temas

que representam

um esforo

de

desenvolvimento cientfico e tecnolgico na rea da informtica em sade:


1. estudos epistemolgicos da informtica em sade que incluem uma anlise
estatstica de termos em artigos publicados no PubMed (ncbi.nlm.nih.gov/pubmed),
um estudo epistemolgico propriamente, e uma pesquisa de opinio com
especialistas;
2. investigao sobre os processos de classificao e indexao de artigos cientficos
do Portal ISI Web of Knowledge (wokinfo.com) na rea de informtica em sade; e
3. anlise de uma rede de colaborao entre pesquisadores e profissionais da rea
de informtica em sade a partir dos currculos da Plataforma Lattes CNPq
(lattes.cnpq.br).
Nosso objetivo ao realizar estes estudos no grupo de pesquisa foi buscar
compreender as nomenclaturas que so utilizadas na literatura ou em reunies
cientficas, propor um mecanismo de classificao de revistas e indexao de artigos
que respeite tais nomenclaturas e, por fim, buscar compreender como est ocorrendo
o desenvolvimento da rea da informtica em sade no Brasil a partir da anlise de
rede social.
As sees apresentam literatura da rea, expondo resultados significativos,
suas tcnicas e abordagens, e acompanha uma descrio resumida dos estudos
realizados

pelo

pesquisador

nos

temas

relacionados.

Esto

indicados

os

colaboradores que atuaram nos estudos aqui apresentados.

2.1. Epistemologia da Informtica em Sade

Colaboraram com estes estudos


Eliane Colepcolo, Alex Esteves Jaccoud Falco,
Thiago Martini da Costa, Anderson Diniz Hummel,
Fbio Oliveira Teixeira, Felipe Mancini
A evoluo da rea da informtica em sade acarreta fenmenos similares aos que
ocorrem em outras reas da cincia, mais maduras. Uma delas sobre sua prpria

13

natureza, no havendo um consenso a respeito do que ela como disciplina: uma


cincia, uma tecnologia, uma arte? Talvez uma integrao de tudo isso ou talvez no.
As discusses ocorrem concomitantemente ao crescimento da prpria rea, mas
poucas respostas so conclusivas, por serem em geral baseadas mais em opinies do
que em pesquisas propriamente ditas. Portanto, parece importante termos avaliaes
panormicas do campo para colaborar com a formao de estudantes, profissionais e
pesquisadores das cincias da sade para esta nova realidade, na qual os
computadores so amplamente utilizados no apoio ao cuidado do paciente, na
avaliao da qualidade do cuidado em sade, na tomada de deciso, administrao,
planejamento e pesquisa em sade (Van Bemmel 1999).
A rea que se ocupa da anlise panormica de uma disciplina do
conhecimento a epistemologia, que um dos ramos da filosofia da cincia. Logo,
estudar a epistemologia da informtica em sade buscar compreender de forma
ampla o seu arcabouo de conceitos, mtodos, tcnicas e seu comportamento como
arte, cincia, tecnologia ou tecnocincia. Na literatura tcnico-cientfica relativa
informtica em sade encontram-se poucos estudos epistemolgicos sobre a rea que
apresentem um corpo slido de conhecimento que possibilite qualific-la como uma
cincia com teoria, mtodos e tcnicas estabelecidos, seja ela bsica ou aplicada.
Mais que estudos epistemolgicos, poucos so os estudos baseados em tcnicas
estatsticas que comprovem ou refutem a epistemologia da informtica em sade.
Ainda, um estudo terico e prtico sobre a epistemologia da informtica em sade
torna-se til para que instituies de ensino e pesquisa em informtica em sade
tenham mais subsdios e critrios para elaborar seus planos curriculares, para
desenvolver suas pesquisas e para publicar seus resultados.
O estudo e uso de terminologias tm trazido importantes avanos para reas
interdisciplinares informtica em sade, tais como inteligncia artificial, minerao de
dados, minerao de textos, busca e recuperao de informao, entre outras reas
da computao, amplamente utilizadas em aplicaes para as cincias (Ebecken
2003).
Como tipos de terminologias podemos citar vocabulrios controlados,
cabealhos de assuntos, ontologias e tesauros, que tm por objetivo a indexao,
classificao, busca e recuperao de documentos, a partir de processos de anlise e
sntese.
Os tesauros, mais sofisticados que vocabulrios controlados e cabealhos de
assuntos, apresentam controle persistente e relaes de vrios tipos entre os termos.
Por isso mesmo, os tesauros vm ganhando cada vez mais espao como instrumento
de indexao e classificao de informao, em substituio aos vocabulrios

14

controlados e cabealhos de assunto. Isto porque apresentam, alm das relaes


hierrquicas entre os termos, relaes de equivalncia e de associao, definies
conceituais e uma srie de outras informaes importantes sobre os termos que o
compem. Com isto, a rede de relacionamentos entre os termos que no fazem parte
de uma mesma hierarquia se torna mais rica e sofisticada, o que pode refletir nas
estratgias de formulao da pesquisa e tambm nos resultados da busca por
informao a partir de um termo do tesauro.
Um tesauro pode ser definido como um vocabulrio controlado que representa
hierarquias, relaes de equivalncia, pertinncia e associaes entre os termos, com
objetivo de auxiliar o usurio potencial a encontrar a informao de que necessita com
a menor margem de erro possvel (Ebecken 2003). Os termos de um tesauro podem
ser compostos por uma nica palavra ou por vrias palavras, formando um termo
composto. Os termos de um tesauro so comumente denominados termos descritores,
que Lancaster (1972) define como termos atribudos por um indexador a um
documento para descrever seu assunto. As relaes hierrquicas de um tesauro so
as relaes de ordenao entre os termos, ou seja, a superordenao (acima de), a
subordinao (abaixo de) e a coordenao (na mesma ordem, igual a). As relaes de
equivalncia envolvem o estudo e delimitao de termos diferentes com um mesmo
significado e termos idnticos com significados diferentes, entre outras relaes de
equivalncia entre termos j estabelecidos pela gramtica das lnguas, ou seja,
sinnimos, antnimos, parnimos e homnimos. Junto s relaes de equivalncia
so estabelecidas as relaes de pertinncia, que envolvem o estabelecimento de um
termo padro, com conceito e escopo bem definidos. Desta forma, fica institudo que o
termo padro ser pertinente e seus sinnimos proibidos. Isto no impede a pesquisa
por sinnimos, porque remete o usurio, ao utilizar um termo proibido, ao termo
permitido. As relaes associativas entre termos de um tesauro so aquelas que no
se enquadram nas relaes hierrquicas, nem nas de pertinncia ou equivalncia e
ainda assim, permanecem e so importantes para a recuperao da informao.
Tesauro para Modelagem de Domnios
O tesauro surge como uma alternativa para resolver estes problemas caractersticos
do uso da linguagem natural, mapeando, por exemplo, os termos que representam o
mesmo conceito, selecionando um termo apenas como padro e os restantes como
sinnimos, alm de estabelecer relaes entre estes termos e outros a estes
relacionados. O tesauro pode ainda representar a riqueza dos relacionamentos
associativos e hierrquicos de tal maneira que usurios possam limitar suas pesquisas

15

a nveis de especificidade mais restritos ou mais amplos do que aqueles usados pelo
indexador, melhorando os resultados da busca. Alm disso, tcnicas e ferramentas da
minerao de textos em estudo na inteligncia artificial e na lingstica computacional
vm utilizando tesauros como instrumentos para modelagem de domnios especficos
e para extrao automtica de informao, a partir de conjuntos de textos (corpus) que
resultam numa srie de aplicaes, por exemplo, para indexao
Um tesauro pode ser considerado como uma linguagem para modelagem de
domnio, ou seja, uma linguagem especializada que abrange a maioria dos conceitos e
relaes conceituais de uma rea especfica, podendo ser utilizada como instrumento
para uma srie de aplicaes na rea. Um dos principais objetivos de uma linguagem
especializada estabelecer limites de abrangncia conceitual do domnio, assim como
eliminar a ambiguidade dos conceitos, dando maior coerncia e consistncia ao
conhecimento do domnio. Tanto o desenvolvimento de linguagens especializadas
contribui para a reduo da ambiguidade, quanto a reduo da ambiguidade promove
o desenvolvimento de linguagens especializadas e ambas contribuem para a
formalizao do conhecimento de um domnio. Maas et al. (2001) afirmam que o
caminho para a maturidade cientfica da informtica em sade (medical informatics)
a formalizao do conhecimento pertinente ao domnio. Ressaltam que o
desenvolvimento de linguagens para modelagem de domnios especficos das cincias
da sade essencial ao desenvolvimento da informtica em sade, tal como ocorre
em reas como a de sistemas de informao, na qual as linguagens de modelagem de
domnios so utilizadas como fundamento do sistema de informao daquele domnio.
Se a informtica em sade considerada um tema do escopo da cincia da
informao, questes relacionadas a remover a ambiguidade da informao mdica
fazem parte de seus assuntos centrais. Logo, a informtica em sade como cincia
deve buscar respostas no ambguas s questes do seu domnio, do contrrio faltar
a esta disciplina uma fundamentao terica adequada que a eleve ao status de uma
cincia (Maas et al. 2001).

Pesquisas Realizadas

Considerando a importncia na realizao de pesquisas tericas sobre a


epistemologia da informtica em sade, tivemos interesse em compreender a rea sob
abordagens terica e prtica, a partir de 3 estudos complementares: um estudo
epistemolgico, um estudo terminolgico e um estudo estatstico. O objetivo desta

16

pesquisa foi aplicar um conjunto de mtodos e tcnicas integrados para efetuar um


estudo epistemolgico da informtica em sade e analisar a tendncia desta rea do
conhecimento para a cincia, tecnologia, tecnocincia ou arte, a partir de um
referencial terico embasado na epistemologia de Bunge (1969). Considerando o
tesauro como instrumento de sistematizao de um domnio do conhecimento, podese compreender o motivo pelo qual o tesauro vem sendo to valorizado e utilizado em
detrimento de terminologias mais simples como os cabealhos de assuntos. Por isto
decidimos neste trabalho transformar o Medical Subject Headings (MeSH) (NLM 2005)
(nlm.nih.gov/mesh) em um tesauro e, a partir deste, desenvolver um tesauro
especializado em informtica em sade, o qual denominamos EpistemIS (Colepcolo
2008), disponvel na web (telemedicina6.unifesp.br/epistemis).
Este estudo foi realizado no grupo de pesquisa Sade 360 junto ao Programa
de Ps-graduao em Informtica em Sade, EPM, UNIFESP. A pesquisa foi
conduzida como um projeto de mestrado por Eliane Colepcolo, intitulado
Epistemologia da Informtica em Sade: entre a teoria e a prtica, cujo foco
concentrou-se na integrao das anlises epistemolgica, estatsticas e de opinio.
Contou com o apoio de Alex Esteves Jaccoud Falco, Fbio Oliveira Teixeira e Felipe
Mancini. Este trabalho contou tambm com apoio de Adalberto Tardelli, BIREME. Foi
realizado no perodo de 2006 a 2008.
O MeSH um instrumento terminolgico largamente utilizado, cujo domnio de
estudo e atuao est delimitado s cincias da sade. O MeSH um cabealho de
assunto especializado em cincias da sade, desenvolvido, publicado e disponvel
online na internet pela U.S. National Library of Medicine (nlm.nih.gov), EUA, tendo
como idioma principal o ingls. atualizado dinamicamente por especialistas de vrias
reas do conhecimento. No MeSH um descritor representa uma classe de conceitos,
enquanto um conceito representa uma classe de sinnimos. A sua organizao se d
em 16 categorias de assuntos, sendo que cada uma se divide em subcategorias, nas
quais os descritores subordinados so organizados hierarquicamente numa relao do
mais genrico para o mais especfico.
Os principais usos do MeSH so a indexao de artigos, a classificao de
itens de informao e a pesquisa em bancos de dados de literatura cientfica em
sade, que tenham sido indexados pelo MeSH. A terminologia MeSH oferece um
modo consistente para recuperar informao permitindo o uso de diferentes
terminologias para os mesmos conceitos. Possivelmente a maior aplicao do MeSH
reside na base de dados de literatura em sade MEDLINE (NLM/NIH/NBCI 2007),
indexada pelo MeSH, que contm mais de 16 milhes de registros indexados com taxa

17

de crescimento de 500.000 artigos/ano, cobrindo aproximadamente 4.600 revistas


biomdicas internacionais.
Estatstica de Termos de Artigos PubMed
O processo como um todo se iniciou com um estudo estatstico, cujo objetivo foi
analisar o corpus de anlise composto de metadados de 437.289 artigos cientficos
provenientes da literatura tcnico-cientfica em informtica em sade, extrados da
base PubMed. Utilizando tcnicas de minerao de textos e o software PreText
(Matsubara 2005) foram extrados os ngramas dos resumos dos artigos. Os
metadados dos artigos foram utilizados, aps os estudos terminolgico e
epistemolgico, para o clculo de estatsticas relativas epistemologia da informtica
em sade.
Em seguida, o estudo terminolgico envolveu a modelagem dos dados e a
transformao do cabealho de assunto MeSH em tesauro. A extrao de conceitos a
partir da literatura tcnico-cientfica associada aos termos MeSH relativos informtica
em sade formaram as bases para o desenvolvimento do tesauro EpistemIS. A
criao de ngramas dos termos do tesauro EpistemIS, usando algoritmo stemming de
Porter (2006), possibilitou o relacionamento entre termos do corpus e termos
EpistemIS.
Por fim, o estudo epistemolgico se iniciou na reviso de literatura em
epistemologia para caracterizao e distino entre os metaconceitos da ao e
pensamento humanos (MAPHs), que so arte, tcnica, cincia, tecnologia e
tecnocincia. O estudo continuou com a apresentao do referencial tericometodolgico, baseado nas obras de Mrio Bunge (1969, 1980, 1987). A partir deste
referencial foi criado um mtodo para classificao epistemolgica dos termos
EpistemIS. O estudo foi finalizado com a reviso de literatura em informtica em sade
para apresentao de um estudo terico e epistemolgico da rea, que contribuiu com
a sistematizao do conhecimento (mapa de conhecimento) da informtica em sade
e com a classificao de suas subreas em MAPHs.
Por meio deste estudo foi possvel inferir as principais reas que compem a
informtica em sade. Fundamentalmente a informtica em sade abrange 2 tipos de
conhecimento:

a base especfica, formada por conhecimento obtido de outras reas:


o

cincias comportamentais,

cincias naturais,

cincias biolgicas,

18

cincias da informao;

o corpo de conhecimento, formado por conhecimento obtido na prpria


rea:
o

informtica biomdica, que aplicada tanto s cincias da sade


quanto s cincias da vida ou cincias biolgicas,

informtica mdica, aplicada medicina,

informtica em enfermagem, aplicada enfermagem,

informtica odontolgica, aplicada odontologia,

informtica aplicada a todas as outras cincias da sade no


especificadas.

Tesauro EpistemIS
O tesauro EpistemIS construdo contm 730 termos, sendo 110 provenientes do
MeSH e 620 obtidos da literatura tcnico-cientfica em informtica em sade. Os
termos contidos (Tabela 5) fazem parte, em sua maioria, da rea de cincias da
informao (76%), seguido por cincias biolgicas (8%) e cincias comportamentais
(8%), havendo uma pequena minoria da rea de cincias humanas (2%). A pequena
porcentagem de termos na rea de cuidado em sade (categoria N) se justifica por ser
uma rea MeSH que abrange os seus aspectos organizacionais, educacionais e
econmicos, enquanto aspectos relativos prtica do cuidado em sade esto
alocados em cincias biolgicas.
Em relao aos MAPHs, os termos do tesauro EpistemIS obteve uma
distribuio equitativa entre tecnocincia (35%), tecnologia (28%) e cincia (31%).
Tambm consideramos lgico que seja mnima a quantidade de termos classificados
como arte (6%), j que h um esforo da informtica em sade em comportar-se como
cincia e tecnologia, afastando-se da subjetividade, sendo o mais objetiva possvel.

Tabela 1 Tesauro EpistemIS. Distribuio de termos nas reas de conhecimento e


categoria MeSH (Colepicolo 2008).

19

Publicaes no PubMed
De um total de 437.289 artigos analisados, somente 231.416 (53%) estavam
relacionados aos MAPHs, porm se consideramos o total de artigos que tm autores
coletivos, temos somente 7.538 artigos escritos por autores coletivos. Entre estes,
apenas 5.200 (69%) tm relao com o tesauro EpistemIS, ou seja, tm relao com a
informtica em sade. Identificamos os autores individuais que mais publicaram
artigos que contm ngramas do tesauro EpistemIS, ou seja, os mais representativos
em informtica em sade. Esta contagem foi realizada por autor individual com
repetio na base indexada. Foi possvel observar que o aspecto cientfico dos
registros de artigos publicados pelos autores individuais dominante (2.292.569),
seguido pelo tecnolgico (430.906) e tecnocientfico (218.008), com uma pequena
quantidade de artigos sobre o aspecto artstico (110.543).
Ao analisar o top 20 do ranking gerado dos autores que mais publicam em
informtica em sade, incluindo origem, vnculo institucional e perfil desses autores, foi
possvel observar as reas de atuao e inferir interesse e motivos que os levam a
publicar em informtica em sade. Observamos que a maioria destes autores, em
2008, atuava no Channing Laboratory, que uma diviso de pesquisa multidisciplinar
do

Brigham

and

Women's

Hospital

da

Harvard

Medical

School

(brighamandwomens.org). As reas principais de pesquisa desta instituio, na poca,


eram bacteriologia, epidemiologia de doenas crnicas e virologia. A integrao de
uma das mais notrias universidades do mundo com uma instituio de cuidado em
sade no desenvolvimento de pesquisas cientficas e tecnolgicas para aplicao na
sade denota mais uma vez o carter tecnocientfico da informtica em sade. O autor
Walter C. Willett, o primeiro do ranking, era um importante cientista e docente do
Departamento de Nutrio da Harvard School of Public Health nas reas de nutrio e
epidemiologia. Tambm atuava no Channing Laboratory, sendo apontado inclusive
como um dos autores mais citados do ISI (Thomson ISI 2002), na poca, com mais de
600 artigos publicados, sendo mais de 400 destes indexados na base PubMed. Outros
autores do ranking, tais como Graham A. Colditz, Meir J. Stampfer, Susan E.
Hankinson, Frank B. Hu, Eric B. Rimm, Nader Rifai e David J. Hunter tm perfil
semelhante ao de Willet como membros de alguma diviso da Harvard School. O autor
Lex M Bouter atuava no EMGO Institute for Health and Care Research (EMGO+)
(emgo.nl), um instituto de pesquisa da VU University Medical Center Amsterdam,
especializado em ateno primria e sade pblica, com nfase em doenas crnicas.
Ronald Klein integra o Department of Ophthalmology and Visual Sciences da
University of Wisconsin-Madison, EUA (ophth.wisc.edu) e desenvolve pesquisas

20

relacionadas epidemiologia em doenas oftlmicas, tais como catarata e retinopatia


por diabete.
Observando o ranking das 20 instituies que mais publicam como autor
coletivo temos que a maioria de grupos de pesquisa ou de trabalho das reas de
controle e preveno de doenas (1.519), cincias da sade e farmacuticas em geral
(241), oncologia (107), cardiologia (103), sade materno-infantil (100), cuidado em
sade (93). O Centro de Controle e Preveno de Doenas (CDC), EUA, publicou
mais artigos em cincia (1.099), mas tambm em tecnocincia (125), tecnologia (107)
e em arte (46).
Quanto aos peridicos, a maioria dos registros relacionados informtica em
sade privilegia artigos cientficos (407.231; 76%), e com muito menos nfase tambm
publicam artigos tecnolgicos (71.360; 13%), tecnocientficos (38.758; 7%) e artsticos
(19.004; 4%). O ranking geral nos permite observar que o peridico que mais
publicava artigos relativos informtica em sade, na poca, o The Journal of
Biological Chemistry (jbc.org), especializado em bioqumica, seguido por uma srie de
peridicos especializados em radiologia, microbiologia, neurocincias, controle e
preveno de doenas e gentica. marcante a presena de peridicos de
especialidades mdicas tais como oncologia, pediatria, endocrinologia, cardiologia e
gastroenterologia publicando artigos classificados como informtica em sade. Entre
os peridicos especializados em informtica em sade, temos o Bioinformatics
(Oxford, England) e o BMC Bioinformatics, ambos com foco em bioinformtica, que
constaram como mais representativos do corpo de conhecimento da informtica em
sade no ranking gerado.
A Figura 2 apresenta dados parciais das publicaes da rea de informtica
em sade, mostrando um incremento na publicao de artigos classificados como
cientficos por meio do EpistemIS. Em 1999, os Proceedings do AMIA Annual
Symposium eram os mais representativos (590) com publicaes relativas ao aspecto
cientfico da informtica em sade. Porm, de maneira geral a maioria dos artigos
publicados neste ano relativa pesquisa em informtica em sade para
especialidades mdicas (2.732) tais como oncologia, cardiologia, endocrinologia e
pneumologia. Outros temas importantes j em 1999 so bioqumica (911),
neurocincias (605), epidemiologia (552), microbiologia (351), medicina nuclear (284)
e radiologia (260). Nos anos de 2003 e 2004 mantm a 1 e 2 posies do ranking os
peridicos The Journal of Biological Chemistry e Pediatrics, respectivamente. Tambm
ocorre um crescimento de publicaes especializadas em informtica em sade em
2003 devido ao AMIA Annual Symposium (921) e ao Bioinformatics (Oxford, England)
(968), que expandiu sua produo cientfica em 2004 (1.310), chegando ao seu pice

21

em 2005 com 2.301 artigos em cincia. At ento foi o peridico mais representativo
em informtica em sade, no perodo estudado.

Figura 2 Contagem de artigos PubMed da rea de informtica em sade publicados no


perodo 1998-2005 de acordo com classificao EpistemIS (Colepcolo 2008).

A partir dos resultados obtidos foi possvel observar que a evoluo da


literatura em informtica em sade privilegia o seu aspecto cientfico, ainda que a
origem do conhecimento cientfico da rea seja proveniente de outras cincias e que a
aplicao desses conhecimentos tambm se destina a outras reas. A produo
cientifica da informtica em sade esteve voltada, para o perodo analisado, para 6
reas principais: bioqumica, microbiologia, especialidades mdicas, radiologia,
gentica e, mais recentemente, sade pblica. A tendncia para a aplicao da
informtica s cincias biolgicas vem crescendo nos ltimos anos, levando a uma
consolidao da bioinformtica, sem, no entanto, afastar-se das cincias da sade e
especialidades mdicas.
Pesquisa de Opinio
Uma pesquisa de opinio (Colepcolo 2008) com 32 especialistas da rea apontou que
mais da metade considera a informtica em sade derivada tanto da informtica
(58%), quanto das cincias da sade (63%). Apenas 50% consideram a informtica
em sade uma tecnologia, enquanto 75% a consideram uma cincia e 83% uma
integrao entre cincia e tecnologia, ou seja, uma tecnocincia, o que vai ao encontro

22

aos resultados do estudo epistemolgico. Ainda, quanto atuao em informtica em


sade, 83% consideram-se pesquisadores, 65% consideram-se desenvolvedores,
enquanto 55% so educadores, havendo sobreposio de papis, o que reflete mais
uma vez o carter tecnocientfico da rea.
Em relao nomenclatura da rea, poucos (10%) entendem informtica em
sade como sinnimo de informtica mdica ou de telemedicina/telessade (15%). Um
dos respondentes afirma, tal como observamos no estudo epistemolgico, que a
informtica em sade (health informatics) o termo mais inclusivo, mas o termo
informtica biomdica (biomedical informatics) vem ganhando ateno; a telessade
mais ampla que a telemedicina e ambas fazem parte da informtica em sade. Alguns
respondentes apontaram outros sinnimos para a informtica em sade, tais como
bioinformtica, cincia da computao aplicada a sade, biotecnologia, eSade,
informtica no cuidado em sade (healthcare informatics), informtica biomdica
(biomedical informatics) ou informtica em biomedicina, e tecnologia de informao em
sade.
Foi solicitado aos respondentes que definissem a informtica em sade com
suas prprias palavras e foi interessante observar que boa parte deles se refere
informtica em sade como uma aplicao (32,5%) ou uso de ferramentas da
informtica (17,5%), ou de recursos da computao (15%) rea da sade (22,5%) ou
aos servios em sade (15%), o que poderia denot-la como uma tecnologia (5%).
Entretanto, 22,5% dos respondentes define a informtica em sade como uma cincia
baseada na cincia da computao (10%) que lida com a pesquisa e desenvolvimento
em medicina (10%). Alguns citaram ainda a relao da informtica em sade com a
educao e pesquisa em sade (7,5%). Poucos respondentes (2,5%) citaram aspectos
da rea relacionados promoo da sade, prtica mdica e ao auxlio aos
profissionais em sade para melhorar sua eficincia, eficcia e produtividade,
contribuindo com a reduo de custos.
A maioria das definies pareceu tratar a informtica em sade como
integrao entre cincia e tecnologia, ou seja, tecnocincia, valendo-se de pesquisa,
desenvolvimento, aplicaes, ferramentas e recursos da informtica e cincia da
computao para auxlio pesquisa, desenvolvimento e prtica das cincias da sade.
Tecnocincia Interdisciplinar
A partir de estudo comparativo entre aspectos tericos e prticos, considerando como
etapas os estudos estatstico, terminolgico e epistemolgico, conclumos que a rea
da informtica em sade uma tecnocincia interdisciplinar que se ocupa da soluo

23

de problemas de um amplo leque de domnios e fatos das cincias da vida, das


cincias da sade e da prtica do cuidado em sade, por meio da pesquisa cientfica
proveniente de outras reas do conhecimento e do desenvolvimento de suas prprias
tecnologias para uso na sociedade.
Vale destacar que h 20 anos Greenes e Shortliffe (1990) j defendiam
argumentos de que a informtica mdica seria tanto cincia quanto tecnologia, lidando
com uma srie de atividades, como pesquisa bsica, pesquisa aplicada, engenharia,
desenvolvimento e planejamento. Yuval Shahar defendeu que a informtica mdica
mais ntima da engenharia, enquanto Van Bemmel apoiou que a informtica mdica
era uma cincia (Maojo et al. 2002). Maas et al. (2001) afirmavam em 2001 que a
informtica mdica no poderia ser considerada s como uma extenso da informtica
aplicada s cincias da sade, sem comprometimento com seu avano cientfico.
Tambm no poderia ser vista apenas como forma de solucionar problemas
tecnolgicos do cuidado sade e tornar o trabalho dos profissionais em sade mais
efetivo. Ele considerava que a criao, desenvolvimento e aperfeioamento de
mtodos e tcnicas da informtica mdica havia se tornado premente, como ocorre em
qualquer disciplina jovem, e que a aceitao deste fato deveria conduzir ao
reconhecimento de informtica mdica como um campo de estudo por seu prprio
direito. Mais que isso, que a pesquisa em informtica mdica deve contribuir com os
avanos tecnolgicos do cuidado em sade, mas o foco est muito mais no longo que
no curto prazo. No ano seguinte, Georgiou (2002) definiu a informtica mdica como a
disciplina que integra cincias biomdicas, informtica e polticas de administrao e
organizao das cincias da sade. Disse ainda que, assim como a medicina, a
informtica essencialmente heterognea e no pode escapar de estudos
metodolgicos e epistemolgicos que envolvam a prtica da medicina. Nota-se nos
dizeres de Maas et al. e Georgiou uma preocupao em estabelecer princpios e
fundamentos cientficos para a consolidao da informtica em sade.
Diferentes Nomenclaturas para Informtica em Sade
A nomenclatura utilizada para definir uma rea do conhecimento pode nos dizer muito
a respeito da sua abrangncia. No caso da informtica mdica, no h ainda um nome
consolidado mundialmente para designar a rea. Uma compreenso da evoluo da
rea pode nos fornecer algumas pistas da melhor nomenclatura para a rea, de
acordo com sua abrangncia. Shortliffe & Cimino (2006) apresentam um interessante
estudo evolutivo dos termos utilizados para denominar a rea de informtica mdica,
que norteou a elaborao desta seo.

24

Desde os anos 1960, quando se inicia a informtica em sade - denominao


utilizada neste trabalho -, as pessoas tm dvidas em relao ao nome que devem dar
a conceitos de informtica aplicada s cincias da sade e cincias da vida. O prprio
termo cincia da computao era novo nos anos 1960 e tinha uma definio vaga. O
termo cincia da computao mdica (medical computer science) se refere subdiviso da cincia da computao que aplica seus mtodos medicina. O termo
computao mdica (medical computing) inclui tpicos de estatstica mdica,
manuteno de registros e estudo da natureza da informao mdica (Shortliffe e
Cimino 2006).
O termo originalmente introduzido na Europa para a rea como um todo foi
informtica mdica (medical informatics), que tira a nfase do computador, enfatizando
o campo no qual a computao aplicada, ou seja, a medicina. O termo cincias da
informao mdica (medical information science) tem sido bastante usado nos EUA,
mas pode ser confundido com a biblioteconomia (library science) e no diz respeito
abrangncia total da rea. Alm disso, o termo informtica (informatics) foi bem aceito
nos EUA a partir dos anos 1990, tendo como consequncia a ampla aceitao do
termo informtica mdica (medical informatics) a partir do ano 2000, embora algumas
pessoas repelem o seu uso, por considerarem como um neologismo ambguo
(Shortliffe e Cimino 2006). Na ltima dcada em regies do mundo como a sia,
Europa e EUA tornou-se mais comum o uso do termo informtica mdica (medical
informatics), porque o adjetivo medical utilizado em sentido to amplo quanto health
(Sigulem 1997).
Informtica mdica (medical informatics) tambm o nome do campo usado
por Shortliffe e Cimino (2006) nas duas primeiras edies do seu livro didtico
Biomedical Informatics: Computer Applications in Health Care. O nome do livro foi
mudado de informtica mdica (medical informatics), na 1 e 2 edies, para
informtica biomdica (biomedical informatics), na 3 e atual edio por duas razes:
devido expanso da aplicao da informtica no s nas cincias da sade, mas
tambm para as cincias biolgicas, e devido ao uso do novo termo em unidades
acadmicas, sociedades, programas de pesquisa e publicaes da rea.
Porm, desde a ascenso do termo bioinformtica (bioinformatics), muitos
observadores expressaram preocupao com o adjetivo mdico, focado em mdicos e
desconsiderando a relevncia desta disciplina para outros profissionais em sade e
em cincias da vida (Shortliffe e Cimino 2006). Assim, o termo informtica em sade
(health informatics) ganhou mais popularidade, embora com a tendncia de excluir
aplicaes em biologia.

25

No Brasil, por exemplo, utiliza-se mais o termo informtica em sade (health


informatics), devido abrangncia da rea que no lida apenas com a medicina, mas
tambm com a enfermagem, a nutrio, a veterinria e odontologia, entre outras, que
so consideradas pelo Ministrio da Educao como cincias da sade. A Sociedade
Brasileira de Informtica em Sade (SBIS) (sbis.org.br) utiliza o termo mais amplo
sade ao invs de mdica.
Apesar da prevalncia do termo informtica mdica (medical informatics), nos
anos 1990 surgiram iniciativas que agregavam a aplicao da informtica nas cincias
da sade e nas cincias da vida, o que abriu espao para o uso da expresso
informtica biomdica (biomedical informatics). Em 1999, no National Institutes of
Health (NIH) (nih.gov), EUA, foram criados dois grupos de trabalho, o de computao
biomdica e o de bioinformtica, que deram maior visibilidade e expanso s
aplicaes da informtica em biologia. Desde ento, o termo informtica biomdica
(biomedical informatics) tem sido largamente aceito e pode ser entendido como o
campo que abrange todas as reas subjacentes aplicao em sade, prtica clnica
e pesquisa biomdica. Para se referir ao uso de computadores nas atividades de
informtica biomdica, usa-se para tpicos metodolgicos o termo cincia da
computao biomdica (biomedical computer science) e para descrever a atividade
em si, o termo computao biomdica (biomedical computing). Entretanto, a
informtica biomdica, que abrange as duas reas anteriores, tem outros
componentes alm da cincia da computao, que so as cincias da deciso,
estatstica, cincias cognitivas, cincias da informao e cincias da administrao.
Apesar de suas consideraes, a obra de Shortliffe & Cimino (2006) faz parte
da srie que contm pelo menos mais 12 volumes dedicados informtica em sade
(health informatics) sob vrios aspectos, inclusive, informtica odontolgica e
informtica em enfermagem. A srie comeou em 1988 com o nome Computers in
Health Care, mas em 1998 teve o nome alterado para Health Informatics Series, o que
parece indicar que existe no s uma distino entre a informtica em sade e a
informtica biomdica, mas tambm uma subordinao da informtica biomdica
informtica em sade.
Tambm existe alguma confuso entre a informtica em sade e a eSade ou
sade eletrnica (eHealth ou electronic health) (Eysenbach 2001). Pouco utilizado
antes das 1999, o termo eSade vem sendo largamente utilizado para caracterizar
tudo que est virtualmente relacionado a computadores e medicina. O termo
aparentemente comeou a ser usado por lderes de indstria e comrcio e no por
acadmicos. Eles criaram e usaram este termo em analogia a outras e-palavras, tais
como e-comrcio (e-commerce) e e-negcio (e-business), numa tentativa de levar as

26

promessas, princpios e o entusiasmo do comrcio eletrnico para a rea de sade, e


dar conta das novas possibilidades que a internet est abrindo a rea de cuidado
mdico. Como a internet criou novas oportunidades e desafios indstria de
informtica em sade tradicional, o uso de um termo novo para tratar estes assuntos
parecia apropriado. Estes desafios ditos novos para a indstria de informtica em
sade eram principalmente: a capacidade de consumidores interagirem com seus
sistemas comerciais on-line (B2C); melhoria das possibilidades de transmisses de
dados de instituio para instituio (B2B); novas possibilidades para comunicao
entre consumidores (C2C).
Para Mea (2001), a eSade (eHealth) surgiu em substituio telemedicina. A
Declarao de Tel-aviv (WMA 2006) oferece uma srie de princpios e recomendaes
ticas para o uso da telemedicina pela classe mdica. Neste documento, a
telemedicina definida como o exerccio da medicina distncia, cujas intervenes,
diagnsticos, decises de tratamentos e recomendaes esto baseadas em dados,
documentos e outras informaes transmitidas por sistemas de telecomunicao. Mea
acredita que, no contexto de uma ampla disponibilidade de sistemas de informao
mdicos que podem interconectar e comunicar, o termo eSade vem substituir o termo
telemedicina apenas como um nome de moda para algo que j existia, mas que com
outro antigo era difcil de vender. Em dezembro de 1999, o subttulo do Telemedicine
Today (telemedtoday.com), um peridico sem reviso por pares, mudou de Where
Healthcare + Telecommunications Converge para eHealth Newsmagazine, e alguns
meses depois, o Telemedicine Journal, um peridico cientfico revisado por pares,
adicionou um eHealth ao seu ttulo (liebertpub.com/TMJ). Apesar disso, quando
pesquisadores escrevem seus trabalhos no utilizam eSade, mas os termos
clssicos telemedicina e informtica mdica.
A despeito disto, muitos continuam pesquisando, utilizando e tentando definir o
conceito de eSade. A definio de eSade feita por Mitchell (1999) parece
abrangente: um termo novo, necessrio para descrever o uso combinado de
comunicao eletrnica e informtica no setor da sade, ou seja, a transmisso,
armazenamento, recuperao e uso de dados digitais no setor sade para propsitos
clnicos, educacionais e administrativos, tanto localmente quanto a distncia. Pode-se
considerar o equivalente de e-comrcio para a indstria de sade.
Para Eysenbach (2001), definir eSade como definir a internet: s pode ser
definido em um momento especfico, a definio no pode ser fixa, j que se trata de
um ambiente dinmico, em constante movimento. Assim, eSade considerada por
ele como um campo emergente na interseo da informtica em sade, sade pblica
e negcios, referindo-se a melhoria dos servios em sade e da distribuio de

27

informao pela internet e tecnologias relacionadas. Em um sentido mais amplo, o


termo caracteriza no s um desenvolvimento tcnico, mas tambm uma paradigma,
um modo de pensar, uma atitude e um compromisso para transmisso em rede,
pensamento global, melhoria da sade local, regional e global, usando tecnologias de
informao e comunicao. Para Ivanitskaya et al. (2006), a eSade vem causando
um impacto cultural crescente tanto na pesquisa quanto nas profisses de sade,
afetando a relao entre profissional da sade e paciente e abrindo possibilidades de
novos papis profissionais na prestao de servios em sade. O uso crescente da
internet chama a ateno de cientistas para a modelagem do comportamento
individual como contribuio ao desenvolvimento e refinamento de teorias e modelos
de sade.
Um estudo extenso sobre definies de eSade foi realizado por Oh et al.
(2005), que apresentou 51 definies distintas do termo, as quais foram analisadas
qualitativamente. A anlise mostra que o termo eSade apresenta conceitos
diversificados, envolvendo reas como sade, tecnologia e comrcio e que o termo,
apesar das definies imprecisas, bem compreendido pela comunidade que faz uso
dele. Contudo, Oh et al. no apresentam uma compilao das definies do termo.
Informtica em Sade como Melhor Nomenclatura
Em nossos estudos foi possvel compilar o conceito de eSade definindo-o como um
campo emergente na interseo da informtica em sade, sade pblica e negcios,
que representa o uso combinado de informtica e da comunicao eletrnica no setor
da sade, ou seja, a transmisso, armazenamento, recuperao e uso de dados
digitais para propsitos clnicos, educacionais e administrativos, tanto localmente
quanto distncia. A eSade representa um esforo empreendido por lderes em
sade e indstrias de alta tecnologia, visando o mximo aproveitamento dos
benefcios disponveis pela convergncia da internet com a sade, assim como a
melhoria da sade local, regional e global, por meio de tecnologias de informao e
comunicao.
O termo eSade parece ser mais amplo que telemedicina porque no se
restringe a interao mdico-paciente. A telemedicina parece ser um dos temas da
eSade, mesmo porque o termo medicina mais especfico do que sade, mais
adequado para designar uma srie de aes envolvidas no cuidado em sade que vo
alm do mbito da medicina. J o termo telessade (telehealth) por vezes utilizado
como sinnimo de telemedicina, o que parece mais adequado para representar o
cuidado em sade por meio de redes de comunicao como a internet. O prefixo tele

28

significa a distncia, assim telessade seria adequado para o cuidado em sade a


distncia, assim como telemedicina bem traduz o cuidado mdico a distncia. Nenhum
dos 2 termos, entretanto, representaria bem o uso da informtica em cincias da
sade e da vida, porque no necessariamente esta integrao feita para uso
distncia. Assim, parece mais coerente considerar que a telemedicina e telessade
tratem apenas de um dos aspectos da eSade.
Assim, o termo eSade parece invivel para representar a interdisciplinaridade
da informtica com as cincias da sade e da vida, dada a sua abrangncia que
ultrapassa os limites de uma rea cientfica e tecnolgica. A eSade envolve muito
mais aspectos mercadolgicos do uso da informtica na sade e do consumo de
produtos e servios em sade, tendo, muitas vezes, mas nem sempre, como pano de
fundo a informtica mdica e a telemedicina. como confundir o comrcio com as
cincias econmicas ou confundir o uso de redes de telecomunicao com a
engenharia de telecomunicaes. O MeSH classifica telemedicina (telemedicine) como
uma sub-rea da medicina que emprega a tecnologia de redes de comunicao na
relao mdico-paciente a distncia.
A eSade pode ser compreendida como uma das sub-reas da informtica
mdica, atrelada s redes de informao e comunicao (networking) em sade, que
contm a telessade, a qual representa o cuidado em sade distncia. O termo
eSade pode at vir a substituir os termos informtica mdica, informtica em sade e
informtica biomdica em algum momento futuro, devido abrangncia do conceito e
sua facilidade mnemnica. No momento, pode ser considerada como parte da
informtica mdica e at caracterizada como uma tecnocincia, somente quando de
fato emprega mtodos e tcnicas provenientes da cincia e tecnologia na sade, no
mbito da sociedade, o que nem sempre ocorre.
De outro lado, o termo informtica biomdica (biomedical informatics) parece
considerar somente o desenvolvimento e aplicao da informtica (informatics) em
cincias biolgicas (bio) e em medicina (medicine), excluindo outras cincias da sade
a qual a rea se aplica. O termo informtica mdica (medical informatics) parece
considerar somente o desenvolvimento e aplicao da informtica (informatics) em
medicina (medicine), excluindo outras cincias da sade e as cincias biolgicas. O
termo informtica em sade (health informatics) parece considerar somente o
desenvolvimento e aplicao da informtica (informatics) nas cincias da sade,
ficando de fora as cincias biolgicas. Nenhum dos termos parece representar
integralmente o conceito de desenvolvimento e aplicao da informtica nas cincias
da sade e da vida.

29

Portanto, o termo informtica em sade (health informatics) parece ser o mais


apropriado, entre as denominaes citadas, por trs razes: 1) por ser um termo j
utilizado pela comunidade cientfico-tecnolgica no mundo inteiro at ento, ainda que
em menor escala; 2) por abranger todas as cincias da sade e no s a medicina; 3)
parece continuar sendo mais representativo na literatura tcnico-cientfica disponvel
nos mecanismos de busca do que o termo informtica biomdica. Mesmo no
havendo inteno em definir uma nova nomenclatura para a rea, em nosso estudo
epistemolgico foi possvel constatar os valores de uma comunidade cientficotecnolgica em relao ao seu prprio campo de pesquisa. Um neologismo foi
explicitado (Colepcolo 2008) como um termo capaz de abranger toda a gama de
conhecimento da rea. A informtica em biossade (biohealth informatics) seria a
pesquisa (cincia), desenvolvimento (tecnologia) e aplicao (tecnocincia) da
informtica e suas sub-reas s cincias da sade e s cincias biolgicas (da vida).
Nomenclaturas na Web
A ttulo de curiosidade vale a pena observar o nmero total (aproximado) de
ocorrncias na web das nomenclaturas mais comuns utilizadas para representar a
rea da informtica em sade a partir de alguns mecanismos populares de indexao
de contedo, apresentado no Quadro 1.
Subreas da Informtica em Sade
A definio de subreas da informtica em sade pode colaborar com uma melhor
organizao das pesquisas realizadas na rea, contribuindo tambm para auxiliar a
seleo de apresentaes em eventos cientficos de forma a enfatizar os mtodos e
tcnicas. Desta forma, foram selecionadas algumas vises de subreas que so
utilizadas frequentemente nas atividades cientficas em informtica em sade.
Na viso dos membros American Medical Informatics Association (AMIA) as
subreas a enfatizar so (AMIA 2013): (1) bioinformtica translacional; (2) pesquisa
clnica; (3) aplicaes; (4) consumidor em sade; (5) sade pblica.
A classificao em subreas estabelecida pela International Medical Informatics
Association (IMIA), para fins de organizao dos estudos, considera as 5 subreas
utilizadas pela AMIA e adicionalmente 2 outras subreas (IMIA 2013): (1)
bioinformtica translacional; (2) pesquisa clnica; (3) aplicaes; (4) consumidor em
sade; (5) sade pblica; (6) informtica em enfermagem; (7) informtica para
ambientes de recursos limitados.

30

Nomenclaturas***

Google

Google

Bing

PubMed

ACM

Wikipedia

YouTube

Acadmico

eHealth

177.000K

52K

2.700K

17K

1K

Sim

14K

Biomedical
Informatics

77.000K

40K

464K

3K

5K

Sim *

1K

Health
Informatics

22.900K

50K

1.490K

3K

3K

Sim

5K

Medical
Informatics

21.700K

356K

1.360K

16K

8K

Sim *

2K

Informtica
Biomdica

2.630K

1K

60K

0,027K

0,007K

Sim

0,816K

Informtica
Mdica

2.300K

8K

261K

0,067K

0,018K

Sim

2K

Informtica
em Sade

684K

3K

49K

0,017K

0,013K

No

0,238K

eSade

93K

0,168K

10.300K

No

0,020K

BioHealth
Informatics

22K

0,5K

6K

0,004K

0,005K

No

0,005K

0,001K

0,002K

0,043K

No

Informtica
em Biossade**

Dados obtidos em 28 de setembro de 2013.


* Pela nomenclatura Health Informatics ** Utilizado com a escrita informtica em biosade
*** Quando possvel foi realizada busca exata do termo, sem permitir variaes.

Quadro 1 - Nmero aproximado de ocorrncias na web das principais nomenclaturas


associadas rea da informtica em sade.

A proposta de Shortiliffe (2006) consta de uma classificao em termos das


aplicaes em informtica biomdica, a saber: (1) sistemas de registro eletrnico em
sade; (2) gerenciamento da informao em organizaes de sade; (3) consumidor
em sade e telessade; (4) sade pblica e infraestrutura em informao em sade;
(5) sistemas de cuidados com o paciente; (6) sistemas de monitoramento do paciente;
(7) sistemas de imagem em radiologia; (8) recuperao da informao e bibliotecas
digitais; (9) sistemas de apoio deciso clnica; (10) computadores em educao
mdica; (11) bioinformtica.
Outro exemplo de viso das subreas da informtica em sade pode ser obtida
a partir da lista utilizada pelo Congresso Brasileiro de Informtica em Sade
(CBIS2012) (sbis.org.br), que ofereceu, em 2012, palestras, minicursos e recebeu
trabalhos a serem apresentados considerandos 19 temas/sub-reas: (1) aplicaes
mveis em sade; (2) avaliao de tecnologias de informao e comunicao em

31

sade; (3) educao e capacitao em informtica em sade; (4) gesto do


conhecimento e minerao de dados; (5) informtica em sade e o paciente; (6)
informtica translacional; (7) modelos e padres para representao de conhecimento,
ontologias e terminologias; (8) organizao, poltica, economia e gesto em sade; (9)
padres de interoperabilidade entre sistemas; (10) polticas de informao e
informtica em sade e aspectos ticos; (11) processamento e anlise de sinais
biolgicos e imagens mdicas; (12) projeto e arquitetura de sistemas de informao
em sade; (13) recuperao de informaes e processamento de linguagem natural;
(14) registro eletrnico de sade / pronturio eletrnico do paciente; (15) segurana,
privacidade e confidencialidade; (16) sistema de apoio deciso e inteligncia
artificial; (17) tecnologias emergentes (TV digital, realidade virtual, computao ubqua,
redes virtuais); (18) telessade; e (19) usabilidade, interao e fatores humanos em
sistemas de informao em sade.
O Departamento de Informtica em Sade, da Escola Paulista de Medicina,
UNIFESP, tem utilizado um quadro conceitual que considera 20 subreas de interesse
dentro da informtica em sade, para efeito de concursos, sendo: (1) princpios e
histria; (2) representao de conceitos: ontologias, vocabulrios e terminologias; (3)
padres; (4) bioinformtica; (5) processamento de sinais biolgicos e imagens; (6)
aplicaes clnicas baseadas em imagens mdicas; (7) sistemas de cuidado ao
paciente; (8) registro eletrnico de sade (RES); (9) sistemas de gerenciamento da
informao em sade; (10) sistemas para monitorao de pacientes; (11) sistemas de
apoio deciso clnica; (12) sistemas para armazenamento, processamento,
transmisso e visualizao de imagens mdicas (PACS); (13) pronturio eletrnico do
paciente (PEP); (14) segurana, privacidade e confidencialidade em sistemas de
informao em sade; (15) minerao de dados e textos em sade; (16) telemedicina
e telessade; (17) educao a distncia em sade; (18) internet e a sade; (19) prtica
digital da sade; e (20) sistemas de informao em sade pblica.
Na viso de Sigulem (1997) sobre uma prtica mdica digital, a viso descrita
sobre as subreas consta dos itens: (1) telemedicina; (2) informao digital; (3)
educao; (4) comunicao; (5) registro eletrnico do paciente; (6) sistemas de apoio
deciso; (7) diretrizes mdicas (guidelines).
Por fim, uma outra viso de subreas da informtica em sade pode ser
exemplificada a partir da lista construda pelo pesquisador desta tese, junto ao grupo
de pesquisa Sade 360, UNIFESP (telemedicina6.unifesp.br/projeto/posgraduacao),
para identificao das atividades de pesquisa dos programas de graduao e psgraduao disponveis no pas. Esta ao foi realizada com apoio da SBIS antes do
CBIS2010 e por algum tempo esteve disponvel oficialmente na pgina web da

32

sociedade. A lista criada foi utilizada neste projeto de identificao de escopo de


programas de ps-graduao, a partir da anlise de trabalhos publicados nos ltimos
eventos da SBIS. A partir da pgina web disponibilizada, coordenadores e
orientadores de programas de ps-graduao foram convidados a ajudar na descrio
de seus programas usando esta lista de subreas. A lista das subreas da informtica
em sade deste projeto, verso 2013, segue:
1.

aplicaes mveis em sade, mSade;

2.

aquisio e armazenamento de dados em


sade;

3.

armazenamento, processamento,
transmisso e visualizao de imagens
mdicas;

4.

automao e robtica aplicadas sade;

5.

avaliao de tecnologia de informao e


comunicao em sade;

27. interao humano-computador para


aplicaes em sade;
28. interoperabilidade e comunicao de
sistemas em sade;
29. mtodos e tcnicas informatizados de
ensino em sade;
30. metodologia e tcnicas da informtica em
sade;
31. modelagem e simulao computacional em

6.

bioengenharia;

7.

bioinformtica;

32. monitorizao informatizada em sade;

8.

cientometria em sade;

33. padres em informtica em sade;

9.

computao distribuda aplicada sade;

34. processamento e anlise de sinais e

10. computao grfica em sade;


11. computao ubqua e pervasiva aplicadas
sade;

sade;

imagens mdicas;
35. pronturio eletrnico do paciente (PEP);
36. realidade virtual em sade;

12. comunicao em sade;

37. recuperao de informao em sade;

13. descoberta de conhecimento e minerao

38. redes avanadas e de alto desempenho

de dados em sade;
14. econometria em tecnologia da informao e
comunicao em sade;
15. educao a distncia em sade;
16. educao e capacitao em informtica em
sade
17. educao em sade mediada por
computador;
18. equipamentos informatizados em sade;
19. tica, legislao e polticas em informtica
em sade;
20. fundamentos e epistemologia em
informtica em sade;
21. histria da informtica em sade;

para aplicaes em sade;


39. registro eletrnico em sade (RES);
40. registro eletrnico pessoal em sade ;
41. representao de conhecimento,
vocabulrios, ontologias e terminologias em
sade
42. sade digital, eSade;
43. segurana do paciente;
44. segurana, privacidade e confidencialidade
em sade;
45. sistemas colaborativos em sade;
46. sistemas de apoio a deciso em sade;
47. sistemas de informao em pesquisa
clnica;

22. informtica em sade pblica;

48. sistemas de informao em sade;

23. informtica para a gesto em sade;

49. sistemas de informao hospitalar;

24. informtica para a sade do consumidor.

50. software aplicado sade;

25. informtica translacional;

51. telemedicina;

26. inteligncia artificial em sade;

52. telessade.

33

2.2. Classificao de Artigos Cientficos da Informtica em


Sade

Colaboraram com estes estudos


Fbio Oliveira Teixeira, Fernando Sequeira Sousa,
Anderson Diniz Hummel, Felipe Mancini,
Luciano Vieira de Arajo, Ftima de Lourdes dos Santos Nunes Marques
A interdisciplinaridade da informtica em sade e a amplitude dos temas abordados
em seu contexto, que ultrapassam barreiras previamente definidas por domnios de
conhecimento,

diversificando

fontes

de

armazenamento

recuperao

de

informaes, dificultam caracteriz-la sob um arcabouo de termos, conceitos e limites


de atuao (Bernstam et al. 2010). No entanto, esforos so destinados identificao
de conhecimento relacionado a IS, como o trabalho de DeShazo et al. (2009) que
recuperou

artigos

publicados

na

biblioteca

virtual

Medline/Pubmed

(ncbi.nlm.nih.gov/pubmed) sob a indexao do descritor medical informatics e sua


respectiva rvore, oriunda do vocabulrio controlado Medical Subject Headings (MeSH
ncbi.nlm.nih.gov/mesh), no perodo de 1987 a 2006. Os autores identificaram um
crescimento exponencial do volume de publicaes ao longo destes anos. Em 1987 e
2006 foram publicados 1.272 e 9.973 artigos considerados da rea de informtica em
sade, respectivamente, indicando um crescimento de 784% no perodo avaliado.
A consequncia de um domnio interdisciplinar, como o da informtica em
sade, a dificuldade para a recuperao de informao pertinente ao seu contexto,
uma vez que o conhecimento est diludo sob diversas reas, tais como sade, cincia
da computao, cincia da informao e engenharia biomdica (van Bemmel 2008,
Knaup e Dickhaus 2009). Um estudo promovido pela International Medical Informatics
Association (IMIA) (imia-medinfo.org) destaca as disciplinas que contribuem para a
construo do domnio da informtica em sade, conforme mostra a Figura 3, na qual
o compartilhamento de mtodos e ferramentas entre elas est presente e contribui
para o desenvolvimento da rea e definio do seu escopo (Mantas et al. 2010).
O mapeamento e definio da informtica em sade por meio da literatura
cientfica publicada foram explorados por Schuemie et al. (2009). Os autores utilizaram
mecanismos automatizados e tcnicas de inteligncia artificial para identificar tpicos
relevantes, tendncias e similaridade de contedos entre peridicos do domnio
estudado. Este estudo fez uso de processos de recuperao de informaes que

34

consistem em identificar em um conjunto de textos, por exemplo, artigos cientficos,


quais atendem a necessidade de informao do usurio (Magdy e Jone 2010). Tais
mecanismos automatizados so necessrios devido ao crescimento das bibliotecas
virtuais e grande quantidade de artigos cientficos armazenados, dificultando os
processos de classificao e indexao manual de textos.

Figura 3 Disciplinas que contribuem para a interdisciplinaridade da informtica em


sade (traduzido e adaptado) (Mantas et al. 2010).

Classificao e Indexao de Artigos


H um amplo corpo de conhecimento disponvel na literatura referente classificao
e indexao automtica de documentos. Neste contexto, podemos citar os trabalhos
de Kastrin et al. (2010) e Vasuki e Cohen (2010), que utilizaram tcnicas
probabilsticas e vocabulrios controlados para classificar e indexar artigos cientficos
cujo contedo estava relacionado a temas do domnio da sade. Outra fonte de
extrema relevncia para pesquisadores interessados no tema o projeto Text
Categorization (Text Categorization 2011), mantido pela National Library of Medicine
(nlm.nih.gov). Baseado em vocabulrios controlados, tais como Medical Subject
Headings (MeSH, ncbi.nlm.nih.gov/mesh) e Unified Medical Language System
(UMLS,nlm.nih.gov/research/umls), tem como objetivo indexar artigos cientficos
relacionados sade por meio da associao estatstica e semntica entre palavras e
descritores. Subdivide-se em duas iniciativas denominadas Journal Descriptor
Indexing (JDI) e Semantic Type Indexing (STI) (Humphrey 1998; Humphreys et al.
1998; Humphrey 1999; Humphrey et al. 2006; Humphrey et al. 2009).

35

O mtodo JDI foi criado a partir de 121 descritores, presentes no vocabulrio


MeSH, e a relao estatstica dos mesmos com palavras presentes nos ttulos e
resumos de artigos cientficos publicados em cerca de 4.000 peridicos do domnio da
sade. Por outro lado, o mtodo STI identifica relaes semnticas entre textos por
meio do clculo da similaridade entre vetores criados a partir de 135 tipos semnticos
oriundos da UMLS.
Os trabalhos de Zhang et al (2011) e Lan et al. (2006) apresentam foco na
tarefa de representao dos textos, fundamental para a classificao e indexao de
contedo. Embora os autores no tenham direcionado seus estudos para um domnio
especfico, como o da informtica em sade, a avaliao realizada pelos mesmos em
relao s diferentes tcnicas de extrao de caractersticas textuais relevante.
Mtodos probabilsticos aplicados a recuperao de informao foram
avaliados por Sohn et al. (2008) e Aiguzhinov et al. (2010), nos quais os mesmos
utilizaram a teoria de deciso bayesiana como um dos pilares para seus trabalhos. A
particularidade da avaliao dos resultados de classificadores responsveis pela
recuperao de informao textual abordada nos trabalhos de Gehanno et al.
(2009), Magdy e Jones (2010) e Radlinski e Craswell (2010), nos quais medidas como
preciso, revocao e f-score so analisadas.
Uma vez que a recuperao de informao em bases textuais amparada por
mecanismos automatizados de classificao e indexao, torna-se relevante optar por
uma definio terica e explicitar as diferenas entre eles. As abordagens tericas de
Zhang et al. (2011) e Hanson (2004) tm como pilares questes semnticas e
estatsticas. De acordo com os autores, a classificao tem a propriedade de reunir
componentes de um grupo que possui relao semntica entre seus componentes.
Por outro lado, a indexao trata apenas da caracterizao unitria dos componentes
do grupo, abstendo-se do relacionamento entre eles.
A recuperao de informao lida com informaes semi ou no-estruturadas
que dependem de uma representao especfica para que o processo de classificao
ou indexao seja executado por classificadores de padres (Zhang et al. 2011). A
criao de um modelo de espao vetorial (Salton McGill 1986), cuja dimenso pode
ser formada pelo nmero de termos presentes no conjunto de documentos avaliados,
possibilita que cada texto seja identificado numericamente por meio de tcnicas que
calculam a relevncia de cada termo em relao ao documento.

36

Pesquisas Realizadas
Considerando o tema de classificao de artigos cientficos da informtica em sade,
realizamos uma pesquisa cujo objetivo principal foi desenvolver uma classificao e
indexao de artigos cientficos a partir de tcnicas vetoriais de extrao de
caractersticas

de

textos

aliadas

um

classificador

probabilstico.

Mais

especificamente, nosso interesse foi investigar mecanismos de classificao


automtica de artigos cientficos entre os domnios da informtica em sade, cincia
da computao e sade, amparados em tcnicas vetoriais de extrao de
caractersticas de textos utilizadas como parmetro do classificador probabilstico
bayesiano ingnuo (Naive Bayes). Tambm propomos um mtodo capaz de indexar
artigos cientficos a partir de um conjunto de categorias pr-definidas, delimitadas
pelos 3 domnios escolhidos.
Nossa motivao se deu pelo grande volume de artigos armazenados em
bibliotecas virtuais e o aumento substancial das publicaes especficas em
informtica em sade, que sugere uma demanda por mecanismos automatizados que
auxiliem a tarefa humana de classificao, indexao e recuperao destes artigos.
Especificamente

para

domnio

da

informtica

em

sade,

no

qual

interdisciplinaridade intrnseca mesma provoca um aumento da granularidade das


fontes de publicao de contedo e volume de publicaes (DeShazo et al. 2009;
Spreckelsen et al. 2011), o desafio est em oferecer mecanismos capazes de
recuperar informao de maneira eficiente neste domnio. Portanto, nossos
questionamentos estavam na possibilidade de criao destes mecanismos, que
impedissem que artigos relevantes fossem descartados devido ao tipo de classificao
praticada.
Vale destacar que esse estudo foi planejado e executado como uma
continuao do estudo epistemolgico conduzido por Colepcolo (2008) no qual foram
analisados mais de 400 mil artigos cujos resultados colaboraram no esabelecimento
dos critrios epistemolgicos e de terminologia. A idia inicial considerava uma
reaplicao dos mtodos que desenvolvemos na poca do primeiro estudo, buscando
uma retroalimentao dos resultados para tentar se obter uma convergncia do
tesauro construdo. Ou seja, os 3 estudos (estatstico, terminolgico e epistemolgico)
possibilitaram gerar um tesauro e uma classificao dos 400 mil artigos. A partir da
correo destas classificao e do tesauro, seria possvel refazer os 3 estudos? A
segunda verso do tesauro e a segunda classificao dos artigos poderiam ser
comparadas com suas primeiras verses, para medio de convergncia? De fato, o

37

que ocorreu no estudo aqui apresentado foi a concepo de uma nova anlise
baseada em contexto a partir do algoritmo Journal Description Indexing (JDI), da
National Library of Medicine, EUA (Humphrey et al. 2009; Humphrey 1998).
Este trabalho foi realizado no grupo de pesquisa Sade 360 junto ao Programa
de Ps-graduao em Gesto e Informtica em Sade, EPM, UNIFESP. A pesquisa
foi conduzida como um projeto de mestrado por Fbio Oliveira Teixeira, cujo foco
concentrou-se nas tcnicas de classificao. Fernando Sequeira Sousa e Prof. Dr.
Luciano Vieira de Araujo, da EACH-USP, colaboraram ativamente com a metodologia
e as anlises realizadas.
Portal ISI Web Of Knowledge
Os dados avaliados no estudo foram coletados a partir do portal ISI Web Of
Knowledge (wokinfo.com), que concentra bancos de dados de publicaes cientficas
de diferentes domnios de conhecimento. O escopo da coleta foi definido como os
ttulos e os resumos de artigos cientficos do idioma ingls, classificados sob um
conjunto de categorias associadas s revistas e disponveis no portal utilizado.
As categorias refletem uma abrangncia conceitual dos domnios da cincia da
computao, da informtica em sade e sade, seguindo mesmo critrio de seleo
de categorias de Spreckelsen et al. (2011).
As 30 categorias estudadas foram:

Cincia da computao (7): computer science, artificial intelligence; computer


science, information systems; computer science, software engineering;
computer science, theory & methods; engineering, electrical & electronic;
information science & library science; management;

Informtica em sade (10): computer science, information systems; computer


science, interdisciplinary applications; engineering, biomedical; health care
sciences & services; information science & library science; mathematical &
computational biology; medical informatics; medicine, research & experimental;
public, environmental & occupational health; statistics & probability;

Sade (16): anatomy & morphology; biochemistry & molecular biology; biology;
cell biology; clinical neurology; infectious diseases; medicine, research &
experimental; microbiology; neurosciences; nursing; oncology; parasitology;
pediatrics; psychiatry; psychology, developmental; virology.

38

As revistas estudadas foram:

Cincia da computao (9): ACM Computing Surveys, ACM Transactions on


Graphics, Computational Intelligence, IEEE Transactions on Evolutionary
Computation, IEEE Transactions on Fuzzy Systems, IEEE Transactions on
Pattern Analysis and Machine Intelligence, IEEE Transactions on Software
Engineering, International Journal of Computer Vision MIS Quarterly, MIS
Quaterly;

Informtica em sade (9): IEEE Transactions on Information Technology in


Biomedicine, International Journal of Medical Informatics, International Journal
of Technology Assessment in Health Care, Journal of Biomedical Informatics,
Journal of Medical Internet Research, Journal of the American Medical
Informatics Association, Medical & Biological Engineering & Computing, Methos
of Information in Medicine, Statistics in Medicine;

Sade (9): Brain, CA-A Cancer Journal for Clinicians, Cell, International Journal
of Nursing Studies, Journal of Anatomy, Journal of the American Academy of
Child and Adolescent Psychiatry, Nature Medicine, PLOS Biology, PLOS
Pathogens.
Foram selecionados 10.800 artigos cientficos dispostos uniformemente entre

as 27 revistas escolhidas, com maiores fatores de impacto. Portanto, cada revista


contribuiu com 400 artigos, que posteriormente foram subdivididos em 2 conjuntos,
treino e validao, por meio da distribuio de 75% e 25%, respectivamente. Esta
subdiviso resultou em 8.100 artigos para a base de treinamento e 2.700 para a base
de validao.
Estratgia de Classificao e Indexao dos Artigos
O processo de classificao e indexao de artigos foi composto pela transformao
dos documentos textuais em vetores numricos, capazes de represent-los de
maneira unvoca (Zhang et al. 2011). O modelo de espao vetorial um dos mtodos
amplamente utilizados pela comunidade cientfica para tal representao (Salton et al.
1975). Este estudo utilizou 35.484 termos para compor a dimenso dos vetores
numricos que identificaram os artigos. A origem dos termos se deu a partir das
palavras nicas presentes nos ttulos e resumos dos artigos que compuseram a base
de dados. Foram aplicados processamentos preliminares de remoo de stopwords
(Baeza-Yates e Ribeiro-Neto, 1999) e aplicao de stemming (Porter 1980). O
processo de remoo de stopwords conta com a identificao de pronomes,

39

conjunes, preposies e artigos que so irrelevantes para a tarefa de classificao


ou indexao. Este trabalho utilizou a lista de stopwords disponvel na ferramenta
RapidMiner (rapid-i.com), utilizada para a minerao dos textos. O stemming das
palavras refere-se reduo das mesmas a sua raiz morfolgica (pseudo-lema), por
meio da eliminao de prefixos e sufixos.
A utilizao de conhecimento prvio, no qual o conjunto de termos est
relacionado

a um determinado

grupo

ou

categoria, caracteriza

mtodo

supervisionado de extrao de caractersticas. As tcnicas supervisionadas presentes


nesta pesquisa utilizam a categoria dos documentos associadas pelo portal ISI Web of
Knowledge, como um denominador para o clculo da relevncia dos termos. Este
estudo concentrou-se na aplicao do classificador bayesiano ingnuo na sua
variao denominada multinomial (Nigam e McCallum 1998), que possibilita capturar o
clculo da relevncia dos termos. A escolha baseou-se na simplicidade do mtodo e
na sua eficincia para a tarefa supervisionada de classificao e indexao de textos,
comprovada, ao longo dos anos, por meio de estudos cientficos (Guthrie et al. 1994;
Lewis e Gale 1994; Joachims 1997; Li e Yamanishi 1997; Sohn et al. 2008). Uma vez
criadas as matrizes de caractersticas dos documentos que compem a base de
treino, as mesmas foram apresentadas como parmetro de entrada ao bayesiano
ingnuo a fim de realizar as tarefas de classificao e indexao dos artigos que
compuseram a poro de validao da base de dados utilizada nos experimentos
deste projeto. Este classificador assume que os termos que compem a base de
dados so independentes.
Os vetores de caractersticas dos artigos destinados validao foram
submetidos classificao e rotulados automaticamente em um dos 3 domnios
estudados. Foram comparadas cinco estratgias de classificao, sempre usando
bayesiano ingnuo, alternando a tcnica de extrao de caractersticas como sendo
JDI (Humphrey et al. 2009; Humphrey 1998), supervisionado, e os clssicos nosupervisionados term frequency (tf), binary occurrence (bo), term occurrence (to), term
frequency inverse document frequency (tf.idf) (Salton e Buckley 1988).
Quanto tarefa de indexao, utilizamos as 30 categorias listadas para
indexar, de acordo com sua relevncia, cada artigo cientfico presente na base de
dados de validao. Portanto, o classificador de padres treinado, por meio dos
vetores de caractersticas dos artigos da base de treinamento, foi capaz de associar a
cada artigo cientfico, do subconjunto de validao composto por 2.700 documentos,
30 elementos do vetor, que armazenaram as relevncias das categorias em relao
aos artigos. Alm dos classifcadores definidos (bayesiano ingnuo mais uma tcnica
de vetor de caractersticas), experimentamos uma indexao por meio de votao e de

40

competio entre as 5 tcnicas. Na abordagem de votao, consideramos como


categoria final a categoria que recebeu mais vezes a indicao de alta relevncia
pelas 5 tcnicas. Nos casos de empate foi considerada a que apresentou a maior
pontuao de relevncia. Na abordagem de competio utilizamos a maior pontuao
de relevncia atribuda posio do vetor e sua respectiva categoria para compor a
indexao final do artigo. A indexao de textos por meio do clculo da relevncia de
ndices tambm foi explorado com sucesso por Radlinski e Craswel (2010), quando os
mesmos avaliaram pginas web retornadas a partir de consultas submetidas a um
buscador.
A anlise da independncia dos diferentes resultados alcanados pelas
combinaes de parmetros apresentadas ao classificador foi realizada por meio dos
testes chi-quadrado (Hope 1968), ao avaliarmos os resultados da classificao de
artigos cientficos, e Wilcoxon signed-rank (Bauer 1872) (no-paramtrico) e T
pareado (Altman 1990) (paramtrico), quando a indexao foi o foco da anlise. A
restrio da distribuio normal das variveis avaliadas, exigida pelo teste T pareado,
foi constatada pelo teste estatstico Shapiro-Wilk (Royston 1982).
Quanto classificao de artigos cientficos, as estratgias de extrao de
caractersticas utilizadas como parmetro de entrada do classificador probabilstico
apresentaram diferentes pontuaes de desempenho. No entanto, entre os mtodos
no-supervisionados (tf, to, bo, tf.idf) no houve diferenas estatsticas significativas,
comprovadas pelo teste chi-quadrado. Quando tais estratgias foram comparadas com
o mtodo supervisionado (JDI), apresentaram diferenas estatsticas significativas em
todos os casos, com destaque para a comparao entre tf X JDI. Assim, a utilizao
de conhecimento prvio para a construo do vetor de caractersticas, nica variante
do experimento, mostrou-se eficiente, uma vez que o desempenho do mtodo
supervisionado foi melhor em 78% das comparaes. Esta estratgia tambm foi
explorada nos trabalhos de Zhang et al. (2011) e Lan et al. (2005), os quais
demonstraram, por meio de experimentos similares, a eficcia da abordagem
supervisionada de extrao de caractersticas.
Separao de Domnios por Termos
A quantidade, distribuio e interseco dos 35.484 termos, oriundos da base de
dados construda para este estudo, em seus respectivos domnios so mostradas na
Figura 4. possvel identificar que o domnio da sade possui a maior quantidade de
termos que no so compartilhados pelos outros domnios (9.710). No entanto, o
conjunto de termos que compe exclusivamente o domnio da informtica em sade

41

menos

representativo,

com

apenas

1.696

itens.

Tal

cenrio

expe

interdisciplinaridade da informtica em sade, uma vez que a quantidade de termos


compartilhados com os domnios da cincia da computao e sade, 2.008 e 4.832,
respectivamente, maior do que seu prprio conjunto no compartilhado, 1.696.

Figura 4 - Quantidade de termos nicos (35.484) e respectiva interseco presente nos


conjuntos de artigos cientficos dos domnios da cincia da computao, informtica em
sade e sade (Teixeira 2011).

O desempenho alcanado para a classificao de artigos cientficos no domnio


da informtica em sade foi menor em relao aos outros domnios. Acreditamos que
a quantidade de termos destinados exclusivamente ao seu conjunto influenciou as
pontuaes de desempenho. Quando a medida f-score considerou, para fins de
desempenho do classificador, maior importncia revocao (f2-score), o melhor
resultado foi atribudo ao domnio da cincia da computao (92%). No entanto, para a
medida f0,5-score, na qual a preciso foi alvo do desempenho do classificador, o
domnio da sade alcanou o melhor resultado (94%). Os valores de falso positivo
atribudos aos domnios da cincia da computao (115; 5%) e informtica em sade
(123; 5%) so superiores ao domnio da sade (35; 2%), indicando que entre estes 2
domnios houve comprometimento na preciso dos resultados. Isto leva a crer que a
sobreposio de termos foi relevante e criou uma regio de conflito entre os mesmos,
na qual a frequncia de parte dos termos foi equivalente em ambas as colees.
Estudos de Salton e Buckley (1988) tambm exploraram tal caracterstica em
conjuntos de dados. O comportamento do classificador de padres mediante a anlise
dos resultados mostrou que, embora haja sobreposio de termos entre os domnios

42

estudados, com destaque para o domnio da informtica em sade, foi possvel


classificar artigos cientficos com ndices de desempenho condizentes com os dados
da literatura cientfica abordada e relacionada com o tema.
Proposta de Mtodo de Indexao
Para a tarefa de indexao o mtodo de competio de tcnicas apresentou melhores
resultados quando a preciso foi o alvo da medida de desempenho abordada, na qual
a pontuao f 0,5-score alcanou o valor de 0,66. Quando a preciso e revocao
assumiram igual importncia por meio da medida f 1-score o mtodo tambm superou
as outras estratgias, apresentando a pontuao igual a 0,69. No entanto, quando a
revocao foi avaliada por meio da medida f2-score a estratgia de extrao de
caractersticas binary occurrence mostrou-se mais eficiente, com pontuao igual a
0,77. A medida de desempenho ligada a revocao (f 2-score) privilegiou as
ocorrncias de termos individualmente nos documentos. Tal comportamento foi
destacado por Salton e Buckley (1988) em seu trabalho. A competio de tcnicas
favoreceu os resultados ligados preciso (f 0,5-score) e a equivalncia entre a mesma
e a revocao (f1-score).
A Figura 5 apresenta a distribuio aps a aplicao do mtodo de indexao
por meio de competio de tcnicas. Neste cenrio houve um maior compartilhamento
entre as categorias e domnios, o que sugere uma incompatibilidade entre a
categorizao original das revistas sugeridas pelo portal ISI Web of Knowledge e a
proposta deste estudo. De acordo com os resultados, o mtodo proposto indica que
uma parte dos artigos no reflete, ou reflete parcialmente, a categorizao atribuda s
revistas pelo portal ISI Web of Knowledge.
A indexao incorreta e/ou incompleta de revistas ou artigos cientficos pode
prejudicar a recuperao de informao, uma vez que as categorias so utilizadas
como parmetros em sistemas de buscas construdos pelos Portais. Spreckelsen et al.
(2011) destacaram a importncia do corpo de conhecimento de informtica em sade,
disponvel nas bibliotecas virtuais, ser cuidadosamente delimitado por meio das
revistas e artigos publicados, pois os ndices que medem o fator de impacto da rea
so amparados nos mesmos, sendo que uma fraca indexao comprometeria tais
ndices.
Em suma, a utilizao de conhecimento prvio, adotado pelo mtodo
supervisionado de extrao de caractersticas (JDI), alcanou as melhores pontuaes
de desempenho avaliadas no estudo, superiores a 80%. A interdisciplinaridade do
domnio da informtica em sade, que poderia dificultar a tarefa de classificao, foi

43

absorvida pelas tcnicas propostas e no comprometeu os resultados. A indexao de


artigos cientficos sob uma lista pr-definida de categorias caracterizou uma nova
proposta em relao original do portal ISI Web of Knowledge, caracterizada pela
votao e competio de tcnicas. Os valores alcanados pelas medidas de
desempenho f-score foram superiores a 0,66, obtendo 0,77 na situao de se
privilegiar o processo de revocao. A literatura cientfica que investiga tcnicas
capazes de indexar automaticamente documentos ampla e no esgotou os esforos
direcionados criao de novos mecanismos. Os resultados obtidos neste estudo se
comparam s pontuaes de desempenho alcanadas em trabalhos publicados
recentemente sobre a indexao de artigos cientficos sob escopos de domnios de
conhecimento especficos (Aiguzhinov et al. 2010; Humphrey et al. 2009; Trieschnigg
et al. 2009; Liang et al. 2006).

Figura 5 - Distribuio dos artigos cientficos e descritores em relao aos domnios


estudados (30 categorias), de acordo com a indexao sugerida pelo mtodo de
competio de tcnicas (Teixeira 2011).

Embora os resultados tenham sido condizentes com os dados da literatura,


alguns pontos merecem ateno especial, por exemplo, a dimenso (35 mil) dos
vetores de caractersticas utilizados para representarem os documentos. A literatura

44

expe alternativas para a reduo da dimensionalidade de tais vetores, que no foram


contempladas neste estudo, como o trabalho de Yang e Pedersen (1997), que explora
e compara tcnicas capazes de selecionar caractersticas de documentos para a
tarefa de classificao automtica. Outro ponto relevante a anlise de desempenho
quanto ao tempo de processamento da tarefa de classificao e indexao consumida
pelo mecanismo automatizado. Ao disponibilizar este servio para o pblico, questes
relacionadas a este contexto emergiro e necessitaro ser avaliadas. A motivao
deste estudo amparou-se no crescimento exponencial da quantidade de artigos
cientficos publicados no domnio da informtica em sade e na reduo das tarefas
manuais de indexao e classificao de contedo pertinente a este contexto.
Trabalhos futuros devem ser destinados disponibilizao dos mecanismos
automatizados criados comunidade cientfica, por meio de servios que auxiliem
profissionais que atuam na classificao e indexao de contedos em bibliotecas
virtuais, pesquisadores que conduzem trabalhos cientficos a encontrar informao
relevante e demais aplicaes aplicadas minerao de textos nos domnios
abordados neste estudo.

2.3. Rede de Colaborao em Informtica em Sade

Colaboraram com estes estudos


Roberto Silva Baptista, Marcelo Vasconcelos,
Camila Cardoso Di Santo
O mundo visto como uma enorme rede social de pessoas que no se conhecem de
certo modo pequeno (Watts 2002). A existncia de conexes sociais diminui as
distncias, porque qualquer pessoa no mundo pode ser contatada por meio de uma
rede de amigos em apenas poucos passos. As redes sociais disponveis na web,
como

exemplos

Twitter

(twitter.com),

Facebook

(facebook.com)

Linkedin

(linkedin.com), ilustram como as pessoas esto conectadas entre si. No entanto, ainda
no se sabe o impacto das conexes sociais na disseminao da informao e do
conhecimento. Sabe-se que qualquer pessoa no mundo pode chegar a qualquer outra
com apenas 6 pessoas de contato entre elas em mdia (Watts 2002). Conhecer as
dimenses e conexes sociais de uma determinada rea serve no somente para
agrupar os profissionais que fazem parte dela, mas talvez para compreender os

45

mecanismos em que os fenmenos sociais se manifestam, fomentando questes que


ainda no tm resposta.
As pesquisas sobre redes sociais so interdisciplinares e interessam a
pesquisadores de vrios campos do conhecimento, os quais, na tentativa de
compreenderem o seu impacto sobre a vida social, deram origem a diversas
metodologias de anlise que tm como base as relaes entre os indivduos, numa
estrutura em forma de redes. A anlise de redes sociais (social network analysis SNA)
utilizada para estudar fenmenos do mundo real, como o comportamento de grupos
de pessoas e comunidades, a forma como diferentes populaes se relacionam etc.
(Molina 2005; Wellman 1997; Wellman 1996). A colaborao cientfica um dos
atributos mais pesquisados na utilizao da SNA, proporcionando uma viso ampla
dos colgios invisveis nos quais os vrtices da pesquisa esto imersos, alm de uma
srie de outras constataes quanto s relaes de unio no mbito cientfico. O
crescimento do nmero de artigos publicados em mbito mundial cuja temtica a
ARS foi mencionada por Otte e Rousseau (2002). Matheus e Silva (2006, p. web)
esclarecem que a SNA pode ser uma ferramenta metodolgica comum a vrias reas,
devido flexibilidade que se tem na definio dos atores e dos laos entre eles,
sejam os atores, documentos, agentes sociais, membros de uma organizao ou as
prprias organizaes, sejam os laos as relaes de coautoria entre pesquisadores,
os laos de parentesco em uma comunidade, as relaes hierrquicas numa empresa
ou as ligaes de fornecedores e compradores entre empresas de uma regio ou
pas.
Mas para que isto acontea, ainda h de se considerar o envolvimento dos
pares no somente da base acadmica, mas sim dos profissionais envolvidos na rea
para que a sociedade venha em sentido lato se beneficiar dos resultados obtidos.
Diante deste fato, vale a pena analisar a relao do desempenho acadmico de
pesquisadores de uma rea no mbito da suas relaes sociais com profissionais de
mesma rea.
Fisher (1993) e Rodrigues e Carrieri (2001) j advogavam a criao de uma
rede de cooperao bem estruturada entre as instituies de pesquisa, com o objetivo
de construir uma estrutura social firme o suficiente para assegurar o desenvolvimento
de ideias e de procedimentos mais rigorosos de pesquisa e de avaliao.
Anlise de Rede Social
A anlise de redes sociais uma abordagem oriunda da sociologia, da psicologia
social e da antropologia (Freeman 1996). Tal abordagem estuda as ligaes

46

relacionais entre atores sociais. Os atores na SNA, cujas ligaes so analisadas,


podem ser tanto pessoas e empresas, analisadas como unidades individuais, quanto
unidades sociais coletivas como, por exemplo, departamentos dentro de uma
organizao, agncias de servio pblico em uma cidade, estado - naes de um
continente ou do mundo (Wasserman e Faust 1999). Na linguagem matemtica dos
grafos, utilizada como base para a anlise de redes sociais, as redes so estruturas
compostas por ns, ou vrtices, que so os atores das redes sociais, conectados por
um conjunto de linhas, ou arestas, que correspondem aos laos entre os atores. A
diferena fundamental entre a SNA e outros estudos que a nfase no est nos
atributos (caractersticas) dos atores, mas nas ligaes entre os elos; ou seja, a
unidade de observao composta pelo conjunto de atores e seus laos.
O uso da SNA vem crescendo significativamente nos ltimos 20 anos. Tal
crescimento vem ocorrendo em funo do aumento da quantidade de dados
disponveis para anlise, do desenvolvimento nas reas de informtica e
processamento de dados com o conseqente aumento do poder computacional
disposio dos pesquisadores , e da ampliao dos assuntos de interesse e das
reas de conhecimento que utilizam a SNA. Alguns pesquisadores demonstraram
essa tendncia como, por exemplo, Otte e Rousseau (2002) e Borgatti e Foster
(2003), que detectaram um crescimento exponencial do nmero de publicaes a
partir do incio dos anos 1970.
Silva et al. (2006a) comentam sobre a utilizao da SNA como um mtodo a
ser aplicado em estudos na cincia da informao, junto a ou com base em
informaes bibliomtricas - produtividade e produo, por exemplo - de modo a
construir importantes indicadores, principalmente para os formuladores de poltica
cientfica. Marteleto (2001), que discute a aplicao da SNA nos estudos do fluxo e
transferncia da informao, parece ser o trabalho pioneiro para este fim no Brasil.
Outros estudos no pas tm sido desenvolvidos na rea de cincia da informao com
base na utilizao da SNA e, alm do trabalho de Marteleto (2001), podemos citar
tambm estudo de Marteleto e Silva (2004) que enfatiza a importncia da anlise de
redes sociais para o desenvolvimento econmico e de comunidades e grupos sociais;
o estudo de Di Chiara et al. (2006), que apresenta uma pesquisa sobre redes sociais
egocntricas com base em uma anlise de citaes; o trabalho de Oliveira (2006), que
mostra uma pesquisa sobre redes sociais a partir de grupos de pesquisa no Brasil;
bem como o estudo de Silva et al. (2006b), que apresenta uma rede de coautoria
cientfica dos Programas de Ps-Graduao de Cincia da Informao em
funcionamento no Brasil, conhecido como projeto RedeCI; o estudo de Hayashi et al.
(2008), que identificou as redes de colaborao cientfica entre pesquisadores da rea

47

de educao especial que estabeleceram relaes de coautoria entre si e com outros


pesquisadores do pas e do exterior, por meio da anlise de redes sociais.

Pesquisas Realizadas

A informtica em sade uma rea de pesquisa interdisciplinar que abrange reas de


conhecimento diversas como cincias da sade, cincias biolgicas e cincias exatas
e da terra. No Brasil a quantidade de publicaes nesta rea vem crescendo nos
ltimos anos e os eventos vm atraindo cada vez mais pesquisadores. No entanto,
pouco se sabe sobre a colaborao de cada rea especfica para o crescimento da
rea de informtica em sade no Brasil. Nesse contexto a Plataforma Lattes CNPq
(lattes.cnpq.br) vem se tornando um padro para avaliao acadmica no pas,
contendo mais de um milho de currculos (Mena-Chalco e Cesar-Jr 2009),
possibilitando a realizao de estudos sobre colaborao acadmica (Hayashi et al.
2008). Na Plataforma Lattes cada currculo traz a produo cientfica indicada pelo
prprio pesquisador que responsvel pela veracidade da mesma. No h validao
pela Plataforma Lattes em bases indexadas, ou qualquer outra forma de validao.
Uma das abordagens de estudos sobre colaborao acadmica baseada na
aplicao de tcnicas de anlise de redes sociais (Molina 2005; Wellman 1997;
Wellman 1996). Neste caso, como so indicados os trabalhos e suas coautorias alm
de outras relaes acadmicas como orientador-orientando nos currculos, possvel
representar os pesquisadores e suas relaes como uma rede social acadmica e a
partir da analisar sua estrutura e dinmica. Assim este trabalho visa analisar a
colaborao acadmica das diversas reas envolvidas na pesquisa em informtica em
sade por meio de tcnicas de anlise de redes sociais.
Este estudo foi realizado no grupo de pesquisa Sade 360 junto ao Programa
de Ps-graduao em Gesto e Informtica em Sade, EPM UNIFESP. A pesquisa foi
conduzida como uma iniciativa pessoal deste pesquisador, mas contou com
discusses no grupo e com a colaborao posterior de alguns estudantes. Camila Di
Santo, graduanda, realizou uma iniciao cientfica no tema, a partir de uma bolsa de
estgio, e Marcelo Vasconcelos colaborou com uma reviso de trabalhos. Mais
recentemente Roberto Baptista, ps-graduando, iniciou uma anlise baseada em
anlise de rede social.

48

Rede Social da Informtica em Sade em 2008


Uma primeira abordagem foi realizada a partir dos nomes dos participantes do X
Congresso Brasileiro de Informtica em Sade (CBIS2006), tendo como hiptese que
seus

participantes

representam

minimamente

uma

lista

de

profissionais

pesquisadores que atuam em informtica em sade no Brasil. As atividades de


informtica em sade na UNIFESP completaram 20 anos em 2008, assim
consideramos interessante mapear as conexes entre os estudantes e profissionais da
rea para apresentar no CBIS2008 (Costa et al. 2008). Em especial, os dados deste
estudo colaboraram com uma viso da importncia das atividades colaborativas do
Prof. Dr. Daniel Sigulem, professor titular em informtica em sade, em homenagem
especial recebida na abertura do congresso.
Consideramos o currculo da Plataforma Lattes CNPq como base factual das
conexes entre as pessoas na poca por se tratar de um documento formal
amplamente utilizado pela comunidade acadmica. Da lista de 487 autores e 1.564
coautores foi gerada uma lista com 1.166 participantes nicos, mas apenas 793
possuam currculo Lattes. Tambm aplicamos a mesma metodologia, na poca, para
avaliar uma lista de 677 orientadores de 43 programas de ps-graduao da
UNIFESP, cujos nomes foram retirados do portal da Pr-reitoria de Ps-graduao e
Pesquisa, disponvel publicamente.
O objetivo inicial foi construir uma medida da conexo entre as pessoas
relacionadas como uma medida de popularidade nesta primeira abordagem,
denominada na poca ndice Pisa de Popularidade (IPP). Foi construdo um software
especfico usando Borland Delphi, denominado Small Lattes, para a realizao das
tarefas de coletar o currculo, conferir a identidade, efetuar as contagens e gerar
arquivos com os resultados encontrados. Consideramos os relacionamentos como
bidirecionais todos aqueles em que havia citao de um nome, abreviatura ou
combinaes de abreviaturas, em todas as sees do currculo, no exclusivamente
publicaes. Foram mapeados todos os caminhos de ligao entre as pessoas, sendo
grau 1 quando havia ligao direta entre duas pessoas, e grau 2 ou superior quando o
relacionamento dependia de intermedirios. O ndice Pessoas foi calculado com o
objetivo de quantificar o nmero de pessoas conectadas a um currculo por meio do
clculo da rea sob a curva de progresso de conexo enquanto que o ndice
Referncias considera a quantidade de citaes. Ao final, o IPP foi calculado
considerando-se ambos ndices como vetores num espao euclidiano bidimensional.
Maior distncia da origem representa maior popularidade. A Tabela 2 apresenta os 30
primeiros nomes da lista considerada no estudo.

49

Tabela 2 - Primeiros 30 nomes da rede social de 793 profissionais, pesquisadores e


estudantes da informtica em sade usando critrio do ndice Pisa de Popularidade.
Clculo realizado em 2008 (Costa et al. 2008).

Vale ressaltar que esse ndice representa uma medida da conexo da pessoa
com as demais pessoas da mesma lista, num conjunto fechado. No representa,
necessariamente, um ndice de qualidade (cientfica) desta colaborao. No entanto,
nomes bastante conhecidos da informtica em sade encontram-se mais no topo da
lista. Outra ressalva se d com relao ao uso do currculo Lattes. De fato, h muitas
pessoas que no utilizam essa plataforma de divulgao de sua produo, mas
razovel considerar que no caso de produo acadmica, tem sido o principal
instrumento de divulgao, normalmente considerado oficial para entrada em
programas de ps-graduao e concursos pblicos. Assim, entendemos que a
conexo medida a partir do Lattes pode no ser precisa, medida em que pode no
constar todos os seus relacionamentos. Mas pode ser considerada com um conjunto

50

mnimo. Ou seja, possvel que uma pessoa tenha mais conexo com os demais,
mas menos do que apontado no Lattes improvvel. Portanto, os erros do IPP
devem estar mais concentrados para as pessoas no final do ranking, quando h
possibilidade de nem toda conexo da pessoa ter sido computada (por estar ausente
do Lattes), que para as pessoas do topo da lista.
Ampliao da Anlise de Rede Social
Para esta segunda abordagem foram considerados os nomes dos participantes dos
Congressos Brasileiros de Informtica em Sade (CBIS) entre os anos de 2006 e
2012. Tambm foram includos os nomes dos scios da Sociedade Brasileira de
Informtica em Sade (SBIS). Outros nomes foram includos arbitrariamente devido
sua experincia, conhecimento e participao na rea de informtica em sade. No
entanto, no possvel afirmar que a lista trabalhada representa amplamente os
profissionais e pesquisadores que atuam na rea da informtica em sade no Brasil.
Possivelmente alguns nomes ficaram de fora. Ainda, apesar da lista inicial contar com
uma quantidade maior de nomes, apenas aqueles que possuem um currculo na
Plataforma Lattes CNPq permaneceram na lista final de anlise. Este estudo seguiu as
seguintes etapas: extrao dos currculos, representao em rede, extrao de
subredes por grandes reas e por reas segundo modelo CNPq, e clculo das
mtricas de anlise de redes sociais.
Para extrao dos currculos da Plataforma Lattes foi utilizado o software livre
ScriptLattes (Mena-Chalco & Cesar-Jr 2009) (scriptlattes.sourceforge.net). Este
software faz a extrao dos currculos de uma lista previamente informada e retorna os
dados de cada pesquisador e um compilado de sua produo cientfica. Cabe salientar
que o ScriptLattes tambm possui um algoritmo que identifica e elimina as produes
duplicadas. Gera relatrios, grafos e arquivos de apoio a partir da base extrada. Para
este trabalho foi utilizado como base o arquivo de grafo gerado pelo ScriptLattes no
formato graphml. O formato graphml um padro para representao de grafos
baseado em XML e utilizado pela maioria dos aplicativos de anlise de redes. No grafo
obtido, os pesquisadores foram representados como ns e as produes como
arestas.
Para a extrao de subredes, primeiramente o arquivo graphml foi importado
no software de visualizao e anlise de redes Gephi (gephi.org). A partir da foi
exportada uma lista de ns e uma lista de arestas, ambas no formato csv. A lista de
ns foi ento importada no software R (r-project.org) com a utilizao das bibliotecas
iGraph (igraph.sourceforge.net) e reshape (cran.r-project.org/web/packages/reshape).

51

A base analisada contm 889 nomes de profissionais e pesquisadores,


relacionados a 280 instituies (empresas, universidades, institutos, consultrios e
hospitais). As reas que foram obtidas destes currculos totalizam 72, cujo
preenchimento padronizado pelo Currculo Lattes distribudas em 9 grandes reas.
As subreas so de preenchimento livre pelo dono do currculo, o que resultou em 578
subreas distintas, aps avaliao de ambiguidade. Por fim, o dono do currculo pode
lanar um 4o nvel de rea, denominado especialidade, tambm de preenchimento
livre, o que resultou numa lista de 572 diferentes especialidades.
A Figura 6 apresenta um grafo de relao entre as 9 grandes reas dos
currculos. Os pontos vermelhos representam as grandes reas. As ligaes
representam a coocorrncia com repetio entre grandes reas nos currculos. A
espessura das arestas e os nmeros informados representam a quantidade destas
coocorrncias. Podemos notar que cincias exatas e da terra, juntamente com
cincias da sade e engenharias, representam as grandes reas mais significativas
em informtica em sade. Vale um destaque para profissionais das cincias da sade
apresentam ligao significativa com profissionais das cincias humanas e cincias
sociais aplicadas. J a Figura 7 adentra na especificao das reas dentro das
grandes reas, totalizando 72 reas. Os pontos representam as reas e as ligaes
representam a coocorrncia com repetio entre reas nos currculos. A espessura
das arestas representa a quantidade destas coocorrncias. A cor do n representa a
quantidade de ligaes de uma rea, independente da quantidade de coocorrncias:
azul significa mais ligaes, vermelho menos ligaes. O destaque fica para a ligao
entre cincias da computao, sade coletiva, educao, medicina, engenharia
biomdica e engenharia eltrica.
Quando so extradas subredes de currculos por cada grande rea so
observadas algumas grandes reas com pouca colaborao interna e outras com
grande colaborao interna, conforme representadas na Figura 8. A cor de cada ns
(currculo) representa o grau de ligao com outros currculos variando do vermelho
(menor grau, menos currculos ligados) ao azul (maior grau, mais currculos ligados). A
espessura das arestas representa a quantidade de coocorrncias entre currculos

52

Figura 6 - Grafo de relao entre as 9 grandes reas informadas nos currculos


analisados. Verso digital em goo.gl/LJrqZ2.

Figura 7 - Grafo de relao entre as 72 reas informadas nos currculos analisados.


Verso digital em goo.gl/M1ZIJw.

53

(a) cincias exatas e da terra, 395 currculos (goo.gl/JDQNvz)

(b) cincias da sade, 367 currculos (goo.gl/w1U43X)

54

(c) engenharias, 165 currculos (goo.gl/Ohk8hX)

(d) cincias humanas, 92 currculos (goo.gl/XfC2oy)

55

(e) cincias sociais aplicadas, 92 currculos (goo.gl/OO1kSw)

(f) cincias biolgicas, 66 currculos (goo.gl/M85giW)


Figura 8 - Grafos de relaes entre os currculos e suas ligaes (coautorias) dentro de
cada grande rea.

56

A Tabela 3 apresenta o total de currculos, coautorias, dimetros, densidade e


caminho mdico para cada grande rea. Dimetro pode ser descrito como o maior dos
menores caminhos entre 2 ns. O fato do valor do dimetro ser alto significa que pelo
menos 2 currculos possuem um menor caminho muito longo. Por isso importante
observar o valor do caminho mdio, que pode ser descrito como uma mdia dos
menores caminhos, uma distncia mdia entre 2 currculos. J a densidade pode ser
descrita como uma medida do quanto os currculos esto ligados dentro do grupo. Se
todos os currculos se interligam, a densidade 1; se nenhum currculo se interliga, a
densidade 0. A Tabela 4 considera apenas as 5 reas mais citadas. Vale notar que
h uma quantidade grande de currculos (106) para os quais no houve indicao de
rea, apenas da grande rea. Considera-se empiricamente na anlise de rede social
que 0,04 o valor mnimo aceito para uma densidade. Neste caso, todas as 5 reas
apresentam densidades muito baixas, demonstrando um carter de ligao esparsa.
Por exemplo, a rea da cincia da computao contm 362 currculos com densidade
de apenas 0,0058, apesar do caminho mdio ser 5,8, o que representa um grafo
esparso.

Tabela 3 - Mtricas globais dos grafos de relaes entre os currculos e suas ligaes
(coautorias) dentro de cada grande rea.

Tabela 4 - Mtricas globais dos grafos de relaes entre os currculos e suas ligaes
(coautorias) dentro das cinco reas mais citadas.

A Tabela 5 apresenta os 5 nomes (currculos) que apresenta maiores valores


de intermediao (betweenness) e proximidade (closeness) (Brandes 2001),

57

monstrando significativa centralidade no grafo. Apenas as grandes reas cincias


exatas e da terra (395 currculos) e cincias da sade (367 currculos) esto
representadas como destaque porque as demais reas apresentam valores muito
abaixo dos valores de intermediao e proximidade destas duas.

(a) intermediao e proximidade global

(b) intermediao e proximidade nas 2 maiores grandes reas


Tabela 5 - Top 5 de mtricas de centralidade (intermediao e proximidade) (a) global e
(b) nas 2 maiores grandes reas da informtica em sade.

Por fim, a Figura 9 apresenta um mapa completo de todos os currculos e suas


ligaes de coautorias. Este grafo apresenta um dimetro de 15, caminho mdio
5,7634 e densidade 0,003, o que refora o entendimento de que se trata de uma rede
esparsa. Estes resultados compem um artigo que est em fase de finalizao para
submisso em um peridico internacional no incio de 2014. Os resultados parciais,
aqui apresentados, comprovam o aspecto interdisciplinar da informtica em sade a
partir da rede de coautoria proveniente dos currculos da Plataforma Lattes CNPq.

Figura 9 - Grafos de relaes entre todos os currculos e suas ligaes (coautorias). Verso digital em goo.gl/jto2Gs.

58

59

Rede Social Acadmica da Informtica em Sade


As medidas de coautoria representam apenas um aspecto, significativo mas no
nico, das atividades desses profissionais. Critrios usuais de qualidade das
publicaes no foram considerados nas mtricas calculadas. Apenas o aspecto da
quantidade com formao de topologia foi calculado pela anlise de rede social
realizada. Assim, o fato de um profissional constar como bastante colaborativo nesta
anlise no garante que suas colaboraes geram impacto positivo na rea da
informtica em sade, nem a ausncia de ligao demonstra falta de qualidade no que
produzido e relatado nos currculos.
No entanto, estes indicativos fornecem uma viso parcial bastante rica e
informativa sobre a colaborao dos profissionais. Reconhece-se que ao manterem
colaborao intensa ao longo de suas carreiras, esses indivduos (acadmicos,
profissionais industriais, profissionais comerciais ou estudantes) aumentam seu
potencial de contribuio para a rea, dentro dos objetivos e da atividade profissional
que escolheu para si. Entende-se que um acadmico, por exemplo, se beneficia ao
manter atividade colaborativa por meio da formao de novos profissionais e por meio
de pesquisas cientficas e tecnolgicas. Profissionais comerciais ou industriais tambm
se beneficiam com prticas colaborativas em seus negcios. Estudantes, graduandos
ou ps-graduandos, podem se beneficiar de oportunidades e conhecimentos ao
colaborarem com seus pares, pesquisadores ou profissionais j estabelecidos no
mercado da informtica em sade. O aspecto da colaborao constitui um dos pilares
fundamentais para um pleno desenvolvimento de uma rea interdisciplinar como a
rea da informtica em sade.
H sempre ressalvas quando estudos so realizados a partir dos currculos da
Plataforma Lattes CNPq, que trata da sua limitao quanto representatividade.
Podemos dizer que os indivduos que desempenham atividades acadmicas
reconhecem o devido valor ao preenchimento de suas atividades na Plataforma Lattes
por esta ser considerada um instrumento oficial de divulgao e avaliao nas
universidades e institutos de pesquisa. Mas, mesmo para este pblico, nem sempre a
produo decorrente das colaboraes relatada no Lattes, tornando o conjunto dos
dados necessrio, mas no suficiente. Os indivduos que aparecem como mais
colaborativos certamente cuidam para que sua produo esteja relatada no Lattes. J
para os indivduos pouco colaborativos, no podemos afirmar o oposto porque pode
ser que no haja colaborao de fato, ou h mas no est relatada no Lattes. Os erros
embutidos na anlise que realizamos devem estar mais concentrados para os
indivduos no final do ranking, quando h possibilidade de nem toda ligao de

60

coautoria ter sido computada (por estar ausente do Lattes), que para os indivduos do
topo.
Nas reas industrial e comercial no h reconhecimento sobre o uso do Lattes
como tal, portanto, acaba sendo um instrumento menos utilizado. Estudos futuros mais
precisos necessitam incluir no conjunto de dados colaboraes divulgadas em outros
repositrios. De fato, podemos dizer que a anlise baseada no Lattes representa muito
mais uma colaborao acadmica que propriamente da rea como um todo. Estudos
sobre a ligao destes indivduos com outras reas, por exemplo eliminando a barreira
da limitao do conjunto fechado da informtica em sade (por rea e por pas), j
esto sendo realizadas no grupo de pesquisa. Alm disso, anlises independentes que
respeitem a cronologia das colaboraes podem apontar quais indivduos j foram,
quais esto sendo e possivelmente quais sero mais colaborativos na rea de
informtica em sade no Brasil.

2.4. Consideraes Finais

Inicialmente nossos estudos sobre a rea da informtica em sade concentraram-se


apenas no esforo na compreenso das nomenclaturas que so utilizadas na literatura
e em reunies cientficas. H literatura disponvel (Shortliffe e Cimino 2006) que
discute, em relao tecnologia da informao e comunicao, os conceitos,
aplicaes, prticas, mtodos e impactos na sociedade em geral, nos sistemas de
sade, na assistncia diretamente e tambm para benefcio individual do consumidor
em sade. No entanto, nosso interesse em conhecer o que se publicava na rea,
como essas nomenclaturas se relacionavam e qual era a opinio de profissionaischave no pas expandiram nossos horizontes. Pela curiosidade cientfica continuamos
a avanar em tais investigaes para outros campos de representao da rea da
informtica em sade.
Do ponto de vista epistemolgico foi possvel constatar que a informtica em
sade , de fato, uma cincia aplicada interdisciplinar denominada tecnocincia , a
qual se ocupa da soluo de problemas de um amplo leque de domnios e fatos das
cincias da sade e da vida e da prtica do cuidado em sade, por meio da pesquisa
cientfica interdisciplinar e do desenvolvimento de tecnologias prprias para uso na
sociedade (Colepcolo 2008). A cincia contida na informtica em sade se mostrou
proveniente de sua base interdisciplinar e o seu corpo de conhecimento composto
por objetos e fatos de domnio tecnolgico. A sua problemtica concentra-se na

61

resoluo de problemas das cincias da sade e da vida, portanto, tecnocientfica.


Seu aspecto de cincia/tecnologia aplicada tem fundamentao lgica e racional, e
pauta-se em um conjunto de padres, modelos, regras, normas e convenes que
norteiam sua pesquisa e desenvolvimento. H um grande esforo da rea em
consolidar-se como uma cincia independente; porm, fortemente composta por
conceitos interdisciplinares provenientes de outras cincias. O conjunto dos conceitos
cientficos da rea que tm funo na formao de suas teorias pequeno, sendo a
maioria de origem interdisciplinar. Seu aspecto artstico mnimo e tambm
interdisciplinar.
Os principais objetos do domnio da informtica em sade so a aquisio,
transferncia, armazenamento, processamento automtico e anlise de dados,
informao e de conhecimento em cincias da sade e da vida. Os problemas
concentram-se no desenvolvimento de tecnologias e sistemas que contribuam com a
gesto, aquisio, armazenamento, organizao, recuperao e distribuio de dados,
informao e conhecimento em sade em qualquer suporte, seja texto, imagens, sons
ou sinais, para o apoio tomada de deciso na administrao, educao e cuidado
em sade. Assim, a nomenclatura que melhor se adequa para a rea, embora no
utilizada, o termo informtica em biossade, que d conta da aplicao da
informtica s cincias da vida ou biolgicas e s cincias da sade (Colepcolo 2008).
Nossa investigao sobre os processos de classificao e indexao de artigos
cientficos na rea de informtica em sade teve incio a partir da anlise realizada a
partir de 430 mil artigos vindos do PubMed (Colepcolo 2008). Foi possvel avaliar a
ligao de termos sendo usados por estes artigos em comparao com uma rvore
padronizada de termos, EpistemIS, em contraste com a opinio de profissionaischave. Nossa inteno, em continuar estes estudos, foi buscar expandir estes
conhecimentos adquiridos no grupo de pesquisa para uma aplicao prtica. Assim,
decidimos focar na classificao e indexao de artigos cientficos, por meio do Portal
ISI Web of Knowledge, o que nos levou a conhecer um mtodo automatizado utilizado
pela National Library of Medicina (NLM), EUA, denominado Journal Descriptor
Indexing (JDI). Estes aprendizados influenciaram a maneira como considervamos,
dentro do grupo de pesquisa, a aplicao de mtodos quantitativos para classificao
e indexao de contedos textuais. Neste caso, aplicamos com sucesso esta
metodologia para realizar uma proposio de expanso na maneira como os artigos
da nossa rea so classificados e indexados no portal (Teixeira 2011). Tambm
conseguimos adaptar o mesmo mtodo para classificao e indexao de contedos
sobre sade de pginas web usando 19 categorizaes padronizadas (Sousa 2011) e
para anlise de sentimento de opinies relativas a temas de sade publicados por

62

consumidores em mdias sociais (seo Estudo em Andamento: Anlise de


Sentimento de Opinies no Twitter, Captulo 2, pg. 91).
Ao trabalhar com a opinio de profissionais-chave sobre nomenclaturas e
conceitos da rea da informtica em sade tivemos nossa curiosidade despertada
para explicitar como estes profissionais se relacionavam. Ficou claro, a partir das
respostas que tivemos, que os profissionais apresentam conceituaos em grupos, por
agrupamentos, a partir de suas formaes e ligaes. Mesmo a regio e o tipo de
instituio do profissional geravam diferenas de viso sobre a rea. Naturalmente o
tema rede social entrou em nossa agenda. Inicialmente como um exerccio cientfico
foi possvel mapear a ligao do Prof. Dr. Daniel Sigulem com demais pesquisadores
no pas para uma homenagem a ele realizada no XIII Congresso Brasileiro de
Informtica em Sade (CBIS2008), em Campos de Jordo. Tambm foi possvel
calcular um nvel de relacionamento entre os pesquisadores (orientadores de psgraduao) da prpria UNIFESP, na poca.
A aplicao de tcnicas e algoritmos da anlise de rede social tomou conta do
interesse de muitos pesquisadores a partir dos fenmenos populares de redes sociais
eletrnicas. Aps uma fase inicial de experimentaes foi possvel iniciar estudos mais
formais que possibilitaram em 2012 uma descrio mais robusta da ligao entre os
profissionais (Santo et al. 2012). Em 2013 refizemos as anlises, apresentadas nesta
tese, com dados atualizados e ampliao da rede social, o que nos possibilitou
observar fenmenos de ligao entre as principais reas que compem a
interdisciplinaridade da informtica em sade a partir da auto-declarao das pessoas
em seus currculos da Plataforma Lattes CNPq. Estes resultados, que sero
submetidos para publicao, identificam indivduos e relacionamentos que podem
colaborar com a construo de um sistema de recomendao acadmica (Herlocker
et al. 1999) na rea da informtica em sade, que ser nosso prximo passo de
estudo.
Acreditamos que a rea da informtica em sade se beneficia da aplicao de
processos e tcnicas da descoberta de conhecimento e minerao de dados para sua
prpria anlise e evoluo epistemolgica. Os resultados de pesquisas qualitativas na
rea, o esforo de acadmicos e profissionais em conduzir um progresso na rea por
meio de congressos e discusses cientficas, e sistemas de avaliao dos rgos de
fomento podem se beneficiar com os resultados que a aplicao de minerao de
dados e texto geram. A exposio de fenmenos epistemolgicos, estatsticos e de
rede social podem colaborar para definio dos rumos da rea da informtica em
sade no Brasil.

63

2.5. Referncias
Aiguzhinov A, Soares C, Serra AP. A similarity-based adaptation of naive bayes for
label ranking: application to the metalearning problem of algorithm
recommendation [Internet]. In: Proceedings of the 13th international
conference on Discovery science. Berlin, Heidelberg: Springer-Verlag; 2010
[cited

2011

Jun

9].

p.

1626.

Available

from:

http://portal.acm.org/citation.cfm?id=1927300.1927302.
Altman DG. Practical Statistics for Medical Research. 1st ed. New York: Chapman and
Hall/CRC; 1990.
AMIA. American Medical Informatics Association. The science of informatics.
Bethesda: AMIA, 2013. Last updated: 2013. [cited 2013 Oct 20]. Available
from: http://www.amia.org/about-amia/science-informatics.
Baeza-Yates RA, Ribeiro-Neto B. Modern Information Retrieval. Boston: AddisonWesley Longman Publishing Co., Inc.; 1999.p. 163-189.
Bauer DF. Constructing Confidence Sets Using Rank Statistics. Journal of the
American Statistical Association 1972;67(339):68790.
Bernstam EV, Smith JW, Johnson TR. What is biomedical informatics? J Biomed
Inform 2010;43(1):10410.
Borgatti SP, Foster PC.The network paradigm in organizational research: a review and
typology. Journal of Management 2003 Dec;29(6):991-1013.
Brandes U. A faster algorithm for betweenness centrality. The Journal of Mathematical
Sociology. 2001;25(2):16377.
Bunge M. Cincia e desenvolvimento. Belo Horizonte/So Paulo: Itatiaia/EDUSP;
1980.
Bunge M. Epistemologia: curso de atualizao. 2.ed. Trad. Claudio Navarra. So
Paulo: T.A.Queiroz; 1987.
Bunge M. La investigacin cientfica. Barcelona: Ariel; 1969.
Colepcolo E, Matsubara ET, Falco AEJ, Pisa IT. Uso da ferramenta PreText para
minerao de textos extrados do NCBI para estudo epistemolgico da
Informtica em Sade. Revista de Informtica Terica e Aplicada, v. 16, p. 924, 2009.
Colepcolo E. Epistemologia da informtica em sade: entre a teoria e a prtica. So
Paulo. Dissertao [Mestrado em Informtica em Sade] - Universidade
Federal de So Paulo; 2008.

64

Costa TM, Hummel AD, Falco AEJ, Mancini F, Ribeiro VPS, Alves D, Pisa IT.
LattesRank. Ranking dos participantes do Congresso Brasileiro de Informtica
em Sade 2006 baseado no grau de conexo via currculo Lattes. In: XI
Congresso Brasileiro de Informtica em Sade - CBIS 2008, Anais do XI
Congresso Brasileiro de Informtica em Sade. Sociedade Brasileira de
Informtica em Sade SBIS, Campos do Jordo, 2008, SP.
Della Mea V. What is e-Health (2): The death of telemedicine? J Med Internet Res.
2001 Jun 22;3(2):e22.
DeShazo JP, Lavallie DL, Wolf FM. Publication trends in the medical informatics
literature: 20 years of Medical Informatics in MeSH. BMC Med Inform Decis
Mak. 2009;9(1):7.
Di Chiara IG, Alcar AR, Tanzawa ECL, Rodrigues JL. As citaes como base da rede
social egocntrica: o artigo citado e suas conexes. In: Anais do VII Encontro
Nacional de Pesquisa em Cincia da Informao - ENANCIB; 2006; Marlia,
So Paulo. Marlia: Unesp. p. 441-52. [acesso em: 12 jan. 2007]. Disponvel
em: <http://www.portalppgci.marilia.unesp.br/enancib/viewpaper.php?id=134>.
Ebecken NF, Lopes MCS, Costa MCA. Minerao de textos. In: Rezende SO. (Org.).
Sistemas inteligentes. Barueri: Manole; 2003. p. 337-70.
Eysenbach G. What is e-health? J Med Internet Res. 2001 Apr-Jun 18;3(2):e20.
Fischer T. A formao do administrador brasileiro na dcada de 90: crise,
oportunidade e inovaes nas propostas de ensino. RAP - Revista de
Administrao Pblica. 1993 Out/Dez;27(4):11-20.
Freeman

LC.

Some

antecedents

of

social

network

analysis.

Connections

1996;19(1):39-42.
Gehanno J-F, Rollin L, Jean T, Louvel A, Darmoni S, Shaw W. Precision and Recall of
Search Strategies for Identifying Studies on Return-To-Work in Medline. J
Occup Rehabil 2009;19(3):22330.
Georgiou A. Data, information and knowledge: the health informatics model and its role
in evidence-based medicine. J Eval Clin Pract 2002 May;8(2):127-30.
Greenes RA, Shortliffe EH. Medical informatics. An emerging academic discipline and
institutional priority. JAMA 1990 Feb 23;263(8):111420.
Guthrie L, Walker E, Guthrie J. Document classification by machine: theory and
practice [text on the Internet]. In: Proceedings of the 15th conference on
Computational linguistics - Volume 2; 1994; Stroudsburg, PA, USA:
Association for Computational Linguistics; p. 105963. [cited 2011 May 18].
Available from: http://dx.doi.org/10.3115/991250.991322.

65

Hanson AF. From classification to indexing: how automation transforms the way we
think. Social Epistemology: A Journal of Knowledge, Culture and Policy
2004;18(4):333.
Hayashi

MCPI, et al. Anlise de redes de co-autoria na produo cientfica em


educao especial. Liinc em Revista 2008 Mar [acesso em 02 nov
2010];4(1):84-103.

Disponvel

em

http://revista.ibict.br/liinc/index.php/liinc/article/view/274.
Herlocker, Konstan, Borchers, Riedl. An Algorithmic Framework for Collaborative
Filtering. Proc. SIGIR 1999.
Hope ACA. A simplified Monte Carlo significance test procedure. J R Stat Soc Series B
Stat Methodol 1968;30(3):58298.
Humphrey SM, Nvol A, Browne A, Gobeil J, Ruch P, Darmoni SJ. Comparing a rulebased versus statistical system for automatic categorization of MEDLINE
documents according to biomedical specialty. J. Am. Soc. Inf. Sci. Technol.
2009;60(12):25309.
Humphrey SM, Rogers WJ, Kilicoglu H, Demner-Fushman D, Rindflesch TC. Word
sense disambiguation by selecting the best semantic type based on Journal
Descriptor Indexing: preliminary experiment. J. Am. Soc. Inf. Sci. Technol
2006 Jan 1;57(1):96113.
Humphrey SM. A new approach to automatic indexing using journal descriptors.
Proceedings of the ASIS Annual Meeting 1998;35:496500.
Humphrey SM. Automatic Indexing of Documents from Journal Descriptors: A
Preliminary Investigation. J Am Soc Inf Sci 1999;50(8):661-74.
Humphreys BL, Lindberg DA, Schoolman HM, Barnett GO. The Unified Medical
Language System: an informatics research collaboration. J Am Med Inform
Assoc 1998;5(1):111.
IMIA. International Medical Informatics Association. MedInfo 2013. Last updated: 2012.
[cited 2013 Oct 20]. Available from: http://www.medinfo2013.dk/node/13.
Ivanitskaya L, OBoyle I, Casey AM. Health information literacy and competencies of
information age students: results from the interactive online Research
Readiness Self-Assessment (RRSA). J Med Internet Res. 2006 Apr
21;8(2):e6.
Joachims T. A probabilistic analysis of the Rocchio Algorithm with TFIDF for text
categorization. In ICML '97 Proceedings of the Fourteenth International
Conference on Machine Learning; 1997. San Francisco: Morgan Kaufmann
Publishers Inc; 1997. p. 143-151.

66

Kastrin A, Peterlin B, Hristovski D. Chi-square-based scoring function for categorization


of MEDLINE citations. Methods Inf Med 2010;49(4):3718.
Knaup P, Dickhaus H. Perspectives of medical informatics: advancing health care
requires interdisciplinarity and interoperability. Special topic on the occasion of
the 35th anniversary of the Heidelberg/Heilbronn curriculum of medical
informatics. Methods Inf Med 2009;48(1):1-3.
Lan M, Tan C, Low H, Sung S. A comprehensive comparative study on term weighting
schemes for text categorization with support vector machines. In: WWW 05:
Special interest tracks and posters of the 14th International Conference on
World Wide Web. Chiba, Japan: ACM Press; 2005. p. 10323.
Lan M, Tan C-L, Low H-B. Proposing a new term weighting scheme for text
categorization [Internet]. In: Proceedings of the 21st national conference on
Artificial intelligence - Volume 1. AAAI Press; 2006 [cited 2011 Apr 29]. p.
7638.Available from: http://portal.acm.org/citation.cfm?id=1597538.1597660.
Lancaster FW. Vocabulary control for information retrieval. Washington: Information
Resources Press; 1972.
Lewis DD, Gale WA. A sequential algorithm for training text classifiers [Internet]. In:
Proceedings of the 17th annual international ACM SIGIR conference on
Research and development in information retrieval. New York, NY, USA:
Springer-Verlag New York, Inc.; 1994 [cited 2011 May 18]. p. 312. Available
from: http://portal.acm.org/citation.cfm?id=188490.188495.
Li H, Yamanishi K. Document classification using a finite mixture model [Internet]. In:
Proceedings of the 35th Annual Meeting of the Association for Computational
Linguistics and Eighth Conference of the European Chapter of the Association
for Computational Linguistics. Stroudsburg, PA, USA: Association for
Computational Linguistics; 1997 [cited 2011 May 18]. p. 3947. Available
from: http://dx.doi.org/10.3115/976909.979623.
Liang C-Y, Guo L, Xia Z-J, Nie F-G, Li X-X, Su L, et al. Dictionary-based text
categorization of chemical web pages. Information Processing & Management
2006;42(4):101729.
Maas AAF, Hoopen AJ, Hofstede AHM. Progress with Formalization in Medical
Informatics? J Am Med Inform Assoc., v.8, n.2, p. 126130, mar.-apr. 2001.
Available

from:

http://www.pubmedcentral.nih.gov/articlerender.fcgi?artid=134552. [cited 2007


Oct 29].
Magdy W, Jones G. PRES: a score metric for evaluating recall-oriented information
retrieval applications [Internet]. In: Proceeding of the 33rd International ACM

67

SIGIR

conference

on

Research

and

development

in

information

retrieval.Geneva, Switzerland: ACM; 2010 [cited 2011 May 5]. p. 611


8.Available from: http://dx.doi.org/10.1145/1835449.1835551.
Mantas J, Ammenwerth E, Demiris G, Hasman A, Haux R, Hersh W, et al.
Recommendations of the International Medical Informatics Association (IMIA)
on Education in Biomedical and Health Informatics. Methods Inf Med [Internet]
2010 [cited 2011 Mar 9]. Available from: http://goo.gl/wZHB5O.
Maojo V, Martn F, Crespo J, Billhardt H. Theory, abstraction and design in medical
informatics. Methods Inf Med 2002;41(1):4450.
Marteleto RM, Silva AB. de O. Redes e capital social: o enfoque da informao para o
desenvolvimento local. Cincia da Informao 2004 Set/Dez;33(3):41-9.
Marteleto RM. Anlise de redes sociais: aplicao nos estudos de transferncia da
informao. Cincia da Informao 2001 Jan/Abr;30(1):71-81.
Matheus RF, Silva AB. de O. Anlise de redes sociais como mtodo para a Cincia da
Informao. DataGramaZero . Revista de Cincia da Informao Abr 2006
[acesso

em

20

nov

2006];7(2).

Disponvel

em:

http://www.dgz.org.br/abr06/F_I_art.htm.
Matsubara ET. PreText: an environment for pre-processing text for Text Mining. ltima
atualizao: 15 jun. 2005.[acesso em 13 dez 2006]. Disponvel em:
http://www.icmc. usp.br/~edsontm/PreText/PreText.html.
Mena-Chalco JP, Cesar-Jr RM. ScriptLattes: An open-source knowledge extraction
system from the Lattes platform. Journal of the Brazilian Computer Society
2009;15(4):31-9.
Mitchell JG. From Telehealth to E-health: The unstoppable rise of E-health [text ont the
Internet].

Canberra:

Commonwealth

Department

of

Communications,

Information Technology and the Arts; 1999 [cited 2007 Oct 29]. Available from:
http://www.archive.dcita.gov.au/1999/09/rise#foreword.
Molina JL. El estdio de las redes personales: contribuciones, mtodos y perspectivas.
Empiria 2005 Jul-Dec;10:71-106.
Nigam K, McCallum A. A comparison of event models for Naive Bayes text
classification. In: AAAI-98 Workshop on Learning for Text Categorization;
1998. p. 418.
NLM. Medical Subject Headings: files available to download. [Internet].[cited 2006 Jun
02]. Available from: http://www.nlm.nih.gov/mesh/filelist.html
NLM/NIH/NBCI. PubMed: a service of the National Library of Medicine and the National
Institutes

of

Health.

[Internet].[cited

2007

Out

03].

http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=PubMed

Available

from:

68

Oh H, Rizo C, Enkin M, Jadad A, Powell J, Pagliari C. What Is eHealth (3): A


Systematic Review of Published Definitions. J Med Internet Res [Internet].
2005

Feb

24

[cited

2013

Oct

27];7(1).

Available

from:

http://www.jmir.org/2005/1/e1/.
Oliveira SC. Anlise de redes sociais em grupos de pesquisa de gesto do
conhecimento da Plataforma Lattes. 2006. 36 f. Trabalho de Concluso de
Curso

(Graduao

em

Biblioteconomia

Cincia

da

Informao)

Universidade Federal de So Carlos, So Carlos, 2006.


Otte E, Rousseau R. Social network analysis: a powerful strategy, also for information
sciences. Journal of Information Science 2002 [acesso em 27 nov
2006];28(6):441-53. Available from: http://goo.gl/7BH71K.
Parent F, Coppieters Y, Parent, M. Information technologies, health, and globalization:
anyone excluded? J Med Internet Res.2001;3(1):e11.
Porter M. An algorithm for suffix stripping. Program 1980;14(3):1307.
Porter M. The Porter Stemming Algorithm [Internet].[acesso em 21 out. 2007]. ltima
atualizao:

jan.

2006.

Disponvel

em:

http://tartarus.org/~martin/PorterStemmer.
Radlinski F, Craswell N. Comparing the sensitivity of information retrieval metrics. In:
Proceeding of the 33rd international ACM SIGIR Conference on Research and
Development in Information Retrieval. New York, NY, USA: ACM; 2010. p.
66774.
Rodrigues SB, Carrieri AP. A Tradio Anglo-Saxnica nos estudos organizacionais
brasileiros. RAC Revista de Administrao Contempornea 2001:81-102.
Royston J. An Extension of Shapiro and Wilks W Test for Normality to Large Samples.
J R Stat Soc Ser C Appl Stat [Internet] 1982 [cited 2011 Jun 16];31(2).
Available from: http://dx.doi.org/10.2307/2347973.
Salton G, Buckley C. Term-weighting approaches in automatic text retrieval.
Information Processing and Management 1988;24:513--523.
Salton G, Buckley C. Term-weighting approaches in automatic text retrieval.
Information Processing and Management.1988;24:513-23.
Salton G, McGill MJ. Introduction to Modern Information Retrieval [Internet]. McGrawHill,

Inc.;

1986

[cited

2009

Feb

3].

Available

from:

http://portal.acm.org/citation.cfm?id=576628.
Salton G, Wong A, Yang CS. A vector space model for automatic indexing. Commun.
ACM 1975;18:61320.

69

Santo CC, Bonome KS, Teixeira F, Araujo GD Pisa IT. Rede Social de Currculos
Lattes da Informtica em Sade Brasileira. In: XIII Congresso Brasileiro de
Informtica em Sade - CBIS2012; 2012 Nov 19-23; Curitiba, PR: 2012. p1-2.
Schuemie MJ, Talmon JL, Moorman PW, Kors JA. Mapping the Domain of Medical
Informatics. Methods Inf Med [Internet] 2009 [cited 2011 Mar 9];Available
from: http://goo.gl/vaPUZl.
Shortliffe EH, Cimino JJ. Biomedical Informatics: Computer Applications in Health Care
and Biomedicine. Springer; 2006.
Shortliffe EH. Medical informatics meets medical education. JAMA 1995;273(13):1061,
1064-5.
Sigulem, D. Um novo paradigma de aprendizado na prtica mdica da UNIFESP/EPM.
So Paulo. Tese [livre-docncia] - Universidade Federal de So Paulo/Escola
Paulista de Medicina. 1997.
Silva ABO, Matheus RF, Parreiras FS, Parreiras TAS. Estudo da rede de co-autoria e
da interdisciplinaridade na produo cientfica com base nos mtodos de
anlise de redes sociais: avaliao do caso do programa de psgraduao
em cincia da informao PPGCI/UFMG [acesso em: 27 nov 2006] 2006a.
Enc. Bibli: R. Eletr. Bibliotecon. Disponvel em: <http://www.encontrosbibli.ufsc.br/>.
Silva ABO, Parreiras FS, Matheus RF, Brando WC. Redes de co-autoria dos
professores da cincia da informao: um retrato da colaborao cientfica
dessa disciplina no Brasil. In: Anais do VII Encontro Nacional de Pesquisa em
Cincia da Informao - ENANCIB 7; 2006; Marlia, SP. Marlia: FFC/UNESP;
2006b

[acesso

em

abr

2007].

p.

441-452.

Disponvel

em:

http://www.portalppgci.marilia.unesp.br/enancib/viewpaper.php?id=130.
Sohn S, Kim W, Comeau DC, Wilbur WJ. Optimal training sets for Bayesian prediction
of MeSH assignment. J Am Med Inform Assoc 2008;15(4):54653.
Sousa FS. Anlise Comparativa de Mtodos de Recuperao de Informao para
Categorizao de Contedos Web Relacionados Sade. So Paulo.
Dissertao [Mestrado em Cincias - Gesto e Informtica em Sade] UNIFESP; 2011.
Spreckelsen C, Deserno T, Spitzer K. Visibility of medical informatics regarding
bibliometric indices and databases. BMC Med Inform Decis Mak 2011 Apr
15;11:24.
Teixeira FO. Classificao e Indexao de artigos cientficos Internacionais de
Informtica em Sade. So Paulo. Dissertao [Mestrado em Cincias Gesto e Informtica em Sade] - Universidade Federal de So Paulo; 2011.

70

Text Categorization [Internet]. Text Categorization 2011 [cited 2011 Jul 15]. Available
from:
http://lexsrv3.nlm.nih.gov/LexSysGroup/Projects/tc/current/web/index.html
Thomson ISI. ISI HighlyCited.com: Willett, Walter C. Last update: 2002 Nov 22.
Available from: http://goo.gl/rtixET. [cited 2013 Oct 20].
Trieschnigg D, Pezik P, Lee V, de Jong F, Kraaij W, Rebholz-Schuhmann D. MeSH
Up: effective MeSH text classification for improved document retrieval.
Bioinformatics 2009;25(11):14128.
Van Bemmel JH. (Ed.). Handbook of Medical Informatics. Rotterdam: Erasmus
University,

1999.

[cited

2013

Oct

20].

Available

from:

http://www.mieur.nl/mihandbook/r_3_3/ handbook/home.htm.
Van Bemmel JH. Medical Informatics Is Interdisciplinary avant la Lettre.Methods Inf
Med [Internet] 2008 [cited 2011 Mar 9]. Available from: http://goo.gl/awvzlV.
Vasuki V, Cohen T. Reflective random indexing for semi-automatic indexing of the
biomedical literature. J Biomed Inform 2010;43(5):694700.
Wasserman S, Faust K. Social network analysis: methods and applications.
Cambridge: Cambridge University Press, 1999. 857p.
Watts DJ, Dodds PS, Newman ME. Identity and search in social networks. Science
2002 May 17;296(5571):1302-5.
Wellman B. An electronic group is virtually a social network. Culture of the Internet
1997; 4: 179-205.
Wellman B. For a social network analysis of computer networks: a sociological
perspective on collaborative work and virtual comunity. In: Proceedings of
SIGCPR/SIGMIS. Denver, CO: ACM Press, 1-11, 1996.
WMA. Responsibilities and ethical guidelines in the practice of telemedicine.
[Declarao de Telaviv]. Adopted by the 51st World Medical Assembly Tel
Aviv, Israel, October 1999 and rescinded at the WMA General Assembly,
Pilanesberg, South Africa, 2006 [cited 2013 Oct 16]. Available from:
http://www.wma.net/e/policy/a7.htm.
Yang Y, Pedersen J. A comparative study on feature selection in text categorization
[Internet]. In: Proceedings of ICML-97, 14th International Conference on
Machine Learning. Morgan Kaufmann Publishers, San Francisco, US; 1997
[cited

2011

Aug

20].

p.

41220.Available

from:

http://citeseerx.ist.psu.edu/viewdoc/summary.
Zhang W, Yoshida T, Tang X. A comparative study of TF*IDF, LSI and multi-words for
text classification. Expert Syst Appl 2011;38(3):275865.

71

3.

ESTUDOS EM INFORMTICA PARA A SADE DO

CONSUMIDOR
O termo informtica para a sade do consumidor (IMIA 2013; AMIA 2013), tambm
empregado como informtica para o consumidor em sade, ou informtica em sade
para o consumidor, representa a rea de aplicao da informtica do ponto de vista
dos consumidores e pacientes. Os temas incluem informtica focada no paciente,
literacia em sade e educao do consumidor. O foco das pesquisas encontra-se nas
estruturas e processo de informao que aumentam o poder do consumidor em
gerenciar sua prpria sade, como exemplos, literacia em informao em sade,
linguagem adequada ao consumidor, registro eletrnico em sade, modalidades de
entrega de informao e estratgias e recursos baseados na web.
Esta rea apresenta anlises do uso da informtica na perspectiva do
consumidor e suas necessidades de informao, estudos e mtodos implementados
para tornar a informao acessvel ao consumidor, e modelos e integrao de
preferncias do consumidor em sistemas de informao em sade. Informtica para a
sade do consumidor se situa no cruzamento de diferentes disciplinas como
informtica em enfermagem, sade pblica, promoo da sade, educao em sade,
cincia da informao e documentao, e cincia da comunicao.
A rea da informtica para a sade do consumidor, considerada uma das 5
grandes reas relevantes da informtica em sade (AMIA 2013), com representao
de um grupo de trabalho especfico na International Medical Informatics Association
(IMIA 2013), tambm pode ser descrita como o uso de recursos modernos de
computao e telecomunicao para apoiar consumidores na obteno de informao,
analisando suas necessidades individuais de assistncia em sade e auxiliando-os em
suas decises em benefcio de sua prpria sade (U. S. General Accounting Office
1996 pg. 1).
Este

captulo apresenta 3

temas

que representam

um esforo

de

desenvolvimento cientfico e tecnolgico na rea da informtica para a sade do


consumidor:
1. investigao

de

uma

classificao

automatizada

de

contedos,

especificamente textuais, sobre sade na web;


2. estudos sobre a percepo do consumidor sobre a qualidade da informao de
sade disponvel na web e percepo de critrios ticos; e

72

3. aplicao de mensagens para celular para colaborar na adeso a tratamentos


e no impacto clnico de pacientes.

Nossos objetivos ao realizar estes estudos no grupo de pesquisa foram propor


um mecanismo de classificao de contedos sobre sade na web que beneficiasse o
consumidor em sade brasileiro, compreender como estes contedos na web so
percebidos pelo consumidor e investigar o impacto de aes simples do emprego de
tecnologia diretamente no cotidiano do consumidor (aqui, no caso, envio de torpedo de
celular) para seu benefcio em sade.
As sees apresentam literatura da rea, expondo resultados significativos,
suas tcnicas e abordagens, e acompanha uma descrio resumida dos estudos
realizados

pelo

pesquisador

nos

temas

relacionados.

Esto

indicados

os

colaboradores que atuaram nos estudos aqui apresentados.

3.1. Classificao de Contedo sobre Sade na Web

Colaboraram com estes estudos


Alex Esteves Jaccoud Falco, Felipe Mancini, Fernando Sequeira Sousa,
Fabio Oliveira Teixeira, Gabriela Denise de Arajo,
Anderson Diniz Hummel, Roberto Baptista,
Ftima de Lourdes dos Santos Nunes, Luciano Arajo,
Edvane Domenico, Daniel Sigulem
A grande abrangncia e a alta dinamicidade da web so fatos indiscutveis.
Atualmente, estima-se que existam mais de 40 bilhes de pginas web (Kunder 2013).
Esta grande quantidade de pginas pode ser atribuda, por exemplo, a ferramentas
que auxiliam no desenvolvimento grfico de pginas web por usurios que no esto
amplamente familiarizados com linguagens e lgica de programao (Breitman et al.
2006). Entretanto, se por um lado este universo de informao em expanso
potencialmente leva conhecimento a mais pessoas, por outro lado apresenta algumas
desvantagens (Fogg et al. 2003). Por exemplo, podemos citar a dificuldade do usurio
em avaliar se a informao encontrada relevante e confivel - tarefa ainda mais
difcil dentro de um domnio especfico como o da rea da sade.
De fato, a rea da sade merece distino. De acordo com o Centro de
Estudos Sobre as Tecnologias da Informao e da Comunicao (CETIC cetic.br)

73

calcula-se que no ano de 2008 em torno de 33% das atividades de usurios da web no
Brasil estavam relacionadas procura de informao sobre sade, atingindo 35% em
2010 e 43% em 2012. Nos Estados Unidos, essa porcentagem sobe para 55% (Pew
Internet and American Life Project 2010). Os principais temas de busca esto
principalmente relacionados a doenas ou condies mdicas (cerca de 90% das
buscas), seguido por recuperao de informaes sobre e hospitais e profissionais em
sade (85%), e nutrio (82%) (Taha et al. 2009).
Uma constatao importante que na rea da sade, principalmente quando
se busca informaes sobre doenas ou sintomas, os usurios muitas vezes chegam
a concluses erradas sobre o que pesquisam (White e Horvitz 2009). O nvel de
conhecimento sobre as terminologias mdicas e problemas de interpretao sobre
contedos recuperados foram identificados como as principais causas para estas
concluses erradas (Keselman et al. 2008).
Entretanto, no podemos desconsiderar a popularidade da ferramenta de
busca Google quando utilizada para recuperao de contedos em sade na web
(Tang e Ng 2006; Giustini 2005). Porm, Chang et al. (2006) mostraram que esta
ferramenta de busca apresenta algumas dificuldades em recuperar contedos
relevantes nesta rea. O que torna este ambiente ainda mais crtico o fato que os
usurios normalmente no esto cientes sobre suas limitaes em elaborar
estratgias de busca (Lorence e Greenberg 2006) e consideram-se, em grande
maioria, satisfeitos com o contedo recuperado pelas ferramentas de buscas
comerciais (Neelapala 2008).
Uso da Web para Deciso em Sade
No podemos deixar de lado o crescimento da utilizao da web por usurios leigos
para auxiliar na tomada de deciso sobre sua sade (Coulter 2006). Cada vez mais
pacientes acessam a web antes de uma consulta mdica, e este aspecto apresenta
uma recente mudana na relao mdico-paciente (Falagas et al. 2008). Alm disto, o
uso da web para busca de contedos em sade afeta diretamente seu estilo de vida
(alimentao, exerccios, tratamentos etc) (Pew Internet and American Life Project
2010).
Por tais razes considera-se de fundamental importncia o desenvolvimento de
portais de busca na web especficos para a rea da sade com foco no pblico leigo
(Mancini et al. 2009). Uma das iniciativas internacionais a destacar para este propsito
so os buscadores desenvolvidos pela Health On Net Foundation (HON hon.ch). O
HON oferece ferramentas de buscas web em sade para o pblico leigo

74

(hon.ch/HONtools/Patients).

O foco destas ferramentas , principalmente, a

recuperao de contedos web em sade confiveis a partir de validao de cdigos


de condutas para sites em sade proposto pelo prprio HON.
Para construir portais de busca web especficos para a rea da sade faz-se
necessrio desenvolver indexadores de contedos especficos para esta rea. Para
isto, Qi e Davidson. (2009) descrevem tcnicas que podem ser utilizadas para este
propsito, como medidas de similaridade baseada em links (Calado et al. 2006),
clusters (Kwon e Lee 2003) e classificao hierrquica (Dumais e Chen 2000). H
tambm experincias sobre a aplicao de tcnicas de classificao automatizada de
padres combinadas com um dicionrio especfico de uma rea de conhecimento
(Liang et al. 2006; Mancini 2011). Segundo Haykin (1999), classificao ou
reconhecimento automtico de padres um processo pelo qual um padro ou sinal
recebido atribudo a uma classe dentre um nmero pr-determinado de classes,
tambm denominadas categorias.
Recuperao de Informao na Web
A preocupao em se organizar a informao contida em texto antiga. Logo aps a
criao dos primeiros computadores, Vannevar Bush introduziu em 1945 a ideia de
acessar automaticamente grandes quantidades de informao armazenada (Bush
1945; Singhal 2001). J no final da dcada de 1950, surgiram os primeiros mtodos
para representao e indexao dos textos, consistindo simplesmente da utilizao de
palavras presentes nestes para realizar tais tarefas, propostas originalmente por Luhn
(Luhn 1957; Singhal 2001). A dcada seguinte contou com grandes avanos na rea
de recuperao de informao, principalmente devido s pesquisas de Salton e o
desenvolvimento do sistema SMART (Salton 1991), que posteriormente introduziu o
modelo de espao vetorial para representao dos textos (Salton 1975) e os mtodos
de ponderao dos termos (Salton e Buckley 1988). Estas pesquisas proporcionaram
grandes avanos na qualidade dos resultados retornados em uma busca e criaram as
bases para os trabalhos realizados nas dcadas seguintes e para os mtodos de
recuperao de informao modernos (Singhal 2001).
Os algoritmos de recuperao de informao foram os primeiros a serem
utilizados em buscas na web (Singhal 2001). Mesmo com sua evoluo, as estratgias
de busca utilizadas pelos usurios por vezes no satisfatria, j que a grande
maioria deles utiliza poucos termos em suas buscas, percorrem apenas uma ou duas
pginas dos resultados retornados e raramente utilizam mecanismos de busca
avanados (Wolfram et al. 2009; Toms e Latter 2007; Kellar et al. 2007; Zeng et al.

75

2004; Spink et al. 2001). Em outras situaes, a presena de anncios (Toms e Latter
2007), informaes irrelevantes e falta de especificidade das pginas retornadas pela
ferramenta de busca ou a dificuldade dos usurios em avaliar a relevncia e a
confiana do resultado retornado (Fogg et al. 2003) podem ser empecilhos para que o
usurio encontre a informao desejada.
Uso de Vocabulrios Controlados da Sade
Nas ltimas dcadas diversos algoritmos foram desenvolvidos com o objetivo de
classificar contedos textuais cientficos relacionados rea da sade a partir de
vocabulrios mdicos controlados. H estudos que consideram o uso do vocabulrio
Medical Subject Headings (MeSH

ncbi.nlm.nih.gov/mesh) como base para

classificao automtica de contedos web pertencentes a rea de sade. O MeSH


usado pelo U.S. National Library of Medicine (NLM nlm.nih.gov) para indexar artigos
cientficos disponveis na Medical Literature Analysis and Retrieval System Online
(MEDLINE) desde a dcada de 1950 (Bachrach e Charen 1978) . Devido relevncia
deste vocabulrio controlado, h na literatura estudos que investigaram sua aplicao
para diferentes propsitos destacando-se a indexao de referncias cronobiolgicas
(Portaluppi e Ferrara 2007), e a caracterizao de doenas e genes por meio da
determinao de perfis ligados a drogas e fenmenos biolgicos (Nakazato 2009).
Neste contexto, vale destacar a iniciativa MetaMap (Aronson e Lang 2010),
desenvolvido pelo grupo de pesquisadores da National Library of Medicine (NLM), pela
qual realiza um mapeamento de conceitos presentes na Unified Medical Language
System (UMLS nlm.nih.gov/research/umls) literatura cientfica biomdica. Ainda
neste contexto, pode-se citar o trabalho de Humphrey et al. (2009), que apresenta
como objetivo uma

comparao de tcnicas para a associao de descritores

presentes no MeSH artigos cientficos biomdicos para oferecer uma alternativa


indexao manual. Entretanto, nestes dois estudos relatada a dificuldade em mapear
estes contedos cientficos a partir do MeSH, o que mostra o desafio em lidar com
terminologias mdicas na classificao de textos cientficos.
O mtodo Journal Descriptor Indexing (JDI) (ii.nlm.nih.gov/JD.shtml), da
National Library of Medicine, foi utilizado para classificar artigos cientficos de sade
por Humphrey et al. (2009). Foi comparada a utilizao deste mtodo, baseado em
relevncia, com um classificador baseado em regras de deciso, que utiliza
metatermos derivados do MeSH. Diferentemente dos outros trabalhos citados, os
autores deste utilizaram textos multicategorizados, ou seja, cada artigo estava
associado a mais de uma categoria. Dessa forma, os autores mediram o desempenho

76

dos classificadores para a primeira, 5 primeiras, e 10 primeiras categorias mais


relevantes inferidas por cada um dos classificadores confrontados, descrevendo uma
metodologia interessante para medir o desempenho dos classificadores ao longo do
ranking de relevncia de categorias. Das seis medidas escolhidas para medir o
desempenho dos classificadores, 5 obtiveram um desempenho equiparvel entre o
classificador baseado em regras e o JDI. Apenas a medida de top precision foi melhor
para o JDI, mostrando uma pequena vantagem deste mtodo sobre os mtodos
baseados em regras de deciso, dada a alta complexidade intelectual necessria para
se realizar a indexao humana e manter as regras necessria para mapear os termos
MeSH em metatermos.
Sobre a aplicao do Descritores em Cincias da Sade (DeCS) (decs.bvs.br),
que inclui uma verso em portugus brasileiro do MeSH, Tardelli et al. (2004)
utilizaram este vocabulrio controlado para mapear, entre 1996 at 2005, uma
distribuio da produo cientfica brasileira na rea de informao e comunicao em
sade, pertencente tanto na base de dados MEDLINE quanto na base de dados da
Literatura Latino-Americana e do Caribe em Cincias da Sade (LILACS). A partir
deste contexto, considera-se importante investigar a possibilidade do uso do DeCS no
mapeamento de informaes textuais em sade presentes em outras fontes, como
contedo disponvel na web com foco no pblico leigo.
Em uma busca em bases de dados cientficas, uma grande quantidade de
trabalhos pode ser encontrada, descrevendo diferentes metodologias para realizar a
classificao automtica de textos e tambm a aplicao em diferentes domnios de
conhecimento, como pode ser visto nas revises de Sebastiani (2002) e Qi e Davidson
(2009).
Existem trabalhos (Frunza et al. 2011; Humphrey et al. 2009; McKnight e
Srinivasan 2003) que aplicam as tcnicas de classificao de textos para contedos
especficos de sade, sendo um dos interesses a classificao ou indexao de textos
cientficos. Entretanto, h menos referncias podem ser encontradas que focam na
classificao de textos web de sade voltados para o pblico leigo. Falco et al. (2009)
apresentaram um estudo para com objetivo de realizar a classificao de contedos
web como pertencentes rea da sade, com foco no pblico leigo. Neste trabalho foi
calculada a similaridade dos termos do contedo de pginas web com os termos
DeCS.
J o trabalho de Bangalore et al. (2007) aplicou um classificador baseado em
relevncia de categorias para classificar retornos de uma busca no Google em
diferentes categorias pertencentes ao MeSH, avaliando o resultado da classificao a
partir da opinio de especialistas. Em outra aplicao para classificao de contedo

77

web de sade, Himmel et al. (2009) utilizaram tcnicas de processamento e


classificao de textos, como chi-quadrado e simple value decomposition, para
classificar mensagens de um frum mdico em categorias pr-definidas. O ponto
relevante deste estudo a aplicao de mtodos j conhecidos e bem estabelecidos
na rea de classificao em uma base de dados especfica da web, cujos textos so
voltados para o pblico leigo e escritos em outro idioma (alemo), mostrando que
estas tcnicas podem ser aplicadas em idiomas diferentes do ingls com resultados
igualmente satisfatrios. A aplicao de categorizao de textos diferentes do ingls
tambm j foi realizada, por exemplo, em idioma aramaico (Asker et al. 2009) e
dialetos indianos (Rajan et al. 2009).

Pesquisas Realizadas
As pesquisas desenvolvidas no grupo Sade 360o envolveram uma comparao de
estratgias para investigar a utilizao do DeCS na construo de um classificador
automtico de contedos web textuais brasileiros como pertencentes ou no
pertencentes rea da sade, com foco no pblico leigo. Estas estratgias foram
construdas a partir de mtodos vetoriais de classificao de texto baseados em
contedos (Salton G, Buckley 1988). A escolha deste mtodo se deu pela sua
popularidade e bom desempenho na rea de recuperao de informao (Markov
2008). A proposta da construo deste classificador se mostrou interessante porque
quando o usurio da web est em busca de contedos relacionados rea da sade,
as ferramentas de busca disponveis - principalmente as genricas - retornam pginas
web que no esto relacionadas ao contexto da sade. Por exemplo, inserindo a
palavra vrus como termo de busca, essas ferramentas recuperam pginas web com
contedos relacionados sade (agentes infecciosos) e computao (vrus de
computadores). Entretanto, se o foco do usurio da web pesquisar sobre agentes
infecciosos, pginas web recuperadas com contedos relacionados computao
oferecem carga de informao ruidosa para o cenrio de busca proposto. Este aspecto
ainda mais significativo devido a estudos (McLellan 1998; Fava e Guidi 2007)
apontarem que a sobrecarga de informaes recuperadas pelas ferramentas de busca
um dos obstculos para que usurios leigos melhor interpretem estes contedos.
Este estudo foi conduzido por meio de uma tese de doutorado, de Felipe
Mancini, junto ao Programa de Ps-graduao em Gesto e Informtica em Sade,
UNIFESP. A pesquisa buscou determinar a relevncia da aplicao do DeCS na

78

classificao de contedos web pertencentes e no pertencentes sade, com foco


no pblico leigo. Foi construdo uma segunda abordagem do classificador denominado
Indexao por Descritores em Cincia da Sade (InDeCS), que utiliza este descritor, e
posteriormente foi avaliada uma aplicao desta ferramenta computacional em um
buscador de contedos web em sade - denominado Busca Sade. Dois projetos de
mestrado tambm foram realizados para estas investigaes. Inicialmente, o projeto
de mestrado de Alex Jaccoud Esteves Falco, junto ao Programa de Ps-graduao
em Informtica em Sade, UNIFESP, tratou de uma avaliao da percepo de
qualidade de pginas web versus aderncia a critrios ticos. Este projeto gerou a
primeira verso do classificador InDeCS. O segundo projeto de mestrado, de
Fernando Sequeira Sousa, no mesmo programa que o doutorado, possibilitou expandir
a classificao para diferentes categorias em sade.
Para esta pesquisa foi utilizada a verso 2009 do DeCS, disponvel
publicamente (decs.bvs.br), contendo 54.772 termos, incluindo termos sinnimos e
descritores. Apesar de ter sido construdo a partir do MeSH, o Centro Latinoamericano e do Caribe de Informaes em Cincia da Sade (BIREME) incluiu termos
adicionais para reas no presentes na verso 2009 do MeSH, sendo elas: sade
pblica (3.491 termos), homeopatia (1.950 termos), cincia e sade (219 termos) e
vigilncia sanitria (830 termos) (decs.bvs.br/P/decsweb2010.htm). Foram utilizadas
pginas web do Manual Merck - Edio de Sade para a Famlia (manualmerck.net) e
da Folha de So Paulo (folha.com.br), seo sade, para compor o conjunto de
pginas rotuladas como sade. O conjunto rotulado no-sade foi composto de
pginas web do jornal online Folha de So Paulo das sees cincia, construo,
dinheiro, empregos, esporte, vestibular, ilustrada, imveis, informtica, negcios,
turismo e veculos. As pginas sade e as no-sade compuseram a base de
treinamento. A base de validao foi construda manualmente por cinco voluntrios
segundo critrios de incluso e excluso e concordncia mnima de 75% na rotulao
por quatro avaliadores. Os tamanhos referentes s bases de treinamento e validao
esto apresentados na Tabela 6.

Tabela 6 - Quantidade de pginas web, contagem de palavras repetidas e contagem de


palavras no-repetidas para as bases de treinamento e validao do classificador
InDeCS de Mancini (2011).

79

O pr-processamento (Salton e McGill 1986) do contedo coletado foi realizado


para ambas as bases de dados considerando-se remoo do contedo e tags CSS,
JavaScript e HTML, remoo das stopwords (Snowball snowball.tartarus.org) e a
aplicao de stemming (Java PTStemmer code.google.com/p/ptstemmer) para cada
palavra.
Os vetores de caractersticas da base de dados de treinamento e seus rtulos
(sade ou no-sade) foram apresentados a um classificador de padres para
treinamento, caracterizando assim um processo de aprendizado supervisionado
(Theodoridis S, Koutroumbas 2008). Aps o treinamento, uma nova coleo de
documentos tambm previamente rotulados (base da validao) apresentada ao
classificador j treinado. Como resposta, o classificador apresenta taxas de
sensibilidade e especificidade como estatstica para avaliar sua acurcia.
Trs Estratgias de Classificao
A primeira estratgia investigada para construo do vetor de caractersticas para
cada pgina web foi a frequncia do termo (tf) (Salton e Buckley 1988) com reduo
de dimensionalidade por meio da tcnica estatstica chi-quadrado (Yang e Pedersen
1997). Foram utilizados os 20% dos atributos da base de treinamento que atingiram os
menores valores de chi-quadrado, implicando em forte independncia dos atributos.
A segunda estratgia investigada foi a de ocorrncia de termos (to) DeCS.
Nesta estratgia, a presena de uma palavra e seu respectivo valor to no vetor de
caractersticas de uma pgina web foi condicionada coexistncia do termo no
vocabulrio DeCS. Outro ponto relevante nesta estratgia a utilizao de at 8gramas, visto que a composio dos termos obedeceu estrutura dos termos DeCS.
A terceira estratgia - denominada InDeCS -, construda no grupo de pesquisa,
pode descrita em dois passos: (1) a construo de uma tabela de pesos dos termos
DeCS e (2) a gerao de vetor de caractersticas para uma pgina utilizando a tabela
de pesos construda. Para a construo da tabela de pesos foi calculada a quantidade
de vezes que cada termo DeCS ocorre em cada categoria da base de treinamento
(sade e no-sade), gerando um ndice de relevncia relativa (tabela de pesos),
normalizada, com variao entre -1 (no-sade) e 1 (sade).

O vetor de

caractersticas da estratgia InDeCS para a base de treinamento e base de validao


gerado a partir do clculo de histograma da ocorrncia das pginas web em 20
intervalos entre -1 e 1. Portanto, o vetor um histograma de pesos com 20 posies.
Sabendo que cada vetor de caractersticas representa vetorialmente sua respectiva

80

pgina web, estes vetores e seus rtulos (sade ou no-sade) foram apresentados a
um classificador de padres para treinamento.
Testes preliminares foram realizados com objetivo de escolher o classificador
de padres mais adequado, conforme sugesto de Bellazzi e Zupan (2008): bayesiano
ingnuo (naive bayes NB) (Duda et al. 2000) (sensibilidade 0,94; especificidade 0,94),
redes neurais artificiais (artificial neural networks) (Haykin 1999) (0,90; 0,93), rvores
de deciso (decision trees) (Quinlan 1993) (0,90; 0,95), redes bayesiana (bayesian
network) (Duda et al. 2000) (0,91; 0,94), k-vizinhos mais prximos (k-nearest neighbor)
(Aha et al. 1991) (0,80; 0,95) e mquina de suporte vetorial (support vector machine)
(Cristianini e Shawe-Taylor 2000) (0,91; 0,95). Para este teste foi usada a base de
treinamento e a estratgia 3 para treinar os classificadores, e a base de validao para
test-los.
Os testes preliminares mostraram que o classificador bayesiano ingnuo
apresentou melhores taxas de sensibilidade e especificidade, que se tornou a escolha
do classificador para esta pesquisa. A literatura relata diversas aplicaes do
bayesiano ingnuo para classificao de texto, o qual prove abordagem simples e
eficiente para esta tarefa de classificao (Schneider 2005; Maimon e Rokach 2005;
Lewis 1998; John e Langley 1995).
Deste estudo decorreu a utilizao de um mtodo de variao da base de
dados de treinamento para investigar a acurcia dos classificadores quando alterada a
quantidade de informao (pginas web) utilizada para o treinamento. Como a
quantidade de pginas web no-sade maior se comparada com a quantidade de
pginas web de sade para a base de treinamento (Tabela 1), o mtodo foi construdo
fixando o conjunto de pginas web de sade e somando para cada teste pginas web
classificadas como no-sade sorteadas aleatoriamente. Os diferentes classificadores
gerados para cada teste foram avaliados levando-se em considerao todas as
pginas web da base de dados de validao, produzindo os valores de sensibilidade e
especificidade. Desta maneira foram produzidas 300 variaes da base de dados de
treinamento com 10 diferentes quantidades de pginas web no-sade, sendo
calculados 300 diferentes valores de sensibilidade e especificidade. Com o objetivo de
identificar se existiam valores de sensibilidade e especificidade estatisticamente
semelhantes entre os diferentes testes foi utilizado o teste pareado de Mann-Whitney
(Corder e Foreman 2009) com 5% de nvel de significncia. A escolha deste teste
pareado se deu a partir da indicao da distribuio no-normal dos 30 sorteios para
todos os testes analisados, aps a aplicao do teste de Kolmogorov-Smirnov (Corder
e Foreman 2009) com 5% de nvel de significncia.

81

Concordncia com Especialistas e Voluntrios


Alm do teste quantitativo foi realizada uma anlise para identificar se o nvel de
concordncia entre o classificador construdo e especialistas em sade estava
adequado. Para tal foram realizadas 5 buscas no servio web do Google para
obteno das 10 primeiras pginas web para cada termo, totalizando 50 pginas web
para avaliao. Considerou-se 2 lotes de rotulao, sendo o primeiro a partir das
respostas do buscador Google como sade, e o segundo por meio de 3 especialistas
rotulando as 50 pginas web (sade e no-sade). O valor do peso do teste estatstico
Kappa (Altman 1991) calculado entre a opinio dos especialistas e a classificao do
InDeCS foi 0,81 (erro padro de 0,13), considerado nvel de concordncia muito bom,
e o peso de Kappa entre a opinio dos especialistas e as pginas retornadas pelo
Google como sade foi 0,30 (erro padro de 0,24), considerado nvel de concordncia
razovel.
Outra avaliao foi realizada com 28 voluntrios, considerando a utilizao do
buscador Busca Sade, construdo a partir da classificao InDeCS e adicionando-se
as estratgias autocompletagem de termos, sugesto de termos e classificao
automtica. A autocompletagem de termos foi construda a partir de 54.772 termos do
DeCS, verso 2009. Todos os termos foram usados, no apenas os descritores (main
heading). A sugesto de termos foi construda a partir do sistema de apoio a deciso
mdica Lepidus, desenvolvido na USP Ribeiro Preto por Silva e Roque (2000).
Lepidus se utiliza de redes neurais artificiais para relacionar 400 sinais e sintomas
indicados pelo usurios com uma lista de 1.130 doenas.
O buscador Busca Sade consistiu de uma interface de busca similar
fornecida pelo Google mas que contava com a classificao InDeCS, a partir de
respostas vindas originariamente do Google. A Figura 11 apresenta 2 telas do Busca
Sade (buscasaude.unifesp.br). Critrios objetivos como termos inseridos na busca,
quantidade de buscas realizadas, pginas web acessadas, posio da pgina web na
lista retornada pelo Busca Sade e tempo para realizao da tarefa solicitada foram
utilizados para medir aspectos comportamentais do voluntrio.

82

(a) tela de entrada com notcias. termos mais procurados e pginas mais acessadas

(b) retorno da busca com classificao sade ou no-sade (S em verde ao lado


esquerdo do link), termos sugeridos, termos associados e notcias relacionadas
Figura 10 - Tela do buscador Busca Sade UNIFESP buscasaude.unifesp.br (Mancini
2011).

83

DeCS Aprimorou Classificao


A estratgia InDeCS mostrou-se relevante para a tarefa de classificao proposta
neste estudo. Foi possvel identificar que apenas 14,97% de termos DeCS estavam
presentes no conjunto de treinamento com as pginas web rotuladas, sendo 9,45%
exclusivos no conjunto sade, 1,64% exclusivos no conjunto no-sade, e 3,88% em
ambos os conjuntos. Essa subrepresentao dos termos de pginas web sobre sade
por termos DeCS havia sido prevista no incio do estudo. De fato, DeCS no foi
construdo para tal propsito, originalmente. No entanto, a estratgia InDeCS e o
bayesiano ingnuo conseguiram lidar com esta subrepresentao, apresentando
resultado satisfatrio para o problema de classificao proposto.
Sobre a anlise dos valores de sensibilidade atingidos pelos classificadores,
importante destacar que para o propsito deste trabalho - construo um classificador
de contedos pertencentes ou no rea da sade -, esta taxa deve ser analisada
com mais cuidado. Devido ao fato deste teste determinar a acurcia na classificao
de pginas web com contedos especficos para a rea da sade, consideramos
crtica a possvel perda deste tipo de informao quando a taxa de sensibilidade no
for satisfatria. As 2 estratgias que utilizaram o DeCS para determinao dos vetores
de caractersticas (estratgia 2, to e DeCS, e estratgia 3, InDeCS) apresentaram
melhores taxas de sensibilidade se comparadas com a estratgia que no utilizou este
vocabulrio controlado (estratgia 1, tf).
Desta maneira, podemos afirmar que o uso do DeCS foi relevante para
aumentar a sensibilidade da classificao de pginas web na rea de sade. Apesar
dos valores de AUC dos classificadores serem similares, a taxa de sensibilidade do
InDeCS sempre foi melhor ou pelo menos igual se comparado a todos os testes
realizados pelos outros classificadores, alm de apresentar valores de sensibilidade e
especificidade estatisticamente semelhantes quando variada a base de treinamento.
Sabendo que a sensibilidade mostra a taxa de acerto na classificao de pginas web
rotuladas como sade, foi possvel constatar que o InDeCS o melhor classificador
para o propsito deste estudo dentre os algoritmos investigados.
Classificao por Proximidade Semntica
Em nossos estudos anteriores (Falco et al. 2009), similares ao realizado por
Bangalore et al. (2007) , desenvolvemos uma abordagem que focou na aplicao do
DeCS e reconhecedores de padres na construo de classificadores de contedos
web como pertencentes (ou no) rea da sade. Foi realizada por meio de um

84

projeto de mestrado de Alex Jaccoud Esteves Falco, conforme citado anteriormente,


que gerou a primeira abordagem do classificador InDeCS.
Nesta verso anterior utilizamos um servio web SOAP/XML da BIREME
(Tardelli et al. 2004) como mtodo para o clculo da similaridade entre termos
pertencentes ao DeCS e as palavras das pginas web analisadas. Entretanto, o
servio web da BIREME realiza a clculo de similaridade de termos baseado apenas
nos aspectos lxicos e vetoriais - no realiza clculo de proximidade semntica. Desta
maneira, a similaridade entre as palavras casa e casamento possui valor maior ,
quando comparado o mesmo grau entre a palavra casa e moradia. Esta
caracterstica, principalmente, gerou dificuldades na classificao automtica de
contedos web em sade, gerando sensibilidade 0,81 e especificidade 0,88. Estes
achados foram importantes para mudana na estratgia para a segunda verso do
classificador InDeCS, que resultou sensibilidade, especificidade e AUC 0,94.
J o estudo de Bangalore et al. (2007) teve como objetivo realizar classificao
de contedos web em sade utilizando o mtodo Journal Descriptor Indexing (JDI
ii.nlm.nih.gov/JD.shtml), mtodo que usamos para outros estudos com sucesso.
Entretanto, este trabalho difere da abordagem que empregamos aqui por utilizar 5
termos de busca fixos para montar a base de treinamento, alm de focar na
classificao multicategrica de contedos web em sade. Bangalore et al. (2007)
citam que foi possvel identificar contedos no relacionado rea de sade,
entretanto no apresentaram a acurcia para esta tarefa.
Por fim, nosso estudo focou no uso do idioma portugus para classificao de
contedos web em sade. Como o DeCS foi construdo a partir do MeSH acreditamos
que o uso deste vocabulrio controlado para idioma ingls deve apresentar bons
resultados para a tarefa de classificao proposta, necessitando replicar a estratgia
InDeCS para o contedo em ingls, tendo em vista diferenas morfossintticas entre
os dois idiomas. Vale ressaltar que para o idioma ingls existem outros dicionrios
mdicos relevantes como o Systematized Nomenclature of Medicine - Clinical Terms
(SNOMED ihtsdo.org). A integrao de diferentes dicionrios tambm uma estratgia
que pode ser investigada para o propsito de classificao de contedos web em
sade. Alm disto, existem diferenas taxonmicas importantes entre o portugus
brasileiro com o portugus falado em outros pases, como o portugus de Portugal.
Desta maneira, anlise da atual verso DeCS com pginas web de Portugal deve ser
melhor investigada.

85

Teste do JDI para Classificao Semntica na Web


A partir das limitaes do estudo de Bangalore et al. (2007) com relao ao uso do
mtodo Journal Descriptor Indexing para classificao de pginas web, decidimos
realizar um estudo do uso deste classificador em comparao do bayesiano ingnuo
categorizar pginas web de sade a partir das categorias do Open Directory Project
(ODP dmoz.org). O ODP possivelmente o maior e mais completo diretrio da web
editado por humanos pelo qual trabalhos cientficos de categorizao de textos se
beneficiam (zel 2011; Eickhoff et al. 2011).
As pginas web de sade utilizadas neste trabalho foram coletadas a partir de
uma lista de endereos web disponibilizada pelo Alexa (alexa.com). O Alexa um
portal que armazena uma grande quantidade de informao e estatsticas sobre
pginas web de diversos pases, idiomas e domnios de conhecimento. Foram
coletadas 3.702 pginas web relevantes de 19 categorias de sade do Alexa:
acidentes, associaes e entidades, boa forma, clnicas e hospitais, cuidados
pessoais, distrbios, homeopatia, medicina preventiva, odontologia, rgos pblicos,
planos de sade e seguro, produtos e servios de apoio, profissionais, sade, sade
da criana, sade da mulher, sade do homem, sade ocupacional e ambiental,
terapias alternativas. Nas pginas web coletadas foram encontradas 629.816 palavras,
sendo 30.106 nicas.
Dois classificadores e 6 mtodos de extrao de atributos foram testados
devido s diferenas de desempenho (Lan et al. 2009), gerando as combinaes
bayesiano ingnuo (nb) com frequncia do termo (ft) (Baeza-Yates e Ribeiro-Neto
1999), frequncia do termo ponderada pelo inverso de sua frequncia nos documentos
(tf.idf)(Baeza-Yates e Ribeiro-Neto 1999), ocorrncia do termo (to) (Salton e Buckley
1988) e ocorrncia binria (bo) (Schneider 2004; McCallum e Nigam 1998), e JDI com
contagem de palavras (wd) (Humphrey et al. 2009) e contagem de documentos (dc)
(Humphrey et al. 2009). Dividimos estes seis mtodos em dois grupos a partir de
caractersticas similares. O primeiro agrupa os quatro primeiros mtodos (tf, tf.idf, to e
bo), baseados em contagem das palavras, de carter no supervisionado e que foram
utilizadas com classificador bayesiano ingnuo. Denominamos este grupo de mtodos
clssicos. O segundo grupo contm os dois ltimos mtodos (wc e dc), que so
baseadas em contagem de acordo com relevncia de termos em categorias, de
carter supervisionado e utilizadas com o JDI. A este grupo atribumos o nome de
mtodos baseados em relevncia. Neste experimento utilizamos o ferramental
disponibilizado pelo JDI em sua pgina na web (ii.nlm.nih.gov/JD.shtml), que inclui o
algoritmo implementado em Java e uma estrutura de banco de dados. Entretanto, duas

86

importantes modificaes foram feitas: substituio dos 122 descritores MeSH pelas
19 categorias utilizadas neste trabalho; e a reconstruo do conjunto original de
treinamento, contendo as associaes de relevncia entre as palavras presentes nas
pginas web e as 19 categorias.
Na Figura 11 (pg. 88) apresentamos um grfico da curva de revocaopreciso (Witten e Frank 2005). Observamos o melhor desempenho do classificador
nb-to, uma vez que os pontos de sua curva de revocao preciso apresentam-se
mais direita e acima, em relao aos pontos das curvas dos outros classificadores
(Witten e Frank 2005). Com o intuito de verificar a ocorrncia de diferenas
significativas entre os classificadores aplicamos o teste t de Student sobre os
resultados dos 50 conjuntos aleatrios de testes. Aplicamos este teste s medidas de
revocao e F2, e s posies 1 e 5 do ranking de relevncia. No houve diferena
significativa apenas entre a revocao dos classificadores jdi-dc e jdi-wc. Para todos
os outros pares de classificadores foram encontradas diferenas significativas. Desta
forma o nb-to foi melhor entre todos os classificadores para primeira posio do
ranking de relevncia porque obteve o maior valor de revocao (0,91 0,007 para 1a
posio e 0,98 0,005 at 5a posio). Portanto, consideramos que o classificador nbto foi melhor para classificar as pginas web de sade, uma vez que obteve um
desempenho numericamente superior tanto para a primeira quanto para a quinta
posio do ranking de relevncia e a diferena deste classificador para os outros
estatisticamente significativa.
Em um trabalho recente sobre a utilizao do JDI para classificar documentos
do MEDLINE em especialidades biomdicas derivadas do MeSH (Humphrey et al.
2011), os autores conseguiram atingir uma preciso at a quinta posio de 0,45,
tanto para dc quanto para wc. No nosso trabalho os valores menores em relao ao
trabalho citado (0,19 para ambas as abordagens) so devido presena de um nico
rtulo nas pginas da base de dados, enquanto que o trabalho citado utilizou uma
base com textos originalmente multirroulados. Quanto revocao considerando a
quinta posio, o trabalho citado atingiu 0,71, enquanto que em nossa pesquisa
atingimos 0,97, ambos para wc e dc. Mais uma vez, a presena de um nico rtulo nos
documentos do presente trabalho colaborou para que o valor da revocao fosse
maior, fenmeno este desejvel.
Comparao com Classificao Humana
Foram convidados 21 voluntrios, especializados em sade ou informtica em sade,
para multirrotular 20 de 57 pginas web de sade escolhidas aleatoriamente dos

87

conjuntos de testes. O comportamento da revocao da classificao humana nas


posies do ranking de relevncia diferente da classificao automtica, conforme
representado na Figura 12 (pg. 88). Quando observamos a primeira posio do
ranking de relevncia, ou seja, a categoria mais escolhida para as pginas pelos
voluntrios e a mais relevante segundo os classificadores, o desempenho da
classificao humana quanto revocao bem abaixo do desempenho dos
classificadores automticos, atingindo apenas 0,51. Porm, aumentando a tolerncia
ao medir a revocao na quarta posio do ranking de relevncia o desempenho da
classificao pelos voluntrios melhor que qualquer um dos classificadores
automticos utilizados, chegando a 100% de acerto.
Comparao com Classificao Humana
Foram convidados 21 voluntrios, especializados em sade ou informtica em sade,
para multirrotular 20 de 57 pginas web de sade escolhidas aleatoriamente dos
conjuntos de testes. O comportamento da revocao da classificao humana nas
posies do ranking de relevncia diferente da classificao automtica, conforme
representado na Figura 12. Quando observamos a primeira posio do ranking de
relevncia, ou seja, a categoria mais escolhida para as pginas pelos voluntrios e a
mais relevante segundo os classificadores, o desempenho da classificao humana
quanto revocao bem abaixo do desempenho dos classificadores automticos,
atingindo apenas 0,51. Porm, aumentando a tolerncia ao medir a revocao na
quarta posio do ranking de relevncia o desempenho da classificao pelos
voluntrios melhor que qualquer um dos classificadores automticos utilizados,
chegando a 100% de acerto.
Dessa forma, acreditamos que, no conjunto utilizado, apenas um rtulo para as
pginas web de sade em portugus brasileiro no suficiente para satisfazer as
expectativas dos voluntrios, sendo necessria uma multirrotulao para que esta
expectativa seja satisfeita (Santini 2008).

88

Figura 11 - Curva de revocao-preciso para as 19 posies do ranking de relevncia de


categorias (Sousa 2011).

Figura 12 - Comparao entre a revocao dos classificadores e da classificao


humana para as cinco primeiras posies do ranking de relevncia (Sousa 2011).

89

Calculamos um consenso mdio entre os avaliadores para as cinco categorias


mais escolhidas nas pginas web selecionadas para o experimento. Observamos que,
em mdia, mais de 85% dos avaliadores concordam em atribuir a mesma categoria s
pginas web. J para a quinta categoria de maior consenso, cerca de 22% dos
voluntrios atriburam a mesma categoria. A diferena, de quase 63 pontos
percentuais, mostra uma grande queda da primeira para a quinta posio, entretanto
ainda representa a opinio difusa dos voluntrios, j que o consenso atingido bem
maior do que a escolha de uma categoria ao acaso (1/19 = 5,26%). Os resultados so
similares aos apontados por Santini (2008), que mostrou que um nico rtulo no
suficiente para corresponder s expectativas dos usurios. Naquele estudo, os
resultados mostraram tambm que os usurios normalmente discordam em atribuir o
mesmo rtulo a uma pgina web, aumentando a importncia do emprego da
multirrotulao.
Portanto, os resultados obtidos neste trabalho mostraram que ambos os
classificadores (bayesiano ingnuo e JDI) podem ser utilizados com sucesso para a
tarefa proposta. Entretanto, encontramos um desempenho significativamente melhor
para o classificador bayesiano ingnuo utilizado com o mtodo de extrao de
atributos to (ocorrncia do termo), com revocao de 0,91 e 0,98 para a primeira e
quinta posies do ranking de relevncia de categorias, respectivamente.
Estudo em Andamento: Inter-relacionamento Semntico da Sade
Iniciamos recentemente dois estudos que representam um passo evolutivo em nossas
pesquisas sobre classificao de contedos na web com foco em assuntos de sade.
O primeiro estudo trata da construo de uma interligao semntica, computacional,
de profissionais, estabelecimentos, publicaes e reas da sade por meio da
abordagem linked open data (LOD) (Bizer et at. 2009) a partir das bases do Cadastro
Nacional de Estabelecimentos de Sade (CNES), dos currculos da Plataforma Lattes
CNPq e Wikipdia. Este estudo se integra nas aes do grupo de pesquisa Sade
360 para construir uma viso holstica, visual e quantitativa, do relacionamento de
diferentes bases de dados de sade que originalmente no se relacionam, integrando
a iniciativa LOD com dados abertos em portugus brasileiro (Brasil 2011). Est sendo
conduzido por um doutorando, Fabio Oliveira Teixeira, junto ao Programa de Psgraduao em Gesto e Informtica em Sade, EPM UNIFESP.
O inter-relacionamento a ser construdo tem como inteno gerar informao
para diferentes tipos de usurio. Como exemplos de informao podemos citar (1)

90

localizao de hospitais especializados mais prximos do usurio, (2) localizao de


profissionais de sade por especialidades, hospitais ou interesses, (3) avaliao da
opinio de usurios sobre hospitais e profissionais de sade. Mais que isso, nossa
expectativa explicitar alguns fenmenos de ligao entre profissionais de sade,
estabelecimentos e reas da sade. Como exemplos de fenmenos podemos citar (1)
correlao entre profissionais de sade que esto trabalhando em estabelecimentos
de sade que atuam em suas especialidades de formao, (2) migrao de
profissionais de sua regio de formao para regio de atuao, (3) distribuio de
profissionais de sade e especialidades mdicas por regio, (4) identificao de
alertas e temas de sade por regio, e (5) qualificao de estabelecimentos de sade
pelos consumidores.
Os desafios tecnolgicos e cientficos a serem vencidos neste projeto foram
divididos em trs etapas: (1) inicialmente foram definidos os servios e as fontes de
dados heterogneas, em especial seu modelo de informao, cujos dados esto
sendo captados por meio de mecanismos automatizados, (2) o inter-relacionamento
dos dados, seguido pela (3) construo do ambiente de publicao dos resultados.
A definio do escopo dos servios e fontes de dados que esto sendo
captadas e interrelacionadas, de natureza pblica e disponvel na web, inclui os
currculos e lista de instituies da Plataforma Lattes CNPq, dos registros dos
estabelecimenos de sade do CNES e do termos estruturados do Wikipdia/DBpedia.
A coleta dos dados est sendo baseada em processos automatizados, com apoio de
servios disponibilizados formalmente pelos repositrios ou a partir dos dados
publicamente disponveis por meio de protocolos da web (HTTP, FTP). A amplitude da
informao a ser inter-relacionada inicialmente considera tpicos como perfis
profissionais e acadmicos, classificao dos estabelecimentos de sade por
localidade e especialidades, reas de conhecimento e subreas, tipos de publicao e
definies conceituais. Estamos utilizando as estruturas originais dos repositrios para
a formao da estrutura semntica inicial de ligao dos dados. O interrelacionamento semntico gerenciado por meio das linguagens de representao e
consulta resource description framework (RDF) (Klyne & Carrol 2004, W3C
Consortium 2013) e SPARQL (W3C Consortium 2008), respectivamente. O sistema e
o gerenciador de banco de dados Sesame (Aduna 2013) est em uso para
armazenamento de dados estruturados no formato RDF. Bibliotecas na linguagem
Python foram usadas para criao de modelos de informao RDF e javascript object
notation (JSON). Por fim, pretendemos incluir no escopo uma busca secundria de
dados abertos no-estruturados na web por meio da integrao com um buscador
web, por exemplo Google.

91

Com relao mtrica de inferncia semntica, iniciamos a construo de um


algoritmo para fornecer indcios sobre as ligaes entre as entidades relacionadas
baseado em uma escala de similaridade entre informaes distribudas em diferentes
repositrios. A noo de significado comum est sendo usada, alm das composies
semnticas provenientes de ontologias j publicadas pela W3C. Para uma explorao
visual dos dados trataremos da construo do ambiente de visualizao dos dados
utilizando modelos subsidiados por experincias relatadas (Viegas et al. 2007). Por
meio de tcnicas e ferramentas disponveis apresentaremos grficos dinmicos e
interativos para visualizao de grandes volumes de dados, buscando facilitar a
recuperao da informao e a identificao de fenmenos de ligao. Estamos
experimentando ambientes como D3 (D3.js 2013) e Exhibit 3.0 (Exhibit 2013), que
provm ferramentas para a criao de visualizaes baseadas em javascript, HTML e
scalable vector graphics (SVG), como suporte da visualizao preliminar.
A ligao entre profissionais, estabelecimentos, reas e publicaes ser
exposta por meio de relatrios clssicos com dados cruzados e tambm por
paradigmas de visualizao que possibilitem interao do usurio. Outras modalidades
de integrao dos servios ofertados, via SOAP/XML, sero oferecidas.
Como resultados preliminares temos, em verso beta, um sistema de busca de
contedos do domnio da sade, com explorao visual, dos dados inter-relacionados
pelo mapa semntico proposto. Como resultados secundrios preliminares temos os
princpios estatsticos de um mtodo computacional que ser responsvel pela
inferncia semntica entre os contedos dos repositrios escolhidos e um mapa
semntico entre os contedos dos repositrios com mtricas da anlise de rede social,
j em investigao. A partir do modelo de representao j construdo no projeto
temos como um prximo passo publicar 2 ontologias de representao dos dados,
uma da Plataforma Lattes CNPq e outra dos estabelecimentos do CNES, a serem
avaliadas pela grupo GT Dados Abertos do Escritrio Brasileiro do Consrcio World
Wide Web (W3C Brasil), e pelo grupo GT3 Terminologia da ABNT CEE-78 Informtica
em Sade.
Estudo em Andamento: Anlise de Sentimento de Opinies no Twitter
Este segundo projeto, tambm em andamento, tem como objetivo construir um mtodo
de classificao de mensagens sobre sade provenientes de redes sociais,
inicialmente apenas do Twitter, considerando aspectos de sentimento, popularidade e
tempo de repercusso, por meio da integrao de tcnicas de minerao de texto com
listas de termos afetivos (Affective Norms for English Words) (Bradley & Lang 1999).

92

Este estudo est sendo conduzido em um mestrado, de Gabriela Denise de Arajo,


junto ao Programa de Ps-graduao em Gesto e Informtica em Sade, EPM
UNIFESP.
A primeira etapa considerou a coleta e o armazenamento de contedos a
serem utilizados na anlise e classificao. A mdia social escolhida para a realizao
da coleta dos dados foi o Twitter pelo fato de ser a rede em maior ascenso
atualmente, por fornecer uma ampla coleo de application programming interface
(APIs) e por oferecer acesso s mensagens publicadas pelos seus usurios sem
necessidade de uma permisso. Ainda nessa etapa foi realizada uma atividade de
seleo de temas de sade que compem um filtro para o coletor recuperar
mensagens no Twitter relacionadas a estes temas de sade. Para isso, sete
voluntrios, dentre eles, um gestor de iniciativa privada, um mdico, uma enfermeira,
uma fonoaudiloga, uma farmacutica e duas estudantes de informtica em sade
levantaram temas de sade que consideram relevantes a serem pesquisados. Aps o
levantamento dos temas, cinco foram selecionados: diabetes, cncer, hipertenso
arterial, obesidade e planos de sade. Foi elaborada uma combinao de termos
relacionados a estes temas para pesquisar as mensagens no Twitter e armazenlas. Alm de mensagens com os termos selecionados tambm foram coletadas
mensagens que continham palavras de um vocabulrio afetivo denominado Affective
Norms for English Words BR (ANEW-BR) (Kristensen et al., 2011). Estas mensagens
foram utilizadas para auxiliar na elaborao da lista de palavras com polaridade que o
classificador que ir utilizar na identificao da orientao semntica das mensagens
no Twitter. O ANEW-BR uma traduo e adaptao do Affective Norms for English
Words (ANEW) para o portugus brasileiro desenvolvido por um grupo de
pesquisadores da Universidade do Vale do Rio dos Sinos. Este vocabulrio contm
1.046 palavras pontuadas com valores de valncia (nvel de agradabilidade ou
desagrabilidade) e alerta (nvel de relaxamento ou estmulo).
O processo de captura dos dados est sendo realizado desde maio de 2013 e
at o momento aproximadamente 40 milhes de mensagens do Twitter (conhecidas
como tweets) com os termos selecionados e os termos do vocabulrio afetivo foram
armazenadas. Aps coletados os dados, a segunda etapa realizada foi prprocessamento. Tais documentos passaram por etapas de extrao e limpeza de
termos, contagem dos termos e clculo de frequncia. Depois de pr-processar os
dados, foi selecionado um conjunto com 1 milho de tweets para fazer um clculo de
coocorrncia das palavras das mensagens que no esto presentes no vocabulrio de
sentimento com as palavras do prprio vocabulrio de sentimento, com intuito de

93

ampliar a lista de palavras com pontuao de sentimento. Neste grupo de mensagens


foram identificadas em torno de 192 mil palavras nicas, significativas.
Na terceira etapa criamos um algoritmo em Java para a classificao dos
tweets, seguindo os princpios de classificao da ferramenta de indexao de
descritores conhecida como Journal Descriptor Indexing (JDI) criado pela NLM. O
produto final deste algoritmo apresenta uma relao estatstica e quantitativa entre as
palavras de sentimento do vocabulario ANEW-BR e os tweets coletados para a
anlise.
Acreditamos que o inter-relacionamento de dados sobre pesquisadores e
profissionais de sade, em conjunto com mapa semntico do DBpedia e avaliao da
opinio de consumidores proveniente de rede social, inicialmente o Twitter, pode
apresentar resultados interessantes para buscas dos consumidores e possivelmente
ser utilizado como sistemas de anlise de fenmenos de relacionamento antes no
disponvel. Isto porque originamente estes dados no se encontram inter-relacionados.
Aliados a isso, acreditamos que novos paradigmas de visualizao de dados e
ligaes desenhados especificamente para ambiente web facilitaro o consumo dos
resultados deste inter-relacionamento para o consumidor de sade.

3.2. Qualidade da Informao sobre Sade na Web

Colaboraram com estes estudos


Alex Esteves Jaccoud Falco, Kellen Cristine Aureliano,
Felipe Mancini, Anderson Diniz Hummel,
Fernando Sousa Sequeira, Daniel Sigulem
A grande expanso da web teve seu crescimento afetado em 2001 quando muitas
pessoas acreditavam que a expanso da internet havia saturado. Porm, as grandes
histrias de sucesso surgem nesses momentos, nos quais alguns encontram formas
diferentes de inovao (O'Reilly 2004). Foi ento que um novo conceito de web
comeou a surgir, pelo qual usurios compartilham informaes e experincias
pessoais, denominada mdia social (Hasty 2009; Canny 2006). Esta abordagem faz
uso da tecnologia chamada Web 2.0 (O'Reilly 2007). Esta nova tecnologia foi mais
bem definida em 2004, na primeira conferncia sobre a Web 2.0, enfatizando a
interao entre usurios de forma livre (Millard et al. 2006) para a troca de

94

experincias e informaes, difundindo ainda mais a web e propiciando que o pblico


em geral procurasse mais contedos e ajudas online (Liu et al. 2004).
Devido a sua fcil utilizao e rpido desenvolvimento, esta tecnologia
ofereceu uma poderosa forma de compartilhamento de informaes. Podemos listar
servios como wiki, blog, podcasting (Boulos et al. 2006; Ebersbach et al. 2005) e
sistemas de comunicao em massa (broadcasting) como por exemplo Twitter (Java
et al. 2007). Estes esto cada vez mais freqentes na web, e so exemplos de como
qualquer usurio pode criar e editar contedos, notcias, comentrios ou ainda
compartilhar udio e vdeo sem a necessidade de grandes conhecimentos tcnicos.
Facilidades como a interatividade com o usurio, compartilhamento facilitado de
dados, possibilidade de colocar dados de diversas pginas web agregadas para prover
diferentes combinaes de informao, anncios dinmicos e facilidade de
visualizao das interfaces (Ankolekar et al. 2007) foram incorporadas Web 2.0. A
incorporao de tais facilidades foi possvel devido ao agrupamento de tcnicas de
desenvolvimento web baseadas em javascript assncrono e XML (AJAX) (Bray et al.
2009; Garrett 2005).
As aplicaes propiciadas pela Web 2.0 fizeram com que contedos completos
de revistas, jornais, artigos, livros, figuras, vdeos e tabelas fossem disponibilizados e
comentados online pelos prprios usurios, tornando a informao mais rica e de
maior compreenso. Porm, este ambiente faz com que a topologia da web se
tornasse cada vez mais complexa, evocando questionamentos sobre a credibilidade
da informao disponibilizada (Robins et al. 2010; Lazar et al. 2007; Fogg et al. 2003,
2000).
Credibilidade de Informao sobre Sade
Quando pensamos em informao da rea da sade na web, a veracidade e
adequao destas informaes se tornam ainda mais crticas para a sua satisfao
(Bliemel et al. 2006), tendo em vista que consumidores tm acesso aos mais diversos
tipos de contedos, que vo desde sintomas de uma determinada doena at formas
de tratamento complexos. Existe ainda a preocupao com a capacidade do indivduo
em se aplicar a informao nos casos pessoais (Adams 2010). Estudos mostram que
somente 25% das pessoas se preocupam com polticas de adequao (Stvilia et al.
2009).
Ao redor do mundo pginas web procuram suprir a necessidade da populao
em busca de informaes sobre sade. Tais websites ajudam as pessoas a encontrar
hiperlinks avaliados por especialistas, informaes especficas do domnio da sade,

95

opnies de profissionais da sade e compartilhamento de experincias por pacientes e


usurios dos servios. Dentre estes servios podemos citar o Organized Wisdom
(organizedwisdom.com), que apresenta informaes organizadas e avaliadas por
especialistas convidados, o Patients Like Me (patientslikeme.com) que procura reunir
pacientes com as mesmas doenas a fim de trocar experincias, opes de
tratamentos e informaes sobre medicamentos entre os membros da comunidade,
profissionais especializados e organizaes que tenham interesse em determinada
doena.
O cenrio descrito mostra a relevncia deste tema dentro do mbito da
internet. De acordo com o Centro de Estudos Sobre as Tecnologias da Informao e
da Comunicao (CETIC cetic.br) calcula-se que no ano de 2008 em torno de 33%
das atividades de usurios da web no Brasil estavam relacionadas procura de
informao sobre sade, atingindo 35% em 2010 e 43% em 2012. Nos Estados
Unidos, essa porcentagem sobe para 55% (Pew Internet and American Life Project
2010). Os principais temas de busca esto principalmente relacionados a doenas ou
condies mdicas (cerca de 90% das buscas), seguido por recuperao de
informaes sobre e hospitais e profissionais em sade (85%), e nutrio (82%) (Taha
et al. 2009).
Critrios de Adequao de Contedos sobre Sade
Quando contedos em sade so analisados, dois pontos devem ser questionados: a
adequao e a qualidade de contedos em sade disponibilizados em listas de
discusso, blogs, wikis (Boyd et al. 2008) e em pginas web profissionais ou de
usurios.
Critrios para avaliao da qualidade e adequao de contedos existem
desde 1995 (Lopes 2004), como o criado por Sielberg (1997), Pandolfini e Bonat
(2002), o cdigo Health On Net (HON) (hon.ch) em 1995 (Boyer et al. 1998), os
critrios para avaliao de qualidade do Health Information Technology Institute (HITI)
em 1997 (Ambre et al. 1998), Conselho Federal de Medicina em 2002 (CFM 2009),
Conselho Regional de Medicina de So Paulo (CREMESP 2001) e at uma adaptao
do Guia para Encontrar Informaes Seguras na Internet da Organizao Mundial da
Sade publicado pela ANVISA em 1998 (ANVISA 1998). Algumas adaptaes foram
realizadas nos critrios ao passar dos anos, a exemplo do NetScoring que atribui
pontuao de importncia a oito critrios pr-definidos (NetScoring, [s.d.]). Estes
trabalhos apontam critrios para adequao de contedos. Porm, sem alguma forma
de automao ou cooperao em massa, se tornam inviveis de serem aplicados.

96

A exemplo do HON, o critrio de adequao mais difundido, realizado de


forma manual por especialistas e depende do envio de um formulrio pelo proprietrio
do website para solicitar a avaliao do mesmo. Como exemplo, os critrios do HON
os quais uma pgina web sobre sade deve atender, so:
1. Os autores e suas credenciais mdicas foram mencionados?
2. O objetivo da pgina web foi mencionado?
3. O pblico alvo foi mencionado?
4. H alertas sobre a importncia de consultar um mdico ou profissional da
sade?
5. H informao sobre uso ou compartilhamento de dados sigilosos?
6. H referncias para as fontes de informao?
7. Existem datas referentes informao?
8. Se oferece produto, apresenta indicaes e contra-indicaes?
9. Se

oferece

tratamento,

apresenta

outras

formas

de

tratamento

ou

procedimentos?
10. H contato do responsvel?
11. H avisos sobre quem mantm a pgina web financeiramente?
12. H avisos sobre contedos de propaganda?
Estudos apontam que a qualidade da informao um conceito complexo para
ser definido, no sendo evidente para o usurio a sua definio (Oleto 2006). Assim
sendo, o que mais se aproxima deste conceito a percepo da qualidade a ponto de
vista do usurio.

Pesquisas Realizadas

Realizamos estudos com o objetivo de identificar e quantificar a adequao de pginas


web brasileiras da rea da sade por meio de critrios e recomendaes de entidades
reconhecidas, como Conselho Regional de Medicina de So Paulo (CREMESP 2001)
e Health on Net (hon.ch), baseando-se em avaliaes de usurios e indicadores
automatizados.
Este estudo foi conduzido por meio de um projeto de mestrado, de Alex
Jaccoud Esteves Falco, junto ao Programa de Ps-graduao em Informtica em
Sade, UNIFESP, com colaborao do Prof. Dr. Daniel Sigulem, mdico, professor
titular em informtica em sade. Especificamente, estvamos interessados em criar

97

um sistema baseado na tecnologia Web 2.0, que foi denominado HealthRank, pelo
qual fosse possvel a avaliao de pginas web por usurios, e confeccionar um ndice
de adequao s recomendaes de adequao baseado em avaliaes de usurios.
Nossa expectativa que fosse possvel desenvolver um sistema automatizado para
avaliao destes critrios de adequao, sem a participao de usurios. Havia um
interesse em tentar responder se as pginas web que atendem os critrios HON so
vistos como pginas de qualidade pelo consumidor, ou seja, se h uma relao direta
entre critrio tico e qualidade.
Avaliao de Pginas Web por Voluntrios
O primeiro experimento conduzido, por meio de uma interface web de busca e
recuperao da informao especfica para a prova de conceito, seguindo estilo do
buscador Google, foram considerados os critrios de adequao da HON. Foram
analisados os logs de acesso e respostas ao atendimento ou no dos critrios. Foram
escolhidos aleatoriamente 50 portais web a partir do diretrio Alexa (alexa.com) com
213 portais da categoria sade, de 7.567 portais disponveis. Este diretrio apresenta
tambm estatsticas sobre os portais cadastrados (Yanbe et al. 2007). Este conjunto
de pginas web foi apresentado a 352 voluntrios (estudantes de especializao em
informtica em sade), gerando 2.277 avaliaes (IC 95%, erro ~2%), com cobertura
variada. Os avaliadores apontaram percepo de qualidade muito bom 21%, bom
42%, neutro 23%, ruim 11% e muito ruim 3%. O portal web com maior avaliao de
percepo de qualidade foi o #15 com 75,00 pontos (Hospital das Clnicas da FMUSP
hc.fm.usp.br) e o avaliado com menor qualidade foi o #34 com 31,49 pontos. A mdia
total da percepo de qualidade foi de 49,06 10,54.
O coeficiente de correlao calculado pelo teste Pearson entre a percepo de
qualidade do usurio e cada critrio HON foi avaliado. Observamos valor de
correlao Pearson de 0,60 e 0,65 com indcios de boa correlao positiva entre a
percepo de qualidade do usurio e o critrio O objetivo do website foi
mencionado? e o critrio H contato do responsvel? respectivamente. Observamos
uma correlao negativa (-0,53) entre a percepo do usurio e o critrio H
informaes sobre o uso ou compartilhamento de informaes sigilosas?.
Classificador Automtico de Critrios ticos
Como segundo experimento foi construdo um algoritmo, aqui denominado rob, para
avaliao automtica dos critrios ticos (HON) para pginas web. O rob inicialmente

98

classifica se uma pgina web apresenta contedo de sade, e caso afirmativo, avalia o
atendimento aos critrios. Este rob construdo usando a linguagem Perl constituiu a
primeira verso do algoritmo InDeCS (Falco et al. 2009), criado no grupo de
pesquisa, mencionado na seo Trs Estratgias de Classificao (pg. 79), deste
mesmo captulo. A classificao de sade ou no-sade baseou-se numa estatstica
de presena de termos pr-definidos como sade, provenientes de classificao
manual e do Manual Merck de Informao Mdica - Sade para a Famlia (Berkow et
al. 2009).
Das 1.132 pginas web coletadas foram examinadas 740.644 composies
para um termo (1-grama), 1.296.780 composies de dois termos (2-gramas) e
1.426.760

composies

para

trs

termos

(3-gramas),

totalizando

3.464.184

composies. A partir do steming de 3-gramas dos termos agrupados foi calculada


uma similaridade dos termos presentes nas pginas web com termos do Descritores
em Cincia da Sade (DeCS), verso 2008, do Centro Latino Americano e do Caribe
de Informao em Cincias da Sade (Bireme 2008). O servio de clculo de
similaridade foi disponibilizado pela BIREME por meio de um servio web (Tardelli et
al. 2004). Foram analisados como classificadores os algoritmos vizinhos mais
prximos, redes neurais artificiais e regresso logstica. Foi adotada como metodologia
de treinamento e teste do rob uma validao cruzada com 10 subgrupos (10 fold
cross-validation) (Burnham et al. 2002). Para seleo do algoritmo com melhor
acurcia foram usados a porcentagem de acertos, a sensibilidade, a especificidade e a
rea sob a curva ROC (Massad et al. 2004), sendo escolhido o algoritmo de vizinhos
mais prximos (97,44%; 0,92; 1,00; 0,98).
Sobre o atendimento dos critrios HON, o algoritmo construdo considerou
apenas 4 critrios: autoridade, transparncia de propriedade, complementaridade e
data de atualizao do documento. Foram considerados inicialmente somente estes
critrios devido a complexidade e variabilidade do formato com que as informaes
que identificam os critrios esto dispostas nas pginas web. Outros critrios foram
analisados por diferentes verses do algoritmo, mas devido falta de estatstica
robusta sobre a ocorrncia dos contedos nos formatos trabalhados, foram excludos
dos resultados. Observamos que o critrio H alerta sobre a importncia de consultar
um mdico ou profissional da sade? apresentou timos indcios de concordncia
(1,00) entre a avaliao do rob e do pesquisador. O critrio Os autores e suas
credenciais foram mencionadas? apresentou bons indcios de concordncia (0,69)
entre o rob e o pesquisador.

99

Critrios ticos Versus Percepo da Qualidade


Apesar de 63% dos participantes acreditarem que as pginas web fossem boas ou
muito boas, somente 48% obtiveram valor de adequao superiores a mdia de 50,11
pontos em uma escala de 0 a 100 de adequao HON; nenhuma pgina obteve nota
final superior a 75,00 e nenhuma pgina obteve pontuao inferior a 25 pontos. Os
comentrios dos participantes ao final do experimento apresentavam a falta de
confiabilidade nos contedos das pginas web em sade, e a confiabilidade nos
contedos encontrados no Google. Disseram considerar importante a criao de um
selo de qualidade para as pginas web no momento da busca. Ao analisarmos os
dados obtidos, ordenados pela percepo de qualidade, foi possvel observar que
somente 4 (8%) pginas web estavam entre as 10 pginas com maior percepo de
qualidade.
Apesar da avaliao da adequao HON e percepo de qualidade
apresentarem valores prximos, ao analisarmos as estatsticas foi possvel notar que,
do ponto de vista do usurio, a ausncia dos critrios HON no interfere diretamente
em sua percepo de qualidade do contedo da informao em uma pgina web
sobre sade.

3.3. Alerta de Celular para Adeso ao Tratamento

Colaboraram com estes estudos


Thiago Martini da Costa, Adauto Castelo Filho,
Cristina Soares Prado, Jos Marcio Duarte,
Cristina Lucia Feij Ortolani
A definio de adeso do paciente, que tem como sinnimos a cooperao e a
observncia do paciente, de acordo com o DeCS : cooperao voluntria do
paciente em seguir um esquema prescrito pelo mdico. A OMS (WHO 2003) evoluiu
esta definio, partindo do pressuposto que a palavra mdico insuficiente para
descrever o leque de intervenes que podem ser realizadas no processo de cuidado,
e de que a palavra prescrio remete a uma passividade do paciente, que na verdade
necessita ser um agente ativo, colaborador, no tratamento. Dessa maneira, a OMS
elaborou a seguinte definio de adeso ao tratamento de longo prazo: O alcance a
que o comportamento de uma pessoa na ingesto de medicamentos, em seguir uma
dieta e/ou na execuo de mudanas no estilo de vida - corresponde com as

100

recomendaes que foram combinadas com um provedor de cuidado sade (WHO


2003:3 traduo nossa).
A baixa adeso um fato muito comum e geralmente a adeso costuma
diminuir conforme a complexidade, custo e durao da terapia aumentam (McDonald,
Garg e Haynes 2002). Segundo a OMS (WHO 2003), vrios fatores podem influenciar
a adeso do paciente, entre eles: fatores scio-econmicos, a equipe e o centro de
sade que prestam o cuidado ao paciente, caractersticas da doena, as formas de
tratamento, alm de fatores relacionados ao paciente. McDonald, Garg e Haynes
(2002), em reviso sistemtica da literatura cientfica, verificaram que se a resposta ao
tratamento est condicionada dose e ao horrio de ingesto de medicamentos, a
falta de adeso pode reduzir os benefcios do tratamento e enviesar a avaliao de
sua efetividade, alm de estar relacionada com prognsticos ruins.
Em pessoas infectadas pelo HIV, por exemplo, devido s elevadas taxas de
mutaes e replicaes do vrus, altos nveis de adeso, isto , superior a 95%,
necessitam ser mantidos para que o vrus possa ficar suprimido (WHO 2003;
Bangsberg et al. 2000), evitando dessa forma a resistncia viral que pode ser
transmitida para outras pessoas (WHO 2003).
Para auxiliar os pacientes a manterem adeso ao tratamento, Haynes,
McDonald e Garg (2002) recomendam uma combinao de manter a dieta o mais
simples possvel, negociar prioridades com o paciente, prover instrues claras,
lembrar os pacientes sobre suas consultas, monitorar a adeso ao tratamento e
consulta, chamar os pacientes que perderam um agendamento para serem seguidos
mais de perto, reforar a cada visita importncia de alta adeso.
De acordo com a OMS (WHO 2003), intervenes endereadas a melhorar a
adeso ao tratamento tm demonstrado reduo em custos e aumento na efetividade
das intervenes de sade. Por fim, vale a pena traduzir uma afirmao da OMS: O
acesso medicao necessrio, mas insuficiente para o sucesso no tratamento de
uma doena (WHO 2001 apud WHO 2003:23 traduo nossa).
Uma dessas intervenes atualmente em curso, que ganha maior impacto
medida da popularizao do uso do telefone celular um fato no Brasil, o envio de
alertas por meio de celular. Dados da Agncia Nacional de Telecomunicaes
(ANATEL) (anatel.gov.br) indicam que o Brasil terminou agosto de 2013 com 268,4
milhes de celulares ativos e 135,45 celulares a cada 100 habitantes. No mesmo ritmo
que os telefones celulares esto se popularizando, o uso do servio de envio de
mensagens de texto, tambm conhecidas como SMS (acrnimo na lngua inglesa para
short message service), tem aumentado. Atualmente praticamente todos os telefones
celulares tm a habilidade de enviar mensagens SMS (Stucken 2010). Normalmente

101

as pessoas enviam mensagens SMS de um telefone celular para outro, porm podese enviar SMS de um telefone celular para uma linha telefnica fixa, que pode ler
automaticamente a mensagem. O envio de mensagens de um computador para um
telefone celular e de um telefone celular para um computador tambm possvel
(Stucken 2010). Notcias, alertas de resultados esportivos, usurio e senha em
pginas web e at mesmo jogos podem ser executados via mensagem SMS.
Instituies financeiras como bancos e provedores de carto de crdito utilizam SMS
para enviar saldos ou alertas sobre movimentaes financeiras efetuadas na conta
bancria.
SMS na Sade
Na rea de sade as mensagens SMS tambm tm demonstrado utilidade. Volcke et
al. (2007) realizaram um estudo piloto com 27 pacientes portadores de diabetes para
os quais, por meio do envio de mensagens SMS, tentou-se avaliar a viabilidade e a
aceitabilidade de um sistema que lembrava os pacientes que estavam tomando a
medicao quetiapina a seguirem a prescrio. Mensagens eram enviadas
questionando os pacientes se eles haviam tomado a medicao e como eles estavam
se sentindo. As respostas eram recebidas e armazenadas. De acordo com os autores,
52% (11/21) dos pacientes que continuaram o estudo relataram sentirem-se mais bem
cuidados e 33% (7/21) relataram que foram lembrados, pelo sistema, de tomar a
medicao em momentos que o haviam esquecido. Os autores relatam que de acordo
com os pacientes, sentir-se mais bem cuidado e lembrar de tomar a medicao so os
maiores benefcios do sistema. A concluso inferida do estudo que os altos nveis de
adeso ao sistema de alerta, medidos pelas respostas das mensagens enviadas e os
benefcios expressos pelos pacientes e psiquiatras suportam uma avaliao em
grande escala do sistema.
Hee-Seung et al. (2006) tambm investigaram o efeito do envio de mensagens
para o celular de pacientes no controle de diabetes. No referido estudo o processo
iniciava-se com o paciente que, diariamente, relatava por mensagem SMS o seu nvel
glicmico equipe de sade. Recomendaes timas eram enviadas por SMS
semanalmente para esses pacientes como resposta aos relatos de nvel glicmico.
Aps um perodo de 12 semanas os autores observaram nos pacientes que
participaram do estudo uma reduo de 1,1% no nvel de hemoglobina glicosilada
alm de maior adeso a 30 minutos de exerccios dirios, tomada de medicamentos e
aos cuidados com os ps. Apesar dos achados, cabe ressaltar que no estudo no

102

houve uma discusso consistente sobre a preciso das medidas de adeso aos
exerccios fsicos e a significncia da reduo no nvel de hemoglobina glicosilada.
Downer, Meara e Da Costa (2005) enviaram mensagens SMS para pacientes
com o intuito de evitar ausncia a consultas. Segundo os autores, os resultados
variam de especialidade para especialidade, mas em geral, o grupo de pacientes que
recebeu mensagens SMS teve 14,2% de ausncias a consultas agendadas, enquanto
que o grupo de pacientes que no recebeu SMS teve 23,4% de ausncias. Geraghty
et al. (2008) tambm realizaram um estudo para avaliar a reduo de ausncias a
consultas agendadas devido ao envio prvio de alertas SMS em um hospital que cuida
dos ouvidos, nariz e garganta. De acordo com os autores, as mensagens SMS
reduziram em 11% a incidncia de ausncia a consultas.
A adeso a atividades preventivas, como por exemplo, tomar vitamina C
(Cocosila et al. 2009) e vacinao antes e depois de viajar (Vilella et al. 2003) tambm
foram beneficiados pelas alertas SMS.
Apesar dos resultados encorajadores sobre o uso mensagens SMS na rea de
sade, os resultados preliminares de uma reviso sistemtica (Thyra et al. 2010)
indicam que existem poucos ensaios clnicos controlados e aleatorizados sobre o
assunto.
Kaplan et al. (2006) notaram que quase no h estudos analisando o uso de
telefones celulares como uma ferramenta para interveno em pacientes infectados
por HIV, tuberculose, malria e outras condies crnicas em pases em
desenvolvimento. Em adio, os primeiros estudos sobre o efeito de SMS em
pacientes que vivem com HIV/AIDS so recentes, e, segundo os autores, sua
aplicabilidade em outros cenrios necessita ser avaliada (Lester et al. 2010). Em
reviso sistemtica da literatura da Cochrane em 2010 sobre os tipos de auxlio e
educao para promover adeso terapia antiretroviral altamente efetiva para
HIV/AIDS, Rueda et al. (2010) incluram 19 estudos e nenhum deles utiliza o envio de
SMS para auxiliar os pacientes com HIV nesse tipo de tratamento. Os autores
mencionam ainda que excluram vrios artigos de sua anlise devido baixa
qualidade metodolgica, nas quais os problemas mais comuns foram a falta de
comparao com grupo controle e o fracasso em relatar a medida de adeso para
ambos os grupos por pelo menos 6 semanas. Este resultado corrobora a constatao
de Thyra et al. (2010) sobre a escassez de ensaio clnicos controlados e aleatorizados.
Lester et al. (2010) conduziram provavelmente o primeiro ensaio clnico controlado e
aleatorizado sobre o tema no Qunia. Os autores, no entanto, concluem que embora o
estudo tenha demonstrado resultados positivos, sua aplicabilidade para outros pases
ainda necessita ser avaliada.

103

O uso de mensagens SMS enviadas aos pacientes como forma de lembrete


para aumentar a adeso ao tratamento tambm foi avaliado em outras reas da sade
como por exemplo, tratamentos de pacientes portadores de diabetes tipo 2 (Vervloet et
al. 2011) e at mesmo no uso da vitamina C em carcter preventivo (Cocosila et al.
2009).
Na rea odontolgica os estudos utilizando SMS so escassos e no avaliam a
adeso ao tratamento propriamente dito, mas sim o aumento no comparecimento dos
pacientes s consultas marcardas (Nelson et al. 2011; Foley e ONeill 2009).
Aumento de Publicaes em 2012
O surgimento de publicaes apresentando em seu escopo pesquisas clnicas
utilizando intervenes baseadas em mensagens do tipo SMS como suporte ao
tratamento de doenas se deu por volta de 2002. Principalmente a partir do ano de
2009, em meio popularizao do uso de mensagens do tipo SMS para comunicao
entre os usurios de telefone celular, a quantidade de artigos aumentou
exponencialmente apresentando uma curva ascendente com seu pico em 2012, ano
em que houve o auge no nmero de estudos clnicos sobre o assunto, conforme
Figura 13.
Quantidade de Publicaes PubMed sobre SMS na Sade

Figura 13 Grfico com a quantidade de publicaes PubMed sobre uso de SMS como
suporte ao tratamento de doenas por ano, considerando (*) dados parciais de 2013.

Em 2012 se destaca o estudo de Vervolet et al. (2012), no qual investigou-se o


efeito de mensagens do tipo SMS como lembrete na adeso medicamentosa em

104

pacientes portadores de diabetes tipo 2. Foi realizado um estudo clnico controlado e


randomizado, com 102 pacientes, pelo qual o grupo interveno recebeu lembretes
por meio das mensagens SMS caso no tomasse uma medio. Ao final dos 6 meses
de acompanhamento o estudo revelou uma adeso significantemente maior do grupo
interveno em relao ao grupo controle, tanto no que diz respeito a medicao mas
especialmente quanto preciso com que tais pacientes seguiram ao regime
prescrito.
Observamos que em 2012 e 2013, alm de estudos relacionados a asma
(MacDonell et al. 2012), diabetes (Louch et al. 2013) e tuberculose (Lei et al. 2013),
houve um maior e crescente nmero de publicaes investigando o impacto das
mensagens do tipo SMS na adeso ao tratamento antirretroviral (Bigna et al. 2013;
Dowshen et al. 2013; Mbuagbaw et al. 2013; Costa et al. 2012). A adoo de
mensagens de texto como suporte ao tratamento de pacientes portadores de HIV
tambm foi defendida por Maduka e Tobin-West (2013). Para demonstrar o efeito de
tais mensagens na adeso terapia antirretroviral realizou-se um ensaio clnico
randomizado com um total de 104 pacientes. O grupo de interveno recebeu
lembretes na forma de mensagens de texto duas vezes por semana, durante quatro
meses, enquanto o grupo controle recebeu apenas o tratamento padro. A adeso
auto-referida e contagem de clulas CD4+ foram mensurados pr e ps-interveno, o
que resultou em uma adeso de 76,9% do grupo interveno e 55,8% do grupo de
controle. Alm disso, a contagem de clulas CD4+ do grupo de interveno aumentou
de 193 clulas/ml para 575 clulas/ml contra 131 clulas/ml para 362 clulas/ml no
grupo controle (p=0,007).

Pesquisas Realizadas

Com relao ao envio de SMS para aumentar a adeso ao tratamento, conduzimos 3


estudos. O primeiro estudo tratou de pessoas com HIV/AIDS no qual o SMS enviado
tem como objetivo aumentar a adeso ao tratamento. O segundo estudo tratou de
avaliar uma srie histrica de envio de SMS em clnicas para diminuir absentesmo. E
o terceiro tratou de avaliar o impacto na recuperao clnica de paciente com
disfuno temporomandibular (DTM) do envio de SMS.
Esta pesquisa foi conduzida por meio de um mestrado, de Thiago Martini da
Costa, junto ao Programa de Ps-graduao em Gesto e Informtica em Sade,
UNIFESP, com colaborao do Prof. Dr. Adauto Castelo Filho, pesquisador

105

especialista em infectologia e HIV. Tambm realizamos por meio de um projeto de


mestrado, de Cristiana Soares Prado, uma investigao no uso do SMS com pacientes
com disfuno temporomandibular, na UNIFESP. Este estudo ainda est em curso,
com colaborao da Profa. Dra. Cristina Lucia Feij Ortolani, ortodontista, e
colaborao de Jos Marcio Duarte.
HIV/AIDS
O trabalho inicial, com pessoas com HIV/AIDS, surgiu a partir da vontade de
desenvolver e investigar uma abordagem que interagisse e impactasse diretamente na
vida de pacientes. O uso de telefone celular cada vez mais comum no Brasil e o
envio de alertas SMS sobre movimentaes financeiras na conta corrente, reforou a
idia de que mensagens SMS poderiam ser pouco intromissivas, bastante teis e
efetivas. A escolha de enviar mensagens SMS para pessoas que vivem com HIV/AIDS
pautou-se no fato de que a AIDS era, e ainda , o maior problema de sade pblica do
mundo (UNAIDS e WHO 2009) e no havia constatao sobre o impacto de SMS na
adeso ao tratamento dessas pessoas na poca do desenho do projeto (Kaplan et al.
2006). Especificamente, investigamos o efeito do envio automtico de mensagens de
texto para celular na adeso ao tratamento antirretroviral de mulheres que vivem com
HIV/AIDS. Este estudo foi realizado junto ao Ncleo Multidisciplinar de Patologias
Infecciosas da Gestao (NUPAIG), UNIFESP.
O sistema web de alertas denominado HIV Alert System (HIVAS) foi
desenvolvido, usando linguagem PHP e banco de dados MySQL, para agilizar e tornar
possvel a conduo do experimento que investigou se o envio de SMS para o celular
de pacientes aumentou a adeso ao tratamento antirretroviral. O HIVAS, alm de
enviar automaticamente as mensagens SMS, conforme programado, foi planejado
para receber os dados necessrios para se calcular a adeso ao tratamento
medicamentoso dos participantes do estudo. A adeso ao tratamento antirretroviral de
mulheres que vivem com HIV/AIDS foi medida durante 4 meses (5 encontros) por trs
mtodos de adeso. Um grupo de participantes foi alocado aleatoriamente para
receber apenas o atendimento multiprofissional convencional, enquanto que outro
grupo de participantes recebeu, alm do atendimento convencional, mensagens do
tipo SMS enviadas automaticamente pelo sistema HIVAS. Este experimento foi
desenhado como um estudo do tipo ensaio clnico controlado e aleatorizado. Estudos
do tipo ensaio clnico controlado e aleatorizado so frequentemente considerados
como critrio de boa qualidade em revises sistemticas da literatura cientfica (Thyra
et al. 2010; Rueda et al. 2010).

106

Pacientes que se enquadram nos seguintes critrios foram includas: possuir


diagnstico de infeco pelo HIV confirmado pelo mtodo Western Blot (Burnette et al.
1981); estar em uso do primeiro ou segundo esquema antirretroviral contendo dois
anlogos de nucleosdeos mais um inibidor de protease (com ou sem reforo de
ritovanir) ou um no anlogo de nucleosdeo; estar com carga viral inferior a 400
cpias/ml h pelo menos trs meses; possuir nmero de clulas CD4+ maior que
200/mm3 e ser do sexo feminino. Foram excludas do estudo pacientes em uso de
medicao profiltica ou teraputica para infeces oportunsticas; que no
possussem telefone celular; analfabetas.
Os participantes do experimento alocados no grupo interveno receberam
uma mensagem SMS enviada automaticamente pelo HIVAS 30 minutos antes do
horrio de tomar a ltima dose de medicamento do dia. As mensagens foram enviadas
todos os sbados e domingos e durante a semana em dias alternados pelo perodo de
4 meses. Similar a outros estudos (Lester et al. 2010; Cocosila et al. 2009),
participantes no grupo controle no receberam nenhuma mensagem SMS. Entretanto,
como condio necessria para entrar no estudo foi requisitado que possussem um
telefone celular para que houvesse compatibilidade total entre ambos os grupos. Dos
59 pacientes entrevistados, 29 foram alocados aleatoriamente entre os grupos controle
(15) e interveno (12). Considerando desistncias e roubos de aparelho, a anlise
final baseou-se em 13 pacientes no grupo controle e 8 no grupo interveno. O
percentual de adeso ao tratamento antirretroviral dos participantes dos grupos foram
calculados em cada ms, seguindo 1 medida subjetiva e 2 objetivas de adeso ao
tratamento: auto-relato de adeso nos ltimos 30 dias (Walsh et al. 2002), contagem
de plulas e monitores microeletrnicos MEMS (Aardex, Zug, Switzerland) (WHO
2003), respectivamente.
Em nosso estudo controlado e aleatorizado ambos os grupos (controle e
interveno) receberam o mesmo tipo de tratamento e atendimento na clnica
NUPAIG, da UNIFESP, nica exceo foi o envio do SMS. Este fato permitiu avaliar o
efeito da interveno SMS de maneira isolada, no em conjunto com um pacote de
estratgias. Alm disso, Rueda et al. (2010) constataram em sua reviso que os
grupos menos beneficiados por estratgias para melhorar adeso terapia
antirretroviral so mulheres, latinos e pacientes com histrico de alcoolismo. Em nosso
estudo focamos em um grupo especfico de pessoas que vivem com HIV/AIDS que
so as mulheres latinas, no nosso caso, brasileiras.

107

Trs Medidas de Adeso ao Tratamento do HIV


Foram utilizadas 3 medidas de adeso ao tratamento: 2 objetivas e 1 subjetiva. A
medida subjetiva, neste caso o auto-relato de adeso nos ltimos 30 dias, fornece ao
investigador um indcio de como o paciente pensa que est sua adeso ao tratamento.
No trabalho de Lester et al. (2010) apenas o auto-relato de adeso foi realizado como
medida direta de adeso. No entanto, como os prprios autores afirmam, pode ocorrer
uma superestimao, originada de diversos fatores como a dificuldade de lembrar
todos os detalhes de tomar os medicamentos, uma tentativa de agradar os mdicos ou
de evitar um confronto, ou uma combinao desses fatores (Haynes et al. 2002).
Optamos por utilizar as 3 medidas mais comuns para facilitar a comparao de nossos
resultados com os resultados de outros trabalhos e para prover uma avaliao da
adeso mais confivel, respaldada por mais de uma medida.
As mensagens no foram enviadas todos os dias da semana porque partimos
do pressuposto de que o envio dirio de mensagens poderia importunar ou at mesmo
banalizar as mensagens. A escolha de enviar aos sbados e domingos e em dias
alternados durante os dias da semana embasada na experincia clnica dos
colaboradores deste projeto e em estudos como de Bachhuber et al. (2010), que
avaliaram que a adeso ao tratamento de pessoas que vivem com HIV/AIDS em fins
de semana pode ser significantemente menor do que durante a semana, apesar dos
autores mencionarem que mais estudos necessitam ser realizados porquie ainda no
h consenso sobre este fato. Lester et al. (2010) utilizaram uma abordagem diferente,
na qual foi enviada uma nica mensagem SMS na segunda-feira de manh
perguntando para o participante do grupo interveno como ele estava. Caso o
participante no respondesse ao SMS ou respondesse negativamente, uma chamada
telefnica foi realizada. Os autores (Lester et al. 2010) enviaram menos mensagens do
que em nosso estudo. No entanto, o participante deveria arcar com os custos de
responder mensagem e, frequentemente, uma chamada telefnica foi necessria.
A adeso dos participantes de ambos os grupos ao tratamento antirretroviral,
em geral, foi melhor do que a taxa de 33% divulgada pela OMS (WHO 2003).
Consideramos que alguns fatos podem ter colaborado, como por exemplo, todas as
medidas

para

aumentar

adeso

previamente

adotadas

pelo

NUPAIG,

acompanhamento mensal dos participantes (normalmente realizado trimestralmente) e


a prpria medio mensal da adeso (normalmente realizada esporadicamente). No
geral, a adeso ao tratamento antirretroviral dos participantes do grupo interveno foi
ligeiramente maior do que a dos participantes do grupo controle se considerados os
meses individualmente ou o perodo completo de 4 meses. Em todos os 3 mtodos

108

utilizados para medir adeso ao tratamento, em todos os meses e durante o perodo


completo de 4 meses, o percentual de participantes que mantiveram adeso superior a
95% (considerado de sucesso pela OMS) foi maior no grupo interveno do que no
grupo controle.
Lester et al. (2010) avaliou a adeso apenas pelo mtodo do auto-relato de
adeso em dois momentos distintos: no sexto e no dcimo segundo meses.
Considerando o perodo completo de 1 ano, os autores (Lester et al. 2010)
encontraram que 168 (62%) dos participantes no grupo interveno tiveram adeso
superior a 95%, enquanto que 132 (50%) dos participantes do grupo controle tambm
se mantiveram aderentes ao tratamento, uma diferena de 12%. Em nosso estudo,
considerando o perodo completo de 4 meses, a quantidade de participantes que
conseguiram percentual de adeso ao tratamento antirretroviral em todos os meses
pelo referido mtodo de medio foi de 8 (100,00%) para o grupo interveno e de 11
(85,62%) para o grupo controle, uma diferena de 15,38%.
Os lembretes SMS enviados aos pacientes tm implicaes ticas e limitaes
importantes. A mensagem enviada ao telefone celular de um paciente pode ser lida
por outros e causar constrangimentos, principalmente em se tratando de pessoas que
vivem com HIV que ainda so muito discriminadas em nossa sociedade. Dessa
maneira deve-se tomar cuidado na redao das mensagens de modo a proteger a
confidencialidade do paciente. No geral os participantes classificaram como muito boa
(54,54%) ou boa (36,36%) a quantidade de mensagens que foi enviada para seus
telefones celulares. O horrio em que as mensagens foram enviadas agradou a
maioria (72,72% Likert 4 e 5), foi indiferente para alguns (9,09% Likert 3), enquanto
desagradou outros (18,18% Likert 1 e 2). Os participantes que no gostaram do
horrio de envio das mensagens solicitaram que ela fosse enviada mais prximo do
horrio de tomar a medicao, ou seja, at 5 minutos antes. A maior parte dos
participantes considerou que as mensagens a ajudou a tomar a medicao, enquanto
que apenas 1 no conseguiu identificar se as mensagens ajudaram.
Os resultados deste estudo so encorajadores e ilustram como a tecnologia da
informao, por meio de mensagens SMS, pode ser empregada para auxiliar na
adeso de pessoas que vivem com HIV/AIDS terapia antirretroviral e para auxiliar os
pacientes a comparecerem consulta. A clnica mdica que atende ao paciente tem
vantagens com esse tipo de abordagem, evitando desperdcio de recursos e
aumentando a satisfao de seus pacientes. Entretanto, os principais beneficiados so
os pacientes, que so lembrados ou muitas vezes estimulados a cuidarem de si
mesmos devido s mensagens SMS. Resultados mostram no s indcios de que as
mensagens SMS podem auxiliar estas pessoas na adeso ao tratamento, como

109

tambm mostrou a aceitabilidade e a satisfao em receber as mensagens. H vrias


maneiras de se combinar abordagens com o intuito de auxiliar o paciente a manter a
adeso ao tratamento antirretroviral. Desta maneira, outros trabalhos sobre o envio de
SMS para pessoas que vivem com HIV/AIDS com o objetivo de aumentar a adeso ao
tratamento merecem ser estimulados. Seja pela busca de uma adeso maior ou
apenas pela busca da satisfao dos pacientes, que pode ser evidenciada por
depoimentos como: ... muitas vezes as pessoas pensam em desistir, eu j pensei,
mas agora no, a mensagem ajuda a pessoa a no desistir".
Absentesmo a Consultas
Outro estudo, transversal, realizado teve como parceira a empresa KATU Sistemas
Inteligentes para a Sade (katusis.com.br), que mantm o sistema Clinic Manager, e
sua versso web Clinic Web, funcionando em diversas clnicas com um mdulo de
envio de lembretes para pacientes por mensagens de texto no celular, que entrou em
operao em junho de 2007. Dados provenientes de ambos os pronturios eletrnicos,
no perodo 2007-2008, sobre a exposio ou no exposio ao lembrete SMS antes
da consulta agendada e as consequentes incidncias de ausncia e presena s
consultas foram analisados. Para cada clnica foram calculados dois percentuais:
percentual de ausncias em consultas agendadas que no tiveram envio prvio de
mensagem SMS (grupo controle) e percentual de ausncias a consultas agendadas
que tiveram envio prvio de mensagem (grupo interveno). O teste exato de Fischer
(Massad 2004) foi utilizado para avaliar a significncia estatstica entre as diferenas
dos grupos (IC 95%).
Ao todo foram analisados os dados de 32.709 consultas agendadas e de 7.890
lembretes SMS enviados. Foi encontrado que para as consultas agendadas sem SMS
como lembretes, o percentual de ausncias em mdia foi de 25,57% enquanto que
para as consultas agendadas com SMS o percentual de ausncias em mdia foi de
19,42%, sendo que esses dados so semelhantes aos relatados por Downer, Meara e
Da Costa (2005), que obtiveram 23,4% e 14,2% respectivamente. A especialidade
mdica parece ser um fator importante na efetividade do envio de SMS para reduo
das ausncias a consultas agendadas. Assim como em nosso estudo, Downer, Meara
e Da Costa (2005) encontraram redues do percentual de faltas devido ao envio de
SMS que variaram entre 3% e 27% dependendo da especialidade analisada e
Geraghty et al. (2008) observaram uma reduo de 11% em um hospital que cuida dos
ouvidos, nariz e garganta.

110

O balano financeiro entre o recurso financeiro aplicado e o retorno do


investimento enfatiza parte do custo-benefcio de enviar lembretes SMS. Os pacientes
que comparecem s consultas agendadas devido ao SMS recebido cobrem o custo do
envio da mensagem SMS para todas as consultas agendadas e ainda provm um
lucro adicional para clnica e para a empresa que disponibiliza o pronturio eletrnico.
Em nosso estudo uma estimativa foi realizada nas 4 clnicas participantes,
desconsiderando-se um baseline da probabilidade de ausncia. O balano resultou
nos valores absolutos de R$1.205,64, R$16.563,20, R$60.220,16 e R$133.736,07,
respectivamente ao volume de atendimentos e especialidades das clnicas, no perodo
de 11 meses da srie histrica analisada, em decorrncia do absentesmo.
Disfuno Temporomandibular (DTM)
O terceiro estudo que estamos envolvidos considera a DTM. A disfuno
temporomandibular (DTM) o nome dado a uma gama de condies que ocorrem na
regio orofacial e que comprometem o conforto e funcionamento saudvel dos tecidos
duros e moles do sistema mastigatrio. As principais manifestaes desses distrbios
so descritas como: dor persistente, recorrente ou crnica nos msculos da
mastigao e/ou da articulao temporomandibular (ATM), assim como, em estruturas
adjacentes;

limitaes

ou

outras

alteraes

na amplitude

dos

movimentos

mandibulares, muitas vezes acompanhada de dor; e sons como estalido e/ou


crepitao produzidos durante a funo mandibular (Dworkin et al. 2002). A maioria
das DTM (aproximadamente 85 a 90%), seja articular ou muscular, pode ser tratada
com intervenes no invasivas, no cirrgicas e reversveis. O controle da DTM
consiste na combinao de auto-tratamentos caseiros, aconselhamento, fisioterapia,
farmacoterapia, placas interoclusais, medicina comportamental e cirurgia (Scrivani et
al. 2008).
Normalmente, os pacientes no esto conscientes de seus prprios hbitos
orais nem da relao de causa com as mioartropatias. Muitas parafunes oclusais ou
outros hbitos orais, como morder lpis e manter a mandbula avanada para melhorar
o perfil, fazem parte de uma srie de comportamentos que podem nascer de estmulos
e atitudes, mas tambm podem ser a expresso de uma situao no superada
(coping negativo). O mdico/dentista deve motivar o paciente a reconhecer os prprios
hbitos deletrios, relacionando-os com situaes de vida especficas, ajud-lo a
identificar os estmulos que os provocam e os mantm, para evitar ativamente a
parafuno e adotar um comportamento novo e positivo. Em geral para estabelecer o
processo de aprendizado, so importantes a motivao e a repetio (Palla 2004).

111

Como o tratamento conservador da DTM em grande parte caseiro e realizado


pelo prprio paciente, a adeso ao tratamento por parte do mesmo extremamente
importante para o sucesso do mesmo. Sabe-se que a falta de adeso ao tratamento
a maior causa de insucesso nos programas de auto-gesto para tratamento de
doenas crnicas nos ambulatrios (Cocosila et al. 2009). Foi neste seguimento que
consideramos relevante avaliar o impacto do envio de SMS como auxiliar neste
tratamento caseiro.
Trs Medidas de Impacto Clnico e Uma de Absentesmo
Neste estudo consideramos as seguintes medidas de impacto no uso de SMS:
variveis objetivas de extenso vertical do movimento mandibular (mxima abertura
bucal sem auxlio e sem dor), de acordo com o protocolo de Critrio e Diagnstico
para Pesquisa em Disfuno Temporomandibular - RDC/TMD (DWORKIN et al.1992)
e de verificao da fora mxima de mordida dos indivduos por meio de um
gnatodinammetro digital (de Vasconcelos 2010; Guimares 2007); varivel subjetiva
como a intensidade da dor mensurada por meio da escala visual analgica de dor
(EVA); e medida do absentesmo s consultas de retorno. Os SMSs personalizados,
definidos a partir dos comportamentos avaliados na 1a consulta, foram enviados
diariamente, em horrios alternados, por 3 meses.
Os resultados preliminares mostram que houve impacto positivo para o grupo
interveno, que recebeu SMS, em comparao com o grupo controle, tratamento
padro. Aps o perodo de 3 meses esperado que o paciente com DTM apresente
melhora significativa dos sintomas, independente do reforo de mudana de
comportamento via SMS. Clinicamente a evoluo dos pacientes do grupo interveno
apresentou uma remisso sintomatolgica maior em relao ao grupo controle. As
variveis utilizadas no estudo (extenso vertical de abertura bucal, dor mensurada por
meio da escala visual analgica de dor, fora mxima de mordida e a frequncia s
consultas de retorno) apresentam-se em fase de tratamento estatstico para
comparao entre os grupos pr e ps-interveno.
Os Trs Estudos
O estudo realizado com as mulheres que vivem com HIV/AIDS teve um carter
exploratrio, foi realizado com poucos participantes e com um padro pr-definido de
textos para as mensagens, para se ter uma ideia de como seria a receptividade e os
efeitos dessas SMS na adeso ao tratamento antirretroviral dessas pessoas. A

112

abordagem utilizada neste estudo demonstrou ser interessante sob o ponto de vista de
que as mulheres que vivem com HIV/AIDS gostaram e se sentiram bem com as
mensagens SMS recebidas. No entanto, novos estudos so necessrios, com mais
participantes, para aumentar a confiana estatstica dos achados encontrados. A
variao dos textos, dos dias e horrios em que as mensagens so enviadas, a
personalizao das mensagens por meio de lgicas de inteligncia artificial e seu
impacto em longo prazo so abordagens diferentes, ainda no investigadas, que
carecem de estudos para determinar sua efetividade.
J o estudo do absentesmo em clnicas considera uma abordagem mais
clssica, de fcil aferio e compatvel com resultados da literatura. Interessante foi
apresentar uma estimativa, simples, do balano financeiro relacionado s faltas que
no ocorreram.
O estudo do impacto no tratamento da DTM ainda segue em anlise, mas os
resultados preliminares apontam que h pequena diferena, positiva, para o grupo de
pacientes que recebe SMS. Neste caso, possvel mostrar impacto clnico, de fato,
por meio de escalas clssicas na rea da odontologia.
Em suma, a abordagem do envio de torpedos para celular, quando
consideradas situaes de personalizao, horrio e texto nas mensagens, apresentase como um recurso simples, barato e de impacto positivo em variadas assistncias
em sade, conforme nossos estudos e os demais relatados na literatura.

3.4. Consideraes Finais


Nossos estudos em descoberta de conhecimento e minerao de dados e texto se
iniciou com foco em contextos especficos da rea da sade. O propsito da criao e
avaliao de sistemas de apoio a deciso, que colaborem com a atividade do
profissional de sade, esteve presente na formao do grupo de pesquisa desde seu
incio. De fato, a aplicao de tcnicas de classificao e indexao de contedos,
geralmente dados numricos, est no cerne da construo de inmeros sistemas de
apoio a deciso especficos na rea da sade (Berner 2006). Medidas de
sensibilidade, especificidade, taxa de acerto, falso positivo, falso negativo, rea sob a
curva ROC, entre outras (Salton e Buckley 1988), esto no dia a dia daqueles que
aplicam mtodos para compreender fenmenos quantitativos na rea da sade.
No entanto, experincias anteriores sobre minerao de texto e tesauros
(Holanda

et al. 2004) foram retomadas quando nos focamos em estudos que

113

buscavam aplicar anlise de minerao de dados e texto para contedos provenientes


da web. Assim, o termo minerao na web (web mining), que representa a aplicao
de minerao de texto em contedos da web, passou a ser um tema recorrente no
grupo de pesquisa. Maior ateno passou a ser dada ao fato do paciente estar
mudando sua postura com relao ao consumo de servios e informao sobre sade
(Pew Internet and American Life Project 2010). Temas de pesquisa ganharam maior
visibilidade incluindo informtica focada no paciente, literacia em sade e educao do
consumidor. O foco das pesquisas encontra-se nas estruturas e processo de
informao que aumentam o poder do consumidor em gerenciar sua prpria sade,
como exemplos, literacia em informao em sade, linguagem adequada ao
consumidor, registro eletrnico pessoal, modalidades de entrega de informao e
estratgias e recursos baseados na web.
Nosso interesse inicial considerou estudos sobre classificao e indexao de
contedos textuais na web. A identificao automtica de contedo sobre sade,
proveniente de pgina web (Falco et al. 2009, Mancini et al. 2009), foi uma linha de
investigao que assumimos, incluindo mtodos para avaliar a qualidade e adequao
destes contedos a critrios ticos. Construmos diferentes verses, evolutivas, do
classificador denominado Indexao por Descritores em Cincias da Sade (InDeCS)
baseado em tcnicas de minerao de texto, vetores de caractersticas e
classificadores de padro a partir do vocabulrio Descritores em Cincias da Sade
(decs.bvs.br). Os resultados obtidos foram satisfatrios quanto tarefa de
classificao (Mancini et al. 2009) e houve indcios de que o uso de um mecanismo de
busca na web baseado no InDeCS aprimora a experincia do consumidor de sade
usurio da web (Falco et al. 2010). Havia resultados deste tipo de investigao para
contedos no idioma ingls (Santini 2008; Bangalore et al. 2007) mas com uma lacuna
para experimentaes para contedos em portugus brasileiro com foco na sade.
Posteriormente tratamos de investigar um aprimoramento desta classificao
sade versus no-sade incluindo nas condies de contorno 19 categorias de sade
do Open Directory Project (dmoz.org), possivelmente o maior diretrio da web editado
por humanos pelo qual trabalhos cientficos de categorizao de textos se beneficiam
(zel 2011; Eickhoff et al. 2011). O objetivo foi expandir essa classificao no apenas
por meio da categorizao, mas incluindo abordagem de multirrotulao, que
representa melhor o comportamento humano nesta tarefa (Santini 2008). De fato, por
meio de uma comparao da revocao (recall) entre voluntrios do experimento e
diferentes tipos de classificador (Figura 12, pg. 88) foi possvel identificar que os
voluntrios erraram muito mais na tarefa de identificar uma categoria nica para uma
pgina web, considerando como correta a categoria do Open Directory Project, que os

114

classificadores computacionais. Entretanto, ao se expandir a tolerncia quanto


rotulao da categoria, denominada multirrotulao, os voluntrios rapidamente
convergiram para a categorizao esperada, enquanto que os classificadores
computacionais comeam a alcanar seus limites de acerto (em funo da base de
treinamento e condies de contorno escolhidas).
De qualquer maneira, o mundo real de classificao e indexao de pginas
web, dentro do escopo da sade, muito mais complexo que estas situaes
estudadas. O significado do contedo das pginas web dependente do contexto
semntico que o usurio da web possui no momento do acesso pgina. A chamada
web semntica (goo.gl/L30Lui) representa, portanto, um esforo de desenvolvimento
tecnolgico e poltico para melhorar a representao da informao disponibilizada na
web. Em nosso caso, a web semntica passou a integrar nossos interesses de estudo
com foco na sade.
Neste momento encontram-se em andamento 2 estudos. Um deles trata da
construo de uma interligao semntica, computacional, entre diferentes contedos
provenientes de bases de dados da sade. Inicialmente escolhemos inter-relacionar
dados sobre profissionais, estabelecimentos, publicaes e reas da sade usando a
abordagem linked open data (LOD) (Bizer et at. 2009) a partir das bases do Cadastro
Nacional de Estabelecimentos de Sade (CNES), dos currculos da Plataforma Lattes
CNPq e Wikipdia/DBpedia. Um segundo estudo considera a construo de um
mtodo de classificao de mensagens sobre sade provenientes de redes sociais,
inicialmente Twitter, considerando aspectos de sentimento, popularidade e tempo de
repercusso, por meio da integrao de tcnicas de minerao de texto com listas de
termos afetivos (Affective Norms for English Words) (Bradley & Lang 1999). Os
resultados preliminares de ambos os projetos mostram que alm de aprimorar a busca
por informao para o consumidor de sade, torna-se possvel explicitar fenmenos de
ligao de dados que antes no estavam expostos porque no havia integrao
destes dados. Este trabalho tambm permite ao grupo de pesquisa contribuir de
maneira mais significativa com os esforos nacionais de normalizao da W3C Brasil e
ABNT/CEE-78 Contedo Semntico, alm de iniciativas de dados abertos focando
aspectos exclusivos da rea da sade.
Assim, novas ferramentas de classificao e inter-relacionamento de
informao qualificada sobre sade potencializam os benefcios que os consumidores
de sade obtm a partir de suas buscas na web (Lober e Flowers 2011). O acernal de
tcnicas da rea de descoberta de conhecimento, que inclui pr-processamento de
dados, tcnicas de sumarizao, anlise de associao e correlao, classificao,
anlise de cluster e outlier, minerao de sries temporais, minerao de textos e da

115

web e minerao de dados visuais (Chakrabarti et al. 2006), pode ser aplicado de
maneira criativa e inovadora para oferecer representaes computacionais mais
efetivas para problemas atuais de grande complexidade (Marx 2013; Andersen et al.
2012, Ahmed et al. 2012, Sobkowicz et al. 2012).
Uma investigao sobre o acesso direto ao cotidiano do consumidor de sade
tambm foi conduzida. O objetivo foi avaliar o impacto do uso de uma tecnologia
bastante simples e disponvel, como o envio de mensagem de texto para o celular do
paciente, para produzir alguma mudana de comportamento em benefcio de sua
sade. Estudos (Prado et al. 2012) apontam resultados favorveis ao paciente quando
utilizada esta interveno por celular. Inicialmente investigamos a utilizao dessas
mensagens para aumentar a adeso de pacientes infectados com HIV. Nestes casos,
devido s elevadas taxas de mutaes e replicaes do vrus um alto nvel de adeso,
superior a 95%, necessita ser mantido para que o vrus possa ficar suprimido (WHO
2003; Bangsberg et al. 2000), evitando dessa forma a resistncia viral que pode ser
transmitida para outras pessoas (WHO 2003). Os resultados obtidos mostraram-se
favorveis quanto aplicao do envio de SMS para estes pacientes (Costa et al.
2012), conforme apontam outros estudos na literatura (Lester et al. 2010; Cocosila et
al. 2009). A inovao, neste caso, foi o emprego de uma triangulao de mtodos para
aumentar a percepo da mudana de comportamento do paciente.
Um segundo estudo considerou o absentemo em consultas mdicas em
hospitais e clnicas da grande So Paulo. Foi avaliada uma srie histrica de 32.709
agendamentos de consulta com o envio de 7.890 lembretes enviados para celular. Os
resultados (Costa et al. 2010) apontaram que a mdia de absentesmo de 26% cai
para 19% com a introduo dos lembretes via celular, com valores que variam de
acordo com a especialidade mdica da consulta, similar aos resultados encontrados
na literatura.
Por fim, um terceiro estudo, ainda em desenvolvimento, busca avaliar o
impacto do uso das mensagens de celular diretamente na evoluo clnica de
pacientes

de

disfuno

temporomandibular

(DTM).

maioria

das

DTM

(aproximadamente 85 a 90%), seja articular ou muscular, pode ser tratada com


intervenes no invasivas, no cirrgicas e reversveis. O controle da DTM consiste,
portanto, na combinao de auto-tratamentos caseiros, aconselhamento, fisioterapia,
farmacoterapia, placas interoclusais, medicina comportamental e cirurgia (Scrivani et
al. 2008). Os resultados preliminares apontam que o grupo de pacientes que recebeu
o envio da mensagem para celular obteve benefcios em sua recuperao da DTM,
havendo pequena diferena clnica, favorvel, com uma remisso sintomatolgica
maior em relao ao grupo controle.

116

A partir destes estudos, no grupo de pesquisa, foi possvel propor um


mecanismo de classificao de contedos sobre sade na web que beneficiasse o
consumidor, compreender como estes contedos na web so percebidos pelo
consumidor e investigar o impacto de aes simples do emprego de tecnologia
diretamente no cotidiano do consumidor, como o envio de torpedo de celular, para seu
benefcio em sade.

3.5. Referncias

Ackerman MJ. Big data. Medical Practice Management. 2012 Sep/Oct:153-4.


Adams SA. Revisiting the online health information reliability debate in the wake of
"web 2.0": An inter-disciplinary literature and website review. International
Journal of Medical Informatics. 2010 Jun;79(6):391-400.
Aduna. OpenRDF: Sesame [Internet]. [cited 2013 Oct 15]. Available from:
http://www.openrdf.org.
Aha DW, Kibler D, Albert MK. Instance-Based Learning Algorithms.JournalMachine
Learning. 1991 Jan: 6(1), 37-66.
Ahmed E, Mathur YK, Kumar V. Knowledge Discovery in Health Care Datasets Using
Data Mining Tools. International Journal of Advanced Computer Science and
Applications (IJACSA). 2012:3(4).p.117-123.
Ambre J, Guard R, Perveiler FM, Renner J, Rippen H. Criteria for assessing the quality
of health information on the internet. [Internet]. 1998; Available from:
http://www.mitretek.org/hiti/showcase/index.html
Andersen KN, Medaglia R, Hnriksen HZ. Social media in public health care: Impact
domain propositions. Government Information Quarterly 2012;29:462469.
Ankolekar A, Krtzsch M, Tran T, Vrandecic D. The two cultures: mashing up web 2.0
and the semantic web [Internet].

In: WWW '07: Proceedings of the 16th

international conference on World Wide Web. ACM Press; 2007. p. 825-834.


Available from: http://dx.doi.org/10.1145/1242572.1242684
ANVISA. Guia para encontrar informaes seguras [Internet]. 1998 [citado 2009 Mar
29]; Disponvel em: http://www.cvs.saude.sp.gov.br/medical.asp
Bachhuber M, Bilker WB, Wang H, Chapman J, Gross R. Is Antiretroviral Therapy
Adherence Substantially Worse on Weekends Than Weekdays? J Acquir
Immune Defic Syndr. 2010; 54(1): 109-110.

117

Baeza-Yates R, Ribeiro-Neto B. Modeling. In: Modern Information Retrieval. Addison


Wesley; 1999. p. 1971.
Bangsberg DR, Hecht FM, Charlebois ED, Zolopa AR, Holodniy M, Sheiner L,
Bamberger JD, Chesney MA, Moss A. Adherence to protease inhibitors, HIV-1
laod, and development of drug resistance in an indigent population. AIDS,
2000; 14(4): 357-366.
Bireme BVES. DeCS - Descritores em Cincias da Sade [Internet]. 2008; Disponvel
em: http://decs.bvs.br/P/decswebp2008.htm
Bizer C, Heath T, Berners-Lee T. Linked Data - The Story So Far. International Journal
on Semantic Web and Information Systems. 33 de 2009;5(3):122.
Bliemel M, Hassanein K. Consumer Satisfaction with Online Health Information
Retrieval: A Model and Empirical Study. e-Service Journal. 2006;5(2):53-83.
Boulos M, Maramba I, Wheeler S. Wikis, blogs and podcasts: a new generation of
Web-based tools for virtual collaborative clinical practice and education. BMC
Medical Education. 2006;6(1):41.
Boyd D, Ellison N. Social Network Sites: Definition, History, and Scholarship. Journal of
Computer-Mediated Communication. 2008;13(1):210-230.
Boyer C, Selby M, Scherrer JR, Appel RD. The Health On the Net Code of Conduct for
medical and health Websites. Computers in Biology and Medicine.
1998;28(5):603-610.
Bradley MM, Lang PJ. Affective Norms for English Words (ANEW): Instruction manual
and affective ratings. Technical Report C-1, The Center for Research in
Psychophysiology, University of Florida. 1999.
Brasil. Lei no. 12.527, de 18 de novembro de 2011 [Internet]. 2011 [citado 15 de
outubro de 2013]. Disponvel em: http://www.presidencia.gov.br/ccivil_03/
_Ato2011-2014/2011/Lei/L12527.htm.
Bray T, Paoli J, Sperberg-McQueen M, Maler E, Yergeau F. Extensible Markup
Language

(XML)

[Internet].

2009

Jan;

Available

from:

http://www.w3.org/TR/REC-xml/
Breitman K, Casanova MA, Truszkowski W. Semantic Web: Concepts, Technologies
and Applications. 1o ed. Springer; 2006.
Burnette WN. "Western blotting": electrophoretic transfer of proteins from sodium
dodecyl

sulfate--polyacrylamide gels to unmodified nitrocellulose

and

radiographic detection with antibody and radioiodinated protein A. Anal


Biochem. 1981; 112(2): 195-203.
Burnham K, Anderson D. Model Selection and Multi-Model Inference. 3 ed. Springer;
2002.

118

Bush V. As we may think. the atlantic monthly 1945;176(1):1018.


Calado P, Cristo M, Gonalves MA, de Moura ES, Ribeiro-Neto B, Ziviani N. Linkbased similarity measures for the classification of Web documents. Journal of
the

American

Society

for

Information

Science

and

Technology

2006;57(2):20821.
Canny J. The Future of Human-Computer Interaction. Queue. 2006;4(6):24-32.
CFM. Define e disciplina a prestao de servios atravs da telemedicina [Internet].
2009 Jan 12; Disponvel em: http://www.portalmedico.org.br/resolucoes/cfm/
2002/1643_2002.htm
Chakrabarti S, Ester M, Fayyad U, Gehrke J, Han J, Morishita S, Piatetsky-Shapiro G,
Wang W. Data Mining Curriculum: A Proposal (Version 1.0). Intensive
Working Group of ACM SIGKDD Curriculum Committee. 2006 Apr 30. [cited
2013 Oct 20] Available from: http://www.kdd.org/sites/default/files/CURMay06
.pdf
Chang P, Hou IC, Hsu CL, Lai HF. Are Google or Yahoo a Good Portal for Getting
Quality Healthcare Web Information? In: Annual Symposium on Biomedical
and Health Informatics (AMIA 2006). 2006.
Cocosila M, Archer N, Brian Haynes R, Yuan Y. Can wireless text messaging improve
adherence to preventive activities? Results of randomized controlled trial. Int J
Med Inform 2009 Apr; 78 (4): 230-38.
Costa TM, Barbosa BJ, Gomes e Costa DA, Sigulem D, de Ftima Marin H, Filho AC,
Pisa IT. Results of a randomized controlled trial to assess the effects of a
mobile SMS-based intervention on treatment adherence in HIV/AIDS-infected
Brazilian women and impressions and satisfaction with respect to incoming
messages. Int J Med Inform. 2012 Apr;81(4):257-69.
Costa TM, Salomo PL, Martha AS, Pisa IT, Sigulem D. The impact of short message
service text messages sent as appointment reminders to patients cell phones
at outpatient clinics in So Paulo, Brazil. Int. J. Med. Inform. 2010 79:65-70.
Coulter A. Assessing the quality of information to support people in making decisions
about their health and healthcare. Picker Institute Europe; 2006.
CREMESP. Manual de princpios ticos para sites de medicina e sade na internet.
[Internet]. Conselho Regional de Medicina do Estado de So Paulo. 2001
[citado 2008 Jan 15]; Disponvel em: http://www.cremesp.org.br/?siteAcao=
PublicacoesConteudoSumario&id=26
Croarkin C, Tobias P. e-Handbook of Statistical Methods [Internet]. NIST/SEMATECH
e-Handbook

of

Statistical

Methods.

http://www.itl.nist.gov/div898/handbook/

2009

Set

1;

Available

from:

119

D3.js - Data-Driven Documents [Internet]. [cited 2013 Oct 15]. Available from:
http://d3js.org.
de Vasconcelos PB. Avaliao ultrassonogrfica da musculatura mastigatria e de
fora de mordida mxima em indivduos com osteoporose nos ossos da face.
Ribeiro Preto. Tese [Mestrado em Cincias] Faculdade de Odontologia de
Ribeiro Preto da Universidade de So Paulo;2010.
Downer SR, Meara JG, Da Costa AC. Use of SMS text messaging to improve
outpatient attendance. Med J Aust. 2005; 183(7): 366-3.
Dowshen N, Kuhns LM, Gray C, Lee S, Garofalo R. Feasibility of interactive text
message response (ITR) as a novel, real-time measure of adherence to
antiretroviral therapy for HIV+ youth. AIDS Behav. 2013 Jul;17(6):2237-43.
Dumais S, Chen H. Hierarchical classification of Web content. In: Proceedings of the
23rd annual international ACM SIGIR conference on Research and
development in information retrieval. 2000. p. 263.
Dworkin SF, Huggins KH, Wilson L, Mancl L, Turner J, Massoth D, LeReshe L,
Truelove E. A Randomized Clinical Trial Using Research Diagnostic Criteria
for Temporomandibular Disorders-Axis II to Target Clinic Cases for a Tailored
Self-Care TMD Treatment Program. J Orofac Pain 2002 Winter;16(1):48-63.
Dworkin SF, LeReshe L, De Rouen T, Von Korff M. Research diagnostic criteria for
temporomandibular

disorders:

review,

criteria,

examinations

and

specifications, critique. J Craniomandib Disord 1992 Fall;6(4):301-55.


Easton VJ, McColl JH. Paired data, correlation & regression [Internet]. 2009 Jan 30;
Available

from:

http://www.stats.gla.ac.uk/steps/glossary/paired_data.html

#ppmcorrcoeff
Ebersbach A, Glaser M, Heigl R, Warta A. Wiki: Web Collaboration.

New York:

Springer-Verlag GmbH & Co; 2005.


Eickhoff C, Serdyukov P, de Vries AP. A combined topical/non-topical approach to
identifying web sites for children. In: Proceedings of the fourth ACM
international conference on Web search and data mining. New York, NY,
USA: ACM; 2011. p. 50514.
Exhibit

3.0

[Internet].

[cited

2013

Oct

15].

Available

from:

http://simile-

widgets.org/exhibit3.
Falagas ME, Karveli EA, Tritsaroli VI. The risk of using the Internet as reference
resource: A comparative study. International Journal of Medical Informatics
2008;77(4):2806.
Falco AEJ, Mancini F, Costa TM, Hummel AD, Teixeira FO, Sigulem D, et al. InDeCS:
Mtodo Automatizado de Classificao de Pginas Web de Sade Usando

120

Minerao de Texto e Descritores em Cincias da Sade (DeCS). Journal of


Health Informatics 2009;1(1):1824
Falco AEJ, Mancini F, Teixeira FO, Sousa FS, Hummel AD, Sigulem D, Pisa IT.
Analysis of the Use of Social Media for Adequacy Evaluation of Health
Related Websites Based on Health on Net Code. In: MEDINFO 2010, 2010,
Cape Town. MEDINFO. Amsterdam : IOS Press, 2010. v. 2. p. 1405.
Fogg BJ, Marshall J, Osipovich A, Varma C, Laraki O, Fang N, et al. Elements that
affect web credibility: early results from a self-report study. 2000.
Fogg BJ, Soohoo C, Danielson DR, Marable L, Stanford J, Tauber ER. How do users
evaluate the credibility of Web sites? A study with over 2,500 participants. In:
Proceedings of the 2003 conference on Designing for user experiences. San
Francisco, California: ACM; 2003. p. 115.
Foley J, ONeill M. Use of Mobile Telephone Short Message Service (SMS) as a
Reminder: the Effect on Patient Attendance. Eur Archs Pediatr Dent 2009
Mar;10(1):15-8.
Garrett JJ. Ajax: A New Approach to Web Applications [Internet]. Adaptive Path. 2005
Fev;

Available

from:

http://www.adaptivepath.com/ideas/essays/archives/

000385.php
Geraghty M, Glynn F, Amin M, Kinsella J. Patient mobile telephone text reminder: a
novel way to reduce non-attendance at the ENT out-patient clinic. J Laryngol
Otol. 2008; 122:2968.
Giustini

D.

How

Google

is

changing

medicine.

British

Medical

Journal

2005;331(7531):1487.
Guimares AS, Carlsson GE, Marie SK. Bite force and handgrip force in patients with
molecular diagnosis of myotonic dystrophy. J Oral Rehabil 2007 Mar; 34(3):
195-200.
Hasty H. Social, Search, and Branding [Internet]. 2009 Ago 26; Available from:
http://searchenginewatch.com/3634798
Haykin S. Neural Networks: A Comprehensive Foundation. 2o ed. Prentice Hall; 1999.
Haynes RB, McDonald HP, Garg AX, Helping patients follow prescribed treatment:
clinical applications.JAMA 2002; 288: 28803.
Hee-Seung K, Nam-Cho K, Sung-Hee A. Impact of a nurse short message service
intervention for patients with diabetes.J Nurs Care Qual. 2006 JulSep;21(3):266-71.
Himmel W, Reincke U, Michelmann HW. Text mining and natural language processing
approaches for automatic categorization of lay requests to web-based expert
forums. J Med Internet Res. 2009;11(3):e25.

121

Holanda AJ, Pisa IT, Kinouchi Filho O, Martinez AS, Ruiz EES. Thesaurus as a
complex network. Physica A (Print), EUA. 2004 344:530-6.
Java A, Song X, Finin T, Tseng B. Why we twitter: understanding microblogging usage
and communities. In: Procedings of the Joint 9th WEBKDD and 1st SNA-KDD
Workshop 2007. San Jose, California: ACM; 2007. p. 56-65.
Kaplan WA. Can the ubiquitous power of mobile phones be used to improve health
outcomes in developing countries? Global Health. 2006; 23(2):9.
Kellar M, Watters C, Shepherd M. A field study characterizing Web-based informationseeking tasks. J. Am. Soc. Inf. Sci. Technol. 2007;58(7):9991018.
Keselman A, Browne AC, Kaufman DR. Consumer Health Information Seeking as
Hypothesis Testing. Journal of the American Medical Informatics Association.
2008 July;15(4):48495.
Klyne G, Carroll JJ. Resource Description Framework (RDF): Concepts and Abstract
Syntax

[Internet].

2004

[cited

2013

Oct

15].

Available

from:

http://www.w3.org/TR/rdf-concepts.
Kristensen CH, Gomes CF de A, Justo AR, Vieira K. Brazilian norms for the Affective
Norms for English Words. Trends in Psychiatry and Psychotherapy 2011; 33:
135146.
Kunder M. WorldWideWebSize.com - The size of the World Wide Web [Internet].
[citado 2013 set 11]; Available from: http://www.worldwidewebsize.com/
Kwon OW, Lee JH. Text categorization based on k-nearest neighbor approach for web
site classification. Information Processing & Management 2003;39(1):2544.
Lan M, Tan CL, Su J, Lu Y. Supervised and Traditional Term Weighting Methods for
Automatic Text Categorization. IEEE Trans. Pattern Anal. Mach. Intell.
2009;31(4):72135.
Lazar J, Meiselwitz G, Feng J. Understanding web credibility: a synthesis of the
research literature. Found. Trends Hum.-Comput. Interact. 2007;1(2):139-202.
Lei X, Liu Q, Wang H, Tang X, Li L, Wang Y. Is the short messaging service feasible to
improve adherence to tuberculosis care? A cross-sectional study. Trans R Soc
Trop Med Hyg. 2013 Oct;107(10):666-8.
Lester RT, Ritvo P, Mills EJ, Kariri A, Karanja S, Chung MH, Jack W, Habyarimana J,
Sadatsafavi M, Najafzadeh M, Marra CA, Estambale B, Ngugi E, BallT.B,
Thabane L, Gelmon LJ, Kimani J, Ackers M, Plummer FA. Effects of a mobile
phone short message service on antiretroviral treatment adherence in Kenya
(WelTel Kenya1): a randomised trial. Lancet. 2010; 6736(10): 61997-6.

122

Liang CY, Guo L, Xia ZJ, Nie FG, Li XX, Su L, et al. Dictionary-based text
categorization of chemical web pages. Information Processing & Management
2006;42(4):101729.
Liu C, Yeh Y, Chiang I, Chen H, Lee T, Chiu W. Development and evaluation of an
integrated pharmaceutical education system. International Journal of Medical
Informatics. 2004 May;73(4):383-389.
Lober WB, Flowers JL. Consumer empowerment in health care amid the internet and
social media. Seminars in Oncology Nursing. 2011 Aug;27(3):169-182.
Lopes IL. Novos paradigmas para avaliao da qualidade da informao em sade
recuperada na Web. Cincia da Informao. 2004;33:81-90.
Lorence DP, Greenberg L. The zeitgeist of online health search: Implications for a
consumer-centric health system. Journal of General Internal Medicine
2006;21(2):134.
Louch G, Dalkin S, Bodansky J, Conner M. An exploratory randomised controlled trial
using short messaging service to facilitate insulin administration in young
adults with type 1 diabetes. Psychol Health Med. 2013;18(2):166-74.
Luhn HP. A statistical approach to mechanized encoding and searching of literary
information. IBM J. Res. Dev. 1957;1(4):30917.
MacDonell K, Gibson-Scipio W, Lam P, Naar-King S, Chen X. Text messaging to
measure asthma medication use and symptoms in urban African American
emerging adults: a feasibility study. J Asthma. 2012 Dec;49(10):1092-6.
Maduka O, Tobin-West CI. Adherence counseling and reminder text messages
improve uptake of antiretroviral therapy in a tertiary hospital in Nigeria. Niger J
Clin Pract. 2013 Jul-Sep;16(3):302-8.
Mancini F, Falco AEJ, Hummel AD, Costa T, Silva F, Teixeira F, et al. Brazilian
health-related content web search portal: presentation on a method for its
development and preliminary results. In: HEALTHINF 2009 - International
Conference on Health Informatics. Porto, Portugal: 2009.
Mancini F. Construo e Avaliao de um Portal de Busca de Contedos Web em
Sade Baseado em Minerao Web. So Paulo. Tese [Doutorado em Gesto
e Informtica em Sade] - UNIFESP; 2011.
Marx V. The big challenges of big data. Technology feature. Nature. 2013 Jun
13;498:255-260.
Massad E, Menezes RX, Silveira PSP, Ortega NRS. Mtodos quantitativos em
medicina. So Paulo: Manole, 2004.
Mbuagbaw L, Ongolo-Zogo P, Thabane L. Investigating community ownership of a text
message programme to improve adherence to antiretroviral therapy and

123

provider-client communication: a mixed methods research protocol. BMJ


Open. 2013 Jun 25;3(6). pii: e002816. doi: 10.1136/bmjopen-2013-002816.
McCallum A, Nigam K. A comparison of event models for Naive Bayes text
classification.

Dimension

Contemporary

German

Arts

And

Letters

1998;752:418.
McDonald HP, Garg AX, Haynes RB. Interventins to enhance patient adherence to
medication prescriptions: scientific review. JAMA. 2002; 288(22): 2868-2879.
Millard DE, Ross M. Web 2.0: hypertext by any other name? In: HYPERTEXT '06.
Odense, Denmark: ACM; 2006. p. 27-30.
Neelapala P, Duvvi SK, Kumar G, Kumar BN. Do gynaecology outpatients use the
Internet to seek health information? A questionnaire survey. Journal of
Evaluation in Clinical Practice 2008;14(2):3004.
Nelson TM; Berg JH; Bell JF; Leggott PJ; Seminario AL. Assessing the effectiveness of
text messages as appointment reminders in a pediatric dental setting. JADA
2011 Apr;142(4):397-405.
NetScoring. NetScoring: criteria to assess the quality of Health Internet information
[Internet]. 2001 [cited 2010 Mar 26]; Available from: http://www.chu-rouen.fr/
netscoring/netscoringeng.html
Oleto RR. Percepo da qualidade da informao. Cincia da Informao [Internet].
2006;35(1). Disponvel em: http://revista.ibict.br/ciinf/index.php/ciinf/article/
view/705
O'Reilly T. Web 2.0 Conference [Internet]. In: Web 2.0 Conference. San Francisco:
O'Reilly;

2004

[citado

2009

Ago

10].

Available

from:

http://conferences.oreillynet.com/web2con/
O'Reilly T. What is Web 2.0? Design Patterns and Business Models for the Next
Generation

of

Software

[Internet].

2007

Abr

1;

Available

from:

http://oreilly.com/web2/archive/what-is-web-20.html
zel SA. A Web page classification system based on a genetic algorithm using taggedterms as features. Expert Systems with Applications 2011;38(4):340715.
Palla S. Mioartropatias do sistema mastigatrio e dores orofaciais. So Paulo: Artes
Mdicas; 2004.
Pandolfini C, Bonati M. Follow up of quality of public oriented health information on the
world wide web: systematic re-evaluation. BMJ. 2002;324(7337):582-583.
Pew Internet and American Life Project. The online health care revolution: how the
Web helps Americans take better care of themselves [Internet]. 2010 [cited
2010 Mar 4]. Available from: http://www.pewinternet.org

124

Prado CS, Tenrio JM, Ruiz EES, Ortolani CLF, Pisa IT. Impacto da utilizao de
mensagens do tipo SMS - Short Message Service. J. Health Inform. 2012
Out;4(4):159-64.
Qi X, Davison BD. Web page classification: Features and algorithms. ACM Computing
Surveys 2009;41(2).
Robins D, Holmes J, Stansbury M. Consumer health information on the Web: The
relationship of visual design and perceptions of credibility. Journal of the
American Society for Information Science and Technology. 2010;61(1):13-29.
Rueda S, Park-Wyllie LY, Bayoumi A, Tynan AM, Antoniou T, Rourke S, Glazier R.
Patient support and education for promoting adherence to highly active
antiretroviral therapy for HIV/AIDS. Cochrane Database of Systematic
Reviews. In: The Cochrane Library, Issue 1, Art. No. CD001442, 2010.
Salton G, Buckley C. Term-weighting approaches in automatic text retrieval.
Information Processing and Management 1988;24:513--523.
Salton G, Wong A, Yang CS. A vector space model for automatic indexing.
Communications of the ACM 1975;18(11):61320.
Salton G. The smart document retrieval project. In: Proceedings of the 14th annual
international ACM SIGIR conference on Research and development in
information retrieval. New York, NY, USA: ACM; 1991. p. 3568.
Schneider K-M. On Word Frequency Information and Negative Evidence in Naive
Bayes Text Classification [Internet]. In: Vicedo JL, Martnez-Barco P, Muoz
R, Saiz Noeda M, organizadores. Advances in Natural Language Processing.
Berlin, Heidelberg: Springer Berlin Heidelberg; 2004. p. 47485.
Scrivani SJ, Keith DA, Kaban LB. Temporomandibular Disorders. N Engl J Med 2008
Dec;359(25):2693-705.
Shapiro SS, Wilk MB. An analysis of variance test for normality (complete samples).
Biometrika. 1965; 52 (3): 591.
Silberg WM, Lundberg GD, Musacchio RA. Assessing, Controlling, and Assuring the
Quality of Medical Information on the Internet: Caveant Lector et Viewor--Let
the Reader and Viewer Beware. JAMA. 1997;277(15):1244-1245.
Sim J, Wright CC. The kappa statistic in reliability studies: use, interpretation, and
sample size requirements. Phys Ther. 2005;85(3):257-68.
Singhal A. Modern information retrieval: a brief overview. Bulletin of the IEEE
Computer Society Technical Committee on Data Engineering 2001;24:2001.
Sobkowicz P, Kaschesky M, Bouchard G. Opinion mining in social media: Modeling,
simulating, and forecasting political opinions in the web. Government
Information Quarterly 2012;29:470479.

125

Sousa FS. Anlise Comparativa de Mtodos de Recuperao de Informao para


Categorizao de Contedos Web Relacionados Sade. So Paulo.
Dissertao [Mestrado em Cincias - Gesto e Informtica em Sade] UNIFESP; 2011.
Spink A, Wolfram D, Jansen MBJ, Saracevic T. Searching the web: The public and
their queries. J. Am. Soc. Inf. Sci. 2001;52(3):22634.
Stucken A. What is SMS. BBC [Internet]. 2010 Sep 9 [cited 2011 Apr 11]; Available
from http://www.bbc.co.uk/webwise/guides/about-sms.
Stvilia B, Mon L, Yi YJ. A model for online consumer health information quality. J. Am.
Soc. Inf. Sci. Technol. 2009;60(9):1781-1791.
Taha J, Sharit J, Czaja S. Use of and Satisfaction With Sources of Health Information
Among Older Internet Users and Nonusers. The Gerontologist 2009;
Tang H, Ng JHK. Googling for a diagnosisuse of Google as a diagnostic aid: internet
based study. British Medical Journal 2006;333(7579):1143.
Tardelli AO, Ano MS, Packer AL, Sigulem D. An implementation of the trigram
phrase matching method for text similarity problems. Studies in health
technology and informatics. 2004;103:7.
Thyra DJ, Ipek GU, Vlastra VJ, Josip C, Rifat A. Mobile phone messaging telemedicine
for facilitating self management of long-term illnesses (Protocol for a Cochrane
Review). The Cochrane Library. 2010; (1).
Toms EG, Latter C. How consumers search for health information. Health Informatics
Journal 2007;13(3):22335.
Vervloet M, Van Dijk L, Santen-Reestman J, Van Vlijmen B, Bouvy ML, de Bakker DH.
Improving medication adherence in diabetes type 2 patients through Real
Time Medication Monitoring: a randomised controlled trial to evaluate the
effect of monitoring patients' medication use combined with short message
service (SMS) reminders. BMC Health Serv Res. 2011 Jan 10;11:5.
Vervloet M, van Dijk L, Santen-Reestman J, van Vlijmen B, van Wingerden P, Bouvy
ML, de Bakker DH. SMS reminders improve adherence to oral medication in
type 2 diabetes patients who are real time electronically monitored. Int J Med
Inform. 2012 Sep;81(9):594-604.
Viegas FB, Wattenberg M, van Ham F, Kriss J, McKeon M. ManyEyes: a Site for
Visualization at Internet Scale. IEEE Transactions on Visualization and
Computer Graphics. 2007 Nov;13(6):11218.
Vilella A, Bayas JM, Diaz MT, Guinovart C, Diez C, Sim D et al. The role of mobile
phones in improving vaccination rates in travelers. Prev. Med. 2003; 38: 503
509.

126

Volcke D, Snoeck P, Festjens T, Kowalski J, Jones R, van Hoorde S. Feasibility and


acceptability of short message service (SMS) text messaging to support
adherence in patients receiving quetiapine: A pilot study. Abstract for poster
sessions / European Psychiatry. 2007. 22: S221 - S341.
W3C Consortium. SPARQL Query Language for RDF [Internet]. 2008 [cited 2013 Oct
15]. Available from: http://www.w3.org/TR/rdf-sparql-query.
Walsh JC, Mandalia S, Gazzard BG. Responses to a 1 month self-report on adherence
to antiretroviral therapy are consistent with electronic data and virological
treatment outcome. AIDS. 2002; 16:269-277.
White RW, Horvitz E. Cyberchondria: studies of the escalation of medical concerns in
web search. ACM Transactions on Information Systems (TOIS) 2009;27(4):1
37.
Witten IH, Frank E. Credibility: Evaluating Whats Been Learned. In: Data Mining:
Practical Machine Learning Tools and Techniques. Morgan Kaufmann; 2005.
p. 14585.
Wolfram D, Wang P, Zhang J. Identifying Web search session patterns using cluster
analysis: A comparison of three search environments. J. Am. Soc. Inf. Sci.
Technol. 2009;60(5):896910.
World Health Organization (WHO). Adherence to long-term therapies: evidence for
action. Geneva: WHO Library Cataloguing-in-Publication Data; 2003.
World Health Organization (WHO). Macroeconomics and Health: Investing in Health for
Economic Development Report of the Commission on Macroeconomics and
Health. Geneva: WHO Library Cataloguing-in-Publication Data; 2001.
Yanbe Y, Jatowt A, Nakamura S, Tanaka K. Can social bookmarking enhance search
in the web? In: Proceedings of the 7th ACM/IEEE-CS joint conference on
Digital libraries. 2007 Jun 18:18-23.
Zeng QT, Kogan S, Plovnick RM, Crowell J, Lacroix E-M, Greenes RA. Positive
attitudes and failed queries: an exploration of the conundrums of consumer
health information retrieval. International Journal of Medical Informatics
2004;73(1):4555.

127

4.

ESTUDOS EM SISTEMAS DE APOIO A DECISO

EM SADE
O termo sistema de apoio a deciso clnica (SADC) - tambm denominado sistema de
auxlio deciso clnica ou mais amplamente sistema de apoio a deciso em sade representa um sistema de informao utilizado para integrar informaes clnicas e do
paciente, e prover apoio para a tomada de decises nos cuidados ao paciente (Berner
2006). Um sistema de apoio deciso clnica qualquer programa projetado para
ajudar profissionais de sade na tomada de deciso (Musen et al. 2006).
Um dos motivadores para o desenvolvimento e uso desses sistemas a
esperana de que eles auxiliem na superao das dificuldades intrnsecas ao
conhecimento mdico, que impreciso e incompleto (lvaro 2007; Bouchon-Meunier
2000). Sigulem et al. (1997) afirmam que a principal motivao para o
desenvolvimento desses sistemas reside no aumento progressivo da quantidade de
dados, informao e conhecimento que o profissional de sade de hoje deve utilizar
para exercer adequadamente a sua profisso. Segundo Denekamp (2007), a
expectativa que os SADCs diminuam a distncia entre as evidncias e a prtica
clnica ao disponibilizar dados relevantes e conhecimento no ponto de cuidado. De
fato, o uso de SADCs contribui com a qualidade na prestao de cuidados de sade,
uma vez que a Organizao Mundial de Sade declara que a segurana do doente
uma componente essencial da qualidade na prestao de cuidados de sade,
considerando a complexidade, tanto da prtica, como da organizao. Os trs
principais objetivos de uma prtica clnica segura so: (1) identificar quais os
diagnsticos e procedimentos teraputicos que so mais seguros e eficientes; (2)
garantir que so aplicados a qualquer pessoa que deles necessite; (3) implement-los
corretamente e sem erros (Aranaz et al. 2005, p. 2)
Os SADCs podem ser categorizados segundo o tipo de suporte ao mdico:
ativo, quando provem alertas ativamente, ou passivo, se apenas responde quando h
uma solicitao especfica. Os SADCs tambm podem ser categorizados segundo o
mtodo empregado para prover o apoio: se sistemas baseados em conhecimento ou
em aprendizagem de mquina e padres estatsticos de reconhecimento (Berner e La
Lande 2007). Mais especificamente, na literatura existem trabalhos publicados que
mostram a aplicao de tcnicas matemticas, como anlise estatstica (Patel et al.
2008; Murugan et al. 2008), modelos matemticos (Costa et al. 2008; Marinho 2006) e

128

tcnicas de minerao de dados e inteligncia artificial (Wang et al. 2008; Banerjee


2003).
Este captulo

apresenta 4

temas

que

representam um esforo

de

desenvolvimento cientfico e tecnolgico na rea de sistemas de apoio a deciso em


sade:
1. como auxlio na identificao da doena celaca em jovens assistidos em um
servio de gastropediatria;
2. como auxlio na identificao de ocorrncia de nefrotoxicidade ou rejeio
celular em pacientes ps-transplantados renais;
3. para classificao da maturao vertebral cervical (idade ssea) de pacientes
na tomada de deciso em ortodontia; e
4. para o relacionamento e anlise de laudos de bipsia renal de um servio de
patologia.

comum o desenvolvimento de sistemas de apoio a deciso em sade


quando o assunto tratado apresenta intrinsicamente dados incertos ou difusos. Por
vezes, a prpria tomada de deciso do profissional de sade no expressa por meio
de regras lgicas, medidas exatas ou mesmo a partir de conhecimento proveniente da
chamada medicina baseada em evidncias. Assim, torna-se mais complexo a
reproduo de uma boa qualidade assistencial. O paciente sempre nico, especial e
interessado em sua condio e tratamento, e o profissional de sade compreende esta
demanda e busca oferecer a melhor resolubilidade para seu paciente. No entanto, h
evidncias (Berner e La Lande 2007) de que compreender um padro recorrente em
um conjunto grande de pacientes afeta positivamente a conduta de um profissional de
sade para os casos individuais, potencializando o resultado que o paciente almeja,
que sua recuperao. Nosso objetivo em abordar estes estudos se baseia na crena
de que a abordagem da descoberta de conhecimento e minerao de dados pode
produzir sistemas de apoio a deciso de qualidade suficiente a partir de situaes
incertas e imprecisas. Nosso foco, nestes estudos, est em colaborar com a atividade
do profissional de sade.
As sees apresentam literatura da rea, expondo resultados significativos,
suas tcnicas e abordagens, e acompanha uma descrio resumida dos estudos
realizados pelo pesquisador e seus orientandos nos temas relacionados. Esto
indicados os colaboradores que atuaram nos estudos aqui apresentados.

129

4.1. Diagnstico da Doena Celaca na Gastropediatria

Colaboraram com estes estudos


Josceli Maria Tenrio, Vera Lcia Sdepanian,
Heimar de Ftima Marin
A doena celaca definida como uma intolerncia permanente ao glten, protena
presente no trigo, centeio e cevada caracterizada por ser uma enteropatia mediada por
clulas T, que acomete indivduos geneticamente susceptveis, cuja caracterstica
essencial a atrofia total ou parcial da mucosa do intestino delgado proximal
causando m absoro dos alimentos (Rodrigo 2006; Sdepanian et al. 1999). No se
trata apenas de uma alterao digestiva, mas de uma desordem sistmica autoimune,
uma resposta exagerada a uma agresso ambiental.
A doena o resultado de uma combinao de fatores genticos com um
gatilho ambiental (Sollid 2005). O fator gentico determinado pelos genes
codificadores de protenas conhecidos como antgenos de histocompatibilidade
leucocitria (HLA). Cerca de 90% das pessoas com doena celaca tm o gene HLA
DQ2 ou DQ8, enquanto que cerca de 30% da populao geral tm uma das verses
(Sociedade Brasileira de Pediatria 2007). Fasano (2009), no entanto, afirma que, alm
dos fatores citados, o distrbio se desenvolve quando uma pessoa exposta ao glten
tem o intestino delgado anormalmente permevel, possibilitando que uma grande
quantidade de fragmentos de glten incite as clulas do sistema imunolgico.
Fasano e Catassi (2001) apontam que a prevalncia mundial da doena
celaca de 1:266, atingindo cerca de 1 a 2% da populao mundial, geralmente
crianas. No Brasil, Oliveira et al. (2007) estimaram a prevalncia da doena celaca
em doadores de sangue na cidade de So Paulo em 1:214 e Galvo et al. (2004)
estimaram em torno de 1:275 em Ribeiro Preto. Em valores absolutos, considerando
a prevalncia de 1:275 em uma populao de 200 milhes de habitantes, a estimativa
que o nmero de pessoas atingidas estaria em torno de 727.000 pessoas no Brasil.
Trs formas de apresentao so reconhecidas para a doena celaca: forma
clssica ou tpica, no-clssica ou atpica e silenciosa ou assintomtica (Torres et. al
2007; Sociedade Brasileira de Pediatria 2007). O diagnstico da doena celaca uma
tarefa complexa, uma vez que, alm da forma clssica ou tpica que se manifesta com
diarria crnica, parcela considervel de pacientes com doena celaca no apresenta
sintomas gastrointestinais, mas sintomas isolados ou em conjunto de diferentes

130

sistemas, como por exemplo, hematopoitico, endcrino, reprodutor, locomotor e


neurolgico, o que caracteriza a forma atpica ou no clssica.
A forma silenciosa ou assintomtica caracterizada pela ausncia de
manifestaes clnicas, com presena de alteraes sorolgicas e leso histolgica.
Deve-se tambm ressaltar que a chance de desenvolver a doena celaca maior nos
grupos de risco como nos familiares de primeiro grau, pacientes com doenas
autoimunes, como diabetes mellitus dependentes de insulina, sndromes de Down,
Turner e Williams, pacientes com anemia por deficincia de ferro refratria ao
tratamento, baixa densidade mineral ssea ou retardo puberal (Fasano e Catassi
2001; Sociedade Brasileira de Pediatria 2007). A prevalncia entre indivduos com alto
grau de parentesco de aproximadamente 8 a 12% (Rodrigo 2006).
Protocolos para Doena Celaca
O protocolo para o diagnstico definitivo da doena celaca foi proposto pela
Sociedade Europia de Gastroenterologia Peditrica, Hepatologia e Nutrio
(European Society of Pediatric Gastroenterology, Hepatology, and Nutrition ESPGHAN) (espghan.med.up.pt). Segundo Fasano e Catassi (2001), a ESPGHAN
recomenda que para o diagnstico definitivo da doena celaca necessria a
compatibilidade com a doena celaca da histria e manifestaes clnicas, dos testes
sorolgicos, a saber, anticorpo antigliadina, anticorpo antiendomsio e anticorpo
antitransglutaminase, e do grau de atrofia vilositria apresentada pela mucosa do
intestino delgado. No Brasil, para a padronizao do diagnstico e tratamento, a
Sociedade Brasileira de Pediatria publicou o Fluxograma de Diagnstico da Doena
Celaca, integrante do documento cientfico Protocolo Clnico e Diretrizes da Doena
Celaca (Sociedade Brasileira de Pediatria 2007). A anlise do fluxograma mostra que
o diagnstico o resultado da avaliao dos sintomas e sinais de forma global, no
excludente. Isto significa que, mesmo que o paciente apresente a forma clssica com
ocorrncia de diarreia crnica, outros sintomas, histrico familiar e grupos de risco
devero ser considerados para o levantamento da suspeita diagnstica inicial e
indicao de exames sorolgicos e biopsias.
Para a confirmao da suspeita diagnstica da doena celaca indispensvel
a realizao de biopsia do intestino delgado (Sociedade Brasileira de Pediatria 2007;
Fasano e Catassi 2001), um exame invasivo e dispendioso. O padro-ouro para o
diagnstico da doena celaca reside na demonstrao de que a mucosa do intestino
delgado apresenta alteraes (Setty et al. 2008).

131

Segundo Sdepanian (1999), a anamnese detalhada associada ao exame fsico


possibilita estabelecer um diagnstico inicial, para o caso da apresentao tpica ou
atpica da doena. Para os casos em que a doena apresenta-se de forma
assintomtica, a investigao do histrico familiar e dos fatores de risco associados
fundamental.
O diagnstico inicial da doena celaca pode tornar-se mais difcil, pois alm de
todas as formas de apresentao, alguns sintomas importantes apresentados pelas
doenas inflamatrias intestinais (colite ulcerativa e a doena de Crohn) so comuns,
a saber: nusea, vmitos, diarreia, dor abdominal, retardo de crescimento, anorexia,
perda de peso, febre e anemia leve (Sdepanian e Fagundes-Neto 2001).
O tratamento para a doena celaca a dieta isenta de glten. O
monitoramento e a obedincia dieta so essenciais para impedir a manifestao dos
sintomas ou agravamento da doena, o que levaria desidratao e crise. Hill et al.
(2005) reforam a importncia do monitoramento aps o diagnstico final por meio de
testes sorolgicos e da possibilidade de aparecimento de novos sintomas.
Segundo Leeds et al. (2008), a doena celaca no tratada est associada a
uma srie de complicaes no malignas, como anemia, baixa densidade mineral
ssea, doenas autoimunes, problemas de reproduo, septicemia e manifestaes
neurolgicas, assim como malignas, a saber, linfoma, carcinoma de esfago e faringe
e adenocarcinoma de intestino delgado.
O controle dos registros dos pacientes um elemento importante para a
avaliao da evoluo clnica, visto que h a possibilidade do aparecimento de novos
sintomas. Fasano e Catassi (2001) citam que o protocolo para diagnstico da doena
celaca, proposto pela ESPGHAN recomenda que, alm da histria clnica e exames
sorolgicos e histolgicos compatveis, deve-se tambm avaliar a resposta dieta
isenta de glten e outras condies clnicas que realmente estejam de acordo com
esse diagnstico. Desta forma, o processo diagnstico deve ser contnuo e a
disponibilizao dos dados clnicos um item complementar que pode apoiar o
diagnstico assim como o processo teraputico.
Necessidade de Apoio no Diagnstico
Apesar do protocolo para diagnstico da sociedade europia e o fluxograma para
diagnstico da sociedade brasileira, o profissional mdico carece de instrumentos de
apoio, com certa preciso, para avaliao do relacionamento dos sinais e sintomas do
paciente para que o quadro de doena celaca possa ser reconhecida mais
rapidamente. Por vezes, os pacientes levam meses ou anos para terem seus

132

diagnsticos confirmados, especialmente em servios de sade que no realizam


bipsia como padro-ouro (Sdepanian e Fagundes-Neto 2001). No entanto, em uma
reviso sistemtica que realizamos em 2010 no foram encontrados trabalhos
publicados na literatura acerca do uso de sistemas de apoio a deciso especfico para
o diagnstico da doena celaca. Apenas aplicaes no especficas doena celaca
foram localizadas.
Lin (2009) no descreveu um SADC, mas uma fase inicial de desenvolvimento
de um modelo inteligente para diagnstico e previso de doenas do fgado para a
construo de um SADC para doenas hepticas. Na fase I do estudo, foi aplicada a
tcnica de rvores de deciso CART, para reconhecimento de pacientes sadios ou
com doenas hepticas. A taxa de acerto obtida foi 92,94% e a rea sob a curva ROC
(AUC) 0,928. Para a anlise foram utilizadas 18 variveis preditivas como idade,
gnero, tipo de sangue e dados biomdicos. Na fase II, um modelo baseado em casebased reasoning (CBR) foi desenvolvido para identificar o tipo de doena presente, de
acordo com o CID-10, dentro do grupo com doena heptica positiva. A inteno da
autora integrar os modelos para suportar um SADC. O valor da taxa de acerto foi
90% e AUC de 0,889.
Chu et al.(2008) descreveram um sistema de apoio deciso que visava
facilitar o gerenciamento da conduta clnica para pacientes com hemorragia
gastrointestinal aguda. No estudo foram comparadas oito tcnicas de inteligncia
artificial com o objetivo de prever a origem da hemorragia, necessidade de transfuso
de sangue ou derivados, endoscopia urgente ou predisposio hemorragia
gastrointestinal aguda. A amostra de treinamento foi composta com os dados clnicos
de 122 pacientes e uma amostra de 67 pacientes para testes. As melhores mtricas
foram obtidas com a tcnica rvore de deciso, random forest (RF), que apresentou
taxa de acerto maior que 80% e AUC maior que 0,85 para todos os resultados
possveis.
No estudo de Yang et al. (2007) um SADC foi desenvolvido para anlise da
predio da eficcia do tratamento de um medicamento, o Interferon, para o
tratamento da hepatite C. Na fase de pr-processamento, a tcnica de seleo de
atributos feature subset selection foi aplicada para selecionar, entre 30 marcadores
demogrficos e biomdicos, os mais relevantes. Os classificadores do tipo support
vector machine (SVM) e k-vizinhos prximos foram utilizados para o treinamento de
uma amostra de 132 casos e cinco atributos selecionados. A taxa de identificao do
grupo em que houve eficincia do medicamento foi 85% e do grupo em que o
medicamento foi ineficaz resultou 83%.

133

Berner et al.(2006) descreveram um experimento controlado realizado com


mdicos residentes com o objetivo de avaliar a influncia de um SADC na prescrio
segura de medicamentos antiinflamatrios no esterides para pacientes com risco de
hemorragia gastrointestinal. O dispositivo utilizado para suportar o SADC foi um
personal digital assistant. Regras de avaliao de riscos e recomendaes foram a
base para a construo do SADC. Um grupo de controle com 34 mdicos e um grupo
com interveno foram avaliados. O resultado de um pr-teste realizado com ambos
os grupos mostrou que as taxas de prescries seguras foram similares aos grupos de
controle e com interveno, a saber, 0,27 e 0,29, considerando p-value de 0,05,
respectivamente. Aps a interveno, as taxas de prescrio segura no grupo de
interveno atingiram 0,45 contra 0,23 no grupo de controle, com p-value de 0,05.
Conclui-se que os mdicos prescreveram tratamentos mais seguros quando assistidos
por um SADC, com uma diferena significativa entre os dois grupos avaliados.
Sadeghi et al. (2006) descreveram um SADC baseado em rede bayesiana cujo
objetivo era realizar uma triagem de pacientes em um hospital que apresentavam dor
abdominal no traumtica. descrita uma comparao entre as decises de triagem
de um servio de emergncia automtica com as decises tomadas por um
especialista de emergncia. Os dados clnicos foram levantados e inseridos por
enfermeiras durante consultas tradicionais ou por telefone. Para o treinamento do
sistema, as decises tomadas por mdicos especialistas em uma unidade de
emergncia foram utilizadas. O sistema foi criado para indicar qual a conduta a ser
realizada: o paciente deveria ser hospitalizado ou dispensado. Redes bayesianas
foram estruturadas pelas representaes das interaes entre os elementos do
espao de domnio, ou seja, sintomas, dados histricos e as causas do problema
clnico. O sistema apresentou um alto valor de sensibilidade (90% versus 64%) e baixa
especificidade (25% versus 48%) quando comparada prtica mdica sem sistema.
Inteligncia Artificial na Identificao de Diagnstico
Os SADCs em gastroenterologia avaliados foram aplicados a uma multiplicidade de
problemas clnicos e investigao de doenas, o que mostra que a amplitude do
escopo dos SADC no auxlio prtica mdica est muito alm de apenas propiciar
auxlio ao diagnstico clnico. Em 80% das publicaes que localizamos tcnicas de
inteligncia artificial foram aplicadas para anlise de dados clnicos e previso de
classes. As

mtricas

mostraram excelentes

resultados na identificao

de

diagnsticos, conduta clnica e eficincia na utilizao de um medicamento. Em 60%


das publicaes foi descrito o desenvolvimento de modelos experimentais baseados

134

na aplicao de tcnicas de inteligncia artificial para suportar um SADC, apesar de


serem identificados como SADC. Apenas Sadeghi et al. (2006) relataram um sistema
em produo em que os dados clnicos dos pacientes eram inseridos por enfermeiras,
inclusive com validao externa do SADC. No foram descritas avaliaes qualitativas
dos usurios (mdicos ou enfermeiras) acerca do funcionamento e impacto do SADC
na prtica clnica, que so importantes itens para a adequao dos SADCs s
necessidades dos usurios e melhoria do atendimento ao paciente.
Se considerarmos a utilizao de tcnicas de inteligncia artificial aplicadas
mais amplamente rea de gastroenterologia, em problemas diversos, independente
da formao de um sistema de apoio, torna-se possvel identificar mais publicaes
disponveis. Lin e Chuang (2010) descreveram um estudo anlogo ao realizado por Lin
(2009), em que um modelo hbrido foi aplicado para o reconhecimento de diagnsticos
de doenas do fgado. Inicialmente, a tcnica de redes neurais artificiais (RNA) foi
aplicada classificao de pacientes sadios ou no e case-based reasoning (CBR)
para a determinao do diagnstico da doena do fgado em questo, usando uma
abordagem que analisa a proximidade do diagnstico segundo o treinamento
realizado.
Pace et al. (2010) descreveram um estudo em que foram aplicadas tcnicas de
RNAs e linear discriminant analyses (LDA) combinadas com um questionrio para
doena do refluxo gastro-esofgico (DRGE) como um novo modelo para diferenciao
entre pacientes sadios e com DRGE. No subconjunto dos pacientes com DRGE, as
tcnicas foram aplicadas para diferenciao entre doena do refluxo gastroesofgica
no-erosiva (nonerosive gastroesophageal reflux disease NERD) e esofagite erosiva
(erosive esophagitis EE). Este modelo, porm, demonstrou eficincia na diferenciao
entre pacientes sadios e com DRGE. Para a diferenciao entre NERD e EE, os
resultados no foram conclusivos.
Aplicado tambm a DRGE, no estudo descrito por Horowitz et al. (2007) o
objetivo foi identificar um conjunto de sintomas que possibilitam discriminar pacientes
com DRGE dos que apresentam outros tipos de dispepsia, por meio de mtodos de
minerao de dados para o desenvolvimento de um questionrio, a ser utilizado como
ferramenta de diagnstico clnico para clnica geral.
Maslekar et al. (2010) descreveram um estudo em que tcnicas de RNA foram
utilizadas no reconhecimento da presena de cncer, plipo ou colite em pacientes
atendidos em clnicas para tratamento de distrbios colorretais. Foi realizada uma
comparao para avaliar a eficincia das RNA e os especialistas. Os resultados
mostraram que as mtricas obtidas para RNA (acerto 90%, sensibilidade 0,882,
especificidade 0,918, AUC 0,954) demonstraram maior eficincia que os especialistas

135

(acerto

75%,

sensibilidade

0,725,

especificidade

0,765,

AUC

0,836)

no

reconhecimento de distrbios colorretais.


Cazzaniga et al. (2009) descreveram um estudo em que foram comparadas
tcnicas de RNA e regresso logstica como instrumentos no-invasivos para predizer
cirrose em hepatite C crnica em pacientes. O problema essencial que o padroouro para o diagnstico a necessidade da realizao da biopsia. Os resultados no
foram suficientes para descartar a biopsia.
RNAs tambm foram utilizadas por Lahner et al. (2008) para investigar sua
eficincia em predizer a presena da doena de tiride em pacientes com gastrite
atrfica. Um estudo piloto anterior (Lahner et al. 2005) foi conduzido para verificar se
as tcnicas RNAs e linear discriminant analyses (LDA) foram efetivas no
reconhecimento de pacientes com diagnstico de gastrite atrfica. A amostra foi
composta por pacientes com e sem gastrite atrfica e pacientes com doena celaca
com e sem gastrite atrfica. Foram realizados cinco experimentos com variao dos
atributos a serem analisados. Questionrios estruturados foram utilizados para coleta
de dados clnicos e bioqumicos. No experimento 1, 37 variveis foram testadas; no
experimento 2, foi aplicada uma seleo de variveis que reduziu a 30 variveis; no
experimento 3 foram selecionadas 8 variveis do conjunto formado para o experimento
2; no experimento 4, somente 5 dados clnicos foram utilizados e, finalmente, no
experimento 6, somente 3 variveis, referentes a testes sorolgicos foram utilizadas.
Firouzi et al. (2007) descreveram um estudo que props a utilizao de uma
rvore de deciso como uma nova abordagem para selecionar pacientes afetados com
doena inflamatria intestinal que devem ser indicados para densitometria. O software
Weka foi utilizado para treinamento da base de dados, composta por dados
demogrficos e informaes sobre a doena, e construo da rvore de deciso. Os
resultados das mtricas sugerem que a rvore de deciso pode ser utilizada com
grande taxa de acerto e especificidade na indicao de pacientes para densitometria,
submetendo menos pacientes para realizao de densitometria ssea e reduo de
despesas. Alm disso, a anlise da rvore de deciso construda trouxe um ganho de
conhecimento, medida que critrios para seleo, extrados do conjunto de dados,
tornaram-se aparentes.
Em suma, uma anlise quantitativa dos dados encontrados nestas publicaes
mostra que tcnicas de inteligncia artificial, sem compromisso de formato de sistema
de apoio a deciso, foram mais freqentemente aplicadas ao diagnstico de doenas
hepticas, em 30% dos artigos. O mapeamento da conduta clnica ainda no foi objeto
de estudo e foi expressa em apenas em uma publicao. Em 80% das publicaes, as
tcnicas de IA foram aplicadas para classificao diagnstica, baseada em dados

136

demogrficos, sintomas e sinais especficos e dados de exames clnicos. Em 30% das


publicaes, o problema do prognstico clnico foi abordado. A tcnica mais
freqentemente citada foi RNA, presente em 80% dos estudos. Em 40% das
publicaes, o mtodo estatstico linear discriminant analyses (LDA) foi utilizado,
assim como rvores de deciso. Em 30% dos estudos, a tcnica utilizada foi regresso
logstica
Em um trabalho de reviso, Grossi (2007) demonstrou que a aplicao de
tcnicas de inteligncia artificial ao diagnstico e prognstico de distrbios em
gastroenterologia

potencialmente

mais

efetiva

que

mtodos

estatsticos

convencionais. Essa concluso significativa, visto a complexidade envolvida no


diagnstico de distrbios gastrointestinais, em que a necessidade de exames
invasivos est sempre presente.

Pesquisas Realizadas

Este trabalho surgiu a partir da necessidade inicial de informatizao do registro de


consultas realizadas no Ambulatrio de Gastropediatria do Departamento de Pediatria
da Universidade Federal de So Paulo, sob chefia da prof Dr. Vera Lcia Sdepanian,
professora titular. Um dos benefcios desse processo deveria ser a obteno de uma
base de dados, em que dados demogrficos e clnicos referentes a sintomas, sinais e
dados biomdicos estivessem padronizados. Soubemos que o ambulatrio dispunha
de uma quantidade de registros de pacientes com doena celaca que se estimou
superior a qualquer outro servio no Brasil. Alm disso, trata-se de um ambiente de
diagnstico e pesquisa de vrias doenas gastrointestinais, em especial da doena
celaca. Portanto, apresentou-se uma grande oportunidade para realizarmos um
estudo que viesse a colaborar com a identificao dos casos de doena celaca de
forma a auxiliar o processo diagnstico, baseado em tcnicas de inteligncia artificial,
incluindo um sistema computacional que possibilitasse facilitar a avaliao contnua do
paciente.
Este estudo foi realizado no grupo de pesquisa Sade 360 junto ao Programa
de Ps-graduao em Informtica em Sade, EPM UNIFESP. A pesquisa foi
conduzida como um projeto de mestrado por Josceli Maria Tenrio, cujo foco
concentrou-se na integrao das anlises epistemolgica, estatsticas e de opinio.
Inicialmente foi construdo um sistema web para suportar a implantao de um
protocolo eletrnico para o atendimento no servio e possibilitar a obteno de uma

137

base eletrnica de dados. De fato, o servio possua um grande histrico de


atendimentos, no entanto, com dados anotados em pronturios em papel, junto ao
hospital e tambm localmente, o que caracterizou a necessidade de modificar a coleta
dos dados. Aps a implantao do sistema web e constituio da base de dados, foi
realizado um estudo sobre os algoritmos de classificao que pudessem ser aplicados
ao problema.
O sistema web foi desenvolvido, usando a linguagem PHP e banco de dados
MySQL, para ser utilizado pelos mdicos, preceptores e nutricionistas durante a
primeira consulta e evoluo clnica em todas as especialidades do Ambulatrio de
Gastropediatria do Departamento de Pediatria da UNIFESP. Neste ambiente os
pacientes so assistidos por mdicos especializandos que discutem os casos clnicos
com um preceptor. O sistema foi modelado para suportar esse fluxo de trabalho,
necessrio ao estabelecimento do processo de diagnstico. O algoritmo para
classificao automtica foi integrado somente ao protocolo eletrnico para
atendimento na primeira consulta para diagnstico da doena celaca utilizado pelos
mdicos, o que no ocorre com os outros formulrios, inclusive para evoluo clnica,
disponibilizados. Aps a fase de implantao, o sistema foi disponibilizado para o
registro das consultas realizadas em todos os ambulatrios de atendimento
especficos, a saber, alergia, endoscopia, hepatologia, longitudinal, suporte nutricional,
gastroenterologia geral, motilidade, doena inflamatria intestinal e doena celaca.
Todas as consultas foram registradas pelos mdicos especialistas do ambulatrio.
Uma base de dados histricos com cerca de 600 registros de primeira consulta foi
constituda.
Classificador de Doena Celaca
Para a construo do classificador automtico uma base foi constituda com dados de
pacientes com hiptese diagnstica de doena celaca (CID-10 K90.0), com
verificao de um preceptor, resultando em 96 registros, e um grupo controle com
casos clnicos de pacientes com manifestaes clnicas (sinais, sintomas e grupo de
risco) semelhantes s da doena celaca, mas sem hiptese diagnstica CID-10
K90.0, tambm com verificao de um preceptor, resultando em 120 registros. Foram
includos pacientes de ambos os gneros com idade at 10 anos. O Quadro 2
apresenta a codificao usada dos atributos para caracterizao da doena celaca.

138

Quadro 2 - Codificao dos atributos para construo do classificador de doena celaca


(Tenrio 2011).

Para uma caracterizao dos grupos, as queixas foram relacionadas


unitariamente, sendo que em alguns pronturios so indicadas mais de uma queixa.
Foram relacionadas 24 queixas unitrias. Apenas as queixas diarria (p-value 0,043) e
distenso abdominal (p-value 0,002) apresentam maior frequncia no grupo com
doena celaca, apresentando uma diferena estatisticamente significante (IC a 95%)
em relao ao grupo controle. Analogamente, apenas as queixas dor abdominal (pvalue<0,0001) e constipao (p-value 0,000003) apresentaram uma maior frequncia
no grupo controle com diferena estatisticamente significante em relao ao grupo
com doena celaca.
Com relao aos sintomas/sinais unitrios com maior frequncia, o grupo com
doena celaca apresenta irritabilidade, edema, diarria, dficit de peso e tecido celular
subcutneo escasso, com diferena estatstica significativa com o grupo controle.
Analogamente, os sinais/sintomas com mais freqncia no grupo controle foram
anorexia, nusea, diarreia com sangue, constipao intestinal e dor abdominal
Foi utilizado o software Weka (cs.waikato.ac.nz/ml/weka) para experimentao
da base de dados de treinamento (~20%) e teste (~80%), conforme representado na
Figura 14. A base de dados de treinamento, composta por 178 casos clnicos (82
celacos, 96 no-celacos) com 35 atributos nominais, foi submetida a um rol de
classificadores automticos. Foram considerados para testes as tcnicas rvore de
deciso (ADTree, SimpleCart, J48), classificador bayesiano (AODE, AODEsr,
bayesiano ingnuo, rede bayesiana, bayesiano ingnuo simples), support vector

139

machine (LibSVM), k-vizinhos prximos (Lbk, KStar, LBR) e rede neural artificial
(multilayer perceptron MLP). A partir da variao dos valores dos parmetros para
cada tcnica foram experimentados 270 modelos no total.

Figura 14 - Mtodo para seleo do algoritmo para construo do sistema web de


classificao de doena celaca (Tenrio 2011).

A tcnica de seleo de atributos Wrapper (Kohavi e John 1997) foi aplicada e


um novo treinamento com o mesmo rol de classificadores foi realizado. Wrapper
possibilita inserir atributos sem o trabalho de uma anlise prvia, de forma que a
tcnica execute este trabalho (Baranauskas e Monard 1998). Wrapper utiliza validao
cruzada para estimar a taxa de acerto do esquema de aprendizagem para um conjunto
de atributos, assim o mtodo de teste 10-fold cross-validation para estimar a taxa de
acerto do classificador (Witten e Frank 2005) foi considerado no Weka. Para que um
subconjunto de atributos seja obtido necessrio estabelecer um mtodo de busca
que possa atravessar o espao de atributos para encontrar um melhor subconjunto
(Witten e Frank 2005). O mtodo de busca GeneticSearch, baseado em algoritmos
evolucionrios, foi utilizado.
Na avaliao e comparao dos algoritmos quanto taxa de acerto na
classificao utilizou-se como mtrica para seleo do algoritmo os maiores valores de

140

rea sob a curva ROC (AUC), sensibilidade, a especificidade e taxa de acerto,


respectivamente (Massad 2004). Uma anlise comparativa entre o resultado de AUC
para cada algoritmo antes e aps a utilizao da tcnica de seleo de variveis foi
realizada para determinao das melhores mtricas referentes ao algoritmo a ser
selecionado. Foram avaliadas a taxa de acerto e a concordncia entre o classificador e
o padro-ouro, entre os especialistas e o padro-ouro e entre o classificador e os
especialistas, por meio da estatstica Kappa (Cohen 1968). Desta forma, foi possvel
avaliar o grau de confiabilidade diagnstica do sistema.
Ao final, 17 atributos foram selecionados, com diferena estatisticamente
significativa mediante teste de Wilcoxon, aplicado ao valor da AUC dos 270 modelos.
Assim, o classificador selecionado para o sistema de apoio foi AODE F1, do tipo
classificador bayesiano, com 17 atributos (taxa de acerto 80,0%, sensibilidade 0,78,
especificidade 0,80, AUC 0,84).
Comparao com Especialistas e Bipsia
Quanto ao resultado referente comparao das indicaes de doena celaca do
sistema web em relao ao padro-ouro, a taxa de acerto resultou em 84,2%,
sensibilidade 0,93, especificidade 0,79, Kappa 0,68, o que indicou uma boa
replicabilidade (Rosner 2006). Na comparao entre as hipteses diagnsticas dos
mdicos atendentes em consenso com os preceptores, denominados especialistas, e
o padro-ouro, a taxa de acerto dos especialistas foi 84,2%, sensibilidade 0,64,
especificidade 0,96, Kappa 0,64, o que indica boa concordncia. J a concordncia
entre a indicao dos especialistas e do sistema web Kappa resultou em 0,46,
indicando concordncia moderada. A Figura 15 apresenta uma tela capturada do
sistema web construdo.
Para avaliar a usabilidade do sistema foi utilizado o questionrio System
Usability Scale (SUS) (Brooke 1986). O SUS um questionrio que possibilita uma
avaliao subjetiva simples, composta por dez itens, que mostra uma viso global do
usurio em relao ao sistema pela qual possvel reconhecer os componentes de
qualidade indicados por Nielsen (2003), a saber: facilidade de aprendizagem,
eficincia, facilidade de memorizao, minimizao dos erros e satisfao. A avaliao
do sistema web foi realizada por dez pediatras, especializandos e preceptores do
Ambulatrio de Gastroenterologia Pediatritrica da UNIFESP. O resultou apontou um
SUS score de 83,5 (d.p. 10,0, IC 95%), o que indicou que o sistema web construdo
est de acordo com as exigncias e necessidades dos usurios.

141

Os resultados obtidos apontam que a quantidade de falsos positivos maior na


indicao do sistema construdo que dos especialistas e que a quantidade de falsos
negativos indicada pelos especialistas maior que pelo sistema. A falsa indicao de
um possvel diagnstico de doena celaca no deve ser considerada um erro, mas
uma sugesto ao mdico de que o caso clnico poder ser melhor investigado com a
realizao de testes sorolgicos, conforme o Fluxograma para Diagnstico da Doena
Celaca (Sociedade Brasileira de Pediatria 2007). A baixa ocorrncia de falsos
negativos confere boa confiabilidade diagnstica ao sistema na tarefa de reconhecer a
no ocorrncia da doena celaca. Tambm foi possvel considerar que h uma
tendncia dos especialistas em no indicar na primeira consulta uma hiptese
diagnstica de doena celaca. Por fim, o sistema mostrou-se mais efetivo na
comparao com o padro-ouro. Esses resultados conferem ao sistema uma possvel
utilidade em relao ao diagnstico. A influncia do alerta no processo de diagnstico
poder ser avaliada em um momento posterior, de forma a verificar a validade dos
benefcios da padronizao dos dados e alertas.

Figura 15 - Tela do sistema web para classificao de diagnstico de doena celaca na


primeira consulta (Tenrio 2011).

Catassi e Fasano (2010) indicaram que a biopsia do intestino delgado tem sido
questionada como nico teste conclusivo para o diagnstico em vrios casos. Os
autores sugerem que o diagnstico da doena celaca deva ser o resultado de uma
anlise ampla, em que as manifestaes clnicas, testes sorolgicos e histolgicos,

142

alm da anlise do HLA e resposta terapia devam ser igualmente avaliados como
regras. Para a concluso diagnstica, pelo menos quatro das cinco regras devem ser
atendidas. Nesta perspectiva, as manifestaes clnicas tm um peso anlogo aos
exames invasivos e dispendiosos. Considerando que a anlise das manifestaes
clnicas condizentes com a doena celaca um item importante para o levantamento
de uma suspeita diagnstica que pode desencadear um processo diagnstico, este
estudo pode contribuir como uma ferramenta confivel para anlise dessas
manifestaes e indicao de um possvel diagnstico positivo.

4.2. Classificao em Transplante Renal

Colaboraram com estes estudos


Anderson Diniz Hummel, Frederico Molina Cohrs,
Rafael Fabio Maciel, Fernando Sequeira Sousa
H poucas dcadas os avanos da medicina tornaram realidade o sonho de substituir
rgos defeituosos por meio dos transplantes de rgos (Lazzaretti 2007). Existem
relatos histricos sobre procedimentos de transplantes que remontam ao sculo quatro
d.C. (Kss e Bourget 1992). Todavia, quase sempre o procedimento no tinha sucesso
(Lazzaretti 2007). Os procedimentos de transplante s passaram a ser bem-sucedidos
nas ltimas dcadas graas conjuno de diferentes fatores.
Um fator foi a introduo dos imunossupressores e, posteriormente, a
utilizao de protocolos de baixa toxicidade (Perez et al. 1990; Starzlet al. 1981), e
uma melhoria dos protocolos e desenhos de imunossupresso (Kirk et AL. 2005).
Tendo em vista a corrente diminuio da taxa de mortalidade e o aumento do tempo
de sobrevida do paciente, a escala de realizao deste procedimento aumentou (Arent
et al. 1997), ao ponto que no final do sculo XX um milho de casos de transplantes j
havia sido registrado (Perosa e Genzini 1999; Perosa et al. 1999; Tacconi et al. 1997).
Entre as dcadas de 1980 e 1990 houve um aumento no nmero de transplantes
realizados em vrios pases (Arent et al. 1997). Neste mesmo perodo a fila de
transplante cresceu vertiginosamente em decorrncia do nmero de receptores ser
superior ao nmero de doadores (Freeman e Edwards 2000), melhorias nos
tratamentos (Kirk et al. 2005), aliado ao aumento da sobrevida do paciente (Freeman e
Edwards 2000), da dificuldade em encontrar um doador compatvel (Marinho 2006).
Nesse perodo tambm surge o problema da mortalidade associada espera por um

143

doador (Freeman e Edwards 2000; Fryer et al. 2003; Kim et al. 2006). Outra questo
relevante que a utilizao de inibidores de calcineurina por longos perodos pode
ocasionar

nefrotoxicidade

ao

imunossupressor

conseqentemente

no

funcionamento dos rins (Bittencourt et al. 2004; Morales 2005). Outro fator a ser
levado em considerao o alto custo do procedimento. Como exemplo, o transplante
heptico em 2004 teve um custo mdio de R$ 52.172,60 no Brasil (Castelo et al.
2007).
Constitui-se, assim, um cenrio no qual o transplante de rgos est associado
ao aumento da qualidade de vida e da sobrevida do paciente, como tambm baixa
oferta de rgos, considervel probabilidade da perda do enxerto de mortalidade na
fila de espera e alto custo do procedimento. Logo, melhorias nos procedimentos de
transplante de rgos que visem aperfeioar o processo tem tido cada vez maior
ateno pela sociedade. Nesse contexto a tecnologia da informao pode atuar como
um significativo mecanismo interventor.
SADCs em Doena Heptica e Transplante
Os sistemas de apoio deciso clnica (SADC) so um exemplo de como a rea de
informtica em sade pode contribuir no ambiente da sade. Os primeiros SADCs
surgiram na dcada de 1970 (Shortliffe 1976; de Dombal et al. 1972). A partir desta
poca diferentes SADCs foram desenvolvidos para as mais variadas reas da
medicina, como por exemplo, para medicina clnica, Internist-1/QMR (Miller et al. 1986;
Miller et al. 1982), o DXPlain (Barnett et al. 1987), e o Lepidus (Silva 2000), e tambm
para domnios especficos, como transplantes de rgos (Wang et al. 2008).
Diferentes abordagens podem ser empregadas no desenvolvimento de um
SADC, desde a aplicao do conhecimento mdico de forma direta at a utilizao de
tcnicas de minerao de dados. Na literatura existem trabalhos publicados que
mostram o sucesso da aplicao de tcnicas matemticas, como: anlise estatstica
(Patel et al. 2008; Murugan et al. 2008), modelos matemticos (Costa et al. 2008;
Marinho 2006) e tcnicas de minerao de dados e inteligncia artificial (IA) (Wang et
al. 2008; Banerjee 2003).
As tcnicas de minerao de dados e IA, particularmente as de redes neurais
artificiais (RNA) (Haykin 1999; Mohamad 1995; Rosenblatt 1958), tm sido utilizadas
para este tipo de problema (Caocci et al. 2010; Nilsson et al. 2010; Nilsson et al. 2009;
ztekin et al. 2009; Pidala et al. 2009; Wang et al. 2008; Ghoshal e Das 2001). Temse, como exemplo, o estudo de Wang et al. (2008) o qual mostra que possvel
formular uma abordagem baseada em RNA que apresente maior acurcia que o uso

144

da regresso logstica no caso da previso da resposta do tratamento da hepatite C


crnica. Estes resultados so concordantes com estudos anteriores (Banerjee 2003)
que detectavam uma acurcia superior das RNAs em comparao s metodologias j
existentes baseados em regresso logstica, como as abordagens Model for End-stage
Liver Disease (MELD) (Forman e Lucey 2001) e Child-Pugh (Infante-Rivard et al.
1987).
O estudo de Wang et al. (2008) mostra o potencial da aplicao de tcnicas de
minerao de dados para o auxlio na determinao de tratamentos de doenas
hepticas. O transplante renal est inserido em um contexto similar, no qual o melhor
prognstico a realizao do procedimento; difere-se principalmente por se tratar de
uma terapia alternativa (Fitzwater et al. 1991). Vale ressaltar que o custo do
transplante alto no curto prazo, mas no longo prazo o transplante traz benefcios aos
pacientes dialticos ou pr-dialticos com insuficincia renal crnica tanto do ponto de
vista financeiro, quanto do ponto de vista da qualidade de vida (Wolfe et al. 1999).
Aps a realizao do procedimento existe a probabilidade de ocorrer
complicaes de acordo com o perodo ps-transplante, sendo que o primeiro ano o
mais crtico. Nos primeiros trs meses a preocupao centrada na rejeio ou perda
do enxerto. A partir desse momento as infeces, a nefrotoxicidade aos
imunossupressores e a rejeio celular so as maiores preocupaes em relao ao
sucesso e da qualidade de vida do receptor (Kasiske et al. 2000). Vale ressaltar que o
exame padro-ouro para a determinao dos agravos a bipsia, um procedimento
custoso do ponto de vista financeiro e que envolve riscos ao paciente. Logo, um SADC
que auxilie na indicao da bipsia torna-se til para a prtica mdica, porque esses
eventos trazem impacto na sobrevivncia dos receptores e em sua qualidade de vida.

Pesquisas Realizadas

Realizamos um estudo na rea de ps-transplante renal com o objetivo de


desenvolver um sistema de apoio a deciso clinica para acompanhamento do paciente
a fim de indicar a necessidade de realizar uma bipsia tendo em vista a identiicao
de nefrotoxicidade aos imunossupressores ou a rejeio celular. A nefrotoxicidade
ocasionada por determinadas substncias que podem gerar danos nos rins ao nvel
glomerular, tubular, intersticial e vascular. O rim tem caractersticas que o tornam
vulnerveis a essas substncias. Danos podem ocorrer tendo como origem primria o
imunossupressor (Solez et al. 1993). Por outro lado, a rejeio celular caracterizada

145

histologicamente por necrose das clulas parenquimatosas, usualmente acompanhada


de infiltrado de macrfagos e linfcitos. Assim, se a dosagem de imunossupressor for
alta pode ocasionar em nefrotoxicidade, se for baixa pode ocasionar numa rejeio
celular do enxerto.
Para este estudo tivemos que analisar o perfil dos doadores e receptores de
transplante renal da amostra de pacientes selecionada, com at um ano da data do
transplante, oriundos da Casa de Sade Santa Efignia, Caruaru, PE. Ainda,
realizamos uma avaliao das tcnicas de minerao de dados na amostra
selecionada para identificar qual apresentaria um bom desempenho na indicao da
bipsia a partir da nefrotoxicidade aos imunossupressores e rejeio celular, e por fim
construir um sistema para o usurio, neste caso, um mdico especialista em
transplante renal.
Este trabalho foi realizado no grupo de pesquisa Sade 360, nas reunies de
sistema de apoio a deciso clnica, junto ao Programa de Ps-graduao em Gesto e
Informtica em Sade, EPM, UNIFESP. A pesquisa foi conduzida por meio de 2
mestrados conduzidos, Anderson Diniz Hummel, cujo foco concentrou-se nas tcnicas
de classificao, e Dr. Rafael Fbio Maciel, cirurgio geral e especialista em
transplante, cujo foco concentrou-se nos aspectos clnicos decorrentes e avaliao do
perifl do paciente. Dr. Rafael tambm foi responsvel pela disponibilizao dados pelo
Centro de Transplante da Casa de Sade Santa Efignia. Seu mestrado foi realizado
junto ao Programa de Ps-graduao em Sade Coletiva, EPM, UNIFESP. Frederico
Molina Cohrs colaborou com as anlises estatsticas e desenho do estudo e o Prof. Dr.
Renato Glauco de Souza Rodrigues, da UNCISAL na poca (atualmente na
Universidade Federal do Rio Grande), especialista em tcnicas de inteligncia artificial,
tambm colaborou com o planejamento da pesquisa.
O estudo foi conduzido em etapas, sendo inicialmente uma anlise do perfil da
base de dados dos pacientes, por meio de uma estatstica descritiva; depois, foi
realizada uma minerao dos dados, por meio de seleo de atributos, treinamento de
um classificador de padro e teste; e por fim, desenvolvimento de um sistema com
interface para o usurio, por meio da construo de um middleware de integrao.
Dados de Pacientes Ps-transplantados
Sobre o perfil dos pacientes, considerando no estudo pacientes com suspeita clnica
de diagnsticos de rejeio celular ou nefrotoxicidade, e que depois se submeteram
bipsia renal. Foram excludos pacientes que no fizeram uso de inibidor de
calcineurina. Por fim, o protocolo possibilitou incluir dados de 102 de eventos de

146

acompanhamento do paciente, originados dos 158 transplantados renais. Um evento


de acompanhamento pode ser caracterizado com uma disfuno do enxerto e o
mdico suspeita de rejeio celular ou nefrotoxicidade ao imunossupressor. De acordo
com o protocolo do centro de transplante, solicitado ao paciente um conjunto de
exames clnicos e laboratoriais para sua avaliao clnica, incluindo a bipsia do
enxerto.
Foram coletados 22 atributos dos pronturios. Os dados gerais do transplante
so os dados que tm como referncia o procedimento de transplante realizado, o
receptor, ou o doador, sendo: induo, funo inicial, tipo de doador, citomegalovirus
(CMV) no receptor e histocompatibilidade por antgeno leucocitrio humano (HLA). Os
dados especficos do evento so dados que podem variar de um evento para outro,
para o mesmo paciente. Estes dados so: tempo da consulta ps-transplante,
dosagem de tacrolimo, diurese, aumento de temperatura, edema, tremores, dosagem
da uria, dosagem de creatinina, glicemia, contagem de leuccitos, contagem de
linfcitos, contagem de plaquetas, tenso arterial mdia. Para os atributos contnuos
foram calculados a mdia e o desvio padro. Para os atributos categricos foram
calculadas as propores de cada um dos atributos. Nos testes inferenciais para
atributos categricos, as propores de cada um dos subgrupos foram comparadas
utilizando o teste de chi-quadrado (Plackett 1983). Em todos os testes estatsticos foi
utilizado o intervalo de confiana de 95%. Para avaliao da normalidade da
distribuio dos atributos contnuos foi utilizado o teste estatstico de Shapiro-Wilk
(Shapiro e Wilk 1963) e para os atributos contnuos no paramtricos foi utilizado o
teste Kruskal-Wallis (Kruskal e Wallis 1952).
Ao relacionar os resultados dos testes inferenciais ficou evidenciada a
importncia da dosagem do imunossupressor. No grupo de pacientes com
nefrotoxicidade, a dosagem de tacrolimo bem maior que no grupo de pacientes sem
rejeio celular e sem nefrotoxicidade. J no grupo de pacientes com rejeio celular a
dosagem de imunossupressor bem menor que no grupo de pacientes sem rejeio
celular e sem nefrotoxicidade. Todavia, no grupo de pacientes com nefrotoxicidade,
pacientes com doses baixas de imunossupressor desenvolveram nefrotoxicidade. Isso
pode ocorrer em pacientes que utilizavam doses elevadas de imunossupressor e que
tiveram a dose de imunossupressor reajustada para valores menores, porque o
desenvolvimento do quadro de nefrotoxicidade no instantneo. Um raciocnio
similar pode ser aplicado aos pacientes com rejeio celular com altas doses de
medicao. Neste caso, doses baixas da medicao em momentos anteriores
poderiam levar a este desfecho.

147

Testes com Classificadores de Padro


Tendo em vista os resultados experimentais que obtivemos em testes preliminares
com os dados usando diferentes tcnicas de classificao (rvore de deciso J48,
rede bayesiana, bayesiano ingnuo, vizinhos mais prximos IBK, rede neural MLP,
support vector machine LIBSVM) e achados na literatura (Hummel et al. 2011;
Hummel et al. 2010; Maciel et al. 2010), o classificador bayesiano ingnuo foi
escolhido para a tarefa de classificao. Segundo John e Langley (1995), o
classificador de padres bayesiano ingnuo um classificador de padres
probabilstico baseado no teorema de Bayes. O termo ingnuo deriva do fato de que
este classificador de padres assume que todos os atributos so independentes. O
funcionamento deste classificador pode ser descrito da seguinte forma. Para cada um
dos atributos calculada a probabilidade condicional entre um atributo e cada uma
das possveis classificaes. Ao final calculado o produto das probabilidades
condicionais em separado para cada uma das classificaes. Assume-se que a
classificao cujo produto obteve maior valor a classificao final daquele elemento.
Um dos fatores crticos de sucesso no desenvolvimento de um sistema de
apoio a deciso a correta escolha dos atributos que caracterizam o problema de
classificao. Tendo em vista o fato de que este trabalho utiliza dados secundrios,
no possvel adicionar atributos base de dados. Todavia, factvel a realizao da
seleo de atributos com o objetivo de aprimorar o acerto do classificador de padres.
Uma abordagem possvel a busca exaustiva do melhor subconjunto de atributos,
estratgia conhecida como busca por fora bruta (Guyon e Elisseeff 2003). Tendo em
vista a quantidade de atributos neste trabalho, essa tarefa proibitiva porque o custo
computacional para concluso desta tarefa alto (Reunanen 2003). Existem
estratgias de busca (Guyon e Elisseeff 2003) que possibilitam encontrar subconjuntos
de atributos com potencial para gerar um classificador de padres com melhor
desempenho sem realizar a busca exaustiva, como exemplo: filtro de atributos
utilizando chi-quadrado ou ganho de informao; backward elimination; forward
selection; e seleo por algoritmos genticos. O objetivo das estratgias de filtragem
de atributos ranquear cada um dos atributos utilizando uma funo de avaliao,
como exemplo, chi-quadrado e ganho de informao. Uma das principais
caractersticas desta abordagem a independncia da utilizao de um algoritmo de
classificao e a velocidade de aplicao (Guyon e Elisseeff 2003).
Nossa abordagem de seleo de atributos considerou as seguintes estratgias
neste trabalho: filtragem de atributos por chi-quadrado (Plackett 1983) e por ganho de
informao (Quinlan 1986); seleo de atributos por backward elimination e forward

148

selection (Caruana 2003); seleo e gerao de atributos evolucionrios (Vafai e Jong


1992).
Indicao para Bipsia e Diagnstico
O melhor desempenho do classificador foi alcanado ao se separar a classificao em
2 fases, sendo a primeira, se h indicao ou no de realizao de bipsia, e a
segunda, se est relacionada nefrotoxicidade ou rejeio celular. Para ambas as
fases no treinamento foi utilizada a estratgia de validao 10-fold cross validation
(Witten e Frank 2005). O critrio de avaliao dos algoritmos diferente para cada
fase, todavia, para comparar as diferentes estratgias de seleo de atributos
somado o valor da funo de avaliao para cada um dos folds de treinamento e o
resultado dividido por 10.
Na Fase 1 a avaliao feita pela sensibilidade (Witten e Frank 2005) porque
do ponto de vista clnico o importante minimizar o erro de deixar de enviar pacientes
para a bipsia quando a bipsia positiva. O classificador bayesiano ingnuo com
seleo de atributos por meio do algoritmo gentico Yagga resultou melhor
sensibilidade 0,78 (taxa de acerto 83,78%, Kappa 0,67, especificidade 0,90, AUC
0,82). Para a Fase 2 foi utilizada como mtrica de avaliao a rea sob a curva ROC
(area under curve ROC, AUC) porque, de fato, no h diferena entre classificar um
paciente como portador de nefrotoxicidade ou rejeio celular porque a bipsia ser
realizada para aferio efetiva da patologia. O classificador bayesiano ingnuo com
seleo de atributos por meio do algoritmo ganho de informao top 30% resultou
melhor AUC 0,93 (taxa de acerto 81,5%, Kappa 0,61). O resultado final, com juno
das 2 fases, foi AUC 0,59.
Mesmo o resultado da avaliao da juno das duas fases ser de 0,59, do
ponto de vista clnico os resultados obtidos na Fase 1 so os mais importantes deste
estudo. Tendo em vista que aps a ferramenta indicar a necessidade de biopsia, o
paciente ser biopsiado e ser realizada biopsia do enxerto com o intuito de fazer o
diagnstico histolgico.
Ao contabilizar os atributos mais selecionados pelos algoritmos de seleo de
atributos, foi verificado que esses atributos possuem significado clnico relevante. Na
Fase 1 os trs atributos mais selecionados foram dosagem de uria, creatinina e
tenso arterial mdia. A importncia destes trs atributos no acompanhamento da
funo renal apontada na literatura (Bellomo et al. 2004), e a dosagem de creatinina
utilizada em servios mdicos como indicador que determina a alta do paciente.
Tanto a dosagem de uria quanto a dosagem de creatinina foram apontados pelos

149

profissionais de sade entrevistados, do servio que colaborou com o estudo, como os


atributos que primeiro so avaliados para verificar se o enxerto est funcional no
paciente. A tenso arterial mdia em nveis elevados pode ser causada por problemas
do enxerto ou ainda piorar seu funcionamento.
Na Fase 2 os trs atributos mais selecionados foram dosagem de tacrolimo,
tempo de transplante e contagem de leuccitos. A dosagem de tacrolimo
diretamente relacionada nefrotoxicidade e rejeio celular: se as doses estiverem
elevadas, a chance do paciente estar com nefrotoxicidade bem maior; se o paciente
est com baixas doses de tacrolimo, a chance de o paciente desenvolver rejeio
celular maior. Kasiske et al. (2000) relaciona o tempo aps o transplante com a
ocorrncia de rejeio celular e nefrotoxicidade. A rejeio celular mais freqente no
incio do acompanhamento ps-transplante, mais especificamente nos primeiros seis
meses, enquanto que a nefrotoxicidade mais freqente aps os primeiros trs meses
do transplante.
Por fim, foi conduzida uma avaliao exploratria do sistema utilizando o
System Usability Scale (Brooke 1986; Tenrio et al. 2008) com um usurio mdico do
servio com o objetivo de avaliar, preliminarmente, a qualidade da interface e
facilidade de uso do sistema, obtendo 75 pontos. Tendo em vista a pontuao obtida e
a escala apresentada por Bangor (Bangor et al. 2009) temos que a avaliao de
usabilidade do sistema est entre boa a excelente.

4.3. Classificao da Maturao Vertebral Cervical para


Ortodontia

Colaboraram com estes estudos


Roberto Silva Baptista, Csar Augusto Cardoso Caetano,
Cristina Lcia Feij Ortolani
A determinao do estgio de crescimento e desenvolvimento em que um indivduo se
encontra de grande valia para o diagnstico, planejamento e prognstico dos
tratamentos ortodntico-ortopdicos (Ortolani 2005). Em geral, para avaliar o estgio
de crescimento em que um indivduo se encontra utiliza-se a radiografia carpal. Dois
mtodos baseados na avaliao de radiografias carpais so utilizados como referncia
na determinao da idade ssea: o mtodo de GreulichPyle (GP) (Greulich e Si
1971) e o mtodo de TannerWhitehouse (TW3) (Tanner et al. 2001). Contudo, outros

150

mtodos de avaliao da idade ssea tm sido estudados, como a inspeo das fases
de maturao ssea das vrtebras cervicais (cervical vertebral maturation, CVM)
observadas em radiografias cefalomtricas laterais, tcnica esta comum na ortodontia
(Lamparski 1972). Nestas radiografias a segunda, terceira e quarta vrtebras (C2, C3
e C4) so vistas mesmo quando o paciente est usando um colar de proteo da
tireide.
O mtodo CVM possibilita avaliar a maturao ssea por meio de uma nica
radiografia cefalomtrica lateral, evitando assim uma nova exposio do paciente
radiao ionizante. O custo tambm reduzido, uma vez que esta tcnica elimina o
uso de radiografias adicionais como a carpal. No mtodo CVM somente C2, C3 e C4
so analisadas e as fases de maturao so divididas em seis estgios cervicais
(cervical stages, CS), variando de CS1 a CS6 (Baccetti et al. 2005), conforme Figura
16. Este mtodo apresenta uma tendncia atual de uso com grande confiabilidade
descrita na literatura (Generoso et al. 2003; Arajo 2001; Armond 2000). Ortolani
(2005) o considerou como um mtodo alternativo vlido e prtico, possibilitando at
mesmo substituir outros mtodos de avaliao do estgio em que o indivduo se
encontra na curva de crescimento (Santos et al. 2005).

Figura 16 Representao esquemtica dos estgios cervicais CS1 a CS6 considerando


as vrtebras cervicais C2, C3 e C4 de acordo com o mtodo CVM (Baccetti et al. 2005).

Seja pela subjetividade ou complexidade dos mtodos de avaliao da idade


ssea, ambas abordagens (carpal e cervical) so onerosas e dependentes de
profissionais com larga experincia (Liu et al. 2008). Segundo Thodberg et al. (2009),
o principal problema na avaliao manual da idade esqueltica a discordncia na
avaliao entre examinadores. Isso ocorre pelo fato da maturao ser um processo

151

em constante mudana na morfologia esqueltica, o que difcil para a mente humana


quantificar.
Apoio a Deciso em Maturao ssea
Aproveitando os recursos da informtica, os sistemas automatizados de apoio
deciso possuem a capacidade de incorporar e melhorar a representao de uma
enorme quantidade de informao mdica e de codificar estratgias que podem levar
a respostas teis para o processo de tomada de deciso de um profissional de sade
(Shortliffe 1989)(Berg 1997).
Liu et al. (2008) aplicaram uma tcnica baseada em redes neurais do tipo backpropagation (BP) para construir um classificador para estimar a idade ssea segundo
o mtodo baseado em radiografias de mo e punho de Tanner-Whitehouse (TW3)
(Tanner et al. 2001). Os autores alcanaram um grau de concordncia acima de 95%
entre a avaliao manual e com o auxlio do classificador.
Thodberg et al. (2009) aplicaram um algoritmo baseado em regresso linear
para estimar a idade ssea por meio dos mtodos de Greulich e Pyle (GP) e TannerWhitehouse (TW3), ambos baseados em radiografias de mo e punho. Comparadas
com a inspeo manual foram obtidas variaes de 0,42 ano em relao ao mtodo
GP e 0,80 ano em relao ao mtodo TW3.
Niemeijer et al. (2003) avaliaram trs tcnicas para construo de
classificadores para estimar a fase de crescimento de um indivduo baseado no
mtodo Tanner-Whitehouse (TW2) (Tanner et al. 1975). A primeira foi baseada na
mxima correlao cruzada entre as cinco caractersticas extradas e os possveis
estgios de crescimento. A segunda foi baseada no algoritmo do vizinho mais prximo
(1-nearest neighbor, 1-NN) e a terceira foi baseada em discriminantes lineares. O
classificador baseado na mxima correlao cruzada foi o que obteve maior taxa de
acerto 73,2%, e 97,2% considerando-se a variao de um estgio adjacente como
acerto.
Um trabalho relacionou tcnicas computacionais com o mtodo CVM (Chen et
al. 2008), que por meio de seleo de parmetros por correlao e anlise de
agrupamento propuseram o mtodo Quantitative Cervical Vertebral Maturation
(QCVM). Dividido em quatro estgios (QCVM I, QCVM II, QCVM III e QCVM IV)
baseados nos indicadores SMI (skeletal maturity indicators) (FIshman 1982), este
trabalho resultou numa equao para estimar o estgio QCVM.

152

Pesquisas Realizadas
Realizamos um estudo que envolveu o desenvolvimento de um sistema computacional
de apoio deciso clnica baseado na atualizao do mtodo CVM proposto por
Bacceti et al. (2005) para colaborar na diminuio da discordncia entre examinadores
quanto avaliao da maturao ssea para a ortodontia. A proposta deste estudo foi
estudar classificadores de padres para identificar automaticamente a fase de
crescimento que um indivduo se encontra segundo o mtodo de maturao cervical
vertebral. Os resultados deste trabalho visaram promover a utilizao do mtodo de
maturao vertebral cervical por ortodontistas por meio do auxlio de um sistema de
apoio deciso clnica, alcanando assim um parmetro satisfatrio e padronizado
para estimar a fase de crescimento que um indivduo se encontra. Na poca do estudo
nenhum trabalho havia sido encontrado na literatura aliando tcnicas computacionais
ltima modificao do mtodo realizado por Bacceti et al. (2005).
Esta pesquisa foi concebida junto ao grupo de pesquisa Sade 360, nas
reunies sobre sistemas de apoio a deciso, associado ao Programa de Psgraduao em Gesto e Informtica em Sade, da Escola Paulista de Medicina,
Universidade Federal de So Paulo UNIFESP. Este grupo conta com a participao
da Profa. Dra. Cristina Lcia Feij Ortolani, especialista em ortodontia. Esta pesquisa
foi conduzida como um projeto de mestrado de Roberto Silva Baptista, analista de
sistemas, com apoio dos especialistas ortodontistas Camila Leite Quaglio Tagliavini e
Laila Mohamad El Harati Mourad. As etapas conduzidas no estudo incluram o
desenvolvimento de um classificador de padro para identificao do estgio cervical
de um indivduo, construo de um sistema computacional a partir do classificador
desenvolvido e avaliao do grau de concordncia entre avaliadores quanto
classificao manual versus classificao pelo sistema proposto.
Base de Radiografias Cefalomtricas Laterais
Para a formao da base de imagens, as radiografias cefalomtricas laterais para este
tipo de estudo foram regularmente adquiridas dentro de um servio de radiologia
seguindo um padro definido pela instituio, incluindo a utilizao de uma geometria
calibrada para aquisio da imagem de raios-X. Estas radiografias foram realizadas
com o propsito de diagnstico ortodntico para posterior tratamento.
Foram coletadas e digitalizadas 187 radiografias cefalomtricas laterais sendo
118 de indivduos do gnero feminino e 69 do gnero masculino, segundo parmetros

153

de digitalizao de 16 bits de cinza e resoluo de 600 pontos por polegada em uma


mesa digitalizadora de alta qualidade. Um mtodo de compresso JPEG foi aplicado
com fator de qualidade padro do software Gimp (gimp.org) de 90%, com taxa entre
16:1 e 18:1 e 8 bits de cinza. Duarte et al. (2009) relataram que no h diferena
significativa na marcao de pontos cefalomtrico sem imagens com taxa de
compresso at 62:1 quando comparadas com as imagens sem compresso.
As imagens foram submetidas a um recorte da rea de interesse de 400x700
pixels de maneira que somente a rea composta pelas vrtebras C2, C3 e C4 foi
mantida. Este recorte foi aplicado para evitar a influncia de outras caractersticas
presentes na radiografia durante a avaliao do examinador, como por exemplo, o
comprimento da mandbula. Este recorte tambm eliminou a possibilidade de
identificao dos pacientes pelo examinador. As imagens da base de estudo foram
visualmente inspecionadas com base no mtodo CVM para a composio de uma
base padro ouro.
Teste com Classificadores de Padro

Por se tratar de um problema de classificao envolvendo seis estgios cervicais foi


escolhido o algoritmo de classificao bayesiano ingnuo (Gilthorpe et al. 2000) devido
sua caracterstica multiclasse intrnseca, possibilitando que exemplares possam ser
classificados em mais de duas classes sem modificaes em seus parmetros. A sua
regra de classificao simples, porm a regra bayesiana garante que o desempenho
do classificador seja timo (Duda et al. 2000). Baseado na teoria de deciso bayesiana
(Theodoridis e Koutroumbas 2008), o algoritmo bayesiano ingnuo utiliza a distribuio
de frequncias entre os estgios cervicais (classes) fornecidos na base de dados de
treinamento como probabilidade a priori e calcula a funo de densidade de
probabilidades para cada atributo contnuo. No caso desta pesquisa, quando uma
nova imagem submetida para ser classificada, o classificador treinado atribui o
estgio cervical mais provvel.
Por meio do software Weka (Witten e Frank 2005) foi possvel submeter uma
base de dados a um lote de algoritmos com diferentes configuraes numa nica
tarefa definida por um script de execuo. Foram geradas trs instncias do
classificador Bayesiano Ingnuo variando parmetros de execuo. O primeiro
consiste no mtodo Bayesiano Ingnuo original considerando que os atributos
contnuos possuem distribuio normal. O segundo desconsidera que os atributos
contnuos tenham uma distribuio normal e estima uma distribuio de probabilidades

154

no paramtrica para cada atributo contnuo. O terceiro discretiza os valores de cada


atributo contnuo, transformando-os em intervalos discretos. Dentre as diferentes
abordagens existentes para avaliao dos classificadores escolhemos o mtodo 10fold de validao cruzada (10-fold cross validation) (Witten e Frank 2005). Neste
mtodo a base de dados dividida em dez subconjuntos do mesmo tamanho; um dos
subconjuntos tomado como subconjunto de teste e os demais agrupados como
subconjunto de treinamento. Este processo executado dez vezes alternando-se o
subconjunto de teste minimizando o vis da escolha arbitrria dos conjuntos de
treinamento e teste. Ao final calcula-se a acurcia encontrada, obtendo assim uma
medida mais robusta sobre a capacidade de classificao do classificador treinado.
O desempenho dos classificadores foi medido a partir da anlise de
concordncia entre os estgios cervicais estimados pelo classificador para cada
imagem e os estgios cervicais classificados manualmente. O teste estatstico Kappa
ponderado (Cohen 1968) foi utilizado por se mostrar adequado para avaliao de
desempenho de classificadores multiclasse e ordinais (Ben-David 2008). O teste
Kappa ponderado se baseia no nmero de respostas concordantes entre avaliadores e
avalia o grau de concordncia subtraindo-se o nmero de respostas concordantes que
podem ser atribudas pelo acaso.
O melhor resultado obtido da avaliao de desempenho dos classificadores
considerando-se a variao de um estgio adjacente como aceitvel foi para
Bayesiano Ingnuo original com 90,42% de acerto, coeficiente Kappa 0,992
representando grau de concordncia quase perfeito (Cohen 1968). Resultados
semelhantes foram encontrados por Niemeijer et al. (2003). Os autores utilizaram um
classificador automtico baseado no mtodo de Tanner-Whitehouse (Tanner et al.
1975) que alcanou uma taxa de acerto de 97,2% considerando a variao de um
estgio adjacente. Hassel e Farman (1995) observaram que em alguns casos pode ser
difcil diferenciar um determinado estgio de maturao esqueltica de seu adjacente
e que isso pode ser clinicamente irrelevante. Nesse sentido, Gu e McNamara (2007)
identificaram que o pico de crescimento mandibular no ocorre em um estgio cervical
especfico, mas dentro do intervalo compreendido entre os estgios CS3 e CS4 do
mtodo CVM (que possibilita determinao nos estgios de CS1 a CS6).
Os resultados obtidos na avaliao entre examinadores demonstram que o
grau de concordncia entre os examinadores padro-ouro e manual foi considerado
substancial (Landis e Koch 1977) em funo da diferena de experincia no mtodo
CVM entre os avaliadores. A concordncia entre o examinador padro-ouro e o
classificador automtico foi quase perfeita (Landis e Koch 1977) uma vez que o
classificador automtico foi treinado com base na classificao manual do examinador

155

padro-ouro. A concordncia entre o examinador manual (distinto do padro-ouro) e o


classificador automtico foi substancial (Landis e Koch 1977). No houve diferena
significativa entre a concordncia do examinador padro-ouro com o examinador
manual e a concordncia do examinador manual e o classificador automtico,
sugerindo que o classificador automtico foi capaz de reproduzir o comportamento do
examinador padro-ouro.
Avaliao com Especialistas
Um sistema web para anlise do crescimento facial pelo mtodo de maturao
vertebral cervical foi desenvolvido (Figura 17).

Figura 17 - Tela capturada: pgina de avaliao por meio da marcao dos pontos de
interesse e sugesto do SAD (Baptista 2012).

156

Para efeito de experimento o sistema web foi utilizado por 8 avaliadores


especializandos

em

ortodontia,

de

maneira

que

diferentes

imagens

foram

apresentadas ora para avaliao manual (usurio observa a imagem como se faz
tradicionalmente e indica um estgio de maturao), ora avaliao aps marcao de
pontos (usurio marca pontos do padro cefalomtrico e depois indica um estgio de
maturao), ora avaliao aps sugesto do classificador automtico (usurio marca
pontos do padro cefalomtrico e aceita ou recusa o estgio sugerido pelo
classificador automtico). O objetivo foi avaliar como seria o comportamento do
usurio a partir da sugesto do sistema.
A comparao da situao de apenas marcao de pontos e aps a sugesto
de estgio pelo sistema resultou em grau de concordncia quase perfeito, indicando
que o sistema de apoio robusto para absorver pequenas variaes encontradas na
marcao de pontos. Foi possvel detectar que houve uma tendncia de mudana de
opinio dos avaliadores acompanhando a sugesto apresentada pelo sistema de
apoio.
Portanto, a anlise conduzida do sistema como apoio ao ortodontista indicou
que para o grupo de avaliadores deste estudo tanto a sugesto do sistema quanto a
ao de marcar os pontos influenciaram na deciso do avaliador, minimizando a
discordncia entre diferentes avaliadores.

4.4. Minerao de Texto de Laudos de Bipsia Renal

Colaboraram com estes estudos


Amanda Rocha dos Reis, Flvia Pena Nicolas,
Evandro Eduardo Seron Ruiz, Joseph K. Abraham,
Alex Esteves Jaccoud Falco, Luiz Antonio Ribeiro de Moura
Glomerulonefrites ou glomerulopatias so afeces que acometem o glomrulo,
estrutura microscpica do rim formada por um emaranhado de capilares e que a
principal estrutura renal responsvel pela filtrao do sangue. Atualmente observa-se
uma escassez de informaes sobre a prevalncia e a incidncia de doenas renais
na populao brasileira em geral, uma vez que os estudos epidemiolgicos das
doenas glomerulares tendem a ser de mbito regional (Polito 2008). Alm disso, a
maior parte das glomerulopatias diagnosticada por acaso em exames rotineiros,
como o de urina. Segundo Ferraz e colaboradores (2010), as doenas glomerulares

157

muitas vezes apresentam um curso insidioso e assintomtico, dificultando o


diagnstico precoce das doenas. Neste contexto, a bipsia renal tem um importante
papel na prtica clnica dos nefrologistas, sendo essencial no diagnstico, nas
teraputicas mais apropriadas, assim como na instituio de medidas que favoream o
diagnstico precoce (Polito 2008).
Estima-se que o diagnstico de doenas renais com base em bipsias renais
ocorra entre 70-85% dos pacientes (Kobert et al. 1996). No entanto, a indicao de
bipsia renal no se d para todos os pacientes que chegam consulta. Segundo a
Sociedade Brasileira de Nefrologia (2005), uma vez estabelecido o diagnstico clnicolaboratorial de glomerulopatia, so indicaes de realizao de bipsia renal os casos
de: sndrome nefrtica em pacientes adultos; insuficincia renal de causa no
esclarecida e glomerulonefrite rapidamente progressiva. Alm disso, os rins do
paciente devem apresentar dimenses normais (ou aumentadas) ao exame
ultrassonogrfico e que sejam levadas em conta contraindicaes absolutas para sua
realizao.
No entanto, h situaes em que no h consenso quanto indicao de
bipsia renal como nos casos de hematria isolada de origem glomerular, hematria
associada proteinria de pequena monta e proteinria isolada de pequena monta
(Sociedade Brasileira de Nefrologia 2005), tornando a indicao subjetiva e
consideravelmente diferente entre os nefrologistas (Polito 2008).
De forma geral, os estudos realizados visam traar um perfil dos pacientes
portadores de doenas glomerulares em uma determinada regio. A coleta das
informaes muitas vezes manual e como mtodo de anlise os estudos tendem a
utilizar estatstica descritiva para descrever a prevalncia das nefropatias de acordo
com o gnero, idade, regies do pas, raa, apresentao clnica, funo renal por
ocasio da bipsia renal, assim como anlises histricas (Polito 2008).
Descoberta de Padro em Laudos
Honorato (2008) aplicou tcnicas de minerao de textos e processamento de
linguagem natural para mapeamento de informaes em laudos mdicos de
endoscopia digestiva alta em uma representao atributo-valor. O mtodo utilizado
realiza uma extrao de terminologia, baseada em anlises sinttica e estatstica, que
seleciona termos mais frequentes considerando determinados limiares. O autor relata
que a metodologia proposta adequada e possibilita reduzir o tempo utilizado por um
especialista para analisar grandes volumes de laudos mdicos.

158

Hanauere e colaboradores (2007) desenvolveram e avaliaram uma ferramenta


para identificar casos de diagnsticos de cncer em laudos no estruturados. O
mtodo criado se baseia em um algoritmo que faz uma busca automtica de frases
previamente criadas com sinalizao positiva ou negativa da presena de cncer em
textos no estruturados. Os resultados da pesquisa para um conjunto de 2.200 laudos
mdicos resultou em 100% de sensibilidade e 85% de especificidade indicando ser
adequado para prtica clnica.
importante ressaltar que o uso crescente de novas tecnologias como mtodo
para aquisio e armazenamento de informaes tem favorecido o processo de
gerao de conhecimento (Indurkhya e Zhang 2005). Entretanto, muitas destas
informaes esto armazenadas e representadas em diferentes formatos, sendo o
formato textual no estruturado o mais utilizado (exemplo: laudos mdicos). Entendese que para estas informaes textuais tornarem-se teis necessrio que sejam
representadas de forma que possibilite a extrao de padres e que um modelo de
conhecimento seja construdo. Uma das possibilidades para se atingir esse objetivo
por meio da execuo do processo de minerao de textos (Indurkhya e Zhang 2005).
Rassinoux (2010) realizou uma sntese dos artigos de gesto e representao
do conhecimento selecionados para o IMIA Yearbook 2010. Trs dos quatro trabalhos
objetivaram extrair conhecimento de textos em documentos mdicos no estruturados.
O autor concluiu que a criao de mecanismos automticos para extrao de
conhecimento em grandes volumes de textos em documentos mdicos no
estruturados um grande avano na promoo do compartilhamento e reuso do
conhecimento entre aplicaes e instituies.

Pesquisas Realizadas

Recentemente realizamos dois estudos do uso de tcnicas de minerao de texto e


anlise de agrupamentos com o objetivo de descobrir padres de representao em
um conjunto de laudos de bipsia renal. Estes estudos foram concebidos junto ao
grupo de pesquisa Sade 360, nas reunies sobre sistemas de apoio a deciso,
associado ao Programa de Ps-graduao em Gesto e Informtica em Sade, EPM
UNIFESP. Ambos foram conduzidos como projetos de mestrado, com foco maior da
Amanda Reis da Rocha (2013) para a estruturao eletrnica da base de laudos de
bipsia renal, terminologia e anlise de agrupamentos, e foco da Flvia Pena Nicolas
(2013) na terminologia, reconhecimento de termos controlados e associao

159

estatstica entre as sees do laudo. Os resultados destes estudos visam favorecer


uma compreenso computacional sobre a representao de entidades de laudos de
bipsia renal.
Esta investigao contou com a parceira do Servio de Patologia Renal do
Hospital do Rim e Hipertenso (UNIFESP), representado pelo Prof. Dr. Luiz Antnio
Ribeiro de Moura, que foi o mdico patologista que de fato confeccionou os laudos de
bipsia renal analisados nos estudos, gerando uma base de mais de 18 mil laudos
desde 1993. Ainda, contou com a inestimvel participao do Prof. Dr. Evandro
Eduardo Seron Ruiz, do Departamento de Computao e Matemtica, da Faculdade
de Filosofia, Cincias e Letras de Ribeiro Preto, Universidade de So Paulo (USP),
especialista em tcnicas de minerao de texto e lingustica computacional. Este
estudo tambm contou com a colaborao de Prof. Dr. Joseph J. Abraham,
pesquisador na USP Ribeiro Preto pelo Programa Professor Visitante do Exterior da
CAPES, para a anlise estatstica de correlaes entre as sees do laudo. O
pesquisador associado ao grupo, Alex Esteves Jaccoud Falco, colaborou com a
estruturao eletrnica da base de laudos.
Base de Laudos de Bipsia Renal
Inicialmente uma base eletrnica de laudos foi constituda. Foi realizada uma
estruturao no sistema gerenciados de banco de dados MySQL com informaes
mdicas contidas nos laudos de bipsia renal (a partir de diferentes formatos
eletrnicos) e em pedidos mdicos (no eletrnicos, apenas em papel). Foram
considerados 17.847 laudos incluindo campos como data do exame, material, exame
macroscpico, exame microscpico, imunoflurescncia direta, entre 1 a 6 nveis de
diagnsticos e observao. A leitura deste dados foi realizada a partir de arquivos
eletrnicos do editor de texto AmiPRO por meio de um script em Perl, com exportao
para planilha eletrnica para futuras anlises. Foram tambm considerados 5.704
pedidos mdicos incluindo campos como gnero, regio e estado, idade, cuja leitura
foi realizada manualmente. Ao final, aplicados critrios de excluso de documentos,
que inclui interseo entre laudos e pedidos mdicos e filtros com identificao de se
tratar de material renal e relacionado a transplante, a base final de anlise dos
diagnsticos dos laudos conteve 3.018 documentos mdicos (laudos e seus pedidos
mdicos).
Uma estatstica descritiva (Vieira 1997) foi conduzida a partir da base de laudos
construda. Para os atributos contnuos, como idade no momento do pedido mdico,
foram calculados mdia e desvio padro. Para os atributos categricos, como gnero,

160

regio e diagnsticos, foi calculada distribuio de frequncias. Foi possvel


caracterizar os 3.018 documentos relacionados a 47% de pacientes masculinos e 53%
femininos, com mdia de idade de 38,33 (d.p. 19,78) e 37,15 (d.p. 17,64)
respectivamente. Concluiu-se que as regies do pas apresentam certo equilbrio na
distribuio dos documentos mdicos entre os gneros, uma vez que as diferenas
apresentadas tendem a ser sutis. As idades mdias observadas apresentam um alto
desvio padro, significando uma alta variabilidade entre as idades. O diagnstico nvel
1 mais frequente foi glomrulos dentro dos limites de normalidade; o diagnstico
nvel 2 mais frequente foi o de atrofia tubular focal com fibrose intersticial discreta.
Foi possvel observar que a partir do diagnstico 2 comeam a aparecer documentos
mdicos sem informaes diagnsticas deste nvel, e a partir do diagnstico 3 estas
ocorrncias aumentam significativamente.
Uma tcnica descritiva de anlise de agrupamentos, mais especificamente
agrupamentos de documentos, foi conduzida em duas etapas: pr-processamento da
seo diagnsticos dos laudos e anlise por meio de tcnicas de agrupamento. Foi
necessrio realizar o pr-processamento dos textos para um formato manipulvel por
algoritmos de minerao de texto, aplicando-lhes um processo de tratamento, limpeza
e reduo do volume de textos, porm preservando as caractersticas necessrias
para os objetivos do processo de minerao.
Para o processo de adequao dos textos diagnsticos realizou-se os
seguintes passos:
1. Passo 1: em planilha eletrnica removeu-se os espaos da sequncia de
caracteres dos textos diagnsticos, com exceo dos espaos simples entre as
palavras;
2. Passo 2: ainda em planilha eletrnica removeu-se acentos e cedilhas;
3. Passo 3: esta planilha foi submetida ao software de minerao de dados
RapidMiner para processamento de dados, respeitando a seguinte ordem:
tokenize, transformao do texto para letras em minsculo, remoo de stopwords (palavras frequentes, como artigos, preposies, pontuao, conjunes
e pronomes), aplicao da tcnica de stemming (Porter 2006), gerao de 1grama, exportao para planilha eletrnica;
4. Passo 4: na planilha eletrnica gerada adotou-se uma tcnica de reduo de
palavras da coleo de textos que considerou: extrao das trs primeiras
palavras de cada texto diagnstico, identificao e correo de erros
ortogrficos, de ordem, de acrscimo e de decrscimo de palavras, em
conjunto com especialista, homogeneizao de terminologias como tambm
excluso de palavras no relevantes para o diagnstico.

161

Construo de Taxonomia
A tcnica de minerao de textos possibilitou gerar uma taxonomia em formato de
rvore composta por 206 termos ordenados, ocorrendo 20.599 vezes em 3.018
laudos, de forma que foi possvel observar as relaes de dependncia entre os
termos, como tambm favorecer na classificao dos respectivos laudos. Uma
taxonomia com 206 termos pode ser considerada com alta densidade uma vez que
poucos termos representam um volume de 3.018 documentos. A gerao de uma
nuvem de termos se mostrou adequada para observar graficamente a frequncia e
dinmica de distribuio dos termos. Foi possvel observar tambm as relaes de
dependncia mais frequentes entre termos e diagnsticos.
Para a representao do resultado da adequao dos textos diagnsticos
foram construdas trs vises:

rvore de trs termos: construiu-se uma rvore de trs nveis de termos na


qual para cada n atribuiu-se a ocorrncia dos termos nos textos diagnsticos;

Nuvem de termos: criou-se uma nuvem de termos, por meio do software R (Rproject.org), na qual o tamanho da fonte representa a frequncia dos termos na
coleo de textos. A representao obtida mostra que quanto maior o tamanho
da letra e mais central o termo estiver posicionado, mais frequente ele . E
quanto menor for a letra e mais prximo da margem da nuvem (periferia) o
termo estiver posicionado, menos frequente;

rvore de trs nveis diagnsticos: construiu-se uma rvore, com trs nveis
diagnsticos, na qual em cada n atribuiu-se a ocorrncia de pacientes com os
respectivos diagnsticos concomitantemente.

nuvem

de

palavras

foi

uma

tcnica

utilizada

para favorecer o

reconhecimento, especialmente por parte do especialista, de forma visual, do universo


de estudo (Figura 18). Uma vez que se trata de um grande volume de dados, esta
tcnica, por meio do tamanho das palavras, ressalta os termos em funo da
frequncia em que surgem no documento, mais especificamente, no campo
diagnstico, favorecendo inclusive em propostas de estudos mais aprofundadas sobre
determinados diagnsticos.
Segundo a avaliao do especialista, a nuvem de palavras se mostrou
interessante uma vez que os termos atrofia e tubular encontram-se em maior
evidncia, ou seja, termos usados com maior frequncia na descrio diagnstica.
Para ele, esta forma de representao da informao pode levar a refletir no volume
de casos que apresentam tbulos e interstcios com algum nvel de atrofia, no quanto

162

de massa renal estes indivduos esto perdendo, sendo uma informao fundamental
quando se planeja estratgias teraputicas e quando se pretende apresentar o
prognstico da doena.

Figura 18 - Nuvem de termos referente aos trs primeiros termos dos campos
diagnsticos (Rocha 2013).

Agrupamento de Laudos
Foi utilizado como tcnica de anlise de agrupamento o algoritmo K-means (Tan et al.
2005). Neste algoritmo, primeiramente, o usurio deve escolher o nmero de grupos
(K) desejado. Para cada grupo, um exemplo da base selecionado aleatoriamente
como centride inicial e cada exemplo atribudo ao centride mais prximo. Em
seguida, em cada grupo calculado a mdia das distncias de cada exemplo ao
centride, resultando em um novo centride. Cada exemplo atribudo ao centride

163

mais prximo realocando os exemplos a nova configurao. Este procedimento


repetido at que no haja mais realocao de exemplos. A fim de se obter um K
adequado foram gerados modelos de agrupamento variando K de 2 a 50 grupos. A
escolha da limitao em 50 grupos foi conservadora, considerando que para bases de
dados com uma quantidade de atributos e de exemplos semelhantes, este limite gira
em torno de 10 a 25 grupos (Baarsch e Celebi 2012; Saitta et al. 2007; Ray e Turi
1999). Os modelos foram gerados por meio do software RapidMiner.
Para cada modelo foram coletadas duas medidas de qualidade (Saitta et al.
2007): davies_bouldin e coeficiente Gini. A primeira relaciona a distncia entre os
documentos mdicos atribudos a cada grupo e seu centride (intragrupo) e entre os
centrides dos grupos (intergrupo). Para esta medida, quanto menor o valor
encontrado, melhor definido so os grupos. A segunda medida calcula a distribuio
mdia de exemplos nos grupos. Para esta medida, quanto menor o valor encontrado,
mais homognea a distribuio dos exemplos nos grupos. Assim, para cada modelo,
as duas medidas foram calculadas. Ao final, foram obtidos 49 pares destas medidas,
um para cada valor de K (K variando de 2 a 50). A fim de encontrar o K que
minimizaria os valores para as duas medidas foi aplicada uma equao de menor
distncia no plano euclidiano das duas medidas com a origem, o que resultou K=11.
Portanto, foi possvel caracterizar os 3.018 documentos mdicos em onze
agrupamentos homogneos, sem o conhecimento prvio do especialista. Para cada
agrupamento foi realizada uma anlise descritiva apontando frequncia dos laudos por
gnero e regio, e diagnsticos mais significativos, respeitando-se a estruturao dos
nveis diagnsticos. Estes agrupamentos fornecem uma viso alternativa quando
comparamos a estudos que fazem apenas e exclusivamente contagens por meio de
estatstica descritiva e identificaes e classificaes manuais a partir de
conhecimento prvio e subjetivo.
O uso do algoritmo K-means assim como a tcnica para escolha de k mostrou
ser adequada. Steinbach e colaboradores (Steinbach et al. 2000) concluram que a
aplicao do algoritmo K-means para agrupamento de textos pode igualar ou at
superar o algoritmo de agrupamento hierrquico em relao qualidade dos grupos,
alm de ser muito mais eficiente e amplamente utilizado em minerao de textos.
Anlise da Estrutura Completa do Laudo
Uma segunda abordagem no estudo destes laudos de bipsia renal considerou utilizar
no apenas a identificao do laudo e os nveis diagnsticos, mas todos os demais
campos da estrutura proposta pelo patologista. De fato, todos os termos utilizados nos

164

campos do laudo no podem ser descartados como material significativo para


identificao e descrio de padres de ocorrncia. O objetivo foi tentar encontrar
correlaes entre as diferentes sees do laudo, considerando os campos exame
macroscpico, exame microscpico, imunosfluorescncia direta, diagnsticos (os 6
nveis) e observao. A hiptese de que existe, sim, correlao entre os termos
utilizados nos diferentes campos do laudo em funo de conjuntos similares de
diagnsticos. Apesar de talvez no parecerem bvios tais relaes ao se observar
apenas um laudo, elas podem se destacar a partir de um grande conjunto de
documentos analisados.
Um experimento realizado (Nicolas et al. 2013) teve como objetivo medir os
termos do Descritores em Cincias da Sade (DeCS), extrados do Unified Model
Language System (UMLS) (Bodenreider 2004), que estavam presentes nos laudos de
bipsia renal. Relembrando que DeCS possui 31.580 descritores, sendo 26.936
originrios do Medical Subject Headings (MeSH) e 4.644 exclusivamente DeCS,
representando especificidade provenientes de demandas da Amrica Latina e Caribe,
foi contabilizado para cada documento quais termos DeCS esto presentes em cada
seo do laudo por meio de suas frequncias. Assim, cada laudo foi reduzido a 5
conjuntos separados de termos. Do ponto de vista computacional, a estrutura de cada
laudo foi simplificada e o tamanho do laudo foi reduzido para tornar sua computao
menos intensiva. Uma vantagem extra foi que qualquer correlao entre termos
mdicos pode ser considerada como tendo uma explicao mdica, e no como um
artefato sinttico ou gramatical. Entretanto, vale ressaltar que esta parte do estudo
considerou apenas os termos provenientes do DeCS que esto presentes no laudo e
nenhum outro conhecimento mdico foi agregado.
No total foram encontrados 393 termos DeCS nos laudos. Esses termos foram
filtrados, considerando como relevantes apenas aqueles que aparecem pelo menos 50
vezes. A quantidade de termos DeCS utilizados passou a ser 100. Um trecho do
arquivo resultante apresentado na Tabela 7.
Para inferir se um par de termos est significativamente associado, em uma
mesma seo, algumas etapas foram seguidas. A primeira delas foi a criao de um
script em Python que busca em cada um dos laudos os termos DeCS encontrados
anteriormente e monta uma tabela, atribuindo valor 0 quando o termo no est
presente naquele laudo e valor 1 quando est presente.
Foi utilizado mtodo muito similar ao utilizado por Roque et al. (2011) para
anlise de comorbidade em registros mdicos de pacientes: utilizamos a coocorrncia
dos termos DeCS no mesmo laudo de bipsia renal e aplicamos o teste Fisher Exact
(Benjamini e Hochberg 1995) para calcular a significncia da associao entre pares

165

de termos DeCS. Este teste adequado por revelar a significncia entre as


morbidades (quais as morbidades so realmente relacionadas), ou seja, apresentam
uma relao positiva de significncia de grau elevado e quais as morbidades que no
so relacionadas, ou seja, apresentam uma relao negativa de significncia tambm
de grau elevado. Aps aplicar o teste de Fisher Exact e calcular os p-valores, um
histograma (Figura 1) revelou que a sua distribuio quase uniforme, exceto por um
grande excesso de p-valores baixos (abaixo de 0,1). A fim de reduzir o efeito de falsos
positivos resultantes de associaes a partir de testes de comparaes mltiplas
utilizou-se o procedimento de Benjamini Hochberg (Benjamini Y, Hochberg 1995),
impondo uma taxa de falsa descoberta de 0,01. Aps todos os procedimentos, a
quantidade de associaes que inicialmente era 34.716 passou a ser 2.690.

Tabela 7 - Exemplo de 10 dos 100 termos DeCS encontrados aps a filtragem e suas
frequncias em cada seo e nmero total dos laudos, respectivamente (Nicolas 2013).

Assim, podemos verificar se um dado par de termos possui alguma


ligao/relao em uma determinada seo do laudo e utilizar estas relaes para
uma possvel validao automtica de sees. Quando os termos aparecem em uma
mesma seo (por exemplo, anti-soro e congelao), se tornam teis para
reconhecer uma seo do laudo. Neste exemplo, sempre que ambos aparecerem
trata-se da seo de imunofluorescncia direta. Em alguns casos, os pares de termos
no validam uma seo unicamente, mas sim uma determinada seo com uma
prevalncia, como no caso de medular e neoplasia: quando estes termos
aparecerem, provavelmente trata-se da seo de exame microscpico, porm isso no

166

uma verdade absoluta, uma vez que o par aparece, em menor quantidade, no
diagnstico dos laudos de bipsia renal.
A partir deste estudo foi possvel evidenciar associaes estatisticamente
significativas entre as sees dos documentos. Especificamente, foi possvel mostrar
que a seo de imunofluorescncia direta est fortemente relacionada com o campo
observaes, sugerindo que deve haver redundncia na descrio dos sintomas do
paciente. Ainda, que os diagnsticos esto fortemente correlacionados com as sees
imunofluorescncia direta e exame macroscpico, e pouco com as sees exame
microscpico, cabealho e observaes. As correlaes das estruturas e termos
podem contribuir para o desenho de um sistema de diagnstico baseado em rede
bayesiana.
Classificao Auxiliada pela Terminologia DeCS
Para estas fase do estudo foram utilizados 1.002 laudos completos de bipsia renal,
referente aos anos de 1994 a 2010, obtidos utilizando critrios de aleatoriedade a
partir de uma base contendo 3728 laudos completos. Os classificadores usarsam
termos mdicos como atributos. Com o objetivo de reconhecer os termos mdicos
presentes nos laudos, modelamos um reconhecedor de entidades nomeadas baseado
em dicionrio. Este reconhecedor atua em cada sentena do laudo procurando pelos
termos completos. Como dicionrio utilizamos a terminologia DeCS, extrada do UMLS
(Bodenreider 2004).
Previamente a etapa de reconhecimento de entidades nomeadas, os laudos e
o dicionrio foram pr-processados. Inicialmente os acentos foram removidos e todas
as palavras foram convertidas para letras minsculas. Numa segunda etapa, foi
efetuada a remoo de stop-words, ou seja, palavras muito frequentes, como artigos,
preposies, pontuao, conjunes e pronomes. Por fim adotou-se a estratgia de
stemming (Porter 2006) para a reduo das formas flexionais das palavras dos laudos.
Este pr-processamento visou minimizar o custo e otimizar os resultados do
processamento.
Uma vez que os laudos e dicionrio estavam devidamente pr-processados, foi
calculada a freqncia de cada termo DeCS nos laudos de bipsia renal. Com estes
dados, foi elaborado de maneira automtica um arquivo no formato .arff, em que os
termos DeCS encontrados so os atributos para a classificao e as instncias so a
frequncia dos termos em cada seo dos laudos. Este arquivo foi utilizado como
entrada para cinco algoritmos de classificao, que foram escolhidos com base no
trabalho de Frunza e Inkpen (2010). So estes os algoritmos de classificao

167

experimentados: i) rvores de deciso J48 (modelo baseado em deciso); ii)


bayesiano ingnuo e complement nave bayes (CNB) (modelos probabilsticos); iii)
AdaBoost (modelo de aprendizado adaptativo); e iv) ZeroR (modelo de nica regra).
Todos os classificadores fazem parte da ferramenta Weka. Os treinamentos e testes
foram realizados utilizando a estratgia de 10 folds cross validation (Weiss e Indurkhya
1998).
A principal mtrica de avaliao considerada foi f-measure, que representa a
mdia harmnica entre preciso e revocao, sendo preciso a porcentagem de
sees classificadas corretamente, e revocao a porcentagem de sees
identificadas como relevantes pelo classificador. Esta mtrica considerada adequada
quando o conjunto de dados no est balanceado. Os resultados obtidos foram: J48
93,2; bayesiano ingnuo 90,0; CNB 91,2; AdaBoots 39,2; ZeroR 20,3. Portanto, o
algoritmo de classificao que obteve o melhor desempenho para o problema em
questo foi o modelo de rvores de deciso J48, que, recursivamente, divide os
exemplos em subconjuntos, tentando separar cada classe das demais, seguido pelos
modelos probabilsticos CNB e bayesiano ingnuo, que tambm apresentaram bons
desempenhos. O desempenho do ZeroR pode ser explicado pelo fato do algoritmo
modelar uma base de dados com uma nica regra. Este o algoritmo de
aprendizagem mais antigo do software Weka e, para uma base de dados, onde
ocorrer uma nova classificao, prediz o valor de maior frequncia nos dados de
treinamento (Witten e Frank 1999). Estes modelos de pr-processamento e de
reconhecimento de entidades testados podero ser teis para trabalhar com
enriquecimento automtico de ontologias.
Avaliao por Especialistas
Os resultados obtidos destes estudos mostraram-se satisfatrios pela avaliao de
mdicos especialistas, podendo ser aplicados como base para um sistema de alerta e
correo da escrita do laudo, de forma a indicar possibilidades de combinaes de
termos e combinaes diagnsticas, ajudando no momento da confeco do laudo.
Assim, poderiam auxiliar profissionais, residentes e estudantes da rea de patologia
na confeco de laudos de bipsia, de forma a otimizar o tempo, estimular o uso de
uma linguagem padronizada entre os usurios e tambm sugerir possibilidades de
combinaes de termos e combinaes diagnsticas.
Os resultados tambm podem contribuir para a construo de um sistema de
auditoria para um servio de patologia com o objetivo de descrever o perfil dos
especialistas assim como avaliar os residentes na elaborao dos laudos. Na

168

educao, os resultados deste trabalho podem contribuir para o desenvolvimento de


um sistema educacional, com a navegao pelas rvores de termos e diagnsticos
como num atlas, acessando definies e conhecimento quando o mouse passar sobre
determinada informao. Ainda, os servios solicitantes desses laudos tambm podem
se beneficiar ao reconhecer agrupamentos de pacientes, assim como por meio da
taxonomia, facilitando assim uma melhor compreenso do laudo e do perfil do
paciente.

4.5. Consideraes Finais

Os estudos relatados neste captulo esto orientados anlise de dados, informao e


processos clnicos para o desenvolvimento de sistemas de apoio a deciso em sade.
A aplicao de tcnicas de descoberta de conhecimento e minerao de dados na
rea da sade nem sempre gera uma mudana de procedimento ou de interpretao
por parte de profissionais da sade. Mesmo atraindo o interesse de novos
pesquisadores devido possibilidade de gerar aplicaes computacionais imediatas,
seu cerne reside na identificao e avaliao de padres nos dados clnicos. Quanto
maior incerteza e impreciso destes dados em relao s condies etiolgicas e de
tratamento, mais relevante ser utilizar tcnicas variadas de descoberta de
conhecimento e minerao de dados (lvaro 2007).
Realizamos um estudo relacionado complexidade do diagnstico da doena
celaca em crianas e adolescentes junto ao Ambulatrio de Gastropediatria do
Departamento de Pediatria da UNIFESP. A doena celaca definida como uma
intolerncia permanente ingesto de glten, protena presente no trigo, centeio e
cevada (Rodrigo 2006). O objetivo foi aplicar tcnicas de classificao de padro para
auxiliar no diagnstico de doena celaca, uma vez que este diagnstico trata da
ocorrncia inexata de diferentes sinais e sintomas e geralmente exige que o paciente
se submeta a uma bipsia do intestino delgado para confirmao como exame de
padro-ouro. A partir do Fluxograma para Diagnstico da Doena Celaca (Sociedade
Brasileira de Pediatria 2007), de uma base histrica de atendimentos e da participao
direta de especialistas foi possvel desenvolver um classificador bayesiano que
possibilitou relacionar estes sinais e sintomas e colaborar na indicao de bipsia.
Catassi e Fasano (2010) indicaram que a biopsia tem sido questionada como nico
teste conclusivo para o diagnstico em vrios casos. Os autores sugerem que o
diagnstico da doena celaca deva ser o resultado de uma anlise ampla, em que as

169

manifestaes clnicas, testes sorolgicos e histolgicos, alm da anlise do HLA e


resposta terapia devam ser igualmente avaliados como regras. Nesta perspectiva, as
manifestaes clnicas tm um peso anlogo aos exames invasivos e dispendiosos.
Considerando que a anlise das manifestaes clnicas importante para
desencadear um processo diagnstico, este estudo contribui como uma ferramenta
confivel para anlise dessas manifestaes e indicao de um possvel diagnstico
positivo.
Outro tema que despertou a ateno no grupo de pesquisa foi a classificao
de nefrotoxicidade e rejeio celular para o paciente ps-transplantado renal (Kasiske
et al. 2000). A nefrotoxicidade ocasionada por determinadas substncias que podem
gerar danos nos rins ao nvel glomerular, tubular, intersticial e vascular. O rim tem
caractersticas que o tornam vulnerveis a essas substncias. Danos podem ocorrer
tendo como origem primria o imunossupressor (Solez et al. 1993). Por outro lado, a
rejeio

celular

caracterizada

histologicamente

por

necrose

das

clulas

parenquimatosas, usualmente acompanhada de infiltrado de macrfagos e linfcitos.


Assim, se a dosagem de imunossupressor for alta pode ocasionar em nefrotoxicidade,
se for baixa pode ocasionar numa rejeio celular do enxerto. Realizamos um estudo
com o objetivo de desenvolver um sistema de apoio a deciso clnica para
acompanhamento do paciente a fim de indicar a necessidade de realizar uma bipsia
tendo em vista a identiicao de nefrotoxicidade aos imunossupressores ou a rejeio
celular. A bipsia, neste caso, um procedimento de risco ao ps-transplantado
((Witten e Frank 2005). A partir do estudo de 102 eventos de acompanhamento de 158
transplantados renais foi possvel identificar as variveis clnicas mais relevantes
quanto indicao de bipsia, modelar e avaliar um classificador dos dados clnicos
do paciente para indicao de bipsia. A identificao das variveis mais significativas
neste estudo apresentou boa concordncia com a prtica clnica recomendada
(Bellomo et al. 2004).
O tema transplante renal tambm possibilitou um estudo de minerao de texto
de laudos de bipsia renal junto ao Servio de Patologia Renal do Hospital do Rim e
Hipertenso, UNIFESP. Nosso interesse foi utilizar tcnicas de minerao de texto e
anlise de agrupamentos com o objetivo de descobrir padres de representao em
laudos de bipsia renal. De uma base de 3 mil laudos foi possvel construir uma
taxonomia em formato de rvore com 206 termos ordenados, uma nuvem de termos
para facilitar a observao a frequncia e dinmica de distribuio dos termos e as
relaes de dependncia mais frequentes entre termos e diagnsticos (Reis 2013).
Ainda, uma investigao por meio de anlise de agrupamentos possibilitou a
identificao epidemiolgica de 11 grupos cujas estatsticas descritivas possibilitaram

170

gerar hipteses de relacionamento antes de difcil observao na base original.


Tambm investigamos a presena de termos de vocabulrios controlados, como
DeCS/UMLS, e correlaes entre todos os campos nestes laudos. O arcabouo de
terminologia construdo a partir deste estudo tem potencial de servir de base para a
construo de sistemas aplicados de apoio a deciso. Por exemplo, um sistema de
apoio ao patologista pode indicar durante a confeco de um laudo de bipsia renal as
diretrizes mais adequadas para realizao do diagnstico ou mesmo indicar alertas
sobre situaes que meream reviso. Um sistema de apoio educacional pode
colaborar com a formao de novos patologistas ao indicar o relacionamento de
entidades dos laudos baseado na experincia pregressa. E um sistema de auditoria
pode comparar a qualidade de laudos gerados por diferentes patologistas a partir da
estrutura de descrio e diagnstica anotada.
J nosso estudo sobre a classificao da maturao vertebral cervical para a
rea de ortodontia teve origem mais no processo de diagnstico que propriamente na
incerteza clnica (Ortolani 2005). A avaliao do estgio de crescimento em que um
indivduo se encontra feita por meio de uma radiografia carpal (Greulich e Si 1971).
Contudo, outros mtodos de avaliao da idade ssea tm sido estudados, como a
inspeo das fases de maturao ssea das vrtebras cervicais observadas em
radiografias cefalomtricas laterais, tcnica esta comum na ortodontia (Baccetti et al.
2005). Apesar da validade deste mtodo (Ortolani 2005), apresenta um resultado
subjetivo, dependente de profissionais com larga experincia (Liu et al. 2008), o que
acarreta em alto ndice de discordncia entre examinadores (Thodberg et al. 2009).
Construmos um sistema computacional com o objetivo de colaborar na diminuio
desta discordncia e aumentar sua eficcia. A partir de uma base de 187 radiografias
previamente diagnosticadas, mapas de pontos cefalomtricos foram gerados e
utilizados em um classificador para auxiliar na identificao dos 6 estgios de
maturao. Os resultados mostraram que o sistema desenvolvido colabora
positivamente para a classificao, reproduzindo o comportamento de um examinador
padro-ouro e gerando influncia ao ortodontista usurio do sistema.
Os estudos descritos neste captulo tm em comum o fato de que o processo
de tomada de deciso pelo profissional de sade contem aspectos subjetivos,
imprecisos ou incertos em sua lgica, e sujeitos a uma grande influncia de muitas
variveis. comum o desenvolvimento de sistemas de apoio a deciso em sade para
estes casos. Por vezes, a prpria tomada de deciso do profissional de sade no
expressa por meio de regras lgicas, medidas exatas ou mesmo a partir de
conhecimento proveniente da chamada medicina baseada em evidncias. Assim,
torna-se difcil reproduiz uma boa qualidade assistencial para todos os atendimentos.

171

O paciente sempre nico, especial e interessado em sua condio e tratamento, e o


profissional de sade compreende esta demanda e busca oferecer a melhor
resolubilidade para seu paciente. Nossa inteno em abordar estes estudos se baseia
na crena de que a abordagem da descoberta de conhecimento e minerao de dados
pode produzir um novo conhecimento a partir de situaes incertas e imprecisas e que
colabore diretamente com o profissional de sade em sua tomada de deciso.

4.6. Referncias

Aranaz J, Aibar C, Vitaller J, Ruiz P. National study of adverse events related to


healthcare in hospitals. WHO. 2005.
Arajo TSS. Estudo comparativo entre dois mtodos de estimativa da maturao
ssea [dissertao]. Campinas: Universidade Estadual de Campinas,
Faculdade de Odontologia de Piracicaba, 2001.
Arent S, Mallat M, Westendorp R, van der Woude F, van Es L. Patient survival after
renal transplantation; more than 25 years follow-up. Nephrology Dialysis
Transplantation, 1997; 12(8): 1672-79.
Armond MC. Estimativa do surto de crescimento puberal pela avaliao das vrtebras
cervicais em radiografias cefalomtricas laterais / Estimate of pubertal growth
spurt through of the cervical vertebrae in cephalometric radigraphs. [S.l.]
Universidade Estadual Paulista. Faculdade de Odontologia de So Jos dos
Campos, 2000.
Baarsch J, Celebi ME. Investigation of internal validity measures for K-Means
clustering. Proceedings of the international multiconference of engineers and
computer scientists 2012, p. 471476, 2012.
Baccetti T, Franchi L, Mcnamara JAJr. An improved version of the cervical vertebral
maturation (CVM) method for the assessment of mandibular growth. The
Angle Orthodontist, v. 72, n. 4, p. 316-323, ago. 2002.
Banerjee R, Das A, Ghoshal UC, Sinha M. Predicting mortality in patients with cirrhosis
of liver with application of neural network technology. J Gastroenterol
Hepatol.2003; 18: 105460.
Bangor A, Kortum P, Miller J. Determining what individual SUS scores mean: adding
an adjective rating scale. Journal of Usability Studies, 2009 May: 4(3): 114-23.
Baptista RS. Desenvolvimento e Avaliao de um Sistema de Apoio Deciso Clnica
para Anlise do Crescimento Facial pelo Mtodo de Maturao Vertebral

172

Cervical. So Paulo. Dissertao [Mestrado em Gesto e Informtica em


Sade] - UNIFESP; 2012.
Baranauskas JA, Monard MC. Metodologias para a seleo de atributos relevantes
[Internet]. 1998 [citado 2010 Set 7]. Disponvel em: http://www.icmc.usp.br/
~mcmonard/public/sbia1998.pdf.
Barnett GO, Cimino JJ, Hupp JA, Hoffer EP. Dxplain: an evolving diagnostic decisionsupport system. JAMA. 1987 Jul; 258: 67-74.
Bellomo R, Ronco C, Kellum JA, et al. Acute renal failure definition, outcome
measures, animal models, fluid therapy and information technology needs: the
second international consensus conference of the Acute Dialysis Quality
Initiative (ADQI) group. Critical Care, 2004, 8:R204-R212
Ben-David A. Comparison of classification accuracy using cohens weighted kappa.
Expert Systems with Applications, v. 34, n. 2, p. 825-832, February 2008.
Benjamini Y, Hochberg Y. Controlling the false discovery rate: a practical and powerful
approach to multiple testing. J R Stat Soc Series B Stat Methodol 57: 289
300, 1995.
Berg M. Rationalizing medical work: decision support techniques and medical
practices. [S.l.] The MIT Press, 1997.
Berner ES, Houston TK, Ray MN, Allison JJ, Heudebert GR, Chatham WW, et al.
Improving ambulatory prescribing safety with a handheld decision support
system:

randomized

controlled

trial.

Am

Med

Inform

Assoc.

2006;13(2):171-9.
Berner ES, La Lande TJ. Overview of clinical decision support systems. In: Clinical
decision support systems: theory and practice. 2a ed. New York: Springer;
2007. p. 3-22.
Berner ES. Clinical decision support systems: theory and practice. New York: Springer.
1999.
Bittencourt ZZLC, Alves FG, Mazzali M, Santos NR. Quality of life in renal transplant
patients: impact of a functioning graft. Rev. Sade Pblica. 2004 Oct; 38(5):
732-34.
Bodenreider O. The Unified Medical Language System (UMLS): integrating biomedical
terminology. Nucleic Acids Research, 32(suppl.1):D267D270, January 2004.
Bouchon-Meunier B. Uncertainty Management in Medical Applications. In: Akay, M.
(Ed.), Nonlinear Biomedical Signal Processing: Fuzzy Logic, Neural Networks,
and New Algorithms. New York: IEEE Press, 2000; 1:1-26.
Brooke J. SUS - A quick and dirty usability scale. [Internet] 1986. [cited 2008 Jul 1].
Available from: http://www.usability.gov.

173

Caocci G, Baccoli R, Vacca A, et al. Comparison between an artificial neural network


and logistic regression in predicting acute graft-vs-host disease after unrelated
donor hematopoietic stem cell transplantation in thalassemia patients.
Experimental Hematology. 2010 5;38(5):426-33.
Caruana R, Sa V. Benefitting from the variables that variable selection discards. JMLR,
2003: 3:1245-64.
Castelo A, Pessa MG, Barreto TCBB, Alves MRD, Arajo DV. Estimativas de custo
da hepatite crnica B no sistema nico de sade Brasileiro em 2005. Rev.
Assoc. Med. Bras. 2007;53(6): 486-91.
Catassi C, Fasano A. Celiac disease diagnosis: simple rules are better than
complicated algorithms. Am J Med. 2010 Aug;123(8):691-3.
Cazzaniga M, Salerno F, Borroni G, Ceriani R, Stucchi G, Guerzoni P, et al. Prediction
of asymptomatic cirrhosis in chronic hepatitis C patients: accuracy of artificial
neural

networks

compared

with

logistic

regression

models.

Eur

Gastroenterol Hepatol. 2009 Jun;21(6):681-7.


Chen LL. et al. Quantitative cervical vertebral maturation assessment in adolescents
with normal occlusion: a mixed longitudinal study. American Journal of
Orthodontics and Dentofacial Orthopedics: Official Publication of the American
Association of Orthodontists, Its Constituent Societies, and the American
Board of Orthodontics, v. 134, n. 6, p. 720.e1-720.e7; discussion 720-721,
dez. 2008.
Chu A, Ahn H, Halwan B, Kalmin B, Artifon EL, Barkun A, et al. A decision support
system to facilitate management of patients with acute gastrointestinal
bleeding. Artif Intell Med. 2008 Mar;42(3):247-59.
Cohen J. Weighted kappa: nominal scale agreement with provision for scaled
disagreement or partial credit. Psychological Bulletin, v. 70, p. 213-&, 1968.
Costa JCGD, Almeida RMVR, Infantosi AFC, Suassuna JHR. A heuristic index for
selecting similar categories in multiple correspondence analysis applied to
living donor kidney transplantation. Computer Methods and Programs in
Biomedicine. 2008 June; 90(3): 217-29.
de Dombal FT, Leaper DJ, Staniland JR, McCann AP, Horrocks JC. Computer-aided
Diagnosis of Acute Abdominal Pain. British Medical Journal. 1972 Apr
1;2(5804):913.
Denekamp Y. Clinical decision support systems for addressing information needs of
physicians. Isr Med Assoc J. 2007;9(11):771-6.

174

Duarte HEM. et al. Effect of image compression of digital lateral cephalograms on the
reproducibility of cephalometric points. Dentomaxillofacial Radiology, v. 38, n.
6, p. 393-400, 1 set. 2009.
Duda RO, Hart PE, Stork DG. Pattern Classification. 2. ed. [S.l.] Wiley-Interscience,
2000.
Fasano A, Catassi C. Current approaches to diagnosis and treatment of celiac disease:
an evolving spectrum. Gastroenterology. 2001;120:63651.
Fasano A. Surpresas da doena celaca. Scientific American Brasil. 2009 Set
8;(88):404.
Ferraz FHRP. et al. Perfil das doenas glomerulares em um hospital pblico do Distrito
Federal. Jornal Brasileiro de Nefrologia, v. 32, n. 3, setembro. 2010.
Firouzi F, Rashidi M, Hashemi S, Kangavari M, Bahari A, Daryani NE, et al. A decision
tree-based approach for determining low bone mineral density in inflammatory
bowel disease using WEKA software. Eur J Gastroenterol Hepatol. 2007
Dec;19(12):1075-81.
Fishman LS. Radiographic evaluation of skeletal maturation. A clinically oriented
method based on hand-wrist films. The Angle Orthodontist, v. 52, n. 2, p. 88112, abr. 1982.
Fitzwater DS, Brouhard BH, Garred D, Cunningham RJ 3rd, Novick AC, Steinmuller D.
The outcome of renal transplantation in children without prolonged pretransplant dialysis. Clin Pediatr 1991;30:148-52.
Forman L, Lucey M. Predicting the prognosis of chronic liver disease: an evolution from
Child to MELD. Hepatology. 2001; 33: 4735.
Freeman Jr RB, Edwards EB. Liver transplant waiting time does not correlate with
waiting list mortality: implications for liver allocation policy liver transplantation.
2000 Sep; 6(5): 543-52.
Frunza O, Inkpen D. Extraction of Disease-Treatment Semantic Relations from
Biomedical Sentences, Proceedings of the 2010 Workshop on Biomedical
Natural Language Processing, ACL 2010, pages 9198, Uppsala, Sweden, 15
July 2010.
Fryer J, Pellar S, Ormond D, Koffron A, Abecassis M. Mortality in candidates waiting
for combined liver-intestine transplants exceeds that for other candidates
waiting for liver transplants. Liver Transplantation. 2003 Jul; 9(7): 748-53.
Galvo LC, Melo SBC, Fernandes MM, Peres L, Troncon LA, Melo EV. Celiac disease
prevalence in blood donors and clinical aspects of the patients in Ribeiro
Preto-Brazil. J Pediatr Gastroenterol Nutr Suppl. 2004 Jun;39:S227-S8.

175

Generoso R. Avaliao radiogrfica comparativa das fases de maturao das


vrtebras cervicais em pacientes com padro classe I e classe II esquelticos.
Tese (Doutorado em Odontologia) - Universidade Estadual Paulista.
Faculdade de Odontologia de So Jos dos Campos, 2002.
Generoso R. et al. Estudo da correlao entre aidadecronolgica e a maturao das
vrtebras cervicais em pacientes em fase de crescimento puberal. Revista
Dental Press Ortodontia e Ortopedia Facial, v. 8, n. 4, p. 19-36, 25 ago. 2003.
Ghoshal UC, Das A. Models for prediction of mortality from cirrhosis with special
reference

to

artificial

neural

network:

critical

review.

Hepatology

International. 2008; 2: 31-8.


Gilthorpe MS, Maddick IH, Petrie A. Introduction to bayesian modelling in dental
research. Community Dental Health, v. 17, n. 4, p. 218-221, dez. 2000.
Greulich WW, Pyle SI. Radiographic atlas of skeletal development of hand wrist. 2nd.
ed. [S.l.] Stanford University Press, 1971
Grossi E, Mancini A, Buscema M. International experience on the use of artificial neural
networks in gastroenterology. Dig Liver Dis. 2007 Mar;39(3):278-85.
Gu Y, McNamara JA. Mandibular growth changes and cervical vertebral maturation. a
cephalometric implant study. The Angle orthodontist, v. 77, n. 6, p. 947-953,
nov. 2007.
GuyonI, Elisseeff A. An introduction to variable and feature selection. J. Mach. Learn.
Res. 2003 March; 3: 1157-82.
Hanauer DA. et al. The registry case finding engine: an automated tool to identify
cancer cases from unstructured, free-text pathology reports and clinical notes.
Journal of the American College of Surgeons, v. 205, n. 5, p. 690697, nov.
2007.
Hassel B, Farman AG. Skeletal maturation evaluation using cervical vertebrae.
American Journal of Orthodontics and Dentofacial Orthopedics, v. 107, n. 1, p.
58-66, jan. 1995.
Haykin S. Neural networks: a comprehensive foundation. Upper Saddle River: Prentice
Hall. 1999.
Hill ID, Dirks MH, Liptak GS, Colletti RB, Fasano A, Guandalini S, et al. Guideline for
the diagnosis and treatment of celiac disease in children: recommendations of
the North American Society for Pediatric Gastroenterology, Hepatology and
Nutrition. J Pediatr Gastroenterol Nutr. 2005 Jan;40(1):1-19.
Honorato DF. Metodologia para mapeamento de informaes no estruturadas
descritas em laudos mdicos para uma representao atributo-valor.

176

DissertaoUniversidade de So Paulo - So Carlos: Instituto de Cincias


Matemticas e da Computao ICMC-USP, 2008.
Horowitz N, Moshkowitz M, Halpern Z, Leshno M. Applying data mining techniques in
the development of a diagnostics questionnaire for GERD. Dig Dis Sci. 2007
Aug;52(8):1871-8.
Hummel AD, Maciel RF, Rodrigues RGS, Pisa IT. Application of artificial neural
networks in renaltransplantation: classification of nephrotoxicity and acute
cellular rejection episodes. Transplant. Proc. 2010 Mar;42(2):471-72.
Hummel AD, Maciel RF, Sousa FS, et al. Artificial intelligence techniques: predicting
necessity for biopsy in renal transplant recipients suspected of acute cellular
rejection or nephrotoxicity. Transplantation Proceedings, 2011 May; 43 (4):
1343-44.
Indurkhya N, Zhang T. Text mining: predictive methods for analyzing unstructured
information. [s.l.] Springer, 2005.
Infante-Rivard C, Esnaola S, Villeneuve J-P. Clinical and statistical validity of
conventional prognostic factors in predicting short-term survival among
cirrhotics. Hepatology. 1987;7(4):6604.
John GH, Langley P. Estimating continuous distributions in bayesian classifiers.
Proceedings of Eleventh Conference on Uncertainty in Artificial Intelligence
1995:1:338-45.
Kasiske BL, Vazquez MA, Harmon WE, et al. Recommendations for the outpatient
surveillance of renal transplant recipients. J Am Soc Nephrol 11:S1-S86,
2000.
Kim WR, Therneau TM, Benson JT, Kremers WK, Rosen CB, Gores GJ, Dickson ER.
Deaths on the liver transplant waiting list: an analysis of competing risks.
Hepatology. 2006; 43(2): 345-51.
Kirk

AD,

Mannon

RB,

Swanson

SJ,

Hale

DA.

Strategies

for

minimizing

immunosuppression in kidney transplantation. Transplant International, 2005


Jan; 18(1):214
Kohavi R, John GH. Wrappers for feature subset selection. Artificial Intelligence.
1997;97(12):273324.
Korbet SM. et al. The racial prevalence of glomerular lesions in nephrotic adults.
American journal of kidney diseases: the official journal of the National Kidney
Foundation, v. 27, n. 5, p. 647651, maio. 1996.
Kruskal WH, Wallis WA. Use of ranks in one-criterion variance analysis. Journal of the
American Statistical Association, 1952 Dec;47(260): 583-621.

177

Kss R, Bourget P. An illustrated history of organ transplantation: the great adventure


of the century. France: Laboratoires Sandoz, 1992.
Lahner E, Grossi E, Intraligi M, Buscema M, Corleto VD, Delle Fave G, et al. Possible
contribution of artificial neural networks and linear discriminant analysis in
recognition of patients with suspected atrophic body gastritis. World J
Gastroenterol. 2005 Oct 7;11(37):5867-73.
Lamparski DG. Skeletal age assessment utilizing cervical vertebrae [dissertation].
Pittsburgh: University of Pittsburgh, Faculty of the School of Dental Medicine,
1972.
Landis JR, Koch GG. The measurement of observer agreement for categorical data.
Biometrics, v. 33, n. 1, p. 159-174, March 1977.
Lazzaretti CT. Ddiva da contemporaneidade: doao de rgos em transplante
intervivos. Epistemo-somtica. 2007 Jul; 4(1):50-61.
Leeds JA, Hopper AD, Sanders DS. Coeliac disease. Br Med Bull. 2008;88(1):157-70.
Lin RH, Chuang CL. A hybrid diagnosis model for determining the types of the liver
disease. Comput Biol Med. 2010 Jul;40(7):665-70.
Lin RH. An intelligent model for liver disease diagnosis. Artif Intell Med.2009
Sep;47(1):53-62.
Liu J. et al. Automatic bone age assessment based on intelligent algorithms and
comparison with TW3 method. Comput Med Imaging Graph, v. 32, p. 678-84,
2008.
Maciel RF, Hummel AD, Cohrs FM, Mancini F, Falco AEJ, Teixeira FO, Costa TM,
Sousa FS, Alves D, Miranda R, Pisa IT. Aplicao de tcnicas de inteligncia
artificial

em

transplantes

renais:

classificadores

automticos

para

nefrotoxicidade e rejeio celular aguda. Journal of Health Informatics. 2010


Jul: 2: 72-9.
Marinho A. A study on organ transplantation waiting lines in Brazil's Unified National
Health System. Cadernos de Sade Pblica. 2006 Oct; 22(10): 2229-39.
Maslekar S, Gardiner AB, Monson JRT, Duthie GS. Artificial neural networks to predict
presence of significant pathology in patients presenting to routine colorectal
clinics. Colorectal Disease. 2010;12(12):12549.
Massad E. A teoria bayesiana no diagnstico mdico. In: Massad E, Menezes RX,
Silveira PSP, Ortega NRS. Mtodos quantitativos em medicina. Barueri (SP):
Manole; 2004. p. 189-205.
Mierswa I, Wurst M, Klinkenberg R, Scholz M, Euler T. YALE: Rapid prototyping for
complex data mining tasks. In: Proceedings of the 12th ACM SIGKDD

178

International Conference on Knowledge Discovery and Data Mining. New


York: ACM Press. 2006; 935940.
Miller RA, McNeil MA, Challinor SM, Masarie FE, Myers JD. The INTERNIST-1/Quick
medical reference project: status report. West J Med, 145: 816-22, 1986.
Miller RA, Pople HE, Myers JD. INTERNIST-1: An experimental computer-based
diagnostic consultant for general internal medicine. N Engl J Med, 1982; 307:
468-76.
Mohamad HH. Fundamentals of artificial neural networks. Cambridge: MIT Press.
1995.
Morales JM. Immunosuppressive treatment and progression of histologic lesions in
kidney allografts. Kidney International. Kidney Int Suppl. 2005 Dec; 99: 12430.
Murugan R, Venkataraman R, Wahed AS, Elder M, Hergenroeder G, Carter M,
Madden NJ, Powner D, Kellum JA, HIDonOR Study Investigators. Increased
plasma interleukin-6 in donors is associated with lower recipient hospital-free
survival after cadaveric organ transplantation. Critical Care Medicine. 2008
Jun; 36(6): 1810-16.
Musen MA, Shahar Y, Shortliffe EH. Clinical decision-support systems. In: Shortliffe
EH, Cimino JJ. Biomedical Informatics: Computer Applications in Health Care
and Biomedicine. 3a ed. New York: Springer; 2006. p. 698-736.
Nicolas FP, Abraham KJ, Reis AR, Pisa IT, Ruiz EES. Avaliao de tcnicas de
aprendizado de mquina para classificao de sees de laudos de bipsia
renal auxiliada pela terminologia DeCS. In: XII Workshop de Informtica
Mdica, Anais do XXXII Congresso da Sociedade Brasileira de Computao,
Curitiba, PR, 16-19 de julho de 2012.
Nielsen, J. (2003). Usability 101: Introduction to usability. 2003. [text on the Internet].
[cited

2008

Jul

1].

Available

from:

http://www.useit.com/alertbox/20030825.html.
Niemeijer M. et al. Assessing the skeletal age from a hand radiograph: automating the
Tanner-Whitehouse method. Proceedingsof SPIE, v. 5032, n. 1, p. 1197-1205,
16 Mai. 2003.
Nilsson JM, Ohlsson M, Hoglund P, et al. Artificial neural networks - a method for
optimal donor-recipient matching. large scale simulation of survival after heart
transplantation. The Journal of Heart and Lung Transplantation. 2010
Feb;29(2, Supplement 1):S29.
Nilsson JM, Ohlsson M, Hoglund P, et al. Virtual Cross-Matching in Heart
Transplantation:

Large

Scale

Simulation

of

Survival

after

Heart

179

Transplantation Using Artificial Neural Networks. The Journal of Heartand


Lung Transplantation. 2009 Feb;28(2, Supplement 1):S231-32.
Oliveira RP, Sdepanian VL, Barreto JA, Cortez AJ, Carvalho FO, Bordin JO, et al. High
prevalence of celiac disease in Brazilian blood donor volunteers based on
screening by IgA antitissue transglutaminase antibody. Eur J Gastroenterol
Hepatol. 2007 Jan;19(1):43-9.
Ortolani C. Pergunte a um expert. Dental Press OrtodOrtop Facial, Maring, v. 4, n. 1,
2005.
ztekin A, Delen D, Kong ZJ. Predicting the graft survival for heart-lung transplantation
patients: anintegrated data mining methodology. Int J Med Inform. 2009
Dec;78(12):84-96.
Pace F, Riegler G, de Leone A, Pace M, Cestari R, Dominici P, et al. Is it possible to
clinically differentiate erosive from nonerosive reflux disease patients? A study
using an artificial neural networks-assisted algorithm. Eur J Gastroenterol
Hepatol. 2010 Oct;22(10):1163-8.
Patel S, Cassuto J, Orloff M, Tsoulfas G, Zand M, Kashyap R, et al. Minimizing
morbidity of organ donation: analysis of factors for perioperative complications
after living-donor nephrectomy in the United States. Transplantation. 2008
Feb; 85(4): 561-65.
Perez RV, Matas AJ, Gillingham KJ, Payne WD, Canafax DM, Dunn DL, Gores PF,
Sutherland DE, Najarian JS. Lessons learned and future hopes: three
thousand renal transplants at the University of Minnesota. Clin Transpl. 1990:
217-31.
Perosa M, Genzini T, Gil AO, Goldestein PJG, Pandullo F, Fornasari G, et al.
Transplante de pncreas isolado (rgo total) com drenagem vesical: relato
do primeiro caso do Brasil. Arq Bras Endocrinol Metab 1999; 43 (5): 393-8.
Perosa M, Genzini T. Pancreaskidney transplantation in Brazil: current difficulties and
perspectives. Tranplant Proc 1999; 31(7): 3005-6.
Pidala J, Anasetti C, Kharfan-Dabaja MA, et al. Decision Analysis of Peripheral Blood
versus Bone Marrow Hematopoietic Stem Cells for Allogeneic Hematopoietic
Cell Transplantation. Biology of Blood and Marrow Transplantation. 2009
Nov;15(11):1415-21.
Plackett RL. Karl Pearson and the Chi-Squared test. International Statistical Review /
Revue Internationale de Statistique. 1983 Apr:51(1): 59-72.
Polito MG. Perfil antomo-clnico das doenas renais no Brasil: uma reviso de 9.917
bipsias renais. Dissertao - Universidade Federal de So Paulo - UNIFESP:
Escola Paulista de Medicina - So Paulo, 2008.

180

Porter M. The Porter Stemming Algorithm [Internet]. [cited 2007 Oct 21]. Last update:
2006 Jan. Available from: http://tartarus.org/~martin/PorterStemmer.
Quinlan JR. Induction of decision trees, Machine Learning. 1986: 1(1): 81106.
Rassinoux AM. Section Editor for the IMIA yearbook section on knowledge
representation

and

management.

Knowledge

representation

and

management: transforming textual information into useful knowledge.


Yearbook of medical informatics, p. 6467, 2010.
Ray S, Turi RH. Determination of number of clusters in k-means clustering and
application in colour image segmentation proceedings of the 4th international
conference on advances in pattern recognition and digital techniques
[Internet].

1999

[Acesso

em:

19

jun.

2013].

Disponvel

em:

http://www.csse.monash.edu.au/~roset/papers/cal99.pdf.
Reunanen J. Overfitting in making comparisons between variable selection methods.
JMLR 2003: 3:1371-82.
Rocha AR. Aplicao de tcnicas de minerao de textos para categorizao de
diagnsticos em laudos de bipsias renais. So Paulo. Dissertao [Mestrado
em Gesto e Informtica em Sade] - UNIFESP; 2013.
Rodrigo L. Celiac disease. World J Gastroenterol. 2006; 12(41): 6585-93.
Roque FS, Jensen PB, Schmock H, Dalgaard M, Andreatta M, et al. Using electronic
patient records to discover disease correlations and stratify patient cohorts.
PLoS Comput Biol 7(8): e1002141. doi:10.1371/journal.pcbi.1002141. 2011.
Rosenblatt F. The perceptron: a probabilistic model for information storage and
organization in the brain. Psychological Review. 1958:3(6):386-408.
Rosner B. Fundamentals of biostatistics. 6th ed. Boston: Duxbury Press; 2006.
Sadeghi S, Barzi A, Sadeghi N, King B. A Bayesian model for triage decision support.
Int J Med Inform. 2006 May;75(5):403-11.
Saitta S, Raphael B, Smith IF. A bounded Index for cluster validity proceedings of the
5th international conference on machine learning and data mining in pattern
recognition [Internet]. 2007 [Acesso em: 17 June, 2013] MLDM 07.Berlin,
Heidelberg: Springer-Verlag. Disponvel em: http://dx.doi.org/10.1007/978-3540-73499-4_14.
Santos ECA. et al. Evaluation of the reproducibility of the method of determination of
the skeletal maturation by cervical vertebrae. Revista Dental Press de
Ortodontia e Ortopedia Facial, v. 10, n. 2, p. 62-68, abr. 2005.
Sdepanian VL, Fagundes-Neto U. Doena inflamatria intestinal. In: Carvalho ES,
Carvalho WB. Teraputica e prtica peditrica. 2a ed. So Paulo: Atheneu;
2001. p. 683-91.

181

Sdepanian VL, Morais MB, Fagundes-Neto U. Doena celaca: a evoluo dos


conhecimentos desde sua centenria descrio original at os dias atuais.
Arq Gastroenterol. 1999;36:244-57.
Setty M, Hormaza L, Guandalini S. Celiac disease: risk assessment, diagnosis, and
monitoring. Mol Diagn Ther. 2008;12(5):289-98.
Shapiro SS, Wilk MB. An analysis of variance test for normality (complete samples).
Biometrika, 1965;52(3-4):591-611.
Shortliffe EH. Computer-based medical consultation. New York: Elsevier/North
Holland.1976.
Shortliffe EH. Testing reality: the introduction of decision-support technologies for
physicians. Methods of Information in Medicine, v. 28, n. 1, p. 1-5, jan. 1989.
Sigulem, D. Um novo paradigma de aprendizado na prtica mdica da UNIFESP/EPM.
So Paulo. Tese [livre-docncia] - Universidade Federal de So Paulo/Escola
Paulista de Medicina. 1997.
Silva R. LEPIDUS: sistema especialista em medicina geral. Ribeiro Preto:
Universidade de So Paulo. 2000.
Sociedade Brasileira de Nefrologia. Consenso Brasileiro de Glomerulopatias, v. XXVI,
n. 1, p. 6, maio de. 2005.
Sociedade Brasileira de Pediatria. Protocolo clnico e diretrizes da doena celaca Documento Cientfico. Rio de Janeiro: Sociedade Brasileira de Pediatria;
2007.
Solez K, Axelsen RA, Benediktsson H, et al.International standardization of criteria for
the histologic diagnosis of renal allograftrejection: the banff working
classification of kidney transplant pathology. Kidney Int.1993 Aug;44(2):41122.
Sollid LM. Celiac disease as a model of gastrointestinal inflammation. J Pediatr
Gastroenterol Nutr. 2005 Apr;40 Suppl 1:S41-2.
Starzl TE, Klintmalm GB, Porter KA, Iwatsuki S, Schrter GP. Liver transplantation with
use of cyclosporin a and prednisone. N Engl J Med. 1981 Jul 30; 305(5): 26669.
Tacconi MRO, Lee MP, Gomes AEO, et al. Transplante de pncreas: relato de caso e
reviso da literatura. Rev Medicina 1997; 76 (4): 235-48.
Tanner J. et al. Assessment of skeletal maturity and prediction of adult height (TW3)
Method. 3. ed. [S.l.] Saunders Ltd., 2001.
Tanner J. et al. Assessment of skeletal maturity and prediction of adult height (TW2
Method). 2. ed. [S.l.] Academic Press, 1975.

182

Tenrio JM, Sdepanian VL, Pisa IT, Amaral MB. Desenvolvimento e avaliao de um
protocolo eletrnico para atendimento e monitoramento do paciente com
doena celaca. In: XI Congresso Brasileiro de Informtica em Sade - CBIS
2008, Anais do XI Congresso Brasileiro de Informtica em Sade. Sociedade
Brasileira de Informtica em Sade SBIS, Ribeiro Preto 2008, SP.
Tenrio JM. Aplicao de Tcnicas de Inteligncia Artificial ao Desenvolvimento de um
Sistema de Apoio Deciso para Doena Celaca. So Paulo. Dissertao
[Mestrado em Cincias - Informtica em Sade] - UNIFESP; 2011.
Theodoridis S, Koutroumbas K. Pattern Recognition. Fourth Edition. 4. ed. [S.l.]
Academic Press, 2008.
Thodberg HH, et al. The BoneXpert method for automated determination of skeletal
maturity. IEEE Trans Med Imaging, v. 28, p. 52-66, 2009.
Torres MI, Lpez Casado MA, Ros A. New aspects in celiac disease. World J
Gastroenterol. 2007;13(8):1156-61.
Vafai H, Jong KD. Genetic algorithms as a tool for feature selection in machine
learning. In: Proceedings 4th International Conference on Tools with Artificial
Intelligence. Rockvill: IEEE Computer Society Press, 1992: 200-203.
Vieira S. Introduo Bioestatstica. [s.l.] Elsevier Brasil, 1997.
Viera AFG, Virgil J. Uma reviso dos algoritmos de radicalizao em lngua portuguesa
[Internet].

Disponvel

em:

<http://informationr.net/ir/12-3/paper315.html>.

Acesso em: 23 jun. 2012. Vol. 12 No. 3, April 2007.


Wang CH, Mo LR, Lin RC, et al. Artificial neural network model is superior to logistic
regression model in predicting treatment outcomes of interferon-based
combination therapy in patients with chronic hepatitis C. Intervirology. 2008;
51:14-20.
Weiss SM, Indurkhya N, Predictive Data Mining: A Practical Guide, MK, San Francisco,
CA, 1998.
Witten IH, Frank E. Data Mining: practical machine learning tools and techniques with
Java implementations. San Francisco, 1999.
Witten IH, Frank E. Data Mining: practical machine learning tools and techniques. 2nd
ed. San Francisco: Morgan Kaufmann; 2005.
Wolfe RA, Ashby VB, Milford EL, et al. Comparison of mortality in all patients on
dialysis, patients on dialysis awaiting transplantation, and recipients of a first
cadaveric transplant. N Eng J Med 1999; 314:1725-30.
Yang J, Nugroho AS, Yamauchi K, Yoshioka K, Zheng J, Wang K, et al. Efficacy of
interferon treatment for chronic hepatitis C predicted by feature subset
selection and support vector machine. J Med Syst. 2007 Apr;31(2):117-23.

183

5.

INFORMTICA PARA A GESTO EM SADE

A gesto em sade pode ser definida como uma rea que compreende atividades de
formao, implementao e avaliao de polticas, instituies, programas, projetos e
servios de sade, bem como a conduo, gesto e planejamento de sistemas e
servios de sade (DeCS goo.gl/gHaLbl). A nomenclatura informtica para a gesto
em sade representa, portanto, um esforo em fundamentar, planejar, desenvolver,
implantar e avaliar modelo e tcnicas da rea da informtica para aplicao nos
diferentes aspectos da gesto em sade. Inclui em seu escopo abordagens da
chamada informtica da sade pblica (public health informatics) como definida por
Kulikowski et al. (2012), que tambm por vezes denominada informtica
populacional ou informtica da sade global, mas no se restringe a aplicaes de
sade pblica.
Esta subrea tem foco na anlise do uso da informtica na perspectiva do
gestor e suas necessidades de informao, estudos e mtodos para tornar a
informao acessvel ao gestor, e modelos e integrao de preferncias do gestor em
sistemas de informao em sade. Informtica para a gesto em sade se situa no
cruzamento de diferentes disciplinas como informtica, sade pblica, promoo da
sade, cincia da informao e documentao, economia em sade e governana de
tecnologia da informao e comunicao.
Este captulo

apresenta 4

temas

que

representam um esforo

de

desenvolvimento cientfico e tecnolgico na rea da informtica para a gesto em


sade:
1. investigao do uso de anlise de agrupamentos (clusterizao) para
identificao de perfil de idosos para auxiliar na promoo em sade;
2. estudo sobre a classificao de internaes hospitalares da regio de Ribeiro
Preto usando o modelo de diagnosis related groups (DRGs);
3. anlise de agrupamentos de normas e recomendaes a serem utilizadas por
hospitais em seus sistemas de informao em sade; e
4. avaliao do programa de telessade da Rede Universitria de Telemedicina
(RUTE) considerando eixos de ensino, pesquisa e inovao, assistncia,
gesto e sociedade.
Nosso objetivo ao realizar estes estudos no grupo de pesquisa foi aplicar
tcnicas de anlise de dados e agrupamentos para apresentar uma viso diferente
sobre os resultados e impactos de programas de promoo em sade ou de aes da

184

sade pblica. Por exemplo, acreditamos que os resultados de uma anlise de


agrupamento em bases de dados formais pode funcionar como um gerador de
hipteses, no-inferencial, que tem potencial de colaborar na identificao de quais
caminhos de investigao merecem ser percorridos em detrimento de outros. Um
outra viso praticada considera a busca por modelos de maturidade, subsidiadas por
mtricas (rankings) e/ou homogeneidades, que possam colaborar com o gestor na sua
definio de prioridades para obter uma evoluo desejada.
As sees apresentam literatura da rea, expondo resultados significativos,
suas tcnicas e abordagens, e acompanha uma descrio resumida dos estudos
realizados

pelo

pesquisador

nos

temas

relacionados.

Esto

indicados

os

colaboradores que atuaram nos estudos aqui apresentados.

5.1. Anlise de Cluster em Epidemiologia

Colaboraram com estes estudos


Frederico Molina Cohrs, Luiz Roberto Ramos,
Anlise de cluster, ou clusterizao, uma tcnica de minerao de dados, um
mtodo no supervisionado de classificao (observaes, dados, ou vetores de
caractersticas) em grupos denominados clusters (Roiger e Geatz 2003), um processo
de agrupar um conjunto de dados fsicos ou objetos abstratos em classes de objetos
similares. Um cluster uma coleo de dados semelhantes, mas diferentes dos
objetos pertencentes aos outros clusters (Han e Kamber 2006). Problemas de
clusterizao tem sido abordados em diversos contextos e por pesquisadores em
muitas disciplinas, o que reflete o seu grande apelo e utilidade como uma das etapas
na anlise exploratria de dados, carregando o peso de ser em si um problema difcil
combinatorialmente, com diferentes pressupostos (Kotler e Keller 2006). Em
epidemiologia a clusterizao pode ser utilizada para analisar uma srie de eventos
bem agrupados ou casos de doena ou fenmeno de sade relacionados com outros
padres de distribuio bem definidos em relao ao tempo ou lugar, ou ambos
(Castellani e Castellani 2003).
Han e Kamber (2006) citam a clusterizao como sendo tambm conhecida
como segmentao de dados, uma vez que a clusterizao particiona grandes
conjuntos de dados em grupos de acordo com suas similaridades. Porm, outros
autores defendem que os termos clusterizao e segmentao no devem ser usados

185

como sinonmia, uma vez que h diferenas conceituais entre eles. A segmentao
pode ser geogrfica (por exemplo, regio, porte da cidade, densidade, rea),
demogrfica (por exemplo, idade, tamanho da famlia, ciclo de vida da famlia, sexo,
renda, ocupao, grau de instruo, religio, raa, gerao, nacionalidade, classe
social); psicogrfica (por exemplo, estilo de vida, personalidade), comportamental (por
exemplo, ocasies, benefcios, status do usurio, ndice de utilizao, status de
fidelidade, estgio de prontido, atitude em relao a um produto ou servio). Cada
tipo de segmento j possui um conjunto de variveis definidas para melhor
compreenso do sujeito (Kotler e Keller 2006).
Na realizao de uma clusterizao em minerao de dados, algumas
condies so comuns (Han e Hamber 2006):
a) escalabilidade dos dados: alguns algoritmos de clusterizao funcionam melhor
com pequena quantidade de dados, outros com grande massa de dados. Ainda
h algoritmos que podem ser usados com pequena ou grande quantidade de
dados invariavelmente;
b) habilidade de lidar com diferentes tipos de atributos: muitas anlises podem
requerer uso de variveis binrias ou categricas, alm das numricas;
c) possibilidade de clusters com formas arbitrrias: alguns algoritmos, por usar
medidas euclidianas ou de Manhattan tendem a encontrar clusters com formato
esfricos. Porm, importante que o algoritmo a ser usando possa identificar
clusters com formas arbitrrias;
d) pouco domnio da rea de conhecimento para determinar os parmetros de
entrada: quanto mais conhecimento da rea de estudo seja necessrio, maior a
dificuldade de controle na clusterizao especialmente em bases com alta
dimensionalidade;
e) habilidade para lidar com dados ruidosos: bases de dados do mundo real
possuem valores extremos, valores ausentes, dados inseridos erroneamente.
Alguns algoritmos so sensveis a tais dados e podem conduzir a uma
clusterizao sem qualidade;
f) clusterizao incremental e nenhuma sensibilidade com a ordem de entrada
dos dados: o algoritmo deve permitir novas inseres de dados e no ser
sensvel ordem de entrada;
g) alta

dimensionalidade:

alguns

algoritmos

lidam

bem

com

baixa

dimensionalidade, como o olho humano que lida com at trs dimenses. No


entanto, importante que o algoritmo possa lidar com vrias dimenses;

186

h) clusterizao com base em parametrizaes; usabilidade e possibilidade de


interpretao: os resultados devem estar intimamente ligados a uma semntica
especfica para facilidade de interpretao.
Brusilovsky (2010) define ainda que o cluster um grupo de objetos similares
(casos, pontos, observaes, exemplos, membros, consumidores, pacientes, locais
etc.), enquanto a anlise de cluster um conjunto de tcnicas dirigidas para o
particionamento de dados, desenhada para agrupar uma coleo de objetos dados em
clusters. Essas tcnicas permitem: um nmero de clusters e formatos desconhecidos
inicialmente; um grau de associao ou similaridade que seja forte entre os membros
do mesmo cluster, e fraco entre os membros de cluster diferentes.
A clusterizao no , com isso, um simples agrupamento, mas sim um
processo interpretvel de objetos sob estudo. Pode-se, ento, afirmar que uma
classificao supervisionada no anlise de cluster, assim como categorizaes
simples (segmentao de mdicos por especialidade, assumindo que cada
especialidade mdica conhecida; segmentao por sexo, nvel educacional, taxa de
respostas conhecidas) ou ainda resultado de uma consulta a uma base de dados, que
por sua vez tambm no um exemplo de clusterizao. A clusterizao pode ser
julgada na interpretao de utilidade dos resultados. Um ponto importante a ser
ressaltado que no h uma medida de sucesso, j que so usados argumentos
heursticos para o julgamento (Brusilovsky 2010).
Algoritmos de Clusterizao
H algoritmos para clusterizao disponveis, cada qual indicado para um grupo de
investigaes, problemas especficos, podendo lidar com tipos distintos de variveis.
Os mtodos de clusterizao mais conhecidos podem ser classificados nas seguintes
categorias: hierrquicos, particionamento, baseados em densidade, baseados em
grade,

baseados

em

modelos,

clusterizao

de

dados

ultra

dimensionais,

clusterizao baseada em parmetros e restries (Han e Kamber 2006). O mtodo


mais comumente utilizado o hierrquico (Gelbard et al. 2007), que constri
(aglomera) ou quebra (divide) uma hierarquia de clusters. A representao tradicional
desta hierarquia uma rvore, chamada de dendograma, com elementos individuais
em uma extremidade, e um nico cluster contendo todos os elementos em outra
extremidade.
Vale a pena destacar os algoritmos mais conhecidos do tipo particionamento:
k-means, k-medoides, TwoStep. O algoritmo K-means (Velmurugan e Santhanam

187

2010) orienta cada ponto a um cluster cujo centro (tambm chamado de centride)
esteja mais prximo. O centro a mdia de todos os pontos no cluster, ou seja, suas
coordenadas so a mdia aritmtica para cada dimenso separadamente sobre todos
os pontos no cluster. A fragilidade do k-means o fato de lidar com a mdia. Se uma
determinada varivel tiver valores discrepantes, a mdia no a melhor representao
do grupo. Assim, pode-se ento usar uma tcnica baseada em objeto representativo,
que o k-medoide (Velmurugan e Santhanam 2010). Ao invs de selecionar o valor
mdio do objeto no cluster como um ponto de referncia, um objeto selecionado
para representar o cluster, usando um objeto representativo por cluster. Cada objeto
restante agrupado com o objeto representativo com o qual mais similar. O mtodo
de particionamento ento realizado com base no princpio de minimizao da soma
das diferenas das distncias entre cada objeto e seus pontos de referncia
correspondentes.
Um problema na utilizao dos mtodos acima descritos recai na necessidade
de prvia de informar ao algoritmo a quantidade de clusters que se deseja. J o
mtodo TwoStep (Theodoridis e Koutroumbas 2009) produz uma anlise escalonvel,
apropriado para grandes conjuntos de dados e que possuam uma mistura de variveis
contnuas e categricas. Seu funcionamento, como o nome j indica, baseado em
dois passos. No primeiro passo, o algoritmo forma os pr-clusters, que so clusters
dos casos originais, usados no local dos dados brutos objetivando ter um menor
nmero de casos para a prxima etapa, reduzindo o tamanho da matriz que contm
distncias entre todos os casos pareados possveis. Isso porque usada uma
abordagem de agrupamento sequencial. O algoritmo faz uma varredura dos registros
um a um e decide se o registro atual deve fundir-se com os clusters formados
anteriormente ou iniciar um novo cluster com base no critrio da distncia (SPSS
2001).
Aps a finalizao da pr-clusterizao, todos os casos em um mesmo prcluster so tratados como uma nica entidade, com uma tcnica baseada em
hierarquizao. As suas caractersticas so utilizadas como novos casos. O tamanho
da matriz de distncias no mais dependente do nmero de casos, mas do nmero
de pr-clusters (Bacher et al. 2004). Duas medidas de distncia esto disponveis:
euclidiana e log-verossimilhana. A log-verossimilhana pode lidar com tipos mistos de
atributos, que a vantagem deste algoritmo. A medio da disperso das variveis
categricas feita por uma entropia. Igualmente ao que acontece na clusterizao
hierrquica, os clusters com as menores distncias so unidos em cada passo (Bacher
et al. 2004). A vantagem do mtodo TwoStep para clusterizao de dados que no

188

necessrio informar a quantidade de clusters final. Caso este parmetro no seja


fornecido, o mtodo prope uma quantidade tima.
Um estudo comparativo realizado por Gelbard et al. (2007) aplicando 11
algoritmos de clusterizao em 4 bases de dados pblicas aponta os mtodos no
hierrquicos com superior desempenho na clusterizao, sendo os melhores
pontuados os mtodos TwoStep e K-means. Os resultados deste estudo sugerem um
cuidado no tipo de conjunto de dados para a escolha do mtodo de clusterizao uma
vez que os resultados dificilmente so dados dependentes do domnio, mas sim
algoritmo e dado dependente.
Especificamente quando se fala de clusterizao na epidemiologia, h uma
dissonncia cognitiva (Rosa 2006), uma vez que o termo anlise de cluster pode ser
compreendida tanto como analisar um grupamento especfico como um setor
censitrio previamente estabelecido, como tambm pode ser identificado como uma
tcnica de minerao de dados para identificao de objetos com similares ou
prximos, considerando todas as caractersticas imputadas. Na base MeSH h essa
pluralidade de significados, ao descrever a anlise de cluster como um conjunto de
mtodos estatsticos usados para agrupar variveis ou observaes em subgrupos
fortemente interrrelacionados. Em epidemiologia, pode ser utilizado para analisar uma
srie de eventos bem agrupadas ou casos de doena ou fenmeno de sade
relacionados com outros padres de distribuio bem definidos em relao ao tempo
ou lugar, ou ambos.

Pesquisas Realizadas

Este estudo tem como cenrio o Projeto Epidoso (Ramos 1993), um estudo
longitudinal iniciado em 1991 e conduzido na UNIFESP como projeto temtico com
foco em idosos residentes na rea da Vila Clementino em So Paulo visando
identificar qualidade de vida, perdas funcionais, condies de sade fsica sob a ptica
da cardiologia, sade mental e sade bucal. O projeto original considerou quatro
perodos, denominados ondas, de entrevistas com questionrios estruturados para
coletar informaes demogrficas e clnicas. A primeira onda iniciou-se em 1991 e
contou com informaes sobre 1.667 idosos, e foram armazenadas em um programa
computacional prprio. Esta foi a onda utilizada para nosso estudo.
Este estudo foi conduzido por meio de um projeto de mestrado, de Frederico
Molina Corhs, junto ao Programa de Ps-graduao em Sade Coletiva, UNIFESP,

189

com colaborao do Prof. Dr. Luiz Roberto Ramos, pesquisador responsvel pelo
projeto Epidoso. O trabalho aqui relatado considerou a organizao dos dados do
Projeto Epidoso para facilitar o acesso geogrfico aos dados coletados e identificar
uma viso conjunta, integrada, considerando o sujeito, o idoso, com suas
caractersticas socioeconmicas, de agravos, e vulnerabilidades, colaborando ainda
com a integrao dos pesquisadores de diferentes especialidades e pontos
geogrficos. Desta forma, optamos pela criao de um portal web que possibilitasse
uma gesto integralizada dos dados (Cohrs 2011).
Para o gerenciamento desses dados coletados ao longo de 15 anos foi
construda uma infoestrutura provendo uma estrutura de apoio tecnolgico para o
projeto; software necessrio para acessar, manipular, organizar e analisar as
informaes; apoio na governana, gesto e uso da informao e treinamento de
pessoas e organizaes envolvidas na criao da informao. Neste trabalho a
questo norteadora para a anlise dos dados foi considerar grupos de idosos com
caractersticas socioeconmicas e agravos ou vulnerabilidades semelhantes, a partir
de tcnicas de clusterizao, para apoiar a criao de aes educativas e preventivas
com maior e melhor foco.
Foram analisados 41 arquivos nos formatos SAV, DBF, XLS e MDB com dados
redundantes. Um arquivo-base (epidoso.sav) contendo todos os dados unificados de
todas as ondas, com 929 variveis e 1.666 registros, tambm foi analisado. Para
compreender o contedo das variveis foi construdo um dicionrio de dados com
nome, significado e tipo (categrico ou numrico) de cada varivel e onda a qual
estava vinculada, para posterior normalizao. Os dados de mortalidade foram
importados para a base.
A abordagem escolhida foi pela clusterizao do tipo particionamento por meio
do algoritmo TwoStep. O mtodo TwoStep (Theodoridis e Koutroumbas 2009)
possibilita uma anlise escalonvel apropriada para grandes conjuntos de dados que
apresentem uma mistura de variveis contnuas e categricas. Seu funcionamento
baseado em dois passos: no primeiro passo, o algoritmo forma os pr-clusters, que
so clusters dos casos originais, substituindo-os com objetivo de se ter um menor
nmero de casos para a prxima etapa, reduzindo o tamanho da matriz que contm
distncias entre todos os casos pareados possveis. Essa estratgia representa uma
abordagem de agrupamento sequencial. O algoritmo faz uma varredura dos registros
um a um e decide se o registro atual deve fundir-se com os clusters formados
anteriormente ou iniciar um novo cluster com base no critrio da distncia (SPSS
2001). Aps a finalizao da pr-clusterizao todos os casos em um mesmo prcluster so tratados como uma nica entidade com uma tcnica baseada em

190

hierarquizao. As suas caractersticas so utilizadas como novos casos. O tamanho


da matriz de distncias no mais dependente do nmero de casos, mas do nmero
de pr-clusters (Bacher 2004).
Das 207 variveis da primeira onda, 137 delas foram selecionadas para
participar da anlise de cluster. A excluso imediata de 70 variveis deu-se porque o
contedo delas era extremamente sensvel, com variao muito rpida (em poucas
horas, como glicemia e presso venosa central por exemplo). Aps essa excluso foi
executada a anlise de cluster e observado o nvel de clusterizao. O mtodo
TwoStep pontua a qualidade da clusterizao com valores entre 0 e 1: valor
adimensional. Quanto mais prximo a 1, melhor a clusterizao, com menos casos
sendo deixados margem dos clusters identificados. No caso da pontuao da
clusterizao ter resultado inferior a 0,1, considerado ruim, foi identificada a varivel
com menor significncia no processo de clusterizao cujos dados eram iguais em
todos os clusters. Essa varivel foi ento excluda, e a clusterizao novamente
executada. Este processo iterativo foi repetido at que a pontuao da clusterizao
tivesse seu valor acima de 0,1. Com isso, das 137 variveis iniciais, apenas 56 foram
usadas na anlise de cluster final.
Trs Grupos de Idosos
Os grupos identificados apresentaram cobertura de 1.294 (77,7%) dos sujeitos da
pesquisa Epidoso original, distribudos nos grupos 1 com 349 sujeitos (27,0%), 2 com
424 sujeitos (32,8%) e 3 com 521 sujeitos (40,3%). Estes 3 grupos identificados
apresentam

caractersticas

socioeconmicas,

de

agravos

vulnerabilidades

semelhantes, no balanceados em termos de quantidade de indivduos, o que


prprio do mtodo. As 16 variveis mais importantes utilizadas no processo de
identificao dos clusters, ordenadas por importncia na clusterizao, foram: grau de
dependncia, estado conjugal, quem cuida durante as internaes, tem interesse em
manter prticas sexuais, caminha fora de casa, frequencia das relaes sexuais,
nmero de doenas, gnero, caminha dentro de casa, movimenta, geraes
cohabitando, trabalho remunerado, sade mental, varizes, razo da aposentadoria, e
por fim, MMSE que representa um ndice de sade mental. Cada cluster, no entanto,
apresenta importncia diferente para cada varivel com variao entre 0 e 1. A
varivel grau de dependncia foi a mais importante no processo de clusterizao. Ela
indica o quanto o indivduo consegue fazer atividades dirias sem o auxlio de outra
pessoa.

191

Fixando a observao no grau de dependncia foi possvel identificar no


terceiro grupo a menor idade mdia e o menor nmero de doenas (comorbidades).
Essas informaes apontam uma possvel diferena no cuidar dos indivduos contidos
no grupo 3 e um diferente planejamento de promoo da sade dos idosos
entrevistados. Para o grupo 1 apenas a dificuldade de movimentar pernas e braos
mostra significncia. Para o grupo 2, foi significativo o fato de os indivduos relatarem
no ter nenhuma dificuldade de movimentao de braos e pernas, e no serem casos
de sade mental. O grupo 3 foi o que apresentou mais variveis com significncia a
comear pela movimentao. Neste grupo, os indivduos relatam no ter nenhuma
dificuldade na movimentao de braos e pernas. Os indivduos cohabitam com uma
gerao, com remunerao vinda da prpria aposentadoria, no so casos de sade
mental, e no apresentam varizes.
Como parte das variveis utilizadas na anlise so de natureza categrica,
estas apresentam grande dificuldade de serem utilizadas em outros mtodos, sendo
frequentemente desprezadas ou teriam seu tipo alterado para numrico, gerando uma
viso equivocada dos dados. O mtodo TwoStep aplicado possibilita medir, em cada
grupo, uma importncia interna, relativa, das variveis considerando-se apenas o
grupo em questo. O Quadro 3 mostra as variveis na ordem de importncia de cada
grupo e a barra interna exibe a importncia da varivel na identificao do grupo.
Descrio dos Grupos
A varivel, aqui ligada a uma caracterstica, mais importante para o grupo 1
caminhar fora de casa, seguido por caminhar em casa e o grau de dependncia, em
ordem. Para este grupo a limitao de caminhar fora de casa ou caminhar dentro de
casa muito importante ao considerar a grande limitao de movimentos que essas
pessoas tm, conduzindo a privaes do convvio social, independncia para a
realizao de suas atividades pessoais at mesmo bsicas como a alimentao e
higiene pessoal, chegando at a diminuio do lazer.
Para o grupo 2 a varivel mais importante foi estado conjugal, seguida por
quem cuida durante as internaes, e tem interesse em manter relaes sexuais. As
trs variveis de maior importncia para este grupo so categricas e conduzem
condio mais isolada deste segmento, constitudo por vivas que moram sozinhas.
Pessoas, supostamente, mais independentes fisicamente.
O grupo 3 foi formado por pessoas que moram com suas famlias,
considerando descendentes em primeiro nvel (filhos) e segundo nvel (netos). A co-

192

habitao possibilita que outras pessoas contribuam para que o idoso tenha uma
maior aderncia aos tratamentos.

Quadro 3 - Distribuio da importncia das variveis em cada cluster identificado no


projeto Epidoso. A ordem (de cima para baixo) das variveis representa sua importncia
(da mais para a menos importante) no grupo (cluster). A intensidade da cor azul
representa a importncia global da varivel para a clusterizao (Cohrs 2011).

193

A Figura 19 mostra a integrao dos trs grupos, juntamente com a


importncia da participao das variveis no processo de clusterizao. Foi possvel
identificar como uma varivel importante para um grupo de pessoas, mas pouco
importante para outros grupos. Os picos em diferentes pontos mostram que variveis
importantes na clusterizao no foram importantes para uma compreenso de todos
os grupos. Como exemplo temos a varivel grau de dependncia, que foi a varivel
mais importante na definio dos grupos. Para o grupo 1, esta varivel est em
terceiro lugar de importncia, enquanto que para o grupo 2, aparece em oitavo lugar.
J no grupo 3 esta varivel est em primeiro lugar de importncia. Essas variaes
possibilitam identificar uma variabilidade dos grupos.

Figura 19 - Grfico em radar exibindo a importncia de cada varivel com sobreposio


dos trs grupos no projeto Epidoso e avaliao geral (Cohrs 2011).

Dos indivduos presentes no grupo 1, 57% caminhavam fora de casa sem


dificuldade ou com pouca dificuldade, 88% caminhavam em casa sem ou com pouca
dificuldade; o grupo possui grau mdio de dependncia (7,1 3,7), detectado como o
maior entre os grupos; alto nmero mdio de doenas (5,4 . 1,9); 51% relataram
dificuldade de movimentao de braos ou pernas; 45% apresentam casos de sade

194

mental; 42% relataram que possuem varizes e isso interfere nas atividades dirias;
19% referiam ter incontinncia urinria com interferncia no dia-a-dia; 59% referem
que os problemas na compra de remdios esto relacionados com o custo; 51%
apresentavam problemas na coluna; 29% relataram ter priso de ventre; 40%
relataram ter reumatismo; 72% no realizavam caminhadas; 26% relataram ter
hipertenso arterial; 36% relataram ter insnia, e todas as doenas relatadas acima
interferiam nas atividades dirias; 54% apresentavam dificuldade de conversar. Uma
viso facilitada do grupo 1 v-lo como um conjunto de mulheres que caminhavam
dentro e fora de casa, com alguma dificuldade, com razovel dependncia para
realizao de atividades dirias e um considervel nmero de comorbidades, cujas
doenas relatadas interferiam nas atividades dirias. Em poucas palavras: mulheres
com alguma dependncia fsica, algum comprometimento cognitivo, com doenas
interferindo nas atividades dirias.
J os indivduos presentes no grupo 2 eram predominantemente vivos
(74,8%), cuidados predominantemente pela filha (58,3%) ou parentes (24,8%) quando
estavam internados; sem interesse em manter contato sexual (97,4%); sem relato de
prticas sexuais (99,5%); a minoria (30,7%) morando s; do sexo feminino (91%); a
maioria (72,7%) vivendo com a aposentadoria ou penso, sem um trabalho
remunerado; um baixo grau (2,9) de dependncia; 64,2% no realizavam atividades
manuais; caminhavam em casa e sem dificuldade (99,5%); 56,4% no se
aposentaram; caminhavam fora de casa e sem qualquer dificuldade (85,8%); 55,9%
no possuam varizes; 89,4% no apresentaram casos de sade mental; 80,7%
possuam filhos, e 80,4% no relataram nenhum problema de movimentao. De
forma

sinttica,

grupo

composto

por

mulheres,

vivas,

cuidadas

predominantemente pela filha ou parentes quando esto internados, sem interesse em


manter contato sexual, sem relato de prticas sexuais, algumas morando s, vivendo
com a aposentadoria ou penso, sem nenhum trabalho remunerado, independentes
na realizao de atividades dirias, no realizam atividades manuais, caminham em
casa e sem dificuldade, boa parte no se aposentou, caminham fora de casa e sem
qualquer dificuldade, no possuem varizes, no so caso de sade mental, possuem
filhos, no relatam nenhum problema de movimentao. Ou seja, mulheres, vivas,
fisicamente independentes, convivendo com poucos familiares, sem realizarem
atividades manuais, vivendo de aposentadoria ou penso, caminhando, e so
mentalmente capazes.
Os indivduos reunidos no grupo 3 possuam baixo grau de dependncia (2,1
d.p. 1,5); 94% eram casados; 70% relataram ter interesse em manter contato sexual;
78% eram cuidados pelo cnjuge durante as internaes; 62% relataram ter relao

195

sexual pelo menos uma vez por ms; 66% so do sexo masculino; possuem uma
mdia de 2,5 (d.p. 1,7) doenas; 55% vivem s com os recursos da aposentadoria;
atingiram uma pontuao mdia de 26,4 (d.p. 3,1) no exame de estado mental; 54%
aposentaram por tempo de servio; 99% caminham fora de casa sem dificuldade ou
com alguma dificuldade; 99% conviviam com pelo menos mais uma gerao;
apresentam idade mdia de 72,6 (d.p. 5,4) anos; 81% possuam casa prpria; 43%
tinham o ensino mdio ou superior; 71% relataram realizar caminhadas. Em sntese,
so indivduos fisicamente independentes, casados, com interesse em manter prtica
sexual, sendo cuidados pelo cnjuge quando internados, predominando o sexo
masculino, com baixo nmero de comorbidades, vivendo apenas com o dinheiro da
aposentadoria, apresentando uma boa capacidade cognitiva, caminhando bem fora de
casa, convivendo com geraes em casa prpria, relatando ainda terem cursado o
ensino mdio ou j o superior. Este grupo formado, assim, por homens fisicamente
independentes, com boa capacidade cognitiva, aposentados, convivendo com
geraes em casa prpria.
Comunicao em Sade sob Medida
Considerando que uma comunicao em sade eficaz busca primordialmente
identificar o pblico-alvo (Kotler et al. 2010), o uso da clusterizao para identificao
segmentos auxilia no planejamento otimizado da comunicao com direcionamento
para cada segmento, ou selecionar um dos segmentos para uma comunicao ainda
mais direta.
Por fim, no cenrio do projeto Epidoso, uma anlise de cluster mostrou-se
interessante para identificar grupo de pessoas com caractersticas socioeconmicas e
agravos ou vulnerabilidades comuns, o que conduz a uma concepo mais eficaz de
promoo da sade. Cada cluster identificado possui carctersticas prprias e
composto por grupos distintos de indivduos, que trazem a possibilidade de uma nova
viso para os dados de um estudo longitudinal. Mais do que uma viso
epidemiolgica, uma viso estatstica com criao de segmentos pde ser construda,
mostrando que h vrias facetas para se compreender problemas, e tambm h vrias
formas para a resoluo de um mesmo problema (Cohrs et al. 2013). O mtodo
TwoStep apresentou-se como uma opo aceitvel para a identificao de grupos com
caractersticas semelhantes, uma vez que no necessrio informar a quantidade
tima de grupos.

196

5.2. Classificao de Internaes Hospitalares

Colaboraram com estes estudos


Carla Francine Dalmati, Frederico Molina Corhs,
Fernando Sequeira Sousa, Domingos Alves
Um dos grandes desafios do sistema pblico de sade no Brasil adequar recursos
financeiros e tecnolgicos disponveis s organizaes de servios de sade,
priorizando a promoo, assistncia e proteo sade. A formulao e a implantao
de polticas de sade com a criao do Sistema nico de Sade (SUS), em 1988, foi
uma estratgia aplicada pelo governo como forma de padronizar e especificar as
aes dos diferentes nveis de ateno (municipal, estadual e federal), realizada com o
objetivo de atender s necessidades da populao. Definiu-se, assim, o papel de cada
nvel e com isso regulamentou-se as tomadas de decises de cada instncia do
governo e as relaes entre elas. Com isso, houve uma descentralizao das decises
por parte do governo federal, agrupando as aes e servios de sade de forma
hierarquizada em diferentes nveis de complexidade, criando, portanto, novas regras
para a distribuio e o gerenciamento de recursos financeiros (Brasil 1988).
Devido a esse processo de mudana na participao dos municpios como
gestores locais de sade, ocorreu uma expanso dos servios bsicos de sade,
sendo necessrias propostas que aperfeioassem os sistemas de informao da
ateno ambulatorial e hospitalar vigentes para que pudessem atender o novo perfil
descentralizado de gesto de sade (Noronha 2001).
O Sistema de Informaes Hospitalares do Sistema nico de Sade (SIH/SUS)
(goo.gl/me5keK)

um sistema informatizado

que recollhe dados

sobre a

hospitalizao de cada paciente transcritas em um resumo de alta padro,


denominado autorizao de internao hospitalar (AIH), e foi criado com o objetivo de
gerenciar financeiramente os hospitais, sob forma de reembolso aos hospitais
participantes do SUS. O atual SIH/SUS originou-se do Sistema de Ateno Mdica
Hospitalar do Ministrio da Previdncia Social (SAMHPS) construdo a partir do
Sistema Nacional de Controle e Pagamento de Contas Hospitalares (SNCPCH), no
final da dcada de 1970, cujo objetivo era introduzir uma nova forma de pagamento
aos hospitais privados contratados pelo Instituto Nacional de Assistncia Mdica da
Previdncia Social (INAMPS). Nessa poca, o ressarcimento aos hospitais era feito
pelo reembolso dos gastos de maneira retrospectiva, e estes eram apresentados
atravs de uma Guia de Internao Hospitalar que discriminava os recursos utilizados

197

e os servios prestados durante a hospitalizao do paciente (Levcovitz e Pereira


1993). Para controlar os gastos dos hospitais pblicos o governo federal criou por
conseguinte, em 1976, o registro de mbito nacional dos dados das internaes
hospitalares para fins administrativos e de pagamento da prestao de servios aos
hospitais contratados com a criao do Sistema Nacional de Controle de Pagamentos
e Contas Hospitalares (SNCPCH) (Zanetta 2003).
Diagnosis Related Groups (DRGs)
Nos Estados Unidos, no final da dcada de 1960 e ao longo da dcada de 1970,
iniciava-se o estudo de diagnosis related groups (DRGs), denominado classificao da
complexidade de pacientes hospitalizados, para auxiliar a identificao de pacientes
que requerem diferentes nveis de atendimento e consomem diferentes tipos de
recursos. Os DRGs foram desenvolvidos por uma equipe de pesquisadores dirigidos
por Robert B.

Fetter, engenheiro industrial

do Departamento de

Cincias

Administrativas (Fetter et al. 1991), e John Thompson, enfermeiro do Departamento de


Epidemiologia e Sade Pblica da Escola de Medicina, ambos da Universidade de
Yale, EUA (Mullin 1986 apud Noronha 2001, p.4).
Essa classificao tambm teve como objetivo definir o produto hospitalar para
monitorar a utilizao dos servios hospitalares de sade, bem como de avaliao e
gerncia de qualidade da ateno hospitalar (Noronha 2001). Portanto, a classificao
da complexidade de pacientes hospitalizados uma forma de ajustar os custos dos
pacientes quanto complexidade, diferenciando-os para que se possa ser mais justo
na avaliao, no pagamento s instituies pblicas e no gerenciamento hospitalar.
A construo desta classificao em grupos DRGs baseia-se nos seguintes
critrios:

os grupos resultantes devem conter pacientes clinicamente homogneos do


ponto de vista do consumo de recursos;

os grupos devem ser definidos a partir de variveis normalmente presentes nos


resumos de alta hospitalares;

a classificao deve resultar em um nmero gerencivel de grupos (prximo de


500) para que os hospitais tenham um nmero de casos que possibilite
anlises comparativas;

os grupos devem cobrir todas as possibilidades de pacientes hospitalizados;

os grupos devem ser mutuamente exclusivos, isto , cada paciente deve


pertencer a apenas um grupo.

198

Para definir as grandes categorias diagnsticas (GCDs) a universidade de Yale


formou uma equipe de clnicos com o objetivo de que eles agrupassem todos os
cdigos de diagnsticos possveis, assim para a formao dessas GCDs foram
estabelecidos trs princpios bsicos: deveriam ter consistncia em termos da
anatomia, classificao fisiopatolgica ou na forma como os pacientes so tratados
clinicamente; deveriam agrupar um nmero suficiente de pacientes; deveriam cobrir
completamente todos os cdigos da Classificao Internacional de Doenas (CID),
sem sobreposio. Esse critrio foi estabelecido para que na formao final do
agrupamento cada paciente pertencesse a somente uma GCD (Fetter et al. 1991 apud
Noronha 2001, p. 27). Cada GCD corresponde a um grande sistema orgnico, como
exemplo, neoplasmas maligno do rim, alocado no sistema orgnico correspondente,
nesse caso, na GCD referente s doenas e desordens do trato urinrio e rins.
Algumas GCDs residuais foram criadas para aquelas doenas e desordens em que
no h condies de organiz-las por sistemas orgnicos (como exemplo, doenas
infecciosas sistmicas, doenas mieloproliferativas (Fetter et al. 1980).
As GCDs so um conjunto de categorias de estado de sade mutuamente
exclusivas que so definidas por morbidade, gnero e idade. A agregao de
morbidade um melhor preditor de utilizao de recursos do que a presena de
doenas especficas. Este achado compe a base do sistema de grupos clnicos
(adjusted clinical groups ACG). Baseado no padro das morbidades, a abordagem
ACG aloca cada indivduo a um nico grupo clnico (um ACG) que permite que se
capte o efeito da associao de doena em estimativas de uso de recursos (Halling et
al. 2006). Assim, possibilita relacionar todos os cdigos ICD-9-CM (que a
classificao americana equivalente ao CID10) a um de 32 grupos de diagnstico
(adjusted diagnosis groups, ADG), de acordo com durao (aguda, recorrente,
crnica), gravidade (menor, maior, instvel), certeza diagnstica (sintomas versus
patologias), etiologia (infecciosa, traumtica, outras) e cuidados especializados
(mdicos, cirrgicos, obsttricos, hematolgicos etc.). Todas as doenas, mesmo as
que ainda no foram descobertas, em princpio podem ser classificadas nestas
dimenses e organizadas nestas 32 categorias. Um indivduo alocado em 93
categorias ACGs baseado na sua combinao particular de ADGs, assim como a sua
idade e sexo. Os ACGs tm um desempenho at 10 vezes superior que o ajustamento
de risco por idade, sexo e geografia.
O case-mix categoriza pessoas (doentes) e no procedimentos, e assim segue
uma caracterstica holstica - metodologia orientada para o doente. O sistema casemix pode ser usado para melhorar a qualidade e comparar uma medida processual

199

(uso apropriado de testes laboratoriais, prescries medicamentosas) ou medidas de


resultados em avaliao retrospectiva (Halling et al. 2006).
Avaliao das Autorizaes de Internao Hospitalar (AIHs)
No cenrio internacional h vrios pases que usam essa metodologia para gerenciar
o pagamento aos hospitais pelos servios e recursos utilizados durante as
hospitalizaes ocorridas, entre eles: Blgica, Inglaterra, Espanha, Austrlia, Frana,
Portugal, Dinamarca, e Hungria. Vale ressaltar que Frana, Inglaterra e Argentina, por
exemplo, adaptaram essa metodologia e criaram seu prprio software que calcula os
DRGs.
Poucos trabalhos tm sido feitos no Brasil com objetivo de desenvolver e
adaptar tecnologias para avaliao da assistncia hospitalar tais como os DRGs.
Nesse sentido h de se destacar dois trabalhos em particular que utilizam essa
metodologia (Zanetta 2003, Noronha 2001). Zanetta (2003) foca seu estudo na
utilizao de DRGs para a qualificao das AIHs como instrumentos de gesto de
servios e sistemas de sade, utilizando como fonte de dados as informaes das
AIHs e informaes de sadas hospitalares registradas no Hospital das Clnicas Faculdade de Medicina da Universidade de So Paulo (HC-FMUSP), para o ano de
1998. Noronha (2001) mostra que a classificao dos DRGs mais abrangente e
estuda a viabilidade de aplicao dessa metodologia nos hospitais da Regio de
Ribeiro, utilizando os dados disponveis para hospitalizaes nessa regio para o ano
de 1997.
No Brasil no tem sido feito atualizaes dessa metodologia de uma maneira
geral para dados mais atualizados (Dalmati 2012). Alm disso, seria interessante que
os trabalhos focassem a assistncia mdico-hospitalar em bases populacionais,
incluindo as diferenas entre os sistemas pblicos e privados (Yazlle-Rocha e Simes
1999). Para confirmar isto necessrio caracterizar socialmente os usurios dos
sistemas pblicos e privados e os perfis de morbidade em cada um deles. A utilizao
dessa classificao para o gerenciamento hospitalar depende do grau de
homogeneidade dos grupos classificados, ou seja, o quo similar esses grupos so
internamente e o quo diferente eles so entre si. O objetivo formar grupos cujo
tempo de permanncia hospitalar possu pequena varincia interna, que pode ser
usado como medida para o consumo de recursos quando no se tem disponveis
informaes sobre custos (Noronha 2001).
Para o clculo dos DRGs por Noronha (2001) foram utilizadas duas fontes de
dados: informaes sobre hospitalizaes realizadas na Regio de Ribeiro Preto

200

(DRS XIII), no ano de 1997; e uma amostra nacional de hospitalizaes dos EUA
referentes ao mesmo ano. Foi utilizado o programa computacional denominado
Grouper, na verso 14.1, para a classificao denominada All Patient Diagnosis
Related Groups (AP-DRG), contendo 641 grupos. A autora concluiu que possvel
classificar as informaes da base de dados de Ribeiro Preto em DRGs, embora com
algumas limitaes: mapeamento para ICD-9-CM/Procedures; (b) sem peso ao nascer
do neonato e diagnstico, a classificao deste fica prejudicada; (c) a disponibilidade
de somente um campo para o registro de diagnsticos secundrios e um para os
procedimentos, na poca, resultou na reduo do nmero de pacientes classificados
em DRGs que indiquem maior complexidade. Por fim, pelas anlises realizadas pela
autora possvel notar que diferenas no tempo mdio de permanncia entre Ribeiro
Preto e os Estados Unidos podem estar sendo influenciadas pelas diferenas na
gerncia desses pacientes, na disponibilidade de tecnologias, nas caractersticas dos
hospitais, nas prticas mdicas, na eficincia na prestao dos servios, e na forma de
financiamento das hospitalizaes (Silver et al. 1992).
Outro trabalho de destaque foi fruto de uma dissertao de mestrado (Zanetta
2003) pela qual testou o uso de DRGs para verificar limites e potencialidades desse
sistema de classificao como instrumento de mensurao do produto hospitalar no
Instituto Central do Hospital das Clnicas da Faculdade de Medicina da Universidade
de So Paulo (ICHC-FMUSP). Foram usadas duas bases de dados: uma referente s
sadas hospitalares (morbidade) e a outra, referente s informaes sobre as AIHs
enviadas para cobrana ao SUS. O software utilizado neste trabalho foi o International
Refined DRG Software (IR-DRGs), na verso 1.1a, ICD-10 Diagnoses/ICD-9-CM
Procedures, contendo 992 grupos DRGs. Cada base de dados foi classificada pelo IRDRG resultando em 26 grandes categorias diagnsticas (GCD) e 672 grupos DRGs
para a base de morbidade contra 24 GCDs e 558 DRGs para a base das AIHs. Isto
porque ao utilizar apenas um diagnstico secundrio e um nmero limitado de quatro
procedimentos, o banco de AIH perdeu em capacidade de discriminao de suas
internaes dentre os 992 grupos DRGs possveis. Ainda, um nmero maior de
procedimentos discriminados no banco de morbidade-pareado permitiu qualificar mais
sadas como cirrgicas em relao ao banco das AIHs.
Devido a esses resultados, possvel a observao de que os bancos de
dados de AIH no mostram adequadamente a complexidade das internaes
realizadas e perdem em capacidade de discriminao para informaes de outros
sistemas existentes nos hospitais, quando utilizados para anlises que avaliem o perfil
de morbidade atendida, complexidade e utilizao de recursos hospitalares.

201

Pesquisas Realizadas
Conduzimos um estudo cujo objetivo foi testar a classificao DRG em um perodo
mais longo que o geralmente encontrado na literatura, de 9 anos (1998-2006), a fim de
verificar como esta classificao se comporta ano a ano e se ela se modifica no
decorrer dos anos e se sim, quanto que essa mudana. A base de dados da regio
de Ribeiro Preto foi utilizada. Abrange hospitalizaes tanto pblicas quanto privadas
e so melhores do que as informaes das AIHs, que alm de serem utilizadas para
fins de financiamento, representam somente as hospitalizaes dos hospitais
financiados pelo SUS, no abrangendo todo o sistema de prestao de servios
hospitalares.
Esta pesquisa foi conduzida por meio de um projeto de mestrado, de Carla
Dalmati, junto ao Programa de Ps-graduao em Gesto e Informtica em Sade,
UNIFESP, com colaborao do Prof. Dr. Domingos Alves, do Centro de
Processamento de Dados Hospitaladas (CPDH) da Faculdade de Medicina de
Ribeiro Preto, USP.
A principal fonte de dados que alimenta o banco de dados do Centro de
Processamento de Dados Hospitalares da USP Ribeiro Preto a folha de alta
hospitalar. O Centro processa as altas hospitalares de 35 hospitais em um total de 26
municpios (Ribeiro Preto e regio). A base de dados utilizada contm 1.449.618
hospitalizaes do perodo 1998-2006. Essa ficha preenchida pelos mdicos dos
hospitais, que referem os diagnsticos principais e secundrios, os procedimentos
realizados, as complicaes e a condio de sada. Aps ser preenchida pelos
mdicos, a folha de alta hospitalar passa por um processamento, momento em que
revista qualitativa e quantitativamente e codificada, segundo os cdigos da
Classificao Estatstica Internacional de Doenas e Problemas Relacionados Sade
Dcima Reviso (CID-10) e da Classificao Brasileira das Ocupaes (CBO). Uma
segunda reviso realizada e ento essa folha de alta digitada. Aps a digitao
uma nova reviso realizada, para ento ser gravada e classificada em arquivos
(Passos et a. 2010). Representa um sistema de registro contnuo de informaes
referentes utilizao de leitos, com estatsticas hospitalares e caracterizao da
assistncia prestada. Os dados que so armazenados pelo Centro so: nmero do
hospital, enfermaria, especialidade, regio do paciente, sexo, idade, ocupao do
paciente, categoria de internao, procedncia, data de internao, data de sada,
diagnstico principal, diagnstico secundrios, data da operao, operao principal,
outra

operao,

reoperao,

acidente-envenenamento-violncia,

complicao

202

hospitalar, nmero do cremesp, condio de saida, procedimento INAMPS, iniciais do


nome e o nome do paciente.
Utilizamos o programa desenvolvido nos EUA, software International Refined
Diagnosis Related Groups (IR-DRG). A classificao das internaes em DRGs foi um
processo interativo, realizado vrias vezes. Aps cada classificao foi realizada uma
auditoria dos dados e anlise dos DRGs residuais, que indicam algum tipo de erro na
classificao, geralmente como resultado de dgitos no previstos no formato original
de entrada de dados, ou posio de um campo. Aps correes a classificao era
novamente realizada. Este procedimento foi realizado at se obter a menor quantidade
de DRGs residuais.
Classificao das AIHs por DRGs
Foram encontrados 506 DRGs comuns entre todos os anos, sendo que 504 DRGs se
mantiveram constantes, 2 DRGs foram adicionados (014252 e 158072) e o DRG
081503 foi retirado da classificao, totalizando 746 DRGs. Desse total verificou-se
que 335 DRGs no tiveram nenhuma internao classificados. A classificao IR-DRG
tem definio para 1.080 grupos excluindo a opo do nvel de complexidade
ambulatorial e 1.064 grupos quando se leva em conta os nveis de complexidade
ambulatoriais. O ano que obteve maior tempo mdio de internao e tambm a maior
variao de tempo mdio em cada DRG foi o ano de 2000, e destes, o DRG 051072,
que est na grande categoria diagnstica 05, de doenas e desordens do sistema
circulatrio, em que ocorreu uma ponte de safena no corao sem o uso de
cateterismo. Foram classificados em DRGs residuais 19.504 (1,35%) do total de
1.449.618 internaes. Hospitais e DRGs foram caracterizados pelo modo em que
preenchem seus dados e nmero de internaes. Uma descrio dos grupos DRGs
residuais pode ser feita a partir dos resultados gerados na classificao.
Analisando-se as internaes aps a classificao verificamos que 6 dos 10
tipos possveis de DRGs foram encontrados na base de dados totalizando 742 DRGs.
Observando-se os dados verificou-se que todos os tipos de DRG obtidos so
referentes internaes e no obtivemos nenhum DRG ambulatorial. Entretanto,
embora o Centro no trabalhe com dados ambulatoriais, h quantidade considervel
de internaes com tempo inferior a um dia de permanncia, o que caracteriza um
paciente ambulatorial (Noronha 2001). O tipo que obteve maior volume de internaes
e tambm a maior quantidade de DRGs foi o tipo 4, que so internaes sem
procedimentos significativos durante os seus cuidados, para pacientes internados. O
segundo maior nmero de casos de DRG foi o do tipo 1, siginificando que 23,60% das

203

internaes tiveram o uso de algum procedimento durante a estadia do paciente. E por


fim, o tipo que teve menos hospitalizaes foi o tipo 8, indicando que 1,59% das
internaes foram referentes recm-nascidos.
Os diagnsticos secundrios podem ser usados para se medir a complexidade
do atendimento do paciente e sua anotao de grande importncia para a
classificao em DRGs. Foi possvel classificar 497.326 hospitalizaes com
diagnsticos secundrios, ou seja, 33,71% da base de dados e uma proporo menor
de hospitalizaes (22,78%) tiveram mais de 2 diagnsticos. Verificou-se que um
volume grande de pacientes que foram a bito estavam classificados em DRGs de
pouca gravidade, ou seja, que obtinha somente um diagnstico, o diagnstico
principal. Embora haja situaes em que o prprio diagnstico principal esteja
relacionado com casos muito graves, esperado que pacientes que vo a bito
tenham tido algum tipo de agravamento da doena, como complicaes ou
morbidades relacionadas (Noronha 2001). Verificou-se que 2,84% das altas foram a
bito e foram classificadas em DRGs que no tem a presena de comorbidade e
complicaes. Alguns desses casos se situaram como discrepantes na anlise da
distribuio do tempo de permanncia de alguns DRGs. Isto sugere que a ausncia de
anotao de diagnsticos secundrios influenciou tambm nos resultados estatsticos
do tempo de permanncia hospitalar de alguns DRGs e, consequentemente, tornou-os
mais heterogneos, misturando pessoas com gravidades diferentes em um mesmo
DRG. Entretanto, a base de dados de Ribeiro Preto a nica no Brasil que possui
mais de trs opes de anotao de diagnsticos secundrios, na poca, e nesse
caso, foi considerado at 5 diagnsticos secundrios neste estudo. H hospitais na
regio que reportam mais que trs diagnsticos secundrios no resumo de alta, como
exemplo o HC-FMRP que reporta at 12 diagnsticos.
Para analisar o tempo de permanncia hospitalar optamos por analisar
somente os tempos dos 506 DRGs que fossem comum a todos os anos. H flutuao
da quantidade de DRGs ano a ano. Observamos que a grande categoria diagnstica
(GCD) 14, sobre gravidez, parto e puerprio, a que obteve maior nmero de
internaes na regio de Ribeiro Preto e a GCD 1, doenas e desordens do sistema
nervoso, foi a que obteve menor nmero de casos de internao. Analisando todos os
DRGs classificados verificamos a presena de 745 DRGs na base de dados de
Ribeiro Preto resultantes da classificao de 1998 a 2006.
Para uma anlise da homogeneidade dos DRGs foi realizada uma anlise
exploratria da distribuio do tempo de permanncia dos DRGs, ano a ano,
verificando situaes de internao-dia, mdia, mediana, desvio padro e o coeficiente
de variao do de permanncia hospitalar de cada DRG em cada ano. A Tabela 8

204

apresenta valores mnimos e mximos da mdia e do coeficiente do tempo de


permanncia hospitalar e quantidade de DRGs.

Tabela 8 - Valores mnimos e mximos da mdia e do coeficiente do tempo de


permanncia hospitalar e quantidade de DRGs de 1998 a 2006. Unidade de tempo em
dias (Dalmati 2012).

O coeficiente de variao do tempo de internao foi a medida que se manteve


mais constante nas classificaes (preliminar e final) do processo interativo, ou seja, a
que teve menor flutuao. Ela variou de 0 a 3,26 no ano de 1999, sendo este ano o
que obteve maior coeficiente de variao e depois se apresentou constante de 2000 a
2006 na classificao preliminar. J na classificao final a maior variao foi de 0 a
2,43 referente ao ano de 2006, indicando maior homogeneidade. O coeficiente de
variao interpretado como a variabilidade dos dados em torno da mdia. Quanto
menor o coeficiente, mais homogneo o conjunto de dados. Ele considerado baixo
quando seu valor menor que 0,25. Entretanto, esse padro varia de acordo com a
aplicao (Fonseca e Martins 1996). Assim, podemos interpretar que em mdia, os
desvios padres relativamente mdia atingem de 128% a 326% do valor da mdia
na primeira classificao e 169% a 243% na classificao final, o que representa uma
grande varibilidade dos dados mesmo o coeficiente no tendo variado tanto ano a ano.
A estabilidade do coeficiente de variao encontrada a partir do ano 2000 na primeira
classificao aponta para o fato de que essa variabilidade dos dados uma regra,
eventualmente pela largura das distribuies dos tempos para cada classe de agravos,
ou at por uma bimodalidade da distribuio. Foi detectada uma correlao entre o
nmero de internaes e a variabilidade das distribuies dos tempos de internaes.

205

Partindo-se do pressuposto que as internaes mais frequentes e as que


obtiveram maior tempo mdio de internao so as mais importantes para a anlise
dos DRGs, foram selecionados os 20 DRGs comuns a todos os anos que tiveram
maior tempo mdio de internao e os 10 DRGs com menores tempos mdio de
internao. Analisando os 30 DRGs selecionados que esto ordenados por ordem
crescente das grandes categorias diagnsticas (GCDs), verificamos que o DRG que
possui maior tempo mdio geral o 044102, internao por fibrose cstica com nvel
de severidade moderado, que ficou internado em mdia 9,96 dias, variando desde
6,60 dias em 2005 at 13,50 dias em 2004, tendo uma variao de 7 dias entre 1998 a
2006. O segundo maior tempo de internao mdio tambm foi referente grande
categoria diagnstica de doenas e desordens do sistema respiratrio, fibrose cstica
com nvel de severidade grave, e o tempo de internao variou de 14 dias em 1998
at 6,5 dias em 2000, ou seja, teve diminuio de mais de 50% no tempo mdio de
internao em dois anos. J analisando os menores tempos mdios de internao, o
DRG que apresentou menor tempo de internao foi o 134121, doenas menstruais ou
outras relacionadas ao sistema reprodutor feminino. Ficou em mdia 1,05 dias e variou
menos que os tempos mdios maiores, de 1,27 dias em 1998 a 0,67 em 2006.
Aps a anlise dos 30 DRGs selecionados buscamos por aqueles cuja
frequncia na classificao fosse maior ou igual a 1.000 casos de DRGs naquele ano
e foram encontrados 10 DRGS comuns a todos os anos de 1998 a 2006 e que
apresentassem frequncia igual ou superior a 1000. Observamos que o DRG que
possui mais internaes em todos os anos foi o 158171, internao de neonato cujo
peso a nascer foi maior que 2499 gramas sem o uso de procedimentos maiores, ou
seja, partos que no obtiveram complicaes, o quer reflete a caracterstica do servio
de sade da regio em que parto a afeco que mais gera internao, tendo um
coeficiente de variao de 6% o que pode ser considerado homogneo nessa
classificao. O segundo e o terceiro DRG que obtiveram maior nmero de
internaes, 146131 so problemas vaginais e o 146101 so parto por cesariana com
gravidade menor. Analisando os tempos de internaes desses 3 DRGs verificamos
que o tempo mdio geral do DRG que possui mais internaes, o 158171, menor do
que o tempo dos dois DRGs conseguintes a eles, o 146131 e o 146101. A cesariana
sem complicao apresentou mdia de permanncia menor da cesariana de alto risco
que rene casos com descolamento prematuro de placenta, pr-eclmpsia, diabetes,
prematuridade. Os casos de cesariana com complicao, geralmente, agrupam
gestantes que necessitam ficarem internadas por um perodo maior devido
observao ou controle antes da cesariana.

206

Clusterizao das AIHs


Foi realizada uma clusterizao dos dados para explorar semelhanas entre padres
por meio de agrupamentos (Backer 1995). As caractersticas escolhidas para a
classificao dos DRGs quanto sua homogeneidade interna, a fim de comparao,
foi a mesma utilizada por Noronha (2001): o volume de pacientes de cada DRG e o
coeficiente de variao do tempo de permanncia hospitalar.
Foi utilizado o algoritmo TwoStep com medida de similaridade como sendo a
distncia logartmica do estimador de mxima verossimilhana, para gerao de 3
agrupamentos dos 505 DRGs. A Tabela 9 apresenta caractersticas dos grupos. Grupo
1 possui 389 DRGs (77%), grupo 2 possui 110 DRGs (21,8%) e grupo 3 com 6 DRGs
(1,2%). O grupo 3 apresenta maior valor mdio, desvio padro e diferena entre
mnimo e mximo da varivel volume de internao por DRG, sendo esse grupo o que
possui menor nmero de DRGs agrupados, o que se pode concluir que esses so os
DRGs que mais possuem internaes e so eles: 064181, 064171, 044161, 146131,
146101, 990029, ressaltando que o DRG 990029 residual e possui a maior parte das
internaes da base de dados. Quando analisamos o coeficiente de variao do tempo
de internao verificamos que o cluster 3 o que apresenta menor valor de mdia e
tambm a menor variao entre mnimo e mximo, mostrando que quanto mais
internaes se tem, menor a variabilidade dos dados.

Tabela 9 - Valores mdios, desvio padro, mnimo e mximo do nmero de


hospitalizaes (sadas) e do coeficiente de variao de todos os anos, de 1998 a 2006
(Dalmati 2012).

Um dos grandes desafios do sistema pblico de sade no Brasil adequar


recursos financeiros e tecnolgicos disponveis organizao de servios de sade,
priorizando a promoo, assistncia e proteo sade, sendo necessrias propostas
que aperfeioem os sistemas de informao para que possam atender o novo perfil
descentralizado de gesto de sade. Assim, a disponibilidade de um sistema de
informaes que subsidie a tomada de decises torna-se urgente (Noronha 2001).

207

Nesse contexto, a ateno prestada pelo sistema hospitalar no Brasil parte


importante SUS que, entretanto, tem investido muito pouco na ampliao dos recursos
tecnolgicos para a gesto da ateno hospitalar. Nos Estados Unidos e em vrios
outros pases no mundo vm se ampliando o estudo de diagnosis related groups
(DRGs), para auxiliar a identificao de pacientes que requerem diferentes nveis de
atendimento e consomem diferentes tipos de recursos. Particularmente, essa
classificao da complexidade de pacientes hospitalizados tem sido utilizada como
uma forma de ajustar os custos dos pacientes quanto complexidade, diferenciandoos para que se possa ser mais justo na avaliao, no pagamento s instituies
pblicas e no gerenciamento hospitalar. Nesta dissertao buscamos primeiramente
fazer uma reviso bibliogrfica dos poucos trabalhos que tm sido feitos no Brasil no
sentido de desenvolver e adaptar tecnologias para avaliao da assistncia hospitalar,
em particular os DRGs.

5.3. Conformidade de Sistemas a Normas e Recomendaes

Colaboraram com estes estudos


Heitor Gottberg, Beatriz de Faria Leo,
Marcelo Carvalho, Eduardo Marques,
Cristina Lcia Feij Ortolani
A confidencialidade da informao de sade uma preocupao intrnseca prtica
da medicina. O Cdigo de tica Mdica, j em sua verso de 1988 (CFM 1988),
determina no artigo 11 que o mdico deve manter sigilo quanto s informaes
confidenciais de que tiver conhecimento no desempenho de suas funes, o mesmo
se aplicando ao trabalho em empresas, exceto nos casos em que seu silncio
prejudique ou ponha em risco a sade do trabalhador ou da comunidade. Dedica ainda
o captulo IX ao tema do segredo mdico.
Por outro lado, a informatizao uma tendncia presente na gesto hospitalar
contempornea. Fomentada pela necessidade das instituies de conhecerem dados
de seu funcionamento e desempenho, a tecnologia da informao e comunicao vem
ganhando espao e aumentando sua presena nos processos de assistncia (Vecina
e Malik 2007). Um dos pilares da evoluo da informatizao nos hospitais o tema
do pronturio eletrnico do paciente (PEP), ou mais amplamente, o registro eletrnico
em sade (RES). O tema demanda tanta anlise e debate, que a cada 2 anos ocorria

208

um congresso exclusivamente dedicado ao tema, agora em juno com o congresso


brasileiro na rea. O PEP 2009, por exemplo, organizado pela Sociedade Brasileira de
Informtica em Sade (SBIS) com o Instituto de Ensino e Pesquisas do Hospital Srio
Libans (IEP), debateu com especialistas nacionais e internacionais o tema A Sade
conectada atravs do Registro Eletrnico em Sade: sonho ou necessidade? (SBIS
2009). No apenas no Brasil o tema do PEP/RES vem sendo estudado. Fazendo uma
busca no PubMED com as palavras electronic health record foi possvel encontrar, na
mesma poca, 17.303 artigos, sendo 904 em reviso (NCBI 2009).
Ao mesmo tempo que os dados eletrnicos podem ser facilmente duplicados e
transmitidos, com a utilizao das ferramentas adequadas tais dados tendem a ser
mais seguros que dados em outros suportes devido a viabilidade de autenticao,
autorizao, auditoria e responsabilizao (Myers et al. 2008). Ao mesmo tempo, no
so desconhecidos casos nos quais o uso de sistemas informatizados levou a brechas
na segurana da informao. Myers et al. apontam que um relatrio exps um caso,
que veio a se tornar um clssico sobre a quebra de segurana da informao em
sade, descreve um vazamento por discos rgidos descartados e prticas de limpeza
dos dados. Em agosto de 2002 o Centro Mdico de Administrao dos Veteranos em
Indianpolis, EUA, vendeu ou doou 139 computadores sem remover dados
confidenciais, incluindo nomes de pacientes portadores de HIV e doenas mentais.
Um outro caso, em maio de 2006, denunciou que uma falha nos computadores pode
ter levado ao roubo de dados referentes a 60.000 pacientes que visitaram o Centro
Mdico da Universidade de Ohio. Devemos lembrar que a informao de sade pode
servir desde a empregadores que queiram, de maneira antittica, contratar ou manter
os profissionais mais saudveis, at a criminosos que queiram usar as informaes
para chantagear pacientes proeminentes, ameaando a divulgao de dados mdicos
privados.
No s no Brasil as agncias de sade so especialmente desafiadas h
decadas a trabalhar com falta de fundos para a infraestrutura tcnica necessria para
garantir a privacidade e a segurana das informaes (Fountain 2004). Com a
ampliao do uso de informaes clnicas e administrativas da prestao de servios
de sade em meio digital torna-se imperativo um gerenciamento cuidadoso dos trs
pilares da segurana da informao que objetivam garantir: (1) a integridade dos
dados, i.e., os dados devem ser protegidos contra alteraes ou perdas; (2) a
disponibilidade dos dados, ou seja, devem poder ser acessados no instante em que se
faam necessrios, e (3) a confidencialidade das informaes, significando que
somente devem ser acessadas por pessoas ou instituies autorizadas (Ravera et al.
2004). Alguns pases despontaram dando maior ateno ao tema.

209

Aes da HIPAA, ISO e ABNT


Nos EUA, a regulamentao da segurana da informao baseada na lei de 1996
chamada Health Insurance Portability and Accountability Act (HIPAA), a qual
determina a padronizao nas transaes de dados entre provedores e pagadores dos
servios de sade. Determina ainda a existncia de polticas formais para proteger e
manter o acesso aos dados de pacientes, e que tambm fornea aos clientes o direito
de ter acesso informao de como e por quem seus dados pessoais sero usados,
permitindo-lhes inspecionar e possivelmente adicionar informaes (Vogel e Perreault
2006). A HIPAA cobre os planos de sade e provedores de servio que transacionem
informaes de sade de modo eletrnico. Para garantir que a informatizao dos
dados de pacientes no prejudicasse a confidencialidade e a privacidade, esta
legislao incluiu protees federais privacidade da informao individual
identificada em sade (US-DHSS 2003). A parte da HIPAA referente privacidade e
segurana (parte n. 164) estabelece os requisitos que a organizao em sade deve
implementar. Estes requisitos envolvem protees nos mbitos administrativo, fsico e
tcnico (US-DHSS 2006).
Outra respeitada instituio internacional que est dando ateno especial ao
tema a International Organization for Standardization (ISO). A ISO tem por objetivo o
desenvolvimento de padres internacionais nas mais diferentes reas. No que se
refere segurana da informao, publicou a norma ISO/IEC 27.001, traduzida para o
portugus e oficializada no Brasil pela Associao Brasileira de Normas Tcnicas
(ABNT) como a norma ABNT NBR ISO 27001, que descreve um ciclo de atividades o
qual, uma vez seguido, leva implementao de um sistema de gesto da segurana
da informao (SGSI) robusto e com reconhecimento internacional no que se refere
garantia da segurana da informao dentro de uma organizao (ABNT 2006). A ISO
identificou ainda que o setor da sade possui especificidades em seus processos
organizacionais que demandam mais anlise das normas publicadas em vrias reas.
Assim, formou um comit tcnico chamado de TC 215 Health Informatics
(goo.gl/MYqhMo) para debate das demandas especficas do segmento de sade,
propondo padres especficos que atendam s caractersticas da prestao de
servios em sade. Este comit finalizou em 2009 o desenvolvimento do padro ISO
27799 - Health informatics - information security management in health using ISO/IEC
27002 -, que busca prover controles adicionais e uma explicao mais aprofundada
dos controles descritos na ISO 27002, para proteger a confidencialidade, integridade e
disponibilidade da informao quando se trata da prestao de servios de sade
(ISO-TC215 2008). Identificamos uma pesquisa americana que identificou que os

210

pacientes aceitam o uso do RES desde que as preocupaes com a segurana destas
informaes sejam endereadas (Chhanabhai e Holt 2007).
No Brasil, o Conselho Federal de Medicina (CFM) tambm est atento ao
tema, por meio de um convnio com a Sociedade Brasileira de Informtica em Sade
(SBIS). Em novembro de 2007 ocorreu a publicao da Resoluo 1821/07 no Dirio
Oficial, que aprova as normas tcnicas concernentes digitalizao e ao uso dos
sistemas informatizados para a guarda e manuseio de documentos dos pronturios
dos pacientes, autorizando a eliminao do papel e a troca de informao identificada
em sade. Com esta resoluo estabelece-se o amparo para o uso do registro de
sade em meio exclusivamente digital. A resoluo aprova o Manual de Certificao
para Sistemas de Registro Eletrnico em Sade (S-RES) e autoriza a eliminao do
pronturio do paciente em papel, tornando-o completamente digital, desde que os SRES para guarda e manuseio de pronturios de paciente atendam integralmente aos
requisitos do nvel de garantia de segurana 2 (NGS2) (CFM 2007). Mais
recentemente os conjuntos de requisitos foram atualizados para a verso 3.3, com
publicao realizada em 2009. Esta verso foi revista por especialistas e colocada em
discusso pblica em meados de 2013 com vistas a atualizao para a verso 4, a
qual ainda no foi publicada oficialmente.

Pesquisas Realizadas

Realizamos um estudo com objetivo de avaliar o grau de conformidade de um grupo


de hospitais aos requisitos de gesto da segurana da informao digital, a partir de
normas e recomendaes da literatura quando do uso dos sistemas de registro
eletrnico de sade (S-RES). Mais especificamente nosso interesse estava em definir
requisitos de gesto de segurana da informao digital aplicveis a processos
hospitalares e a sistemas de registro eletrnico de sade, a partir de normas e
recomendaes da literatura, estabelecendo um padro-ouro a ser usado como
referncia e disponibilizar a verificao do grau de conformidade por meio de
questionrio eletrnico via sistema web. Ainda, nossa inteno foi realizar uma
avaliao exploratria, quantitativa, a partir do questionrio construdo, sobre o grau
de conformidade ao padro-ouro definido de um grupo de hospitais participantes do
estudo. A expectativa foi identificar, para o grupo de instituies participantes, quais os
temas de gesto de segurana da informao estavam mais ou menos avanados em
implementao, tanto na parte de processos de gesto quanto no que se refere aos S-

211

RES. Neste cenrio que este trabalho se prope a identificar o grau de conformidade
dos hospitais com as normas e padres j publicados oficialmente sobre o tema da
gesto da segurana da informao digital em sade.
Este estudo foi conduzido por meio de um projeto de mestrado, de Heitor
Neves Gottberg, junto ao Programa de Ps-graduao em Sade Coletiva, UNIFESP,
sob orientao do pesquisador desta tese. Contamos com a colaborao da Dra.
Beatriz de Faria Leo, especialista em normas e requisitos em S-RES, participante
ativa junto ao CEE-78 Informtica em Sade, da ABNT. Posteriormente iniciamos uma
nova fase de investigao tambm por meio de um projeto de mestrado de Marcelo
Carvalho, junto ao Programa de Ps-graduao em Gesto e Informtica em Sade,
UNIFESP, com colaborao da Profa. Dra. Cristina Lucia Feij Ortolani e Prof. Dr.
Eduardo Marques, especialista em normas e requisitos em S-RES. O objetivo desta
segunda abordagem, em curso, considera desenvolver um modelo comparativo
(objeto referncia) propiciando uma avaliao de maturidade holstica de um S-RES
com base em normas e melhores prticas existentes atualmente. Pelo modelo
pretendemos identificar a condio (posio em que se encontra) do sistema avaliado
dentro de uma sistema validado dentro de uma escala evolutiva crescente por meio de
suas caractersticas.
Para o desenvolvimento de um padro de comparao referente ao tema de
gesto da segurana da informao fizemos uso de uma srie de normas e padres,
nacionais e internacionais, incluindo:

NBR ISO/IEC 27.001; Sistemas de Gesto de Segurana da Informao


Requisitos; publicada pela Associao Brasileira de Normas Tcnicas (ABNT
2006);

Norma ISO/IEC 27799:2008 - Health informatics - Information security


management in health using ISO/IEC 27002. Desenvolvida pela International
Organization for Standartization (ISO) Technical Committee 215 - Health
Informatics (ISO-TC215 2008);

HIPAA - Health Insurance Portability and Accountability Act, que a legislao


americana de regulamentao da segurana da informao, a qual determina a
padronizao nas transaes de dados entre provedores e pagadores dos
servios de sade (US-DHHS 2006);

Resoluo CFM n 1821/2007, que aprova as normas tcnicas concernentes


digitalizao e uso dos sistemas informatizados para a guarda e manuseio de
documentos dos pronturios dos pacientes, autorizando a eliminao do papel
e a troca de informao identificada em sade (CFM 2007);

212

Manual de Requisitos de Segurana, Contedo e Funcionalidades para


Sistemas de Registro Eletrnico em Sade V3.0, desenvolvido pela parceria
entre CFM e SBIS (sbis.org.br);

Report on the Review of Patient-Identifiable Information, publicado em 1997


pelo Comit Caldicott do Departamento de Sade da Inglaterra, que focaliza o
tratamento dos dados com identificao do paciente, inclusive no que se refere
segurana desta informao;

Data Protection Act, que a lei inglesa de 1998 que trata da regulamentao
do processamento de informaes relacionada aos indivduos, incluindo a
aquisio, armazenamento, uso e divulgao destes dados (UK-OPSI 1998);

Privacy Act, que a legislao australiana com os princpios de privacidade


das infomaes dos indivduos, incluindo as preocupaes quando se trata de
informaes de sade (AG-OPC 1988).

Alm destes materiais identificamos outros de grupos que vm estudando


temas similares como uma extensa pesquisa em estados americanos focada em
identificar prticas, polticas e leis locais que criaram barreiras de proteo para a
informao digital em sade desenvolvendo solues viveis que tanto preservassem
a informao como garantiam a privacidade das mesmas (Dimitropoulos 2007).
Criamos um questionrio, que foi aplicado via web, com 4 blocos de questes:
(1) identificao da instituio respondente, (2) termo de consentimento livre e
esclarecido (TCLE), (3) 13 questes sobre processos organizacionais, e (4) 12
questes sobre S-RES. Ao final o respondente recebia automaticamente um resumo
das suas respostas com o valor resultante do seu grau de conformidade. incluindo um
grfico radar. O questionrio foi validado por 3 especialistas, sendo um editor dos
captulos de segurana do Manual de Certificao de S-RES do CFM/SBIS, um diretor
de TI de um hospital de referncia em So Paulo, e um professor de ps-graduao
em gesto e tecnologia em segurana da informao de uma faculdade especializada
em tecnologia, e tambm auditor de ISO 27001.
Nvel de Conformidade de 11 Hospitais
Obtivemos respostas de 11 hospitais entre 80 e 692 leitos, com uma mdia de 241.
Nas 13 questes sobre processos organizacionais a conformidade mdia foi: (1)
poltica

corporativa

de

segurana da

informao

50,0%,

(2)

contratos

de

confidencialidade com funcionrios 52,3%, (3) contratos de confidencialidade com


terceiros 31,8%, (4) informao do grau de confidencialidade dos documentos 9,1%,

213

(5) acesso a informaes por funcionrios desligados 31,8%, (6) equipamentos usados
fora do hospital e acesso remoto 54,5%, (7) procedimentos de backup de dados
63,6%, (8) segurana de correios eletrnicos 34,1%, (9) garantia de data/hora dos
registros 38,6%, (10) liberao de acesso a informaes 34,1%, (11) procedimentos
em caso de falhas de segurana da informao 13,6%, (12) plano de continuidade das
operaes em caso de falhas 27,3%, e (13) garantia da proteo aos dados e
informaes pessoais 40,9%. Nas 12 questes sobre S-RES a conformidade mdia
foi: (14) NGS1 controle de verso do software 64,3%, (15) NGS1 identificao e
autenticao de usurio 48,6%, (16) NGS1 controle de durao da sesso de usurio
57,1%, (17) NGS1 autorizao e controle de acesso 18,9%, (18) NGS1 Gerao e
recuperao de cpia de segurana pelo S-RES 57,1%, (19) NGS1 excluso ou
alterao de dados existentes no S-RES 64,3%, (20) NGS1 funcionalidades de
auditoria 67,9%, (21) NGS1 documentao do S-RES 14,3%, (22) NGS1
representao de instante de tempo no S-RES 50,0%, (23) NGS2 uso do certificado
digital no S-RES 14,3%, (24) NGS2 uso de assinatura digital no S-RES 3,6%, e (25)
NGS2 uso de certificado digital para autenticao de usurio 7,1%. Estes valores
esto apresentados na Figura 20.

(a) processos

(b) S-RES

Figura 20 - Radar da conformidade mdia dos hospitais (a) em processos de gesto de


segurana da informao e (b) com S-RES implementados. Maior rea, maior
conformidade (Gottberg 2010).

Em relao ao grau mdio de conformidade em comparao com a quantidade


de acreditaes da instituio (por exemplo, ONA, JCI etc.), consolidamos as mdias
das instituies e as comparamos com as acreditaes. Foi possvel notar que todos
os hospitais respondentes passaram por atualizaes de sistemas entre 2008 e 2009
e no havia uma relao direta entre tempo de uso do S-RES e o grau de

214

conformidade do mesmo, uma vez que houve hospitais que j usavam sistemas h
mais tempo com graus mdios de conformidade menores que outros que iniciaram o
uso mais recentemente. Destacamos que na parte de processos de gesto
encontramos mdias mais altas nos hospitais com uma ou mais acreditaes. A mdia
geral de conformidade em processos ficou em 37% (em uma escala de 0%-100%)
enquanto, se usarmos apenas hospitais com pelo menos uma acreditao, a mdia
sobre para 41%. Alm disso, notamos que somente hospitais acreditados conseguiram
mdias acima de 50%, que equivalem conformidade com a ISO 27001. Ambos os
dados nos pareceram razoveis, uma vez que o processo de acreditao exige uma
melhor gesto dos processos. Encontramos, porm, extremos de conformidade em
processos. Temos hospitais com 65% de conformidade e outros com 10%. Isto nos
chamou a ateno para o fato de que se encontramos uma excelncia comparativa
neste tema por parte de uns, temos outros hospitais que do ateno mnima ao tema.
Quanto aos S-RES, a mdia de conformidade ficou em 38%. Foi possvel
identificar que a maioria (86%) dos respondentes com sistema possua pelo menos
uma acreditao, mas que a acreditao no garantia que o S-RES tinha uma alta
conformidade, visto que o maior grau foi encontrado em um hospital no acreditado.
Isto tambm nos pareceu coerente, porque a conformidade do S-RES depende mais
do sistema adquirido ou desenvolvido atender lista de requisitos propostos do que
dos processos de gesto que so verificados nos processos de acreditao.
Chama a ateno que os procedimentos para backup de dados sejam o item
de maior conformidade, denotando a percepo da sua relevncia no atendimento aos
pacientes no caso de queda de um sistema ou da rede de comunicaes. Vemos
neste item que nenhum hospital se mostrou 0% conforme. Ao mesmo tempo, a gesto
do hospital parece no se importar com a informao do grau de confidencialidade dos
documentos, i.e, informar em cada documento se este de caracterstica confidencial,
restrita, semirrestrita ou pblica, uma vez que na questo 7 tivemos a menor mdia e
nenhum hospital com 100% de aderncia. Com relao ao S-RES, o item de maior
conformidade referiu-se s funcionalidades de auditoria. De fato, se o sistema no
seguro o suficiente, tais ferramentas so fundamentais para identificar quem acessou
quais dados e em que instante, de forma a permitir o rastreamento das atividades em
caso de falhas. Os itens de menor conformidade referem-se ao uso de assinatura
digital e de uso de certificado digital para autenticao (i.e., acesso do usurio) ao
sistema. Dois temas esto ligados ao uso de certificado digital e/ou assinatura digital
pelos profissionais de sade, diretamente ligados ateno ao paciente, algo ainda
distante do dia-a-dia hospitalar. Porm, este o requisito para a eliminao completa
do pronturio em papel, segundo a resoluo do CFM (NGS2).

215

Segurana da Informao Abaixo da Expectativa


Para um tema to crtico como a segurana da informao em sade, nas suas
dimenses de confiabilidade, disponibilidade e confidencialidade, achamos que, tanto
em processos como em sistemas, a mdia (37,1% em processos e 39% em sistemas)
ficou muito abaixo da nossa expectativa. Vale lembrar que dos hospitais respondentes,
a maioria j utilizavam um sistema informatizado nas atividades de assistncia (SRES) e os demais possuam sistemas diversos, mas que tambm guardam
informaes preciosas sobre os pacientes. Encontrar uma mdia geral baixa nos
mostra que viabilizar uma informatizao ampla demandar muito esforo e
investimento nos processos e nos sistemas, pelo menos neste grupo de hospitais
analisados. Vale reforar que as respostas foram obtidas atravs de auto-declarao.
Se considerarmos que os respondentes tenham uma tendncia a querer mostrar uma
realidade mais confortvel ou avanada em sua instituio, poderiamos considerar um
vis de alta e assim, de fato, a realidade nestas instituies seria ainda pior do que a
denotada.
A baixa quantidade de respostas com grau mdio de conformidade acima de
50% na parte de processos - apenas 4 de 13 questes - nos indicou que as
instituies respondentes, mesmo possuindo processos de gesto de segurana da
informao,

ainda

no

haviam

alterado

seus

processos

para

atender

especificidades do setor. Isto pode ser um forte fator de retardo na implantao de


sistemas informatizados, visto que estas caractersticas especiais dos servios de
sade so fundamentais para a segurana dos pacientes e das instituies e,
acreditamos, no podem ser desconsideradas para a operao informatizada. Apesar
disso, o fato de os dirigentes hospitalares terem direcionado o tema do questionrio
aos profissionais da rea de TI nos indica que provavelmente esta rea desempenha
papel de coordenao na implantao da gesto da segurana da informao dos
hospitais.
Por fim, no grupo de hospitais pesquisados os itens de segurana dos S-RES
nos quais as instituies esto mais avanadas so: controle de verso do software,
controle de durao da sesso de usurio, gerao e recuperao de cpia de
segurana pelo S-RES, excluso ou alterao de dados existentes no S-RES e
funcionalidades de auditoria. Acentuamos que no grupo de hospitais pesquisados, os
itens de segurana dos S-RES nos quais as instituies esto menos avanadas so:
documentao do S-RES, uso do certificado digital no S-RES, uso de assinatura digital
no S-RES e uso de certificado digital para autenticao de usurio.

216

Esta pesquisa foi desenhada e implementada para alcanar em torno de 400


hospitais por meio de associaes de classe e sociedades representativas. No
entanto, foram poucos os hospitais que responderam ao questionrio. Vale, portanto,
um considerao. Nossa impresso que os resultados obtidos mostram um cenrio
bem abaixo da expectativa considerando-se que o universo dos 11 hospitais
respondentes, no identificados na pesquisa, incluram hospitais de boa reputao na
mdia e na regio de So Paulo, incluindo assistncia particular. Pela convivncia com
profissionais que atuam nesses hospitais conhecemos a preocupao de tais
estabelecimentos depositam com relao ao tema segurana de informao sobre
seus processos e S-RES, promoem aes internas de treinamento e compra de
sistemas de alta qualidade no mercado. Mesmo assim, os nmeros apresentam uma
realidade ainda incipiente quanto aplicao de normas e regulamentaes sobre os
aspectos de segurana da informao de fato praticados nestes hospitais. Por este
argumento foi que consideramos que apenas 11 respondentes, apesar de no
denotarem significncia estatstica dentro do universo dos hospitais brasileiros,
mereceram a anlise apresentada.
Anlise de Cluster de Requisitos de Normas
Nossa experincia em identificar se um sistema suficiente aderente a um conjunto
de requisitos especfico ou mesmo determinar se esse sistema possui as
caractersticas mais avanadas (ou maior maturidade) se mostrou uma tarefa
complexa. Essa tarefa pode ser ainda mais desafiadora considerando que
administradores de hospitais e unidades de cuidado ambulatorial, utilizadores desses
sistemas, no possuem perfil tcnico relacionado a tecnologia da tnformao (TI)
(Lima e Monteiro 2010). Para possibilitar uma comparao de sistemas mais precisa,
til por exemplo em processos de aquisio ou licitao, estamos estudando e
desenvolvendo uma escala evolucional indicadora, baseada em requisitos textuais
internacionalmente disponveis, desmembrando-os em termos importantes que sero
avaliados e pontuados por especialistas atravs de inquritos (survey). De fato, o
estudo anterior apresentava uma avaliao de conformidade, mas no geramos um
instrumento de escala de maturidade que colaborasse na identificao das aes
necessrias. Os resultados destas avaliaes, preliminares, tm como inteno de
produzir pesos a esse conjunto de termos que sero utilizados posteriormente para
comparao, verificando sua presena em sistemas sob anlise e indicando por
semelhana seu posicionamento em uma escala de maturidade obtida.

217

Neste momento estamos considerando 3 perfis de gestores de sade que


podem colaborar na identificao de aderncia de um S-RES, representando 3 nveis
de detalhamento. Consideramos perfil 1 (mdico, gestor) sendo uma avaliao por
meio de significados no tcnicos (benefcios), solicitando ao utilizador do modelo que
sejam assinaladas caractersticas genricas percebidas no sistema exibidas em uma
lista. Perfil 2 (profissional de TI) envolve uma avaliao do sistema partindo de suas
certificaes ou normas referenciadas em sua construo, solicitando ao utilizador do
modelo que as assinale dentre as normas componentes do conjunto de requisitos
sistmicos. Como perfil 3 (auditor especializado) uma avaliao de requisitos,
verificando a aderncia de todos os requisitos utilizados pelo modelo no sistema
avaliado por meio de auditoria. Da mesma forma, o usurio do modelo tambm poder
optar pelos mesmos trs nveis de detalhamento no momento da obteno do
resultado. Aps a visualizao do posicionamento na escala de maturidade obtida pelo
uso do modelo, o usurio observa como parte da resposta no s as caractersticas do
sistema por ele apontadas, mas tambm seus equivalentes nas outras formas de uso.
Estamos utilizando uma base de dados contendo requisitos de sistema
relacionados a rea, disponveis internacionalmente. Selecionamos 21 normas e
guidelines sistmicos provenientes de rgos e instituies reguladoras pblicas e
privadas relacionadas informtica em sade incluindo 10 referncias especficas
para a rea e 9 genricas, totalizando 4.412 requisitos e boas prticas para a
composio da referncia sistmica utilizada no modelo em construo. Escolhemos
para o estudo para o eixo funcionalidade os documentos ASTM E1384-07, ISO/IEC
15504, ECF SBIS, CCHIT e ISO/TR 2 0514; para o eixo segurana NGS1- SBIS,
NGS2 - SBIS, ISO/IEC 27001, ISO/IEC 27002, ISO/IEC 27032, ISO/IEC 27010,
ISO/IEC 27034, ISO/IEC 27033; e para o eixo operao IEC 61508-3 ed2.0 (2010-04),
HL7, ISO/IEC 27031, ISO/IEC 27005, ISO/IEC 27799, HIPAA.
Estes requisitos que descrevem caractersticas de segurana, operacionais e
funcionais (McGregor et al. 2008) em sistemas de informao em sade foram
analisadas textualmente. Utilizando-se de tcnicas de sumarizao (Teng et al. 2008)
termos representativos destes documentos foram extrados e agrupados por tpicos e
relacionamento por meio de clusterizao K-means. Para tal foram realizados prprocessamento textuais por meio de retirada de stopwords ingls e portugus
(snowball.tartarus.org) e anlise de 1-grama (467 termos) e 2-gramas (942 termos).
Vinte grupos foram identificados na clusterizao e seus elementos mais
representativos (centrides) foram destacados para constarem na sumarizao do
grupo. Avaliao manual foi realizada para identifcao do contexto de cada grupo.

218

Posteriormente estes agrupamentos sero apresentados a grupos de


especialistas para avaliao de importncia e maturidade (caractersticas evolutivas).
Um questionrio eletrnico j foi construdo e encontra-se em fase de validao
interna. A informao de respostas colhidas qualificar o corpus de termos extrados e
sero utilizadas para a construo de objetos referncia do que considerado mais e
menos evoludo em termo de presena de caractersticas. Assim, ser possvel obter
escalas gradativas de maturidade sistmica. Esta escala e objetos de referncia
formulados anteriormente sero base para a construo de uma ferramenta de
avaliao que servir para posicionar o estado evolutivo de um dado sistema que se
deseja classificar, propiciando que um usurio receba uma lista de caractersticas de
segurana, operacionais e funcionais compiladas e as identifique como presentes por
observao em seu S-RES.

5.4. Avaliao de Programas de Telessade

Colaboraram com estes estudos


Paulo Roberto de Lima Lopes, Daniel Sigulem,
Marcelo Carvalho Junior, Thiago Lima Verde,
Luiz Ary Messina
Daniel Sigulem define uma prtica mdica digital como sendo um conjunto de
tcnicas, prticas, atitudes, modos de pensar e novos valores que se desenvolvem em
consequncia do crescimento do espao digital (Sigulem 1997). O autor afirma que
esta nova prtica uma exigncia da sociedade do conhecimento. De maneira geral, a
sade digital est relacionada ao uso intensivo de tecnologias da informao e
comunicao na rea da sade, como exemplos registro eletrnico de sade, sistemas
de apoio a deciso, sistemas de protocolos eletrnicos, estaes de trabalho portteis,
ferramentas de comunicao, educao a distncia, informao tcnica digital,
tecnologias convergentes (biotecnologia, nanotecnologia, neurocincias, robtica) e
telemedicina ou eSade (Healy 2007).
Telemedicina, ou mais amplamente telessade, a oferta de servios ligados
aos cuidados com a sade, nos casos em que a distncia e o tempo um fator crtico,
ampliando o acesso a assistncia e tambm a cobertura (Lopes et al. 2009). Tais
servios so oferecidos por profissionais da rea da sade utilizando tecnologias de
informao e de comunicao para o intercmbio de informaes vlidas para

219

promoo, proteo, reduo do risco da doena e outros agravos e recuperao;


educao continuada em sade de profissionais, cuidadores e pessoas; e facilitar
pesquisas, avaliaes dos servios e consumo de sade em sade. Sempre no
interesse de melhorar a sade e o bem-estar das pessoas e de suas comunidades. A
telemedicina uma rea multiprofissional, no considerada uma nova ou separada
rea da medicina. A telemedicina tambm no um remdio que cura todos os
problemas de cuidados em sade no mundo, nem to pouco uma substituio do
trabalho dos profissionais de sade, ou um territrio apenas para aficionados por
computador e tecnologia.
Tradicionalmente as utilizaes da telessade so abrangentes e contemplam
desde a rea de educao em sade (educao mdica continuada, grand rounds,
educao de pacientes), passando pela assistncia em sade (painel de especialistas,
servios consultivos e de segunda opinio, telecirurgia supervisionada ou robotizada)
e a pesquisa multicntrica (pesquisa clnica, compartilhamento de tcnicas
avanadas). A penetrao e alcance das aplicaes da telessade dependem do seu
grau de maturidade e de desempenho (Wootton et al. 2012). O grau de maturidade
est relacionado quantidade e qualidade das pesquisas, do desenvolvimento de
padres e protocolos e da aceitao do profissional de sade. O grau de desempenho
depende da quantidade e da qualidade dos resultados publicados sobre viabilidade,
preciso diagnstica, sensitividade e especificidade da aplicao, dos indicadores
clnicos e da efetividade (Bashshur et al. 2004).
Portanto, imprescindvel existir um processo de avaliao de projetos e
programas de telemedicina para a reproduo das experincias positivas e evitar
experincias negativas que possam existir. Entretanto, modelos de avaliao,
incluindo instrumentos ou protocolos, na telessade so praticamente inexistentes na
literatura (Lopes 2013). Existem avaliaes na rea de teleesade cujos modelos no
so amplamente utilizados em projetos e programas de telessade que justifiquem
serem instrumentos amplos para poder ser utilizados como referncia. Esta
constatao tambm descrita por grupos de pesquisa que esto analisando a
questo h mais tempo e tem maior experincia e conhecimento e avaliao de
projetos diversos. Recentemente dois destes grupos publicaram dois artigos que se
apresentam, at o momento, referncias para um trabalho de avaliao na teleesade.
O primeiro prope uma estrutura conceitual para o desenvolvimento de uma
ferramenta de avaliao integral em telessade (Khoja et al. 2013), incluindo teorias
relevantes para a avaliao do uso da tecnologia em programas de sade. O estudo
foi dividido em trs fases. A fase 1 envolveu anlise detalhada da literatura para busca
de teorias e conceitos diferentes sobre avaliao de telessade. A fase 2 envolveu o

220

mapeamento das teorias para identificar temas relevantes. A fase 3 desenvolveu uma
matriz de temas de avaliao e estgios de programas. Como resultados os autores
apresentam uma estrutura que identifica e define diferentes estgios de programas de
telessade e, em seguida, aplicam teorias de avaliao para cada uma destas etapas
para o desenvolvimento. Esta estrutura baseia-se em teorias existentes de sade e
avaliao da tecnologia, e apresenta um quadro conceitual para desenvolvimento de
uma ferramenta de avaliao para examinar e medir diferentes fatores que
desempenham um papel definitivo para o sucesso dos programas de telessade. A
estrutura possui um eixo horizontal que se divide em diferentes fases de execuo do
programa, enquanto o eixo vertical identifica diferentes temas e reas de estudo para
avaliao de programas. Esta estrutura proposta ajuda a entender vrios aspectos de
programas e-Sade e seu impacto requer avaliao em diferentes estgios do ciclo de
vida.
O segundo trabalho analisa sete redes de telessade de longa durao
(Wootton et al. 2012). As redes prestam servios humanitrios (clnica e educacional)
em pases em desenvolvimento e esto em operao por perodos de 5 a 15 anos. O
nmero de peritos que serve cada rede variou de 15 a 513. A menor rede tinha um
total de 10 solicitantes e um dos maiores tinha mais de 500 solicitantes. As redes
operam em quase 60 pases. As sete redes analisadas atenderam um total de 1.857
casos em 2011, ou seja, uma mdia de 265 casos por ano por rede. As sete redes
tinham publicado um total de 44 artigos listados no Medline, que apontam evidncias
decorrentes da prestao de servios por telessade. Havia uma escassez de
informao sobre clnica e relao custo-eficcia. No entanto, os servios foram muito
apreciados por mdicos de referncia, considerados clinicamente teis, e h indcios
de que os resultados clnicos para os pacientes se apresentam melhores que os
modelos tradicionais.
Telessade no Brasil
No cenrio nacional, a tese de Rosangela Gundim (2009) avalia o desenvolvimento e
aplicao de um instrumento de gesto dos fatores indicadores de sustentabilidade de
centros de telemedicina e telessade com base nas entrevistas de avaliao
conduzidas em 10 centros de telessade. No estudo evidenciou-se a necessidade de
acompanhamento da sustentabilidade no s do ponto de vista financeiro, mas da
adoo de uma viso mais holstica e integrada da gesto do centro, incluindo
aspectos institucional, relacional, funcional, econmico-financeira, renovao, tcnicocientfica e bem-estar social. Alm da apresentao desse modelo, o estudo

221

importante porque se torna referncia e fonte de informao para comparao com


outras avaliaes, uma vez que existem iniciativas de telessade (Mathias e Monteiro
2012) de abrangncia local, regional ou nacional, como exemplos, o Telessade Brasil
Redes

(Haddad

2012)

(telessaudebrasil.org.br)

Rede

Universitria

de

Telemedicina (RUTE) (rute.rnp.br).


O programa Telessade Brasil Redes uma ao nacional que busca melhorar
a qualidade do atendimento e da ateno bsica no Sistema nico da Sade (SUS),
integrando ensino e servio por meio de ferramentas de tecnologias da informao,
que oferecem condies para promover a teleassistncia e a teleducao. A
implementao do programa se iniciou em 2007 com o projeto piloto em apoio
ateno bsica envolvendo nove ncleos de telessade localizados em universidades
nos estados do Amazonas, Cear, Pernambuco, Gois, Minas Gerais, Rio de Janeiro,
So Paulo, Santa Catarina e Rio Grande do Sul. A meta foi qualificar
aproximadamente 2.700 equipes da estratgia sade da famlia em todo o territrio
nacional e alcanar os seguintes objetivos:

melhoria da qualidade do atendimento na ateno bsica no SUS, com


resultados positivos na resolubilidade do nvel primrio de ateno;

expressiva reduo de custos e do tempo de deslocamentos;

fixao dos profissionais de sade nos locais de difcil acesso;

melhor agilidade no atendimento prestado;

otimizao dos recursos dentro do sistema como um todo, beneficiando, dessa


forma, aproximadamente 10 milhes de usurios do SUS.
A RUTE uma iniciativa do Ministrio da Cincia e Tecnologia, apoiada pela

Financiadora de Estudos e Projetos (FINEP) e pela Associao Brasileira de Hospitais


Universitrios (ABRAHUE), sob a coordenao da Rede Nacional de Ensino e
Pesquisa (RNP), que visa contribuir com a melhoria de acesso e com o aprimoramento
da infraestrutura para telessade j existente em hospitais universitrios e de ensino,
bem como promover a integrao de projetos entre as instituies participantes. Na
sua primeira fase, iniciada em 2006, a RUTE contou com a participao de 19
hospitais universitrios em 14 estados, interconectados por meio de uma rede
acadmica avanada e de alta velocidade. Com a expanso da iniciativa, atualmente a
RUTE conecta 132 hospitais conveniados, 78 ncleos em operao e 64 grupos de
interesse especial (SIGs). Por meio de conexes de rede internacionais, como a Rede
Clara (Cooperao

Latino-Americana de

Redes

Avanadas),

participantes podem colaborar com parceiros internacionais.

as

instituies

222

Segundo os promotores da RUTE (MCT, FINEP, ABRAHUE e RNP), a


expectativa que a utilizao de servios avanados de rede possa promover a
inovao tecnolgica em sade por meio do desenvolvimento de experimentos e de
novas aplicaes (Araujo et al. 2012) no:

ensino (ensino a distncia, educao mdica continuada, educao em sade


para paciente e comunidade, discusso de casos clnicos, tele-educao para
formao,

ps-graduao

atualizao

profissional

permanente

por

videoconferncia e webconferncia);

pesquisa

(multicntrica,

cooperao

por

videoconferncias,

trabalho

colaborativo, integrao de bases de dados distribudos, pesquisa em TICs na


sade, grupos especiais de interesse na sade SIGs); e

assistncia (assistncia remota, teleconsulta, telediagnstico e segunda


opinio) baseada na resoluo do Conselho Federal de Medicina (CFM),
apoiando e estimulando as aes de telemedicina em todas as regies do pas.
O projeto RUTE parte do pressuposto de que o processo de construo da

rede de colaborao seja coordenado, mas descentralizado, respeitando a autonomia


e a capacidade de cada unidade da rede. Assim, a coordenao nacional do projeto
conta, em cada hospital conveniado com RNP, com uma unidade de telemedicina
desenvolvendo localmente o projeto RUTE e, eventualmente, com outros projetos de
telemedicina, independentes ou complementares a RUTE.
No cenrio nacional, por diversos fatores, atualmente os hospitais esto em
diferentes estgios de desenvolvimento e aplicao dos recursos do projeto RUTE.
Consequentemente, existem unidades de telemedicina j formalizadas dentro da
estrutura organizacional da instituio, unidades da RUTE, das quais algumas com
salas equipadas e preparadas para utilizao em sesses de colaborativas por
videoconferncias.

Destas,

existem unidades

com

salas

homologadas

pela

coordenao RUTE, segundo o manual de homologao de salas de videoconferncia


da RNP, que foram inauguradas e constituem, portanto, ncleos da RUTE em
operao.
Em 2012, Silva (2012) publicou um estudo de caso sobre a RUTE no qual,
utilizando uma abordagem qualitativa, avalia a RUTE na tica da concepo da
poltica de telessade no Brasil. A partir de documentos relacionados criao da
RUTE, apresenta um modelo sobre a construo da agenda governamental e a
escolha de alternativas de polticas para analisar a estruturao do projeto. Alm
disso, delineia que a RUTE surge de um conjunto de problemas relacionado a

223

qualidade na sade e ambiente poltico favorvel, que abriram uma janela de


oportunidade para a implantao da telessade como uma das alternativas dos
gestores federais de diversos setores para soluo destes problemas.

Pesquisas Realizadas

Nosso interesse nesse tema esteve focado a realizar um estudo orientado ao projeto
da Rede Universitria de Telemedicina (RUTE) (rute.rnp.br). O objetivo geral foi
investigar a insero do projeto da RUTE nos hospitais universitrios em relao s
premissas previstas no projeto original, visando explicitar sua contribuio no
desenvolvimento de uma nova prtica de sade digital. Mais especificamente,
estvamos interessados em mensurar as transformaes relacionadas ao projeto na
educao em sade, nas prticas assistenciais colaborativas remotas, na pesquisa
multicntrica e na pesquisa, desenvolvimento e inovao da prpria telemedicina nos
hospitais universitrios. Ainda, em identificar contribuies da RUTE na percepo dos
coordenadores das unidades. Por fim, nossa expectativa foi apresentar um diagnstico
geral do estado da RUTE a partir destes eixos e planejar a construo de um
instrumento eletrnico, permanente, de apoio avaliao da RUTE.
Estes estudos foram conduzidos por meio de uma tese de doutorado, de Paulo
Roberto de Lima Lopes, junto ao Programa de Ps-graduao em Gesto e
Informtica em Sade, com orientao do Prof. Dr. Daniel Sigulem e coorientao
deste pesquisador, em parceria oficial com a coordenao RUTE, na pessoa do Dr.
Luiz Ary Messina. Tambm contou com a colaborao de Thiago Lima Verde, que
neste momento est planejando uma continuidade do estudo, por meio de um
mestrado, para construo de um instrumento eletrnico de avaliao.
Cinco Eixos de Anlise
Foi realizada uma pesquisa quali-quantitativa exploratria, transversal, considerando
as 72 unidades RUTE em operao com anlise documental a partir dos dados das
unidades da RUTE e sobre a mudana da prtica de sade auto-relatada, com 146
respondentes. Utilizamos um censo com o intuito de obter informaes de todas as
unidades da RUTE, em operao, por meio da coleta de dados de percepo das
pessoas responsveis pelas unidades.

224

Obtivemos os questionrios respondidos por 54 unidades da RUTE,


representando 75% de adeso ao censo. Os cinco eixos de anlise, representados no
questionrio de 55 perguntas, que inclui 22 perguntas sobre o perfil da unidade, foram:

pesquisa, desenvolvimento e inovao (PD&I) (5 perguntas): eixo relacionado


s atividades de PD&I na RUTE como geral em sade ou especfica para a
prpria RUTE ou temtica, incluindo telemedicina, informtica em sade ou
sade utilizando tecnologia digital associados a existncia da RUTE;

ensino (ENS) (5 perguntas): eixo relacionado s atividades de ensino em sade


presenciais ou a distncia, utilizando a RUTE ou associadas a existncia da
RUTE;

assistncia (ASS) (13 perguntas): eixo relacionado s atividades de assistncia


remota:

telemonitorizao,

teleconsultoria,

segunda

opinio

formativa,

telediagnstico etc. utilizando os recursos oriundos da RUTE;

gesto (GES) (4 perguntas): eixo relacionado s atividades de gesto da sade


colaborativa entre os hospitais universitrios ou grupos de interesse especial
(SIGs) pela troca de experincias de gesto das instituies ou articulao de
aes conjuntas em funo da existncia dos recursos da RUTE; e

sociedade (SOC) (5 perguntas): eixo relacionado s atividades utilizando a


RUTE que no se enquadram especificamente dos eixos anteriores, ou so
genricas, ou dizem respeito a efeitos diretos ou indiretos sobre a comunidade
de profissionais da rea da sade, comunidades ou populao em geral.

Telessade como Recurso


As anlises realizadas indicam que as unidades da RUTE, alm de estarem
associadas s salas de videoconferncia do projeto, esto associadas estruturas de
tecnologia da informao e comunicao para a instituio e laboratrios com
computadores. So caracterizadas como recursos e no servios (Lopes 2013). A
RUTE proporciona uma oportunidade de colaborao remota regional, nacional ou
internacional importante para as atividades de pesquisa, desenvolvimento e inovao
e para realizar desenvolvimento tecnolgico em parcerias, mas ainda no agrega valor
ao sistema de PD&I face ao baixo grau de publicaes cientficas que gera.
As unidades utilizam-se de novas tecnologias no ensino sncrono, como os
ambientes

de

colaborao

audiovisual

(videoconferncia,

webconferncia

ou

teleconferncia), focada na participao de especialistas na discusso de casos


complexos.

225

A RUTE no conseguiu promover o acesso remoto aos servios de sade


especializados

para

regies

remotas,

por

meio

de

telemonitoramentos,

telediagnsticos, teleconsultas, segunda opinio. Apesar de ser reconhecida como um


componente de altssima importncia e algumas unidades terem mecanismos de
cooperao e de comunicao, falta a ela mecanismos de coordenao.
Ainda, existe pouca percepo sobre a influncia da RUTE na gesto da
sade, a no ser pela reduo dos deslocamentos desnecessrios de profissionais
para a instituio, ou de outras instituies, em relao s atividades acadmicas,
administrativas ou assistenciais.
Em relao percepo dos respondentes sobre importncia de cada questo
do questionrio, alguns foram coincidentes com nossa percepo ao selecionar as
perguntas essenciais, a priori, sendo realmente importantes na avaliao de PD&I a
colaborao remota regional, nacional ou internacional em atividades de pesquisa,
desenvolvimento e inovao; para o ensino, avaliar a participao de especialistas na
discusso de casos complexos por videoconferncia ou webconferncia; e para a
assistncia, avaliar a oferta de acesso remoto aos servios de sade especializados
no hospital universitrio. Mas para avaliar a gesto em sade e o impacto da RUTE na
sociedade, na percepo das unidades, a essncia est, respectivamente, no trabalho
colaborativo de gesto de servios de sade com outras instituies e na incluso
digital da comunidade local. A RUTE, no mnimo, no trouxe nenhum impacto negativo
sobre as unidades porque em nenhum momento a satisfao depois da implantao
da RUTE foi menor do que era antes. Mas, de fato, os maiores saltos de satisfao
so relativos aos componentes que coincidem com o maior grau de importncia
conferido pelas unidades, ou seja, participao de especialistas na discusso de casos
complexos

por

videoconferncia

ou

webconferncia

com

reduo

dos

deslocamentos desnecessrios de profissionais para a instituio, ou de outras


instituies, em relao s atividades acadmicas, administrativas ou assistenciais.
Outro componente que apresentou um salto significativo foi o da colaborao remota
regional, nacional ou internacional em atividades de pesquisa, desenvolvimento e
inovao.
A Figura 21 apresenta um grfico com a ampliao da regio de interesse e a
informao de importncia da pergunta. A partir dessa anlise verificamos que os
maiores deslocamentos de satisfao concentram-se na participao de especialistas
na discusso de casos complexos por videoconferncia ou webconferncia e na
reduo dos deslocamentos desnecessrios de profissionais para a instituio, ou de
outras instituies, em relao s atividades acadmicas, administrativas ou
assistenciais (por exemplo, reduo de deslocamento desses profissionais). Mas os

226

componentes mais importantes, na percepo dos respondentes das unidades, e que


maior impacto obtiveram com a RUTE so colaborao remota regional, nacional ou
internacional em atividades de pesquisa, desenvolvimento e inovao, e oferta de
acesso remoto (telemonitoramentos, telediagnsticos, teleconsultas, segunda opinio)
aos servios de sade especializados para regies remotas.
Com a anlise proporcionada por grficos em forma de radar foi possvel
observar que no h eixos preferncias de importncia, conforme exemplo na Figura
22. O eixo ensino tem um destaque sobre os demais eixos quando avaliamos o
impacto da RUTE na satisfao aps a RUTE e no gradiente (ganho) de satisfao.
Destacam-se tambm os maiores ganhos de satisfao para PD&I e assistncia, nesta
ordem.
Da mesma forma que na tese de Gundim (2009), realizamos uma avaliao de
centros de telemedicina e telessade, no caso, na viso da sustentabilidade, por
diferentes caractersticas. Esta pesquisa avaliou o impacto tambm em diferentes
eixos, mas deixou evidente a caracterstica do peso do eixo de ensino como propulsor
do projeto e dos demais eixos como PD&I e assistncia. Diferentemente do que
aponta outros estudos recentes e estruturantes de avaliao sobre projetos ou redes
de telemedicina (Khoja et al. 2013, Wootton et al. 2012). Nestes, os autores procuram
tambm analisar os vrios fatores, caractersticas, estgios e estruturas, de um projeto
de telemedicina, mas h uma forte tendncia de concentrar na assistncia o
componente motor dos projetos, e, eventualmente, tendo desmembramentos no
ensino, pesquisa ou na gesto de sade. Por outro lado, em ambos os estudos o
tempo desempenha um papel fundamental nos resultados e, portanto, a diferena
pode ser fruto da cronologia e histria de pases com mais tradio na rea de
telessade.
Ensino como Propulsor de Telessade
Na medio do desempenho da RUTE em cinco eixos de anlise foi possvel
identificar que o eixo de ensino se destaca e pode ser considerado propulsor do
projeto. Junto com PD&I a e assistncia, estes eixos melhoram o desempenho da
RUTE.
Concluimos tambm que existe alguma PD&I realizada pelas unidades, muitas
vezes caracterizada pela inovao no ensino tradicional e, portanto, fortalecendo
prticas de educao a distncia e de teleassistncias, mesmo que esta ltima tenha
carter ainda experimental. As unidades operacionais tm seu foco na utilizao para
o ensino, e depois na assistncia e PD&I. Tais unidade operacionais desenvolvem

227

sempre as aes propostas pelo projeto RUTE e tem sido demandadas por outros
problemas e projetos de telessade, com desdobramentos que tem transformando a
instituio e a sociedade.

Figura 21 - Grfico de satisfao antes e depois da RUTE com ampliao da resoluo na


rea de interesse (quadrante I de avano na satisfao, antes 1,0 a 3,0 e depois 3,0 a 5,0)
e avaliao da mdia da importncia das perguntas (Lopes 2013).

Figura 22 - Grfico radar das respostas por eixo para o questionrio completo (Lopes
2013).

228

Finalmente, concluimos que a RUTE, em relao s premissas previstas no


projeto proposto pela RNP e aprovado para o financiamento pela FINEP, tem
provocado o desenvolvimento de uma nova prtica de sade digital, principalmente em
relao ao ensino e pesquisa, e, por isso, precisa ampliar as aes sobre a
assistncia e a gesto na sade para amplificar o seu impacto sobre a sociedade.
Concluimos tambm que existe alguma PD&I realizada pelas unidades, muitas
vezes caracterizada pela inovao no ensino tradicional e, portanto, fortalecendo
prticas de educao a distncia e de teleassistncias, mesmo que esta ltima tenha
carter ainda experimental. As unidades operacionais tm seu foco na utilizao para
o ensino, e depois na assistncia e PD&I. Tais unidade operacionais desenvolvem
sempre as aes propostas pelo projeto RUTE e tem sido demandadas por outros
problemas e projetos de telessade, com desdobramentos que tem transformando a
instituio e a sociedade. Finalmente, concluimos que a RUTE, em relao s
premissas previstas no projeto proposto pela RNP e aprovado para o financiamento
pela FINEP, tem provocado o desenvolvimento de uma nova prtica de sade digital,
principalmente em relao ao ensino e pesquisa, e, por isso, precisa ampliar as
aes sobre a assistncia e a gesto na sade para amplificar o seu impacto sobre a
sociedade.
Este estudo apresenta uma contribuio diferente dos trabalhos mais recentes
(Khoja et al. 2013, Wootton et al. 2012). Os trabalhos mais recentes esto focados em
projetos de longa durao e arcabouos que consideram diferentes estgios de
desenvolvimento e diferentes tipos de avaliao, o que permitem desenvolver uma
capacidade de comparao entre projetos. Este estudo pratica um modelo de
avaliao que no considera somente os aspectos assistncias da rede de servios de
telessade, mas tambm outras dimenses. Como arcabouo analtico do estudo
foram propostas as dimenses assistencial, ensino, PD&I, gesto em sade e o
impacto sobre a sociedade.
No que tange s implicaes prticas para as unidades da RUTE, os
resultados obtidos podem ser utilizados, principalmente seus 14 achados e as snteses
das respostas s perguntas sobre PD&I, ensino, assistncia, pesquisa, outros projetos
de telessade, sucesso, falhas, alcance e desdobramento da RUTE, para elaborar um
planejamento estratgico, definindo aes que conduzam RUTE mais efetivamente a
sua misso e viso estratgicas. Tambm pode-se considerar este estudo para
planejar um sistema de informao de avaliao contnua do progresso do
desenvolvimento do projeto, ou ainda possa monitorizar e ordenar conforme uma
hierarquia (rank) as unidades da RUTE, para auto avaliao ou avaliao temporal da
evoluo das unidades. Finalmente, a coordenao pode estabelecer um modelo de

229

maturidade, com estgios hierrquicos, no qual cada estgio do modelo definido por
uma situao de entrada e melhores prticas para obter um nvel mais elevado na
situao de sada do estgio. Este modelo de maturidade poderia se constituir em um
guia de orientao para as unidades da RUTE, desde os novos at aqueles que j
esto operacionais. De forma agilizar e ordenar a expanso da RUTE.
Dentro do grupo de pesquisa estes aspectos esto sendo debatidos como
potenciais prximos passos, em especial uma ordenao (rank) e modelo de
maturidade. Ainda, pretendemos considerar a incluso de uma triangulao
envolvendo anlise de agrupamentos das unidades RUTE baseada na classificao
em grupos, anlise da rede colaborativa dos grupos de interesse especial (SIGs)
baseada em anlise de rede social, e por fim, anlise da opinio dos usurios da
RUTE baseada em critrios de satisfao.

5.5. Comentrios Finais

A gesto em sade pode ser definida como uma rea que compreende atividades de
formao, implementao e avaliao de polticas, instituies, programas, projetos e
servios de sade, bem como a conduo, gesto e planejamento de sistemas e
servios de sade (termo DeCS goo.gl/gHaLbl). Nossos estudos nesta rea
consideraram o uso da informtica na perspectiva do gestor e suas necessidades de
informao.
Como um dos subsdios de pesquias consideramos a utilizao de tcnicas de
descoberta de conhecimento de minerao de dados para tentar extrair padro de
dados que pudessem colaborar, assim, com essa perspectiva. Realizamos um estudo
para organizar e analisar os dados do projeto Epidoso, que acompanhou idosos do
bairro de Vila Mariana, So Paulo, buscando facilitar o acesso aos dados coletados ao
longo de 15 anos e identificar uma viso conjunta, integrada, considerando o sujeito, o
idoso, com suas caractersticas socioeconmicas, de agravos, e vulnerabilidades.
Nossa inteno foi colaborar com a integrao dos pesquisadores de diferentes
especialidades e pontos geogrficos que atuavam no projeto Epidoso. A partir da
construo de uma infoestrutura (Cohrs 2011) foi possvel oferecer um sistema web de
gerenciamento e visualizao dos dados do projeto, anteriormente distribudos em
diferentes formatos de arquivo e verses. Realizamos tambm uma investigao sobre
padres existentes nos dados completos, longitudinais, envolvendo 929 variveis
sobre 1.666 indivduos. A clusterizao proposta auxiliou na descrio de 3 perfis de

230

idosos, com descrio socioeconmica e de sade diferenciados. Para cada grupo foi
possvel identificar quais variveis coletadas apresentavam maior significncia
estatstica e podem auxiliar no direcionamento de programas de comunicao em
sade, ou mesmo na mudana de processo de atendimento de sade desses idosos.
A inovao neste estudo foi aplicar uma tcnica de anlise de agrupamentos, clssica,
para um problema que ainda no tinha sido investigado sob essa tica, com a incluso
de todas as variveis coletadas ao longo dos anos. Comunicao em sade pode ser
realizada de maneira especfica para os diferentes perfis detectados para aumentar
sua efetividade.
Outro estudo que realizamos teve motivao no modelo de identificao de
grupos homogneos de pacientes (diagnosis related groups DRGs) usado no clculo
de indicadores de sade pela Agency for Healthcare and Research Quality (ahrq.gov)
nos EUA. H interesse por parte do Ministrio da Sade e pela ANVISA para adoo
de maneira ampla de caractersticas deste modelo de clculo de indicadores aqui no
Brasil. Procedemos uma anlise de dados de alta de internao hospitalar da regio
de Ribeiro Preto, em parceria com o Centro de Processamento de Dados
Hospitalares (CPDH) da USP. Um estudo anterior (Noronha 2001) considerou um
intervalo menor de tempo, como perodo de anlise de 1 ano. Nosso interesse estava
em investigar como uma anlise de homogeneidade se comportaria ao consideramos
um perodo mais longo de tempo, por alguns anos. Havia uma expectativa, que no se
concretizou, de que seria necessrio propor um modelo de grupos homogneos
especfico para a realidade brasileira, e que um portal web com um sistema anlise
poderia auxiliar um gestor na tomada de deciso sobre o gerenciamento do sistema de
sade. As anlises realizadas possibilitaram avaliar 9 anos (1998-2006) como perodo,
com quase 1,5 milho de internaes hospitalares realizadas em 35 hospitais de 26
municpios da regio. O modelo de grupos International Refined Diagnosis Related
Groups (IR-DRG) foi utilizado com sucesso na anlise, o que nos levou a
desconsiderar a construo de um modelo brasileiro. Os resultados possibilitaram
discutir e compreender o macrocomportamento das internaes em funo dos grupos
IR-DRGs, a qualidade do preenchimento do dado dessas internaes e apontar
variaes sobre o tempo de internao em funo de grandes categorias diagnsticas
(Dalmati 2012). Os prximos passos destas pesquisa incluem construir uma viso
simplificada e georreferenciada dos resultados que facilite a anlise e tomada de
deciso por parte do gestor.
Com o foco no gestor da tecnologia de informao e comunicao de hospitais
e clnicas, realizamos um estudo sobre a conformidade de sistemas de informao de
estabelecimentos de sade a normas e recomendaes de gesto da segurana da

231

informao digital (Gottberg 2010). Mais especificamente nosso interesse estava em


definir requisitos de gesto de segurana da informao digital aplicveis a processos
hospitalares e a sistemas de registro eletrnico de sade, a partir de normas e
recomendaes da literatura, estabelecendo um padro-ouro a ser usado como
referncia e disponibilizar a verificao do grau de conformidade por meio de
questionrio eletrnico via sistema web. Normas ISO, diretrizes HIPAA, resoluo do
CFM, manual de requisitos para certificao de sistemas de informao em sade da
SBIS e outros documentos de boas prtcias foram utilizados como arcabouo para
gerarmos um instrumento de avaliao do grau de conformidade. Um questionrio web
com 13 questes sobre processos organizacionais e 12 questes sobre sistemas de
registro eletrnico de sade (S-RES) foi criado e respondido voluntariamente por 11
hospitais da regio metropolitana de So Paulo. Os resultados apontaram que h uma
baixa conformidade s normas e padres segundo a escala criada para os hospitais
respondentes. Para um tema to crtico como a segurana da informao em sade,
nas suas dimenses de confiabilidade, disponibilidade e confidencialidade, achamos
que, tanto em processos como em sistemas, a mdia (37,1% em processos e 39% em
sistemas) ficou muito abaixo da nossa expectativa. Foi possvel identificar que os tens
de segurana dos S-RES nos quais as instituies esto mais avanadas so: controle
de verso do software, controle de durao da sesso de usurio, gerao e
recuperao de cpia de segurana pelo S-RES, excluso ou alterao de dados
existentes no S-RES e funcionalidades de auditoria. J os itens de segurana menos
avanados so: documentao do S-RES, uso do certificado digital no S-RES, uso de
assinatura digital no S-RES e uso de certificado digital para autenticao de usurio.
Uma continuidade desse tema, no grupo de pesquisa, considera uma investigao
mais profunda das normas e padres para a segurana da informao em S-RES a
partir de uma anlise de agrupamentos (Carvalho Junior et al. 2013) e gerao de
escala de maturidade, com validao de especialistas. Este estudo, ainda em
desenvolvimento, considera a construo de um sistema mais robusto de identificao
de escala de maturidade quanto ao uso de diferentes normas e padres por meio de
seus requisitos. Esto sendo considerados 21 normas e guidelines sistmicos,
totalizando 4.412 requisitos e boas prticas para a composio do modelo de
referncia. Estes estudos podem contribuir para as atividades da ABNT/CEE-78
Informtica em Sade.
Realizamos tambm uma avaliao da evoluo da Rede Universitria de
Telemedicina (RUTE) por meio de um questionrio construdo a partir de modelos de
maturidade de programas de telessade. O objetivo geral foi investigar a insero do
projeto da RUTE nos hospitais universitrios, em 72 unidades, em relao s

232

premissas previstas no projeto original, visando explicitar sua contribuio no


desenvolvimento de uma nova prtica de sade digital. Os resultados possibilitaram
mensurar as transformaes relacionadas ao projeto na educao em sade, nas
prticas assistenciais colaborativas remotas, na pesquisa multicntrica e na pesquisa,
desenvolvimento e inovao da prpria telemedicina nos hospitais universitrios. Foi
possvel tambm identificar contribuies da RUTE na percepo dos coordenadores
das unidades. Por fim, foi apresentado um diagnstico geral do estado da RUTE a
partir destes eixos, cujos resultados auxiliam no planejamento de um instrumento
eletrnico, permanente, de apoio avaliao da RUTE, ao longo dos anos e a
melhoria da poltica e estratgia de PD&I para redes acadmicas de alta velocidade
voltadas a rea da sade.

5.6. Referncias

ABNT Associao Brasileira de Normas Tcnicas. NBR ISO/IEC 27.001; Sistemas de


Gesto de Segurana da Informao Requisitos. 2006.
AG-OPC Australian Government Office of the Privacy commissioner. [Internet] Privacy
Act. 1988. Available from: http://www.privacy.gov.au/law/act.
Arajo G, Caetano D, Coury W, Ribeiro Filho JL, Macedo VR, Messina LA, Moraes M,
Simes N, Verde TL. A Rede universitria de telemedicina - RUTE. in:
Mathias I, Monteiro A, Organizadores. Gold book [recurso eletrnico]:
Inovao Tecnolgica em Educao e Sade . Dados eletrnicos. Rio de
Janeiro : Ed. UERJ, 2012. [acesso em 2013 Fev 05]. Disponvel em:
http://www.telessaude.uerj.br/resource/goldbook/pdf/4.pdf.
Bacher J, Brand R, Bender S. SPSS Twostep cluster a first evaluation. [Internet]
2004 [cited 2010 Dec 17]; Available from: http://www.soziologie.wiso.unierlangen.de/publikationen/a-u-d-papiere/a_04-02.pdf.
Backer E. Computer-assisted reasoning in cluster analysis. Prentice Hall, 1995
Bashshur

RL.,

Mandil

SH,

Shannon

GW.

Introduction:

state-of-the-art

telemedicine/telehealth: an international perspective. Telemedicine Journal


and e-Health 2002 8 1, 3-4.
Brasil. Constituio. Constituio da Repblica Federativa do Brasil. Braslia, DF.
Senado, 1988. 292p.
Brusilovsky P. Cluster analysis vs. market segmentation. [cited 2010 Dec 17]; Available
from:http://www.bisolutions.us/Cluster-Analysis-vs.-Market-Segmentation.php.

233

Carvalho Junior MA, Lopes PRL, Corhs FM, Pisa IT. Health Informatics System
requirements dependency analysis as audit facilitator. Int. Res. J. Comput.
Sci. Inform. Syst. 2013 Jul;2(5):73-85.
Castellani B, Castellani J. Data mining: Qualitative analysis with health informatics
data. Qualitative Health Research. 2003;13(7):1005-18.
CFM Conselho Federal de Medicina (CFM). Resoluo n 1.246/88, 1988.
CFM Conselho Federal de Medicina. Resoluo CFM n 1.821/2007. Disponvel em:
Chhanabhai P, Holt A. Consumers are ready to accept the transition to online and
electronic records if they can be assured of the security measures. Medscape
General Medicine. 2007.
Cohrs FM, Sousa FS, Tenrio JM, Ramos LR, Pisa IT. Aplicao de Anlise de Cluster
em dados integrados de um estudo prospectivo: projeto epidoso como
cenrio. Journal of Health Informatics [Internet]. 2013 Mar 29 [citado em 25
Out

2013];5(1).

Disponvel

em:

http://www.jhi-sbis.saude.ws/ojs-

jhi/index.php/jhi-sbis/article/view/231
Cohrs FM. Portal Web para gesto de dados de estudo de coorte com posterior
anlise de cluster: o Projeto Epidoso como cenrio. So Paulo. Dissertao
[Mestrado em Sade Coletiva] - UNIFESP; 2011.
Dalmati CF. Aplicao do mtodo de grupos de diagnsticos homogneos (DRGs)
para classificao das internaes hospitalares de pacientes da regio de
Ribeiro Preto. So Paulo. Dissertao [Mestrado em Gesto e Informtica
em Sade] - UNIFESP; 18 de maio de 2012.
Dimitropoulos L. Privacy and security solutions for interoperable health information
exchange. USA Office of Policy and Research. 2007.
Fetter RB, Brand DA, Gamache D et. al. The DRG patient classification system background. In: DRGs: Their Design and Development. Ann Arbor (Michigan):
Health Administration Press; 1991. p. 3-27.
Fetter RB, Freeman JL, Averill RF, Thompson JD. Case-mix definition by diagnosis
related groups. Med Care 1980; 18 (Suppl.): 1-53.
Fonseca JS, Martins GA. Curso de estatstica. 6 Edio. So Paulo: Atlas, 1996,
320p.
Fountain JE. Digital government and public health. Centers for Disease Control and
Prevention, 2004.
Gelbard R, Goldman O, Spiegler I. Investigating diversity of clustering methods: an
empirical comparison. Data Knowl Eng. 2007;6(3):155-66.

234

Gottberg HN. Avaliao do grau de conformidade s normas e recomendaes em


gesto da segurana da informao digital em hospitais. So Paulo.
Dissertao [Mestrado em Sade Coletiva] - UNIFESP; 28 de julho de 2010.
Gundin RS. Gesto dos fatores determinantes para sustentabilidade de centros de
telemedicina. 2009. 185 p. Tese (Doutorada em Patologia) [acesso em 2013
Fev 05]. Available from: http://www.teses.usp.br/teses/disponiveis/5/5144/tde01042010-164018/en.php
Haddad AE. Experincia brasileira do programa nacional telessaude brasil. in: Mathias
I, Monteiro A, Organizadores. Gold book [recurso eletrnico]: Inovao
Tecnolgica em Educao e Sade . Dados eletrnicos. Rio de Janeiro :
EdUERJ,

2012.

[acesso

em

2013

Fev

05].

Disponvel

em:

http://www.telessaude.uerj.br/resource/goldbook/pdf/2.pdf.
Halling A, Fridh G, Ovhed I. Validating the john hopkins ACG case-mix system of the
elderly. In: Swedish primary health care. BMC Public Health 2006, 6:171.
Han J, Kamber M. Cluster analysis. In: Elsevier, editor. Data mining: concepts and
techniques. 2 ed. So Francisco: Morgan Kaufmann; 2006. p. 770.
Healy JC. The WHO eHealth resolution - eHealth for all by 2015? Methods Inf Med.
[Internet] 2007 [cited 2013 Feb 5];46(1):2-4. PubMed PMID: 17224974.
Available from: http://www.schattauer.de/en/magazine/subject-areas/journalsa-z/methods/contents/archive/issue/670/manuscript/7685.html
http://www.portalmedico.org.br/resolucoes/cfm/2007/1821_2007.htm. 2007.
ISO-TC215 International Organization for Standartization Technical Committee 215
Health Informatics. ISO/IEC 27799:2008 - Health informatics - Information
security management in health using ISO/IEC 27002. 2008.
Khoja S, Durrani H, Scott R, Sajwani A, Piryani U. Conceptual framework for
development of comprehensive e-Health evaluation tool. Telemedicine and eHealth. 2013 January; 19(1): 48-53.
Kotler P, Keller KL. Identificao de segmentos de mercado e seleo de mercadosalvo. Administrao de Marketing. 12 ed. So Paulo: Pearson Prentice Hall;
2006. p. 236-65.
Kotler P, Shalowitz J, Stevens RJ. Planejamento e gerenciamento integrado de
comunicao de marketing. In: Marketing estratgico para a rea da sade.
So Paulo: Bookman; 2010. p. 395-448.
Kulikowski CA, Shortliffe EH, Currie LM, Elkin PL, Hunter LE, Johnson TR, Kalet IJ,
Lenert LA, Musen MA, Ozbolt JG, Smith JW, Tarczy-Hornoch PZ, Williamson
JJ. AMIA Board white paper: definition of biomedical informatics and

235

specification of core competencies for graduate education in the discipline. J


Am Med Inform Assoc 2012;19:931-938 doi:10.1136/amiajnl-2012-001053.
Levcovitz E, Pereira TRC. SIH/SUS (Sistema AIH): uma anlise do sistema pblico de
remunerao de internaes hospitalares no Brasil - 1983 - 1991. In: 196
Instituto de Medicina Social da Universidade do Estado do Rio de Janeiro.
Srie Estudos em Sade Coletiva . Rio de Janeiro. 1993; n.57.
Lima TCP, Monteiro CH. VI congresso nacional de excelncia em gesto: perfil do
administrador hospitalar. 2010.
Lopes PRL, Pisa IT, Wainer J, Sigulem D. Telemedicina e a prtica mdica. In: Lopes
AC (Org.). Tratado de Clnica Mdica. 2ed. So Paulo, SP: Editora Rocca;
2009. 20(1). p. 163-8.
Lopes PRL. Investigar a contribuio da Rede Universitria de Telemedicina no
desenvolvimento de uma nova prtica de sade digital. So Paulo. Tese
[Doutorado em Gesto e Informtica em Sade] - UNIFESP; 12 de novembro
de 2013.
Mathias I, Monteiro A, Organizadores. Gold book [recurso eletrnico] : Inovao
Tecnolgica em Educao e Sade. Dados eletrnicos. Rio de Janeiro :
EdUERJ,

2012.

[acesso

em

2013

Fev

05].

Available

from:

http://www.telessaude.uerj.br/resource/goldbook
McGregor C, Percival J, Curry J, Foster D, Anstey E, Churchill D. A structured
approach to requirements gathering creation using PaJMa models, 2008.
Mullin RL. Development of DRGs. In: Proceedings of International Conference on
Management and Financing of Hospital Services. London: Health Systems
Management Group da School of Organization and Management/Henry J.
Kaiser Family Foundation; 1986. p. 15-8.
Myers J, Frieden T, Bherwani K, Henning K et. al. Privacy and public health at risk:
public health confidentiality in the digital age. American Journal of Public
Health Vol. 98, No. 5, 2008.
NCBI National Center of Biologic Information. [cited 2009 Nov 28]. Available from:
http://www.ncbi.nlm.nih.gov/sites/entrez.
Noronha MF. Classificao de hospitalizaes em Ribeiro Preto: os diagnosis related
groups. So Paulo, 2001. 200p. Tese (doutorado) Faculdade de Sade
Pblica da Universidade de So Paulo.
Passos ADC, Perdona G, Rocha JSY, Monteiro RA, Pereira Jr.GA, Licio JF, Franco LJ,
Scarpelini S et. al. Doenas e agravos no transmissveis. 1. ed. Ribeiro
Preto: Angelo Marcelo Fossa EPP, 2010. v. 1. 262 p.

236

Ramos LR, Rosa TEC, Oliveira ZM, Medina MCG, Santos FRG. Perfil do idoso em
rea metropolitana na regio sudeste do Brasil: resultados de inqurito
domiciliar. Rev. Sade Pblica. 1993;27(2):87-94.
Ravera L, Colombo I, Tedeschi M, Ravera A. Security and privacy at the private
multispecialty hospital instituto clinico humanitas: strategy and reality.
International Journal of Medical Informatics (2004) 73, 321324.
Roiger RJ, Geatz MW. Data mining: a tutorial-based primer. New York: Addison
Wesley; 2003.
Rosa IV. Festinger revisitado: sacrifcio e argumentao como fontes de conflito na
tomada de deciso. Anlise Psicolgica [serial on the Internet]. 2006; 24(2):
Available

from:

http://www.scielo.oces.mctes.pt/scielo.php?script=sci_arttext&pid=S087082312006000200004&lng=pt&nrm=iso.
Sigulem, D. Um novo paradigma de aprendizado na prtica mdica da UNIFESP/EPM.
So Paulo. Tese [livre-docncia] - Universidade Federal de So Paulo/Escola
Paulista de Medicina. 1997.
Silva AB, Hammerli I, Moraes S. O caso da Rede Universitria de Telemedicina:
anlise da entrada da telessade na agenda poltica brasileira. Physis Revista
de Sade Coletiva. 2012:1211-1235.
Silver LD, Travassos VC, Noronha MF, Martins MS, Leite IC. Estudo da validade dos
Diagnosis Related Groups (DRG) para internaes hospitalares no Brasil. Rio
de Janeiro: Escola Nacional de Sade Pblica, Fundao Oswaldo Cruz;
1992. (Relatrio final de pesquisa).
SPSS

I.

1122644952_The

application/pdf):

SPSS
SPSS

TwoStep
Inc.;

Cluster
2001.

Component.pdf
Available

(objeto
from:

http://www.spss.ch/upload/1122644952_The%20SPSS%20TwoStep%20Clust
er%20Component.pdf.
Teng Z, Liu Y, Ren F, Tsuchiya S, Ren F. Single document summarization based on
local topic identification and word frequency, 2008.
Theodoridis S, Koutroumbas K. Pattern recognition. 4 ed. USA: Elsevier; 2009.
UK-OPSI United Kingdom Office of Public Sector information, Data Protection Act
Chapter

29.

[Internet].

1988.

Available

from

http://www.opsi.gov.uk/acts/acts1998/ukpga_19980029_en_1.
US-DHHS United States Dept. of Health and Human Services. General overview of
standards for privacy of individually identifiable health information. [internet]
2003. Available from: http://www.hhs.gov/ocr/hipaa/guidelines/overview.pdf.

237

US-DHHS United States Dept. of Health and Human Services. HIPAA Administrative
Simplification

Regulation

Text.

[Internet]

2006.

Available

from:

http://www.hhs.gov/ocr/AdminSimpRegText.pdf.
Velmurugan T, Santhanam T. Computational complexity between k-means and kmedoids clustering algorithms for normal and uniform distributions of data
points. Journal of Computer Science. 2010:6(3):363-8.
Vogel L, Perreault L. Management of Information in Healthcare Organizations. In:
Shortliffe E, Cimino J, organizadores. Biomedical Informatics: Computer
Applications in Health Care and Biomedicine, 3rd ed. 2006, p. 476-510.
Wootton R, Geissbuhler A, Jethwani K, Kovarik C, Person DA, Vladzymyrskyy A, et al.
Comparative performance of seven long-running telemedicine networks
delivering humanitarian services. Journal of Telemedicine and Telecare
[Internet].

2012

Sep

1;

18(6):30511.

Available

from:

http://jtt.rsmjournals.com/content/18/6/305.abstract
Yazlle RJS, Simoes BJG. Estudo da assistncia hospitalar pblica e privada em bases
populacionais, 1986-1996. Rev. Sade Pblica. 1999 Feb;33(1):44-54.
Zanetta SFR. Morbidade no Hospital das Clnicas: identificao de perfis e
desenvolvimento de instrumento de monitoramento. So Paulo, 2003. 160p.
Dissertao (Mestrado) Faculdade de Medicina da Universidade de So
Paulo.

238

6.

CONSIDERAES FINAIS

Este documento teve como objetivo apresentar estudos realizados pelo autor
considerando a rea de descoberta de conhecimento e minerao de dados, dentro da
grande rea da informtica em sade. Foi elaborado com o objetivo de apresentar
resultados e discusses sobre pesquisas acadmicas realizadas pelo autor e seus
colaboradores para o Concurso de Livre Docncia 2013 da UNIFESP, junto ao
Departamento de Informtica em Sade (Disciplina de Informtica em Sade). A
atividade de pesquisa descrita neste documento se enquadra na rea de informtica
em sade e foi conduzida principalmente com a participao de ps-graduandos do
Programa de Ps-graduao em Gesto e Informtica em Sade (antes denominado
apenas Informtica em Sade) da UNIFESP, que integram o grupo de pesquisa Sade
360 (saude360.com.br) cadastrado no Diretrio de Grupos de Pesquisa CNPq.
Nossas pesquisas concentram-se na utilizao de preceitos, tcnicas,
procedimentos e modos de avaliao integrantes do currculo proposto da disciplina de
descoberta de conhecimento e minerao de dados (knowledge discovery and data
mining KDD), segundo o grupo especial de interesse SIGKDD da Association for
Computing Machinery (ACM acm.org) (Chakrabarti et al. 2006), para a rea da sade.
Os conceitos e aplicao de tcnicas de consulta em base de dados (database query),
busca por informao (information search) que inclui minerao de dados ,
descoberta de conhecimento (knowledge Discovery), gesto do conhecimento
(knowledge management) e inteligncia de negcios (business intelligence) esto
relacionados medida em que aumenta a dependncia dos domnios de
conhecimento envolvidos para sua organizao (Bendoly 2003).
Desenvolvemos experincia colaborativa em diferentes trabalhos e aplicaes
metodolgicas que podem ser descritas em 3 eixos, sendo (1) informtica para a
sade do consumidor, (2) sistemas de apoio a deciso em sade, e (3) informtica
para a gesto em sade. Estes 3 eixos representam 3 escalas de aplicao da viso
da informtica em sade, sendo (1) viso do consumidor, (2) viso do profissional de
sade, e (3) viso do gestor de sade. No entanto, outras vises da aplicao da
informtica em sade tambm permearam nossos estudos, como a viso do
pesquisador acadmico, do estudante, do editor e publicador (scientific publisher), do
professor em cincias da sade, do tcnico hospitalar, do engenheiro biomdico, do
enfermeiro, do gestor e a autoridade de sade, entre outros (Brittain e Norris 2000).
Os resultados de nossos estudos focados na prpria rea da informtica em
sade possibilitaram apresentar uma anlise epistemolgica da rea (Colepcolo

239

2008), que incluiu estudo estatstico de descritores de artigos cientficos e pesquisa de


opinio com profissionais-chave, propor uma nova abordagem de classificao de
artigos cientficos da informtica em sade baseado na categorizao do Portal ISI
Web of Knowledge (Teixeira 2011), a partir da adaptao do algoritmo Journal
Descriptor Indexing (JDI) da National Library of Medicine (NLM), e investigar aspectos
de ligao entre pesquisadores da rea usando tcnicas e mtricas da anlise de rede
social (Santo et al. 2012).
Os resultados de nossos estudos no eixo de informtica em sade para o
consumidor possibilitaram apresentar um classificador de contedos textuais sobre
sade provenientes da web (Mancini 2011, Sousa 2011, Falco et al. 2009, Falco et
al. 2010), incluindo aspectos de adequao tica e multirrotulao, e resultados sobre
o impactos da utilizao de uma tecnologia simples e abrangente, como o envio de
mensagens de texto por celular, pode gerar na adeso de pacientes e recuperao
clnica (Costa et al. 2012, Prado et al. 2012, Costa et al. 2010).
Os resultados de nossos estudos no eixo de sistemas de apoio a deciso
colaboraram com a proposta de um sistema de auxlio para o diagnstico de doena
celaca (Tenrio et al. 2011), um sistema para auxlio na indicao de bipsia para
pacientes ps-transplantados renais (Hummel et al. 2011, Hummel et al. 2010, Maciel
et al. 2010), um sistema de auxlio para a classificao da maturao ssea, baseado
na maturao vertebral cervical, para a ortodontia (Bapstista et al. 2012), e um sistema
semntico de taxonomias e relaes entre termos para laudos de bipsia renal (Reis
2013, Nicolas et al. 2013).
Os resultados de nossos estudos no eixo de informtica para a gesto em
sade possibilitaram apresentar uma descrio de perfis de idosos da regio da Vila
Mariana por meio da anlise de agrupamentos (Corhs et al. 2013), expor uma
classificao de internaes hospitalares de larga escala para a regio de Ribeiro
Preto (Dalmati 2012), um estudo sobre a conformidade de sistemas de informao de
hospitais a normas e recomendaes da rea da informtica em sade (Carvalho
Junior et al. 2013, Gottberg 2010) e uma avaliao da evoluo de programas de
telessade da Rede Universitria de Telemedicina (RUTE)(Lopes 2013).
Estes estudos seguem uma abordagem de investigao vinda da descoberta
de conhecimento e minerao e dados (Chakrabarti et al. 2006), dentro da rea de
pesquisa em informtica em sade (Wainer et al. 2006). Utilizamos, ao longo desses
anos, tcnicas de inteligncia artificial para classificao e indexao de dados,
tcnicas de minerao de texto para limpeza e categorizao de termos, tcnicas de
minerao de dados para identificao de padres, anlise estatstica para
comparao de grupos homogneos, anlise de agrupamentos para gerador de

240

hipteses e relaes e procedimentos de aquisio de conhecimento do especialista


em sade para gerar condies de contorno para as solues propostas.
Do ponto de vista da gesto do conhecimento, os processos de minerao de
dados possibilitaram a criao de uma informao bem-definida, transfervel. Em
contraste, os processos de descoberta de conhecimento foram caracterizados pela
recuperao de dados, limpeza de dados, especificao de critrios e anlise de
desempenho. Os processos de KDD aplicados aglomeraram informao inerente
temtica de sade investigada por meio de aplicao de tcnicas como minerao de
dados para a gerao de domnios de conhecimento.
No entanto, algumas vezes o conhecimento gerado no se traduziu em uma
aplicao imediata, frustrando pesquisadores e profissionais de sade envolvidos. Mas
mesmo nesses casos, as anlises produzidas auxiliaram na compreenso de novos
aspectos do tema de sade em questo. No mnimo o conhecimento gerado se
apresentou como um gerador de hipteses (ora aceitas, ora recusadas) do qual
decorreram novos questionamentos e desenvolvimentos.
Criatividade e intuio tambm fizeram parte dos passos metodolgicos, alm
de muita transpirao e trabalho com a informao adquirida e, especialmente, a partir
do conhecimento de especialistas e profissionais de sade envolvidos nos estudos. Se
demandamos muito hardware para poder realizar nossas anlises, baseadas na
execuo de software, demandamos muito mais, ao longo dos anos, do conhecimento
do especialista relacionado ao tema da sade foco da investigao. Mais por meio das
pessoas, que propriamente dos computadores e das lgicas, que os processos de
descoberta de conhecimento e minerao de dados surtiram sucesso em nossas
investigaes na rea da sade. E o modelo de pesquisa colaborativa (Fuks et al.
2002) baseada na cooperao, comunicao e coordenao foi o caminho para
poder transformar boas intenes da aplicao da informtica em sade em resultados
satisfatrios, que colaboraram com a comunidade cientfica e com o tema de sade
em investigao.
Nosso planejamento para os prximos anos na pesquisa em descoberta de
conhecimento e minerao de dados em sade considera incluir no arsenal de
tcnicas usadas uma abordagem mais robusta das tcnicas de lingustica
computacional para utilizao de mapas semnticos e mtricas de anlise de rede
social. Pretendemos construir uma viso holstica, visual e quantitativa, do
relacionamento de diferentes bases de dados de sade que originalmente no se
relacionam, integrando a iniciativa linked open data com dados abertos em portugus
brasileiro. Pretendemos, inicialmente, abordar estabelecimentos de sade do CNES,

241

currculos da Plataforma Lattes CNPq, conceitos do Wikipdia e opinies veiculadas


em redes sociais.
O inter-relacionamento a ser construdo possibilitar gerar informao para
diferentes tipos de usurio. Como exemplos de informao podemos citar (1)
localizao de hospitais especializados mais prximos do usurio, (2) localizao de
profissionais de sade por especialidades, hospitais ou interesses, (3) avaliao da
opinio de usurios sobre hospitais e profissionais de sade. Mais que isso, nossa
expectativa explicitar alguns fenmenos de ligao entre profissionais de sade,
estabelecimentos e reas da sade. Como exemplos de fenmenos podemos citar (1)
correlao entre profissionais de sade que esto trabalhando em estabelecimentos
de sade que atuam em suas especialidades de formao, (2) migrao de
profissionais de sua regio de formao para regio de atuao, (3) distribuio de
profissionais de sade e especialidades mdicas por regio, (4) identificao de
alertas e temas de sade por regio, e (5) qualificao de estabelecimentos de sade
pelos consumidores.
Acreditamos que a utilizao de representao semntica e mtricas de anlise
de rede social cada vez mais prximas ao domnio de conhecimento do tema de sade
investigado, aliados ao arsenal clssico de tcnicas de descoberta de conhecimento e
minerao de dados (Chakrabarti et al. 2006), poder gerar um salto qualitativo nos
resultados e no impacto para problemas de informao e tomada de deciso na
sade, tanto para as demandas do gestor e autoridade da sade, para auxiliar a
atividade do profissional de sade mas, especialmente, para o consumidor de sade.
A demanda por novas tcnicas e abordagens em funo do fenmeno big data (Peek
2013) j est colocada para a sade h algum tempo, em diversas reas de pesquisa
e aplicao. Nossa colaborao para a rea da informtica em sade nos prximos
anos, portanto, ser continuar na formao de pesquisadores preparados para lidar de
maneira inovadora e criativa com os procedimentos e tcnicas da descoberta de
conhecimento e minerao de dados para garantir maior interoperabilidade,
capacidade de armazenamento e representao, tornando a informao em sade
mais til e transformadora para a sociedade.

242

6.1. Referncias
Baptista RS, Quaglio CL, Mourad LMEH, Hummel AD, Caetano CAC, Ortolani CLF,
Pisa IT. A semi-automated method for bone age assessment using cervical
vertebral maturation. The Angle Orthodontist. 2012 Jul;82(4):658-62.
Bendoly E. Theory and support for process frameworks of knowledge Discovery and
data mining from ERP systems. Information & Management. 2003;40:639-647.
Brittain JM, Norris AC. Delivery of health informatics education and training. Health
Library Review. 2000;17(3):117-128.
Carvalho Junior MA, Lopes PRL, Corhs FM, Pisa IT. Health Informatics System
requirements dependency analysis as audit facilitator. Int. Res. J. Comput.
Sci. Inform. Syst. 2013 Jul;2(5):73-85.
Chakrabarti S, Ester M, Fayyad U, Gehrke J, Han J, Morishita S, Piatetsky-Shapiro G,
Wang W. Data Mining Curriculum: A Proposal (Version 1.0). Intensive
Working Group of ACM SIGKDD Curriculum Committee. 2006 Apr 30. [cited
2013 Oct 20] Available from: http://www.kdd.org/sites/default/files/CURMay06
.pdf
Cohrs FM, Sousa FS, Tenorio JM, Ramos LR, Pisa IT. Aplicao de anlise de cluster
em dados integrados de um estudo prospectivo: projeto epidoso como
cenrio. J. Health Inform. 2013 Jan;5(1):17-22.
Colepcolo E. Epistemologia da informtica em sade: entre a teoria e a prtica. So
Paulo. Dissertao [Mestrado em Informtica em Sade] - Universidade
Federal de So Paulo; 2008.
Costa TM, Barbosa BJ, Gomes e Costa DA, Sigulem D, de Ftima Marin H, Filho AC,
Pisa IT. Results of a randomized controlled trial to assess the effects of a
mobile SMS-based intervention on treatment adherence in HIV/AIDS-infected
Brazilian women and impressions and satisfaction with respect to incoming
messages. Int J Med Inform. 2012 Apr;81(4):257-69.
Costa TM, Salomo PL, Martha AS, Pisa IT, Sigulem D. The impact of short message
service text messages sent as appointment reminders to patients cell phones
at outpatient clinics in So Paulo, Brazil. Int. J. Med. Inform. 2010 79:65-70.
Dalmati CF. Aplicao do mtodo de grupos de diagnsticos homogneos (DRGs)
para classificao das internaes hospitalares de pacientes da regio de
Ribeiro Preto. So Paulo. Dissertao [Mestrado em Gesto e Informtica
em Sade] - UNIFESP; 18 de maio de 2012.

243

Falco AEJ, Mancini F, Costa TM, Hummel AD, Teixeira FO, Sigulem D, et al. InDeCS:
Mtodo Automatizado de Classificao de Pginas Web de Sade Usando
Minerao de Texto e Descritores em Cincias da Sade (DeCS). Journal of
Health Informatics 2009;1(1):1824
Falco AEJ, Mancini F, Teixeira FO, Sousa FS, Hummel AD, Sigulem D, Pisa IT.
Analysis of the Use of Social Media for Adequacy Evaluation of Health
Related Websites Based on Health on Net Code. In: MEDINFO 2010, 2010,
Cape Town. MEDINFO. Amsterdam : IOS Press, 2010. v. 2. p. 1405.
Fuks H, Raposo AB, Gerosa MA, Lucena CJP. O Modelo de Colaborao 3C e a
Engenharia de Groupware. Monografias em Computao. 2002;17(2).
Gottberg HN. Avaliao do grau de conformidade s normas e recomendaes em
gesto da segurana da informao digital em hospitais. So Paulo.
Dissertao [Mestrado em Sade Coletiva] - UNIFESP; 28 de julho de 2010.
Hummel AD, Maciel RF, Rodrigues RGS, Pisa IT. Application of artificial neural
networks in renaltransplantation: classification of nephrotoxicity and acute
cellular rejection episodes. Transplant. Proc. 2010 Mar;42(2):471-72.
Hummel AD, Maciel RF, Sousa FS, et al. Artificial intelligence techniques: predicting
necessity for biopsy in renal transplant recipients suspected of acute cellular
rejection or nephrotoxicity. Transplantation Proceedings, 2011 May; 43 (4):
1343-44.
Lopes PRL. Investigar a contribuio da Rede Universitria de Telemedicina no
desenvolvimento de uma nova prtica de sade digital. So Paulo. Tese
[Doutorado em Gesto e Informtica em Sade] - UNIFESP; 12 de novembro
de 2013.
Maciel RF, Hummel AD, Cohrs FM, Mancini F, Falco AEJ, Teixeira FO, Costa TM,
Sousa FS, Alves D, Miranda R, Pisa IT. Aplicao de Tcnicas de Inteligncia
Artificial

em

Transplantes

Renais:

Classificadores

Automticos

para

Nefrotoxicidade e Rejeio Celular Aguda. J. Health Inform. 2010 Jul;2(3):727.


Mancini F. Construo e Avaliao de um Portal de Busca de Contedos Web em
Sade Baseado em Minerao Web. So Paulo. Tese [Doutorado em Gesto
e Informtica em Sade] - UNIFESP; 2011.
Nicolas FP, Abraham KJ, Reis AR, Pisa IT, Ruiz EES. Avaliao de tcnicas de
aprendizado de mquina para classificao de sees de laudos de bipsia
renal auxiliada pela terminologia DeCS. In: XII Workshop de Informtica
Mdica. Curitiba. Prmio melhor trabalho em desenvolvimento. Jul 2013.

244

Prado CS, Tenrio JM, Ruiz EES, Ortolani CLF, Pisa IT. Impacto da utilizao de
mensagens do tipo SMS - Short Message Service. J. Health Inform. 2012
Out;4(4):159-64.
Reis AR. Aplicao de Tcnicas de Minerao de Textos para Categorizao de
Diagnsticos em Laudos de Bipsias Renais. So Paulo. Dissertao
[Mestrado em Cincias - Gesto e Informtica em Sade] - UNIFESP; 2013.
Santo CC, Bonome KS, Teixeira F, Araujo GD Pisa IT. Rede Social de Currculos
Lattes da Informtica em Sade Brasileira. In: XIII Congresso Brasileiro de
Informtica em Sade - CBIS2012; 2012 Nov 19-23; Curitiba, PR: 2012. p1-2.
Sousa FS. Anlise Comparativa de Mtodos de Recuperao de Informao para
Categorizao de Contedos Web Relacionados Sade. So Paulo.
Dissertao [Mestrado em Cincias - Gesto e Informtica em Sade] UNIFESP; 2011.
Teixeira FO. Classificao e Indexao de artigos cientficos Internacionais de
Informtica em Sade. So Paulo. Dissertao [Mestrado em Cincias Gesto e Informtica em Sade] - Universidade Federal de So Paulo; 2011.
Tenrio JM, Hummel AD, Cohrs FM, Sdepanian VL, Pisa IT, Heimar FM. Artificial
intelligence techniques applied to the development of a decision support
system for diagnosing celiac disease. Int. J. Med. Inform. 2011 80:793-802.
Wainer J, Campos CJR, Sigulem D, Lopes P, Salomo P. O que pesquisa em
informatica em sade. Revista de Informtica Terica e Aplicada. 2006;13:4256.

Anda mungkin juga menyukai