Anda di halaman 1dari 18

Deteccin de brotes

gripales a partir de
datos de Twitter
Alex Bartrol Muoz

CC-BY-NC-ND

Deteccin de brotes gripales a partir de datos de Twitter

CC-BY-NC-ND

Deteccin de brotes gripales a partir de datos de Twitter

Tabla de contenido
Introduccin.............................................................................................................................4
1. Anlisis del contexto.........................................................................................................5
1.1. Los stakeholders: actores vinculados a la actividad asistencial del hospital.... 5
1.2. El funcionamiento bsico de las reas de urgencias .................................................. 6
1.3. El funcionamiento bsico de las reas de hospitalizacin ....................................... 9
1.4 Enfermedades Infecciosas...................................................................................................10
1.5 Redes sociales..........................................................................................................................12

2. Motivacin......................................................................................................................... 14
3. Enunciado del caso Prctico........................................................................................ 15
3.1 Trabajo a realizar...................................................................................................................15
3.2 Fuentes de datos suministradas .......................................................................................16
3.3 Notas tcnicas: Recuperacin de datos de Twitter ...................................................16

CC-BY-NC-ND

Deteccin de brotes gripales a partir de datos de Twitter

Introduccin
El contexto del material que presentamos a continuacin est basado en un caso real, la
evolucin del modelo sanitario cataln y la transformacin de sus sistemas de
informacin para adaptarse al entorno y a las nuevas estrategias planteadas, descritas y
desarrolladas en el material docente Los sistemas de informacin en el Institut Catal
de la Salut. Trazando una estrategia BI a partir del Proyecto Argos. Este material,
titulado Sistema de prediccin de brotes virales a partir de la informacin de redes
sociales, es la continuacin de los casos prcticos anteriores Implementando un
cuadro de mando integral en un hospital general bsico y Diseo de un almacn de
datos para la gestin de hospitalizacin de un hospital bsico general y est enfocado a
la definicin de un sistema de prediccin de brotes virales de gripe a partir de la
informacin introducida por los usuarios en las redes sociales.
El objetivo de este trabajo es desarrollar un sistema capaz de predecir la aparicin de
brotes vricos gripales antes de que se produzcan. Para ello se definir un sistema capaz
de recuperar de las redes sociales los mensajes publicados por los usuarios sobre la
gripe y comparar el grado de similitud de la situacin actual con periodos de aos
anteriores que han precedido a un brote gripal.
Con el fin de poder desarrollar un proyecto lo ms especfico posible, el estudiante
deber definir los procesos de recuperacin de informacin de las redes sociales,
elaborar un cuadro de mando para la toma de decisiones, definir una estrategia de
almacenamiento y explotacin de informacin del almacn de datos e indicar posibles
mejoras futuras de la herramienta de prediccin.
Cabe considerar que en circunstancias normales, incluso en los centros lderes en la
adopcin e implantacin de herramientas de minera y explotacin de la informacin, el
desarrollo de estas herramientas supone proyectos de meses o incluso aos, con la
participacin de equipos multidisciplinarios que los van implementando a lo largo del
tiempo, en un proceso de mejora continua.
En este sentido, el objetivo del caso no es tanto desarrollar exhaustivamente el sistema
de prediccin, sino entender el proceso de extraccin de informacin de las redes
sociales, sus limitaciones y aprender como analizar estos datos de forma efectiva,
creando algunos artefactos de BI predictivos que puedan ser integrados en los cuadros
de mandos y almacenes de datos trabajados anteriormente.

CC-BY-NC-ND

Deteccin de brotes gripales a partir de datos de Twitter

1. Anlisis del contexto


El desarrollo de este caso se centra fundamentalmente en las reas de urgencias y
hospitalizacin. La previsin de brotes vricos puede permitir realizar una estimacin de
los servicios de urgencias y hospitalizacin y por tanto prevenir posibles
aglomeraciones por retrasos en los tratamientos.
Para que el estudiante tenga una referencia ms concreta sobre la que desarrollar el
caso, se propone una estructura genrica de la organizacin, as como una descripcin
general de los procesos bsicos de urgencias y hospitalizacin. Esta estructura se ofrece
solamente a ttulo orientativo sin que tenga que condicionar el desarrollo del caso. El
propsito principal es que sirva como referencia a todos aquellos que no estn
familiarizados con estos entornos, con el fin de que puedan comprender mejor la
actividad propia de un centro hospitalario.

1.1. Los stakeholders: actores vinculados a la actividad asistencial del


hospital
Antes de entrar a detallar el funcionamiento de las reas de urgencias y hospitalizacin,
haremos un breve anlisis de los principales actores que se deben tener en cuenta en la
definicin de un sistema deteccin de brotes vricos y, en consecuencia, qu tipo de
preguntas debe de ser capaz de responder nuestro sistema de prediccin.
Los actores involucrados en un sistema de salud suelen tener intereses muy diversos y a
menudo contrapuestos. En nuestro caso particular los actores a tener en cuenta son:
1) Las autoridades sanitarias, tanto por lo que respecta al Departamento de Salud
de la Generalitat como al Catsalut. A partir de sus polticas sanitarias y de
compra de servicios, determinarn de forma clave la actividad que debe
proporcionar finalmente nuestro centro. No podemos olvidar que un altsimo
porcentaje de la facturacin de los hospitales pblicos proviene de las propias
autoridades sanitarias y, por lo tanto, ser esencial dotarnos de mecanismos que
nos aseguren que nuestra cartera de servicios y nuestra capacidad de
produccin estn ajustadas a la oferta que debemos proveer.
2) La institucin ICS. En nuestro caso, al tratarse de un centro del Instituto
Cataln de la Salud (ICS), los objetivos estratgicos de la institucin ICS
necesariamente se trasladarn a cada uno de los centros. Con toda probabilidad,
gran parte de estos objetivos estarn completamente alineados con los objetivos
de las autoridades sanitarias, pero habr otros que estarn condicionados por las
propias directrices corporativas, o incluso, por los procesos internos de gestin
en mbitos como pueden ser: logstica, compra agregada, poltica de recursos
humanos, compra de productos intermedios, etc.
3) La propia direccin del centro. Obviamente, tendr un papel clave segn el
grado de autonoma que le otorga el propio ICS, supuestamente cada vez mayor
debido a los procesos de descentralizacin que se estn produciendo dentro del
nuevo modelo de empresa pblica, tal y como ya apuntbamos en el desarrollo
del primer caso. Probablemente, en un hospital general bsico el grado de
diferenciacin o especializacin no ser significativo y, por tanto, el grado de
personalizacin y especificidad de su sistema de cuadro de mando tampoco lo
ser.

CC-BY-NC-ND

Deteccin de brotes gripales a partir de datos de Twitter

4) Los profesionales. Otro de los actores relevantes sern los propios profesionales
que desarrollan su actividad en las diferentes reas, como asistencial,
administrativa, etc. Ser esencial para los responsables de las distintas reas
disponer de mecanismos para el seguimiento y control de sus actividades, as
como de la calidad de los servicios que prestan, tanto desde un punto de vista
cualitativo como cuantitativo. Cabe tener en cuenta que su actividad estar
enormemente condicionada por la oferta que deben generar (de acuerdo a la
compra de servicios pactada con las autoridades sanitarias) y de los recursos de
que dispongan para satisfacerla de acuerdo a unos determinados estndares de
calidad, propios o inducidos por otros actores.
5) El propio entorno sanitario del centro. Es imprescindible tener en cuenta la
interrelacin y colaboracin entre los diferentes actores dentro de un mismo
territorio (rea capitativa).
6) El entorno poltico y social del centro. No debemos olvidar que estamos
trabajando con servicios pblicos y que se establece una estrecha relacin entre
los distintos mbitos sociopolticos locales: gobiernos locales, servicios sociales,
agrupaciones de vecinos, colectivos especficos, etc. Aunque no existe una
relacin directa entre la atencin individualizada y el papel que desempean
estos colectivos, est claro que juegan un papel decisivo en lo referente a
representacin social y, por lo tanto, es necesario tenerlos en cuenta en el
desarrollo de determinadas estrategias.
7) El ciudadano. El ltimo actor a describir, aunque probablemente uno de los ms
relevantes. El ciudadano, entendido como el paciente y su entorno familiar
directo, es el beneficiario directo del servicio prestado. Sobre l ser preciso
desarrollar un seguimiento especfico, y no solo desde el punto de vista
asistencial sino tambin desde el emocional y espiritual. En este sentido, cabe
tener presente que la atencin sanitaria va mucho ms all del acto meramente
clnico y que comporta muchas otras variables, que a menudo pueden tener tanto
o ms peso que la propia curacin (siempre que sea posible) en la percepcin del
paciente: atencin prestada, buen trato, respeto, celeridad, diligencia, cantidad y
calidad de la informacin recibida, soporte emocional, psicolgico, etc.
A menudo veremos que muchos de los objetivos estratgicos pueden estar relacionados
con diferentes actores. Esto lo podemos observar rpidamente en los documentos de
referencia de las autoridades sanitarias:

Pla de Salut 2011-2015, del Departamento de Salud.

Tercer Informe de la Central de Resultados.

En ellos podemos ver el grado de detalle y la diversidad de mbitos sobre los que se
recoge informacin, y que, cada vez de forma ms clara, se reflejan en los contratos de
servicios que se establecen entre las autoridades sanitarias y los distintos centros
sanitarios.

1.2. El funcionamiento bsico de las reas de urgencias


Las reas de urgencias hospitalarias son las responsables de dar respuesta a las
necesidades de salud de los ciudadanos, en lo que se refiere a la atencin de urgencias y
emergencias que tengan que ver con problemas de salud sobrevenidos, sea cual sea su
causa.

CC-BY-NC-ND

Deteccin de brotes gripales a partir de datos de Twitter

Normalmente, estas reas estn diseadas para la atencin de urgencias crticas y


graves. Aunque histricamente, debido a diferentes motivos, como la facilidad de
acceso o el desconocimiento, han sido utilizadas por parte de la mayora de los
ciudadanos para el tratamiento de cualquier problema de salud imprevisto o
sobrevenido, en lugar de dirigirse a la atencin primaria. Este hecho ha impactado
enormemente en su funcionamiento, generando efectos negativos, como la
sobreocupacin de espacios, las largas esperas, el hacinamiento, los tiempos de
asistencias anormalmente largos, los tiempos de espera excesivos para la realizacin de
pruebas complementarias, etc. Todo ello ha implicado una serie de problemas de gestin
y ha provocado una prdida de calidad del funcionamiento de las reas de urgencia.
Adems, tal y como apuntbamos en el caso prctico anterior, la enorme variabilidad de
la prctica clnica en el uso de los recursos para cada una de las asistencias puede ser
tremendamente cambiante.
A continuacin mostramos un circuito estndar de atencin en urgencias.

Los principales canales de entrada a las reas de urgencias suelen ser los siguientes:

El desplazamiento del propio paciente al servicio de urgencias por sus propios


medios.

A travs de transporte sanitario, tras un accidente laboral o de trfico o de otras


circunstancias, que le impiden la movilidad.

La derivacin desde otros centros sanitarios o de atencin primaria, por


saturacin o por no disponer de las especialidades y/o medios necesarios, no
pueden atender al paciente en origen.

Dependiendo de los sntomas, el diagnstico inicial y la severidad potencial de la


urgencia detectada en las unidades de triaje1, el paciente ser asignado a una unidad
para su tratamiento y seguimiento, con el fin de determinar su diagnstico y dar
solucin al problema de salud que presenta.
1

En las unidades de triaje se establece una primera clasificacin de los pacientes en funcin de
su criticidad y patologa. La atencin de los pacientes se priorizar por las decisiones de triaje y
no por orden de llegada. El objetivo es atender rpidamente a los pacientes crticos

CC-BY-NC-ND

Deteccin de brotes gripales a partir de datos de Twitter

Un servicio de urgencias, como el de nuestro caso, generalmente suele contar con una
serie de servicios o especialidades bsicas, ya que dispone de recursos humanos y
tcnicos especializados para el tratamiento de problemas de salud relativos a los
mismos. A modo de ejemplo, los servicios bsicos pueden ser:

Urgencias generales.

Urgencias obsttricas (relativas al parto) y ginecolgicas.

Urgencias peditricas.

Urgencias traumatolgicas.

Urgencias oftalmolgicas.

Adicionalmente podremos encontrar:

Las unidades o salas de observacin, que no estn vinculadas necesariamente a


una especialidad sino que suelen ser espacios polivalentes, en los cuales el
paciente queda en observacin con el fin de evitar la ocupacin de las reas
especficas de cada servicio, o asegurar que pueden ser fcilmente supervisados
por personal mdico.

Las unidades de corta estancia, que estn dedicadas a los tratamientos que no
requieren de hospitalizacin, pero que dada su urgencia no suelen tratarse dentro
de las reas de consulta externa.

Normalmente, el paciente ser sometido a pruebas diagnsticas (radiologa, laboratorio,


diagnstico por imagen, etc.), a tratamientos farmacolgicos y a los procedimientos
mdicos y quirrgicos que se consideren necesarios en funcin de la patologa
diagnosticada.
Las asistencias en urgencias derivan en uno de los siguientes motivos de alta:

Alta a domicilio (normalmente, segn criterio mdico, aunque tambin puede


ser por abandono o voluntaria).

Ingresos (con o sin intervencin).

Derivacin hacia otro centro sanitario.

Defuncin.

Adems de los requerimientos que se puedan establecer desde el propio centro o


urgencias, el Catsalut tambin monitoriza, especialmente en determinadas pocas del
ao o zonas, el funcionamiento de dichas reas con el fin de identificar situaciones de
excesiva saturacin o incluso analizar posibles problemas epidemiolgicos que puedan
surgir y que afecten a la salud pblica. Es en este punto donde el uso de tcnicas de BI
social pueden ser tiles para estimar potenciales brotes virales y, as, ser capaces de
dimensionar los servicios de urgencias en funcin de estas previsiones.
En este sentido, a travs del PIUC (Plan integral de urgencias de Catalua) se
monitorizan a diario determinados parmetros de funcionamiento y clnicos de las reas
de urgencias de todos los centros de la XHUP2 (Red hospitalaria de utilizacin pblica).

CC-BY-NC-ND

Deteccin de brotes gripales a partir de datos de Twitter

1.3. El funcionamiento bsico de las reas de hospitalizacin


Los hospitales estn organizados (desde un punto de vista asistencial) en servicios
clnicos, con mayor o menor nivel de especializacin dependiendo de su categora.
De forma genrica, los servicios clnicos se organizan en dos grandes mbitos, el
mdico y el quirrgico, que se diferencian fundamentalmente en el uso que se realiza de
las reas quirrgicas (preanestesia, quirfanos y reanimacin) por parte de los mdicos.
Aunque esta separacin no siempre es completamente clara, ya que hay
subespecialidades dentro de la cartera de servicios que superponen los dos mbitos, los
servicios habituales en un centro hospitalario bsico son los siguientes:

Aparte de los servicios de soporte claramente identificados, en los procesos del hospital
hay otros relacionados con la atencin hospitalaria, como son:

Las unidades de cuidados intensivos (UCI).

Los servicios de anestesia y reanimacin, tambin a menudo relacionados con


reas mdicas para curas paliativas (la clnica del dolor).

Para simplificar nuestro caso, consideraremos solo la hospitalizacin convencional,


excluyendo la actividad vinculada a la ciruga sin ingreso, la ciruga mayor ambulatoria
o el hospital de da.
En lo que se refiere a las reas de hospitalizacin, podemos considerar dos lneas bien
diferenciadas de acceso:

La admisin urgente, generalmente derivada de la actividad del servicio de


urgencias.

La admisin programada, que normalmente vendr derivada de atencin


primaria o de la atencin especializada (consulta externa) del propio centro.

CC-BY-NC-ND

Deteccin de brotes gripales a partir de datos de Twitter

Esta actividad programada tiene que ser gestionada por las reas de gestin asistencial
(gestin administrativa) y por los propios servicios clnicos, que deben priorizar y
asignar sus recursos (generalmente basados en ocupacin de camas o quirfanos) segn
la urgencia, criticidad y complejidad de cada caso, y segn la disponibilidad de
recursos. Esta gestin es lo que se conoce como gestin de la lista de espera.
Aparte de la gestin propia de la lista de espera, determinada por el propio servicio y,
por extensin, del propio centro, dependiendo de su funcionamiento y de la
disponibilidad de recursos, las autoridades sanitarias establecen objetivos a cumplir por
parte de cada uno de los centros en sus contratos de compra de servicios, y que afectan
al pago de los servicios adquiridos de acuerdo a los niveles de cumplimiento mnimos
establecidos.
Cabe recordar que en el modelo de compra y facturacin de los servicios establecidos
por Catsalut, no solo se compra una determinada actividad quirrgica sino que esta
tambin debe prestarse de acuerdo a unos determinados indicadores de calidad
(normalmente de tipo temporal). Los centros debern garantizar el cumplimiento de
estos indicadores para asegurar que se satisfacen adecuadamente los contratos de
compra firmados con el Catsalut.

1.4 Enfermedades Infecciosas


Actualmente existen multitud de enfermedades infecciosas que son causadas por
diferentes agentes patgenos. En funcin del origen de la infeccin estas pueden ser
clasificadas en:
Infecciones bacterianas como el clera, la neumona, la tuberculosis el ttanos o
la difteria.
Infecciones vricas como la gripe, la hepatitis, el herpes, la mononucleosis, el
dengue, la fiebre amarilla, el sarampin o la varicela.
Infecciones por protozoos como la malaria o la amebiasis.
Infecciones causadas por hongos
Normalmente, las enfermedades infecciosas pasan por distintas etapas:
Incubacin: tiempo comprendido entre el comienzo de la infeccin hasta la
aparicin de sus sntomas. El tiempo de incubacin vara en funcin de la
enfermedad.
Prodromal: consiste en el tiempo en que el cuerpo comienza a reaccionar a la
infeccin. Este perodo acostumbra a ser muy corto y suele implicar una
sensacin de malestar general, ligera elevacin de temperatura, dolores
musculares y en ocasiones nuseas y vmitos.
Clnico: etapa donde aparecen los sntomas caractersticos de la enfermedad. En
esta etapa la reaccin del organismo ante la enfermedad es aparente.
Tiempo de Convalecencia: perodo de tiempo en el cual los sntomas de la
enfermedad comienzan a desaparecer. Durante esta etapa el organismo elimina a
los agentes de la enfermedad y se reparan los deterioros sufridos por la misma.
Recuperacin: la evidencia de la enfermedad desaparece pero an hay riesgo de
contagio.

CC-BY-NC-ND

Deteccin de brotes gripales a partir de datos de Twitter

La gran mayora de enfermedades infecciosas no estn presentes en pases desarrollados


o bien existe una vacuna preventiva para ellas. Sin embargo, existe todava un grupo de
enfermedades contagiosas para las que no se dispone de vacuna, como por ejemplo la
gripe, el resfriado comn, el virus del SIDA, el bola, la polio y el lupus.
Algunos de los patgenos que causan estas enfermedades pueden llegar a nuestro
territorio a travs de viajantes o la importacin de productos. Como consecuencia de
ello, algunas enfermedades que se crean erradicadas en algunos pases, como la sarna,
han sufrido nuevos brotes. Aunque por suerte hasta la fecha han sido siempre
controlados.
Entre las enfermedades infecciosas ms comunes y con ms impacto en la poblacin en
pases desarrollados encontramos la gripe. Esta enfermedad afecta a las vas
respiratorias y sus sntomas iniciales son similares a los de a un resfriado comn:

Dolor, especialmente en las articulaciones (rodillas, codos y hombros), y en


la musculatura de la espalda.

Dolor en la faringe con sensacin de sequedad en la garganta.

Tos generalmente seca.

Congestin nasal con estornudos y mucosidad transparente.

Fiebre con escalofros. La fiebre acostumbra a estar entre los 38 y los 41 grados
centgrados. Suele durar entre uno y siete das, siendo 3 das lo habitual.

Dolor de cabeza como consecuencia de la fiebre.

Es habitual la secrecin de lgrimas.

Dolor ocular que se produce en el afectado cuando mira de forma lateral.

Dolor en el abdomen, ms habitual en nios.

La gripe se transmite desde individuos infectados a travs de partculas en el aire


cargadas de virus que son emitidas con la tos, los estornudos o al hablar. Tambin es
transmisible por la sangre y por las superficies u objetos contaminados con el virus.
Los virus de la gripe resisten ms en ambientes fros y secos y pueden conservar su
capacidad infectiva durante das: durante una semana en temperaturas similares a las del
cuerpo humano y durante ms tiempo a medida que desciende la temperatura.
Para reducir los casos de gripe, en los pases desarrollados se han establecido campaas
de vacunacin anual para las personas que tienen mayor riesgo de contraer la
enfermedad o que son ms vulnerables a sus complicaciones. La efectividad de las
vacunas se reduce con el tiempo debido a las frecuentes y rpidas mutaciones que sufre
el virus.
A pesar de las campaas de vacunacin, con la atenuante de que la vacuna no es
obligatoria y parte de la poblacin no se vacuna, decenas de miles de personas en
Catalua (y cientos de miles en Espaa) contraen el virus de la gripe cada ao. La
mayora de casos de infeccin ocurren en periodo invernal, cuando el virus es ms
resistente. Por otro lado predecir con exactitud la fecha exacta del auge del virus es
harto complejo, y normalmente se descubre a posteriori, una vez ya se tiene evidencia
de un gran nmero nuevo de contagios.
El virus de la gripe es un grave problema de salud pblica, ya que ocupa parte de los
recursos sanitarios durante un periodo de tiempo considerable y tiene importantes

CC-BY-NC-ND

Deteccin de brotes gripales a partir de datos de Twitter

repercusiones econmicas, no solo por los costes sanitarios que provoca, sino debido a
la reduccin de la productividad laboral de los afectados. De aqu la necesidad de
utilizar nuevas tcnicas capaces de predecir con mayor antelacin la aparicin de un
nuevo brote.

1.5 Redes sociales


Internet y las redes sociales han revolucionado la comunicacin entre personas. Gracias
a las nuevas tecnologas, cualquier persona puede generar y compartir informacin con
un gran nmero de personas en un tiempo rcord. Adems el volumen de informacin
disponible es inmenso debido a que las redes sociales se han democratizado y han
provocado un cambio cultural donde la gente est vida por compartir informacin,
tanto personal como profesional.
Gracias a la informacin obtenida de redes sociales, podemos realizar algunas tareas
con mayor precisin: segmentar el mercado, mejorar la atencin al cliente, estudiar la
competencia, realizar estudios de mercado, anticiparnos a hechos que pasarn en el
corto plazo, etc. Es esta ltima caracterstica, la capacidad de anticiparse a los
acontecimientos o de ser capaz de predecir un hecho con antelacin la que permitira
predecir brotes vricos. Para hacerlo podramos utilizar cualquiera de las redes sociales
utilizadas por los internautas para compartir informacin personal (Twitter o Facebook)
y/o para buscar informacin (Google). Debido al contexto de este caso prctico, de
ahora en adelante, nos centraremos en el caso de Twitter.
Algunos sectores de la economa ya utilizan Twitter para predecir la evolucin de su
sector en el corto plazo. Por ejemplo, en el contexto de los mercados burstiles, se
utiliza Twitter para medir los cambios en la opinin pblica sobre una accin o una
empresa2. Se ha observado que estas variaciones en el estado de nimo acostumbran a ir
acompaadas de una variacin en la cotizacin de las acciones de la empresa
involucrada en un plazo muy corto de tiempo. En el mismo contexto, Twitter tambin se
utiliza para contar el nmero de mensajes escritos sobre una empresa y el incremento
respecto al da anterior o respecto a la media de mensajes escritos sobre ella. Esta
informacin ha resultado til para predecir la cotizacin de la empresa en el cierre del
da.
Debido a la gran cantidad de informacin disponible, el problema principal con el que
se encuentran las empresas cuando analizan las redes sociales es el de seleccionar
nicamente aquella informacin que es relevante para la toma de decisiones. Para ello,
se pueden utilizar diferentes KPIs en funcin de la red social con la que se trabaje y el
objetivo perseguido.
Por ejemplo, en Twitter se pueden definir los siguientes KPIs para medir los usuarios:

Total seguidores

Nuevos seguidores de perfil (diarios, semanales, mensuales)

Engagement3
o Menciones

Ms informacin en el artculo titulado Twitter predicts future of stocks:


http://www.bbc.co.uk/news/technology-12976254
3

El engagement mide el grado de interrelacin y fidelizacin de un usuario con un marca, producto o


servicio ofrecido por un tercero.

CC-BY-NC-ND

Deteccin de brotes gripales a partir de datos de Twitter

o Respuestas
o Retweets

Favoritos

Impresiones de un mensaje

Clicks en los enlaces

Listas en las que una cuenta aparece

Cada red social genera informacin diferente en funcin de cmo interactan entre s
sus usuarios. A la hora de analizar estos datos, se deben estudiar los datos ofrecidos por
las redes sociales para definir los KPIs que permitan obtener informacin til para la
toma de decisiones. Estos indicadores, pueden ser los KPIs que ofrece la red social, o
indicadores calculados a partir de los KPIs de la red social, como por ejemplo, la
variacin porcentual en un periodo de tiempo en el nmero de mensajes que hablan
sobre un mismo tema/empresa.

CC-BY-NC-ND

Deteccin de brotes gripales a partir de datos de Twitter

2. Motivacin
Actualmente, un gran numero de agentes del sistema sanitario cataln tiene presencia en
las redes sociales: ICS central4, el hospital de la Vall dhebron5, el servicio de Atencin
Primaria de Badalona6, el ayuntamiento de Barcelona mediante Salud Pblica de
Barcelona7, y un largo etctera.
El uso de las redes sociales por los agentes est principalmente enfocado a informar a la
ciudadana. En particular, se informa de las novedades de los centros, de las
investigaciones realizadas, de congresos y seminarios recientes, etc. Pero tambin tienen
como objetivo obtener informacin sobre el grado de satisfaccin de los pacientes.
No obstante, aplicado al sistema sanitario cataln, las redes sociales pueden tener
muchas utilidades, como por ejemplo ayudar a predecir un incremento de personas
afectadas por enfermedades infecciosas, permitiendo informar mejor a la poblacin con
carcter preventivo y gestionar de forma ms eficiente los recursos sanitarios para
atender a los afectados.
En los periodos de auge de una enfermedad vrica, el nmero de bsquedas y
comentarios realizados por personas sobre la enfermedad aumenta de forma muy
significativa, habiendo un incremento inicial moderado en una etapa inicial o pre-vrica
y un gran aumento cuando el virus se encuentra en su periodo de auge. Gracias a esta
informacin, Google ha lanzado el proyecto Google FluTrends8, que mediante el
recuento de consultas realizadas sobre la gripe estima en que medida circula la gripe por
diferentes pases y regiones del mundo.
Dejando de lado lo que puede conseguirse mediante el anlisis de bsquedas en Google,
Twitter permite recuperar aquellos mensajes que contengan las palabras clave de la
bsqueda en el hashtag9, el nombre del usuario o el contenido del mensaje, permitiendo
recuperar solo aquellos mensajes emitidos desde una zona geogrfica y en un intervalo
de tiempo. Esto permitira recuperar los twits de Catalua que traten sobre la gripe. Un
anlisis del nmero de twits (comparndolo con nmero de twits en el pasado) podra
permitir estimar si nos encontramos en una situacin similar a la acontecida otros aos
antes de la aparicin de un brote vrico.

https://twitter.com/icscatcentral y https://www.facebook.com/pages/Institut-Catal%C3%A0-de-laSalut/192220580805451?fref=ts
5

https://twitter.com/hvhebron y https://www.facebook.com/pages/Hospital-Universitario-Vall-

dHebron/202278513140339?ref=ts&fref=ts
6

https://twitter.com/sapbadalona

https://twitter.com/salutpublicabcn
http://www.google.org/flutrends/
9
Un hashtag (o etiqueta) es una cadena de caracteres formada por una o varias palabras concatenadas y
precedidas por una almohadilla(#). Es, por lo tanto, una etiqueta de metadatos con el fin de que tanto el
sistema como el usuario la identifiquen de forma rpida.
8

CC-BY-NC-ND

Deteccin de brotes gripales a partir de datos de Twitter

3. Enunciado del caso Prctico


El objetivo de este caso prctico es disear un sistema capaz de preveer el aumento de
casos de gripe a partir de la informacin recuperada de Twitter y de los datos de
urgencias de los centros mdicos. El sistema deber predecir el incremento de los casos
de gripe antes de que estos se produzcan y permitir as una mejor gestin de sus
recursos a las autoridades sanitarias.

3.1 Trabajo a realizar


Tal y como se ha comentado, el objetivo de este caso prctico es generar un sistema
predictivo que permita estimar brotes gripales antes de que ocurran y integrar este
sistema a los sistemas de inteligencia de negocio de la empresa.
Para ello dividiremos el trabajo en 4 partes:
1. Recuperacin de la informacin
Recuperacin de los mensajes de Twitter susceptibles de hablar de la
enfermedad. Con el fin de poder recuperar estos mensajes, tendremos que definir
las palabras clave que deben contener los mensajes: gripe, gripeA, gripeB, virus,
etc. Se debe tener en cuenta que bsquedas con palabras clave como gripe y
gripee devolvern resultados diferentes.
Las bsquedas debern estar geolocalizadas, recuperando solo aquellos mensajes
enviados dentro del rea de actuacin del ICS o de regiones vecinas que puedan
tener influencia en la propagacin del virus de la gripe.
Asimismo, se deber tener en cuenta el idioma de los mensajes para definir las
cadenas de bsqueda, ya que muchos usuarios escriben mensajes tanto en su
idioma materno como en ingls.
2. Creacin de un cuadro de mando
La segunda parte consistir en la creacin de un cuadro de mando con un
sistema de indicadores que permita comparar el impacto actual de la gripe en
Twitter respecto el impacto en Twitter en otros periodos pasados que hayan
precedido a un brote del virus de la gripe.
El estudiante deber resolver detalladamente cada uno de los pasos desde el
planteamiento estratgico a la definicin de bajo nivel de los indicadores y KPI
que se definan. Para ello, el estudiante deber pensar en posibles KPI
secundarios, elaborados a partir de los datos recogidos en las redes sociales, para
crear indicadores de alerta que permitan verificar a los diferentes agentes del
sistema sanitario si nos encontramos en una situacin que preceda a un brote
viral, y hasta que punto el brote viral est en sus cercanas geogrficas.
A modo de ejemplo, unos KPI secundarios podran ser:

Incremento porcentual en el nmero de mensajes intersemanales.

Similitud en el nmero de mensajes en Twitter entre la semana actual y


las pocas precedentes a un brote.
Una combinacin de los dos indicadores anteriores.
Los KPI anteriores podran presentarse de forma geogrfica por provincias.

CC-BY-NC-ND

Deteccin de brotes gripales a partir de datos de Twitter

Para poder contrastar sus indicadores numricamente, el usuario podr hacer uso
de las fuentes de datos disponibles de hospitalizacin, urgencias y mensajes de
Twitter10 para encontrar una relacin entre los mensajes publicados en Twitter,
las visitas a urgencias y las hospitalizaciones por casos de gripe.
3. Carga de datos
Se pide el desarrollo de los procesos de carga de la informacin recuperada de
las redes sociales.
El estudiante deber disear un almacn de datos donde almacenar los datos
recuperados de Twitter. Opcionalmente, el estudiante podr integrar dicha
informacin en el almacn de datos creado en la asignatura de Data Warehouse.
Sea cual sea la eleccin el estudiante, se deber razonar si los KPI definidos en
la segunda parte del ejercicio se incluyen en el datawarehouse existente o en el
de nueva creacin.
A partir del anlisis de las fuentes de datos y de las caractersticas del API de
Twitter, el estudiante deber disear el proceso de recuperacin de nueva
informacin de la red social y su almacenamiento en el datawarehouse escogido,
teniendo en cuenta la periodicidad en la recuperacin de datos y la posible
aplicacin de un filtrado de contenido en los mensajes. Se recomienda estudiar a
fondo la seccin 3.3 (Notas tcnicas: recuperacin de datos de Twitter) antes de
abordar este diseo.
4. Explotacin de los datos
Por ltimo, el estudiante deber indicar como el sistema responde a las preguntas
mnimas de los usuarios y plantear posibles acciones futuras, como la
comparacin con nuevos KPIs o KPIs descartados en la segunda parte del caso
para aumentar la efectividad del sistema.

3.2 Fuentes de datos suministradas


Para el presente caso se proporcionan datos de hospitalizacin, y Tweets de usuarios.
Estos ficheros son el resultado del funcionamiento operativo de un hospital bsico y
recogen la informacin principal en trminos de paciente, procedimiento, fechas,
tratamiento, etctera y los mensajes sobre gripe escritos por usuarios de Twitter.
Los mensajes de Twitter se han extrado mediante consultas a la API. En particular
responden a los tweets realizados desde Catalua que hablan sobre la gripe. Para cada
tweet se muestra su contenido y la fecha en que fue escrito.
El fichero de hospitalizacin ha sido tratado para que cumpla las condiciones de la ley
orgnica de proteccin de datos (LOPD) y en ningn momento se vulnere los derechos
de los pacientes.

3.3 Notas tcnicas: Recuperacin de datos de Twitter


Las redes sociales ofrecen APIs11 para facilitar la bsqueda, filtraje y recuperacin de
datos.

10

Junto al enunciado se proporcionan 2 ficheros excels con datos sobre la hospitalizacin, urgencias y
mensajes de Twitter.
11
Una API es una Interfaz de Programacin de Aplicaciones (en ingls Application Programming
Interface)

CC-BY-NC-ND

Deteccin de brotes gripales a partir de datos de Twitter

Para recuperar los datos se pueden utilizar bibliotecas que interacten con la API de
Twitter12, ayudarse de alguna herramienta web13 o utilizar la consola de Twitter para
desarrolladores14. Para una primera exploracin se puede utilizar la opcin de bsqueda
avanzada de la interfaz web de Twitter15, aunque las opciones que permite personalizar
la bsqueda son limitadas.
Antes de automatizar la recuperacin de resultados con su API u otros mecanismos,
Twitter recomienda hacer una verificacin manual16 siguiendo los siguientes pasos:
1. Realizar la bsqueda deseada en http://twitter.com/search y copiar la URL
resultante de la bsqueda. Por ejemplo una bsqueda de los twits que contengan
la palabra gripe dara como resultado la siguiente URL:
https://twitter.com/search?q=gripe&src=typd
2. Substituir https://twitter.com/search por
https://api.twitter.com/1.1/search/tweets.json (en nuestro ejemplo la url
resultante sera:
https://api.twitter.com/1.1/search/tweets.json?q=gripe&src=typd). Haciendo esto
creamos una llamada a la API de twitter donde pedimos que se devuelvan los
twits que tengan la palabra gripe en formato JSON.
3. Ejecutar la url obtenida en el segundo paso en la consola de desarrolladores de
twitter17. Para ejecutar la url tendremos que escoger la opcin de autentificacin
Oauth 1 e introducir nuestros los datos de nuestra cuenta de Twitter. Despus
de ejecutar la llamada podremos comprobar el resultado en formato JSON.
Como
podis
ver
en
la
URL
que
ha
generado
Twitter
(https://twitter.com/search?q=gripe&src=typd), el parmetro q se utiliza para indicar la
palabra a buscar. Twitter permite utilizar otros parmetros en la bsqueda18. A
continuacin se muestran los ms relevantes para esta actividad.
Nombre del parmetro
Q ( obligatorio)
Geocode ( opcional )
lang ( opcional )
locale ( opcional )
result_type

12

Significado
La cadena de texto a buscar
Devuelve solo los tweets de los usuarios localizados en un radio X de las
coordenadas geogrficas indicadas.
Devuelve solo los tweets en el idioma indicado.19
Indica el idioma utilizado en la cadena de texto a buscar.
Indica el tipo de resultados que se desean recibir. El valor por defecto es
mixed y las posibilidades son:
recent: los resultados ms recientes
popular: los resultados ms populares

https://dev.twitter.com/
Hay muchas webs que permiten recuperar y analizar datos de twitter y stas estn en continua
evolucin. En el enlace tenis una listado de algunas de ellas: http://noelcarrion.com/2010/44aplicaciones-para-buscar-informacion-en-twitter/
14
https://dev.twitter.com/console
15
https://twitter.com/search-home
16
Los pasos a seguir se explican en para verificar una bsqueda antes de automatizarla con la API se
explican en https://dev.twitter.com/docs/using-search
17
https://dev.twitter.com/console
18
Podis ver todos los parmetros para personalizar las bsquedas en
https://dev.twitter.com/docs/api/1.1/get/search/tweets
19
En https://dev.twitter.com/docs/api/1.1/get/help/languages se pueden encontrar los idiomas con los que
se puede personalizar las bsquedas en Twitter. en para ingls, es para espaol, fr para francs,
etc. En cataln no est disponible.
13

CC-BY-NC-ND

Until
Since

Deteccin de brotes gripales a partir de datos de Twitter

mixed: tweets populares y recientes.


Tweets generados hasta la fecha indicada.
Tweets generados desde la fecha indicada.

Por ejemplo, quisiramos recuperar mensajes que contengan la palabra gripe


introducidos en el rea de Barcelona, podramos utilizar la siguiente consulta:
https://api.twitter.com/1.1/search/tweets.json?q=gripe&src=typd&geocode="41.4166,
2.1846,50km"

Notad que se usa el parmetro q para indicar que estamos buscando twits que contengan
la palabra gripe y se usa el parmetro geocode para indicar que los twits deben haber
sido hechos en una rea de 50 km de dimetro centrada en las coordenadas 41.4166 N,
2.1846 E. Podis ver dichas coordenadas localizadas en el mapa preguntando a un
servicio de mapas, como Google Maps o OpenStreetMaps, sobre estas coordenadas
41.4166,2.1846.
Por otro lado, si queremos recuperar aquellos mensajes escritos en Barcelona y
alrededores escritos solo en ingls, deberamos aadir a la consulta anterior aadiramos
el parmetro lang i en que es el valor del idioma ingles:
https://api.twitter.com/1.1/search/tweets.json?q=gripe&src=typd&geocode="41.4166,
2.1846,50km"&lang=en

Cuando se realicen consultas usando la API de una red social se deber tener en cuenta
el nmero mximo de peticiones que se pueden realizar y el intervalo de espera entre
peticiones. Esto es necesario porque el nmero de resultados devueltos en cada peticin
est acotado y si no recuperamos la informacin frecuentemente podemos perder una
gran cantidad de datos. De hecho, si excedemos, en un intervalo de tiempo, el nmero
mximo de peticiones que Twitter20, nuestra aplicacin de recuperacin ser bloqueada
por Twitter y esta no podr realizar ms consultas hasta pasado un tiempo21.

20

Se pueden consultar los lmites de consultas de la Api en twitter en https://dev.twitter.com/docs/ratelimiting/1


21
NOTA LATERAL: En 2014, el nmero mximo de resultados devueltos en cada consulta es de 100. El
nmero mximo de consultas que pueden realizar las aplicaciones cada 15 minutos es de 450. Si supera
ese lmite la aplicacin ser bloqueada.
Es importante saber que estos valores cambian constantemente, por tanto es importante comprobar los
lmites antes de realizar un proceso de extraccin de datos.

Anda mungkin juga menyukai