Anda di halaman 1dari 55

Sistemas de Inteligencia Web:

Análisis de Redes Sociales

Fco Fernando de la Rosa Troyano


Sevilla 8 de junio de 2012

Dirigida por el Dr. Rafael Martínez Gasca


Índice
Motivación
Vigilancia Tecnológica e Inteligencia Competitiva (VTIC)
Sistemas de Inteligencia Web (SIW)
Técnicas para extraer y analizar datos Web
Extracción de redes sociales
Diagramas estructurales
Visualización focalizada
SIW basado en BPMS
Plataforma TREDAR
Conclusiones y trabajos futuros
Difusión de Resultados

2/55
Motivación
Estudiar los fundamentos de los procesos para la toma
de decisiones a nivel estratégico.

Definir y analizar Generar Valorar las


el problema alternativas alternativas

Evaluar la eficacia Implantar la Elegir la mejor


de la decisión alternativa alternativa

Existen gran cantidad de herramientas relacionadas con


este problema: creatividad, marketing, VTIC, innovación,
cuadro de mando, pensamiento visual, delphi, árboles
lógicos, DAFO, etc.

3/55
Motivación
Definición VTIC: Proceso de búsqueda, análisis y
distribución de datos que permite obtener información
relevante para los procesos de toma de decisiones
alertando sobre las tendencias previsibles.
El objetivo de la VTIC es evitar contratiempos en los
procesos de toma de decisión. Por ejemplo, evitar:
Invertir en investigaciones o productos ya realizados
Perder oportunidades de negocio
Perder cuota de mercado
Característica de la información generada:
Información +cualitativa -cuantitativa
Representa tendencias extraídas del entorno
Visión holística del escenario

4/55
Problemas planteados

Desarrollar Sistema de Vigilancia Tecnológica e


Inteligencia Competitiva (SIC) que utilicen fuentes de
información Web (SIW).
Desarrollar herramientas para extraer, analizar y
visualizar grandes cantidades de datos Web

Sistema de Inteligencia
Competitiva

Sistema de Inteligencia Características


Web
Heterogénea
Utiliza fuentes de
Semiestructurada
información web
Dinámica
5/55
Índice
Motivación
Vigilancia Tecnológica e Inteligencia Competitiva (VTIC)
Sistemas de Inteligencia Web (SIW)
Técnicas para extraer y analizar datos Web
Extracción de redes sociales
Diagramas estructurales
Visualización focalizada
SIW basado en BPMS
Plataforma TREDAR
Conclusiones y trabajos futuros
Difusión de Resultados

6/55
Ciclo de vida de los SIC

7/55
Clasificación de las tareas VTIC

Fuentes Extracción Análisis Visualización Ejemplos


Dinámicas Métricas Análisis de
Impacto temático redes sociales Redes
Google

CiteSeer Co-ocurrencias Clustering Visión


Diagramas focalizada
SpringerLink Redes sociales
estructurales
Twitter
Redes de etiquetas
Web 2.0 Matrices
Redes de términos Reducción estratégicas
Estáticas PFNET, MST, MDS

RSS (noticias)
Tesauros
DBLP
Análisis de
Yahoo! finance conceptos formales Reconocimiento TreeMap
Documentos
Automático de
Términos

Aportaciones basada en el ARS


8/55
Técnicas de extracción de
redes sociales
Fuentes Extracción Análisis Visualización Ejemplos
Métricas Análisis de
Dinámicas
Google Impacto temático redes socialesBola de nieve
Redes
Dirigida mediante heurísticas:
CiteSeer Co-ocurrencias Clustering

Diagramas Tópicos de interés


SpringerLink Redes sociales
estructurales Análisis de redes sociales
Twitter
Redes de etiquetas
Web 2.0 Matrices
Redes de términos Reducción ¿Cómoestratégicas
extraer una red
Estáticas PFNET, MST,social
MDS haciendo consultas
a motores de búsqueda?
RSS
Tesauros
DBLP
Análisis de
Yahoo! finance conceptos formales Reconocimiento TreeMap
Documentos
Automático de
Términos

9/55
Extracción de semillas

Semillas (direcciones de correo):


Motor de búsqueda
Listas de distribución
Sitios web de una organización o
congreso
Bases de datos bibliográficas

10/55
Consultas al motor de
búsqueda

clique

contextos

11/55
Análisis de los contextos

Proceso de
expansión

12/55
Análisis de los contextos

Proceso de
expansión

13/55
Visualización de redes sociales
mat
auto

lsi

atc dte

cs

fís

14/55
Técnicas de extracción de
redes sociales
Fuentes Extracción Análisis Visualización Ejemplos
Dinámicas Métricas Análisis deBola de nieve
Impacto temático redes sociales
Google

CiteSeer Co-ocurrencias Clustering


Dirigida
Redesmediante

SpringerLink Redes sociales Diagramas heurísticas:


estructurales
Twitter
Redes de etiquetas Tópicos de interés
Web 2.0 Análisis de redes sociales
Matrices
Redes de términos Reducción estratégicas
Estáticas PFNET, MST, MDS
Dado un término o tópico ¿Cómo
RSS
Tesauros
extraer de forma automática la
DBLP comunidad asociada con ese tema?
Análisis de
Yahoo! finance conceptos formales Reconocimiento “Diagnosis
TreeMapde sistema”
Documentos
Automático de
Términos

Basada en el ARS
15/55
Calculo impacto temático

16/55
Utilización de heurísticas

Grado
Pagerank
Redundancia

17/55
Comparativa con otros sistemas
de extracción de redes sociales

Microsoft Academic Search, Google


Scholar y ArnetMiner:
uso intensivo de documentos
aprendizaje supervisado, NER (corpus de
entrenamiento)
integración de fuentes bibliográfica (DBLP)
Sistemas Web 2.0 (LinkedIn):
redes informales

18/55
Trabajos relacionados
Utilización de heurísticas
(google, lista de
(google scholar,
nombres, NER)
FOAF,emails,
web, NER)
POLYPHONET 2003, 2006, 2007
FLINK 2004, 2005 Lista de nombres

(emails,
web, NER)
2004
19/55NER)
(red egocéntrica,
REFERRAL WEB 1997
Técnicas de análisis de redes

Fuentes Extracción Análisis Visualización Ejemplos


Diagramas
Dinámicas estructurales
Métricas Análisis de
redes sociales
Google Impacto temático Redes
Dada una red social ¿Cómo podemos
analizar su estructura
CiteSeer Clustering
para intervenir
Co-ocurrencias Visión
en SpringerLink
la red? Diagramas focalizada
Redes sociales
estructurales
patrones
Twitter de comportamiento (micro)
Redes de etiquetas
posicionamiento estratégico (meso)
Web 2.0 Matrices
Redes de términos Reducción estratégicas
Estáticas PFNET, MST, MDS

RSS
Tesauros
DBLP
Análisis de
Yahoo! finance conceptos formales Reconocimiento TreeMap
Documentos
Automático de
Términos

Basada en el ARS
20/55
Diagramas estructurales

21/55
Diagrama estructural

Patrón
Patrón aislado
núcleo

Patrón Patrón
periférico
emergente
22/55
Diagrama estructural + sociograma

23/55
Métricas ARS

Globales: Egocéntricas o locales:


lejanía grado

cercanía o centralidad densidad

autoridad o importancia redundancia

intermediación

24/55
Aplicación de los diagramas
estructurales
Selección de expertos
Marketing viral (quienes son los actores más
influyentes)
Recursos humanos (a través de los emails se
puede analizar la estructura organizacional de
una empresa y mejorarla)
Otros datos representados en forma de grafos:
Enlaces entre páginas web
Ecosistemas
Dependencias en el código fuente

25/55
Posicionamiento estratégico de los
grupos de investigación

26/55
Posicionamiento estratégico de los
grupos de investigación
densidad
2º Cuadrante
1º Cuadrante
centralidad

3º Cuadrante

4º Cuadrante
27/55
Aplicación de los diagrama
estratégicos
Relaciones de poder y las posiciones de
afinidad y conflicto al plan de actuación en el
Área protegida de la laguna de rocha (Santos et
al 2008)
Comportamiento de la dinámica grupal de los
estudiantes en foros virtuales (Tió 2011)
Dinámica de las redes de investigadores en el
futuro:
Publicaciones realizadas en la Antártida (Bermúdez
2007)
Publicaciones en el Boletín Geológico y Minero
(Bermúdez 2010)

28/55
Técnicas de visualización
TwitterNets
Fuentes Extracción Análisis Visualización Ejemplos
Dinámicas Métricas Análisis de
Dada una etiqueta ¿Cómo extraer
Impacto temático
y sociales
redes Redes
Google
visualizar de forma automática los
CiteSeer Co-ocurrencias Clustering
centros de interés subyacentes? Visión
Diagramas focalizada
SpringerLink Redes sociales
estructurales
Twitter
Redes de etiquetas
Web 2.0 Matrices
Redes de términos Reducción estratégicas
Estáticas PFNET, MST, MDS

RSS
Tesauros
DBLP
Análisis de
Yahoo! finance conceptos formales Reconocimiento TreeMap
Documentos
Automático de
Términos

29/55
Sistema TwitterNets

red de recomendaciones

@intalioapac(1) @BPMInstituteorg(1)
@ScarletCoral(1)

@AuraPortal_en(1)

#auckland(1)
retweets #intalio(1)
hashtags #BPMS(3)

#BPM(1) red de etiquetas

30/55
Sistema TwitterNets

31/55
Consulta nosql

co-ocurrencias
frecuencia

Red completa
Técnica de reducción (compacta)
32/55
Efecto descentralizado
Aparece cuando la red generada está focalizada en un
centro de interés (ejemplo: consulta de una etiqueta)
centros de interés
PFNET + dispersos
co-ocurrencias

PFNET +
Red completa frecuencia
(compacta)

PFNET técnica de reducción 33/55


Visión focalizada

34/55
Análisis de etiquetas
Determinar los centros de interés relacionados
con la consulta:
Principales centros de interés:
sql-nosql, bigdata
Soluciones tecnológicas:
neo4j, riak, couchdb, mongodb, graphdb, cassandra,
hbase,solr,redis
Propiedades relevantes:
escalable, distribuida
Conceptos relevantes:
bigtable, hypertable, topicmap, mapreduce (bigdata)
Esta información puede ser útil en los procesos
de toma de decisiones
35/55
Índice
Motivación
Vigilancia Tecnológica e Inteligencia Competitiva (VTIC)
Sistemas de Inteligencia Web (SIW)
Técnicas para extraer y analizar datos Web
Extracción de redes sociales
Diagramas estructurales
Visualización focalizada
SIW basado en BPMS
Plataforma TREDAR
Conclusiones y trabajos futuros
Difusión de Resultados

36/55
Ciclo de vida de los SIC

37/55
Herramientas standards para VTIC y ARS

Herramientas de escritorio
No permiten ofrecer servicios de VTIC a través de la
Web
Código no reutilizable
Sistemas cerrados:
Demasiado complejo modificar los procesos de
VTIC
Fuentes de información prefijadas (bibliométricas)
Sistemas parciales (no cubren el ciclo completo
de los sistemas de VTIC)

38/55
Modelo conceptual SIW

Búsqueda

Visualización

Extracción
Crawler Índice automática de co-palabras Clustering
términos

WWW Multidimensional
scaling

Web 2.0 co-autorías


Principal component
analysis

Formal concept
co-citas analysis
Bases de datos
bibliográficas o Wrapper BDSE
de patentes Social network
Otras redes analysis

Fuentes Rastreo y extracción Análisis Difusión

39/55
Problemas del modelo SIW
Problema de la dinámica de la web y múltiples fuentes

Búsqueda

Visualización

Extracción
Crawler Índice automática de co-palabras Clustering
términos

WWW Multidimensional
scaling

Web 2.0 co-autorías


Principal component
analysis

Formal concept
co-citas analysis
Bases de datos
bibliográficas o Wrapper BDSE
de patentes Social network
Otras redes analysis

Fuentes Rastreo y extracción Análisis Difusión

Problema de la integración de procesos

40/55
Plataforma TREDAR
Solución tecnológica basada en:
combinar
Aplicaciones wiki
Sistemas de gestión de procesos

aplicación de escritorio
Sistemas wiki Sistemas BPM
aplicación web

sistema que permite


Colaborativo Diseño
implementar otros
Interpretado Implementación
sistemas
Control y gestión
Ejecución
Servicios web
41/55
Modelo conceptual TREDAR

Aplicaciones
Interfaces de usuarios, web 2.0, visualización
Wiki

Tareas de
Fuentes de Tareas de Tareas de
rastreo Diseñar
información Análisis difusión
y extracción procesos de
VTIC
(Tareas Wiki)

Tareas de almacenamiento

42/55
Sistema TwitterNets

43/55
Aplicaciones wiki

/cfg/microp/examples/hw1/edit /cfg/microp/examples/hw1/eval

Edición de recursos (código fuente, Evaluación del recurso


plantillas, documentos html, etc)

44/55
Diseño de procesos

45/55
Gestión de procesos

microcharts

seguimiento
proceso

variables
seguimiento
reglas tarea
46/55
Diseño de procesos VTIC
Tareas VTIC prediseñadas

47/55
Interacción con los procesos

48/55
BPMS vs TREDAR
Los BPMS tienen limitaciones en los tipos de aplicaciones
que pueden ser implementadas:
Sistemas web 2.0
Motores de búsqueda
Visualización y análisis interactivo
Sistemas P2P
Foro de discusión

TREDAR es más flexible y ágil:


a la hora de actualizar los crawlers y wrappers e incorporar nuevas
fuentes (aplicaciones wiki)
en los procesos de VTIC (tareas prediseñadas)
en la arquitectura (distribuido-centralizado, servidor-cliente, sw-apls)

49/55
Índice
Motivación
Vigilancia Tecnológica e Inteligencia Competitiva (VTIC)
Sistemas de Inteligencia Web (SIW)
Técnicas para extraer y analizar datos Web
Extracción de redes sociales
Diagramas estructurales
Visualización focalizada
SIW basado en BPMS
Plataforma TREDAR
Conclusiones y trabajos futuros
Difusión de Resultados

50/55
Conclusiones
Se ha propuesto:
Plataforma para implementar SIW flexibles y ágiles
Técnicas de extracción y análisis basadas en ARS
Redes sociales
Diagramas estructurales
Visualización focalizada
Extracción de redes sociales:
Metodología para modelar fácilmente las necesidades de
información en los procesos de VTIC
Adquirir sin un coste excesivo un buen corpus de
documentos para analizar

51/55
Trabajos futuros

Experimentar nuevas fuentes web


Integrar nuevos módulos de análisis
(TextRunner, buscador relacional)
Sistemas de alertas tempranas que
permitan la recogida incremental de datos
en tiempo real para su posterior análisis
temporal.
Mejora del proceso de clareado de datos
utilizando técnicas de extracción de datos

52/55
Índice
Motivación
Vigilancia Tecnológica e Inteligencia Competitiva (VTIC)
Sistemas de Inteligencia Web (SIW)
Técnicas para extraer y analizar datos Web
Extracción de redes sociales
Diagramas estructurales
Visualización focalizada
SIW basado en BPMS
Plataforma TREDAR
Conclusiones y trabajos futuros
Difusión de Resultados

53/55
Publicaciones

Revista española de
documentación científica JISBD 2004

REDC 2005 (3/30)


DEXA 2005
(RESH 0,705)
JCR (CORE B)

REDES 2005 (18/130)


(RESH 0,067) REDES 2007 (18/130)
(RESH 0,067)

LNCS 2005
(SJR 0.377) TREDAR,
Proyectos Índice de citas Revistas
2003-2013 Españolas de Ciencias
DX IJCAT 2008 Sociales y Humanas

Scientific Journal Rankings

I. J. of Computer Applications in Technology


54/55
Participación en proyectos
Colaboración pública:
Automatización de la detección y diagnosis de fallos de sistemas
estáticos y dinámicos usando conocimiento semicualitativo. 2003-2006.
Ministerio de Ciencia y Tecnología.
Automatización de la detección, diagnosis y tolerancia a fallos en
sistemas con incertidumbre y en sistemas distribuidos. 2006-2009.
Ministerio de Educación y Ciencia.
Opbus: Mejora de la calidad en procesos de negocio mediante
tecnologías de optimización y tolerancia a fallos. 2009-2011. Junta de
Andalucía.
Técnicas para la diagnosis, confiabilidad y optimización en los sistemas
de gestión de procesos de negocio. 2010-2013. Ministerio de Ciencia
e innovación.
Colaboración con empresas:
AVIOL: Asistente Virtual Interactivo: Información para orientación
laboral. Sadiel. 2007-2009.
ArchivaE: Archivo electrónico. Emergya. 2011-2013.

55/55