Norte
ISSN: 0124-5821
asanchezu@ucn.edu.co
Fundacin Universitaria Catlica del
Norte
Colombia
Blanco Rojas, T., Archila Crdoba, D. M. & Ballesteros Ricaurte, J. A. (2016). Gestin de datos obtenidos
desde redes sociales aplicando Business Intelligence Engineering Process. Revista Virtual Universidad Catlica
del Norte, 49, 72-91. Recuperado de
http://revistavirtual.ucn.edu.co/index.php/RevistaUCN/article/view/798/1318
* Artculo de investigacin resultado del proyecto Sistema de Informacin para obtener datos mediante redes sociales usando Business Intelligence Engineering Process, asociado a la
participacin en grupo de investigacin GIMI. Fecha de inicio: septiembre de 2013. Fecha de finalizacin: septiembre de 2014.
Resumen a problematic situation derived from the lack of
Desde hace algn tiempo, las redes sociales han tomado communication with its graduates; therefore, in this
mucha fuerza dentro de las organizaciones e instituciones, research article we present the results obtained from the
llegando al punto de investigar los datos contenidos en process of collecting data from social networks by using
estos medios de comunicacin para la solucin de diversas the BIEP methodology.
necesidades. En la actualidad, la Universidad Pedaggica y
Tecnolgica de Colombia afronta una situacin Keywords
problemtica basada en la falta de comunicacin con los BIEP, Graduates, Facebook, Business intelligence, Data
egresados de la misma; por tal razn, en el presente mining, Social networks.
artculo de investigacin se presentan los resultados
obtenidos en el proceso de extraccin de datos desde Gestion de donnes obtenues de rseaux sociaux
redes sociales aplicando la metodologa Business en appliquant Business Intelligence Engineering
Intelligence Engineering Process (BIEP). Process (BIEP)
Palabras clave Rsum
Depuis un temps, les rseaux sociaux ont devenu trs
Business Intelligence Engineering Process, Egresados,
importants chez les organisations et les institutions, tel
Facebook, Inteligencia de negocios, Minera de datos,
point quon recherche les donnes drives de ces moyens
Redes sociales.
de communication pour solutionner des diffrentes
Management of the Data Obtained from Social ncessits. Dans lactualit, lUniversit Pdagogique et
Networks by Applying Business Intelligence Technologique de la Colombie a une situation
Engineering Process (BIEP) problmatique qui se base sur le manque de
communication avec ses diplms ; dans cet article on
Abstract prsente les rsultats obtenus dans le processus
In recent times social networks has become very important dextraction de donnes des rseaux sociaux en appliquant
within organizations and institutions to the point of la mthodologie BIEP.
researching the data contained in this communication
media for solving different needs. Currently the Mots-cls
Pedagogical and Technological University of Colombia has BIEP, Diplms, Facebook, Informatique dcisionnelle,
Extraction de donnes, Rseaux sociaux.
73
Introduccin
Marco terico
Con el rpido crecimiento de las cuentas de usuario en las redes sociales se puede
observar que estas son un foco inmenso de todo tipo de informacin, entre la que
se encuentran gustos, sentimientos, emociones, eventos, lugares y dems (Grau,
74
2009). Con estos datos las organizaciones pueden estudiar las necesidades de los
usuarios a travs de metodologas y herramientas especializadas, encontrando all
soluciones para publicidad, mercadeo, comunicacin, presupuesto, manejo de bases
de datos y marketing (I-Hsien, Hui-Ju & Pei-Shan, 2009).
Las redes sociales contienen datos indispensables para las organizaciones, pero
en algunas ocasiones no son tenidas en cuenta; de aqu se deriva el problema de
que no se usen metodologas y arquitecturas adecuadas para transformar datos en
informacin til (Caldevilla Domnguez, 2010).
NoSQL
Las bases de datos NoSQL (Not Only SQL No solo SQL) surgen como una solucin
a los constantes requerimientos de procesamiento y anlisis a gran escala de
enormes cantidades de datos, para los cuales los sistemas tradicionales de base de
datos son insuficientes. NoSQL se enfoca en sistemas de almacenamiento de
informacin que no cumplen con el esquema entidad-relacin (Martn et al., 2013).
La gran flexibilidad que ofrece, as como las posibilidades que brinda desde el punto
de vista de la optimizacin en sus diseos, la convierten en una atractiva variante a
tener en cuenta para la administracin de informacin (Gracia del Busto & Yanes
Enrquez, 2012).
BIEP: Metodologa para el desarrollo de sistemas orientados a inteligencia
de negocios
En ese orden de ideas, BIEP contiene ocho flujos de trabajo, cinco de ellos
derivados del proceso unificado: requerimiento, anlisis, diseo, implementacin y
pruebas. Dos de ellos provienen del DWEP: el mantenimiento y las revisiones
posdesarrollo. Esta Metodologa tambin contiene las mismas fases desarrolladas en
el proceso unificado y en 75
DWEP, como las mostradas en la Tabla 1.
Define el lmite y alcance del proyecto. Objetivo principal: proveer una visin
Inicio
general del proyecto de BI que se pretende desarrollar.
Metodologa de desarrollo
Con el fin de llevar a cabo el proceso para determinar la influencia de las redes
sociales en la obtencin de informacin se definen las siguientes actividades:
a. Flujo de requerimientos
77
78
80
Fase de elaboracin
En esta fase se busca, por medio de las actividades, extraer y organizar informacin
pertinente al caso de estudio, migrando datos de las redes sociales para que de esta
forma se pueda crear una base de datos de una muestra de la poblacin en estudio.
a. Flujo de diseo
El objetivo principal de este flujo de trabajo consiste en realizar el diseo conceptual
de la bodega de datos, adems de realizar un primer proceso de seleccin, limpieza,
construccin e integracin entre la bodega y las fuentes de datos. Para llevar a
trmino dichas actividades, la metodologa BIEP recomienda desarrollar los
siguientes esquemas:
Esquema de estados de mquina en la bodega de datos (Data
Warehouse State Machine Schema, DWMSS): este esquema representa el
comportamiento dinmico de una entidad con base en su respuesta a los
acontecimientos, mostrando la manera en que la entidad reacciona ante los eventos
diversos en funcin de su estado actual (Gerolami, Revello & Venzal, 2011).
Fase de construccin
Las actividades que hacen parte de esta fase buscan desarrollar la integracin de
los datos recolectados con la base de datos de la muestra de egresados para llevar
a cabo el diseo de un Data Mart (Rico-Sulayes, 2015) con la herramienta SQL
Server, con el fin de mostrar adecuadamente la informacin obtenida de las redes
sociales. Para ello, se desarrollan los siguientes flujos de actividades:
a. Flujo despliegue
82
Actividad en la que se determina la forma en que sern utilizados los datos
obteniendo la planificacin del despliegue y de la monitorizacin, adems de generar
el informe final y la revisin del proyecto. Con los datos extrados, transformados y
almacenados en la base de datos, se disean consultas que permiten generar
reportes estadsticos; estos contribuyen a dar respuesta a los requisitos del negocio
planteados en el flujo de requerimientos de la fase de inicio.
b. Flujo pruebas
Fase de transicin
En esta fase final, las actividades planteadas se basan en pruebas necesarias dentro
del proceso de migracin, estas pruebas se centran en la revisin de la
documentacin obtenida y en la visualizacin de informacin y de oportunidades de
mejora dentro del caso de estudio. Para dar cumplimiento se siguen los siguientes
flujos:
a. Flujo de mantenimiento
b. Flujo posdesarrollo
Para cumplir la finalidad de este flujo de trabajo se plantean las siguientes
actividades:
Resultados
Las redes sociales son una fuente de datos importante; de all se obtuvo la mayor
parte de la informacin analizada en el proyecto. Por tal razn, se realiz una
caracterizacin donde se puede evidenciar el uso de las redes sociales por parte de
los egresados (figura 7).
85
Esta red social forma microrredes internamente segn las personas que se
tengan agregadas, lo que permite observar la forma como se relacionan las personas
que tienen perfiles segn las reas en que se desenvuelven.
Finalmente, Twitter fue la red en la que se encontr la menor cantidad de
poblacin de egresados; esta se centra en compartir informacin que para el caso
de estudio no fue de utilidad. En el perfil de cada persona se pueden observar los
mensajes compartidos y datos bsicos, informacin que no aport gran peso para
la investigacin desarrollada. Por otra parte, al igual que las otras redes, algunos
perfiles de Twitter restringen la visualizacin de su informacin. El nico patrn de
estudio que se tuvo en cuenta en esta red social fue las personas a las que sigue
cada egresado; por medio de esto, se determin si el perfil perteneca a una persona
de la poblacin en estudio.
Los datos obtenidos a travs de las tres redes sociales nombradas se
almacenaron en archivos de Microsoft Excel (XLS) para cargarse posteriormente en
una base de datos en MySQL, por medio de una aplicacin desarrollada en Java que
consta de siete (7) clases:
Cuando los datos se cargan en cada una de las tablas de la base de datos, se
puede evidenciar sus contenidos a travs de MySQL Workbench (figura 8).
Figura 8. Tablas cargadas en MySQL
Esta aplicacin est diseada usando como base la tcnica de minera de datos
de agrupamiento y clasificacin (Ballesteros, Snchez-Guzmn & Garca, 2013): por
medio de asociaciones y ordenaciones de datos que guardan similitud entre s, se
obtienen resultados que para el caso de estudio se orientan a informacin
acadmica, personal o laboral de la poblacin de egresados.
Figura 12. Aplicacin de gestin de egresados
Conclusiones
Caldevilla Domnguez, D. (2010). Las Redes Sociales. Tipologa, uso y consumo de las redes
2.0 en la sociedad digital actual. Documentacin de las Ciencias de la Informacin.
Recuperado el 3 de febrero de 2010 en:
http://revistas.ucm.es/index.php/DCIN/article/view/DCIN1010110045A/18656
Gerolami, N., Revello, E. & Venzal, G., (2011). Implantacin de Data Warehouse Open Free.
(tesis de pregrado). Montevideo: Facultad de Ingeniera, Universidad de la Repblica.
Gracia del Busto, H., Yanes Enrquez, O. (2012). Bases de NoSQL. Revista Digital de las
tecnologas de la Informacin y las comunicaciones, 11, 21-33.
Jadav, Jigna & Panchal, Mahesh. (2012). Association Rule Mining Method On OLAP Cube.
International Journal of Engineering Research and Applications (IJERA), 2, 1147-
1151.
Martn, A., Chavez, S., Rodrguez, N., Valenzuela, A. & Murazzo, M. (2013). Bases de Datos
NoSQL en Cloud Computing. Presentado en el XV Workshop de Investigadores en
Ciencias de la Computacin.