Anda di halaman 1dari 5

AGILE BIG DATA:

IMPLEMENTANDO UN REQUERIMIENTO ANALÍTICO

Imagen: www.ted.com/playlists/130/the_dark_side_of_data

INTRODUCCIÓN
Los datos se han convertido en activos empresariales más importantes de una
compañía, y aunque en algunos casos aún existe desconocimiento en cómo
convertirlos en conocimiento y en una ventaja competitiva fuera del papel, la Gestión
de Información y el Gobierno de Información, ya son una prioridad para las empresas
que han tomado un enfoque “data driven”, es decir, empresas que basan sus
decisiones estratégicas en la información.

La información estructurada y no estructurada que capturan las empresas,


consciente o inconscientemente sobre su negocio, es uno los pilares fundamentales
sobre los cuales aterriza la “Transformación Digital”, ya que son utilizados en analítica
predictiva, cognitiva y procesos de inteligencia artificial.

Este articulo analiza a continuación en forma breve, como podríamos explotar la


información mencionada, en una forma ágil e iterativa.

Autor: Jean Paul Saltos https://www.linkedin.com/in/jeanpaulsaltos/

Bajo Licencia: Creative Commons - Attribution-NonCommercial-NoDerivatives 4.0 International


(CC BY-NC-ND 4.0)
LA REALIDAD
Con la llegada de los repositorios analíticos “avanzados”, entre ellos las Virtual
Databases, Data Hubs y los más popularizados, los Data Lakes que se basan en
conceptos de Big Data como es el almacenamiento y procesamiento distribuido
(bases de datos NoSQL, Hadoop y otros), las empresas enfrentan a una gran brecha
de talento en lo que respecta a estas tecnologías. A esto debemos sumar que lo
habitual en los usuarios de negocio, es que tampoco tengan un entendimiento claro
sobre Big Data, sus conceptos, beneficios y usos.

El costo y tiempo de implementación de una plataforma de Big Data, tampoco han


sido los más alentadores, pese a que con tecnologías Cloud estos factores se han
visto minimizados, debemos sumarle la falta de confianza de las empresas a
“encargar sus datos en un computador ajeno” es decir, en la nube, por lo que muchas
insisten en montar estas soluciones localmente.

Antes de pasar al siguiente punto, entendamos brevemente lo que es un Data Lake


o Lago de Datos:

Autor: Jean Paul Saltos https://www.linkedin.com/in/jeanpaulsaltos/

Bajo Licencia: Creative Commons - Attribution-NonCommercial-NoDerivatives 4.0 International


(CC BY-NC-ND 4.0)
Un lago de datos es un repositorio de información empresarial estructurada y no
estructurada recopilada desde sistemas internos y externos. Incluye datos históricos
y mediante el uso de conectores (API’s) podría enriquecerse con información de
datos sociales de Facebook o Twitter, o datos abiertos como coordenadas GPS.

POR DONDE EMPEZAR


Muchas empresas han optado por empezar a aplicar métodos ágiles para la mayoría
de sus proyectos; los marcos de trabajo ágiles como Scrum, permiten crear software
o administrar procesos de manera más efectiva.

En términos muy generales, se trata de un enfoque colaborativo en el que equipos


multifuncionales diseñan y crean productos por medio de prototipos, los que
prueban los clientes y son redefinidos y/o mejorados en ciclos repetitivos o
iteraciones cortas, dependiendo de la retroalimentación recibida.

Basado en experiencia, para empezar a experimentar con Scrum y Big Data, una
propuesta puntual sería la creación de equipos multifuncionales que integran
miembros del negocio y tecnología en un “Laboratorio de Datos" o “Centro de
Excelencia” si queremos ponerle un nombre más “formal”.

Estos equipos se centrarán en buscar historias de usuario y desarrollar productos y


procesos para la generación de prototipos analíticos viables, que podrían lanzarse,
probarse y perfeccionarse rápidamente, acelerando así la capacidad de la empresa
para explotar la información disponible y generar valor comercial a partir de estos.

Como los programas de aprovechamiento de datos por naturaleza, tienden a


expandirse y abarcan cada vez más unidades de negocio, un Centro de Excelencia
podría evolucionar hacia un Business Intelligence/Analytics Competency Center,
ampliando su rango de acción y generación de valor al interior de la Organización.

Y CON LA HISTORIA DE USUARIO, QUÉ?


Una vez descubierta la historia de usuario y asumiendo que se trata de una necesidad
de analizar información y ya contamos con una arquitectura implementada en nube
o localmente, regularmente el proceso de desarrollo se centra hacia explotar los
datos disponibles en un modelo de análisis descriptivo o predictivo, dependiendo

Autor: Jean Paul Saltos https://www.linkedin.com/in/jeanpaulsaltos/

Bajo Licencia: Creative Commons - Attribution-NonCommercial-NoDerivatives 4.0 International


(CC BY-NC-ND 4.0)
de las técnicas aplicadas. El corte que deberíamos hacer sobre este proceso sería
algo así:

1. Identificación de datos

Se analizan las fuentes de datos para verificar la factibilidad de la extracción de datos,


fuentes legibles, ubicación, accesibilidad, permisos, etc.

2. Adquisición y filtrado

Se procede a extraer y filtrar los datos necesarios ya que por más que se trate de un
Data Lake, no es una mejor práctica cargar información que no sea de utilidad
posterior.

3. Extracción y homologación

Se convierten y estandarizan los datos y formatos identificados, en un solo formato


homogéneo.

4. Validación y limpieza

Se valida la coherencia de los datos ya semiestructurados y se realizan

Autor: Jean Paul Saltos https://www.linkedin.com/in/jeanpaulsaltos/

Bajo Licencia: Creative Commons - Attribution-NonCommercial-NoDerivatives 4.0 International


(CC BY-NC-ND 4.0)
procedimientos de limpieza.

5. Agregación de datos

Se unifican las distintas fuentes de información para formarán parte del data lake
para análisis.

6. Análisis de datos

Se desarrolla un modelo de análisis para toma de decisiones.

RESUMEN
Las tecnologías de Analítica y Big Data al igual que muchas otras, presentan su mayor
complejidad no a nivel de infraestructura o implementación como herramienta, sino
al momento de desarrollar e implementar las necesidades del usuario, capturadas
frecuentemente por medio de historias de usuario.

Desde los más básicos reportes, dashboards o modelos de análisis, comúnmente


presentan alta incertidumbre en sus definiciones causada por los distintos tipos de
análisis que pueden requerir y aparecer desde usuarios no involucrados en el
proyecto desde un inicio, por lo que se vuelve casi mandatorio utilizar un marco de
trabajo como Scrum con iteraciones pequeñas, que mitiguen el riesgo en forma
temprana.

En proyectos de Inteligencia de Negocio, Analítica y Gestión de Información, siempre


existirán particularidades a considerar cuando se realiza un corte transversal al
proceso de implementación, ya que tiene gran diferencia de los procesos de
desarrollo de software tradicional.

Autor: Jean Paul Saltos https://www.linkedin.com/in/jeanpaulsaltos/

Bajo Licencia: Creative Commons - Attribution-NonCommercial-NoDerivatives 4.0 International


(CC BY-NC-ND 4.0)

Anda mungkin juga menyukai