Anda di halaman 1dari 29

CATEDRA: ADMINISTRACIÓN DE RECURSOS DE LA INFORMACIÓN

CATEDRÁTICO: ING. LOARDO NUÑEZ WILDER

CICLO: VIII

ESTUDIANTES:

AGUILAR HINOJOSA EDUARDO

CCORPA LEÓN SAÚL

MALDONADO FIGUEROA , KEVIN

MANRIQUE MARTINEZ JOSE LUIS

HUANCAYO - 2018
EL ALMACÉN DE DATOS ELÁSTICO DE COPO DE NIEVE

Misión: construir un almacén de datos empresarial como un


servicio en la nube.

• HQ en el centro de San Mateo

• Más de 130 empleados


3
Nuestro producto

• El almacén de datos elástico de copo de nieve


• Multi-tenant, transaccional, seguro, altamente escalable, elástico
• Diseñado desde cero para la nube.
• Construido para proporcionar una verdadera experiencia de servicio
• Se ejecuta en la nube de Amazon (AWS)
• Millones de consultas por día sobre petabytes de datos.
• Más de 100 clientes activos, creciendo rápidamente.
MOTIVACIÓN
Algo de historia
• A finales de 2012 inicio esta realidad
• SQL-on-Hadoop es todo el bombo
• El desplazamiento al rojo no está todavía
• No miremos a nuestro alrededor.
• Miremos hacia arriba ...
¿QUÉ ES ESA COSA DE LA NUBE?
Cloud: su próxima computadora
• Nueva plataforma informática
• Nuevo sistema operativo
• Elasticidad en múltiples dimensiones.
• Escalabilidad infinita
• Modelo de entrega SaaS
• El centro de datos para el mundo.
NUBE Y BASES DE DATOS

• ¿Puede funcionar?

• ¡Por supuesto! ¡Implementemos MySQL en EC2!

• ¿Puede funcionar bien?

• ¿Elasticidad?

• ¿Resiliente a las fallas de hardware?

• ¿Fácil de usar?
ARQUITECTURA DE NADA COMPARTIDO

• Las tablas están particionadas horizontalmente entre nodos


• Escalas bien para consultas de esquemas en estrella
• Requiere mucha sintonía
• Arquitectura dominante en el almacenamiento de datos.
• Teradata, Vertica, Netezza…
LOS PELIGROS DEL ACOPLAMIENTO

RECURSOS DE CÓMPUTO Y ALMACENAMIENTO DE PAREJAS DE NADA


COMPARTIDO - ELÁSTICO

• Cambiar el tamaño requiere redistribuir datos


• Sistema a menudo no disponible
• No se pueden deshabilitar los recursos no utilizados → sin pago por uso
• Imposible disponer correctamente

RECURSOS HOMOGÉNEOS VS. CARGA DE TRABAJO HETEROGÉNEA


• Carga masiva, informes, análisis exploratorio.
EL ALMACÉN DE DATOS COMO SERVICIO

. No hay infraestructura para administrar, no hay botones


para sintonizar Elasticidad multidimensional Datos de
escalabilidad bajo demanda, consultas, usuarios.

Todos los datos de negocios Soporte nativo para datos


relacionales + semiestructurados.
NUESTRA VISIÓN PARA UN ALMACÉN DE DATOS EN LA NUBE

El almacén de datos Multidimensional


como servicio. elasticidad Todos los negocios
datos
No hay infraestructura Escalabilidad bajo Soporte nativo para
para administrar, no hay demanda datos, relacional + datos
botones para sintonizar consultas, usuarios semiestructurados

13
ARQUITECTURA
ARQUITECTURA DE DATOS COMPARTIDOS MULTI-CLUSTER

Rest (JDBC/ODBC/Python)

Todos los datos en un solo lugar.

• Escala independientemente cada capa

Cada almacén virtual puede acceder a


todos los datos.
CAPA DE ALMACENAMIENTO DE DATOS

ALMACENA DATOS DE TABLAS Y RESULTADOS DE CONSULTAS.


UTILIZA AMAZON S3

• Almacén de objetos (clave-valor) con interfaz HTTP (S)


• Alta disponibilidad, extrema durabilidad (11-9)

ALGUNAS DIFERENCIAS IMPORTANTES W.R.T. DISCOS LOCALES

• Rendimiento (claro…)
• Sin actualización en el lugar, los objetos deben estar escritos en su
totalidad

FORMATO DE ARCHIVO OPTIMIZADO S3 Y CONTROL DE CONCURRENCIA


OTROS DATOS

S3 TAMBIÉN SE USA PARA DATOS TEMPORALES Y RESULTADOS DE CONSULTAS


• Consultas arbitrariamente grandes, nunca se quedan sin espacio en disco
• Recuperar y reutilizar resultados de consultas anteriores.

METADATOS ALMACENADOS EN UN ALMACÉN DE CLAVE-VALOR


TRANSACCIONAL (NO S3)
• Mapeo de objetos S3 a tablas
• Estadísticas del optimizador, tablas de bloqueo, registros de transacciones,
etc.
• Parte de la capa de servicios en la nube (ver más adelante)
ALMACÉN VIRTUAL

CLUSTER DE INSTANCIAS DE EC2


RECURSOS DE COMPUTACIÓN PURA

• Creado, destruido, redimensionado a pedido.


• Los usuarios pueden ejecutar múltiples VW al mismo tiempo
• Acceso a datos compartidos con rendimiento aislado.
• Los usuarios pueden apagar todos los VW cuando no tienen nada que ejecutar

LOS NODOS TRABAJADORES SON EFÍMEROS.


CADA NODO TRABAJADOR MANTIENE EL CACHÉ DE LA TABLA LOCAL
SERVICIOS EN LA NUBE
• Colección de servicios
Control de acceso, optimizador de consultas, gestor de
transacciones, etc.
• Multi-inquilino y siempre en
• Replicado para disponibilidad y escalabilidad.
• Estado duro almacenado en el almacén de clave-valor
transaccional
• Interfaces estándar y una interfaz de usuario web rica en
características
• Foco en la facilidad de uso y la experiencia de servicio
CARACTERÍSTICAS DESTACADAS
ELASTICIDAD MULTIDIMENSIONAL

Escala elástica para


Marketing • Almacenamiento
• Calcular
Finance

• Concurrencia

Databases

Test/Dev
Sales

•¡Todo gracias al desacoplamiento


Biz Dev
de almacenamiento y cómputo!

21
ALMACENAMIENTO ELÁSTICO

• S3: bajo costo, totalmente replicado, seguro y resistente


• Capacidad infinita *
• Paga por el espacio / tiempo que usas
• Todos los datos disponibles para todos.

Consistencia transaccional completa


• Requiere motor de procesamiento elástico.
CÓMPUTO ELÁSTICO Y CONCURRENCIA
• Optimizar almacenes virtuales para cargas de trabajo.

Pequeño VW para carga continua.

VW X-Large para un informe semanal

• Optimizar para uso concurrente.

Diferentes VWs para diferentes usuarios.

Acceso a los mismos datos, sin interferencia de rendimiento.

Escala automática para escenarios de alta concurrencia

• Paga por lo que usas


NUEVOS ESCENARIOS DE USO.

• "Más barato que caminar a la DBA"


Pedirle permiso a la DBA toma 10 minutos.
Tiempo => Dinero => Calcular (si es elástico!)
• "Es como un Porsche para el fin de semana"
"¡Utilizo una máquina de 64 nodos para mi informe semanal!"
• No más: "¡No hagas consultas! Estamos cargando nuevos datos! "
Sin interferencia de recursos / rendimiento. No hay datos de datos!
• "Sin afinación, simplemente funciona"
"Perdí 20 libras y reduje el fumar"
OTRAS CARACTERÍSTICAS

• Despliegue Multi-AZ • Viaje en el tiempo


• Disponibilidad continua • Clonación instantánea
• Siempre al día • Almacenamiento y procesamiento
• Seguridad (SOC-2, HIPAA) semiestructurado optimizado. •
Autenticación federada y MFA Rendimiento relacional a juego
Control de acceso • UDFs de JavaScript
• Copia de seguridad • ODBC, JDBC, NodeJS, Python, R,
automatizada Spark,…
• Escalabilidad automatizada • Tableau, Informatica, Looker ...
LECCIONES APRENDIDAS
LECCIONES APRENDIDAS

• Desacoplar el almacenamiento y calcular un cambiador de juego para los


usuarios.
Mapas en la nube muy bien
Permite una novedosa arquitectura de datos compartidos, multi-cluster.
Menos silos de datos y más fácil acceso a los datos.
Escenarios de uso más flexibles.
Costes de escala para diferentes capas de forma independiente.
• Las extensiones semiestructuradas fueron un éxito mayor de lo esperado
• El modelo SaaS ayuda tanto a los usuarios como a nosotros.
• Los usuarios aman el aspecto "no tuning"
DESAFÍOS EN CURSO
• SAAS Y MULTI-TENANCY SIGUEN SIENDO LOS MAYORES DESAFÍOS
• Cientos de usuarios concurrentes, algunos de los cuales hacen cosas raras
• La capa de metadatos se está volviendo enorme
• Manejo de fallas
• SEGURIDAD
• Hay más para ejecutar un servicio seguro que "cifrar todo"
• MUCHO TRABAJO POR HACER
• Funcionalidad SQL y mejoras de rendimiento.
• Modelo de autoservicio
GRACIAS

Anda mungkin juga menyukai