Bases de Datos Avanzadas - Licenciatura en Ciencia de la Computacin Prof. Fredi Palominos V.
Agregacin de Datos
Prof. Fredi Palominos Villavicencio Modelamiento Multidimensional Bases de Datos Avanzadas - Licenciatura en Ciencia de la Computacin Prof. Fredi Palominos V. Concepto de Agregacin de Datos: Se llama Agregacin de Datos (en el sentido estadstico), al proceso de resumir (mediante la acumulacin de valores numricos o el conteo de datos cualitativos) la informacin correspondiente a variables estadsticas, en uno o ms grupos de informacin.
La acumulacin de valores se hace por medio del conteo o la suma de los valores de las variables estadsticas o de expresiones aritmticas. Modelamiento Multidimensional Bases de Datos Avanzadas - Licenciatura en Ciencia de la Computacin Prof. Fredi Palominos V. Formalmente, la agregacin de datos de un conjunto determinado, se define como:
F(A) = f(x) x A
donde f(x) es una expresin algebraica definida sobre las caractersticas o propiedades (variables en el sentido estadstico), que definen a los elementos del conjunto A. Modelamiento Multidimensional Bases de Datos Avanzadas - Licenciatura en Ciencia de la Computacin Prof. Fredi Palominos V. Ejemplos: 1) Sea g(x) = 1.
F(A) = g(x) = 1 = # ( A ) Cardinalidad x A x A 2) Sea h(x) = a(X) 2 + 3
F(A) = h(x) = (a(x) 2 +3) = a(x) 2 + 3#(A) x A x A x A
a(x) = representa el valor el atributo a en el elemento x.
Sea A un conjunto tal que sus elementos estn de caracterizados por las variables a, b, c y d ( x = (a, b, c, d) ) Modelamiento Multidimensional Bases de Datos Avanzadas - Licenciatura en Ciencia de la Computacin Prof. Fredi Palominos V. Modelamiento Multidimensional Bases de Datos Avanzadas - Licenciatura en Ciencia de la Computacin Prof. Fredi Palominos V. Funcin de Agregacin: Llamarmos Funcin de Agregacin, a una funcin que se aplica sobre las tuplas de una relacin (F: R ), tal que:
F( ) = f(x) x
Observacin:
f(x) es una expresin algebraica definida en trminos de las caractersticas del Esquema de Relacin de o constantes. Modelamiento Multidimensional Bases de Datos Avanzadas - Licenciatura en Ciencia de la Computacin Prof. Fredi Palominos V. Propiedad de Aditividad de una Funcin: Sean dos relaciones 1 y 2 compatibles, tales que 1 2 = .
Se dice que una funcin cumple la propiedad de aditividad, si y slo si:
( 1
2 ) = ( 1 ) + ( 2 )
Modelamiento Multidimensional Bases de Datos Avanzadas - Licenciatura en Ciencia de la Computacin Prof. Fredi Palominos V. La Agregacin en los SGBA: En los sistemas de gestin de Bases de Datos, la agregacin se entiende como el proceso de:
1. Agrupar las filas en funcin de un criterios particular. 2. Por cada grupo de filas, generar un nico conjunto de escalares (medidas)
Se obtiene un resumen de los datos a travs de la acumulacin de las sumas de los valores de una funcin en cada fila del grupo. Modelamiento Multidimensional Bases de Datos Avanzadas - Licenciatura en Ciencia de la Computacin Prof. Fredi Palominos V. La Agregacin en los SGBA: Las funciones de agregacin estndar de los SGBA son aquellas que retornan:
La cantidad de elementos en un grupo de filas (Count) La suma, el promedio y la desviacin estndar de todos los elementos de un grupo (Sum, Average y Dsv) Se suelen considerar en este grupo, aunque no son agregaciones, adems:
El mnimo o mximo valor de una caracterstica entre todos los elementos de un grupo (Min y Max) Modelamiento Multidimensional Bases de Datos Avanzadas - Licenciatura en Ciencia de la Computacin Prof. Fredi Palominos V. Cuidados en los procesos de Agregacin: No todas las funciones de agregacin permiten optimizar el procesamiento de la informacin.
La optimizacin del proceso se relaciona, entre otros aspectos, con la capacidad de las funciones de agregacin para aprovechar los resultados obtenidos en operaciones previas. Modelamiento Multidimensional Bases de Datos Avanzadas - Licenciatura en Ciencia de la Computacin Prof. Fredi Palominos V. Funcin Count: Los resultados previos se pueden reutilizar sin alterar el resultado final. Funciones Min y Max: Los resultados previos se pueden reutilizar para obtener el resultado respecto de un grupo ms grande. Funcin Sum: Los resultados previos son reutilizables. Funciones Average y Dsv: Resultado previos no son reutilizables, a menos que se cuente con informacin adicional, que permita retraer el estado del cmputo, a uno tipo de estadgrafo que si permita la reutilizacin de resultados previos. Si debisemos agregar por partes los elementos de un determinado conjunto, con las funciones clsicas, deberamos esperar los siguientes comportamientos: