Anda di halaman 1dari 20

Archivos convencionales 1 191

Como ya se seal, un archivo es un conjunto de registros y a cada registro lo conforman


campos, a cada campo lo integran caracteres o bytes y cada carcter consta de ocho bits.
Por ejemplo, si en un archivo se almacena el nombre y el departamento de cada uno de los
empleados de una empresa, para cada empleado se utilizar un registro, el cual consta de dos
campos: nombre y departamento. Cada campo est compuesto por caracteres; por ejemplo,
si el nombre es David, ello implica cinco caracteres, y si el departamento es Sistemas, ocho
caracteres. A su vez, cada uno de los caracteres representa un byte de informacin compues-
to por ocho bits que indican su representacin binaria.
Existen dos formas para organizar los archivos: secuenciales y directos. En los archivos
secuenciales los registros se almacenan en una secuencia que depende de algn criterio de-
finido. Por ejemplo, pueden almacenarse los registros de los empleados de la empresa de
manera secuencial de acuerdo con el departamento al que pertenecen o de acuerdo con su
antigedad.
El uso de archivos secuenciales presenta algunas desventajas en el proceso de actualiza-
cin, consulta o registro de informacin cuando se maneja un gran volumen de datos. Por
ejemplo, si se desea registrar a un nuevo empleado segn el departamento en el que va a
laborar, es necesario buscar en cada registro hasta encontrar la posicin en la cual debe agre-
garse la informacin del nuevo empleado. Si se desea consultar o modificar informacin,
tambin es necesario revisar cada registro hasta encontrarla. Si hay demasiados registros,
este proceso se vuelve muy lento.
La otra forma de organizar los archivos es en archivos directos, con los cuales se eliminan
las desventajas de los archivos secuenciales, ya que su manejo da mayor flexibilidad. Los
archivos directos permiten accesar, mediante una llave de acceso dentro del archivo, a un
registro de informacin sin tener que buscar en cada uno de los registros del archivo. Por
ejemplo, si se desea actualizar el registro de informacin del empleado David y se utiliza
como llave su nombre, es posible localizar rpido su informacin.
Sin embargo, es necesario entender que el enfoque de almacenamiento y recuperacin
de datos convencional presenta varios problemas: dependencia de datos-programa, alta re-
dundancia de datos y poca integridad de los mismos, los cuales se solucionan al usar las
bases de datos.
Dependencia de datos-programa
Significa que, por ejemplo, para obtener un informe de empleados el programador debe co-
nocer cmo estn almacenados los datos, en qu orden estn los campos en el registro y,
finalmente, para lograr el informe es necesario tener un programador que "programe" el
informe en algn lenguaje de programacin.
La redundancia de datos
Se presenta cuando existen datos que utilizan diferentes departamentos de una empresa.
As, por ejemplo, el rea de compras y el almacn tienen el mismo archivo de productos,
bajo el enfoque de archivos convencionales o planos, cualquier actualizacin de un producto
realizada por almacn puede afectar los datos de ese mismo producto en el rea de compras,
192 Captulo 8 1 Fundamentos de administracin de bases de datos
lo cual causa un desperdicio de espacio de almacenamiento. Es necesario hacer las actualiza-
ciones en cada uno de los archivos de cada departamento, para evitar ineficiencia de proce-
sos y, obviamente, desperdicio de tiempo y dinero.
La integridad de datos
Este problema se refiere a, en la situacin comentada en el prrafo anterior, que si compras
cambia la descripcin de un producto o por error una o ms letras de dicha descripcin sin
hacer lo mismo sobre el archivo de almacn, provocar una falta de integridad de los datos,
lo que, a su vez, generar informes errneos.
DEFINICIN DE BASES DE DATOS
El esquema conceptual que se presenta en la figura 8.1le permite comprender una base de
datos. Si toma como referencia este esquema, una base de datos se define como una serie
de datos organizados y relacionados entre s, los cuales son recolectados y explotados por los
sistemas de informacin de una empresa o negocio. Tambin es una coleccin de datos con
las siguientes caractersticas: conjunto de datos correlacionados; construida para un prop-
sito especfico; tiene algunos usos de inters especial para ciertas personas; representa algn
aspecto del mudo real, por tanto, los cambios en ese aspecto se deben reflejar en la base de
datos; los datos se almacenan de tal forma que son independientes de los programas que los
usan.
Las bases de datos proporcionan la infraestructura requerida por los sistemas de apoyo
a la toma de decisiones y por los sistemas de informacin estratgicos, ya que estos sistemas
Figura 8.1
Esquema conceptual:
sistemas de informa-
cin y la base de datos.
Definicin de bases de datos 1 193
Figura 8.2
Ejemplo de entidades y
sus relaciones.
explotan la informacin contenida en las bases de datos de la organizacin para apoyar el
proceso de toma de decisiones o para lograr ventajas competitivas. Por este motivo es im-
portante conocer la forma en que se estructuran las bases de datos y su manejo.
Los sistemas transaccionales o los sistemas estratgicos (SIS) recolectan la informacin
que contendr la base de datos, por medio de las funciones de creacin, bajas o modifica-
cin de la informacin. La forma de operar de estos sistemas puede ser batch, o en lnea,
depende de la manera en que se actualice la informacin de la base de datos. La informacin
recolectada por los sistemas transaccionales o por los sistemas estratgicos es explotada por
los sistemas de apoyo a las decisiones o por los mismos sistemas estratgicos, que propor-
cionan funciones de actualizacin de la informacin en lnea, lo cual puede observarse en la
figura 8.1.
A partir de la definicin de base de datos se comprende el concepto de datos organizados
como unidades de informacin; por ejemplo, pacientes de un hospital, clientes, productos
terminados, empleados, materias primas, etc., son unidades de informacin que se deno-
minan entidades. Como puede observar en el ejemplo de la figura 8.2los datos de clientes,
facturas y artculos son utilizados en sistema de caja de una empresa. Adems las entidades
se encuentran relacionadas, si los registros de clientes tienen un nmero indefinido de factu-
ras, stas se vinculan a una cantidad indeterminada de artculos.
Observe la simbologa utilizada en el diagrama, por ejemplo, un cliente puede tener
"n" facturas, una factura puede llevar a "n" artculos y un artculo puede estar referido en "n''
facturas. Finalmente, la informacin interrelacionada la utiliza una organizacin particular,
como pueden ser supermercados, bancos, hospitales, empresas manufactureras, etctera.
Un sistema de base de datos tiene cuatro componentes principales: datos, hardware,
software y usuarios. A continuacin se describe cada uno de ellos:
11 Datos. Son la base de datos propiamente dicha. Una base de datos se constituye con
datos almacenados y utilizados por los sistemas de una organizacin particular.
11 Hardware. Se refiere a los dispositivos de almacenamiento en donde reside la base
de datos.
194 Captulo 8 1 Fundamentos de administracin de bases de datos
11 Software. Es un conjunto de programas que se conoce como sistema manejador de
bases de datos (DBMS: Data Base Management System). Este sistema maneja todas
las solicitudes formuladas por los usuarios a la base de datos.
11 Usuarios. Existen tres clases de usuarios relacionados con una base de datos:
l. El programador de aplicaciones, quien crea programas de aplicacin que utilizan la
base de datos.
2. El usuario final, quien accesa la base de datos por medio de un lenguaje de consulta
o de programas de aplicacin.
3. El administrador de la base de datos (DBA: Data Base Administrator), quien se
encarga del control general del sistema de base de datos.
VENTAJAS EN EL USO DE BASES DE DATOS
Algunas de las ventajas presentadas por las bases de datos son:
11 Globalizacin de la informacin. Una de las principales ventajas de la introduccin
de la tecnologa de bases de datos a una organizacin es que permite a los diferentes
usuarios considerar la informacin como un recurso corporativo que carece de due-
os especficos.
11 Eliminacin de informacin redundante. Con frecuencia los sistemas de aplicacin
desarrollados a travs de archivos convencionales son dueos de sus propios archi-
vos, de tal suerte que si dos sistemas de aplicacin requieren la misma informacin
es muy posible que sta se duplique. As, por ejemplo, las facturas de los clientes po-
drn encontrarse dadas de alta en el sistema de control de cobranza (para el control
de su cobro a los clientes) y en el sistema de comisiones a agentes, como facturas
pendientes de comisionar al vendedor correspondiente.
11 Eliminacin de informacin incongruente. Este efecto tiene relacin con el concepto
anterior. Si existen dos o ms archivos con la misma informacin -en el caso anterior
las facturas-, los cambios que se hagan a stos debern hacerse a todas las copias del
archivo de facturas. Un ejemplo que ocurre con frecuencia en las organizaciones es la
cancelacin de alguna factura. Si el sistema est desarrollado a travs de archivos con-
vencionales, dicha cancelacin deber operarse tanto en el archivo de facturas del sis-
tema de control de cobranza como en el archivo de facturas del sistema de comisiones.
No hacer lo anterior en ambos archivos genera incongruencias en la informacin.
11 Permite compartir informacin. Esta caracterstica es una consecuencia de lo antes
expuesto, ya que varios sistemas o usuarios pueden utilizar la misma entidad.
11 Permite mantener la integridad de la informacin. La integridad de la informacin
es una de las cualidades altamente deseable y tiene por objeto que slo se almacene
El sistema manejador de bases de datos (DBMS) 1 195
la informacin correcta. La falta de integridad puede darse aun en caso de que no
haya redundancias en la informacin. Un ejemplo podra ser la eliminacin de
un departamento dentro de la empresa. Al ocurrir esto se procede a dar de baja a
este departamento en el archivo de departamentos activos. Sin embargo, si no se
modifica el archivo de nminas -por ejemplo, para asignar otro nmero de depar-
tamento a todos los empleados que se encontraban dados de alta con el nmero de
departamento eliminado-, los empleados estarn dados de alta en un departamen-
to inexistente.
11 Independencia de datos. El concepto de independencia de datos es quizs el que ms
ha ayudado a la rpida proliferacin del desarrollo de sistemas de bases de datos. En
el desarrollo de sistemas a travs de archivos convencionales, las aplicaciones o los
programas son dependientes de los datos que procesan, de tal forma que si la estruc-
tura de un archivo se modifica al agregar un campo adicional, el programador debe
modificar todos los programas que trabajan o accesan dicho archivo. En trminos
generales, se dice que una aplicacin es dependiente de los datos si es imposible
cambiar la estructura de almacenamiento o la estrategia de acceso, sin afectar de
manera drstica los programas que lo trabajan.
En este contexto, la independencia de datos implica una divisin entre programas y datos;
es decir, se pueden hacer cambios a la informacin que contiene la base de datos o tener
acceso a la base de datos de diferente manera, sin hacer cambios en las aplicaciones o en los
programas.
EL SISTEMA MANEJADOR DE BASES DE DATOS (DBMS)
El DBMS es el software o conjunto de programas que permiten crear y operar una base de
datos; un conjunto de programas que se encargan de manejar la creacin y todos los accesos
a las bases de datos. Mediante el DBMS se hace la definicin de los datos, es decir, se especi-
fican los tipos de datos a almacenar; por medio del DBMS se efecta la carga de informacin
y tambin incluye mdulos para realizar consultas, actualizar y generar informes. En resu-
men, el DBMS acta como intermediario entre los programas de aplicacin y los archivos de
datos fsicos.
Se compone de cuatro mdulos:
11 El primero para la definicin de los datos.
11 El segundo con la finalidad de manipular, cambiar los datos.
11 El tercero permite generar aplicaciones (programas).
11 El cuarto hace las funciones de control, seguridad de usuarios y datos.
Vea figura 8.3.
196 Captulo 8 1 Fundamentos de administracin de bases de datos
Figura8.3
Componentes generales
de un DBMS.
El mdulo de definicin de datos sirve para describir todas las estructuras de informa-
cin y los programas que se usan para construir, actualizar e introducir la informacin que
contiene una base de datos. Este componente contiene un diccionario de datos que se utiliza
para almacenar y crear las definiciones de los datos, incluso localizacin, forma en que se
almacenan y algunas otras caractersticas. Adems permite describir los datos y las estruc-
turas de los archivos del sistema, especificando la forma en que sern agrupados. Una vez
que se elabora la definicin de la base de datos, el DBMS se encarga de construir y generar
las estructuras de informacin de manera automtica. Por ejemplo, en la figura 8.4 puede
observarse el uso del paquete Access 2007 para la creacin y definicin de tablas de datos.
El mdulo de manipulacin de datos sirve para escribir programas que crean, actualizan
y extraen informacin de las bases de datos. A pesar de que el DBMS proporciona gran ayu-
da al programador, en ocasiones es necesario escribir programas para extraer datos dando
respuesta a requisiciones especiales (figura 8.5).
El lenguaje de consulta (SQL) lo emplea el usuario para extraer informacin de la base de
datos. Este lenguaje permite al usuario hacer requisiciones de datos sin tener que escribir un
programa, con instrucciones como Select, Project y Join, las cuales se explican mas adelante
(figura 8.6).
La secuencia conceptual de operaciones que se llevan a cabo para accesar cierta informa-
cin que contiene una base de datos es la siguiente:
l. El usuario solicita cierta informacin contenida en la base de datos.
2. El DBMS intercepta este requerimiento y lo interpreta.
El sistema manejador de bases de datos (DBMS) 1 197
Figura8.4
Pantalla de definicin
de los campos de una
tabla en Access.
Figura 8.5
Pantalla de Access
(DBMS) para realizar
una consulta.
198 Captulo 8 1 Fundamentos de administracin de bases de datos
Figura 8.6
Ejemplo de lenguaje
SQL en Access 2007.
3. El DBMS realiza las operaciones necesarias para accesar y/o actualizar la informa-
cin solicitada.
En la figura 8.7 se observa el proceso anterior, en el cual el usuario se comunica con el
DBMS para solicitar informacin y el DBMS se encarga de comunicarse con la base de datos
para dar respuesta a los requerimientos y cumplir con lo que se le solicit.
Una de las ventajas del DBMS es que puede ser invocado desde programas de aplicacin
que pertenecen a sistemas transaccionales escritos en algn lenguaje de alto nivel, para la
creacin o actualizacin de las bases de datos, o bien para efectos de consulta a travs de
lenguajes propios que tienen las bases de datos o lenguajes de cuarta generacin. En la figura
8.8 se mencionan algunos productos comerciales de DBMS.
Figura 8.7
Relacin entre usuario,
el DBMS y la base
datos.
El administrador de la base de datos (DBA) 1 199
EL ADMINISTRADOR DE LA BASE DE DATOS (DBA)
Figura8.8
Ejemplo de productos
comerciales DBMS.
El DBA es quien se encarga de definir y controlar las bases de datos corporativas, que adems
proporciona asesora a los usuarios y ejecutivos que la requieran. Sus funciones incluyen:
11 Apoyar y asesorar durante el proceso de adquisicin del DBMS, tanto del paquete
corporativo como los paquetes que servirn de herramienta para usuarios finales que
deseen crear sus propias bases de datos.
11 Definir la informacin que contendrn las bases de datos corporativas.
11 Mantener la relacin y la comunicacin estrecha con los especialistas del DBMS, que
suelen laborar con el proveedor que vendi el paquete que maneja las bases de datos.
11 Disear las estructuras de almacenamiento y estrategias de acceso a las bases de datos.
11 Atender y servir como punto de enlace entre los usuarios de la organizacin, asegu-
rando que las necesidades de informacin de los diferentes usuarios se encuentren
contenidas en las bases de datos corporativas.
11 Definir estndares y procedimientos para respaldar y recuperar la informacin que
contienen las bases de datos.
200 Captulo 8 1 Fundamentos de administracin de bases de datos
11 Proporcionar asesora tcnica a analistas y programadores que desarrollan aplicacio-
nes que crean y/o accesan las bases de datos.
TIPOS DE MODELOS DE BASE DE DATOS
En esta seccin se estudian las diferentes alternativas de organizacin y estructuracin de
la informacin contenida en una base de datos. Existen fundamentalmente tres alternativas
disponibles para disearlas: el modelo jerrquico, el modelo de red y el modelo relacional. La
diferencia reside en la manera en que los registros se ligan.
A continuacin se har una descripcin de cada una de estas formas o alternativas para
disear las bases de datos. Sin embargo, es necesario aclarar que se profundizar en el estu-
dio del modelo relacional debido a que, por las ventajas que presenta, es el que ms se utili-
zar dentro de las organizaciones.
El modelo jerrquico
Modelo que se us mucho como modelo de datos debido, principalmente, al anuncio que
hizo la compaa IBM en 1968 de su producto de bases de datos llamado IMS (Information
Management Systems), con base en un esquema jerrquico para la representacin de la in-
formacin.
La forma de esquematizar la informacin se realiza a travs de representaciones jerr-
quicas o relaciones de padre/hijo, de manera similar a la estructura de un rbol. As, el mo-
delo jerrquico representa dos tipos de relaciones entre los datos: relaciones de uno a uno y
relaciones de uno a muchos.
En el primer tipo se dice que existe una relacin de uno a uno si el padre de la estructura
de informacin tiene un solo hijo, y viceversa, si el hijo tiene un solo padre. En el segundo
tipo se dice que la relacin es de uno a muchos si el padre tiene ms de un hijo, aunque cada
hijo tenga un solo padre. La representacin grfica del modelo jerrquico aparece en la figu-
ra8.9.
Inconvenientes del modelo jerrquico
A pesar de que la representacin jerrquica es muy fcil de entender y comunicar, en la ac-
tualidad muchas organizaciones estn dejando de emplearlo debido a que presenta algunos
inconvenientes:
11 Todo hijo tiene necesariamente un padre, lo cual dificulta dar de alta a algn hijo
cuyos datos del padre se ignoran.
11 La representacin de informacin donde se requieran relaciones de muchos a mu-
chos tiende a complicarse, de tal forma que si un hijo llega a tener dos o ms padres,
la informacin de este hijo debe almacenarse en varios lugares diferentes de la base
de datos, lo cual depende de cada uno de sus padres. Este caso se puede ver ms da-
Tipos de modelos de base de datos 1 201
Figura8.9
Modelo jerrquico de
base de datos.
ramente en una relacin maestro-alumno, donde un maestro tiene varios alumnos,
pero un alumno tambin tiene varios maestros, uno para cada clase. En este caso,
si la informacin estuviera representada en forma jerrquica, donde el padre es el
maestro y el alumno es el hijo, la informacin del alumno tendra que duplicarse para
cada uno de los maestros.
11 La situacin que se describe en el prrafo anterior puede generar informacin in-
coherente, de tal manera que si se desea cambiar los datos generales de un alumno,
se debern recorrer todos los maestros que tienen bajo su estructura al alumno en
cuestin y hacer los cambios a sus datos generales.
11 Otra dificultad que presenta el modelo jerrquico de representacin de datos es res-
pecto a las bajas. En este caso, si se desea dar de baja a un padre, ello necesariamente
implicar dar de baja a todos y cada uno de los hijos que dependen de este padre.
El modelo de red
Este modelo de datos permite la representacin de muchos a muchos, de tal forma que cual-
quier registro dentro de la base de datos puede tener varias ocurrencias superiores a l. No
olvide que sta era una de las principales limitan tes del modelo jerrquico de representacin
de datos y que la informacin de cada uno de los alumnos era repetida para cada uno de los
maestros.
A pesar de que las desventajas descritas en el modelo jerrquico desaparecen con el di-
seo de red, la mayor parte de la complejidad y problemas de este modelo surge debido a la
dificultad de manejar las conexiones o ligas entre los registros y sus correspondientes regis-
tros conectores (figura 8.10).
Sus principales desventajas residen en la dificultad para crear y dar mantenimiento a la
base de datos.
202 Captulo 8 1 Fundamentos de administracin de bases de datos
Figura 8.10
Modelo de red de la
base de datos.
El modelo relacional
Este modelo se emplea cada vez con ms frecuencia, debido a las ventajas que ofrece sobre
los dos modelos anteriores, entre ellas, el rpido entendimiento por parte de usuarios que no
tienen conocimientos profundos sobre sistemas de bases de datos.
En este modelo toda la informacin se representa a travs de arreglos bidimensionales o
tablas. Por lo general, el usuario de las bases de datos relacionales tiene conocimientos de las
Figura 8.11
Modelo relacional de
base de datos.
Tipos de modelos de base de datos 1 203
tablas que estn definidas y su interaccin con la informacin contenida en la base de datos
se reduce a operaciones lgicas que se efectan con las diferentes tablas. Estas operaciones
bsicas son:
11 Seleccionar renglones de alguna tabla (Select).
11 Seleccionar columnas de alguna tabla (Project).
11 Unir o juntar informacin de varias tablas (Join).
El concepto del modelo relacional se ilustra con la figura 8.11.
En un caso hipottico se desea hacer una consulta a la base de datos relacional formada
por estas tablas (figura 8.12).
Figura 8.12
Tablas de una base de
datos relacional.
204 Captulo 8 1 Fundamentos de administracin de bases de datos
La consulta consiste en desplegar el nombre de todos los maestros que imparten clases al
alumno llamado ANO MI. Para lograr lo anterior se tiene que ejecutar la siguiente secuencia
de operaciones con las tablas:
SELECT Calificacin WHERE A # = Al GIVING Aux 1
Al hacer esto, en la tabla Aux1 aparecer la informacin contenida en la figura 8.13.
A continuacin se llevar a cabo la secuencia siguiente:
JOIN Auxl and Maestro OVER M# GIVING Aux2
Entonces en la tabla Aux2 aparecer la informacin ilustrada en la figura 8.14.
Finalmente:
PROJECT Aux2 OVER MNOM GIVING Final
Al ejecutar esta instruccin en la tabla final, aparecer la informacin contenida en la
figura 8.15 que corresponde al nombre de los maestros que imparten clases al alumno Al.
Es importante mencionar que la mayora de los paquetes que manejan bases de datos
disponibles en el mercado poseen las instrucciones Select, Project y Join con diferentes
nombres y modalidades.
En la figura 8.16 se indican las ventajas y desventajas de los tres modelos de bases de
datos.
Figura 8.14
Resultado de un "join"
a los datos de la figura
8.13.
Figura 8.13
Resultado de un "select"
a los datos de la figura
8.12.
Figura 8.15
Resultado de un "pro-
ject" a los datos de la
figura 8.14.
El modelo orientado hacia objetos
Bases de datos distribuidas 1 205
Figura 8.16
Ventajas y desventajas
de los modelos de bases
de datos.
Al existir la necesidad de almacenar y administrar datos del tipo imgenes, video y voz,
han surgido lenguajes con dicha capacidad, los cuales requieren del soporte de bases de
datos con estas caractersticas. De aqu surgen los DBMS orientados hacia objetos (en ingls
OODBMS: Object Oriented Data Base Management System). Las bases de datos con orien-
tacin hacia objetos son muy eficaces en sistemas que usan componentes de multimedia,
como los sistemas geogrficos, as como en aplicaciones de CAD ( Computer Aided Design)
y CAM ( Computer Aided Manufacturing). El uso de los OODBMS se ha incrementado de-
bido a que pueden administrar componentes multimedia que se usan en las aplicaciones de
la Web, con lo cual se han desarrollado productos comerciales que son DBMS hbridos, es
decir DBMS relacional orientado a objetos.
BASES DE DA TOS DISTRIBUIDAS
Muchas organizaciones que se encuentran dispersas geogrficamente requieren compartir
informacin. Para ello sirven las bases de datos distribuidas, las cuales no estn almacenadas
totalmente en un solo lugar fsico y se comunican por enlaces de comunicaciones a travs de
una red de computadoras dispersas geogrficamente.
Las bases de datos distribuidas se utilizan cada vez ms en la misma medida en que se
usan las arquitecturas de cliente-servidor.
Los principales problemas generados por el uso de la tecnologa de bases de datos distri-
buidas se refieren a duplicidad de datos y a su integridad en el momento de realizar actuali-
zaciones a los mismos. Adems, el control de la informacin puede constituir una desventa-
ja, debido a que se encuentra diseminada en diferentes localidades geogrficas.
206 Captulo 8 1 Fundamentos de administracin de bases de datos
Figura 8.17
Modos de distribuir
una base de datos.
Existen dos modalidades para crear bases de datos distribuidas. Una opcin es fragmen-
tar la base de datos y la otra es hacer una rplica de la base de datos. La fragmentacin con-
siste en instalar en cada computadora slo la parte de la base de datos que se usar con ms
frecuencia en la zona geogrfica, mientras que el resto de los datos debern ser transporta-
dos por la red de comunicacin en caso de ser necesario. La modalidad de rplica consiste en
realizar una copia total de la base de datos e instalarla en cada una de las computadoras de la
organizacin (figura 8.17).
DATA WAREHOUSE
Segn la definicin de W. H. Inmon: "Un data warehouse es un conjunto de datos integrados
con orientacin hacia una materia, que varan con el tiempo y no son transitorios, los cuales
apoyan el proceso de toma de decisiones de una administracin:'
Es una arquitectura de informacin con fines de apoyo al proceso de toma de decisiones
estratgicas, que se separan de los sistemas operativos y de produccin con el fin de no in-
terferir con ellos.
En otras palabras, un data warehousing (almacn de datos) es el almacenamiento de da-
tos con fines estratgicos de negocio, concepto muy opuesto al objetivo de las bases de datos
operativas. La importancia reside en que son fuente de materia prima selecta en los sistemas
de apoyo para la toma de decisiones (DSS: Decision Support Systems).

Data warehouse 1 207
Las principales caractersticas de un data warehouse son:
a) Son datos organizados con orientacin hacia entidades, por ejemplo producto, clien-
te, en vez de estar orientados hacia el proceso.
b) Se crean y disean fuera de las bases de datos operacionales.
e) Una vez que los datos son almacenados, stos no cambian y el almacn de datos
puede tener un tiempo de vida de cinco a 10 aos.
d) Normalmente las nicas operaciones sobre la base de datos se reducen a captura de
datos y acceso a los mismos.
Las aplicaciones tpicas de data warehouse se utilizan a diario en el sector bancario y
financiero, as como algunas otras en las reas de administracin de riesgos de crdito. Tam-
bin son muy utilizadas en empresas de artculos de consumo, para comprender los patro-
nes de compra y hbitos del consumidor (figura 8.18).
Para lograr obtener beneficios de los datos almacenados en el almacn de datos es ne-
cesaria la utilizacin de herramientas y tcnicas OLAP ( OnLine Analytical Proccesing) o
tambin procesamiento analtico en lnea, el cual permite consultar los datos en diferentes
formas utilizando varias dimensiones, por ejemplo: producto, precio, zona, vendedor. Con
OLAP es posible realizar consultas que en una base de datos relacional son muy difciles de
conseguir. Cabe mencionar que estas tecnologas son indispensables para la Inteligencia de
Negocios (BI, Business Intelligence), dando a las organizaciones la capacidad de almacenar y
desarrollar conocimiento de competidores, clientes y entidades vinculadas.
Figura 8.18
Ejemplo de la funcin
de un almacn de datos.
208 Captulo 8 1 Fundamentos de administracin de bases de datos
Data Mining (minera de datos)
La minera de datos auxilia a los usuarios para procesar las vastas reservas de datos y rela-
ciones insospechadas, por ejemplo, entre productos y clientes o patrones de compra de los
clientes. La meta es descubrir relaciones estratgicas competitivas. Las herramientas de mi-
nera de datos son esenciales para comprender el comportamiento de los clientes.
El auge de la minera de datos (data mining) se debe a que la tecnologa de data ware-
house proporciona tres factores bsicos: a) un gran banco de datos bien organizados e his-
tricos, b) hardware y producto de bases de datos a precios razonables y e) tecnologa}'
herramientas para minera cada vez ms desarrolladas.
Las herramientas de minera de datos se clasifican en:
11 Anlisis estadstico o de datos, utilizados para detectar patrones no usuales de datos.
11 Descubrimiento de conocimientos, caracterstica que tiene sus races en la inteligen-
cia artificial. Consiste en extraer de los datos informacin implcita, no trivial, que no
se conoca y es potencialmente til.
11 Otros, como sistemas de informacin geogrfica. Los sistemas de visualizacin geo-
grfica relacionan los datos del data warehouse en diferentes ubicaciones fsicas con
representaciones geogrficas.
La minera de datos busca descubrir informacin en los almacenes de datos, siendo los si-
guientes tipos de informacin los que se pueden obtener:
11 Asociaciones, eventos que ocurren en vinculacin a otro evento; por ejemplo, la com-
pra de un producto "a" se asocia a un da de la semana en que hay promociones.
11 Secuencias, aqu se descubre que un evento "a" se hace comnmente despus de un
evento "y".
11 Agrupamiento, la minera crea grupos similares en el patrn de los datos, por ejem-
plo crear grupos-perfiles de personas con base en el consumo en un restaurante.
11 Clasificacin, aqu se identifican patrones que enlazan los datos con caractersticas
de otros elementos definidos; por ejemplo, una empresa puede clasificar a sus clien-
tes como leales al revisar sus consumos.
Las herramientas de minera de datos son muy poderosas, realizan un anlisis complejo de
patrones y tendencias, que pueden usarse en distintas rea de la empresa.
Data Marts
De hecho es un pequeo data warehouse, creado para una determinada cantidad de usuarios
de un rea de la empresa. En otras palabras, se trata de un subconjunto de un almacn de da-
tos para un propsito especfico. Un data mart tiene como funcin apoyar a los sistemas de
toma de decisiones.
Algunos de los cuestionamientos que se deben solucionar cuando la empresa cuenta con
tecnologa de apoyo, como son data warehouse y el data mart, son los siguientes:
Caso de aplicacin 1 209
11 Quines son mis mejores clientes?, dnde se ubican?, qu compran?, qu los ca-
racteriza?, cules lneas de productos son las ms rentables?, qu productos son
mis 10 mejores?, qu productos son mis 10 peores?, qu productos son los ms
vendidos este mes?, cmo van mis avances respecto a lo planificado?, dnde se
concentra el80% de mis ventas?, etctera.

Anda mungkin juga menyukai