Anda di halaman 1dari 9

MINERIA DE DATOS APLICADO A LA VENTAS DE DIFERENTES

PRODUCTOS EN DISTINTAS BOLETAS DEL CENTRO COMERCIAL


KINKANA
Ruiz Alba, Piere Andre
Rodrguez Paredes, Zack Frank
UNIVERSIDAD NACIONAL DE TRUJILLO

1.

Definicin del Problema.


1.1 Descripcin de la Aplicacin (BD).
La minera de datos puede contribuir significativamente en las aplicaciones de
administracin empresarial. La base de datos en la que nos basaremos ser la BD de un
Centro Comercial la cual contienes las siguientes tablas: Vendedor, Usuarios, Categora,
Proveedor, Productos, Farmacia, Ventas, Promociones, Tiempo.

Imagen Base de datos en texto plano.

1.2 Objetivos
Determinar qu productos son ms rentables para los clientes.
Identificar los patrones ms significativos y relevantes en ventas.
Determinar que cliente compra con ms frecuencia para as darle promociones.
1.3 Identificar tipo de Minera. (Justificar).
Utilizaremos Regresin (funcin que convierte datos en valores de una funcin de
prediccin porque es ms rpida y eficaz).

1.4 Restricciones.

En esta investigacin ser analizada solo la base de datos del rea de ventas del Centro
Comercial la Kinkana.
Se descubri que existan cuatro variables que determinaban la adecuada realizacin de
una venta, que son citadas de acuerdo con su importancia: Cliente, Venta, Tiempo,
Detalle Venta. La empresa tendr que hacer un estudio socioeconmico sobre los
clientes, que pertenezcan a clases econmicas bajas para dar posibles soluciones.

2. Preparacin de Datos.
2.1.

Integracin de datos.
Para este caso la variable a predecir son las ventas con mayor frecuencia anuales y
presenta como variables de entrada (input) a la condicin el total del consumo, fecha,
cliente, la edad, la lnea de crdito.

2.2.

Seleccin de tablas. (Significado y Justificacin)


Cliente: contiene los datos del cliente, esta tabla contiene la informacin del cliente
para poder enviarle promociones.
Venta: esta tabla contiene informacin del monto de la venta la cual ayudara a saber
las cantidades ms grandes de acuerdo a la fecha que requiramos.
Tiempo: contiene fechas desde el 2010 hasta el 2014 la cual nos ayudara a realizar un
proceso de seleccin por da, semana, mes, bimestre, trimestre ao,
Detalle venta: esta tabla contiene lo relacionado a la venta la cual nos ayudara a saber
que productos son los ms comprados.

2.3.

Seleccin de atributos. (Significado y Justificacin)


Cliente:
Nombre este atributo ayuda identificar al cliente.
Venta:
Nmero el cual representa el nmero de la factura
Tiempo:
Ao, trimestre, semestre, mes, semana, da.
Detalle_venta:
Cdigo el cual representa el cdigo del producto.
Nombre el cual representa el nombre del producto.

2.4.

Transformacin de variables. (Qu tipo de transformacin)


Nominal a numrica

3. Exploracin de Datos.

FIGURA BD EN EXCEL

3.1.

Hacer la transformacin.
En este caso usaremos el nmero de factura y cdigo de producto
Cdigo de producto tiene un valor binario (0 o 1) el cual se representa si se compr
dicho producto en dicha factura, siendo 1 comprado y 0 no comprado.
Una vista del resultado de la matriz es la siguiente:

Figura Realizando la Transformacin


3.2.

Evaluacin de la cantidad de datos. (Por cada variable - comentario)


Para hacer una evaluacin de datos accederemos al Mysql en el cual haremos una
serie de consultas:

Select * fron porFactura order by articuloFacura desc, numeroFactura asc;


Consulta para conocer cuntos artculos se compraron en cada factura.

Select articulosFactura, count(*) from itemsPorFactura group by


articulosFactura;
Consulta para conocer cuntas veces se compr la misma cantidad
de productos.

Select count(distinct numero) from Factura;


Total de facturas en la base de datos.

Select count(distinct codigo) from Factura


Total de artculos en la base de datos.

Select codigo as codigo, count(codigo) as cantidad from Factura


group by codigo order by cantidad desc;
Cuantas veces se compr determinado artculo en total.

3.3.

Evaluacin de la calidad de datos. (Por cada variable - comentario)


Mnimos.
Total de artculos: 1.481
Total de facturas: 23.890
Nmero de artculos comprados en determinada factura: 1
Compra determinado artculo en especfico: 198
Veces se compr la misma cantidad de productos: 27
Mximos.
Total de artculos: 5.768
Total de facturas: 76.571
Nmero de artculos comprados en determinada factura: 30
Compra determinado artculo en especfico: 1.265
Veces se compr la misma cantidad de productos: 181
Consistencia.
Nmero de productos comprados en una determinada factura: 0
Coherencia.
Se tienen incoherencias en cuanto al nombre del producto, nombre de la
clasificacin 1, cdigo de la clasificacin 1, nombre de la clasificacin 2 y cdigo
de la clasificacin 2; de donde en total se eliminaron los siguientes artculos.

codigo nombre nclasifica1 clasifica1


993
5430
4911
7540
3074
5271
3292
2814
4026
9146
9429
2950
4244
8094
4698
521
7239

.......
\N
\N
\N
\N
\N
\N
\N
\N
\N
\N
\N
\N
\N
\N
\N
\N

QUALA
\N
\N
\N
\N
\N
\N
\N
\N
\N
\N
\N
\N
\N
\N
\N
\N

Cdigos sin nombre (\N o . = 17):

280
\N
\N
\N
\N
\N
\N
\N
\N
\N
\N
\N
\N
\N
\N
\N
\N

nclasifica2

CREMAS DENTALES
\N
\N
\N
\N
\N
\N
\N
\N
\N
\N
\N
\N
\N
\N
\N
\N

clasifica
180
\N
\N
\N
\N
\N
\N
\N
\N
\N
\N
\N
\N
\N
\N
\N
\N

Tabla. Cdigos de producto eliminados por incoherencias.

3.4.

Limpieza de datos. (Por qu criterios)


Limpieza de datos por Valore Perdidos ya que no todos los registros no
contienen todos los valores para las variables por lo tanto habr que inferirlos o
ignorarlos.
Y tambin se hace una limpieza de datos (Ruido) la cual elimina las
inconsistencias que tenemos en nuestros registros.

1.5 Generacin de Modelos.


Seleccin del modelo:
De acuerdo a los puntos anteriores, el modelo seleccionado fue el siguiente:
Las columnas seleccionadas para el anlisis de la base de datos las
cuales fueron: Nmero de Factura y Cdigo de Producto.
Se seleccionaron los algoritmos FP-Growth y AssociationRules para
obtener resultados.
Se tienen en cuenta el soporte y la confianza como parmetros que
indican a los algoritmos cmo procesar los datos.

Imagen Prueba Manual (Soporte = 50% y Confianza =100%)

4.1.

Divisin del archivo de datos (Segmentos).


Usamos Segmentacin en cdigo de Producto y Factura.

4.2.

Anlisis de frecuencias.
Observamos el grafico de barras:

4.3.

Grfico de correlaciones.

4.4.

Anlisis de correlaciones.
El grafico muestra una correlacin positiva: A un crecimiento de X (causa)
corresponde un crecimiento de Y (efecto).

4.5.

Regresin Lineal.
Y = b + aX
Posteriormente realizando los clculos, resulta que:

b= 77786231040 -10(9)(8) = 17366874.37


5289 10(9)2

a= 8- 17366874.37 (9) = - 156301861.4


Y = b + aX => y= 17366874.37 156301861.4 X

Anda mungkin juga menyukai