Anda di halaman 1dari 18

Tabla de contenido

Captulo 1. Captulo 2. 2.1 2.2 Introduccin ................................................................................................................ 1 Descripcin del problema ............................................................................................ 2

Antecedentes del problema ................................................................................................. 2 Atributos .............................................................................................................................. 3 Definicin de atributos ................................................................................................ 3 Anlisis de atributos .................................................................................................... 3 Conclusiones ............................................................................................................. 15 Referencias ................................................................................................................ 16

2.2.1. 2.2.2. Captulo 3. Captulo 4.

ndice de figuras
FIGURA 2-1 Ejemplo de ejecucin de RLSA .................................................................................... 2 FIGURA 2-2 Distribucin de height ................................................................................................... 5 FIGURA 2-3 Distribucin de length ................................................................................................... 6 FIGURA 2-4 Distribucin del rea (eje y) con respecto a la altura (eje x) ......................................... 7 FIGURA 2-5 Distribucin del rea (eje y) con respecto a la longitud (eje x)..................................... 7 FIGURA 2-6 Distribucin del rea ..................................................................................................... 8 FIGURA 2-7 Distribucin de excentricidad (eje y) con respecto a la altura (eje x) ........................... 8 FIGURA 2-8 Distribucin de excentricidad (eje y) con respecto a la longitud (eje x) ....................... 9 FIGURA 2-9 Distribucin de excentricidad total ............................................................................... 9 FIGURA 2-10 Distribucin total de p_black .................................................................................... 10 FIGURA 2-11 Distribucin total de p_and ....................................................................................... 10 FIGURA 2-12 Distribucin de p_and (eje x) respecto de p_black (eje y) ........................................ 11 FIGURA 2-13 Distribucin de mean_tr............................................................................................ 12 FIGURA 2-14 Distribucin de wb_trans (eje y) con respecto a blackpix (eje x) ............................. 12 FIGURA 2-15 Distribucin total de blackpix ................................................................................... 13 FIGURA 2-16 Distribucin total de blackand .................................................................................. 13 FIGURA 2-17 Distribucin total de wb_trans .................................................................................. 14

ndice de tablas
TABLA 2-1 Descripcin de atributos (caractersticas) ....................................................................... 3 TABLA 2-2 Medidas de tendencia central.......................................................................................... 4 TABLA 2-3 Medidas de dispersin .................................................................................................... 4 TABLA 2-4 Correlacin de Pearson entre las variables relacionadas ................................................ 5

ii

Captulo 1. Introduccin
En informtica, el estudio del comportamiento de los datos es una parte fundamental a la hora de tomar decisiones. En toda rea de estudio, el contar con buenos parmetros de medicin de sucesos pasados dentro de un problema particular, permite una mejor comprensin de los fenmenos que rodean al mismo. Lo que a su vez logra que las elecciones que se lleven a cabo de manera posterior, se hagan con mayor exactitud y probidad de acuerdo a los objetivos y misiones existentes. As es, por ejemplo, que un mdico con vasta experiencia en un rea determinada, podr encontrar el diagnstico de un paciente con mayor facilidad si es que conoce su historial clnico, ya que podr observar ciertos patrones sintomticos que el mismo presente y los tratamientos que se hayan llevado a cabo y, a partir de estos, tomar la mejor decisin. Este proceso es influenciado fuertemente por el conocimiento que tenga el mdico (o una persona cualquiera sobre un rea determinada), el cual es dado por la experiencia de la persona y por la informacin externa que se tenga sobre el tema. El proceso de extraccin de conocimiento en informtica, se conoce como KDD (Knowloedge Discovery on Databases) y bsicamente consiste en extraer informacin y conocimiento a partir de de datos y que no se encuentre de una manera explcita dentro de los mismos. Para esto existen diversas tcnicas, entre las que destacan principalmente las tcnicas de minera de datos (Data Mining). Para efectuar un proceso KDD, se debe tener en cuenta que no todos los datos que existen pueden ser tiles a la hora de buscar una informacin determinada, por lo cual debe existir una etapa de preprocesamiento adecuada, la cual debe filtrar elementos redundantes e innecesarios. Posteriormente se debe realizar la minera de datos propiamente tal, la cual entregar la informacin y el conocimiento que se requiera, y finalmente se entregar mediante una etapa de visualizacin de datos. Estos procesos, si bien se pueden considerar parte de una secuencia, en realidad se realizan de manera cclica y en ocasiones, simultneamente. Para este trabajo, se seleccionar el dataset denominado Page Blocks Classification del UC Irvine Machine Learning Repository, perteneciente a la Universidad de California (EEUU), el cual consiste en la clasificacin de los bloques de diseo de la pgina de 54 documentos diferentes, post proceso de segmentacin. El objetivo de la clasificacin es identificar cada segmento dentro de cinco tipos de clases, las cuales son texto, lnea horizontal, grfico, lnea vertical e imagen. Los atributos de la base de dato son, para cada segmento (representado por una fila de la misma) los que se muestran en el desarrollo de este informe. Este documento consta de tres partes. En primer lugar se realizar una descripcin del problema, la cual abordar temticas relacionadas con su rea, la base de datos escogida y su respectiva descripcin. Posteriormente se analizarn los datos presentes en la misma para as, finalmente, exponer las conclusiones obtenidas a partir de este anlisis.

Captulo 2. Descripcin del problema


2.1 Antecedentes del problema

El problema a desarrollar consiste en la clasificacin de una serie de bloques formados por pixeles, pertenecientes a un documento determinado, los cuales poseen configuraciones de pixeles blancos y negros diferentes, pero indiferenciables a primera vista, adems los bloques poseen dimensiones variables. Los bloques son generados a partir del algoritmo Run Length Smooth Algorithm (RLSA) el cual consta de dos partes principales. Primero, una segmentacin del documento en regiones (bloques), que contienen un solo tipo de dato (texto, imgenes, lneas o grficos). Posteriormente se calculan las caractersticas bsicas del bloque. Un ejemplo del algoritmo RLSA se presenta en la figura 2.1, presentada a continuacin.

FIGURA 2-1 Ejemplo de ejecucin de RLSA

En este caso, la figura (a) presenta el documento original, (b) y (c) muestran el resultado en las direcciones vertical y horizontal respectivamente, (d) exhibe el resultado final de la segmentacin y (e) muestra el resultado para la clase texto. 2

2.2

Atributos

2.2.1. Definicin de atributos Las caractersticas que se analizan mediante el algoritmo RLSA, son descritas a continuacin. Nombre Altura Longitud rea Excentricidad Pixeles negros Pixeles negros post RLSA Valor medio BN Cdigo heigth length area eccen p_black p_and mean_tr Tipo de dato integer integer integer continous continous continous continous Descripcin Altura del bloque Longitud del bloque rea del bloque Excentricidad del bloque Porcentaje de pixeles negros del bloque Porcentaje de pixeles negros post RLSA Nmero medio de transiciones blanconegro Nmero de pixeles negros en el bloque Nmero de pixeles negros post RLSA Nmero de transiciones blanconegro post RLSA Clculo --heigth x length height / length blackpix / area blackand / area blackpix / wb_trans

Total de pixeles negros Total de pixeles negros post RLSA Valor BN post RLSA

blackpix blackand wb_trans

integer integer integer

----

TABLA 2-1 Descripcin de atributos (caractersticas)

2.2.2. Anlisis de atributos Los atributos establecidos previamente fueron sometidos a un anlisis estadstico en el marco del dataset previamente mencionado, el cual cuenta con aproximadamente 5700 instancias de bloques de un documento. Cada uno de los bloques contiene valores para cada uno de los atributos mencionados en la tabla 2-1, no existiendo valores nulos ni errneos dentro de los mismos. Sobre la base de los elementos descritos anteriormente, se gener la tabla 2-2, la que contiene un resumen de las medidas de tendencia central obtenidas a partir de los datos del dataset.

Atributo height length area eccen p_black p_and mean_tr blackpix blackand wb_trans

Media 10,47 89,57 1.198 10016,40 0,54 1,84 58,11 365,93 741,11 106,66

Mediana 8 41 322 4875 0,337 0,803 20,07 108 250 49

Desviacin estndar 18,96 114,72 4849,38 13148,14 1,34 2,97 690,93 1270,33 1881,50 167,31

Valor mximo 804 553 143993 99500 10 10 49550 33017 46133 3212

Valor mnimo 1 1 7 0,01 0,05 0,06 10 7 7 1

TABLA 2-2 Medidas de tendencia central

Por otro lado, las medidas de dispersin para cada variable son presentadas en la tabla 2-3, que sigue a continuacin.

Atributo height length area eccen p_black p_and mean_tr blackpix blackand wb_trans

Varianza 359,50 13161,08 23516456,80 172873691,80 1,79 8,84 477387,18 1613746,14 3540058,44 27992,09

Rango 803 552 143986 99499,99 9,95 9,94 49540 33010 46126 3211

TABLA 2-3 Medidas de dispersin

Adems, existe una serie de variables que se encuentran relacionadas entre s, por lo que es importante poder determinar qu tan relacionadas se encuentran. Es por esto que se presentan en la tabla 2-4, las medidas de correlacin entre las variables relacionadas.

Variables height - length blackpix - area blackand - area blackpix - wb_trans

correlacin 0,12 0,73 0,78 0,62

TABLA 2-4 Correlacin de Pearson entre las variables relacionadas

Como se puede observar, existe una estrecha relacin entre las variables blackpix, blackand y area. Adems se tiene que todas las variables relacionadas muestran que lo hacen en forma directamente proporcional. La explicacin de cada uno de los atributos y sus valores se detallar a continuacin. 2.2.1.1 Height La altura del bloque, debe ser un valor entero positivo, ya que se encuentra medida en pixeles. El valor mnimo encontrado es 1, lo que corresponde a un bloque de altura 1 pixel. Por otro lado, el valor mximo corresponde a 804, lo cual indica que se tom un bloque de altura total de 804 pxeles. Como se observa en la media, este nmero es poco comn, siendo la media el valor 10,47, lo que indica una tendencia a una altura de 10 pixeles en promedio. La figura 2-2 muestra la distribucin de la altura. Donde se puede observar una evidente inclinacin hacia los valores cercanos a 1, la cual se condice con el valor de la media. La varianza de la altura tiene un valor de 359,50, lo que, sumado al hecho que el rango tiene un valor de 803, indica que la dispersin de la muestra est centralizada alrededor de la media con una dispersin menor en comparacin al rango de la misma.

FIGURA 2-2 Distribucin de height

2.2.1.2 Length Longitud del bloque, al igual que la altura, debe ser un valor entero positivo. El mnimo valor es 1 y el mximo es 553, con una media de 89,75 pixeles. La figura 2-3 presenta la distribucin de la longitud. En la cual se observa una tendencia hacia los valores menores de longitud. La razn que explica que el valor de la muestra no sea cercano al de la media de la misma tiene que ver con el hecho que, si bien existen 1020 datos que se encuentran en el rango de valores [1-24], el resto de los mismos se encuentran distribuidos, salvo el intervalo [24,47] y los dos subsecuentes, de manera prcticamente uniforme en el resto de la muestra, totalizando 1616 valores. En este caso, el rango de valores es 552, y su varianza es 13161,08, por lo que es una distribucin muy poco uniforme.

FIGURA 2-3 Distribucin de length

2.2.1.3 Area El rea es el resultado de la multiplicacin de las dos variables anteriores, en la figura 2-4, se presenta la relacin entre el rea de un segmento y su respectiva altura. Por otro lado, en la figura 2-5, se muestra la distribucin del rea con respecto a la longitud. Finalmente, en la figura 2-6 se muestra la distribucin total de rea. Las medidas de dispersin para esta variable muestran que, con un rango de 143986 y una varianza de 23516456,80, es excesivamente alta la variabilidad de la muestra.

FIGURA 2-4 Distribucin del rea (eje y) con respecto a la altura (eje x)

FIGURA 2-5 Distribucin del rea (eje y) con respecto a la longitud (eje x)

FIGURA 2-6 Distribucin del rea

2.2.1.4 Eccen La excentricidad mide la relacin entre altura y la longitud. Los resultados de la excentricidad en el dataset, se presentan en las figuras 2-7 (excentricidad vs altura), 2-8 (excentricidad vs longitud) y 2-9 (excentricidad total). El valor medio de esta variable es 10006,43, con una desviacin estndar de 13148,14, lo que explica la diferencia entre la tendencia presentada en la figura 2-9 y el valor medio real de la distribucin. Como se observa en la tabla 2-2, las medidas de dispersin para esta variable indican que la dispersin de la misma es excesivamente alta.

FIGURA 2-7 Distribucin de excentricidad (eje y) con respecto a la altura (eje x)

FIGURA 2-8 Distribucin de excentricidad (eje y) con respecto a la longitud (eje x)

FIGURA 2-9 Distribucin de excentricidad total

2.2.1.5 P_black Esta variable mide el porcentaje de pixeles negros dentro de un bloque, para ello requiere la cantidad de pixeles negros contenidos en el bloque y el rea del mismo. El valor mnimo existente es 0,052 (5,2%)y el mximo de un 10 (este valor est fuera de rango, por lo que estas instancias sern descartadas ). Con una media de 0,543 (54,3%), lo cual se observa claramente en la figura 210. Las medidas de dispersin para esta variable indican que esta posee un rango excesivamente alto (9,948) que no tiene significado prctico, ya que se est trabajando con 9

porcentajes (valores entre 0 y 1). De la misma forma, la varianza de la misma tiene un valor de 1,79, lo cual indica una variabilidad aceptable, pero que no tiene significancia debido a lo anteriormente sealado.

FIGURA 2-10 Distribucin total de p_black

2.2.1.6 P_and P_and mide el porcentaje de pixeles negros despus de haber realizado la ejecucin del algoritmo RLSA, su clculo se realiza de forma similar al de p_black, diferencindose de este ltimo nicamente por lo anteriormente sealado. Como se observa en la figura 2-11, esencialmente existen dos valores para el porcentaje, los cuales equivalen a los pixeles negros y los que no lo son. Los valores fuera de ese rango pertenecen a datos errneos o fuera de rango. Por otro lado, la figura 2-12 presenta la relacin entre ambas variables, las que, como se observa, son directamente proporcionales, donde tambin aparecen los valores fuera de rango y/o errneos. Las medidas de dispersin mostradas en la tabla 2-2, indican un resultado similar al presentado en la variable p_black, el cual se explica por las mismas razones.

FIGURA 2-11 Distribucin total de p_and

10

FIGURA 2-12 Distribucin de p_and (eje x) respecto de p_black (eje y)

2.2.1.7 Mean_tr Este valor representa el nmero medio de transiciones entre blanco y negro, es decir, la relacin entre el la cantidad de pixeles negros en un bloque determinado, y el total de transiciones en el mismo. La figura 2-13 representa la distribucin total de este valor en la muestra. La visualizacin de los datos no se puede llevar a cabo de la forma esperada, debido a un solo punto que se ubica en el valor 49550, el cual evidentemente, se encuentra fuera de los valores esperados para esta variable. La figura 2-14 muestra la relacin entre ambas variables, la que como se puede observar, es directamente proporcional. En este caso, las medidas de dispersin entregan informacin relevante a la hora de evaluar el grfico. Por la misma razn que en los casos anteriores, existen datos que exceden notoriamente los rdenes de magnitud del resto de la muestra, lo cual hace que la variabilidad de la misma aumente considerablemente su valor. Dicho lo anterior, se puede presentar el grfico de la figura 214, que representa la distribucin total de la variable mean_tr, la cual tiene una varianza de 477387,18 y un rango de 49540.

11

FIGURA 2-13 Distribucin de mean_tr

FIGURA 2-14 Distribucin de wb_trans (eje y) con respecto a blackpix (eje x)

2.2.1.8 Blackpix Blackpix mide la cantidad de pixeles negros en el bloque, la media de pixeles negros en la muestra es de 365,93 pixeles, con una desviacin estndar de 1270,333. De manera similar a mean_tr, existe un valor mximo que escapa de todo el orden de magnitud del resto de las variables, el cual es 33017 pixeles en un bloque. 12

Como se ha mencionado en los casos anteriores, existen datos que exceden en gran medida los valores del resto de la muestra, por lo que la variabilidad de la misma aumenta en gran medida. En este caso, se tiene un rango de 33010 y una varianza de 1613746,139.

FIGURA 2-15 Distribucin total de blackpix

2.2.1.9 Blackand Blackand mide la cantidad de pixeles negros por bloque despus de haber aplicado el algoritmo RLSA. Tiene una media de 741,11 pixeles, lo cual se condice con el resultado de la ejecucin del algoritmo, como puede observarse en la figura 2-1. Con un valor mnimo de 7 y un mximo de 46133 pixeles. La figura 2-15 presenta la distribucin de valores de blackand, donde se observa un comportamiento similar al de las variables ya mencionadas en los puntos anteriores. El mismo comportamiento explica los altos valores de las medidas de dispersin.

FIGURA 2-16 Distribucin total de blackand

13

2.2.1.10

Wb_trans

Esta variable representa el nmero de transiciones blanco-negro dentro del bloque, este nmero tiene una estrecha relacin con el valor de mean_tr, ya que su clculo depender del valor asignado a wb_trans. Para esta variable, se tiene una media de 106,66 transiciones, con una desviacin estndar de 167,31. Sin embargo, sigue existiendo un valor mximo muy elevado con respecto al orden de magnitud de los dems datos, siendo este 3212. Similarmente con las medidas de dispersin, se tiene un altsimo valor de las mismas, el cual se explica nicamente por el hecho de existir una pequea cantidad de datos que no reflejan la tendencia de toda la muestra. La figura 2-16 presenta la distribucin de esta variable.

FIGURA 2-17 Distribucin total de wb_trans

14

Captulo 3. Conclusiones
En estadstica, uno de los factores que influyen en mayor medida en la obtencin de buenos indicadores, es la calidad de los datos. La revisin de los mismos cobra especial importancia a la hora de analizar la variabilidad de las muestras, o bien para determinar las tendencias que siguen los datos. En este trabajo, al existir datos que escapan a la tendencia de la muestra, queda en evidencia que las medidas calculadas no reflejan el comportamiento real de los datos, lo que puede repararse utilizando mtodos de preprocesamiento de datos, los cuales permiten realizar un filtrado a valores que se alejan de la tendencia, o bien tomar una parte de la muestra total y realizar una tcnica de remuestreo o bootstrap, la cual puede entregar aproximaciones de mejor calidad en torno a la varianza de los datos. Otro elemento importante a considerar es la relacin entre las variables, la cual se mostr que en todos los casos analizados corresponde a una relacin proporcional directa, lo que adems se confirm al observar los grficos de las mismas. Lo anterior tiene un trasfondo a la hora de buscar minimizar la cantidad de variables a analizar, ya que permite que algunas de estas puedan ser representadas por variables similares. Finalmente, es importante para el desarrollo de estudios posteriores el uso de mtodos de filtrado de variables, para as reducir su nmero. Lo que tiene especial importancia a la hora de elegir una tcnica de minera de datos lo suficientemente poderosa como para entregar la informacin requerida a partir de datos que hayan sido evaluados como los ms relevantes para el estudio y la extraccin de conocimiento a partir de ellos.

15

Captulo 4. Referencias

Floriana., E., Donato., M., & Giovanni., &. S. (1994). Applied Artificial Intelligence. Multistrategy Learning for Document Recognition . Hasnat, A. (26 de junio de 2007). CRBLP BANGLA OCR. Recuperado el 30 de abril de 2012, de Run Length Smoothing Algorithm (RLSA): http://crblpocr.blogspot.com/2007/06/run-lengthsmoothing-algorithm-rlsa.html Malerba, D. (2009). Page Blocks Classification Data Set. Retrieved abril 30, 2012, from http://archive.ics.uci.edu/ml/datasets/Page+Blocks+Classification Malerba, D., Esposito, F., & Semeraro, G. (1995). Learning from Data: Artificial Intelligence and Statistics V. A Further Comparison of Simplification Methods for Desision-Tree Induction . Berlin, Germany: Springer Verlag.

16

Anda mungkin juga menyukai