Anda di halaman 1dari 6

75.

71 Seminario de Ingenier en a Informtica I a Trabajo contribucin o


Ottavianoni Natan, Padron Nro. 86249 natan85@gmail.com

1er. Cuatrimestre de 2012 Facultad de Ingenier Universidad de Buenos Aires a, Seminario de Data Mining - Docente: Dr Ale

Resumen El principal objetivo de este Trabajo es realizar una contribucin a un o paper en base a los temas tratados en el curso

1.

Introduccin o

Este Trabajo utiliza como base el paper Intrusion Detection System Research Based on Data Mining for IPv6 [1]. Se realiza una breve descripcin de o la problemtica all planteada y se propone una mejora a

2.
2.1.

Caracter sticas del paper a tratar


Abstract

La migracin de IPV4 a IPV6 trae aparejados nuevos desaf en cuanto a o os la seguridad ya que los sistemas de deteccin de intrusos (IDS) en el protocolo o anterior no se pueden aplicar de manera transparente en su sucesor. Realiza una breve descripcin de las caracter o sticas de seguridad de IPV6 y propone un modelo basado en data mining para la deteccin de intrusos o

2.2.

Descripcin de la problemtica o a

En [1] se propone un IDS para evitar los ataques por denegacin de servicio o (DOS) basado en tcnicas de data mining. El modelo empleado se puede ver e en la gura 1, consiste en 2 fases, por un lado la etapa de entrenamiento que genera los patrones contra los cuales se los va a comparar y la segunda fase en la cual se toman los datos actuales del sistema, se los procesa y se los compara con los patrones anteriormente almacenado, en caso que sean similares se considerar como una deteccin a o

Figura 1: Modelo del sistema de deteccin de intrusos o

3.

Propuesta

La Ley de Amdhal dice que se debe optimizar el caso mas frecuente, para un sistema IDS la perfomance temporal es crucial, debido a que se est sobrecargando la red y comprometiendo la capacidad de la misma. En [1] a se indica que el algoritmo A Priori es el que se est ejecutando la mayor a cantidad de tiempo, es por ello que se propone estudiar la perfomance temporal del IDS si se lo reemplaza por el algoritmo FP-Growth, basndose en a los resultados de los estudios [2] y [3]

Figura 2: Performance Algoritmo A Priori y FP-Growth en funcion support threshold

4.
4.1.

Algoritmo FP-growth
Pseudo cdigo o

procedure FPGrowth(T ree, ) if T ree contains a sigle path P then for each = comb. of nodes in P do pattern = sup = m n(sup of the nodes in ) else for each ai in the header of T ree do generatepattern = sup = ai .support construct s conditional pattern base F P T ree = construct s conditional FP-tree

if F P T ree != 0 then FPGrowth(F P T ree,)

4.2.

Caracter sticas
Encuentra los Itemsets frecuentes sin generar candidatos Enfoque dividir y conquistar Almacenamiento en una estructura arbrea llamada FP-tree o tambin o e arbol de prejos Recorrido en profundidad Emplea una tabla llamada Header Table que almacena para cada item frecuente su support y una referencia a su primera aparicin en el o FP-tree El tamao de FP-tree esta acotado por el numero de ocurrencia del n patrn mas frecuente o La altura del rbol esta acotada por el item de mayor frecuencia en una a transaccin. o Recorrido bottom-up del rbol para hallar los itemsets mas frecuentes a

4.3.

Ventajas
No repite el escaneo sobre la base de datos entera Encuentra los itemsets mas frecuentes sin generar candidatos Usa el enfoque dividir y conquistar. Descompone el problema en otros mas pequeos n En conjunto de datos grandes y pocos dispersos tiene una perfomance temporal como m nimo de 1 orden de magnitud mejor que el algoritmo A Priori FP-tree representa una estructura con los datos de input comprimidos ya que mapea cada transaccin en un camino del rbol. Cuanto mas en o a comn tienen las transaccin mayor compresin se logra. En el caso u o o extremo que todas las transacciones estn incluidas dentro de una sola, el e a rbol de degenerar en una lista obteniendo la mayor tasa de compresin. a o

4.4.

Desventajas
Se obtienen ventajas de la perfomance temporal solo para el caso de conjuntos de datos densos y pocos dispersos pero en conjuntos de datos muy dispersos y grandes no se aprovecha la compactacin que brinda el o FP-tree resultando muy costosos los recorridos sobre el mismo ya que se transforma en un rbol muy espeso. a

Si se diera el caso que ninguna de las transacciones tiene algn item en u comn, no habr compresin posible y el espacio para el u a o almacenamiento del rbol ser mayor que el de la propia data. a a Al menos en la bibliograf consultado las ventajas de perfomance a temporal sobre el algoritmo a priori solo fueron corroboradas emp ricamente

5.

Comparacin o

El algoritmo A Priori genera un conjunto de candidatos de itemsets mas frecuentes, eso lo obliga a recorrer varias veces la base de datos mientras q FP-growth utiliza una estructura arbrea para guardar la data con la que se o trabaja de manera comprimida y trabaja sobre dicha estructura para obtener los itemsets mas frecuentes.La implementacin y las tcnicas de data mining o e son mas complejas si se usa este segundo algoritmo, no obstante se puede obtener una mejor perfomance temporal para determinados valores de support y determinados dataset

6.

Conclusiones

La contribucin de este trabajo es sugerir una posible optimizacin para el o o IDS descripto en [1] reemplazando el algoritmo a priori empleado para generar el conjunto de items mas frecuentes y la regla de asociacin. Para realizar esta o propuesta se tuvo en cuenta el estudio [2] que fue realizado sobre un data set de mercadeo. Se deber hacer las mismas mediciones realizadas en [2] para an determinar si es viable reemplazar el algoritmo a priori por el FP-growth. Sin ellos resultados no se puede concluir que este cambio produzca una mejora signicativa en cuanto a la perfomance y conabilidad del IDS por las desventajas antes mencionadas que presenta el algoritmo FP-growth. Cabe destacar que FP-growth aventaja al algoritmo A Priori en al menos 1 orden de magnitud en cuanto a su perfomance temporal en funcin del Support o threshold, pero dicha ventaja solo fue constatada emp ricamente en la bibliograf consultado. a

Referencias
[1] Kunming, Yunnan. Intrusion Detection System Research Based on Data Mining for IPv6 [2] HUNYADI. Performance comparison of Apriori and FP-Growth algorithms in generating association rules [3] Han J., Pei J., Yin Y. Mining frequent patterns without candidate generation [4] Tan, P. Steinbach, M. Kumar, V..:Introduction to Data Mining. Addison Wesley. 2006.

Anda mungkin juga menyukai