Clasificadores Bayesianos Naïve Bayes a la clasificación de texto
El artículo describe la clasificación de texto como la tarea de asignar categorías
predefinidas a documentos en lenguaje natural mediante algoritmos de aprendizaje automático que se utilizan para clasificar estos documentos y uno de ellos el clasificador Naive Bayes que se usa a menudo como referencia en la clasificación de texto ya que es rápido y fácil de implementar y funcional bastante bien en esta y muchas otras aplicaciones complejas del mundo real. El clasificador Naïve Bayes es una familia de clasificadores probabilísticos simples basados en la aplicación del teorema de Bayes con con suposiciones de independencia fuertes entre las características. El motivo principal del artículo es mostrar un clasificador Bayesiano Naive Bayes en comparación con un modelo clásico, describiendo algunos conceptos básicos al igual que la diferencia de la clasificación con modelos de evento multinomial, Bernulli y Gaussiano, como por ejemplo que en el modelo de evento de Bernoulli, no se preocupa por el número de veces que una palabra ocurre en un documento. Cada documento está representado por un vector de características binarias que indican qué palabras aparecen en el documento. En el modelo de evento multinomial, tiene en cuenta con qué frecuencia se produce las palabras en cada documento se representa mediante el conjunto de ocurrencias de palabras del documento. Ese es decir, el orden de las palabras no se captura. Otorga la bolsa familiar de representación de palabras para documentos Con el Gaussiano supone que a las características siguen una distribución normal. En lugar de los recuentos discretos, se tienen características continuas Como propuesta final describe con detalle un clasificador totalmente bayesiano, usado para pruebas de clasificación de dos conjuntos de datos de referencia, uno de un conjunto de datos de 20 grupos de noticias y el otro de páginas recopiladas de los departamentos de informática de varias universidades por el proyecto World Wide Knowledge Base (webkb), mostrando los resultados de estos. Llegando a la conclusión de que con Clasificadores bayesianos y clásicos de NB con modelo de evento multinomial no hay una diferencia estadísticamente significativa, pero con el modelo de evento gaussiano, la diferencia entre los clasificadores bayesianos y clásicos de NB es estadísticamente significativo, especialmente para el conjunto de datos de webkb.
La clasificación de texto es una tecnología de apoyo en varias tareas de