Documentos de trabajo Clasificación automática de textos utilizando técnicas de text mining: Aplicación a las glosas de la Encuesta Nacional de Empleo (ENE)
Este documento explora los aspectos metodológicos relacionados con la clasificación automática de textos, tarea que consiste en asignar documentos de texto libres a una o más clases predefinidas, basadas en su contenido. Para este fin se describe la utilización de tres técnicas de machine learning: Naïve Bayes (NB), Support Vector Machine (SVM) y Random Forests (RF). Este estudio analiza las propiedades particulares del aprendizaje con datos de texto e identifica por qué estas técnicas son apropiadas para esta tarea. Una evaluación empírica de estas técnicas se realizó para apoyar los hallazgos teóricos, considerando la clasificación del “oficio, labor u ocupación” y del “sector económico” de la población ocupada a partir de los datos de la Encuesta Nacional de Empleo (ENE), recopilados durante 2017 por el Instituto Nacional de Estadísticas (INE). Las tres técnicas evaluadas mostraron buen desempeño en la tarea de clasificación, siendo SVM la de mejor desempeño, con una precisión global de alrededor del 90%. SVM logra un comportamiento sólido en una variedad de diferentes aprendizajes y es completamente automático, eliminando la necesidad de ajuste manual de parámetros.
Descargas complementarias