INE NOTICIAS

Documento de Trabajo del INE aborda los beneficios de la clasificación automática de textos para decodificar respuestas a sus encuestas

19/03/2019 Prensa
Estudio explica los aspectos metodológicos asociados a esta materia y evalúa su posible implementación en la Encuesta Nacional de Empleo (ENE).

El Instituto Nacional de Estadísticas (INE) publicó este martes 19 de marzo el Documento de Trabajo Clasificación automática de textos utilizando técnicas de text mining: Aplicación a las glosas de la Encuesta Nacional de Empleo (ENE). En él, se exploran los aspectos metodológicos relacionados con la implementación de herramientas tecnológicas que codifican grandes volúmenes de textos provenientes de las preguntas abiertas de las encuestas que la institución desarrolla.

El estudio plantea que, actualmente, organismos como el INE requieren administrar una importante cantidad de documentos de interés, y que efectuar el procesamiento de los datos de texto en forma manual presenta varias limitantes, debido a que es una tarea larga y costosa. “En el proceso de producción requerido para la elaboración de estadísticas laborales y sociodemográficas (del INE), la codificación es realizada de manera manual, con una precisión  de aproximadamente 84%, e implica más de 3.600 horas efectivas de trabajo al mes. Por esta razón, es necesario el desarrollo de una solución que supere el desempeño de la clasificación manual en términos de eficiencia y velocidad”, señalan Julio Guerrero y Julián Cabezas, autores del trabajo.

En ese marco, y para evaluar qué solución se podría implementar en el INE en el futuro, los investigadores midieron la calidad y el avance en el campo de la clasificación de textos, describiendo las ventajas y desventajas de la utilización de tres técnicas que se utilizan internacionalmente hoy en día: Naïve Bayes (NB), Support Vector Machine (SVM) y Random Forests (RF). 

Luego, los autores aplicaron las tres técnicas sobre un conjunto de datos provenientes de la ENE recopilados durante 2017 por el INE, específicamente sobre las glosas que pesquisan el “oficio, labor u ocupación” y el “sector económico” de la población ocupada. 

“Las tres técnicas evaluadas mostraron buen desempeño en la tarea de clasificación, siendo SVM la de mejor desempeño, con una precisión global de alrededor del 90%. SVM logra un comportamiento sólido en una variedad de diferentes aprendizajes y es completamente automático, eliminando la necesidad de ajuste manual de parámetros”, señalan.

En respuesta a ello, los autores proponen esa técnica como una alternativa viable para obtener clasificaciones más precisas y mucho menos costosas para la institución.
 
“Este trabajo demuestra que es posible, en el contexto de la labor pública, generar mejoras sobre la base de la utilización de software libre y de código abierto (…), lo que podría liberar recursos que hoy en día se utilizan en productos de pago, además de aprovechar las posibilidades de colaboración entre instituciones que este tipo de software facilitan”, concluye el documento.

Los Documentos de Trabajo del INE tienen como objetivo contribuir al intercambio de ideas entre los distintos componentes del Sistema Estadístico Nacional y al análisis de investigadores, académicos y público especializado. Por lo mismo, abordan aspectos conceptuales, analíticos y metodológicos claves de los productos que elabora, abarcando cinco grandes temáticas: económicas, precios, sociales, metodológico y medioambiente. Los estudios están disponibles en el portal www.ine.cl, sección Documentos de Trabajo.

Ver Documento de Trabajo
Evalúe ine.cl