El nuevo enfoque científico reduce el sesgo en los datos de entrenamiento para mejorar el aprendizaje automático

El nuevo enfoque científico reduce el sesgo en los datos de entrenamiento para mejorar el aprendizaje automático

Gautam Thakur lidera un equipo de investigadores de ORNL que han desarrollado un nuevo método científico para identificar sesgos en los anotadores de datos humanos para garantizar entradas de datos de alta calidad para aplicaciones de aprendizaje automático. Crédito: Carlos Jones / ORNL, Departamento de Energía de EE. UU.

A medida que las empresas y los responsables de la toma de decisiones buscan cada vez más el aprendizaje automático para dar sentido a grandes cantidades de datos, garantizar la calidad de los datos de entrenamiento utilizados en los problemas del aprendizaje automático se vuelve fundamental. Esos datos son codificados y etiquetados por anotadores de datos humanos, a menudo contratados en plataformas de crowdsourcing en línea, lo que genera preocupaciones de que los anotadores de datos introduzcan inadvertidamente sesgos en el proceso y, en última instancia, reduzcan la credibilidad de la salida de la aplicación de aprendizaje automático.

Un equipo de científicos dirigido por Gautam Thakur del Laboratorio Nacional de Oak Ridge ha desarrollado un nuevo método científico para detectar sesgos en los anotadores de datos humanos, lo que garantiza entradas de datos de alta calidad para tareas de aprendizaje automático. Los investigadores también han diseñado una plataforma en línea llamada ThirdEye que permite ampliar el proceso de selección.

Los resultados del equipo se publicaron en el Hallazgos de la Asociación de Lingüística Computacional: ACL-IJCNLP 2021.

“Hemos creado un método muy sistemático y muy científico para encontrar buenos anotadores de datos”, dijo Thakur. “Este enfoque tan necesario mejorará los resultados y el realismo de las decisiones de aprendizaje automático en torno a la opinión pública, las narrativas en línea y la percepción de los mensajes”.

La votación del Brexit en el otoño de 2016 brindó una oportunidad para que Thakur y sus colegas Dasha Herrmannova, Bryan Eaton y Jordan Burdette y sus colaboradores Janna Caspersen y Rodney “RJ” Mosquito probaran su método. Investigaron cómo se podrían combinar cinco medidas comunes de actitud y conocimiento para crear un perfil anonimizado de anotadores de datos que probablemente etiqueten los datos utilizados para aplicaciones de aprendizaje automático de la manera más precisa y sin sesgos. Probaron 100 anotadores de datos prospectivos de 26 países utilizando varios miles de publicaciones en redes sociales de 2019.

“Supongamos que desea utilizar el aprendizaje automático para detectar de qué están hablando las personas. En el caso de nuestro estudio, ¿están hablando del Brexit de manera positiva o negativa? ¿Es probable que los anotadores de datos etiqueten los datos como un reflejo de sus creencias acerca de irse o permanecer en la UE porque su sesgo nubla su desempeño? ” Thakur dijo. “Los anotadores de datos que pueden dejar de lado sus propias creencias proporcionarán etiquetas de datos más precisas, y nuestra investigación ayuda a encontrarlas”.

El diseño de métodos mixtos de los investigadores analiza los anotadores de datos con medidas cualitativas (la Escala de Racismo Simbólico 2000, el Cuestionario de Fundamentos Morales, la prueba de antecedentes en las redes sociales, la prueba de conocimiento del Brexit y las medidas demográficas) para desarrollar una comprensión de sus actitudes y creencias. Luego, realizaron análisis estadísticos en los anotadores de etiquetas asignados a las publicaciones en las redes sociales contra un experto en la materia con amplio conocimiento del Brexit y el clima geopolítico de Gran Bretaña y un científico social con experiencia en lenguaje incendiario y propaganda en línea.

Thakur enfatiza que el método del equipo es escalable de dos maneras. Primero, atraviesa dominios, impactando la calidad de los datos para los problemas de aprendizaje automático relacionados con el transporte, el clima y las decisiones de robótica, además de la atención médica y las narrativas geopolíticas relevantes para la seguridad nacional. En segundo lugar, ThirdEye, la plataforma web interactiva de código abierto del equipo, escala la medición de actitudes y creencias, lo que permite la elaboración de perfiles de grupos más grandes de anotadores de datos potenciales y una identificación más rápida de las mejores contrataciones.

“Esta investigación indica claramente que la moral, los prejuicios y el conocimiento previo de la narrativa en cuestión de los anotadores de datos tienen un impacto significativo en la calidad de los datos etiquetados y, en consecuencia, en el rendimiento de los modelos de aprendizaje automático”, dijo Thakur. “Los proyectos de aprendizaje automático que se basan en datos etiquetados para comprender las narrativas deben evaluar cualitativamente la visión del mundo de sus anotadores de datos si quieren hacer declaraciones definitivas sobre sus resultados”.


Similar Posts

Leave a Reply