El sistema de lectura de labios es el foco del equipo de investigación de la Universidad de Oxford

El sistema de lectura de labios es el foco del equipo de investigación de la Universidad de Oxford

Arquitectura LipNet. Una secuencia de T fotogramas se utiliza como entrada y es procesada por 3 capas de STCNN, cada una seguida de una capa de agrupación máxima espacial. Las características extraídas se muestrean temporalmente y son procesadas por un Bi-LSTM; cada paso de tiempo de la salida LSTM es procesado por una red de alimentación hacia adelante de 2 capas y un softmax. Este modelo de extremo a extremo está capacitado con CTC. Crédito: arXiv: 1611.01599 [cs.LG]

(Tech Xplore) 擜 otra reverencia para la investigación en la Universidad de Oxford: un equipo de investigación del Departamento de Ciencias de la Computación ha desarrollado un sistema para la lectura de labios automática. Mediante el aprendizaje automático, su objetivo ha sido ayudar a las personas con problemas de audición.

La buena noticia es que puede superar el rendimiento de los lectores de labios humanos e incluso los sistemas de lectura de labios automáticos anteriores, según un comunicado de prensa de la universidad.

¿Cómo es eso? Los investigadores definen la lectura de labios como la tarea de decodificar texto a partir del movimiento de la boca de un hablante.

El software lee los labios más rápido y con mayor precisión de lo que era posible anteriormente. El equipo utilizó inteligencia artificial de aprendizaje profundo para crear LipNet. La BBC describió sus materiales y métodos: “Dijeron que el sistema de inteligencia artificial estaba provisto de oraciones completas para que pudiera enseñarse por sí mismo qué letra correspondía a qué movimiento de los labios”.

El equipo lo alimentó con casi 29,000 videos, etiquetados con el texto correcto, para entrenar. La BBC dijo: “Cada video tenía una duración de tres segundos y seguía un patrón gramatical similar”.

A principios de este mes se publicó un video sobre su trabajo, LipNet: lectura de labios a nivel de oración, por Yannis Assael, Brendan Shillingford, Shimon Whiteson y Nando de Freitas. Su artículo está sobre arXiv.

El video preguntaba: ¿Qué tan fácil crees que es leer los labios? Una mujer sin sonido dice algo y luego lo ralentiza, pero es difícil adivinar lo que dijo. Luego, el video muestra la predicción de LipNet, resulta que es correcta, algo así como colocar azul en m1 pronto. Dos voces masculinas también dicen cosas y LipNet hace bien sus oraciones.

El video dice que el rendimiento promedio de un lector de labios experimentado es del 52%, mientras que el de LipNet sube al 93%.

Las notas del video incluían texto del resumen. “A nuestro leal saber y entender, LipNet es el primer modelo de lectura de labios que funciona a nivel de oración, utilizando un único modelo profundo de extremo a extremo independiente del hablante para aprender simultáneamente características visuales espacio-temporales y un modelo de secuencia. En el corpus GRID, LipNet logra una precisión del 93,4%, superando a los lectores de labios humanos experimentados y la precisión anterior del 79,6% de vanguardia “.

(Los autores escribieron en su artículo que el modelo de extremo a extremo “elimina la necesidad de segmentar videos en palabras antes de predecir una oración. LipNet no requiere características visuales espacio-temporales diseñadas a mano ni un modelo de secuencia entrenado por separado”).

Los autores en la publicación del video agradecieron a CIFAR, Google DeepMind y NVIDIA por el apoyo financiero.

¿Cuál sería su uso potencial en el mundo real? ¿Lo usaría el personal de vigilancia para espiar a otros? En su forma actual, dijo el comunicado de prensa del departamento escolar, no es adecuado para leer los labios como herramienta de vigilancia. “Pero el equipo está ansioso por desarrollarlo aún más, especialmente como una ayuda para personas con discapacidades auditivas”.

¿Que sigue? La pregunta sigue siendo cómo puede la IA de LipNet llevar la lectura de labios al futuro. El comunicado de prensa del departamento universitario dijo que “todavía se encuentra en una etapa relativamente temprana de desarrollo. Ha sido entrenado y probado en un conjunto de datos de investigación de videos breves y formulados que muestran a una persona bien iluminada cara a cara”.

Por supuesto. La BBC informó que “los expertos dijeron que el sistema necesitaba ser probado en situaciones de la vida real. La lectura de labios es un negocio notoriamente complicado en el que los profesionales solo pueden descifrar lo que alguien dice hasta el 60% del tiempo”.


Similar Posts

Leave a Reply