Investigadores de Intel desarrollan un sistema de corrección de contacto visual para videoconferencias

Investigadores de Intel desarrollan un sistema de corrección de contacto visual para videoconferencias

Corrección del contacto visual: en el cuadro de entrada (izquierda) el usuario está mirando la pantalla. En el cuadro de salida (derecha), su mirada se corrige para mirar a la cámara. Crédito: Isikdogan, Gerasimow y Michael.

Al participar en una videollamada o una conferencia, a menudo es difícil mantener el contacto visual directo con otros participantes, ya que esto requiere mirar a la cámara en lugar de a la pantalla. Aunque la mayoría de las personas utilizan los servicios de videollamadas de forma regular, hasta ahora no ha habido una solución generalizada para este problema.

Un equipo de investigadores de Intel ha desarrollado recientemente un modelo de corrección del contacto visual que podría ayudar a superar esta molestia al restaurar el contacto visual en los chats de video en vivo, independientemente de dónde se encuentren la cámara y la pantalla del dispositivo. A diferencia de los enfoques propuestos anteriormente, este modelo centra automáticamente la mirada de una persona sin la necesidad de entradas que especifiquen el ángulo de redirección o la geometría de la cámara / pantalla / usuario.

“El objetivo principal de nuestro proyecto es mejorar la calidad de las experiencias de videoconferencia al facilitar el contacto visual”, dijo a TechXplore Leo Isikdogan, uno de los investigadores que llevó a cabo el estudio. “Es difícil mantener el contacto visual durante una videollamada porque no es natural mirar a la cámara durante una llamada. Las personas miran la imagen de la otra persona en su pantalla o, a veces, incluso miran su propia imagen de vista previa, pero no en la cámara. Con esta nueva función de corrección del contacto visual, los usuarios podrán tener una conversación cara a cara natural “.

El objetivo clave del estudio realizado por Isikdogan y sus colegas fue crear una experiencia de chat de video natural. Para lograr esto, solo querían que su función de corrección de contacto visual funcionara cuando un usuario participa en la conversación, en lugar de cuando aparta la vista de la pantalla de forma natural (por ejemplo, cuando mira papeles o manipula objetos en su entorno).

“La corrección del contacto visual y la redirección de la mirada en general, no son nuevas ideas de investigación”, dijo Isikdogan. “Muchos investigadores han propuesto modelos para manipular dónde miran las personas en las imágenes. Sin embargo, algunos de estos requieren configuraciones especiales de hardware, otros necesitan información adicional del usuario, como hacia qué dirección y cuánto debe ser la redirección, y otros utilizan procesos computacionalmente costosos que son factibles solo para procesar videos pregrabados “.

El nuevo sistema desarrollado por Isikdogan y sus colegas utiliza una red neuronal convolucional profunda (CNN) para redirigir la mirada de una persona al deformar y ajustar los ojos en sus marcos de entrada. Esencialmente, la CNN procesa una imagen monocular y produce un campo vectorial y un mapa de brillo para corregir la mirada del usuario.

A diferencia de los enfoques propuestos anteriormente, su sistema puede ejecutarse en tiempo real, listo para usar y sin requerir ninguna entrada de los usuarios o hardware dedicado. Además, el corrector funciona en una variedad de dispositivos con diferentes tamaños de pantalla y posiciones de cámara.

“Nuestro corrector de contacto visual utiliza un conjunto de mecanismos de control que previenen cambios abruptos y aseguran que el corrector de contacto visual evite hacer cualquier corrección antinatural que de otra manera sería espeluznante”, dijo Isikdogan. “Por ejemplo, la corrección se desactiva suavemente cuando el usuario parpadea o mira a algún lugar lejano”.

Los investigadores entrenaron su modelo de forma bidireccional en un gran conjunto de datos de imágenes generadas sintéticamente, fotorrealistas y etiquetadas. Luego evaluaron su efectividad y cómo la percibían los usuarios en una serie de pruebas a ciegas.

“Nuestras pruebas a ciegas mostraron que la mayoría de las personas no saben cuándo activamos o desactivamos nuestro algoritmo, no ven artefactos, pero sienten que tienen contacto visual con la persona con la que se están comunicando”, dijo Gilad Michael, otro investigador involucrado en el estudio, dijo TechXplore.

Curiosamente, los investigadores observaron que su modelo también había aprendido a predecir la mirada de entrada (es decir, dónde pensaba que un usuario estaba mirando antes de que se corrigiera su mirada), incluso si nunca fue entrenado para hacer eso. Creen que esta capacidad podría ser un subproducto de la redirección continua del modelo de la mirada del usuario hacia el centro, sin especificar dónde estaba mirando el usuario en primer lugar.

“El modelo simplemente infirió la mirada de entrada para que pueda moverla hacia el centro”, explicó Isikdogan. “Por lo tanto, podría decirse que podemos considerar el problema de la corrección del contacto visual como un superconjunto parcial de predicción de la mirada”.

Los hallazgos recopilados por los investigadores también destacan el valor de utilizar datos sintéticos fotorrealistas para entrenar algoritmos. De hecho, su modelo logró resultados notables incluso si durante el entrenamiento se basó casi por completo en imágenes generadas por computadora. Los investigadores están lejos de ser los primeros en experimentar con datos de entrenamiento sintéticos, sin embargo, su estudio es una confirmación más de su potencial para la creación de aplicaciones de alto rendimiento.

“También confirmamos que es una buena práctica tener en cuenta la reversibilidad del mapeo al construir modelos que manipulen sus entradas”, agregó Isikdogan. “Por ejemplo, si el modelo mueve algunos píxeles de la parte inferior izquierda al centro, deberíamos poder pedirle al modelo que los mueva hacia la parte inferior izquierda y obtener una imagen que se vea casi idéntica a la imagen original. Este enfoque evita que el modelo de modificar imágenes irreparables “.

En el futuro, el sistema propuesto por Isikdogan, Michael y su colega Timo Gerasimow podría ayudar a mejorar las experiencias de videoconferencia, acercándolas aún más a las interacciones en persona. Los investigadores ahora planean finalizar su sistema para que pueda aplicarse a los servicios de videoconferencia existentes.

“Nos esforzamos mucho para asegurarnos de que nuestra solución sea práctica y esté lista para ser utilizada en productos reales”, dijo Michael. “Ahora podríamos intentar mejorar algunos de los resultados secundarios del algoritmo, como la detección de miradas y la calificación de participación, para permitir casos de uso adyacentes”.


Similar Posts

Leave a Reply