facebook-2021-antes-después-detectron-modelfinal.png

Facebook: aquí viene la IA del Metaverso

Tienes Facebook

Para operar en realidad virtual y aumentada, Facebook cree que la inteligencia artificial necesitará desarrollar una “perspectiva egocéntrica”.

Con ese fin, la compañía anunció el jueves Ego4D, un conjunto de datos de 2792 horas de video en primera persona y un conjunto de pruebas de referencia para redes neuronales, diseñadas para fomentar el desarrollo de IA que sea más inteligente sobre cómo es moverse a través de mundos virtuales desde una perspectiva en primera persona.

El proyecto es una colaboración entre Facebook Reality Labs y académicos de 13 instituciones de investigación, incluidas instituciones académicas y laboratorios de investigación.. Los detalles se presentan en un documento escrito por Facebook Kristen Grauman, “Ego4D: La vuelta al mundo en 2.8K horas de video egocéntrico”.

Grauman es científico de la unidad de investigación de inteligencia artificial de Facebook de la empresa. Su experiencia como profesora en UT Austin se ha centrado en la visión por computadora y el aprendizaje automático en temas relacionados.

La idea es que el conjunto de datos impulsará a los investigadores a desarrollar redes neuronales que sobresalgan en la realización de tareas desde una perspectiva en primera persona, de la misma manera que los grandes conjuntos de datos como ImageNet impulsaron los programas de IA existentes desde una perspectiva de “espectador”.

El punto de la percepción egocéntrica es tratar de solucionar los problemas que tiene una red neuronal con tareas básicas, como el reconocimiento de imágenes cuando el punto de vista de una imagen cambia de tercera persona a primera persona, dijo Facebook.

También:Facebook anuncia una inversión de 50 millones de dólares en un desarrollo de metaverso ‘responsable’

La mayoría de los sistemas de reconocimiento de imágenes que pueden detectar objetos vistos desde el margen tienen altas tasas de falla si el objeto se presenta desde el punto de vista de una persona que lo encuentra.

La iniciativa Ego4D apunta específicamente a Metaverse, el mundo venidero de las redes sociales inmersivas que el CEO de Facebook, Mark Zuckerberg, discutió en el último informe de ganancias de la compañía.

“Estos puntos de referencia catalizarán la investigación sobre los componentes básicos necesarios para desarrollar asistentes de IA más inteligentes que puedan comprender e interactuar no solo en el mundo real sino también en el metaverso, donde la realidad física, la RA y la RV se unen en un solo espacio”. dijo Facebook.

El personal de Facebook recopiló las 2792 horas de video utilizando una variedad de cámaras. El visor de realidad aumentada Vuzix Blade fabricado por Vuzix es solo uno, otros incluyen GoPro, Pupil Labs, ZShades y Wee-view. El propósito de mezclar diferentes conjuntos es evitar el “sobreajuste”, escriben Grauman y colaboradores, el fenómeno cuando una red neuronal ha memorizado cuadros de información de video, en lugar de estar sintonizada para inferir similitudes entre diferencias.

Facebook dijo que el video fue “capturado por 750 usuarios únicos de cámaras de 73 ubicaciones en todo el mundo y 9 países diferentes”. Parte de eso fue por parte del personal de Facebook en el campus de la empresa y parte de los colaboradores de la universidad.

También: Facebook lleva el metaverso al trabajo con Horizon Workrooms (y pensaba que la fatiga de Zoom era mala)

El “4D” en Ego4D hace referencia al aspecto temporal del video. El personal de Facebook pasó 250.000 horas mirando y proporcionando narraciones habladas que resumían lo que sucedía en los videos, con marcas de tiempo adjuntas.

Facebook dice que las narraciones “son temporalmente densas”, dado que, “En promedio, recibimos 13.2 oraciones por minuto de video, para un total de 3.85 millones de oraciones. En total, las narraciones describen el video de Ego4D usando 1,772 verbos únicos (actividades) y 4,336 sustantivos únicos (objetos) “.

El conjunto de datos está destinado a ser utilizado para desarrollar redes neuronales que funcionarán en una variedad de nuevas pruebas de referencia. Con ese fin, Grauman y sus colaboradores describen varias pruebas nuevas que han creado que requieren una red neuronal para poder producir una respuesta a: tareas en el pasado, como recordar; tareas en el presente, como categorizar una actividad; o pronóstico futuro, como producir una descripción del resultado de una acción.

facebook-ego4d-prediciendo-cosas-oct-2021.jpg

Tienes Facebook

Por ejemplo, una tarea para una red neuronal podría ser responder a una consulta en lenguaje natural que requiera que el programa haga coincidir el contenido de la consulta con un fotograma de video. Un ejemplo es preguntarle a la computadora: “¿Cuándo le leí a mis hijos?” La computadora tendría que encontrar la escena en la que el usuario de la cámara estaba leyendo a sus hijos. La tarea es etiquetada por el personal de anotaciones humanas, que recibe una lista de etiquetas preformateada y debe asignarlas a los clips.

Facebook dijo que tiene 74.000 consultas asignadas de esta forma a 800 horas de video.

facebook-ego4d-memoria-episódica.jpg

Tienes Facebook

En una prueba de predicción futura, la computadora podría tener que predecir con qué objeto en un cuadro de video interactuará a continuación el usuario de la cámara. Entonces, si están en una mesa enrollando masa, la siguiente acción predicha podría ser agarrar una bola de masa sobre la mesa. El programa hará la predicción seleccionando uno de una lista preestablecida de verbos que el personal de anotación ha adjuntado a los fotogramas de video y agregando una estimación de tiempo, como escupir “tomar masa en 0,8 segundos”.

También:Facebook ya tiene tus recuerdos, las gafas inteligentes lo conseguirán más

Los conjuntos de datos para Ego4D estarán disponibles en Github el próximo mes, dijo Facebook. Los usuarios deberán firmar un acuerdo de uso de datos.

Similar Posts

Leave a Reply