Una red neuronal convolucional de 26 capas para el reconocimiento de acciones humanas
Los algoritmos de aprendizaje profundo, como las redes neuronales convolucionales (CNN), han logrado resultados notables en una variedad de tareas, incluidas aquellas que involucran el reconocimiento de personas u objetos específicos en imágenes. Una tarea que los informáticos a menudo han intentado abordar mediante el aprendizaje profundo es el reconocimiento de acciones humanas (HAR) basado en la visión, que implica específicamente reconocer las acciones de los humanos que han sido capturados en imágenes o videos.
Investigadores de HITEC University y Foundation University Islamabad en Pakistán, Sejong University y Chung-Ang University en Corea del Sur, University of Leicester en el Reino Unido y Prince Sultan University en Arabia Saudita han desarrollado recientemente una nueva CNN para reconocer las acciones humanas en videos. Esta CNN, presentada en un artículo publicado en la revista Multimedia Tools and Applications de Springer Link, fue entrenada para diferenciar entre varias acciones humanas diferentes, como boxear, aplaudir, saludar, trotar, correr y caminar.
“Diseñamos una nueva arquitectura de red neuronal convolucional (CNN) de 26 capas para un reconocimiento preciso de acciones complejas”, escribieron los investigadores en su artículo. “Las características se extraen de la capa de agrupación promedio global y la capa completamente conectada (FC) y se fusionan mediante un enfoque propuesto basado en alta entropía”.
Al tratar de reconocer las acciones de los humanos en imágenes o videos, las CNN suelen centrar sus análisis en una serie de características potencialmente relevantes. Sin embargo, algunas acciones humanas, como trotar y caminar, pueden ser muy similares, lo que dificulta que estos algoritmos los distingan, especialmente si se enfocan en características que son el núcleo de sus similitudes. Para superar este desafío, los investigadores utilizaron un enfoque que fusiona un método de selección de características llamado distribución de Poisson con medidas univariadas (PDaUM).
Los investigadores observaron que las características en las que las CNN basan sus análisis a veces pueden ser irrelevantes o redundantes, lo que hace que hagan predicciones incorrectas. Para reducir el riesgo de que esto suceda, su enfoque PDaUM solo selecciona las características más fuertes para reconocer una acción humana en particular y asegura que la CNN haga su predicción final basada en estas características.
Los investigadores entrenaron y evaluaron dos CNN distintas, una máquina de aprendizaje extremo (ELM) y un clasificador Softmax, en cuatro conjuntos de datos, a saber, los conjuntos de datos HMDB51, UFC Sports, KH y Weizmann. Estos conjuntos de datos contienen varios videos de humanos que realizan diferentes tipos de acciones.
Luego, los investigadores compararon el rendimiento de sus dos CNN, las cuales se mejoraron utilizando su método de selección de funciones. En sus evaluaciones, el clasificador ELM funcionó significativamente mejor que el algoritmo Softmax, reconociendo las acciones humanas de los videos con una precisión del 81,4% en el conjunto de datos HMDB51, el 99,2% en el conjunto de datos UCF Sports, el 98,3% en el conjunto de datos KTH y el 98,7% en el Conjunto de datos de Weizmann.
Sorprendentemente, el clasificador ELM mejorado con PDaUM también superó todas las técnicas de aprendizaje profundo existentes para HAR con las que los investigadores lo compararon, tanto en términos de precisión como de tiempo de predicción. Por tanto, estos resultados destacan el potencial del método de selección de características introducido por los investigadores para mejorar el rendimiento de las CNN en las tareas HAR.
En el futuro, el clasificador ELM y el enfoque PDaUM presentados en este documento podrían permitir el desarrollo de herramientas más efectivas para distinguir automáticamente lo que los humanos están haciendo en secuencias de video grabadas y en vivo. Estas herramientas podrían resultar valiosas de varias maneras diferentes, por ejemplo, ayudando a los agentes del orden a monitorear el comportamiento de los sospechosos en videos de CCTV o permitiendo a los investigadores analizar rápidamente grandes cantidades de videos.