Reconocimiento de la pose del cuerpo humano mediante señales de Wi-Fi

Para encontrar a un hombre (honesto), Diógenes había usado una linterna; el filósofo se basaba únicamente en métodos de reconocimiento óptico. Hoy, sin embargo, los científicos sugieren usar señales de Wi-Fi para esta finalidad. Más específicamente, el método desarrollado por tres investigadores de la Universidad Carnegie Mellon utiliza la señal de un enrutador Wi-Fi doméstico común no solo para detectar la ubicación de una persona en una habitación, sino también para identificar su pose.

¿Por qué Wi-Fi? Esto se debe a varios motivos. En primer lugar, a diferencia del reconocimiento óptico, las señales de radio funcionan perfectamente en la oscuridad y no se ven obstaculizadas por pequeños obstáculos como los muebles. En segundo lugar, es barato, lo que no se puede decir de los lidares y radares, otras herramientas que podrían cumplir la misma función. En tercer lugar, la conexión Wi-Fi ya es omnipresente; está al alcance de la mano. Sin embargo, ¿qué tan efectivo es este método? ¿Y qué puedes hacer con él? Vamos a analizarlo.

DensePose: un método para reconocer las poses humanas en imágenes

Para comenzar, debemos retroceder un poco. Primero, debemos comprender cómo reconocer con precisión el cuerpo humano y sus poses en general. En 2018, un grupo de científicos había presentado un método llamado DensePose. Lo usaron con éxito para reconocer poses humanas en fotografías, es decir, imágenes bidimensionales sin datos adicionales de profundidad.

Así es como funciona: primero, el modelo DensePose busca objetos en las imágenes que se reconocen como cuerpos humanos. Luego, estos objetos se segmentan en áreas distintas, cada una correspondiente a una parte del cuerpo específica, y se analizan individualmente. Este enfoque se utiliza porque las partes del cuerpo se mueven de manera muy diferente: por ejemplo, la cabeza y el torso se comportan de manera muy distinta a los brazos y las piernas.

DensePose: un método para reconocer las poses humanas en fotografías

DensePose puede reconocer con precisión las poses de cuerpos humanos en fotografías e incluso crear mapas UV de sus superficies. Fuente

Como resultado, el modelo ha aprendido a correlacionar una imagen 2D con la superficie 3D del cuerpo humano, obteniendo no solo las anotaciones de la imagen correspondientes a la pose reconocida, sino también un mapa UV del cuerpo representado en la fotografía. Este último permite, por ejemplo, superponer una textura a la imagen.

Lo más impresionante es que esta técnica puede reconocer con precisión las poses de varias personas en las fotos de grupo, incluso esas caóticas imágenes de la “noche de graduación” en las que las personas se amontonan y se tapan parcialmente.

DensePose: ejemplos de reconocimiento de pose en fotografías

DensePose reconoce con precisión las posiciones de figuras individuales en fotos de grupo. Fuente

Además, si confiamos en las imágenes presentadas en el documento y los vídeos publicados por los investigadores, el sistema puede detectar con confianza incluso las posiciones corporales más inusuales. Por ejemplo, la red neuronal identifica correctamente a las personas en bicicletas, motocicletas y a caballo, y también determina con precisión las poses de los jugadores de béisbol, de fútbol e incluso de los bailarines de breakdance, que a menudo se mueven de forma impredecible.

DensePose: ejemplos de reconocimiento de pose en fotografías

El modelo DensePose funciona bien incluso en poses muy inusuales. Fuente

Otra ventaja de DensePose es que no requiere recursos de procesamiento extraordinarios para funcionar. Con una GeForce GTX 1080, que no es una tarjeta gráfica de primera línea, incluso en el momento de publicación del estudio, DensePose captura de 20 a 26 fotogramas por segundo a una resolución de 240 × 320 y hasta cinco fotogramas por segundo a una resolución de 800 × 1100.

DensePose a través de Wi-Fi: ondas de radio en lugar de fotos

Básicamente, la idea de los investigadores de Carnegie Mellon era utilizar el modelo de inteligencia artificial de reconocimiento corporal de alto rendimiento existente, DensePose, pero alimentarlo con señales de Wi-Fi en lugar de fotografías.

Para su experimento, construyeron la siguiente configuración:

  • Dos soportes con enrutadores domésticos estándar de TP-Link, cada uno equipado con tres antenas: una servía como transmisor y la otra como receptor.
  • La escena de reconocimiento colocada entre estos soportes.
  • Una cámara montada en un soporte junto al enrutador del receptor, capturando la misma escena que los investigadores intentaban reconocer mediante señales de Wi-Fi.
DensePose a través de Wi-Fi: principios generales del método

Diagrama general del banco de pruebas para el reconocimiento de poses humanas mediante Wi-Fi. Fuente

Luego ejecutaron DensePose, que había identificado las posiciones del cuerpo usando la cámara instalada junto al enrutador receptor, y le indicaron que formara otra red neuronal que funcionara con la señal de Wi-Fi del enrutador receptor. Esta señal fue preprocesada y modificada para obtener un reconocimiento más fiable, pero estos son detalles menores. El punto es que los investigadores pudieron crear un nuevo modelo Wi-Fi-DensePose que reconstruye con precisión las posiciones espaciales de los cuerpos humanos utilizando señales de Wi-Fi.

DensePose a través de Wi-Fi: escenas reconocidas con éxito

En buenas condiciones, el modelo puede reconocer muy bien las poses humanas. Fuente

Limitaciones del método

Sin embargo, no nos apresuremos a escribir titulares como “Los científicos descubren cómo ver a través de las paredes usando Wi-Fi” por el momento. En primer lugar, el “ver” aquí es bastante abstracto; el modelo en realidad no “ve” el cuerpo humano, pero puede predecir su ubicación y pose con una cierta probabilidad sobre la base de datos indirectos.

Visualizar cualquier cosa con intrincados detalles utilizando señales de Wi-Fi es un desafío complejo. Esto lo demuestra otro estudio similar en el que los investigadores experimentaron con objetos mucho más simples que los cuerpos humanos y los resultados, para decirlo amablemente, estaban lejos de ser ideales.

Visualizar objetos usando una señal de Wi-Fi

Visualizar objetos mediante una señal de Wi-Fi: cuanto menos pronunciados sean los bordes, peor será el resultado. Fuente

También es importante tener en cuenta que el modelo construido por los investigadores de la Universidad Carnegie Mellon es significativamente menos preciso que el método original de reconocer las poses en las fotografías, y también muestra “alucinaciones” bastante graves. El modelo tiene una particular dificultad con poses o escenas inusuales que involucran a más de dos personas.

DensePose a través de Wi-Fi: errores en el reconocimiento

El modelo Wi-Fi-DensePose no tiene buenos resultados al detectar poses no estándar o una gran cantidad de cuerpos humanos en una sola escena. Fuente

Además, las condiciones de prueba en el estudio se controlaron meticulosamente: una geometría sencilla y bien definida, una línea de visión clara entre el transmisor y el receptor, una interferencia mínima de la señal de radio; los investigadores configuraron todo para que pudieran “penetrar” fácilmente en la escena con ondas de radio. Es poco probable que este escenario ideal se replique en el mundo real.

Por lo tanto, si te preocupa que alguien piratee tu enrutador Wi-Fi y monitoree lo que haces en casa, relájate. Si hay algo de lo que debes preocuparte en tu hogar, es de los electrodomésticos. Por ejemplo, los comederos inteligentes para mascotas o incluso los juguetes para niños tienen cámaras, micrófonos y conectividad en la nube, mientras que las aspiradoras robots incluso tienen lidares que funcionan perfectamente en la oscuridad, así como la capacidad de moverse.

Y, justo afuera, otro espía te está esperando, uno de cuatro ruedas. En términos de la cantidad de información que recopilan, los automóviles modernos están muy por delante de los relojes inteligentes, los parlantes inteligentes y otros dispositivos cotidianos.