Publicado 10/11/2020 18:34

Portaltic.-Un algoritmo logra averiguar hasta el 80% de las palabras escritas por una persona durante una videoconferencia

Zoom
Zoom - ZOOM

   MADRID, 10 Nov. (Portaltic/EP) -

   Una técnica de análisis de la señal de imagen de las videoconferencias ha sido capaz de descubrir hasta el 80 por ciento de las palabras escritas por una persona en un ordenador solo con el análisis del movimiento de su su cuerpo y sus brazos, todo ello sin llegar a ver el teclado.

   Un estudio elaborado por la Universidad de Texas en San Antonio y la Universidad de Oklahoma (ambas de Estados Unidos) ha investigado los posibles problemas de seguridad al realizar videollamadas por plataformas como Zoom, Skype o Google Meet (antigua Hangouts).

   El análisis del movimiento del cuerpo, en especial de los brazos al escribir en un teclado Qwerty tradicional, como el de la mayoría de ordenadores, puede utilizarse para descubrir con un alto porcentaje de acierto qué es lo que la persona está escribiendo durante la llamada.

   El análisis se centra en "condiciones realistas y comunes" y tiene como objetivo principal "destacar la necesidad de sensibilización y de tomar medidas" contra los ataques que puedan producirse mediante estas técnicas, como han asegurado los autores en la investigación, publicada recientemente.

   A través del análisis del movimiento en los brazos, es posible inferir qué teclas pulsa cada persona en el teclado, incluso si estos permanecen quietos y solo se mueven los dedos, ya que estos movimientos causan pequeños cambios en la musculatura del brazo que pueden advertirse a través de la webcam.

   Para obtener esta información, los investigadores han elaborado un modelo adversario que analiza la posición de brazos y hombros del usuario y que emplea un algoritmo para detectar el momento en el que se produce cada pulsación en una tecla, a pesar de que las manos queden fuera del plano y no haya sonido.

   El estudio primero utilizó 20 participantes a los que se pidió que escribieran las 4.000 palabras más frecuentes en el idioma inglés, pero también se empleó uno más amplio de 65.000 palabras para elaborar las predicciones del algoritmo.

   Como resultado, la precisión de las inferencias del modelo al analizar videollamadas llegó a ser superior al 80 por ciento con algunos modelos de teclados y cámaras de fabricantes como Logitech y Lenovo.

   No obstante, la precisión de este ataque depende de varios factores, como la técnica de escritura de cada persona, el tipo de webcam y teclado, el ruido en la llamada, la plataforma de vídeo o incluso la ropa que lleve la persona.

   Para mitigar esta vulnerabilidad, los investigadores han propuesto algunas soluciones que dificultan el funcionamiento de técnicas de análisis como la suya, por ejemplo llevar los brazos cubiertos por las mangas de la ropa, sentarse en una silla giratoria, estar en ambientes poco iluminados, llevar los hombros cubiertos o teclear con los 10 dedos en lugar de con unos pocos.

   Además de los servicios de videoconferencias como Zoom, Skype y Google Meet, la vulnerabilidad afecta también a las plataformas de vídeo como YouTube y Twitch.