Un nuevo sistema de audio confunde a los dispositivos inteligentes que intentan espiar
Puede que los conozcas como Siri o Alexa. Apodados asistentes personales, estos dispositivos inteligentes son oyentes atentos. Di solo unas pocas palabras y reproducirán una canción favorita o te indicarán el camino a la estación de servicio más cercana. Pero todo ese escuchar plantea un riesgo de privacidad. Para ayudar a las personas a protegerse contra los dispositivos de espionaje, un nuevo sistema reproduce sonidos suaves y calculados. Esto enmascara las conversaciones para confundir a los dispositivos.
Los dispositivos inteligentes utilizan el reconocimiento de voz automatizado, o ASR, para traducir las ondas sonoras en texto, explica Mia Chiquier. Estudia informática en la Universidad de Columbia en la ciudad de Nueva York. El nuevo programa engaña al ASR al reproducir ondas de sonido que varían con su discurso. Esas ondas agregadas mezclan una señal de sonido para dificultar que el ASR detecte los sonidos de su discurso. “Confunde completamente este sistema de transcripción”, dice Chiquier.
Ella y sus colegas describen su nuevo sistema como «camuflaje de voz».
El volumen de los sonidos de enmascaramiento no es la clave. De hecho, esos sonidos son silenciosos. Chiquier los compara con el sonido de fondo de un pequeño aire acondicionado. El truco para hacerlos efectivos, dice, es hacer que estas llamadas ondas sonoras de «ataque» encajen con lo que alguien dice. Para funcionar, el sistema predice los sonidos que alguien dirá en un corto tiempo en el futuro. Luego, transmite silenciosamente sonidos elegidos para confundir la interpretación de esas palabras por parte del altavoz inteligente.
Chiquier lo describió el 25 de abril en la Conferencia Internacional virtual de Representaciones de Aprendizaje.
llegar a conocerte
Primer paso para crear un excelente camuflaje de voz: conozca al hablante.
Si envía muchos mensajes de texto, su teléfono inteligente comenzará a anticipar cuáles serán las siguientes letras o palabras en un mensaje. También se acostumbra a los tipos de mensajes que envía y las palabras que usa. El nuevo algoritmo funciona de la misma manera.
“Nuestro sistema escucha los últimos dos segundos de su discurso”, explica Chiquier. “Según ese discurso, anticipa los sonidos que podrías hacer en el futuro”. Y no solo en algún momento en el futuro, sino medio segundo después. Esa predicción se basa en las características de su voz y sus patrones de lenguaje. Estos datos ayudan al algoritmo a aprender y calcular lo que el equipo llama un ataque predictivo.
Ese ataque equivale al sonido que el sistema reproduce junto con las palabras del hablante. Y sigue cambiando con cada sonido que alguien pronuncia. Cuando el ataque sigue las palabras predichas por el algoritmo, las ondas de sonido combinadas se convierten en una mezcolanza acústica que confunde a cualquier sistema ASR al alcance del oído.
Los ataques predictivos también son difíciles de burlar para un sistema ASR, dice Chiquier. Por ejemplo, si alguien intentara interrumpir un ASR reproduciendo un solo sonido de fondo, el dispositivo podría sustraer ese ruido de los sonidos del habla. Eso es cierto incluso si el sonido de enmascaramiento cambia periódicamente con el tiempo.
En cambio, el nuevo sistema genera ondas de sonido basadas en lo que acaba de decir un orador. Por lo tanto, sus sonidos de ataque cambian constantemente, y de manera impredecible. Según Chiquier, eso hace que sea “muy difícil para [an ASR device] para defenderse.”
Ataques en acción
Para probar su algoritmo, los investigadores simularon una situación de la vida real. Reprodujeron una grabación de alguien hablando inglés en una habitación con un nivel medio de ruido de fondo. Un dispositivo ASR escuchó y transcribió lo que escuchó. Luego, el equipo repitió esta prueba después de agregar ruido blanco al fondo. Finalmente, el equipo hizo esto con su sistema de enmascaramiento de voz activado.
El algoritmo de camuflaje de voz impidió que ASR escuchara correctamente las palabras el 80 por ciento del tiempo. Las palabras comunes como «el» y «nuestro» fueron las más difíciles de enmascarar. Pero esas palabras no contienen mucha información, agregan los investigadores. Su sistema fue mucho más efectivo que el ruido blanco. Incluso se desempeñó bien contra los sistemas ASR diseñados para eliminar el ruido de fondo.
El algoritmo algún día podría integrarse en una aplicación para su uso en el mundo real, dice Chiquier. Para asegurarse de que un sistema ASR no pueda escuchar de manera confiable, «simplemente abriría la aplicación», dice ella. «Eso es todo.» El sistema podría agregarse a cualquier dispositivo que emita sonido.
Sin embargo, eso es adelantarse un poco a las cosas. Luego viene más pruebas.
Este es un «buen trabajo», dice Bhiksha Raj. Es ingeniero eléctrico e informático en la Universidad Carnegie Mellon en Pittsburgh, Pensilvania. No participó en esta investigación. Pero él también estudia cómo las personas pueden usar la tecnología para proteger su voz y su privacidad.
Los dispositivos inteligentes actualmente controlan cómo se protegen la voz y las conversaciones de un usuario, dice Raj. Pero él piensa que el control debería dejarse en manos de quien habla.
“La voz tiene tantos aspectos”, explica Raj. Las palabras son un aspecto. Pero una voz también puede contener otra información personal, como el acento, el género, la salud, el estado emocional o el tamaño físico de alguien. Las empresas podrían explotar potencialmente esas funciones dirigiéndose a los usuarios con diferentes contenidos, anuncios o precios. Incluso podrían vender información de voz a otros, dice.
Cuando se trata de voz, «es un desafío descubrir cómo podemos oscurecerla exactamente», dice Raj. “Pero necesitamos tener cierto control sobre al menos algunas partes”.