Se necesita mucha energía para que las máquinas aprendan: he aquí por qué la IA tiene tanta hambre de energía
Este mes, Google expulsó a una destacada investigadora de ética de la IA después de que expresara su frustración con la empresa por obligarla a retirar un trabajo de investigación. El documento señaló los riesgos de la inteligencia artificial de procesamiento de lenguaje, el tipo utilizado en la Búsqueda de Google y otros productos de análisis de texto.
Entre los riesgos está la gran huella de carbono de desarrollar este tipo de tecnología de IA. Según algunas estimaciones, entrenar un modelo de IA genera tantas emisiones de carbono como las que se necesitan para construir y conducir cinco automóviles durante su vida útil.
Soy un investigador que estudia y desarrolla modelos de IA, y estoy muy familiarizado con los costos energéticos y financieros vertiginosos de la investigación de IA. ¿Por qué los modelos de IA se han vuelto tan hambrientos de energía y en qué se diferencian de la computación tradicional del centro de datos?
El entrenamiento de hoy es ineficiente
Los trabajos tradicionales de procesamiento de datos que se realizan en los centros de datos incluyen transmisión de video, correo electrónico y redes sociales. La IA es más intensiva desde el punto de vista computacional porque necesita leer una gran cantidad de datos hasta que aprende a comprenderlos, es decir, está entrenada.
Este entrenamiento es muy ineficiente en comparación con la forma en que las personas aprenden. La IA moderna utiliza redes neuronales artificiales, que son cálculos matemáticos que imitan las neuronas del cerebro humano. La fuerza de conexión de cada neurona con su vecina es un parámetro de la red llamado peso. Para aprender a comprender el lenguaje, la red comienza con pesos aleatorios y los ajusta hasta que la salida concuerda con la respuesta correcta.
Una forma común de entrenar una red de idiomas es alimentarla con mucho texto de sitios web como Wikipedia y medios de comunicación con algunas de las palabras enmascaradas y pedirle que adivine las palabras enmascaradas. Un ejemplo es «mi perro es lindo», con la palabra «lindo» enmascarada. Inicialmente, el modelo los interpreta a todos mal, pero, después de muchas rondas de ajuste, los pesos de conexión comienzan a cambiar y recogen patrones en los datos. La red eventualmente se vuelve precisa.
Un modelo reciente llamado Representaciones de codificador bidireccional de transformadores (BERT) utilizó 3300 millones de palabras de libros en inglés y artículos de Wikipedia. Además, durante el entrenamiento, BERT leyó este conjunto de datos no una vez, sino 40 veces. Para comparar, un niño promedio que aprende a hablar puede escuchar 45 millones de palabras a los cinco años, 3000 veces menos que BERT.
Buscando la estructura adecuada
Lo que hace que los modelos de lenguaje sean aún más costosos de construir es que este proceso de entrenamiento ocurre muchas veces durante el curso del desarrollo. Esto se debe a que los investigadores quieren encontrar la mejor estructura para la red: cuántas neuronas, cuántas conexiones entre neuronas, qué tan rápido deben cambiar los parámetros durante el aprendizaje, etc. Cuantas más combinaciones intenten, mayores serán las posibilidades de que la red logre una alta precisión. Los cerebros humanos, por el contrario, no necesitan encontrar una estructura óptima: vienen con una estructura preconstruida que ha sido perfeccionada por la evolución.
A medida que las empresas y los académicos compiten en el espacio de la IA, existe la presión de mejorar el estado del arte. Incluso lograr una mejora del 1 % en la precisión de tareas difíciles como la traducción automática se considera significativo y conduce a una buena publicidad y mejores productos. Pero para obtener esa mejora del 1%, un investigador podría entrenar el modelo miles de veces, cada vez con una estructura diferente, hasta encontrar la mejor.
Investigadores de la Universidad de Massachusetts Amherst estimaron el costo energético del desarrollo de modelos de lenguaje de IA midiendo el consumo de energía del hardware común utilizado durante el entrenamiento. Descubrieron que entrenar BERT una vez tiene la huella de carbono de un pasajero que vuela de ida y vuelta entre Nueva York y San Francisco. Sin embargo, al buscar usando diferentes estructuras, es decir, al entrenar el algoritmo varias veces en los datos con números ligeramente diferentes de neuronas, conexiones y otros parámetros, el costo se convirtió en el equivalente a 315 pasajeros, o un avión 747 completo.
Más grande y más caliente
Los modelos de IA también son mucho más grandes de lo que deberían ser y crecen cada año. Un modelo de lenguaje más reciente similar a BERT, llamado GPT-2, tiene 1500 millones de pesos en su red. GPT-3, que causó revuelo este año debido a su alta precisión, tiene 175 mil millones de pesos.
Los investigadores descubrieron que tener redes más grandes conduce a una mayor precisión, incluso si solo una pequeña fracción de la red termina siendo útil. Algo similar sucede en el cerebro de los niños cuando primero se agregan y luego se reducen las conexiones neuronales, pero el cerebro biológico es mucho más eficiente energéticamente que las computadoras.
Los modelos de IA se entrenan en hardware especializado, como unidades de procesador de gráficos, que consumen más energía que las CPU tradicionales. Si posee una computadora portátil para juegos, probablemente tenga una de estas unidades de procesador de gráficos para crear gráficos avanzados para, por ejemplo, jugar Minecraft RTX. También puede notar que generan mucho más calor que las computadoras portátiles normales.
Todo esto significa que el desarrollo de modelos avanzados de IA se suma a una gran huella de carbono. A menos que cambiemos a fuentes de energía 100% renovables, el progreso de la IA puede estar en desacuerdo con los objetivos de reducir las emisiones de gases de efecto invernadero y frenar el cambio climático. El costo financiero del desarrollo también se está volviendo tan alto que solo unos pocos laboratorios selectos pueden permitirse el lujo de hacerlo, y serán ellos quienes establezcan la agenda para qué tipos de modelos de IA se desarrollen.
[The Conversation’s science, health and technology editors pick their favorite stories. Weekly on Wednesdays.]
Hacer más con menos
¿Qué significa esto para el futuro de la investigación en IA? Las cosas pueden no ser tan sombrías como parecen. El costo de la capacitación podría disminuir a medida que se inventen métodos de capacitación más eficientes. Del mismo modo, si bien se predijo que el uso de energía del centro de datos se dispararía en los últimos años, esto no ha sucedido debido a las mejoras en la eficiencia del centro de datos, el hardware y la refrigeración más eficientes.
También existe una compensación entre el costo de entrenar los modelos y el costo de usarlos, por lo que gastar más energía en el tiempo de entrenamiento para crear un modelo más pequeño podría hacer que su uso sea más económico. Debido a que un modelo se usará muchas veces durante su vida útil, eso puede sumar un gran ahorro de energía.
En la investigación de mi laboratorio, hemos estado buscando formas de hacer que los modelos de IA sean más pequeños compartiendo pesos o usando los mismos pesos en varias partes de la red. Llamamos a estas redes de cambiaformas porque un pequeño conjunto de pesos se puede reconfigurar en una red más grande de cualquier forma o estructura. Otros investigadores han demostrado que compartir el peso tiene un mejor rendimiento en la misma cantidad de tiempo de entrenamiento.
De cara al futuro, la comunidad de IA debería invertir más en el desarrollo de planes de formación eficientes desde el punto de vista energético. De lo contrario, se corre el riesgo de que la IA sea dominada por unos pocos elegidos que pueden permitirse establecer la agenda, incluidos los tipos de modelos que se desarrollan, los tipos de datos que se utilizan para entrenarlos y para qué se utilizan los modelos.