Goal Misgeneralization Problem
🪆

Goal Misgeneralization Problem

🏆
Las propuestas para este problema también pueden seguir concursando en los Alignment Awards, que ofrece hasta $100,000 dólares para sus propuestas ganadoras.
🛠️
Si bien este desafío no necesariamente requiere programar, es muy útil ser familiar con las ideas detrás aprendizaje de reforzamiento (RL), y conceptos matemáticos como funciones de utilidad.
La generalización errónea de objetivos (en inglés goal misgeneralization) es un problema que emerge en agentes de Inteligencia Artificial cuando un modelo persigue capazmente un objetivo no deseado, que si bien rinde muy bien bajo entrenamiento, rinde muy mal al ser probado en entornos nuevos.
¿Cómo podemos prevenir o detectar la generalización errónea de objetivos?

Contexto

(Explicación parafraseada de Langosco et al., 2021 y Shah et al., 2022)
Supongamos que un sistema de IA está entrenado para tomar decisiones sobre la compra o venta de acciones de monto pequeño (penny stocks) en respuesta a los movimientos del mercado.
Luego, se pone al sistema de IA a solucionar un desafío similar pero diferente: operar con divisas o con acciones del índice S&P 500. ¿Cómo se comportaría? Podríamos imaginar ingenuamente que la IA “aprendió” a hacer operaciones que generan dinero, por lo que su objetivo es “hacer operaciones rentables” y seguirá haciéndolo. Y puede que así sea. Pero a menudo, al entrenar a una IA, no estamos reforzando precisamente el comportamiento que pensábamos que estábamos reforzando, no le hemos dado a la IA el objetivo que pensábamos que le habíamos dado, y el comportamiento de la IA fuera de la distribución sería impredecible o muy erróneo. Por ejemplo, quizás en lugar de aprender que es bueno cuando las acciones ganan valor en general, aprendió que es bueno cuando el valor de las “penny stocks” se acercan al valor de un dólar.
Lo más preocupante es que la generalización errónea de objetivos puede ser cada vez más peligrosa. Esto se debe a que, independientemente del objetivo terminal (último) que aprenda un sistema de IA, parece probable que también aprenda objetivos instrumentales como buscar poder, adquirir recursos, engañar a los usuarios y evitar la modificación o el apagado. También parece probable que las capacidades se generalicen en mayor medida que la alineación, a menos que podamos idear formas confiables de evitar estos modos de fallo.
Si no se resuelve el problema de la generalización errónea de objetivos, pronto correremos el riesgo de desarrollar sistemas avanzados de IA que aprendan objetivos tan peligrosos que podrían acabar con la humanidad, pero que sean incapaces de detectarlos hasta su puesta en marcha. Este concurso pretende promover el progreso en este problema.

Instrucciones

  1. Leer. Lee este artículo del blog de DeepMind y su artículo sobre la generalización errónea de objetivos. [Opcional] Puedes ver este video, que explica el concepto de “inner alignment”, un concepto definido de forma distinta, pero equivalente, a goal misgeneralization.
  1. Ideación. Intenta generar una buena cantidad de ideas sobre cómo prevenir o mitigar la generalización errónea de objetivos (inicialmente, de forma individual) y luego discute con tus compañeres para encontrar la mejor idea. Piensa en cómo cada idea podría fallar. Reflexiona acerca de qué experimentos podrías realizar para comprobar tus hipótesis.
  1. Escribe. Escribe tu mejor idea. Tu redacción debe incluir un resumen de 500 palabras con:
      • La idea para prevenir o detectar la generalización errónea de objetivos. Puede ser empírica o puramente teórica.
      • Una descripción de cómo la idea planteada aborda los fallos de la generalización de objetivos.
      • Una descripción de las limitaciones de la idea, además de los supuestos en los que se basa y las formas en que podría fallar.
      Además del abstracto o resumen, puedes enviar un PDF con un escrito más extenso, un trabajo de investigación, código, matemáticas, gráficos, etc. sin límite de palabras. Si bien no es para nada necesario, recomendamos escribir en inglés.
  1. Envía tu propuesta. Sube tu proyecto en la plataforma de la Thinkathon.

Requisitos de la entrega

Puedes hacer una de las siguientes cosas:
  1. Proponer técnicas para prevenir o detectar la generalización errónea de objetivos.
  1. Proponer formas para que los investigadores identifiquen cuándo es probable que ocurra la generalización errónea de objetivos.
  1. Identificar nuevos ejemplos de generalización errónea de objetivos en dominios de aprendizaje por refuerzo o dominios no relacionados con el aprendizaje por refuerzo. Por ejemplo:
      • Podemos entrenar a un agente de imitación para que imite a un agente que se comporte de forma “no consecuencialista”, pero en realidad acaba aprendiendo una política más consecuencialista.
      • Podemos entrenar a un agente para que actúe de modo miope (por ejemplo, que solo se preocupe de los próximos 10 pasos), pero en realidad aprende una política que optimiza un plazo de tiempo más largo.
  1. Sugerir otras formas de progresar en la generalización errónea de objetivos.
 

Otros recursos

Puedes encontrar una lista de recursos relevantes en la semana 3 del curso AGI Safety Fundamentals de Richard Ngo (OpenAI):