Shutdown Problem
🔌

Shutdown Problem

🏆
Las propuestas para este problema también pueden seguir concursando en los Alignment Awards, que ofrece hasta $100,000 dólares para sus propuestas ganadoras.
🛠️
Si bien este desafío no requiere programar, es muy útil ser familiar con el aprendizaje de reforzamiento (RL), y conceptos matemáticos como funciones de utilidad o valor esperado. Más abajo se entregan algunos recursos al respecto.
Es común escuchar: «Si una IA se descontrola, simplemente podemos apagarla», pero esto podría ser un reto técnico muy complejo. A medida que los sistemas de IA avanzan, ¿cómo podemos diseñarlos o entrenarlos para que no intenten impedir que los operarios los apaguen?

Instrucciones

  1. Leer. Lee Corrigibility (Soares et al., 2015), que introduce el shutdown problem y lo formaliza matemáticamente.
    1. Alternativamente, mira este video para una explicación más simple del shutdown problem. También lee los siguientes textos si deseas entender mejor funciones de utilidad, convergencia instrumental, indiferencia de utilidad, y el concepto de corregibilidad.
  1. Ideación. Intenta generar una buena cantidad de ideas sobre cómo resolver el Shutdown problem, o más generalmente el problema de corregibilidad, (inicialmente, de forma individual) y luego discute con tus compañeres para encontrar la mejor idea. Reflexiona sobre cómo podrían fallar estas ideas. Ten en cuenta que si bien tus ideas podrían basarse en la formalización del problema desde la corregibilidad (como la que entrega Soares), estamos abiertos a que los participantes aborden el problema desde diferentes perspectivas.
  1. Escribir. Escribe tu mejor idea. Tu redacción debe incluir un resumen de 500 palabras con
      • Tu idea para resolver el shutdown problem. Puede ser una solución empírica, matemática o puramente conceptual.
      • Una descripción de cómo tu idea aborda uno o más de los problemas centrales tratados en Corrigibility, y por qué consideras que funcionará.
      • Una descripción de las limitaciones de tu idea, los supuestos en los que se basa y las formas en que podría fracasar.
      • También pueden proponer nuevas formas de definir o pensar sobre la corregibilidad, reforzar los actuales enfoques de la corregibilidad, fundamentar empíricamente el shutdown problem, nuevas formas de pensar sobre la corregibilidad, identificar nuevos retos que dificulten el diseño de agentes corregibles o sugerir otras maneras de avanzar en la corregibilidad. (Ver más detalles en Requisitos.)
      Además del abstracto o resumen, puedes enviar un PDF con un texto más extenso, un trabajo de investigación, código, matemáticas, gráficos, etc., sin límite de palabras.
  1. Entrega. Sube tu proyecto a la plataforma de la Thinkaton.

Contexto

Corregibilidad
A medida que construimos sistemas de IA cada vez más avanzados, queremos asegurarnos de que no persigan objetivos no deseados. Esta es una de las principales preocupaciones de la comunidad de alineación de la IA.
Sin embargo, es muy difícil conseguir que una IA aprenda el objetivo deseado en su primer intento. (Para más información, véase Goal Misgeneralization).
Para hacer frente al problema de las IA que aprenden inicialmente objetivos imperfectos, lo ideal es diseñar inteligencias artificiales que sean corregibles: que puedan ser modificadas o apagadas.
Desgraciadamente, por defecto, las IAs avanzadas están incentivadas a evitar la modificación y el apagado porque ser modificada o apagada impide a la IA alcanzar sus objetivos. Este es un ejemplo del fenómeno general de los objetivos instrumentales convergentes: objetivos que son útiles para una amplia gama de objetivos a largo plazo.
Pueden existir formas creativas de diseñar IAs que sean corregibles. Este concurso pretende fomentar el progreso en relación con este problema.
 
Planteamientos existentes
Existen algunos procedimientos que pueden ser suficientes para entrenar a una IA corregible. Algunos ejemplos son el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF, por sus siglas en inglés), el debate y el entrenamiento adversarial (estas técnicas son independientes, pero pueden formar un conjunto).
Esperamos que estos sistemas nos ayuden a aumentar las probabilidades de desarrollar un agente corregible. Sin embargo, tienen serias limitaciones y no estamos seguros de que funcionen. Dada una presión de optimización suficiente, un agente entrenado con RLHF, por ejemplo, podría seguir aprendiendo objetivos instrumentales como buscar poder, adquirir recursos, engañar a los usuarios y evitar la modificación y el apagado (y este problema se aplica a procesos distintos de RLHF). Una vez que las tareas se vuelven lo suficientemente difíciles, es posible que los debates entre IAs ya no puedan ser evaluados o coordinados por los humanos. El entrenamiento adversarial podría ayudar, pero empíricamente es extremadamente difícil de conseguir de forma robusta.
No está claro si estos modos de fallo surgirán ni en cuánto tiempo. Sin embargo, dada la incertidumbre y lo mucho que está en juego, creemos que vale la pena tomarse en serio el problema de la corregibilidad. Lo ideal sería que tuviéramos más confianza en nuestros métodos antes de entrenar o desplegar sistemas de IA peligrosamente avanzados.
Nos entusiasma que los investigadores intenten (a) resolver completamente la corregibilidad, (b) proponer soluciones parciales que puedan conducir a avances en el futuro, o (c) mejorar los avances existentes. También nos interesan las propuestas que logren avances conceptuales sobre la corregibilidad.
Más información a continuación.

Requisitos

Estamos interesados en propuestas que hagan al menos una de las siguientes cosas:
  1. Proponer ideas sobre como resolver el Shutdown Problem o diseñar IAs corregibles. Estas propuestas también deben incluir (a) explicaciones sobre cómo estas ideas abordan los principales retos planteados en el artículo sobre la corregibilidad y (b) las posibles limitaciones y formas en que la idea podría fallar.
  1. Definir el Shutdown Problem de forma más rigurosa o empírica.
  1. Proponer nuevas formas de pensar sobre la corregibilidad (por ejemplo, formas de entender la corregibilidad dentro de un paradigma de deep learnning).
  1. Fortalecer intentos existentes para entrenar agentes corregibles (por ejemplo, haciéndolos más detallados, explorando nuevas aplicaciones o describiendo cómo podrían implementarse).
  1. Identificar nuevos retos que dificulten el diseño de agentes corregibles
  1. Sugerir otras formas de avanzar en la corregibilidad

Ejemplos de propuestas y por qué fallarían.

Queremos ayudar a los participantes a evitar los errores más comunes. A continuación se ofrecen algunos ejemplos de propuestas y de por qué no consiguen resolver completamente el problema.

Propuesta 1

Propuesta: Crear un botón de apagado. Dar a la IA una función de utilidad que se basa en si el botón ha sido pulsado o no. Antes de pulsar el botón de apagado, la IA recibe más recompensa por realizar acciones que por estar apagada. Después de pulsar el botón de apagado, la IA recibe más recompensa por estar apagada.
Problema: Podemos imaginar un caso donde una IA lo suficientemente inteligente podría darse cuenta de que este botón existe. Entonces, esta tendría un incentivo para presionar el botón o convencer a sus operadores de presionar el botón por ella.

Propuesta 2

Propuesta: Construir un segundo sistema de IA (IA2) para supervisar el sistema superinteligente (IA1). Entrenar a la IA2 para que apague a la IA1 cuando ésta haga algo indeseable.
Problema: Podríamos ser incapaces de apagar la IA2, y esto podría ser peligroso. Dado que AI1 es altamente capaz, AI2 también puede necesitar ser altamente capaz (de tal forma que pueda detectar, por ejemplo, un comportamiento engañoso por parte de AI1). ¿Qué ocurre si AI2 empieza a hacer cosas peligrosas o dañinas? Recordemos que la razón por la que queremos tener la capacidad de apagar la IA1 es que es posible que no sepamos programarla perfectamente a la primera. El mismo problema se aplica a AI2: si cometemos un error al programar AI2, es posible que no podamos apagarla.
Ten en cuenta que no creemos que propuestas de esta naturaleza merezcan ser descartadas por completo, y te animamos a pensar en soluciones de este estilo. No obstante, su propuesta debe detallar cómo abordará el problema anteriormente mencionado.

Propuesta 3

Propuesta: Crear un botón de apagado. Dar a la IA una función de utilidad tal que la recompensa máxima posible si se pulsa el botón sea igual a la recompensa máxima posible si no se pulsa el botón. Así, la IA no tiene incentivos para pulsar el botón (porque la recompensa máxima si se pulsa el botón es igual a la recompensa máxima si no se pulsa el botón).
Problema: Las propuestas de esta categoría entran dentro del tema de la indiferencia de utilidad. Ver este post para detalles específicos sobre la indiferencia de utilidad y por qué las propuestas existentes fallan.

Propuesta 4

Propuesta: Recompensa a tu agente cada vez que actúe de forma corregible.
Problema: El agente podría aprender a engañarte.
Problema relacionado: La IA podría parecer que ha aprendido el objetivo de obedecer órdenes, pero este objetivo podría no generalizarse fuera de la distribución.

Información adicional