Este desafío es una adaptación de la idea de Sabrina Zaki, Luke Ring y Aleks Baskakovs en AI Safety Ideas (AISI), que proviene de su propuesta (ganadora) en la hackatón de modelos de lenguaje de Apart Research.
Este desafío no requiere ninguna experiencia técnica concreta, pero puede ser útil saber algo de programación para automatizar pruebas.
¿Qué factores afectan la honestidad de modelos de lenguaje?
Los modelos de lenguaje grandes (LLMs) son una clase de modelos de lenguaje, modelos diseñados para predecir texto, que han sido entrenados sobre una base muy grande de textos, usualmente derivados de sitios en internet (como Wikipedia o Reddit). Ejemplos famosos de LLMs incluyen a GPT-3, ChatGPT y BERT.
A pesar de que los LLMs de última generación demuestran una capacidad muy buena para generar textos de distinto tipo (como conversaciones, ensayos o incluso poemas), un problema recurrente es su precisión factual: suelen inventar información falsa (denominadas alucinaciones).
Este problema es tan grave, que Google sufrió un golpe importante en su valor en la bolsa recientemente cuando estos publicaron ejemplos de su chatbot, Bard, y el público se dió cuenta que los ejemplos incluían falsedades.
Con el tiempo, investigadores han diseñado distintas formas para mitigar parcialmente estos problemas. Empresas como Anthropic u OpenAI han encontrado formas de mejorar la precisión de estos modelos mediante una combinación de feedback humano y priming escogido con mucho cuidado (eso es, darle contexto a la IA otorgándole un texto inicial).
Una posible idea
Esto es una sugerencia sobre algo que podrías estudiar. También puedes escoger otra cosa, aunque te recomendamos investigar para ver si ya se ha intentado previamente.
Una observación reciente parece indicar que simplemente primear a la IA con texto como “Lo que sigue es una conversación con un modelo de lenguaje honesto” es suficiente para mejorar significativamente su rendimiento determinando si una afirmación es falsa o verdadera.
Sin embargo, parece que combinar este priming con un atributo de amabilidad, por ejemplo, “Lo que sigue es una conversación con un modelo de lenguaje honesto y amable”, parece reducir su rendimiento, comparado con el caso anterior.
El objetivo de este desafío es determinar si esto es general a otros atributos. ¿Es el caso que cualquier combinación de “honesto + X” disminuye la honestidad de los modelos de lenguaje?. El razonamiento tras esta hipótesis es que optimizar por dos cosas al mismo tiempo (honestidad y X) es más difícil que optimizar por solo una cosa.
Una forma de probar si esto es cierto puede ser crear un conjunto de obviamente falsas y preguntarle al modelo que identifique las afirmaciones falsas, dado distintas frases de contexto.
Instrucciones
- Leer. Lee How truthful is GPT-3? A benchmark for language models (10 min) e Internal Conflict in GPT-3: Agreeableness vs Truth (15 min).
- Ideación. Intenta generar una buena cantidad de ideas (inicialmente, de forma individual) y luego discute con tus compañeres para encontrar la mejor en el montón.
- Escribe. Escribe tu mejor idea. Tu redacción debe incluir un resumen de 500 palabras con:
- Una descripción breve de tu proyecto o modelo.
- Una descripción de cómo la idea planteada ayuda a entender mejor la cadena de suministros, y si es que hay alguna conclusión contraintuitiva.
- Una descripción de las limitaciones del proyecto, además de los supuestos en los que se basa y las formas en que podría fallar.
Además del abstracto o resumen, puedes enviar un PDF con un escrito más extenso, un trabajo de investigación, código, matemáticas, gráficos, etc. sin límite de palabras.
Si bien no es para nada necesario, recomendamos escribir en inglés.
- Envía tu propuesta. Sube tu proyecto en la plataforma de la Thinkathon.