El Próximo Gran Avance en la Infraestructura de Modelos de Lenguaje: LLMs Auto-Mejorados Basados en el Comportamiento del Usuario

By David
diciembre 17, 2024
No hay comentarios

Post Personalizado en Español:

En este artículo, argumento que cada solicitud de usuario debe considerarse como una retroalimentación crucial para tus modelos de lenguaje. No construir una canalización de evaluación basada en la retroalimentación de los usuarios es una oportunidad crítica que se está dejando pasar para mejorar tus productos basados en LLM.

Tras el auge de la evaluación de LLM, compartiré brevemente algunas ideas que estamos viendo de nuestros clientes. Me baso en el excelente marco sugerido por Mike Knoop de Zapier, que he encontrado consistente con lo que estamos observando nosotros mismos.

Marco para construir productos basados en LLM
Después de trabajar extensamente con empresas globales y startups de IA en productos LLM, he encontrado que el marco propuesto por Mike Knoop (enlace) trae consistentemente los mejores resultados.
El marco para construir, lanzar y mejorar continuamente los productos basados en LLM:

Comienza con los modelos más potentes, en el momento de escribir esto, y probablemente por un tiempo, OpenAI GPT-4, 5, 6, etc.
Construye y lanza tu v1 basado en “vibras” – deja que tu equipo revise las salidas del modelo, NO TE PREOCUPES POR UNA EVALUACIÓN FORMAL AÚN. Conseguir usuarios reales rápidamente es lo que realmente importa.
Recoge toda la retroalimentación – tanto explícita (👍/👎 o ⭐) como implícita (mensajes de seguimiento, solicitudes de respuestas mejoradas del modelo y mucho más).
Conéctate con la realidad – Si tienes suerte, los usuarios te darán retroalimentación negativa. Desafortunadamente, solo alrededor del 1% de los usuarios dejan comentarios explícitos. Aquí es donde entra la retroalimentación implícita.
Crea una evaluación interna integrando los conjuntos de datos explícitos e implícitos calificados por los usuarios – Este paso crucial cambia el enfoque de usar únicamente conjuntos de datos basados en LLM a incorporar la retroalimentación real de los usuarios.
Itera y mejora la calidad – En el software tradicional (debido a su naturaleza determinista), pruebas la calidad con ~5 usuarios, y si funciona, puedes estar seguro de que también lo hará con 1000 usuarios. Con los LLMs, la única manera de evaluar la calidad a 10, 100, 1000 o 1M de usuarios es medir en esos niveles.
Monitorea y optimiza el costo, la latencia junto con la precisión del usuario y la calidad.

Este marco paso a paso resalta que el paso “3. Recoger toda la retroalimentación de los usuarios” es la condición sine qua non para mejorar continuamente las respuestas de tus LLM.

¿Cómo recoger la retroalimentación de los usuarios y adoptar un enfoque centrado en el usuario para mejorar tus respuestas LLM?
El objetivo es recoger la mayor cantidad de retroalimentación posible de los usuarios, para poder incorporarla a una plataforma de evaluación y mejorar las salidas de tu LLM. Dado que las tasas de retroalimentación explícita son muy bajas (<1%), debemos aprovechar la retroalimentación implícita. Afortunadamente, una gran parte de las solicitudes de los usuarios contiene señales implícitas que podemos usar.

Conjunto de datos calificados explícitamente por el usuario
Por retroalimentación explícita del usuario, nos referimos a instancias en las que un usuario da una calificación positiva o negativa, llena un formulario o califica una interacción con el asistente.

La retroalimentación explícita generalmente se da para interacciones individuales. Por lo tanto, un conjunto de datos calificado explícitamente por los usuarios usualmente incluye detalles básicos de la interacción, como la entrada del usuario, la respuesta del asistente y una calificación directa, como +1/-1 o una puntuación de 1 a 5.

Es raro que los usuarios dejen retroalimentación explícita, lo que dificulta confiar únicamente en estos datos para evaluar tus LLM.

Conjunto de datos calificados implícitamente por el usuario
Por otro lado, aspectos como el tono de voz, los mensajes de seguimiento, el tiempo de respuesta, la longitud del mensaje, el análisis de abandono e incluso comportamientos como copiar/pegar y modificar las respuestas del asistente, así como las afirmaciones o acuerdos verbales, proporcionan señales implícitas. Cuando se interpretan correctamente, estas señales sirven como retroalimentación invaluable de los usuarios. Esta retroalimentación implícita es mucho más abundante que la explícita y resulta ser un recurso confiable para evaluar los LLM.

Pasos para compilar un conjunto de datos calificados implícitamente por el usuario:

Un método para extraer retroalimentación implícita y categorizar cada interacción en tres resultados (el número de categorías puede variar según el caso de uso).
- Retroalimentación negativa implícita (usuario frustrado)
- Retroalimentación positiva implícita (usuario satisfecho)
- Resultado neutral (cuando no se muestra retroalimentación explícita ni implícita)
Un método para agrupar interacciones según la intención del usuario. Es importante tener en cuenta que agrupar por solicitud de usuario no es eficaz, ya que la versatilidad del lenguaje humano significa que a menudo expresamos el mismo pensamiento de muchas maneras diferentes.
Una técnica opcional para agrupar las intenciones de los usuarios según características comunes.

Conclusión
La retroalimentación de los usuarios debe guiar el desarrollo de productos LLM, en lugar de que los propios LLM se evalúen a sí mismos. Puedes construir conjuntos de datos calificados por el usuario con retroalimentación tanto explícita como implícita; la retroalimentación explícita tiende a ser rara (<1% de los usuarios), pero la retroalimentación implícita es abundante, aunque difícil de aprovechar. De hecho, construir conjuntos de datos calificados implícitamente por el usuario manualmente es difícil y requiere muchas horas de trabajo manual, lo que generalmente resulta en calidad subóptima. Plataformas como Nebuly automatizan este proceso extrayendo retroalimentación y creando conjuntos de datos completos para plataformas de evaluación como Langsmith y Braintrust. Esto permite que tu equipo de desarrollo mejore tus modelos basándose en lo que realmente importa: tus usuarios.