Introducción
En este artículo, sostengo que cada prompt de usuario debería considerarse como una retroalimentación crucial para tus modelos de lenguaje (LLM). No construir un pipeline de evaluación basado en la retroalimentación de los usuarios es una oportunidad crítica perdida para mejorar los productos impulsados por LLM. A raíz del revuelo generado por la evaluación de LLM, compartiré algunas ideas que estamos viendo con nuestros clientes, basándome en el excelente marco propuesto por Mike Knoop de Zapier, el cual he encontrado consistente con lo que estamos observando.
Marco para la Construcción de Productos Basados en LLM
Después de trabajar extensamente con empresas Global 2000 y startups de IA en productos LLM, encuentro que el marco descrito por Mike Knoop (enlace) constantemente genera los mejores resultados. A continuación, el marco para construir, lanzar y mejorar continuamente productos basados en LLM:
- Comienza con los modelos más performantes: En el momento de escribir esto y probablemente durante un tiempo, OpenAI gpt-4, 5, 6, etc. serán los más adecuados.
- Lanza tu versión inicial: Deja que tu equipo verifique las salidas del modelo, NO TE PREOCUPES POR UNA EVALUACIÓN FORMAL AÚN. Lo que realmente importa es obtener usuarios reales rápidamente.
- Recoge todo tipo de retroalimentación: Tanto explícita (👍/👎 o ⭐) como implícita (mensajes de seguimiento, solicitudes de mejorar las respuestas del modelo, y mucho más).
- Contacta con la realidad: Si tienes suerte, los usuarios te darán retroalimentación negativa. Desafortunadamente, solo alrededor del 1% de los usuarios dan retroalimentación explícita. Aquí es donde entra en juego la retroalimentación implícita.
- Construye una evaluación interna integrando conjuntos de datos calificados explícita e implícitamente por los usuarios: Este paso crucial cambia el enfoque de utilizar solo conjuntos de datos basados en LLM a incorporar la retroalimentación real de los usuarios.
- Itera y mejora la calidad: En el software tradicional, puedes probar la calidad con unos 5 usuarios y si funciona, puedes estar seguro de que también funcionará con 1000. Con los LLM, la única manera de evaluar la calidad a 10, 100, 1000 o 1 millón de usuarios es medirlo a esos niveles.
- Monitorea y optimiza costos, latencia, precisión y calidad de los usuarios.
Este marco resalta que el paso “3. Recoge todo tipo de retroalimentación de los usuarios” es el conditio sine qua non para mejorar continuamente las respuestas de tus LLM.
Cómo Recoger Retroalimentación de los Usuarios y Adoptar un Enfoque Centrado en el Usuario para Mejorar las Respuestas de tu LLM
El objetivo es recopilar la mayor cantidad de retroalimentación posible para poder alimentarla en una plataforma de evaluación que mejore la salida de tu LLM. Dado que las tasas de retroalimentación explícita son muy bajas (<1%), necesitamos aprovechar la retroalimentación implícita. Afortunadamente, una gran parte de los prompts de usuario contiene la retroalimentación implícita que podemos usar.
Conjunto de Datos Calificados Explícitamente por el Usuario
Por retroalimentación explícita del usuario, nos referimos a los casos en los que un usuario da directamente un pulgar hacia arriba o hacia abajo, llena un formulario o califica una interacción con el asistente.
La retroalimentación explícita del usuario se da típicamente para interacciones individuales. Por lo tanto, un conjunto de datos calificados explícitamente por los usuarios generalmente incluye detalles básicos de la interacción, como la entrada del usuario, la respuesta del asistente y una calificación directa, como +1/-1 o una puntuación de 1 a 5.
Conjunto de Datos Calificados Implícitamente por el Usuario
Por otro lado, aspectos como el tono de voz, mensajes de seguimiento, tiempo de respuesta, longitud de los mensajes, análisis de abandono e incluso comportamientos como copiar/pegar y modificar las respuestas del asistente, así como afirmaciones verbales de acuerdo o agradecimiento, proporcionan señales implícitas. Cuando se interpretan correctamente, estas sirven como retroalimentación valiosa. Esta retroalimentación implícita es mucho más abundante que la explícita y demuestra ser un recurso confiable para evaluar LLM. La plataforma Nebuly puede descubrir retroalimentación implícita valiosa de más del 30% de las interacciones.
Para compilar un conjunto de datos calificados implícitamente por el usuario, generalmente se necesitan tres pasos:
- Un método para extraer retroalimentación implícita y categorizar cada interacción en tres resultados (el número de categorías puede variar según el caso de uso):
- Retroalimentación implícita negativa (usuario frustrado): Ejemplos comunes incluyen personas que piden mejorar la respuesta del LLM, pegar la respuesta anterior en el siguiente prompt, usuarios que se quejan de que un resultado es incorrecto, etc.
- Retroalimentación implícita positiva (usuario feliz): Aquí puedes complementar la retroalimentación explícita positiva con comportamientos implícitos como copiar la respuesta y no pegarla para modificarla, o apreciaciones verbales como “gracias”.
- Resultado neutral: Situaciones donde los usuarios no muestran ningún tipo de retroalimentación, ni implícita ni explícita.
- Un método para agrupar interacciones basadas en la intención del usuario. Es importante no agrupar solo por el prompt del usuario, ya que la versatilidad del lenguaje humano hace que a menudo expresemos el mismo pensamiento de muchas maneras diferentes.
Conjunto de Datos Calificados por LLM
Este es probablemente la fuente más obvia de datos, ya que se puede generar de manera sintética. Sin embargo, su calidad depende directamente del conocimiento y la calidad del modelo utilizado para las evaluaciones, no es determinista y lo más importante es que no se basa en las preferencias del usuario.
Conjunto de Datos Calificados por Expertos Internos
Una alternativa costosa a los conjuntos de datos calificados por LLM es etiquetar manualmente una gran cantidad de datos y utilizar esos datos para las evaluaciones. Esto es costoso debido a tres razones principales:
- Costos de cobertura: Etiquetar miles de interacciones manualmente tiene un costo significativo.
- Mantenimiento continuo: Cada vez que se añade nueva funcionalidad al LLM, es necesario etiquetar manualmente una gran cantidad de nuevos datos.
- Inercia del conjunto de datos: Etiquetar miles de puntos de datos significa que, si tu producto cambia, tendrás que volver a etiquetar todo desde cero.
Algunos utilizan enfoques híbridos que combinan conjuntos de datos etiquetados manualmente y generados por LLM, lo que permite escalar el proceso de etiquetado.
Integración de los Conjuntos de Datos Calificados por el Usuario en tu Pipeline de Evaluación
Cuando evaluamos un modelo, el objetivo es puntuar el rendimiento del LLM para compararlo con versiones anteriores del sistema, utilizando la entrada del usuario como base para la evaluación.
El proceso para usar conjuntos de datos calificados explícita e implícitamente por los usuarios en un pipeline de evaluación es el siguiente:
- Fusiona los conjuntos de datos explícitos e implícitos: Esto resultará en interacciones agrupadas por la intención del usuario.
- Evalúa en función de la intención del usuario: Para pruebas de alineación y evaluación de hechos, puedes muestrear y comparar las respuestas generadas con las respuestas existentes, asignándoles categorías positivas, neutrales o negativas.
Conclusión
Construir productos LLM auto-mejorables basados en retroalimentación del usuario es clave para el éxito a largo plazo. Al integrar tanto retroalimentación explícita como implícita, las empresas pueden optimizar continuamente la calidad, precisión y la experiencia general del usuario.