The Analytic Vantage: Benchmarking de Modelos de Lenguaje en Ingeniería de Software

Benchmarking de Modelos de Lenguaje en Ingeniería de Software

Resumen

Este análisis detalla el estudio "SWE-Lancer: Can Frontier LLMs Earn $1 Million from Real-World Freelance Software Engineering?", publicado por OpenAI el 18 de febrero de 2025. Este estudio introduce SWE-Lancer, un conjunto de pruebas que recopila más de 1.400 tareas reales de ingeniería de software freelance de la plataforma Upwork, con un valor total de $1 millón de dólares en pagos reales. Estas tareas varían desde pequeños arreglos de errores valorados en $50 hasta implementaciones de características más complejas valoradas en $32.000. El objetivo principal de SWE-Lancer es evaluar la capacidad de los modelos de lenguaje de última generación (LLMs) para abordar tareas de ingeniería de software en el mundo real. La evaluación de las tareas independientes se realiza mediante pruebas exhaustivas verificadas por ingenieros de software experimentados, mientras que las decisiones de gestión se valoran en función de las elecciones realizadas por los gerentes de ingeniería originales. Los resultados del estudio indican que, aunque los modelos actuales han avanzado significativamente, aún no pueden resolver la mayoría de las tareas presentadas en SWE-Lancer. Para fomentar futuras investigaciones, OpenAI ha puesto a disposición pública una imagen de Docker unificada y una división de evaluación pública llamada SWE-Lancer Diamond, accesible en su repositorio de GitHub.

Resultados

Modelo	Éxito en IC SWE	Éxito en SWE Management	Ganancias simuladas
Claude 3.5 Sonnet	26.2%	44.9%	$208,050
GPT-4o	22.8%	41.3%	$189,750

Conclusiones

Los resultados indican que Claude 3.5 Sonnet obtuvo el mejor desempeño en este benchmark. Específicamente, Claude 3.5 Sonnet logró una tasa de éxito del 26,2% en tareas de contribución individual (IC SWE) y del 44,9% en tareas de gestión de ingeniería de software (SWE Management), acumulando un total de $208.050 de los $500.800 posibles en el conjunto de evaluación SWE-Lancer Diamond. La combinación de modelos avanzados con herramientas de verificación automática y supervisión humana sigue siendo esencial para garantizar resultados óptimos.

The Analytic Vantage

lunes, 24 de febrero de 2025

Benchmarking de Modelos de Lenguaje en Ingeniería de Software

Benchmarking de Modelos de Lenguaje en Ingeniería de Software

Resumen

Resultados

Conclusiones

No hay comentarios:

Publicar un comentario

People Analytics: qué es, qué no es, y por qué ya no puedes ignorarlo