Gemini 2.5 Pro de Google, Destrona a Claude y Lidera Rankings de Codificación

By: decrypt|2025/05/10 00:15:08
0
Compartir
copy
Gemini 2.5 Pro de Google, Destrona a Claude y Lidera Rankings de Codificación El "modelo de pensamiento" del gigante tecnológico supera a sus rivales en pruebas complejas y ahora está disponible para todos los usuarios de forma gratuita. En Resumen Gemini 2.5 Pro superó a Claude en WebDev Arena, liderando en codificación y otras categorías clave. Obtuvo una puntuación de IQ de 115 y venció a sus rivales en benchmarks como AIME 2025, GPQA y HLE. El modelo procesó hasta 30.000 líneas de código y generó soluciones superiores en pruebas prácticas de desarrollo. Decrypt’s Art, Fashion, and Entertainment Hub. Gemini 2.5 Pro, lanzado recientemente por Google, ha alcanzado el primer puesto en los rankings de codificación, superando a Claude en el famoso WebDev Arena —un sitio de clasificación neutral similar al LLM arena , pero enfocado específicamente en medir qué tan buenos son los modelos de IA en codificación. Este logro llega en medio del esfuerzo de Google por posicionar su modelo insignia de IA como líder tanto en tareas de codificación como de razonamiento. Lanzado a principios de este año, Gemini 2.5 Pro ocupa el primer lugar en varias categorías, incluyendo codificación, control de estilo y escritura creativa. La enorme ventana de contexto del modelo—un millón de tokens que se expandirá a dos millones próximamente—le permite manejar bases de código grandes y proyectos complejos que sofocarían incluso a los competidores más cercanos. Para referencia, modelos potentes como ChatGPT y Claude 3.7 Sonnet solo pueden manejar hasta 128K tokens. Gemini también tiene el "IQ" más alto de todos los modelos de IA. TrackingAI lo sometió a pruebas formales de MENSA , utilizando preguntas verbalizadas de Mensa Noruega para crear una forma estandarizada de comparar modelos de IA. Gemini 2.5 Pro obtuvo puntuaciones más altas que sus competidores en estas pruebas, incluso cuando se utilizaron preguntas personalizadas no disponibles públicamente en los datos de entrenamiento. Con una puntuación de IQ de 115 en pruebas offline, el nuevo Gemini se ubica entre las "mentes brillantes", con la inteligencia humana promedio puntuando alrededor de 85 a 114 puntos. Pero la noción de que una IA tenga IQ necesita aclaración. Los sistemas de IA no tienen cocientes de inteligencia como los humanos, por lo que es mejor pensar en el punto de referencia como una metáfora para el rendimiento en pruebas de razonamiento. Para benchmarks diseñados específicamente para IA, Gemini 2.5 Pro obtuvo 86,7% en la prueba matemática AIME 2025 y 84,0% en la evaluación científica GPQA. En Humanity's Last Exam (HLE), un benchmark más nuevo y difícil creado para evitar problemas de saturación de pruebas, Gemini 2.5 obtuvo 18,8%, superando al o3 mini de OpenAI (14%) y a Claude 3.7 Sonnet (8,9%), lo cual es notable en términos de mejora de rendimiento. La nueva versión de Gemini 2.5 Pro ahora está disponible gratuitamente (con límites de frecuencia) para todos los usuarios de Gemini. Google describió previamente este lanzamiento como una "versión experimental de 2.5 Pro", parte de su familia de "modelos pensantes" diseñados para razonar las respuestas en lugar de simplemente generar texto. A pesar de no ganar en todos los benchmarks, Gemini ha captado la atención de los desarrolladores con su versatilidad. El modelo puede crear aplicaciones complejas a partir de un solo prompt, construyendo aplicaciones web interactivas, juegos de carrera infinita y simulaciones visuales sin requerir instrucciones detalladas. Probamos el modelo pidiéndole que arreglara un código HTML5 roto. Generó casi 1.000 líneas de código, proporcionando resultados que superaron a Claude 3.7 Sonnet—el líder anterior—en términos de calidad y comprensión del conjunto completo de instrucciones. El costo de entrada de Gemini 2.5 Pro es de $2,50 por millón de tokens y el costo de salida es de $15,00 por millón de tokens, posicionándolo como una alternativa más económica frente a algunos competidores mientras sigue ofreciendo capacidades impresionantes. El modelo de IA maneja hasta 30.000 líneas de código en su plan Advanced, haciéndolo adecuado para proyectos a nivel empresarial. Sus capacidades multimodales—trabajando con texto, código, audio , imágenes y video —añaden una flexibilidad que otros modelos enfocados en codificación no pueden igualar. Generally Intelligent Newsletter

También te puede interesar

Una caída de más del 97% continúa desbloqueándose, sin embargo, WLD ha completado $65 millones en financiamiento extrabursátil: ¿quién sigue pagando la cuenta?

En el actual entorno de mercado bajista, es bastante raro completar transacciones de tokens por decenas de millones de dólares.

Desglose de la Valoración de PUMP: Los datos en cadena desmienten la teoría del "volumen falso", ¿de dónde proviene el verdadero descuento?

El proyecto comenzó inicialmente como un experimento de nicho, pero rápidamente se convirtió en una de las aplicaciones más rentables en blockchains públicas.

Se esfuman 2 billones de dólares, EE. UU. Las acciones registran su peor inicio en cuatro años: ¿por qué el mercado se muestra bajista?

El mercado está reajustando los precios en previsión de un ciclo cerrado.

La guerra no solo eleva los precios del petróleo, sino que también hace que el precio de las acciones de Circle se dispare

Las elevadas expectativas de tipos de interés, combinadas con el crecimiento explosivo de la infraestructura de stablecoin, han llevado a que el precio de las acciones de Circle se duplique en cinco semanas, contra esta tendencia: Entender el doble juego de "negociación de tasas de interés macro" y "fundación de pago global" detrás del aumento en un artículo.

Cuando los agentes se conviertan en consumidores, ¿quién reescribirá la lógica subyacente del comercio en internet?

Hace treinta años, debido al alto costo de los micropagos, Internet no tuvo más remedio que adoptar un modelo publicitario. Hoy en día, el umbral técnico para los micropagos es casi cero, pero la confianza se ha convertido en el lujo más caro. Quien pueda puentear esta brecha dominará la próxima generación de int...

Cumbre «Agentes de IA en acción»: 31 de marzo, Cyberport de Hong Kong: el evento se centrará en los aspectos más complejos de la implementación de la IA

Mañana tendrá lugar la inauguración oficial del Cyberport de Hong Kong. La cumbre «AI Agents in Action» reúne a los principales expertos y aborda directamente la evolución real de los agentes de IA, desde su fase conceptual hasta su comercialización y su implementación a gran escala.

Monedas populares

Últimas noticias sobre criptomonedas

Leer más