Gemini 2.5 Pro de Google, Destrona a Claude y Lidera Rankings de Codificación

By: decrypt|2025/05/09 16:15:08

Gemini 2.5 Pro de Google, Destrona a Claude y Lidera Rankings de Codificación El "modelo de pensamiento" del gigante tecnológico supera a sus rivales en pruebas complejas y ahora está disponible para todos los usuarios de forma gratuita. En Resumen Gemini 2.5 Pro superó a Claude en WebDev Arena, liderando en codificación y otras categorías clave. Obtuvo una puntuación de IQ de 115 y venció a sus rivales en benchmarks como AIME 2025, GPQA y HLE. El modelo procesó hasta 30.000 líneas de código y generó soluciones superiores en pruebas prácticas de desarrollo. Decrypt’s Art, Fashion, and Entertainment Hub. Gemini 2.5 Pro, lanzado recientemente por Google, ha alcanzado el primer puesto en los rankings de codificación, superando a Claude en el famoso WebDev Arena —un sitio de clasificación neutral similar al LLM arena , pero enfocado específicamente en medir qué tan buenos son los modelos de IA en codificación. Este logro llega en medio del esfuerzo de Google por posicionar su modelo insignia de IA como líder tanto en tareas de codificación como de razonamiento. Lanzado a principios de este año, Gemini 2.5 Pro ocupa el primer lugar en varias categorías, incluyendo codificación, control de estilo y escritura creativa. La enorme ventana de contexto del modelo—un millón de tokens que se expandirá a dos millones próximamente—le permite manejar bases de código grandes y proyectos complejos que sofocarían incluso a los competidores más cercanos. Para referencia, modelos potentes como ChatGPT y Claude 3.7 Sonnet solo pueden manejar hasta 128K tokens. Gemini también tiene el "IQ" más alto de todos los modelos de IA. TrackingAI lo sometió a pruebas formales de MENSA , utilizando preguntas verbalizadas de Mensa Noruega para crear una forma estandarizada de comparar modelos de IA. Gemini 2.5 Pro obtuvo puntuaciones más altas que sus competidores en estas pruebas, incluso cuando se utilizaron preguntas personalizadas no disponibles públicamente en los datos de entrenamiento. Con una puntuación de IQ de 115 en pruebas offline, el nuevo Gemini se ubica entre las "mentes brillantes", con la inteligencia humana promedio puntuando alrededor de 85 a 114 puntos. Pero la noción de que una IA tenga IQ necesita aclaración. Los sistemas de IA no tienen cocientes de inteligencia como los humanos, por lo que es mejor pensar en el punto de referencia como una metáfora para el rendimiento en pruebas de razonamiento. Para benchmarks diseñados específicamente para IA, Gemini 2.5 Pro obtuvo 86,7% en la prueba matemática AIME 2025 y 84,0% en la evaluación científica GPQA. En Humanity's Last Exam (HLE), un benchmark más nuevo y difícil creado para evitar problemas de saturación de pruebas, Gemini 2.5 obtuvo 18,8%, superando al o3 mini de OpenAI (14%) y a Claude 3.7 Sonnet (8,9%), lo cual es notable en términos de mejora de rendimiento. La nueva versión de Gemini 2.5 Pro ahora está disponible gratuitamente (con límites de frecuencia) para todos los usuarios de Gemini. Google describió previamente este lanzamiento como una "versión experimental de 2.5 Pro", parte de su familia de "modelos pensantes" diseñados para razonar las respuestas en lugar de simplemente generar texto. A pesar de no ganar en todos los benchmarks, Gemini ha captado la atención de los desarrolladores con su versatilidad. El modelo puede crear aplicaciones complejas a partir de un solo prompt, construyendo aplicaciones web interactivas, juegos de carrera infinita y simulaciones visuales sin requerir instrucciones detalladas. Probamos el modelo pidiéndole que arreglara un código HTML5 roto. Generó casi 1.000 líneas de código, proporcionando resultados que superaron a Claude 3.7 Sonnet—el líder anterior—en términos de calidad y comprensión del conjunto completo de instrucciones. El costo de entrada de Gemini 2.5 Pro es de $2,50 por millón de tokens y el costo de salida es de $15,00 por millón de tokens, posicionándolo como una alternativa más económica frente a algunos competidores mientras sigue ofreciendo capacidades impresionantes. El modelo de IA maneja hasta 30.000 líneas de código en su plan Advanced, haciéndolo adecuado para proyectos a nivel empresarial. Sus capacidades multimodales—trabajando con texto, código, audio , imágenes y video —añaden una flexibilidad que otros modelos enfocados en codificación no pueden igualar. Generally Intelligent Newsletter

Monedas populares

Últimas noticias sobre criptomonedas

12:33

El número de solicitudes iniciales de desempleo en EE. UU. para la semana que terminó el 4 de julio es de 215,000, se esperaba 218,000

12:20

Gemini 2.5 Pro de Google, Destrona a Claude y Lidera Rankings de Codificación

También te puede interesar

Las ballenas compraron 270,000 BTC mientras los ETFs perdieron $7 mil millones. Un lado está equivocado

La clase de IPO de criptomonedas de 2025-26 cae hasta un 89%. Autopsia de un auge de listados

Guía de minería de Robinhood Chain: enseñanza completa del proceso de Memecoin desde cross-chain hasta sweep-chain

El CEO de BitGo dice que los porcentajes de un solo dígito de la oferta de bitcoin son 'probablemente correctos' para grandes tenedores en medio de la venta de Strategy

Más allá de la clave privada: ¿Cómo proteger los límites de seguridad de Web3 desde la billetera, L2 hasta la cadena de suministro?

Vanguard Group entra en el mercado, abriendo una nueva puerta de criptomonedas para 50 millones de inversores tradicionales

¿Por qué la OUSD de una alianza de 150 empresas aún no puede sacudir a USDT y USDC?

Citigroup interpreta: ¿NVIDIA tiene un 47% de espacio, Rubin y CPO podrán cumplir?

Las reservas de intercambio de Bitcoin en disminución ya no tienen el mismo impacto alcista

La muerte de una empresa que cotiza en bolsa: una apuesta de 1.460 millones de dólares por WLFI, 540 millones terminaron en el bolsillo de la familia Trump

Dragonfly Partner: BTC es riqueza intergeneracional, optimista sobre ETH y SOL

Goldman Sachs recomienda invertir en la IA china: Detrás de un valor de mercado de 4 billones de dólares, los fondos globales solo tienen un 1.2%

La nueva geografía de las criptomonedas en Europa con MiCA: ¿Por qué Alemania se destaca en el escenario principal?

Robinhood vs xStocks: La tokenización de acciones no se puede evaluar solo por el ticker en la cadena

Nexo lanza tarjeta de criptomonedas en Argentina mientras crece su impulso en América Latina

Bank of America: El PER a futuro de Nvidia cae al nivel más bajo en 7 años, el mercado está pagando por un riesgo que no existe

Análisis de datos de transacciones de CEX en Q2 de 2026: ¿Quién está nadando a la deriva? ¿Quién está inflando su OI?

Kraken lidera los intercambios MiCA mientras las reglas de criptomonedas de la UE entran en vigor

Las ballenas compraron 270,000 BTC mientras los ETFs perdieron $7 mil millones. Un lado está equivocado

La clase de IPO de criptomonedas de 2025-26 cae hasta un 89%. Autopsia de un auge de listados

Guía de minería de Robinhood Chain: enseñanza completa del proceso de Memecoin desde cross-chain hasta sweep-chain

El CEO de BitGo dice que los porcentajes de un solo dígito de la oferta de bitcoin son 'probablemente correctos' para grandes tenedores en medio de la venta de Strategy

Más allá de la clave privada: ¿Cómo proteger los límites de seguridad de Web3 desde la billetera, L2 hasta la cadena de suministro?

Vanguard Group entra en el mercado, abriendo una nueva puerta de criptomonedas para 50 millones de inversores tradicionales

Monedas populares

Últimas noticias sobre criptomonedas

El número de solicitudes iniciales de desempleo en EE. UU. para la semana que terminó el 4 de julio es de 215,000, se esperaba 218,000

Aave Labs lanza Stable Vaults para integrar productos de ingresos de stablecoins a tasa fija para empresas

El Parlamento Europeo aprueba el euro digital con 416 votos a favor

Gauntlet completa financiamiento de 125 millones de dólares, con participación de SBI Holdings

Mantle migra 2.5 mil millones de dólares en activos a Chainlink CCIP