Gemini 2.5 Pro de Google, Destrona a Claude y Lidera Rankings de Codificación
By: decrypt|2025/05/10 00:15:08
0
Compartir
Gemini 2.5 Pro de Google, Destrona a Claude y Lidera Rankings de Codificación El "modelo de pensamiento" del gigante tecnológico supera a sus rivales en pruebas complejas y ahora está disponible para todos los usuarios de forma gratuita. En Resumen Gemini 2.5 Pro superó a Claude en WebDev Arena, liderando en codificación y otras categorías clave. Obtuvo una puntuación de IQ de 115 y venció a sus rivales en benchmarks como AIME 2025, GPQA y HLE. El modelo procesó hasta 30.000 líneas de código y generó soluciones superiores en pruebas prácticas de desarrollo. Decrypt’s Art, Fashion, and Entertainment Hub. Gemini 2.5 Pro, lanzado recientemente por Google, ha alcanzado el primer puesto en los rankings de codificación, superando a Claude en el famoso WebDev Arena —un sitio de clasificación neutral similar al LLM arena , pero enfocado específicamente en medir qué tan buenos son los modelos de IA en codificación. Este logro llega en medio del esfuerzo de Google por posicionar su modelo insignia de IA como líder tanto en tareas de codificación como de razonamiento. Lanzado a principios de este año, Gemini 2.5 Pro ocupa el primer lugar en varias categorías, incluyendo codificación, control de estilo y escritura creativa. La enorme ventana de contexto del modelo—un millón de tokens que se expandirá a dos millones próximamente—le permite manejar bases de código grandes y proyectos complejos que sofocarían incluso a los competidores más cercanos. Para referencia, modelos potentes como ChatGPT y Claude 3.7 Sonnet solo pueden manejar hasta 128K tokens. Gemini también tiene el "IQ" más alto de todos los modelos de IA. TrackingAI lo sometió a pruebas formales de MENSA , utilizando preguntas verbalizadas de Mensa Noruega para crear una forma estandarizada de comparar modelos de IA. Gemini 2.5 Pro obtuvo puntuaciones más altas que sus competidores en estas pruebas, incluso cuando se utilizaron preguntas personalizadas no disponibles públicamente en los datos de entrenamiento. Con una puntuación de IQ de 115 en pruebas offline, el nuevo Gemini se ubica entre las "mentes brillantes", con la inteligencia humana promedio puntuando alrededor de 85 a 114 puntos. Pero la noción de que una IA tenga IQ necesita aclaración. Los sistemas de IA no tienen cocientes de inteligencia como los humanos, por lo que es mejor pensar en el punto de referencia como una metáfora para el rendimiento en pruebas de razonamiento. Para benchmarks diseñados específicamente para IA, Gemini 2.5 Pro obtuvo 86,7% en la prueba matemática AIME 2025 y 84,0% en la evaluación científica GPQA. En Humanity's Last Exam (HLE), un benchmark más nuevo y difícil creado para evitar problemas de saturación de pruebas, Gemini 2.5 obtuvo 18,8%, superando al o3 mini de OpenAI (14%) y a Claude 3.7 Sonnet (8,9%), lo cual es notable en términos de mejora de rendimiento. La nueva versión de Gemini 2.5 Pro ahora está disponible gratuitamente (con límites de frecuencia) para todos los usuarios de Gemini. Google describió previamente este lanzamiento como una "versión experimental de 2.5 Pro", parte de su familia de "modelos pensantes" diseñados para razonar las respuestas en lugar de simplemente generar texto. A pesar de no ganar en todos los benchmarks, Gemini ha captado la atención de los desarrolladores con su versatilidad. El modelo puede crear aplicaciones complejas a partir de un solo prompt, construyendo aplicaciones web interactivas, juegos de carrera infinita y simulaciones visuales sin requerir instrucciones detalladas. Probamos el modelo pidiéndole que arreglara un código HTML5 roto. Generó casi 1.000 líneas de código, proporcionando resultados que superaron a Claude 3.7 Sonnet—el líder anterior—en términos de calidad y comprensión del conjunto completo de instrucciones. El costo de entrada de Gemini 2.5 Pro es de $2,50 por millón de tokens y el costo de salida es de $15,00 por millón de tokens, posicionándolo como una alternativa más económica frente a algunos competidores mientras sigue ofreciendo capacidades impresionantes. El modelo de IA maneja hasta 30.000 líneas de código en su plan Advanced, haciéndolo adecuado para proyectos a nivel empresarial. Sus capacidades multimodales—trabajando con texto, código, audio , imágenes y video —añaden una flexibilidad que otros modelos enfocados en codificación no pueden igualar. Generally Intelligent Newsletter
También te puede interesar

El momento de pago de los agentes de IA: ¿Quién se convertirá en el Stripe de la economía de las máquinas?
La infraestructura criptográfica y las organizaciones de tarjetas no son mutuamente excluyentes; el ganador será la pasarela unificada que conecte ambas vías simultáneamente.

Reporte matutino | MoonPay adquiere la capa de ejecución de Solana, DFlow; Strategy publica su informe financiero del primer trimestre; Manta Network anuncia el fin de su programa de staking
Resumen de los eventos importantes del mercado el 6 de mayo

Pistas alquiladas: ¿Qué está pagando realmente esta ola de dinero caliente de divisas en stablecoins?
Lo que realmente se está revalorizando en el mercado es la capa intermedia entre los emisores de stablecoins y la economía real: la capa de transacciones.

Dialogue Velocity Eric: ¿Cuál es la ruta de las stablecoins que realmente busca el director financiero?
Exejecutivo estratégico de Worldpay ingresa al espacio cripto: Revela cómo Velocity aborda los problemas más complejos del director financiero (CFO) en cuanto a liquidación transfronteriza y fondos ociosos mediante "cuentas de pago de stablecoins".

La estrategia debió aclarar que no se descarta la venta de monedas
Si Saylor vende sus monedas, ¿se desplomará el mercado de criptomonedas?

¿Cómo logró MegaETH un TVL de 700 millones en una semana tras su TGE? Analizando la estrategia de empaquetamiento
MegaETH creó un volante de inercia con USDm, con el objetivo de atraer a un gran número de usuarios y fondos a corto plazo.

Horario de trading de futuros: opere con criptomonedas 24/7 y obtenga hasta un 45% de reembolso en comisiones
Conozca el horario de trading de futuros y el mejor momento para operar con futuros de criptomonedas. Descubra información sobre el mercado 24/7, las sesiones de mayor actividad y cómo recuperar hasta el 45% de sus comisiones.

¿Por qué a16z Crypto está recaudando otros $2,200 millones para invertir fuertemente en Web3?
Esta ronda de financiamiento apuesta por la transición de las criptomonedas desde la fase de desarrollo de infraestructura hacia la fase de adopción real por parte de los usuarios. Ya sea enfocándose en criptomonedas o incursionando en la IA, este capital real solo fluirá hacia aquellos lugares capaces de convertir la tecnología en productos.

Explicación del algoritmo subyacente de Polymarket
Puede que sea el único artículo en Twitter que explica claramente todo el diseño subyacente de Polymarket en lenguaje sencillo.

¿Qué hacen los proyectos que nacen en el mercado bajista de las criptomonedas?
De enero a abril, RootData ha registrado más de 1,070 nuevos proyectos, una disminución de aproximadamente el 32% en comparación con el mismo periodo del año pasado.

Conferencia del fundador de a16z en Stanford: Siempre que Wall Street y Silicon Valley tienen ideas diferentes, es Wall Street quien termina estando equivocado
Ben Horowitz, cofundador de a16z, dio una charla impactante: los dos fosos tradicionales del software en la era de la IA han desaparecido, y los emprendedores deben buscar "nuevas barreras" más allá del código y la interfaz de usuario.

Michael Saylor: Tras tres trimestres consecutivos de pérdidas, Strategy venderá Bitcoin para pagar dividendos
Tras el informe financiero de MSTR que mostró pérdidas netas continuas, Saylor cambió su postura: Bitcoin ya no es un activo que "nunca se venderá" y puede utilizarse como herramienta de pago.

La estación de peaje en Ormuz y el renminbi que no se puede comprar
El desorden del dólar estadounidense está dando lugar a una nueva situación en la liquidación global: el oro se está redefiniendo como un "puente", el sistema CIPS se está expandiendo rápidamente y los fondos globales están abriendo silenciosamente un nuevo canal para el renminbi, que es "difícil de obtener".

Entrevista con el jefe de estrategia de Coinbase Institutional: La institucionalización de las criptomonedas llega a un punto crítico
Ejecutivos de Coinbase ofrecen un análisis profundo: sin inmutarse por el pánico del mercado a corto plazo, las instituciones están acelerando su entrada, y la tokenización junto con el "exchange de todo" está a punto de reconstruir por completo la infraestructura financiera global.

Diálogo con el CEO de Agora, Nick: La batalla por las licencias de stablecoins apenas comienza
Agora da un paso al frente: solicita oficialmente una licencia de banco fiduciario federal en Estados Unidos, pasando de ser un emisor de stablecoins a una "infraestructura financiera subyacente", con el objetivo de conquistar el mercado multimillonario de pagos empresariales y liquidaciones B2B.

¿Cómo hacer un saldo entre riesgo y retorno en los rendimientos DeFi?
¿Estos rendimientos han sido razonables alguna vez? ¿Alguna vez recibimos la compensación que merecemos por los riesgos asumidos en DeFi y dónde se deben establecer los spreads futuros?

La tesis de Tom Lee sobre Ethereum: Por qué el hombre que acertó el último ciclo está apostando fuerte por Bitmine
Tom Lee se está convirtiendo en uno de los defensores más influyentes de Ethereum. Desde Fundstrat hasta Bitmine, su análisis sobre Ethereum combina el rendimiento del staking, la acumulación de activos y el valor a largo plazo de la red. He aquí por qué «Tom Lee Ethereum» se ha convertido en uno de los temas más seguidos del mundo de las criptomonedas.

Naval sube personalmente al escenario: El histórico choque entre la gente común y el capital de riesgo.
Naval asumió personalmente la presidencia del Comité de Inversiones de USVC. Este fondo, registrado ante la SEC y lanzado por AngelList, busca acercar al público general los principales activos tecnológicos privados como OpenAI, Anthropic y xAI, con un umbral de entrada de 500 dólares. No se trata solo de un nuevo fondo, sino de una experiencia estructural...
El momento de pago de los agentes de IA: ¿Quién se convertirá en el Stripe de la economía de las máquinas?
La infraestructura criptográfica y las organizaciones de tarjetas no son mutuamente excluyentes; el ganador será la pasarela unificada que conecte ambas vías simultáneamente.
Reporte matutino | MoonPay adquiere la capa de ejecución de Solana, DFlow; Strategy publica su informe financiero del primer trimestre; Manta Network anuncia el fin de su programa de staking
Resumen de los eventos importantes del mercado el 6 de mayo
Pistas alquiladas: ¿Qué está pagando realmente esta ola de dinero caliente de divisas en stablecoins?
Lo que realmente se está revalorizando en el mercado es la capa intermedia entre los emisores de stablecoins y la economía real: la capa de transacciones.
Dialogue Velocity Eric: ¿Cuál es la ruta de las stablecoins que realmente busca el director financiero?
Exejecutivo estratégico de Worldpay ingresa al espacio cripto: Revela cómo Velocity aborda los problemas más complejos del director financiero (CFO) en cuanto a liquidación transfronteriza y fondos ociosos mediante "cuentas de pago de stablecoins".
La estrategia debió aclarar que no se descarta la venta de monedas
Si Saylor vende sus monedas, ¿se desplomará el mercado de criptomonedas?
¿Cómo logró MegaETH un TVL de 700 millones en una semana tras su TGE? Analizando la estrategia de empaquetamiento
MegaETH creó un volante de inercia con USDm, con el objetivo de atraer a un gran número de usuarios y fondos a corto plazo.
Atención al cliente:@weikecs
Cooperación empresarial:@weikecs
Trading cuantitativo y MM:[email protected]
Programa VIP:[email protected]


