El último podcast de Huang Renxun: ¿Puede perdurar la ventaja competitiva de NVIDIA?

By: blockbeats|2026/04/17 18:00:03
0
Compartir
copy
Título del video: Jensen Huang: - ¿Persistirá la ventaja competitiva de Nvidia?
Autor del video: Dwarkesh Patel
Traducción: Peggy, BlockBeats

Nota del editor: Mientras el mundo exterior sigue debatiendo si "la ventaja competitiva de Nvidia proviene de la cadena de suministro", esta conversación argumenta que lo que realmente es difícil de replicar no es el chip en sí, sino la capacidad del sistema completo de "electrificar en tokens" - desde la arquitectura informática, el sistema de software hasta la operación colaborativa del ecosistema de desarrolladores.

Este artículo está compilado a partir de la conversación entre Dwarkesh Patel y Jensen Huang. Dwarkesh Patel es uno de los presentadores de podcasts tecnológicos más vistos en Silicon Valley, dirigiendo el canal de YouTube Dwarkesh Podcast, especializado en entrevistas de investigación en profundidad, participando en diálogos a largo plazo con investigadores de IA y figuras clave de la industria tecnológica.

El último podcast de Huang Renxun: ¿Puede perdurar la ventaja competitiva de NVIDIA?

A la derecha está Dwarkesh Patel, a la izquierda está Jensen Huang

Alrededor de este núcleo, esta conversación puede entenderse desde tres perspectivas.

Primero, está el cambio en la tecnología y la estructura de la industria.
La ventaja de Nvidia no radica solo en el rendimiento del hardware, sino en el ecosistema de desarrolladores que lleva CUDA, y la dependencia del camino formada alrededor de la pila informática. En este sistema, la potencia de cálculo ya no es la única variable, y los algoritmos, la ingeniería de sistemas, la red y la eficiencia energética determinan conjuntamente el ritmo del avance de la IA. Esto también lleva a un juicio importante: el software no será simplemente "commoditizado" por la IA; por el contrario, con la proliferación de agentes, las invocaciones de herramientas crecerán exponencialmente, amplificando aún más el valor del software.

En segundo lugar, están los límites de los negocios y las elecciones estratégicas.
Frente a la cadena de la industria de la IA que se expande continuamente, Nvidia elige "hacer lo necesario, pero no hacerlo todo." No entra en la computación en la nube, ni se involucra en una integración vertical excesiva, sino que amplía el tamaño total del mercado a través de inversiones y apoyo al ecosistema. Esta moderación le permite mantener un control crítico mientras evita convertirse en un sustituto del ecosistema, lo que a su vez atrae a más participantes a su sistema tecnológico.

En tercer lugar, hay una discrepancia en la difusión de la tecnología y el panorama industrial.
La parte más tensa de la conversación no está en las conclusiones específicas, sino en cómo entender el "riesgo" en sí mismo. Un punto de vista enfatiza la ventaja del primer movimiento que trae consigo el liderazgo en potencia de cálculo, mientras que otro se centra más en la atribución a largo plazo de los ecosistemas y estándares en el proceso de difusión de la tecnología. Más que la brecha de capacidad a corto plazo, la pregunta más crítica puede ser: ¿en qué sistema tecnológico operarán los futuros modelos y desarrolladores de IA?

En otras palabras, el objetivo final de esta competencia no es solo "quién puede construir un modelo más poderoso primero," sino "quién define la infraestructura sobre la que se ejecuta el modelo."

En este sentido, el papel de NVIDIA ya no es solo el de una empresa de chips, sino que se asemeja más al de un "proveedor del sistema operativo subyacente" de la era de la IA; busca asegurar que, sin importar cómo se prolifere la potencia de cálculo, el camino hacia la creación de valor siga girando en torno a sí mismo.

Lo siguiente es el contenido original (reorganizado para facilitar la comprensión):

RESUMEN

· La ventaja competitiva de NVIDIA no radica en "chips" sino en la "capacidad del sistema completo desde electrones hasta Tokens." El núcleo no es el rendimiento del hardware, sino la capacidad de convertir el cálculo en valor a través de un enfoque de pila completa (arquitectura + software + ecosistema).

· La ventaja esencial de CUDA no es la herramienta en sí, sino el ecosistema de desarrolladores de IA más grande del mundo. Los desarrolladores, marcos y modelos están todos ligados a la misma pila tecnológica, formando una dependencia de camino irremplazable.

· La clave de la competencia en IA no es solo la potencia de cálculo, sino la combinación de "pila computacional × algoritmos × ingeniería de sistemas." Las mejoras en arquitectura, redes, eficiencia energética y colaboración de software superan con creces el progreso de la mera tecnología de procesos.

· El cuello de botella computacional es un problema a corto plazo, y la oferta se repondrá impulsada por las señales de demanda en un plazo de 2 a 3 años. La verdadera restricción a largo plazo no es el chip, sino la energía y la infraestructura.

· El software de IA no será commoditizado; en cambio, experimentará un crecimiento exponencial en el uso de herramientas debido a la explosión de Agentes. El futuro no es un software más barato, sino un aumento exponencial en la invocación de software.

· La estrategia principal de NVIDIA no es aventurarse en la nube: hacer "todo lo necesario" pero no tragar toda la cadena de valor. A través de la inversión y el apoyo al ecosistema en lugar de la integración vertical, NVIDIA amplifica el tamaño total del mercado.

· El verdadero riesgo estratégico no es que los competidores adquieran poder de computación, sino que el ecosistema global de IA ya no se base en la pila tecnológica americana. Una vez que los modelos y desarrolladores migren, los estándares técnicos a largo plazo y el dominio industrial cambiarán en consecuencia.

Contenido de la Entrevista

¿Dónde radica la ventaja competitiva de NVIDIA: en la cadena de suministro o en el control de "electrones a Tokens"?

Dwarkesh Patel (Anfitrión):

Hemos visto cómo las valoraciones de muchas empresas de software han disminuido porque se espera que la IA convierta el software en una mercancía estandarizada. Hay otra comprensión algo ingenua que va algo así: verás, desde los archivos de diseño (GDS2) entregados a TSMC, TSMC es responsable de fabricar el chip lógico, la fabricación de obleas, construir los circuitos de conmutación, luego empaquetar con HBM producido por SK Hynix, Micron, Samsung, y finalmente enviado a ODM para ensamblar en un marco de máquina completo.

Nota: HBM (Memoria de Alto Ancho de Banda) es una tecnología de memoria avanzada diseñada específicamente para computación de alto rendimiento e IA; ODM (Fabricante de Diseño Original) se refiere a un fabricante por contrato responsable tanto de la producción como del diseño del producto.


Así que, desde esta perspectiva, NVIDIA está esencialmente haciendo software, mientras que la fabricación la realizan otros. Si el software se commoditiza, entonces NVIDIA también será commoditizada.

Jensen Huang (CEO de NVIDIA):
Pero, en última instancia, tiene que haber un proceso para convertir electrones en tokens. De electrones a tokens, y hacer que estos tokens sean más valiosos con el tiempo, creo que esta transformación es difícil de commoditizar por completo.


La transformación de electrones a tokens es en sí misma un proceso muy extraordinario. Y hacer que un token sea más valioso, como hacer que una molécula sea más valiosa que otra, es hacer que un token sea más valioso que otro token.


En este proceso, hay una gran cantidad de arte, ingeniería, ciencia e invención involucrados para dar valor a este token.


Claramente, estamos presenciando todo esto sucediendo en tiempo real. Así que, este proceso de transformación, proceso de fabricación y las diversas señales involucradas no se han comprendido completamente, y este viaje está lejos de haber terminado. Así que no creo que ese escenario suceda.


Por supuesto, lo haremos más eficiente. De hecho, la forma en que acabas de describir el problema es en realidad un modelo mental que tengo de NVIDIA: la entrada son electrones, la salida son tokens, y NVIDIA está en medio.


Nuestro trabajo es "hacer tanto de lo que es necesario y tan poco de lo que es innecesario como sea posible" para lograr esta transformación y darle una capacidad extremadamente alta.


Cuando digo "tan poco como sea posible", me refiero a que para cualquier cosa que no necesitamos hacer nosotros mismos, colaboraremos con otros e incorporaremos eso en nuestro ecosistema. Si miras a NVIDIA hoy, podemos tener uno de los ecosistemas de socios más grandes tanto en las cadenas de suministro ascendentes como descendentes. Desde fabricantes de ordenadores, desarrolladores de aplicaciones, hasta desarrolladores de modelos—puedes ver la IA como un "pastel de cinco capas," y tenemos un diseño de ecosistema en estos cinco niveles.

Lectura relacionada: "Último artículo del CEO de NVIDIA, Jensen Huang: El 'Pastel de Cinco Capas' de la IA"


Así que intentamos hacer tan poco como sea posible, pero la parte que debemos hacer es en realidad extremadamente difícil. Y no creo que esa parte se convierta en una mercancía.


De hecho, tampoco creo que las empresas de software empresarial estén fundamentalmente en el negocio de "hacer herramientas." Sin embargo, la realidad es que la mayoría de las empresas de software hoy en día son, de hecho, proveedores de herramientas.
Por supuesto, hay excepciones; algunas están codificando y solidificando sistemas de flujo de trabajo, pero muchas empresas son fundamentalmente empresas de herramientas.


Por ejemplo, Excel es una herramienta, PowerPoint es una herramienta, lo que hace Cadence es una herramienta, y Synopsys también es una herramienta.

Jensen Huang:
Y la tendencia que veo es, de hecho, contraria a las opiniones de muchas personas. Creo que el número de agentes crecerá exponencialmente, y el número de usuarios de herramientas también crecerá exponencialmente.


El número de instancias que llaman a varias herramientas también es probable que aumente. Por ejemplo, las instancias de uso del Synopsys Design Compiler pueden aumentar significativamente.
Habrá un gran número de agentes utilizando planificadores de planta, herramientas de diseño y herramientas de verificación de reglas de diseño.

Hoy, estamos limitados por el número de ingenieros; pero mañana, estos ingenieros estarán apoyados por un gran número de agentes, y exploraremos el espacio de diseño de maneras sin precedentes. Cuando empecéis a utilizar estas herramientas hoy, este cambio será muy evidente.


El uso de herramientas impulsará a estas empresas de software a lograr un crecimiento explosivo. Este crecimiento explosivo aún no ha ocurrido porque los agentes actuales aún no son hábiles en el uso de las herramientas.


Así que, o estas empresas construyen agentes por sí mismas, o los propios agentes se vuelven lo suficientemente fuertes como para utilizar estas herramientas. Creo que el resultado final será una combinación de ambos.

Dwarkesh Patel
Recuerdo que en vuestra divulgación más reciente, teníais cerca de 100 mil millones de dólares en compromisos de adquisición para componentes de frontera, memoria, empaquetado, etc. Y el informe de SemiAnalysis sugiere que esta cifra podría alcanzar los 250 mil millones de dólares.


Una interpretación es que la ventaja competitiva de NVIDIA radica en que vosotros aseguráis el suministro de estos componentes escasos para los próximos años. En otras palabras, ¿pueden otros fabricar aceleradores también, pero pueden conseguir suficiente memoria? ¿Pueden conseguir suficientes chips lógicos?


¿Es esta la ventaja principal de NVIDIA en los próximos años?

Jensen Huang:
Esto es algo que podemos hacer, pero es muy difícil para otros hacerlo. La razón por la que podemos hacer compromisos tan masivos en la parte superior es en parte explícita, como en los compromisos de adquisición que mencionaste; y en parte implícita.


Por ejemplo, gran parte de la inversión en la parte superior es en realidad realizada por nuestros socios de la cadena de suministro, porque yo diría a su CEO: Déjame decirte lo grande que va a ser esta industria, déjame explicarte por qué, déjame deducir contigo, déjame contarte lo que veo.

A través de este proceso—transmitiendo información, inspirando una visión, construyendo consenso—me alineo con los CEOs de diferentes industrias en la parte superior, y solo entonces están dispuestos a realizar estas inversiones.


¿Entonces por qué están dispuestos a invertir en mí y no en otros? Porque saben que tengo la capacidad de comprar su capacidad y digerirla a través de mi parte inferior. Es precisamente debido a la demanda y la escala de la cadena de suministro de NVIDIA en la parte inferior que están dispuestos a invertir en la parte superior.

Mira GTC, la escala de la conferencia ha sorprendido a muchas personas. Es esencialmente un universo de IA de 360 grados que reúne a toda la industria. Todo el mundo se reúne porque necesitan verse entre sí. Los reúno para que la parte superior vea la parte inferior, la parte inferior vea la parte superior, y al mismo tiempo para que todos vean el progreso de la IA.

Más importante aún, pueden interactuar con empresas nativas de IA y startups, ver diversas innovaciones sucediendo de primera mano, y así validar esos juicios que he hecho.


Así que he pasado mucho tiempo, directa o indirectamente, explicando las oportunidades actuales a nuestros socios de la cadena de suministro y del ecosistema. Muchas personas dirían que mi discurso no es como un anuncio de producto tradicional uno tras otro en una conferencia, sino que tiene una parte que suena a "enseñanza." Y este es en realidad mi propósito.


Necesito asegurarme de que toda la cadena de suministro—ya sea en la parte superior o en la parte inferior—entienda: qué va a suceder a continuación, por qué sucederá, cuándo sucederá, cuán grande será la escala, y ser capaz de razonar sistemáticamente a través de estas preguntas como lo hago yo.

Así que el "foso" que acabas de mencionar sí existe. Si este mercado alcanza una escala de un billón de dólares en los próximos años, tenemos la capacidad de construir la cadena de suministro para apoyarlo. Al igual que el flujo de caja, la cadena de suministro también tiene flujo y rotación. Si la rotación de la arquitectura de un negocio no es lo suficientemente rápida, nadie construirá una cadena de suministro para ello. La razón por la que podemos sostener esta escala es que la demanda en la parte inferior es extremadamente fuerte, y todos pueden verlo.

Es precisamente este punto el que nos permite hacer estas cosas a la escala en la que estamos ahora.

Dwarkesh Patel
Todavía quiero entender mejor si la parte superior puede mantenerse al día. Durante los últimos años, vuestros ingresos se han duplicado prácticamente año tras año, y la capacidad de computación que proporcionáis al mundo incluso se ha triplicado.

Jensen Huang:
Y continúa duplicándose a esta escala.

Dwarkesh Patel:
Exactamente. Así que si miráis los chips lógicos, como si fuerais uno de los mayores clientes de TSMC en el proceso N3, también un cliente importante en el N2.
Según algunos análisis, este año la IA puede representar el 60% de la capacidad N3, y el año que viene puede incluso alcanzar el 86%.

Nota: N3 se refiere al nodo de proceso de 3 nanómetros (3nm) de TSMC, que puede entenderse como uno de los procesos de fabricación de chips más avanzados de TSMC.

Así que, dado que ya ocupáis una parte tan grande, ¿cómo podéis seguir duplicándoos? ¿Y duplicándoos cada año, además? ¿Hemos entrado en una fase donde el crecimiento del poder de computación de la IA debe desacelerarse debido a las limitaciones de la parte superior? ¿Hay alguna manera de eludir estas limitaciones? ¿Cómo podemos construir dos fábricas de obleas cada año?

Jensen Huang:
En ciertos momentos, la demanda instantánea efectivamente supera la oferta total de la industria, tanto en la parte superior como en la inferior. Y en ciertos casos, incluso podemos estar limitados por el número de fontaneros—esto ha sucedido realmente.

Dwarkesh Patel:
Así que, el GTC del año que viene debería invitar a fontaneros.

Jensen Huang:
Sí, de hecho es un buen fenómeno. Queréis estar en un mercado como este: donde la demanda instantánea es mayor que la oferta total de la industria. Por el contrario, por supuesto, no es tan bueno.

Si la brecha entre los dos es demasiado grande, un enlace específico, un componente determinado se convierte en un claro cuello de botella, y toda la industria se apresurará a resolverlo. Por ejemplo, he notado que la gente no está hablando mucho sobre CoWoS ahora. La razón es que en los últimos dos años hemos realizado una gran inversión y expansión en ello, multiplicándolo varias veces.


Ahora creo que la situación general es bastante buena. TSMC también se ha dado cuenta de que el suministro de CoWoS debe mantener el ritmo con la creciente demanda de chips lógicos y memoria. Así que están expandiendo CoWoS mientras también amplían las tecnologías de empaquetado avanzado futuras, y están expandiendo al mismo ritmo que los chips lógicos.

Esto es muy importante porque en el pasado, CoWoS y la memoria HBM eran más como "capacidades especiales", pero ya no. Ahora todo el mundo se ha dado cuenta de que son parte de la tecnología informática convencional.

Al mismo tiempo, ahora tenemos la capacidad de influir en una cadena de suministro más amplia. En el pasado, cuando la revolución de la IA apenas comenzaba, lo que estoy comentando ahora, en realidad lo estaba comentando hace cinco años.

Algunas personas creyeron e invirtieron en ese momento, como el equipo de Sanjay de Micron. Todavía recuerdo esa reunión vívidamente, donde expliqué claramente lo que sucedería en el futuro, por qué sucedería y predije los resultados que vemos hoy. En ese momento, eligieron aumentar significativamente su inversión, y también establecimos una asociación con ellos. Hicieron inversiones en varias direcciones como LPDDR y HBM, lo que obviamente les trajo retornos significativos. Algunas empresas siguieron más tarde, pero ahora todos han entrado en esta etapa.

Así que creo que cada generación de tecnología, cada cuello de botella, recibirá mucha atención. Y ahora, hemos estado "prefetching" estos cuellos de botella varios años por adelantado. Por ejemplo, nuestra colaboración con Lumentum, Coherent y todo el ecosistema de fotónica de silicio. En los últimos años, en realidad hemos remodelado todo el ecosistema y la cadena de suministro.

En el campo de la fotónica de silicio, hemos construido una cadena de suministro completa alrededor de TSMC, colaborado con ellos para desarrollar tecnología, inventado muchas nuevas tecnologías y licenciado estas patentes a la cadena de suministro, manteniendo la apertura del ecosistema. Preparamos la cadena de suministro inventando nuevas tecnologías, nuevos flujos de trabajo, nuevos equipos de prueba (incluida la detección de doble cara), invirtiendo en empresas relacionadas y ayudándolas a escalar.

Así que podéis ver que estamos moldeando activamente este ecosistema para permitir que la cadena de suministro apoye el futuro crecimiento.

Dwarkesh Patel:
Parece que algunos cuellos de botella son más fáciles de resolver que otros. Por ejemplo, en comparación con la expansión de CoWoS, hay aquellos que son más difíciles.

Jensen Huang:
De hecho, lo que acabo de mencionar es el más difícil.

Dwarkesh Patel:
¿Cuál?

Jensen Huang:
Fontanero. Sí, de verdad. Lo que mencioné antes es el más difícil: fontaneros y electricistas. La razón es que esto también me preocupa un poco sobre algunos "profetas del desastre" que siempre están hablando de trabajos que desaparecen, posiciones que son reemplazadas. Si aconsejamos a la gente que no se convierta en ingenieros de software por esto, entonces realmente nos faltarán ingenieros de software en el futuro.

Predicciones similares se hicieron hace diez años. En ese momento, algunos dijeron: "Hagas lo que hagas, no te conviertas en radiólogo." Todavía se pueden encontrar esos vídeos en línea, diciendo que la radiología sería la primera profesión en ser eliminada, y que el mundo ya no necesitaría radiólogos. Pero la realidad es que ahora nos faltan radiólogos.

Dwarkesh Patel:
De acuerdo, volviendo a la pregunta anterior: Algunos enlaces pueden ser ampliados, otros no. Entonces, específicamente, ¿cómo puede duplicarse la capacidad de producción de los chips lógicos? Después de todo, el verdadero cuello de botella está aquí, tanto la memoria como la lógica son factores limitantes. ¿Qué pasa con las máquinas de litografía EUV? ¿Cómo lográis duplicar su cantidad cada año?

Jensen Huang:
Todo esto no es irreversible. De hecho, escalar rápidamente no es fácil, pero lograr estas cosas en dos a tres años no es difícil, en realidad. La clave es tener una señal de demanda clara. Una vez que puedes hacer uno, puedes hacer diez; una vez que puedes hacer diez, puedes hacer un millón. Así que, fundamentalmente, estas cosas no son difíciles de replicar.

Dwarkesh Patel:
¿Podrías entonces transmitir este juicio a lo profundo de la cadena de suministro? Por ejemplo, ¿irías a ASML y dirías: si miro tres años hacia adelante, para lograr los ingresos anuales de NVIDIA de 2 billones de dólares, necesitamos más máquinas de litografía EUV?

Jensen Huang:
Algunos los haría directamente, otros se hacen indirectamente. Si puedo convencer a TSMC, ASML también estará naturalmente convencido. Así que, debemos identificar cuellos de botella críticos. Pero mientras TSMC crea en esta tendencia, en unos pocos años, tendrás suficiente equipo EUV.

Lo que quiero decir es que ningún cuello de botella durará más de dos a tres años, ninguno.


Al mismo tiempo, también estamos aumentando la eficiencia computacional. De Hopper a Blackwell, hemos logrado aproximadamente una mejora de 10x, 20x, y en algunos casos, incluso de 30x a 50x. También estamos introduciendo constantemente nuevos algoritmos. Porque CUDA es lo suficientemente flexible, podemos desarrollar varios nuevos métodos para expandir la capacidad mientras mejoramos la eficiencia.


Así que, estas cosas no me preocupan. Lo que realmente me preocupa son factores externos más allá de nuestro ámbito, como la política energética. Sin energía, no puedes expandirte; sin energía, no puedes establecer una industria; sin energía, no puedes construir un ecosistema de fabricación completamente nuevo.


Ahora, queremos impulsar la reindustrialización en los Estados Unidos, recuperar la fabricación de chips, la fabricación de computadoras y el empaquetado, mientras establecemos nuevas industrias como los vehículos eléctricos y la robótica. Cuando estamos construyendo una fábrica de IA, todo esto depende de la energía, y la construcción relacionada con la energía tiene un ciclo largo. En contraste, aumentar la capacidad de los chips es un problema de dos a tres años; aumentar la capacidad de CoWoS también es un problema de dos a tres años.

Dwarkesh Patel:
Es bastante interesante. Siento que algunos de los invitados que he entrevistado han dado el juicio exactamente opuesto. Simplemente, en este asunto, de hecho no tengo suficiente formación técnica para juzgar.

Jensen Huang:
Sin embargo, lo bueno es que ahora estáis hablando con expertos.

Precio de --

--

¿Sacudirá el TPU de Google la posición de NVIDIA?

Dwarkesh Patel:
Sí, de hecho. Quería preguntar sobre vuestros competidores. Cuando miramos los TPUs, se puede decir que actualmente, dos de los tres principales modelos grandes globales—Claude y Gemini—han sido entrenados utilizando TPUs. ¿Qué significa esto para el futuro de NVIDIA?

Nota: TPU (Unidad de Procesamiento Tensorial) es un tipo de chip especializado diseñado por Google específicamente para inteligencia artificial, especialmente aprendizaje profundo.

Jensen Huang:
Lo que hacemos es completamente diferente. NVIDIA está construyendo "computación acelerada", no Unidades de Procesamiento Tensorial (TPUs).

La computación acelerada puede utilizarse para una variedad de tareas, como dinámica molecular, cromodinámica cuántica, procesamiento de datos, marcos de datos, datos estructurados, datos no estructurados, dinámica de fluidos, física de partículas y, por supuesto, IA. Por lo tanto, el ámbito de aplicación de la computación acelerada es mucho más amplio.

Aunque la discusión actual se centra en la IA, que es de hecho muy importante y tiene un impacto significativo, el ámbito de la "computación" en sí es mucho más amplio que la IA. Lo que hace NVIDIA es reinventar el enfoque de la computación, pasando de la computación de propósito general a la computación acelerada. Nuestra cobertura de mercado es mucho más amplia que lo que cualquier TPU u otro acelerador especializado puede lograr.

Si miráis nuestra posición, somos la única empresa que puede acelerar varios tipos de aplicaciones. Tenemos un vasto ecosistema donde varios marcos y algoritmos pueden ejecutarse en la plataforma de NVIDIA. Además, nuestros sistemas informáticos están diseñados para ser "operados por otros". Cualquier operador puede adquirir nuestros sistemas para utilizarlos.

La mayoría de los sistemas autodesarrollados no están diseñados para ser utilizados por otros; básicamente tienes que operarlos tú mismo porque no fueron diseñados inicialmente para ser lo suficientemente flexibles para que otros los usen. Debido a que cualquiera puede operar nuestros sistemas, hemos entrado en todas las principales plataformas, incluyendo Google, Amazon, Azure, OCI y otras.

Ya sea que busques alquilar potencia de computación para operar sistemas o para usar sistemas tú mismo, si deseas participar en un negocio de arrendamiento, debes tener un ecosistema de clientes a gran escala que cubra múltiples industrias para satisfacer estas necesidades. Si estás operando sistemas para tu propio uso, ciertamente tenemos la capacidad de ayudarte a hacerlo. Por ejemplo, el xAI de Elon.

Debido a que permitimos que operadores de cualquier industria o empresa utilicen nuestros sistemas, puedes usarlos para construir supercomputadoras para empresas como Lilly, para investigación científica y descubrimiento de fármacos. Podemos ayudarles a operar sus propias supercomputadoras y aplicarlas a diversas aplicaciones en investigación de fármacos y ciencias biológicas, todas áreas que podemos acelerar.

Así que podemos cubrir una amplia gama de aplicaciones, que el TPU no puede hacer. CUDA de NVIDIA, que fue construido por NVIDIA, también puede servir como una plataforma de procesamiento de tensores excepcional, pero no es solo eso. Cubre todo el ciclo de vida del procesamiento de datos, computación, IA y más. Por lo tanto, nuestra oportunidad de mercado es mucho mayor, con un alcance más amplio. Y dado que ahora apoyamos prácticamente todos los tipos de aplicaciones a nivel global, puedes desplegar sistemas de NVIDIA en cualquier lugar, y ten la seguridad de que definitivamente habrá clientes utilizándolos.

Así que esto es fundamentalmente algo completamente diferente.

Dwarkesh Patel:
Esta pregunta será un poco más larga.


Tus ingresos actuales son asombrosos, y estos ingresos provienen principalmente no de productos farmacéuticos o computación cuántica. No estás ganando 600 mil millones de dólares por trimestre de estos negocios, sino porque la IA es una tecnología sin precedentes que avanza a un ritmo sin precedentes.


Así que la pregunta es: si miramos solo la IA, ¿cuál es la solución óptima? No estoy en el nivel del suelo, pero he hablado con algunos investigadores de IA, y ellos dirían: cuando utilizo un TPU, es una gran matriz, muy adecuada para la multiplicación de matrices; mientras que las GPU son más flexibles, adecuadas para manejar un gran número de ramas y accesos a memoria irregulares.

Pero si miras la IA, ¿no es esencialmente solo una multiplicación de matrices repetitiva y altamente predecible? Entonces, en realidad no necesitas ocupar área de chip para características como la programación de warp, el cambio de hilos, los bancos de memoria, y así sucesivamente. Así que los TPUs están altamente optimizados para la actual demanda de potencia de computación y crecimiento de ingresos, centrándose en los principales escenarios de aplicación.

¿Cómo ves este punto de vista?

Jensen Huang:
La multiplicación de matrices es, de hecho, una parte importante de la IA, pero no es todo la IA.

Si quieres proponer un nuevo mecanismo de atención, o hacer cálculos de una manera diferente; si quieres diseñar una arquitectura completamente nueva, como un SSM híbrido; si quieres construir un modelo que combine difusión y autorregresivo—necesitas una arquitectura programable de propósito general, y podemos ejecutar cualquier cosa que puedas imaginar.

Esta es nuestra ventaja, haciendo que la invención de nuevos algoritmos sea mucho más fácil. Es porque es un sistema programable, y constantemente inventar nuevos algoritmos es la razón por la cual la IA puede progresar tan rápidamente.


El TPU, como cualquier otro hardware, también está sujeto a la Ley de Moore. Sabemos que la Ley de Moore trae una mejora del 25% cada año. Así que si quieres lograr un salto de 10x, 100x, la única manera es cambiar fundamentalmente el algoritmo y su computación cada año.

Esta es exactamente la fortaleza central de NVIDIA.

La razón por la que pudimos lograr una mejora significativa con Blackwell en comparación con Hopper - dije que era 35 veces en ese entonces - cuando anuncié por primera vez que la eficiencia energética de Blackwell sería 35 veces mayor que la de Hopper, nadie lo creyó.


Más tarde, Dylan escribió un artículo diciendo que en realidad estaba siendo conservador, y la mejora real está más cerca de 50 veces, y este tipo de mejora no se puede lograr únicamente por la Ley de Moore. Nuestro método para resolver este problema es introducir nuevas estructuras de modelo, como MoE, y paralelizar, desacoplar y distribuir la computación, extendiéndola a través de todo el sistema de computación. Sin la capacidad de profundizar en la capa de hardware y desarrollar nuevos núcleos de computación utilizando CUDA, esto sería muy difícil de lograr.

Nota: Refiriéndonos a Dylan Patel, un analista bien conocido en el campo de los semiconductores y la infraestructura de IA, y fundador de la firma de investigación SemiAnalysis.

Así que, nuestra ventaja radica en: la programabilidad de la arquitectura, y NVIDIA como una empresa altamente co-diseñada. Incluso podemos descargar algunos cálculos a la arquitectura de interconexión, como NVLink, o a la capa de red, como Spectrum-X. En otras palabras, podemos impulsar el cambio simultáneamente a través del procesador, el sistema, la interconexión, las bibliotecas de software y los algoritmos. Todo esto está sucediendo a la vez. Sin CUDA para apoyar todo esto, ni siquiera sabría por dónde empezar.

Dwarkesh Patel:

Esto también plantea una pregunta sobre la base de clientes de NVIDIA: Si el 60% de tus ingresos provienen de estos cinco hyperscalers, en otra época, enfrentando un tipo diferente de cliente, como un profesor experimentador, dependen en gran medida de CUDA. No pueden usar otros aceleradores, solo pueden usar PyTorch + CUDA, y todo necesita estar bien optimizado.

Pero si se trata de estos grandes hyperscalers, tienen la capacidad de escribir sus propios kernels. De hecho, deben hacerlo para exprimir el último 5% de rendimiento. Empresas como Anthropic y Google a menudo utilizan aceleradores personalizados o TPUs para el entrenamiento. Incluso OpenAI, al usar GPUs, utiliza Triton. Ellos dirían: Necesitamos nuestro propio kernel. Así que escribirían directamente en CUDA C++, en lugar de usar bibliotecas como cuBLAS, NCCL, y construir su propia pila de software, e incluso compilarla para otros aceleradores.

Así que, para la mayoría de tus clientes, efectivamente están reemplazando CUDA. ¿Cuánto, entonces, sigue siendo CUDA un motor clave para la IA de vanguardia que debe depender de NVIDIA?

Jensen Huang:
Primero que todo, CUDA es un ecosistema muy rico. Si estás desarrollando en cualquier ordenador, comenzar con CUDA es una elección muy sabia. Debido a que este ecosistema es muy rico, apoyamos todos los marcos principales.

Si necesitas escribir kernels personalizados, como Triton, hemos contribuido con mucha tecnología de NVIDIA al backend de Triton, y también estamos muy dispuestos a ayudar a varios marcos a mejorar. Ahora hay muchos marcos, como Triton, vLLM, SG Lang, y muchos más.

Con el avance del aprendizaje post-entrenamiento y el aprendizaje por refuerzo, este campo está expandiéndose rápidamente. Por ejemplo, tenéis Vairal, NeMo RL y una variedad de nuevos marcos. Si queréis desarrollar en una determinada arquitectura, comenzar con CUDA es la opción más razonable porque sabéis que el ecosistema está maduro. Cuando surgen problemas, es más probable que sea un problema de vuestro propio código en lugar de un problema en el montón de código subyacente.

No olvidéis que la base de código detrás de estos sistemas es muy grande. Cuando el sistema tiene problemas, queréis saber si el problema está en vuestro código o en la plataforma de computación misma.

Ciertamente esperáis que el problema esté en vuestro propio código y no en la plataforma de computación. Por supuesto, nosotros también tenemos muchos errores, pero nuestro sistema es muy maduro, y al menos podéis seguir construyendo sobre una base fiable.


El segundo punto es la escala de la base de instalación. Si sois desarrolladores, no importa lo que estéis haciendo, lo más importante es la "base de instalación." Queréis que vuestro software funcione en tantos ordenadores como sea posible. No estáis escribiendo software para vosotros mismos; estáis escribiendo software para todo vuestro clúster, e incluso para toda la industria porque sois desarrolladores de marcos.

El ecosistema CUDA de NVIDIA es esencialmente nuestro activo más importante. Ahora hay cientos de millones de GPUs en todo el mundo. Todos los proveedores de la nube las tienen, desde V100, A100, H100, H200, hasta las series L, P, y varias especificaciones.

Y existen en varias formas. Si sois una empresa de robótica, querríais que CUDA funcionara directamente en el cuerpo del robot. Estamos prácticamente en todas partes.

Esto significa que una vez que hayáis desarrollado software o un modelo, puede ser utilizado en cualquier lugar. Por lo tanto, el valor de esta base de instalación en sí es extremadamente significativo.


El último punto es la flexibilidad del lugar de despliegue. Existimos en todas las plataformas en la nube, lo que nos otorga singularidad. Como empresa o desarrollador de IA, no estáis seguros de con qué proveedor de nube colaboraréis finalmente, ni dónde se ejecutará vuestro sistema. Sin embargo, podemos funcionar en cualquier lugar, incluyendo el despliegue en las instalaciones.

Por lo tanto, la riqueza del ecosistema, la escala de la base de instalaciones y la flexibilidad del lugar de despliegue, cuando se combinan, son muy valiosas.

Dwarkesh Patel:
Eso tiene sentido. Pero lo que me intriga es si estas ventajas son realmente tan importantes para vuestros clientes clave. Muchas personas se beneficiarán de estas ventajas, pero aquellos que pueden construir su propia pila de software—el grupo que contribuye a la mayor parte de vuestros ingresos—especialmente en un mundo donde la IA se está volviendo más fuerte en una tarea de "bucle de retroalimentación verificable", como en escenarios de aprendizaje por refuerzo, donde optimizaciones de núcleo como la atención o MLP son en realidad un bucle de retroalimentación muy fácilmente verificable.

¿Pueden, entonces, estos proveedores de nube a gran escala escribir estos núcleos ellos mismos? Por supuesto, aún pueden elegir NVIDIA por su rentabilidad. Pero la pregunta es, ¿se convertirá esto finalmente en una simple comparación: quién puede proporcionar mejores especificaciones? Por ejemplo, en términos de costo unitario, ¿quién puede proporcionar mayor potencia de cálculo (FLOPs) y mayor ancho de banda de memoria? Porque en el pasado, NVIDIA ha tenido un margen de beneficio muy alto (más del 70%) tanto a nivel de hardware como de software, en gran parte debido al foso de CUDA.

Así que la pregunta es, si la mayoría de los clientes pueden construir sus propias pilas de software sin depender de CUDA, ¿puede mantenerse este margen de beneficio?

Jensen Huang:
El número de ingenieros que hemos puesto en estos laboratorios de IA es verdaderamente asombroso, trabajando con ellos, ayudándoles a optimizar toda la pila tecnológica. La razón es que nadie conoce nuestra arquitectura mejor que nosotros. Y estas arquitecturas no son tan de propósito general como las CPU.


La CPU es un poco como un "coche familiar", se puede pensar en ella como un coche de crucero, que no va especialmente rápido, pero todos pueden conducirlo bien, con control de crucero, todo es sencillo. Pero el acelerador GPU de NVIDIA es más como un coche de carreras de F1. Puedo imaginar que todos podrían conducirlo a 100 millas por hora, pero para realmente llevarlo al límite se requiere una considerable experiencia.

Y utilizamos mucha inteligencia artificial para generar estos núcleos. Estoy muy seguro de que durante bastante tiempo, seguimos siendo indispensables. Nuestra experiencia puede ayudar a los socios en estos laboratorios de inteligencia artificial a duplicar fácilmente su rendimiento. Muchas veces, después de optimizar su pila tecnológica o un cierto núcleo, sus modelos pueden acelerarse 3 veces, 2 veces o incluso un 50%. Esta es una mejora significativa, especialmente si consideras que tienen grandes clústeres Hopper y Blackwell.

Si duplicas el rendimiento, significa que tus ingresos se duplican directamente. Esto está directamente correlacionado con los ingresos. La pila de computación de NVIDIA tiene el mejor rendimiento global en el Costo Total de Propiedad (TCO), inigualable por cualquier competidor. Ninguna empresa puede demostrarme qué plataforma ofrece una mejor relación rendimiento/TCO que la nuestra. No hay ninguna. Y estas pruebas de referencia están disponibles públicamente.


Dylan tiene razón. Inference Max es público, cualquiera puede usarlo. Pero ningún equipo de TPU está dispuesto a usarlo para mostrar su ventaja en costos de inferencia. Es difícil de hacer, nadie está dispuesto a salir y demostrarlo.

Lo mismo ocurre con MLPerf. Les invito a demostrar la ventaja del 40% que siempre han afirmado tener. Me encantaría verles demostrar la ventaja de costos de TPU. Para mí, no tiene sentido, simplemente no cuadra. En absoluto.

Así que creo que la razón fundamental de nuestro éxito es que nuestro TCO es excelente.

Otro punto, mencionaste que el 60% de nuestros clientes provienen de los cinco principales fabricantes, pero la mayor parte de ese negocio está realmente dirigido a clientes externos. Por ejemplo, en AWS, la potencia de cálculo de NVIDIA se proporciona mayormente a clientes externos, no es utilizada por AWS en sí. En Azure, nuestros clientes también son mayormente clientes externos; lo mismo ocurre con OCI. Nos eligen porque nuestro alcance es muy amplio.

Podemos llevar a los mejores clientes del mundo hacia ellos, y estos clientes están construidos sobre la plataforma de NVIDIA. Y estas empresas están construidas sobre NVIDIA porque nuestra cobertura y flexibilidad son muy fuertes.

Así que creo que este volante está funcionando: la base instalada, la programabilidad de la arquitectura y la acumulación continua del ecosistema. Además, ahora hay miles de empresas de IA en todo el mundo. Si eres una de las startups de IA, ¿qué arquitectura elegirías? Elegirías la más popular, la que tiene la mayor base instalada y el ecosistema más rico. Esa es la lógica de este volante.

Así que las razones son:

· Primero, nuestro rendimiento por dólar es muy alto, de ahí el costo de token más bajo;

· Segundo, nuestro rendimiento por vatio es el más alto del mundo; si un socio construye un centro de datos de 1GW, debe generar la mayor cantidad de tokens, en otras palabras, los mayores ingresos. Y nuestra arquitectura puede producir la mayor cantidad de tokens por unidad de consumo de energía.

· Tercero, si tu objetivo es alquilar potencia de cálculo, tenemos la mayor cantidad de clientes a nivel global.

Por eso se creó este volante.

Dwarkesh Patel:
Muy interesante. Creo que el meollo del asunto es cómo es realmente la estructura del mercado. Incluso con muchas empresas, podría surgir un escenario: hay miles de empresas de IA, todas compartiendo aproximadamente el mismo poder de computación.

Pero si la realidad es que a través de estos proveedores de nube de hiperescala, los que realmente utilizan el poder de computación son empresas de modelos fundamentales como Anthropic y OpenAI, y tienen la capacidad de hacer funcionar diferentes aceleradores.

Jensen Huang:
Creo que tu premisa es incorrecta.

Dwarkesh Patel:
Quizás. Déjame reformular eso. Si estas afirmaciones sobre el rendimiento y el costo son ciertas, ¿por qué empresas como Anthropic, que acaba de anunciar una colaboración de múltiples exajoules de TPU con Broadcom y Google hace unos días, lo hicieron? Y la mayor parte de su poder de computación proviene de estos sistemas. Para Google, TPU es la fuente principal de poder de computación. Así que, al observar estas grandes empresas de IA, solían ser todas NVIDIA, pero eso ya no es el caso.

Si estas ventajas teóricamente se mantienen, ¿por qué seguirían eligiendo otros aceleradores?

Jensen Huang:
Anthropic es un caso bastante especial. Si no existiera Anthropic, el crecimiento de TPU apenas existiría. El crecimiento de TPU proviene casi en su totalidad de Anthropic. Del mismo modo, si no existiera Anthropic, el crecimiento en la demanda de entrenamiento casi no existiría.

Ese es un hecho muy claro. No hay numerosas oportunidades similares; en realidad, solo hay una Anthropic.

Dwarkesh Patel:
Pero OpenAI también colabora con AMD, y están desarrollando su propio acelerador Titan.

Nota: AMD (Advanced Micro Devices) es una empresa estadounidense de semiconductores que principalmente diseña chips de computación y es un competidor clave de NVIDIA e Intel.

Jensen Huang:
Pero la gran mayoría de ellos todavía utiliza NVIDIA. Continuaremos colaborando extensamente. No me molesta cuando otros prueban otras soluciones. Si no prueban otras soluciones, ¿cómo sabrán lo buena que es nuestra solución?

A veces es necesario reafirmar esto a través de la comparación. Y también debemos demostrar constantemente que merecemos nuestra posición actual.

Siempre ha habido diversas reclamaciones en el mercado. Puedes ver cuántos proyectos de ASIC han sido cancelados. Solo porque empecéis a hacer ASICs no significa que podáis crear algo mejor que NVIDIA.

De hecho, no es fácil. Incluso se puede decir que, racionalmente, no se sostiene bien. A menos que NVIDIA haya cometido realmente un error grave en algunos aspectos. Pero considerando nuestra escala, nuestro ritmo — somos la única empresa a nivel global que logra saltos significativos cada año.

Dwarkesh Patel:
Su lógica es: No necesitáis ser mejores que NVIDIA, solo no debéis ser un 70% peores que NVIDIA, porque piensan que vuestro margen de beneficio es del 70%.

Jensen Huang:
Pero no olvidéis, incluso con ASICs, el margen de beneficio es en realidad muy alto. El margen de beneficio de NVIDIA es de aproximadamente un 60%–70%, y el margen de beneficio de los ASICs también podría estar alrededor del 65%. Entonces, ¿cuánto habéis ahorrado realmente?


Siempre hay que pagar a alguien. Así que, por lo que he visto, el margen de beneficio de estos negocios fundamentales (ASIC) es en realidad muy alto, y ellos mismos también lo creen y están bastante orgullosos de ello.

En el pasado, en realidad no teníamos la capacidad para hacer esto. Y para ser sincero, en ese momento no entendía realmente lo difícil que es construir un laboratorio de modelos fundamentales como OpenAI o Anthropic. Tampoco me di cuenta plenamente de que realmente necesitan un apoyo masivo de inversión por parte de la oferta.

En ese momento, no teníamos la capacidad para hacer inversiones de miles de millones de dólares, como invertir en Anthropic para que usaran nuestro poder de computación. Pero Google y AWS podían, ellos aportaron enormes sumas de dinero desde el principio, y a cambio, Anthropic utiliza su poder de computación.

No teníamos la capacidad para hacer eso en aquel entonces, y tengo que decir que fue mi error: No me di cuenta plenamente de que realmente no tenían otra opción. Las firmas de capital riesgo no pueden invertir 5.000 millones o 10.000 millones de dólares para apoyar un laboratorio de IA y esperar que crezca hasta convertirse en Anthropic.

Ese fue mi error de juicio. Pero incluso si me hubiera dado cuenta en aquel momento, no creo que tuviéramos la capacidad en esa etapa para hacerlo.

Sin embargo, no cometeré el mismo error de nuevo. Estoy contento de invertir en OpenAI, y también estoy contento de ayudarles a expandirse, creo que es necesario. Cuando Anthropic se acercó a nosotros más tarde, también estuve contento de convertirme en inversor y ayudarles a crecer.

Era justo en ese momento, realmente no podíamos hacerlo. Si pudiéramos empezar de nuevo, si Nvidia ya fuera tan poderosa como lo es ahora en aquel entonces, estaría muy dispuesto a hacer esas cosas.

¿Por qué no hace Nvidia "nube"?

Dwarkesh Patel:
Esto es muy interesante. A lo largo de los años, Nvidia siempre ha sido una empresa que "vende palas para hacer dinero" en el campo de la IA, y ha ganado mucho dinero. Y ahora estáis empezando a invertir este dinero. Hay informes de que habéis invertido 30.000 millones de dólares en OpenAI, 10.000 millones en Anthropic. Y las valoraciones de estas empresas continúan aumentando.

Así que, mirando hacia atrás en los últimos años, les disteis poder de computación, visteis las tendencias, y en ese momento sus valoraciones eran solo una décima parte de lo que son ahora, o incluso mucho más bajas que lo que eran hace solo un año. Y teníais mucho dinero en efectivo en ese momento.

De hecho, hay una posibilidad: Nvidia podría haberse convertido en una empresa modelo fundamental por sí misma, o haber invertido a gran escala antes a una valoración más baja, similar a lo que estáis haciendo ahora.

Así que tengo mucha curiosidad, ¿por qué no hicisteis esto antes?

Jensen Huang:
Lo hicimos en el momento en que "pudimos." Si hubiésemos podido hacerlo en aquel entonces, lo habría hecho antes. Cuando Anthropic necesitaba nuestro apoyo al principio, lo habría hecho. Pero en ese momento, realmente no teníamos la capacidad.

Estaba más allá de nuestras capacidades y de nuestros hábitos de toma de decisiones.

Dwarkesh Patel:
¿Era un problema de financiación, o?

Jensen Huang:
Sí, era una cuestión de escala de inversión. Casi no teníamos tradición de inversión externa en ese momento, y mucho menos de inversión de esa escala. Y no nos dimos cuenta de que era necesario.

Mi pensamiento en ese momento era, podrían buscar capital de riesgo, igual que cualquier otra empresa. Pero lo que querían hacer estaba realmente más allá de lo que el capital de riesgo podía apoyar. Lo que OpenAI quería hacer también era algo que el capital de riesgo no podía apoyar.

Eso fue algo que más tarde me di cuenta. Pero ahí es donde fueron inteligentes. Se dieron cuenta en ese momento de que tenían que seguir ese camino. Me alegra que lo hicieran. Aunque no pudimos participar en su momento, lo que llevó a Anthropic a recurrir a otros socios, sigo pensando que es algo bueno. La existencia de Anthropic es algo bueno para todo el mundo, y me alegra por ello. Algunos arrepentimientos son aceptables.

Dwarkesh Patel:
Así que la pregunta volverá a un punto: Ahora que tenéis tanto efectivo disponible y sigue creciendo, ¿cómo debería NVIDIA utilizar esta financiación?

Una idea es que ahora hay un ecosistema intermediario que ayuda a estos laboratorios de IA a convertir el gasto de capital (capex) en gasto operativo (opex) para que puedan alquilar potencia de cálculo.

Porque las GPU son caras, pero a medida que los modelos avanzan, pueden generar continuamente tokens de mayor valor a lo largo de su ciclo de vida. Y NVIDIA misma tiene la capacidad de asumir estos gastos de capital iniciales. Por ejemplo, hay informes de que habéis proporcionado hasta 6.3 mil millones de dólares en apoyo a CoreWeave e invertido 2 mil millones.

Entonces, ¿por qué no se convierte NVIDIA en un proveedor de nube por sí misma? ¿Por qué no convertirse en un hyperscaler, construir su propia nube y alquilar potencia de cálculo? Después de todo, tenéis la capacidad de efectivo.

Jensen Huang:
Es una cuestión filosófica para la empresa, y creo que es una filosofía sabia: deberíamos hacer "tanto como sea necesario y tan poco como sea posible."

Esto significa que cuando se trata de construir una plataforma de computación, si no lo hacemos, creo sinceramente que no se hará.

Si no asumimos estos riesgos, no construimos NVLink, no construimos toda la pila de software, no creamos este ecosistema, no invertimos 20 años haciendo CUDA (la mayor parte de los cuales incluso fue perdiendo dinero), si no hacemos estas cosas, nadie más lo hará. Si no construimos estas bibliotecas específicas de dominio de CUDA-X—ya sea trazado de rayos, generación de imágenes, modelos de IA tempranos, procesamiento de datos, datos estructurados, procesamiento de datos vectoriales—si no lo hacemos, estas cosas no existirán.

Estoy completamente convencido de esto. Incluso desarrollamos una biblioteca para litografía computacional llamada cuLitho; si no lo hacemos, nadie más lo hará.

Así que la razón por la que la computación acelerada se ha desarrollado hasta el punto en que está hoy es porque hicimos estas cosas. Esa es la parte a la que deberíamos comprometernos plenamente.

Pero al mismo tiempo, ya hay muchos proveedores de nube en el mundo. Incluso si no lo hacemos, alguien más lo hará. Así que, basándonos en el principio de hacer tanto como sea necesario, pero lo menos posible de otras cosas, este concepto siempre ha estado presente en la empresa. Cada decisión que tomo se ve desde esta perspectiva.

En el espacio de la nube, si no hubiésemos apoyado a CoreWeave inicialmente, estas nuevas nubes de IA (neocloud) podrían no existir. Si no los hubiésemos apoyado, no se habrían desarrollado a la escala que tienen hoy. Lo mismo ocurre con Nscale, Nebius; si no fuera por nuestro apoyo, no habrían llegado tan lejos. Y ahora, todos ellos se han desarrollado bastante bien.


Pero, ¿es este un negocio en el que deberíamos involucrarnos personalmente? No. Aún nos adherimos a ese principio: hacer lo que es necesario y hacer lo menos posible más allá de eso. Así que invertiremos en el ecosistema porque quiero que todo el ecosistema prospere. Quiero que nuestra arquitectura conecte tantas industrias y tantos países como sea posible, permitiendo que la IA se desarrolle globalmente y se construya sobre una pila tecnológica basada en los Estados Unidos.

Esta es la visión que estamos promoviendo.

Al mismo tiempo, como mencionaste, ahora hay muchas empresas excelentes de modelos fundamentales, y trataremos de invertir en ellas tanto como sea posible.

Otro punto es que no "elegiremos ganadores." Queremos apoyar a todos. Esto es tanto una necesidad empresarial como algo que estamos dispuestos a hacer. Así que cuando invierto en una empresa, también invertiré en otras.

Dwarkesh Patel:
¿Entonces por qué evitas deliberadamente elegir ganadores?

Jensen Huang:
Porque esa no es nuestra responsabilidad. Ese es el primer punto.

En segundo lugar, cuando NVIDIA se fundó por primera vez, había alrededor de 60 empresas de gráficos, 60 empresas que hacían gráficos en 3D. Al final, solo nosotros sobrevivimos. Si hubieras elegido una de esas 60 empresas en aquel entonces para tener éxito, NVIDIA probablemente era la menos probable de tener éxito.

Eso fue antes de tu tiempo, pero en ese momento, la arquitectura gráfica de NVIDIA estaba completamente equivocada. No un poco equivocada, sino fundamentalmente equivocada. Diseñamos una arquitectura que los desarrolladores apenas podían soportar, que estaba condenada al fracaso. Lo dedujimos a partir de principios iniciales muy razonables, pero terminamos con la solución equivocada.

Todo el mundo pensaba que no podíamos tener éxito, pero al final, aún sobrevivimos. Así que tengo suficiente humildad para admitir esto y no elegir ganadores. O dejarlos desarrollar por su cuenta, o apoyar a todos.

Dwarkesh Patel:
Hay un punto que no entendí del todo. Dijiste que no estás priorizando deliberadamente el apoyo a estos nuevos proveedores de nube, pero también mencionaste que sin NVIDIA, podrían no existir. ¿Cómo coexisten estos dos puntos?

Jensen Huang:
Primero, deben querer existir por su cuenta y buscar activamente nuestra ayuda. Cuando tienen una intención clara, un plan de negocio, capacidad y pasión—por supuesto, también deben tener un cierto nivel de habilidad—si necesitan apoyo de inversión en la etapa inicial, estaremos allí.

Pero la clave es que establezcan rápidamente su propio ciclo de retroalimentación. Tu pregunta hace un momento fue, ¿queremos entrar en el negocio de la financiación? La respuesta es no. No queremos convertirnos en una institución financiera. Ya hay muchas personas en el mercado haciendo financiación, y preferimos cooperar con estas instituciones financieras en lugar de hacer financiación nosotros mismos.

Así que nuestro objetivo es centrarnos en nuestro propio negocio, mantener el modelo de negocio lo más simple posible y, al mismo tiempo, apoyar a todo el ecosistema.

Jensen Huang:
Cuando una empresa como OpenAI necesita una inversión de 30 mil millones de dólares antes de salir a bolsa, y creemos mucho en ellos—personalmente creo que ya son una empresa extraordinaria y se convertirán en una empresa aún más notable. El mundo necesita que existan, todos esperan que existan, y yo también espero que existan. Tienen todos los elementos para tener éxito, así que los apoyamos y les ayudamos a expandirse.

Por lo tanto, haremos este tipo de inversión porque realmente nos necesitan para hacerlo. Pero nuestro principio no es "hacer tanto como sea posible", sino "hacer lo menos posible."

Dwarkesh Patel:
Esta pregunta puede parecer un poco obvia, pero durante muchos años hemos estado en un estado de escasez de GPU, y a medida que los modelos se vuelven más potentes, esta situación se hace más pronunciada.

Jensen Huang:
Sí, tenemos una escasez de GPU.

Dwarkesh Patel:
Y se considera que NVIDIA no distribuye simplemente estos recursos escasos en función de la oferta más alta, sino que considera cosas como asegurar la existencia de estos nuevos proveedores de nube—dando algunos a CoreWeave, algunos a Crusoe, algunos a Lambda.

Primero, ¿estás de acuerdo con este punto de vista? En segundo lugar, ¿qué beneficios trae esto a NVIDIA?

Jensen Huang:
Creo que tu premisa es incorrecta. Por supuesto, consideraremos estos asuntos con mucho cuidado.

Primero, si no tienes una Orden de Compra (PO), no importa cuánta comunicación haya. Así que, primero y ante todo, trabajaremos arduamente con todos los clientes para prever la demanda porque el ciclo de producción de estos productos es muy largo, y el período de construcción del centro de datos también es muy largo. Alineamos la oferta y la demanda a través de la previsión, que es lo primero.

En segundo lugar, haremos previsiones con tantos clientes como sea posible. Pero al final, todavía tienes que hacer un pedido. Si no haces un pedido, entonces no puedo hacer nada. Así que en algún momento, es "el primero en llegar, el primero en ser atendido."

Sin embargo, aparte de eso, si tu centro de datos aún no está listo, o si ciertos componentes clave no están listos, lo que te impide desplegar temporalmente el sistema, podemos priorizar atender a otros clientes. Esto es solo para maximizar la eficiencia general de producción de nuestras fábricas.

Además de este escenario, la regla de prioridad es "el primero en llegar, el primero en ser atendido." Debes hacer un pedido. Si no haces un pedido, simplemente no hay manera.

Por supuesto, hay muchas historias por ahí. Por ejemplo, algunos dicen que durante una cena con Larry, Elon y yo, solicitaron una GPU — efectivamente cenamos juntos, lo cual fue una velada muy agradable, pero nunca "solicitaron" una GPU. Solo necesitaban hacer un pedido. Una vez que se realiza un pedido, haremos todo lo posible para proporcionar capacidad. No es tan complicado como algunos lo hacen parecer.

Dwarkesh Patel:
Así que suena como un mecanismo de cola, dependiendo de cuándo hagas el pedido y si el centro de datos está listo. Pero esto aún no es simplemente "el que más ofrece gana," ¿verdad?

Jensen Huang:
Nunca hacemos eso.

Dwarkesh Patel:
¿Nunca asignar en función de la oferta más alta?

Jensen Huang:
Nunca. Porque eso es una práctica comercial terrible.

Tú estableces el precio, y el cliente decide si comprar. Conozco algunas empresas en la industria que aumentan los precios cuando la demanda se dispara, pero nosotros no lo hacemos. Nunca ha sido nuestra práctica. Los clientes pueden confiar en nosotros. Prefiero ser una presencia fiable, una piedra angular de la industria. No necesitas preocuparte por los cambios de precio.

Si te doy un presupuesto, ese es el precio final. Incluso si la demanda se dispara, no cambiará.

Dwarkesh Patel:
Entonces, ¿es esta también una de las razones de tu relación estable con TSMC, verdad?

Jensen Huang:
NVIDIA y TSMC han estado colaborando durante casi 30 años. Ni siquiera hay un contrato legal formal entre NVIDIA y TSMC; es más bien un entendimiento general. A veces tengo razón, a veces me equivoco; a veces consigo mejores condiciones, a veces no tan buenas. Pero en general, esta relación es notable. Puedo confiar plenamente en ellos y contar con ellos.

Además, para NVIDIA, hay una cosa en la que puedes confiar: este año, Rubin será excepcional, el próximo año se lanzará Vera Rubin Ultra, el año siguiente se lanzará Feynman, y el año después de ese — el nombre del cual aún no he revelado. En otras palabras, cada año, puedes confiar en nosotros. Tienes que encontrar otro equipo de ASIC en todo el mundo y ver si alguno puede hacerte decir: "Puedo apostar toda la empresa por ti, confío en que me apoyarás cada año."

El costo de mi token disminuirá en un orden de magnitud cada año, y puedo confiar en esto como confiar en un reloj. Acabo de decir algo similar sobre TSMC. Ninguna fábrica de obleas en la historia ha permitido que digas esto.

Pero hoy, puedes decir esto sobre NVIDIA. Puedes confiar en nosotros año tras año.

Si quieres comprar 1.000 millones de dólares en computación para fábricas de IA, no hay problema; si quieres comprar 100 millones, tampoco hay problema; si quieres comprar 10 millones, o incluso solo un rack, no hay problema; incluso si solo quieres comprar una GPU, no hay problema. Si quieres hacer un pedido de 1 billón de dólares para una fábrica de IA a continuación, tampoco hay problema.

Hoy, somos la única empresa en el mundo que puede decir esto. Y también puedo decir esto a TSMC: Quiero comprar 1.000 millones, no hay problema. Solo necesitamos planificar juntos, seguir el proceso, hacer esas cosas que haría una empresa madura.

Así que creo que NVIDIA puede convertirse en la base de la industria global de IA, una posición que hemos tardado décadas en alcanzar. Hay una gran inversión y enfoque en esto, y la estabilidad y consistencia de la empresa son muy importantes.

Por qué NVIDIA rechaza la "apuesta de múltiples hojas de ruta"

Dwarkesh Patel:
Esto en realidad lleva a una pregunta muy interesante. Hablamos anteriormente sobre TSMC, cuellos de botella de memoria, y así sucesivamente. Ahora, si entramos en un mundo como este: has ocupado la mayor parte de la capacidad N3, y en el futuro, también puedes ocupar la mayor parte de la capacidad N2. ¿Considerarías volver a utilizar la capacidad ociosa de nodos de proceso más antiguos como 7nm?

Por ejemplo, si la demanda de IA es demasiado alta, y el aumento de la capacidad del nodo de proceso más avanzado no puede mantenerse al día, entonces puedes aprovechar toda la experiencia actual sobre optimización numérica y diseño de sistemas para crear una nueva versión de Hopper o Ampere. ¿Crees que esta situación surgirá antes de 2030?

Jensen Huang:
No hay necesidad de eso. La razón es que el avance de cada generación arquitectónica no es solo un cambio en el tamaño del transistor. También has realizado mucho trabajo de ingeniería en empaquetado, apilamiento, sistemas numéricos y arquitectura de sistemas. Para cuando llegues a este punto, volver a una versión antigua de nodo requeriría una inversión en I+D que nadie puede permitirse. Podemos permitirnos seguir avanzando, pero no creo que podamos permitirnos retroceder.

Por supuesto, si hacemos un experimento mental: supongamos que un día todos dicen que la capacidad avanzada nunca podrá aumentar de nuevo. ¿Volvería inmediatamente a usar 7nm? Por supuesto, sin duda.

Dwarkesh Patel:
Anteriormente tuve una discusión con alguien sobre una pregunta: ¿por qué NVIDIA no impulsa simultáneamente múltiples proyectos de chips completamente diferentes? Por ejemplo, podrías hacer uno como la arquitectura de escala de oblea de Cerebras, uno como el gran empaquetado de Dojo, y uno que no dependa de CUDA.

Tienes los recursos y el talento de ingeniería para hacer estas cosas en paralelo. Dado que nadie sabe con certeza hacia dónde se dirige la IA o la arquitectura en el futuro, ¿por qué poner todos los huevos en una sola cesta?

Jensen Huang:
Ciertamente podríamos hacer eso. Es solo que no hemos visto una mejor solución. Hemos simulado todas estas cosas, y es probable que sean inferiores en nuestro emulador. Así que no lo haremos. Lo que estamos haciendo ahora es lo que realmente queremos hacer y lo que creemos que es lo más correcto.

Por supuesto, si la carga de trabajo futura sufre un cambio radical—no estoy hablando de cambios de algoritmo, sino de si la carga de trabajo realmente cambia—entonces podríamos añadir otros tipos de aceleradores.


Por ejemplo, recientemente añadimos Grok, y vamos a integrar Grok en el ecosistema CUDA. Estamos haciendo esto ahora. Esto se debe a que el valor de los tokens se ha vuelto muy alto, por lo que el mismo modelo, basado en diferentes velocidades de respuesta, puede corresponder a diferentes niveles de precios.

Hace unos años, los tokens eran casi gratuitos, o tan baratos que eran casi gratuitos. Pero ahora, diferentes clientes tienen diferentes requisitos para los tokens. Y estos mismos clientes pueden ganar mucho dinero con ello. Por ejemplo, para los ingenieros de software, si puedo ofrecerles un token de respuesta más rápida para hacerlos más eficientes de lo que son hoy, entonces estoy dispuesto a pagar por ello.


Pero este tipo de mercado solo ha surgido recientemente. Así que creo que ahora, por primera vez, realmente tenemos la capacidad de tener el mismo modelo para diferentes niveles de mercado basado en el tiempo de respuesta.

Esa es también la razón por la que decidimos extender esta frontera de Pareto para crear una rama de inferencia de "respuesta más rápida, pero menor rendimiento". Porque en el pasado, el alto rendimiento siempre fue lo más importante. Pero ahora creemos que en el futuro puede haber un tipo de token de alto ASP (alto precio por unidad). Incluso si el rendimiento en la fábrica es menor, el precio por unidad es suficiente para compensarlo.

Esta es la razón por la que estamos haciendo esto. Pero si solo hablamos de la arquitectura en sí, diría que, si tuviera más dinero, invertiría más en la arquitectura existente.

Dwarkesh Patel:
Encuentro muy interesante la idea de este "token ultra-premium" y la estratificación del mercado de inferencia.


Una última pregunta. Suponiendo que la revolución del aprendizaje profundo nunca hubiera ocurrido, ¿qué estaría haciendo NVIDIA hoy?

Jensen Huang:
Bueno, por supuesto, los videojuegos seguirían siendo un enfoque, pero además, continuaríamos con la computación acelerada. Este siempre ha sido nuestro camino.

La premisa fundamental de nuestra empresa es que la Ley de Moore se ralentizaría. La computación de propósito general es excelente para muchas cosas, pero no es ideal para muchas tareas computacionales. Así que combinamos la arquitectura de la GPU con la CPU para acelerar las cargas de trabajo de la CPU. Diferentes núcleos de código, diferentes algoritmos pueden ser descargados para ejecutarse en la GPU. De esta manera, una aplicación puede acelerarse entre 100 y 200 veces.

¿Dónde se utilizaría esto? Bueno, en ingeniería, ciencia, física, procesamiento de datos, gráficos por ordenador, generación de imágenes y diversas otras áreas.


Así que, incluso si la IA no existiera hoy, NVIDIA seguiría siendo una empresa muy grande. La razón es bastante fundamental: la capacidad de seguir expandiendo la computación de propósito general ha alcanzado esencialmente sus límites. Y una forma de mejorar el rendimiento—una forma crucial, no la única—es realizar aceleración específica de dominio.

Inicialmente entramos en gráficos por ordenador, pero hay muchas otras áreas. Como diversos cálculos científicos, física de partículas, simulaciones de fluidos, procesamiento de datos estructurados, y así sucesivamente—varios tipos de algoritmos que pueden beneficiarse de CUDA.


Así que nuestra misión siempre ha sido llevar la computación acelerada al mundo, impulsar aplicaciones que la computación de propósito general no puede lograr, o no puede escalar al nivel de rendimiento necesario, para ayudar a los avances en el campo científico. Algunas de nuestras primeras aplicaciones fueron en dinámica molecular, procesamiento sísmico para exploración de energía, y por supuesto, procesamiento de imágenes.

En todas estas áreas, la computación de propósito general era demasiado ineficiente por sí sola. Así que sí, si no hubiera IA, estaría triste. Pero precisamente debido a nuestro progreso en computación, democratizamos el aprendizaje profundo. Permitimos que cualquier investigador, cualquier científico, cualquier estudiante, en cualquier lugar, utilizara un PC o una GPU GeForce para hacer descubrimientos científicos notables. Y este compromiso fundamental nunca ha flaqueado, ni un poco.

Así que si miras GTC, encontrarás que una parte significativa del contenido en realidad no está relacionada con la IA en absoluto. Ya sea litografía computacional, química cuántica o procesamiento de datos, todos estos son importantes pero no están relacionados con la IA. Sé que la IA es fascinante y muy emocionante.

Sin embargo, todavía hay muchas personas haciendo trabajos muy importantes que no están relacionados con la IA. Tensor no es su único modo de computación. Y queremos ayudar a todas estas personas.

Dwarkesh Patel:
Jensen, muchas gracias.

Jensen Huang:
De nada, realmente disfruté esta conversación.

[Enlace del Artículo Original]

Te puede gustar

Monedas populares

Últimas noticias cripto

Leer más