O Último Podcast de Huang Renxun: O fosso da NVIDIA pode resistir?

By: blockbeats|2026/04/17 18:00:03

Título do Vídeo: Jensen Huang: - O fosso da Nvidia vai persistir?
Autor do Vídeo: Dwarkesh Patel
Tradução: Peggy, BlockBeats

Nota do Editor: Enquanto o mundo exterior ainda debate se "o fosso da Nvidia vem da cadeia de suprimentos", esta conversa argumenta que o que é realmente difícil de replicar não é o chip em si, mas a capacidade do sistema inteiro de "eletrificar em tokens" - desde a arquitetura computacional, sistema de software até a operação colaborativa do ecossistema de desenvolvedores.

Este artigo é compilado a partir da conversa entre Dwarkesh Patel e Jensen Huang. Dwarkesh Patel é um dos apresentadores de podcast de tecnologia mais assistidos no Vale do Silício, apresentando o canal do YouTube Dwarkesh Podcast, especializado em entrevistas de pesquisa aprofundadas, engajando-se em diálogos de longo prazo com pesquisadores de IA e figuras centrais da indústria de tecnologia.

O Último Podcast de Huang Renxun: O fosso da NVIDIA pode resistir?

À direita está Dwarkesh Patel, à esquerda está Jensen Huang

Em torno deste núcleo, esta conversa pode ser compreendida a partir de três perspectivas.

Primeiro, há a mudança na tecnologia e na estrutura da indústria.
A vantagem da Nvidia não está apenas no desempenho do hardware, mas no ecossistema de desenvolvedores sustentado pelo CUDA, e na dependência de caminho formada em torno da pilha computacional. Neste sistema, a potência computacional não é mais a única variável, e algoritmos, engenharia de sistemas, redes e eficiência energética juntos determinam o ritmo do avanço da IA. Isso também leva a um julgamento importante: o software não será simplesmente "comoditizado" pela IA; ao contrário, com a proliferação de agentes, as invocações de ferramentas crescerão exponencialmente, amplificando ainda mais o valor do software.

Em segundo lugar, existem os limites dos negócios e das escolhas estratégicas.
Enfrentando a cadeia da indústria de IA que se expande continuamente, a Nvidia opta por "fazer o que é necessário, mas não fazer tudo." Ela não entra na computação em nuvem, nem se envolve em uma integração vertical excessiva, mas sim amplia o tamanho total do mercado por meio de investimentos e apoio ao ecossistema. Essa contenção permite que mantenha um controle crítico enquanto evita se tornar um substituto de um ecossistema, trazendo assim mais participantes para seu sistema tecnológico.

Em terceiro lugar, há uma discrepância na difusão da tecnologia e na paisagem da indústria.
A parte mais tensa da conversa não está nas conclusões específicas, mas em como entender o "risco" em si. Um ponto de vista enfatiza a vantagem do primeiro a se mover trazida pela liderança em poder computacional, enquanto outro foca mais na atribuição de longo prazo de ecossistemas e padrões no processo de difusão da tecnologia. Mais do que a lacuna de capacidade de curto prazo, a questão mais crítica pode ser: em qual sistema tecnológico os futuros modelos de IA e desenvolvedores irão operar.

Em outras palavras, o objetivo final dessa competição não é apenas "quem pode construir um modelo mais poderoso primeiro," mas sim "quem define a infraestrutura sobre a qual o modelo opera."

Nesse sentido, o papel da NVIDIA não é mais apenas o de uma empresa de chips, mas se aproxima de ser o "fornecedor do sistema operacional subjacente" da era da IA—ela busca garantir que, não importa como o poder computacional se prolifere, o caminho para a criação de valor ainda gire em torno de si mesma.

A seguir está o conteúdo original (reorganizado para facilitar a compreensão):

RESUMO

· A vantagem competitiva da NVIDIA não reside em "chips" mas na "capacidade do sistema completo, desde elétrons até Tokens." O núcleo não é o desempenho do hardware, mas a capacidade de converter computação em valor por meio de uma abordagem de pilha completa (arquitetura + software + ecossistema).

· A vantagem essencial do CUDA não é a ferramenta em si, mas o maior ecossistema de desenvolvedores de IA do mundo. Desenvolvedores, frameworks e modelos estão todos vinculados à mesma pilha tecnológica, formando uma dependência de caminho insubstituível.

· A chave para a competição em IA não é apenas o poder computacional, mas a combinação de "pilha computacional × algoritmos × engenharia de sistemas." Melhorias em arquitetura, redes, eficiência energética e colaboração de software superam em muito o progresso da mera tecnologia de processo.

· O gargalo computacional é uma questão de curto prazo, e a oferta será reabastecida impulsionada por sinais de demanda dentro de 2 a 3 anos. A verdadeira limitação de longo prazo não é o chip, mas sim a energia e a infraestrutura.

· O software de IA não será comoditizado; em vez disso, experimentará um crescimento exponencial no uso de ferramentas devido à explosão de Agentes. O futuro não é software mais barato, mas um aumento exponencial na invocação de software.

· A estratégia central da NVIDIA não é aventurar-se na nuvem: fazer "tudo o que for necessário" mas não engolir toda a cadeia de valor. Através de investimento e apoio ao ecossistema, em vez de integração vertical, a NVIDIA amplifica o tamanho total do mercado.

· O verdadeiro risco estratégico não é a concorrência ganhando poder computacional, mas o ecossistema global de IA não estar mais baseado na pilha tecnológica americana. Uma vez que modelos e desenvolvedores migrem, os padrões técnicos de longo prazo e a dominância industrial mudarão de acordo.

Conteúdo da Entrevista

Onde está a vantagem competitiva da NVIDIA: na cadeia de suprimentos ou no controle de "elétrons a Tokens"?

Dwarkesh Patel (Anfitrião):

Vimos muitas avaliações de empresas de software caírem porque se espera que a IA transforme o software em uma commodity padronizada. Há outra compreensão um tanto ingênua que vai mais ou menos assim: você vê, a partir dos arquivos de design (GDS2) entregues à TSMC, a TSMC é responsável pela fabricação do chip lógico, fabricação de wafers, construção dos circuitos de comutação, e então embalagem com HBM produzido pela SK Hynix, Micron, Samsung, e finalmente enviado para ODM para montagem em um quadro de máquina completo.

Nota: HBM (Memória de Alta Largura de Banda) é uma tecnologia de memória avançada projetada especificamente para computação de alto desempenho e IA; ODM (Fabricante de Design Original) refere-se a um fabricante sob contrato responsável tanto pela produção quanto pelo design do produto.

Portanto, sob essa perspectiva, a NVIDIA está essencialmente fazendo software, enquanto a fabricação é realizada por outros. Se o software for comoditizado, então a NVIDIA também será comoditizada.

Jensen Huang (CEO da NVIDIA):
Mas, em última análise, deve haver um processo para converter elétrons em tokens. De elétrons a tokens, e tornando esses tokens mais valiosos ao longo do tempo, eu acho que essa transformação é difícil de comoditizar completamente.

A transformação de elétrons em tokens é, em si, um processo muito extraordinário. E tornar um token mais valioso, como tornar uma molécula mais valiosa do que outra, é tornar um token mais valioso do que outro token.

Neste processo, há uma grande quantidade de arte, engenharia, ciência e invenção envolvidas para dar valor a este token.

Claramente, estamos testemunhando tudo isso acontecer em tempo real. Portanto, esse processo de transformação, o processo de fabricação e os vários sinais envolvidos não foram totalmente compreendidos, e essa jornada está longe de acabar. Então, eu não acho que esse cenário acontecerá.

Claro, nós o tornaremos mais eficiente. Na verdade, a maneira como você acabou de descrever o problema é, na verdade, um modelo mental que eu tenho da NVIDIA: a entrada são elétrons, a saída são tokens, e a NVIDIA está no meio.

Nosso trabalho é "fazer o máximo do que é necessário e o mínimo do que é desnecessário possível" para alcançar essa transformação e dar a ela uma capacidade extremamente alta.

Quando digo "o mínimo possível", quero dizer que para qualquer coisa que não precisamos fazer nós mesmos, colaboraremos com outros e incorporaremos isso em nosso ecossistema. Se você olhar para a NVIDIA hoje, podemos ter um dos maiores ecossistemas de parceiros tanto nas cadeias de suprimento upstream quanto downstream. De fabricantes de computadores, desenvolvedores de aplicativos, até desenvolvedores de modelos—você pode ver a IA como um "bolo de cinco camadas", e temos um layout de ecossistema nesses cinco níveis.

Leitura Relacionada: "O Último Artigo do CEO da NVIDIA, Jensen Huang: O 'Bolo de Cinco Camadas' da IA"

Então, tentamos fazer o mínimo possível, mas a parte que devemos fazer é, na verdade, extremamente difícil. E eu não acho que essa parte será comoditizada.

Na verdade, eu também não acho que as empresas de software empresarial estão fundamentalmente no negócio de "fabricação de ferramentas." No entanto, a realidade é que a maioria das empresas de software hoje são, de fato, fornecedoras de ferramentas.
Claro, há exceções; algumas estão codificando e solidificando sistemas de fluxo de trabalho, mas muitas empresas são fundamentalmente empresas de ferramentas.

Por exemplo, o Excel é uma ferramenta, o PowerPoint é uma ferramenta, o que a Cadence faz é uma ferramenta, e a Synopsys também é uma ferramenta.

Jensen Huang:
E a tendência que vejo é, na verdade, contrária às opiniões de muitas pessoas. Acredito que o número de agentes crescerá exponencialmente, e o número de usuários de ferramentas também crescerá exponencialmente.

O número de instâncias chamando várias ferramentas também deve aumentar. Por exemplo, as instâncias de uso do Synopsys Design Compiler podem aumentar significativamente.
Haverá um grande número de agentes utilizando planejadores de layout, ferramentas de layout e ferramentas de verificação de regras de design.

Hoje, estamos limitados pelo número de engenheiros; mas amanhã, esses engenheiros serão apoiados por um grande número de agentes, e exploraremos o espaço de design de maneiras sem precedentes. Quando você começar a usar essas ferramentas hoje, essa mudança será muito aparente.

O uso de ferramentas levará essas empresas de software a alcançar um crescimento explosivo. Esse crescimento explosivo ainda não aconteceu porque os agentes atuais ainda não são proficientes no uso das ferramentas.

Portanto, ou essas empresas constroem agentes por conta própria, ou os próprios agentes se tornam fortes o suficiente para usar essas ferramentas. Acredito que o resultado final será uma combinação de ambos.

Dwarkesh Patel
Lembro que em sua divulgação mais recente, você tinha cerca de $100 bilhões em compromissos de aquisição para componentes de limite, memória, embalagem, etc. E o relatório da SemiAnalysis sugere que esse número pode chegar a $250 bilhões.

Uma interpretação é que a vantagem competitiva da NVIDIA reside em você garantir o fornecimento desses componentes escassos para os próximos anos. Em outras palavras, outros podem fazer aceleradores também, mas conseguem obter memória suficiente? Conseguem obter chips lógicos suficientes?

Essa é a principal vantagem da NVIDIA nos próximos anos?

Jensen Huang:
Isso é algo que podemos fazer, mas é muito difícil para outros fazerem. A razão pela qual podemos fazer compromissos tão massivos a montante é em parte explícita, como nos compromissos de aquisição que você mencionou; e em parte implícita.

Por exemplo, grande parte do investimento a montante é, na verdade, feito por nossos parceiros da cadeia de suprimentos, porque eu diria ao CEO deles: Deixe-me dizer o quão grande essa indústria vai ser, deixe-me explicar o porquê, deixe-me deduzir com você, deixe-me contar o que eu vejo.

Através desse processo—transmitindo informações, inspirando uma visão, construindo consenso—eu me alinho com CEOs de diferentes indústrias a montante, e só então eles estão dispostos a fazer esses investimentos.

Então, por que eles estão dispostos a investir em mim e não em outros? Porque eles sabem que eu tenho a capacidade de comprar a capacidade deles e digeri-la através do meu setor a jusante. É precisamente por causa da demanda a jusante da NVIDIA e da escala da cadeia de suprimentos que eles estão dispostos a investir a montante.

Olhe para o GTC, a escala da conferência surpreendeu muitas pessoas. É essencialmente um universo de IA de 360 graus que reúne toda a indústria. Todos se reúnem porque precisam se ver. Eu os reúno para que o setor a montante veja o setor a jusante, o setor a jusante veja o setor a montante, e ao mesmo tempo deixe todos verem o progresso da IA.

Mais importante, eles podem interagir com empresas nativas de IA e startups, ver várias inovações acontecendo em primeira mão e, assim, validar aqueles julgamentos que eu fiz.

Portanto, passei muito tempo, direta ou indiretamente, explicando as oportunidades atuais para nossos parceiros da cadeia de suprimentos e do ecossistema. Muitas pessoas diriam que minha apresentação não é como um anúncio de produto tradicional um após o outro em uma conferência, mas tem uma parte que soa como "ensinar." E esse é, na verdade, meu propósito.

Preciso garantir que toda a cadeia de suprimentos—seja a montante ou a jusante—entenda: o que vai acontecer a seguir, por que isso vai acontecer, quando isso vai acontecer, quão grande será a escala, e ser capaz de raciocinar sistematicamente sobre essas questões como eu faço.

Portanto, a "barreira" que você acabou de mencionar realmente existe. Se este mercado atingir uma escala de um trilhão de dólares nos próximos anos, temos a capacidade de construir a cadeia de suprimentos para apoiá-lo. Assim como o fluxo de caixa, a cadeia de suprimentos também tem fluxo e rotatividade. Se a rotatividade de uma arquitetura de negócios não for rápida o suficiente, ninguém construirá uma cadeia de suprimentos para ela. A razão pela qual podemos sustentar essa escala é que a demanda a jusante é extremamente forte, e todos podem ver isso.

É precisamente esse ponto que nos permite fazer essas coisas na escala em que estamos agora.

Dwarkesh Patel
Eu ainda quero entender melhor se a cadeia de suprimentos consegue acompanhar. Nos últimos anos, sua receita basicamente dobrou ano após ano, e a capacidade de computação que você fornece ao mundo até triplicou.

Jensen Huang:
E continua a dobrar nessa escala.

Dwarkesh Patel:
Exatamente. Então, se você olhar para os chips lógicos, como você é um dos maiores clientes da TSMC no processo N3, também é um cliente importante no N2.
De acordo com algumas análises, este ano a IA pode representar 60% da capacidade do N3, e no próximo ano pode até chegar a 86%.

Nota: N3 refere-se ao processo de 3 nanômetros (3nm) da TSMC, que pode ser entendido como um dos processos de fabricação de chips mais avançados da TSMC.

Então, dado que você já ocupa uma fatia tão grande, como pode continuar a dobrar? E dobrar a cada ano, por sinal? Entramos em uma fase onde o crescimento do poder computacional da IA deve desacelerar devido a restrições na cadeia de suprimentos? Há uma maneira de contornar essas limitações? Como podemos possivelmente construir duas fábricas de wafers a cada ano?

Jensen Huang:
Em certos momentos, a demanda instantânea realmente excede a oferta total da indústria, tanto a montante quanto a jusante. E em certos casos, podemos até ser limitados pelo número de encanadores—isso realmente aconteceu.

Dwarkesh Patel:
Portanto, o GTC do próximo ano deve convidar encanadores.

Jensen Huang:
Sim, na verdade é um bom fenômeno. Você quer estar em um mercado como este: onde a demanda instantânea é maior do que a oferta total da indústria. Por outro lado, claro, não é tão bom.

Se a diferença entre os dois for muito grande, um elo específico, um determinado componente se torna um gargalo claro, e toda a indústria correrá para resolvê-lo. Por exemplo, percebi que as pessoas não estão falando muito sobre CoWoS agora. A razão é que, nos últimos dois anos, fizemos um enorme investimento e expansão nele, multiplicando-o várias vezes.

Agora, acho que a situação geral está bastante boa. A TSMC também percebeu que o fornecimento de CoWoS deve acompanhar a crescente demanda por chips lógicos e memória. Portanto, eles estão expandindo o CoWoS enquanto também expandem as tecnologias de embalagem avançadas futuras, e estão se expandindo no mesmo ritmo que os chips lógicos.

Isso é muito importante porque, no passado, CoWoS e memória HBM eram mais como "capacidades especiais", mas não mais. Agora, todos perceberam que eles fazem parte da tecnologia de computação convencional.

Ao mesmo tempo, agora temos a capacidade de influenciar uma cadeia de suprimentos mais ampla. No passado, quando a revolução da IA estava apenas começando, o que estou falando agora, eu estava, na verdade, falando há cinco anos.

Algumas pessoas acreditaram e investiram naquela época, como a equipe de Sanjay da Micron. Ainda me lembro vividamente daquela reunião, onde expliquei claramente o que aconteceria no futuro, por que aconteceria e previ os resultados que vemos hoje. Naquela época, eles escolheram aumentar significativamente seu investimento, e também estabelecemos uma parceria com eles. Eles fizeram investimentos em várias direções, como LPDDR e HBM, o que obviamente trouxe retornos significativos para eles. Algumas empresas seguiram depois, mas agora todos entraram nesta fase.

Portanto, acredito que cada geração de tecnologia, cada gargalo, receberá muita atenção. E agora, temos estado "antecipando" esses gargalos vários anos antes. Por exemplo, nossa colaboração com a Lumentum, Coherent e todo o ecossistema de fotônica de silício. Nos últimos anos, na verdade, reformulamos todo o ecossistema e a cadeia de suprimentos.

No campo da fotônica de silício, construímos uma cadeia de suprimentos completa em torno da TSMC, colaboramos com eles para desenvolver tecnologia, inventamos muitas novas tecnologias e licenciamos essas patentes para a cadeia de suprimentos, mantendo a abertura do ecossistema. Preparamos a cadeia de suprimentos inventando novas tecnologias, novos fluxos de trabalho, novos equipamentos de teste (incluindo detecção de dois lados), investindo em empresas relacionadas e ajudando-as a escalar.

Assim, você pode ver que estamos moldando ativamente esse ecossistema para permitir que a cadeia de suprimentos suporte a escala futura.

Dwarkesh Patel:
Parece que alguns gargalos são mais fáceis de resolver do que outros. Por exemplo, em comparação com a expansão do CoWoS, existem aqueles que são mais difíceis.

Jensen Huang:
Na verdade, o que acabei de mencionar é o mais difícil.

Dwarkesh Patel:
Qual deles?

Jensen Huang:
Encanador. Sim, realmente. O que mencionei anteriormente é o mais difícil — encanadores e eletricistas. A razão é que isso também me preocupa um pouco em relação a alguns "profetas do apocalipse" que estão sempre falando sobre empregos desaparecendo, posições sendo substituídas. Se aconselharmos as pessoas a não se tornarem engenheiros de software por causa disso, então realmente teremos falta de engenheiros de software no futuro.

Previsões semelhantes foram feitas há dez anos. Naquela época, alguns disseram: "Faça o que fizer, não se torne um radiologista." Você ainda pode encontrar esses vídeos online, dizendo que a radiologia seria a primeira profissão a ser eliminada, e o mundo não precisaria mais de radiologistas. Mas a realidade é que agora estamos com falta de radiologistas.

Dwarkesh Patel:
Ok, voltando à pergunta anterior: Alguns links podem ser expandidos, outros não. Então, especificamente, como a capacidade de produção de chips lógicos pode dobrar? Afinal, o verdadeiro gargalo está aqui, tanto a memória quanto a lógica são fatores limitantes. E quanto às máquinas de litografia EUV? Como você consegue dobrar a quantidade delas a cada ano?

Jensen Huang:
Todos esses não são irreversíveis. De fato, escalar rapidamente não é fácil, mas realizar essas coisas em dois a três anos não é difícil, na verdade. A chave é ter um sinal de demanda claro. Uma vez que você consegue fazer um, consegue fazer dez; uma vez que consegue fazer dez, consegue fazer um milhão. Portanto, fundamentalmente, essas coisas não são difíceis de replicar.

Dwarkesh Patel:
Você poderia então transmitir esse julgamento até o fundo da cadeia de suprimentos? Por exemplo, você iria até a ASML e diria: se eu olhar três anos à frente, para alcançar a receita anual da NVIDIA de $2 trilhões, precisamos de mais máquinas de litografia EUV?

Jensen Huang:
Alguns eu faria diretamente, outros são feitos indiretamente. Se eu conseguir convencer a TSMC, a ASML naturalmente também será convencida. Portanto, devemos identificar gargalos críticos. Mas enquanto a TSMC acreditar nessa tendência, em alguns anos, você terá equipamentos EUV suficientes.

O que quero dizer é que nenhum gargalo durará mais de dois a três anos, nenhum.

Ao mesmo tempo, também estamos aumentando a eficiência computacional. De Hopper a Blackwell, conseguimos aproximadamente uma melhoria de 10x, 20x, e em alguns casos, até 30x a 50x. Estamos também constantemente introduzindo novos algoritmos. Porque o CUDA é flexível o suficiente, podemos desenvolver vários novos métodos para expandir a capacidade enquanto melhoramos a eficiência.

Portanto, essas coisas não me preocupam. O que realmente me preocupa são fatores externos além do nosso downstream, como a política energética. Sem energia, você não pode expandir; sem energia, você não pode estabelecer uma indústria; sem energia, você não pode construir um ecossistema de manufatura totalmente novo.

Agora, queremos impulsionar a reindustrialização nos Estados Unidos, trazer de volta a fabricação de chips, a fabricação de computadores e a embalagem, enquanto estabelecemos novas indústrias como veículos elétricos e robótica. Quando estamos construindo uma fábrica de IA, tudo isso depende de energia, e a construção relacionada à energia tem um longo ciclo. Em contraste, aumentar a capacidade de chips é uma questão de dois a três anos; aumentar a capacidade de CoWoS também é uma questão de dois a três anos.

Dwarkesh Patel:
Bastante interessante. Sinto que alguns dos convidados que entrevistei deram o julgamento exatamente oposto. É apenas sobre essa questão que, de fato, não tenho conhecimento técnico suficiente para julgar.

Jensen Huang:
No entanto, a boa notícia é que você está agora conversando com especialistas.

Preço de --

O TPU do Google vai abalar a posição da NVIDIA?

Dwarkesh Patel:
Sim, de fato. Eu queria perguntar sobre seus concorrentes. Quando olhamos para os TPUs, pode-se dizer que atualmente, dois dos três principais grandes modelos globais—Claude e Gemini—foram treinados usando TPUs. O que isso significa para o futuro da NVIDIA?

Nota: TPU (Unidade de Processamento Tensorial) é um tipo de chip especializado projetado pelo Google especificamente para inteligência artificial, especialmente aprendizado profundo.

Jensen Huang:
O que fazemos é completamente diferente. A NVIDIA está construindo "computação acelerada", não Unidades de Processamento Tensorial (TPUs).

A computação acelerada pode ser usada para uma variedade de tarefas, como dinâmica molecular, cromodinâmica quântica, processamento de dados, estruturas de dados, dados estruturados, dados não estruturados, dinâmica de fluidos, física de partículas e, claro, IA. Portanto, o escopo de aplicação da computação acelerada é muito mais amplo.

Embora a discussão atual esteja centrada em IA, que é de fato muito importante e tem um impacto significativo, o escopo da "computação" em si é muito mais amplo do que IA. O que a NVIDIA faz é reinventar a abordagem de computação, passando da computação de propósito geral para a computação acelerada. Nossa cobertura de mercado é muito mais ampla do que qualquer TPU ou outro acelerador especializado pode alcançar.

Se você olhar para o nosso posicionamento, somos a única empresa que pode acelerar vários tipos de aplicações. Temos um vasto ecossistema onde vários frameworks e algoritmos podem ser executados na plataforma NVIDIA. Além disso, nossos sistemas de computação são projetados para serem "operados por outros." Qualquer operador pode adquirir nossos sistemas para uso.

A maioria dos sistemas desenvolvidos internamente não é projetada para uso por outros; você basicamente precisa operá-los sozinho, pois não foram inicialmente projetados para serem flexíveis o suficiente para que outros os utilizem. Como qualquer pessoa pode operar nossos sistemas, entramos em todas as principais plataformas, incluindo Google, Amazon, Azure, OCI e outras.

Se você está buscando alugar poder computacional para operar sistemas ou para usar sistemas por conta própria, se deseja se envolver em um negócio de leasing, deve ter um ecossistema de clientes em grande escala cobrindo múltiplas indústrias para atender a essas necessidades. Se você está operando sistemas para seu próprio uso, certamente temos a capacidade de ajudá-lo a fazer isso. Por exemplo, o xAI do Elon.

Como habilitamos operadores de qualquer indústria ou empresa a usar nossos sistemas, você pode utilizá-los para construir supercomputadores para empresas como a Lilly, para pesquisa científica e descoberta de medicamentos. Podemos ajudá-los a operar seus próprios supercomputadores e aplicá-los em várias aplicações na pesquisa de medicamentos e nas ciências biológicas, todas áreas que podemos acelerar.

Assim, podemos cobrir uma ampla gama de aplicações, o que a TPU não consegue fazer. O CUDA da NVIDIA, que foi desenvolvido pela NVIDIA, também pode servir como uma plataforma de processamento de tensores excepcional, mas não é apenas isso. Ele abrange todo o ciclo de vida do processamento de dados, computação, IA e mais. Portanto, nossa oportunidade de mercado é muito maior, com um escopo mais amplo. E como agora suportamos praticamente todos os tipos de aplicações globalmente, você pode implantar sistemas NVIDIA em qualquer lugar e ter a certeza de que definitivamente haverá clientes utilizando-os.

Portanto, isso é fundamentalmente uma coisa completamente diferente.

Dwarkesh Patel:
Esta pergunta será um pouco mais longa.

Sua receita atual é incrível, e essa receita vem principalmente não de produtos farmacêuticos ou computação quântica. Você não está ganhando $600 bilhões por trimestre com esses negócios, mas porque a IA é uma tecnologia sem precedentes que está avançando a uma taxa sem precedentes.

Portanto, a pergunta é: se olharmos apenas para a IA, qual é a solução ideal? Não estou no nível do solo, mas conversei com alguns pesquisadores de IA, e eles diriam: quando uso um TPU, é uma grande matriz, muito adequada para multiplicação de matrizes; enquanto as GPUs são mais flexíveis, adequadas para lidar com um grande número de ramificações e acesso irregular à memória.

Mas se você olhar para a IA, não é essencialmente apenas multiplicação de matrizes repetitiva e altamente previsível? Então, na verdade, você não precisa ocupar área do chip para recursos como agendamento de warp, troca de threads, banco de memória, e assim por diante. Portanto, os TPUs são altamente otimizados para a atual demanda por poder computacional e crescimento de receita, focando nos principais cenários de aplicação.

Como você vê esse ponto de vista?

Jensen Huang:
A multiplicação de matrizes é de fato uma parte importante da IA, mas não é tudo na IA.

Se você quiser propor um novo mecanismo de atenção, ou fazer cálculos de uma maneira diferente; se você quiser projetar uma arquitetura completamente nova, como um SSM híbrido; se você quiser construir um modelo que combine difusão e autoregressão—você precisa de uma arquitetura programável de propósito geral, e podemos executar qualquer coisa que você possa imaginar.

Essa é a nossa vantagem, tornando a invenção de novos algoritmos muito mais fácil. É porque é um sistema programável, e inventar constantemente novos algoritmos é a razão pela qual a IA pode progredir tão rapidamente.

TPU, como qualquer outro hardware, também está sujeito à Lei de Moore. Sabemos que a Lei de Moore traz uma melhoria de cerca de 25% a cada ano. Portanto, se você quiser alcançar um salto de 10x, 100x, a única maneira é mudar fundamentalmente o algoritmo e seu cálculo a cada ano.

Essa é exatamente a força central da NVIDIA.

A razão pela qual conseguimos alcançar uma melhoria significativa com Blackwell em comparação com Hopper - eu disse que era 35 vezes naquela época - quando anunciei pela primeira vez que a eficiência energética do Blackwell seria 35 vezes maior que a do Hopper, ninguém acreditou.

Mais tarde, Dylan escreveu um artigo dizendo que eu estava sendo conservador, e a melhoria real está mais próxima de 50 vezes, e esse tipo de melhoria não pode ser alcançado apenas pela Lei de Moore. Nosso método de resolver esse problema é introduzir novas estruturas de modelo, como MoE, e paralelizar, desacoplar e distribuir o cálculo, estendendo-o por todo o sistema computacional. Sem a capacidade de aprofundar na camada de hardware e desenvolver novos núcleos de computação usando CUDA, isso seria muito difícil de alcançar.

Nota: Referindo-se a Dylan Patel, um analista bem conhecido no campo de semicondutores e infraestrutura de IA, e fundador da empresa de pesquisa SemiAnalysis.

Portanto, nossa vantagem reside em: a programabilidade da arquitetura, e a NVIDIA como uma empresa altamente co-desenvolvida. Podemos até descarregar alguns cálculos para a arquitetura de interconexão, como NVLink, ou para a camada de rede, como Spectrum-X. Em outras palavras, podemos impulsionar mudanças simultaneamente no processador, sistema, interconexão, bibliotecas de software e algoritmos. Tudo isso está acontecendo ao mesmo tempo. Sem o CUDA para apoiar tudo isso, eu nem saberia por onde começar.

Dwarkesh Patel:

Isso também levanta uma questão sobre a base de clientes da NVIDIA: Se 60% da sua receita vem desses cinco hyperscalers, em outra era, enfrentando um tipo diferente de cliente, como um professor experimentador, eles dependem fortemente do CUDA. Eles não podem usar outros aceleradores, só podem usar PyTorch + CUDA, e tudo precisa estar bem otimizado.

Mas se forem esses grandes hyperscalers, eles têm a capacidade de escrever seus próprios kernels. Na verdade, eles devem fazer isso para extrair os últimos 5% de desempenho. Empresas como Anthropic e Google costumam usar aceleradores personalizados ou TPUs para treinamento. Até mesmo a OpenAI, ao usar GPUs, utiliza o Triton. Eles diriam: Precisamos do nosso próprio kernel. Assim, eles escreveriam diretamente em CUDA C++, em vez de usar bibliotecas como cuBLAS, NCCL, e construiriam sua própria pilha de software, e até mesmo a compilariam para outros aceleradores.

Portanto, para a maioria dos seus clientes, eles podem de fato e estão de fato substituindo o CUDA. Quanto, então, o CUDA ainda é um motor chave para a IA de ponta que deve depender da NVIDIA?

Jensen Huang:
Antes de tudo, o CUDA é um ecossistema muito rico. Se você está desenvolvendo em qualquer computador, começar com o CUDA é uma escolha muito sábia. Porque esse ecossistema é muito rico, apoiamos todos os frameworks principais.

Se você precisa escrever kernels personalizados, como o Triton, contribuímos muito da tecnologia da NVIDIA para o backend do Triton, e também estamos muito dispostos a ajudar vários frameworks a se tornarem melhores. Agora existem muitos frameworks, como Triton, vLLM, SG Lang, e muitos mais.

Com o avanço do aprendizado pós-treinamento e do aprendizado por reforço, este campo está se expandindo rapidamente. Por exemplo, você tem o Vairal, o NeMo RL e uma variedade de novas estruturas. Se você deseja desenvolver em uma determinada arquitetura, começar com CUDA é a escolha mais razoável, pois você sabe que o ecossistema é maduro. Quando surgem problemas, é mais provável que seja um problema no seu próprio código do que no conjunto de códigos subjacente.

Não se esqueça, a base de código por trás desses sistemas é muito grande. Quando o sistema apresenta problemas, você quer saber se o problema está no seu código ou na própria plataforma de computação.

Você certamente espera que o problema esteja no seu próprio código e não na plataforma de computação. Claro, nós também temos muitos bugs, mas nosso sistema é muito maduro, e você pode continuar a construir sobre uma base confiável, pelo menos.

O segundo ponto é a escala da base de instalação. Se você é um desenvolvedor, não importa o que esteja fazendo, a coisa mais importante é a "base de instalação." Você quer que seu software funcione em o maior número possível de computadores. Você não está escrevendo software para si mesmo; você está escrevendo software para todo o seu cluster e até mesmo para toda a indústria, porque você é um desenvolvedor de estruturas.

O ecossistema CUDA da NVIDIA é essencialmente nosso ativo mais importante. Agora existem centenas de milhões de GPUs em todo o mundo. Todos os provedores de nuvem as possuem, desde V100, A100, H100, H200, até séries L, séries P, várias especificações.

E elas existem em várias formas. Se você é uma empresa de robótica, você gostaria que o CUDA funcionasse diretamente no corpo do robô. Estamos virtualmente em todos os lugares.

Isso significa que, uma vez que você tenha desenvolvido um software ou um modelo, ele pode ser usado em qualquer lugar. Portanto, o valor dessa base de instalação em si é extremamente significativo.

O último ponto é a flexibilidade do local de implantação. Existimos em todas as plataformas de nuvem, o que nos confere singularidade. Como uma empresa ou desenvolvedor de IA, você não tem certeza de qual provedor de nuvem irá colaborar no final, nem onde seu sistema será executado. No entanto, podemos operar em qualquer lugar, incluindo implantação local.

Portanto, a riqueza do ecossistema, a escala da base instalada e a flexibilidade do local de implantação, quando combinadas, são muito valiosas.

Dwarkesh Patel:
Isso faz sentido. Mas o que me intriga é se essas vantagens são realmente tão importantes para seus principais clientes. Muitas pessoas realmente se beneficiarão dessas vantagens, mas aquelas que podem construir sua própria pilha de software—o grupo que contribui com a maior parte da sua receita—especialmente em um mundo onde a IA está se tornando mais forte em uma tarefa de "ciclo de feedback verificável", como em cenários de aprendizado por reforço, onde otimizações de núcleo como atenção ou MLP são, na verdade, um ciclo de feedback muito facilmente verificável.

Então, esses provedores de nuvem em larga escala podem escrever esses núcleos por conta própria? Claro, eles ainda podem escolher a NVIDIA pela relação custo-benefício. Mas a questão é: isso se tornará, no final, uma simples comparação: quem pode fornecer melhores especificações? Por exemplo, em termos de custo unitário, quem pode fornecer maior poder computacional (FLOPs) e maior largura de banda de memória? Porque no passado, a NVIDIA teve uma margem de lucro muito alta (acima de 70%) tanto em nível de hardware quanto de software, em grande parte devido ao fosso da CUDA.

Então, a questão é: se a maioria dos clientes pode construir suas próprias pilhas de software sem depender da CUDA, essa margem de lucro pode ser mantida?

Jensen Huang:
O número de engenheiros que colocamos nesses laboratórios de IA é realmente impressionante, trabalhando com eles, ajudando-os a otimizar toda a pilha de tecnologia. A razão é que ninguém conhece nossa arquitetura melhor do que nós. E essas arquiteturas não são tão versáteis quanto as CPUs.

A CPU é um pouco como um "carro de família", você pode pensar nela como um carro de cruzeiro, não dirigindo especialmente rápido, mas todos podem dirigi-la bem, com controle de cruzeiro, tudo é simples. Mas o acelerador GPU da NVIDIA é mais como um carro de corrida de F1. Posso imaginar que todos poderiam dirigi-lo a 100 milhas por hora, mas para realmente levá-lo ao limite é necessário um considerável conhecimento técnico.

E nós usamos muito a IA para gerar esses núcleos. Estou muito certo de que, por um bom tempo, ainda somos indispensáveis. Nossa experiência pode ajudar parceiros nesses laboratórios de IA a dobrar facilmente seu desempenho. Muitas vezes, após otimizarmos sua pilha tecnológica ou um determinado núcleo, seus modelos podem acelerar em 3 vezes, 2 vezes ou até mesmo 50%. Isso é uma melhoria significativa, especialmente quando se considera que eles têm grandes clusters Hopper e Blackwell.

Se você dobrar o desempenho, isso significa que sua receita dobra diretamente. Isso está diretamente correlacionado à receita. A pilha de computação da NVIDIA tem o melhor desempenho global em Custo Total de Propriedade (TCO), inigualável por qualquer concorrente. Nenhuma empresa pode me provar qual plataforma oferece uma melhor relação desempenho/TCO do que a nossa. Nem uma única. E esses testes de benchmark estão disponíveis publicamente.

Dylan está certo. Inference Max é público, qualquer um pode usá-lo. Mas nenhuma equipe de TPU está disposta a usá-lo para mostrar sua vantagem de custo de inferência. É difícil de fazer, ninguém está disposto a se apresentar e provar isso.

O mesmo vale para o MLPerf. Eu os convido a demonstrar a vantagem de 40% que sempre alegaram ter. Eu adoraria vê-los provar a vantagem de custo do TPU. Para mim, não faz sentido, simplesmente não se soma. De forma alguma.

Então, acredito que a razão fundamental para o nosso sucesso é que nosso TCO é excelente.

Outro ponto, você mencionou que 60% dos nossos clientes vêm dos cinco principais fabricantes, mas a maior parte desse negócio é, na verdade, voltada para clientes externos. Por exemplo, na AWS, o poder de computação da NVIDIA é, em sua maioria, fornecido a clientes externos, não é utilizado pela própria AWS. Na Azure, nossos clientes também são, em sua maioria, clientes externos; o mesmo se aplica ao OCI. Eles nos escolhem porque nosso escopo é muito amplo.

Podemos trazer os melhores clientes do mundo para eles, e esses próprios clientes são construídos na plataforma da NVIDIA. E essas empresas são construídas na NVIDIA porque nossa cobertura e flexibilidade são muito fortes.

Então, acho que esse ciclo virtuoso está funcionando: a base instalada, a programabilidade da arquitetura e a acumulação contínua do ecossistema. Além disso, agora existem milhares de empresas de IA em todo o mundo. Se você é uma das startups de IA, qual arquitetura você escolheria? Você escolheria a mais popular, aquela com a maior base instalada e o ecossistema mais rico. Essa é a lógica desse ciclo virtuoso.

Então, as razões são:

· Primeiro, nosso desempenho por dólar é muito alto, portanto, o custo por token é o mais baixo;

· Segundo, nosso desempenho por watt é o mais alto do mundo; se um parceiro construir um data center de 1GW, ele deve gerar o maior número de tokens, em outras palavras, a maior receita. E nossa arquitetura pode produzir o maior número de tokens por unidade de consumo de energia.

· Terceiro, se seu objetivo é alugar poder de computação, temos o maior número de clientes globalmente.

É por isso que esse ciclo virtuoso foi criado.

Dwarkesh Patel:
Muito interessante. Acho que o cerne da questão é como realmente é a estrutura do mercado. Mesmo com muitas empresas, um cenário pode surgir: existem milhares de empresas de IA, todas compartilhando aproximadamente o mesmo poder computacional.

Mas se a realidade é que, através desses provedores de nuvem em grande escala, os que realmente utilizam o poder computacional são empresas de modelos fundamentais como a Anthropic e a OpenAI, e elas têm a capacidade de fazer diferentes aceleradores funcionarem.

Jensen Huang:
Acho que sua premissa está errada.

Dwarkesh Patel:
Talvez. Deixe-me reformular isso. Se essas alegações sobre desempenho e custo forem verdadeiras, por que empresas como a Anthropic, que anunciou recentemente uma colaboração de TPU multi-exajoule com a Broadcom e o Google, agiram assim? E a maior parte do seu poder computacional vem desses sistemas. Para o Google, o TPU é a principal fonte de poder computacional. Assim, ao olhar para essas grandes empresas de IA, elas costumavam ser todas NVIDIA, mas isso não é mais o caso.

Se essas vantagens teoricamente se mantêm, por que ainda escolheriam outros aceleradores?

Jensen Huang:
A Anthropic é um caso bastante especial. Se não houvesse a Anthropic, o crescimento do TPU dificilmente existiria. O crescimento do TPU vem quase inteiramente da Anthropic. Da mesma forma, se não houvesse a Anthropic, o crescimento na demanda de treinamento quase não existiria.

Esse é um fato muito claro. Não há inúmeras oportunidades semelhantes; na realidade, existe apenas uma Anthropic.

Dwarkesh Patel:
Mas a OpenAI também colabora com a AMD, e elas estão desenvolvendo seu próprio acelerador Titan.

Nota: A AMD (Advanced Micro Devices) é uma empresa americana de semicondutores que projeta principalmente chips de computação e é uma concorrente chave da NVIDIA e da Intel.

Jensen Huang:
Mas a grande maioria delas ainda usa NVIDIA. Continuaremos a colaborar extensivamente. Eu não fico chateado quando os outros tentam outras soluções. Se eles não tentarem outras soluções, como saberão quão boa é a nossa solução?

Às vezes, é necessário reafirmar isso por meio de comparação. E também devemos provar constantemente que merecemos nossa posição atual.

Sempre houve várias reivindicações no mercado. Você pode ver quantos projetos de ASIC foram cancelados. Só porque você começa a fazer ASICs, não significa que pode criar algo melhor que a NVIDIA.

Na verdade, não é fácil. Pode-se até dizer que, racionalmente, isso não se sustenta bem. A menos que a NVIDIA tenha realmente cometido um erro sério em alguns aspectos. Mas considerando nossa escala, nosso ritmo — somos a única empresa global que consegue saltos significativos a cada ano.

Dwarkesh Patel:
A lógica deles é: Você não precisa ser melhor que a NVIDIA, você só não deve ser 70% pior que a NVIDIA, porque eles pensam que sua margem de lucro é de 70%.

Jensen Huang:
Mas não se esqueça, mesmo com ASICs, a margem de lucro é na verdade muito alta. A margem de lucro da NVIDIA é de cerca de 60% a 70%, e a margem de lucro dos ASICs também pode estar em torno de 65%. Então, quanto você realmente economizou?

Você sempre tem que pagar alguém. Então, pelo que eu vi, a margem de lucro dessas empresas fundamentais (ASIC) é na verdade muito alta, e eles também acreditam nisso e estão bastante orgulhosos disso.

No passado, na verdade, não tínhamos a capacidade de fazer isso. E para ser honesto, na época eu não entendia profundamente quão difícil é construir um laboratório de modelo fundamental como o da OpenAI ou da Anthropic. Nem percebi totalmente que eles realmente precisam de um suporte massivo de investimento do lado da oferta.

Naquela época, não tínhamos a capacidade de fazer investimentos de bilhões de dólares, como investir na Anthropic para que eles usassem nosso poder computacional. Mas o Google e a AWS podiam, eles investiram enormes quantias de dinheiro desde o início, e em troca, a Anthropic usa seu poder computacional.

Não tínhamos a capacidade de fazer isso naquela época, e eu tenho que dizer, foi meu erro: Eu não percebi totalmente que eles realmente não tinham outra escolha. As empresas de capital de risco não podem investir $5 bilhões ou $10 bilhões para apoiar um laboratório de IA e esperar que ele cresça até se tornar a Anthropic.

Esse foi meu erro de julgamento. Mas mesmo se eu tivesse percebido isso naquela época, não acho que tivéssemos a capacidade naquele estágio para fazê-lo.

No entanto, não cometerei o mesmo erro novamente. Estou feliz em investir na OpenAI, e também estou feliz em ajudá-los a expandir, acho que é necessário. Quando a Anthropic nos procurou mais tarde, também fiquei feliz em me tornar um investidor e ajudá-los a crescer.

Era apenas naquela época, realmente não podíamos fazer isso. Se pudéssemos recomeçar, se a Nvidia já fosse tão poderosa quanto é agora naquela época, eu estaria muito disposto a fazer essas coisas.

Por que a Nvidia não faz "Cloud"?

Dwarkesh Patel:
Isso é muito interessante. Ao longo dos anos, a Nvidia sempre foi uma empresa que "vende pás para ganhar dinheiro" no campo da IA, e ganhou muito dinheiro. E agora você está começando a investir esse dinheiro. Há relatos de que você investiu $30 bilhões na OpenAI, $10 bilhões na Anthropic. E as avaliações dessas empresas continuam a subir.

Então, olhando para os últimos anos, você deu a eles poder computacional, viu as tendências, e na época suas avaliações eram apenas um décimo do que são agora, ou até mesmo muito mais baixas do que eram há apenas um ano. E você tinha muito dinheiro naquela época.

Na verdade, há uma possibilidade: A Nvidia poderia ter se tornado uma empresa modelo fundamental, ou investido em grande escala mais cedo, a uma avaliação mais baixa, semelhante ao que você está fazendo agora.

Então, estou realmente curioso, por que você não fez isso antes?

Jensen Huang:
Nós fizemos isso no momento em que "pudemos." Se pudéssemos ter feito isso naquela época, eu teria feito isso mais cedo. Quando a Anthropic precisou do nosso apoio no início, eu teria feito isso. Mas naquela época, realmente não tínhamos a capacidade.

Era além das nossas capacidades e além dos nossos hábitos de tomada de decisão.

Dwarkesh Patel:
Foi uma questão de financiamento, ou?

Jensen Huang:
Sim, foi uma questão de escala de investimento. Nós quase não tínhamos tradição de investimento externo naquela época, quanto mais investimento daquela escala. E não percebemos que era necessário.

Meu pensamento na época era que eles poderiam buscar capital de risco, assim como qualquer outra empresa. Mas o que eles queriam fazer estava além do que o capital de risco poderia apoiar. O que a OpenAI queria fazer também era algo que o capital de risco não poderia apoiar.

Isso foi algo que percebi mais tarde. Mas é aí que eles foram inteligentes. Eles perceberam naquela época que precisavam seguir por esse caminho. Fico feliz que eles tenham feito. Embora não pudéssemos participar na época, o que levou a Anthropic a buscar outros parceiros, ainda acho que é algo bom. A existência da Anthropic é algo bom para o mundo todo, e fico feliz com isso. Alguns arrependimentos são aceitáveis.

Dwarkesh Patel:
Portanto, a questão ainda voltará a um ponto: Agora que você tem tanto dinheiro em mãos e ele continua a crescer, como a NVIDIA deve usar esse financiamento?

Uma ideia é que agora existe um ecossistema intermediário ajudando esses laboratórios de IA a converter despesas de capital (capex) em despesas operacionais (opex) para que possam alugar poder computacional.

Porque as GPUs são caras, mas à medida que os modelos avançam, eles podem gerar continuamente tokens de maior valor ao longo de seu ciclo de vida. E a própria NVIDIA tem a capacidade de arcar com essas despesas de capital iniciais. Por exemplo, há relatos de que você forneceu até $6,3 bilhões em apoio à CoreWeave e investiu $2 bilhões.

Então, por que a NVIDIA não se torna um provedor de nuvem por si mesma? Por que não se tornar um hyperscaler, construir sua própria nuvem e alugar poder computacional? Afinal, você tem a capacidade financeira.

Jensen Huang:
É uma questão filosófica para a empresa, e eu acho que é uma filosofia sábia: devemos fazer "tanto quanto necessário e tão pouco quanto possível."

Isso significa que, quando se trata de construir uma plataforma de computação, se não fizermos isso, eu realmente acredito que não será feito.

Se não assumirmos esses riscos, não construirmos o NVLink, não construirmos toda a pilha de software, não criarmos esse ecossistema, não investirmos 20 anos fazendo CUDA (a maior parte dos quais foi até perdendo dinheiro), se não fizermos essas coisas, ninguém mais fará. Se não construirmos essas bibliotecas específicas de domínio do CUDA-X—seja para ray tracing, geração de imagens, ou modelos de IA iniciais, processamento de dados, dados estruturados, processamento de dados vetoriais—se não fizermos isso, essas coisas não existirão.

Estou completamente convencido disso. Nós até desenvolvemos uma biblioteca para litografia computacional chamada cuLitho; se não fizermos isso, ninguém mais fará.

Portanto, a razão pela qual a computação acelerada se desenvolveu até o ponto em que está hoje é porque fizemos essas coisas. Essa é a parte à qual devemos estar totalmente comprometidos em fazer.

Mas, ao mesmo tempo, já existem muitos provedores de nuvem no mundo. Mesmo que não façamos isso, alguém mais fará. Assim, com base no princípio de fazer o máximo necessário possível, mas o mínimo possível de outras coisas, esse conceito sempre esteve presente na empresa. Toda decisão que tomo é vista sob essa perspectiva.

No espaço da nuvem, se não tivéssemos apoiado a CoreWeave inicialmente, essas novas nuvens de IA (neocloud) talvez não existissem. Se não as apoiássemos, elas não teriam se desenvolvido na escala em que estão hoje. O mesmo vale para a Nscale e a Nebius; se não fosse pelo nosso apoio, elas não teriam chegado tão longe. E agora, todas elas se desenvolveram muito bem.

Mas será que este é um negócio no qual devemos nos envolver pessoalmente? Não. Nós ainda aderimos a esse princípio: faça o que é necessário e faça o mínimo possível além disso. Portanto, investiremos no ecossistema porque quero que todo o ecossistema prospere. Quero que nossa arquitetura conecte o maior número possível de indústrias e países, permitindo que a IA seja desenvolvida globalmente e construída sobre uma pilha tecnológica baseada nos Estados Unidos.

Esta é a visão que estamos promovendo.

Ao mesmo tempo, como você mencionou, agora existem muitas excelentes empresas de modelos fundamentais, e tentaremos investir nelas o máximo possível.

Outro ponto é que não iremos "escolher vencedores." Queremos apoiar todos. Isso é tanto uma necessidade comercial quanto algo que estamos dispostos a fazer. Então, quando eu invisto em uma empresa, também investirei em outras.

Dwarkesh Patel:
Então, por que você evita intencionalmente escolher vencedores?

Jensen Huang:
Porque essa não é nossa responsabilidade. Esse é o primeiro ponto.

Em segundo lugar, quando a NVIDIA foi fundada, havia cerca de 60 empresas de gráficos, 60 empresas fazendo gráficos 3D. No final, apenas nós sobrevivemos. Se você tivesse que escolher uma daquelas 60 empresas naquela época para ter sucesso, a NVIDIA provavelmente era a menos provável de ter sucesso.

Isso foi antes da sua época, mas naquela época, a arquitetura gráfica da NVIDIA estava completamente errada. Não um pouco errada, mas fundamentalmente errada. Nós projetamos uma arquitetura que os desenvolvedores mal podiam suportar, que estava condenada ao fracasso. Nós deduzimos isso a partir de princípios iniciais muito razoáveis, mas acabamos com a solução errada.

Todo mundo achava que não conseguiríamos ter sucesso, mas ainda assim sobrevivemos no final. Então, eu tenho humildade suficiente para admitir isso e não escolher vencedores. Ou deixá-los se desenvolverem sozinhos, ou apoiar todos.

Dwarkesh Patel:
Há um ponto que eu não entendi muito bem. Você disse que não está priorizando deliberadamente o apoio a esses novos fornecedores de nuvem, mas você também mencionou que sem a NVIDIA, eles podem não existir. Como esses dois pontos coexistem?

Jensen Huang:
Primeiro, eles devem querer existir por conta própria e buscar ativamente nossa ajuda. Quando eles têm uma intenção clara, um plano de negócios, capacidade e paixão—claro, eles também devem ter um certo nível de habilidade—se precisarem de algum apoio financeiro na fase inicial, estaremos lá.

Mas a chave é que eles estabeleçam rapidamente seu próprio ciclo de crescimento. Sua pergunta agora foi: queremos entrar no negócio de financiamento? A resposta é não. Não queremos nos tornar uma instituição financeira. Já existem muitas pessoas no mercado fazendo financiamento, e preferimos cooperar com essas instituições financeiras em vez de fazer financiamento nós mesmos.

Portanto, nosso objetivo é focar em nosso próprio negócio, manter o modelo de negócios o mais simples possível e, ao mesmo tempo, apoiar todo o ecossistema.

Jensen Huang:
Quando uma empresa como a OpenAI precisa de um investimento de 30 bilhões de dólares antes da IPO, e acreditamos muito neles—eu pessoalmente acredito que eles já são uma empresa extraordinária e se tornarão uma empresa ainda mais notável. O mundo precisa que eles existam, todos esperam que eles existam, e eu também espero que eles existam. Eles têm todos os elementos para serem bem-sucedidos, então os apoiamos e ajudamos a expandir.

Portanto, faremos esse tipo de investimento porque eles realmente precisam que o façamos. Mas nosso princípio não é "fazer o máximo possível", mas sim "fazer o mínimo possível."

Dwarkesh Patel:
Essa pergunta pode parecer um pouco óbvia, mas por muitos anos, estivemos em um estado de escassez de GPUs, e à medida que os modelos se tornam mais poderosos, essa situação se torna mais pronunciada.

Jensen Huang:
Sim, realmente temos uma escassez de GPUs.

Dwarkesh Patel:
E a NVIDIA é considerada não apenas para distribuir esses recursos escassos com base na maior oferta, mas para considerar coisas como garantir a existência desses novos provedores de nuvem—dando alguns para a CoreWeave, alguns para a Crusoe, alguns para a Lambda.

Primeiro, você concorda com essa visão? Segundo, quais benefícios isso traz para a NVIDIA?

Jensen Huang:
Acho que sua premissa está errada. Claro, consideraremos esses assuntos com muito cuidado.

Primeiro, se você não tiver uma Ordem de Compra (PO), nenhuma quantidade de comunicação importa. Portanto, em primeiro lugar, trabalharemos arduamente com todos os clientes para prever a demanda, porque o ciclo de produção desses produtos é muito longo, e o período de construção do data center também é muito longo. Alinhamos a oferta e a demanda por meio de previsões, que é a primeira coisa.

Em segundo lugar, faremos previsões com o maior número possível de clientes. Mas, no final, você ainda precisa fazer um pedido. Se você não fizer um pedido, então eu não posso fazer nada. Portanto, em algum momento, é "primeiro a chegar, primeiro a ser atendido."

No entanto, além disso, se seu data center ainda não estiver pronto, ou se certos componentes-chave não estiverem prontos, fazendo com que você não consiga implantar o sistema temporariamente, podemos priorizar o atendimento a outros clientes. Isso é apenas para maximizar a eficiência geral de produção de nossas fábricas.

Além desse cenário, a regra de prioridade é "primeiro a chegar, primeiro a ser atendido." Você deve fazer um pedido. Se você não fizer um pedido, simplesmente não há como.

Claro, há muitas histórias por aí. Por exemplo, alguns dizem que durante um jantar com Larry, Elon e eu, eles solicitaram uma GPU — de fato, tivemos um jantar juntos, que foi uma noite muito agradável, mas eles nunca "solicitaram" uma GPU. Eles só precisavam fazer um pedido. Uma vez que um pedido é feito, faremos o nosso melhor para fornecer capacidade. Não é tão complicado quanto alguns fazem parecer.

Dwarkesh Patel:
Então, parece um mecanismo de fila, dependendo de quando você faz o pedido e se o data center está pronto. Mas isso ainda não é simplesmente "o maior lance vence", certo?

Jensen Huang:
Nós nunca fazemos isso.

Dwarkesh Patel:
Nunca alocamos com base no maior lance?

Jensen Huang:
Nunca. Porque isso é uma prática comercial terrível.

Você define o preço, e o cliente decide se vai comprar. Eu conheço algumas empresas do setor que aumentam os preços quando a demanda dispara, mas nós não fazemos isso. Nunca foi nossa prática. Os clientes podem contar conosco. Eu prefiro ser uma presença confiável, uma pedra angular da indústria. Você não precisa se preocupar com mudanças de preço.

Se eu lhe der um orçamento, esse é o preço final. Mesmo que a demanda dispare, isso não mudará.

Dwarkesh Patel:
Então, essa também é uma das razões para o seu relacionamento estável com a TSMC, certo?

Jensen Huang:
A NVIDIA e a TSMC estão colaborando há quase 30 anos. Não há nem mesmo um contrato legal formal entre a NVIDIA e a TSMC; é mais um entendimento informal. Às vezes estou certo, às vezes estou errado; às vezes consigo melhores condições, às vezes condições não tão boas. Mas, no geral, esse relacionamento é notável. Posso confiar plenamente neles e contar com eles.

Além disso, para a NVIDIA, uma coisa que você pode contar: este ano, Rubin será excepcional, no próximo ano, Vera Rubin Ultra será lançada, no ano seguinte Feynman será lançado, e no ano seguinte — o nome do qual ainda não divulguei. Em outras palavras, a cada ano, você pode confiar em nós. Você precisa encontrar outra equipe de ASIC no mundo e ver se alguma pode fazer você dizer: "Posso apostar toda a empresa em você, confie que você me apoiará todos os anos."

O custo do meu token diminuirá em uma ordem de magnitude a cada ano, e posso confiar nisso como confiar em um relógio. Eu acabei de dizer algo semelhante sobre a TSMC. Nenhuma fábrica de wafers na história jamais permitiu que você dissesse isso.

Mas hoje, você pode dizer isso sobre a NVIDIA. Você pode confiar em nós ano após ano.

Se você quiser comprar $1 bilhão em computação para fábricas de IA, sem problemas; se você quiser comprar $100 milhões, também não há problema; se você quiser comprar $10 milhões, ou até mesmo apenas um rack, sem problemas; mesmo que você queira comprar apenas uma GPU, sem problemas. Se você quiser fazer um pedido de $1 trilhão para uma fábrica de IA a seguir, também não há problema.

Hoje, somos a única empresa no mundo que pode dizer isso. E eu também posso dizer isso para a TSMC: Quero comprar $1 bilhão, sem problemas. Nós só precisamos planejar juntos, passar pelo processo, fazer aquelas coisas que uma empresa madura faria.

Portanto, acredito que a NVIDIA pode se tornar a base da indústria global de IA, uma posição que passamos décadas alcançando. Há um enorme investimento e foco nisso, e a estabilidade e consistência da empresa são muito importantes.

Por que a NVIDIA rejeita a "Aposta em Múltiplos Roteiros"

Dwarkesh Patel:
Isso, na verdade, leva a uma pergunta muito interessante. Nós falamos anteriormente sobre a TSMC, gargalos de memória, e assim por diante. Agora, se entrarmos em um mundo assim: você ocupou a maior parte da capacidade N3, e no futuro, você pode também ocupar a maior parte da capacidade N2. Você consideraria voltar a usar a capacidade ociosa de nós de processo mais antigos, como 7nm?

Por exemplo, se a demanda por IA for muito alta, e a aceleração do nó de processo mais avançado não conseguir acompanhar, então você pode aproveitar toda a experiência atual sobre otimização numérica e design de sistemas para criar uma nova versão do Hopper ou Ampere. Você acha que essa situação surgirá antes de 2030?

Jensen Huang:
Não há necessidade disso. A razão é que o avanço de cada geração arquitetônica não é apenas uma mudança no tamanho do transistor. Você também fez muito trabalho de engenharia em embalagem, empilhamento, sistemas numéricos e arquitetura de sistemas. Quando você chega a este ponto, voltar para uma versão antiga do nó exigiria um investimento em P&D que ninguém pode arcar. Podemos nos permitir continuar avançando, mas não acho que possamos nos permitir voltar.

Claro, se fizermos um experimento mental: suponha que um dia todos digam que a capacidade avançada nunca mais poderá aumentar. Eu voltaria imediatamente a usar 7nm? Claro, sem dúvida.

Dwarkesh Patel:
Eu tive uma discussão anterior com alguém sobre uma questão: por que a NVIDIA não conduz simultaneamente vários projetos de chip completamente diferentes? Por exemplo, você poderia fazer um como a arquitetura em escala de wafer da Cerebras, um como a grande embalagem do Dojo, e um que não dependa do CUDA.

Você tem os recursos e o talento de engenharia para fazer essas coisas em paralelo. Como ninguém sabe ao certo para onde a IA ou a arquitetura estão indo no futuro, por que colocar todos os ovos em uma única cesta?

Jensen Huang:
Certamente poderíamos fazer isso. É apenas que não vimos uma solução melhor. Simulamos todas essas coisas, e elas provavelmente são inferiores em nosso emulador. Portanto, não faremos isso. O que estamos fazendo agora é o que realmente queremos fazer e o que acreditamos ser o mais correto.

Claro, se a carga de trabalho futura passar por uma mudança radical—não estou falando sobre mudanças de algoritmo, mas se a carga de trabalho realmente mudar—então poderíamos adicionar outros tipos de aceleradores.

Por exemplo, recentemente adicionamos o Grok, e iremos integrar o Grok ao ecossistema CUDA. Estamos fazendo isso agora. Isso ocorre porque o valor dos tokens se tornou muito alto, então o mesmo modelo, baseado em diferentes velocidades de resposta, pode corresponder a diferentes faixas de preço.

Há alguns anos, os tokens eram quase gratuitos, ou tão baratos que eram quase gratuitos. Mas agora, clientes diferentes têm requisitos diferentes para tokens. E esses próprios clientes podem ganhar muito dinheiro com isso. Por exemplo, para engenheiros de software, se eu puder oferecer a eles um token de resposta mais rápida para torná-los mais eficientes do que são hoje, então estou disposto a pagar por isso.

Mas esse tipo de mercado só surgiu recentemente. Portanto, acredito que agora, pela primeira vez, realmente temos a capacidade de ter o mesmo modelo para diferentes camadas de mercado com base no tempo de resposta.

É também por isso que decidimos estender essa fronteira de Pareto para criar um ramo de inferência "de resposta mais rápida, mas com menor throughput". Porque no passado, o alto throughput sempre foi o mais importante. Mas agora acreditamos que, no futuro, pode haver um tipo de token de alto ASP (alto preço unitário). Mesmo que o throughput na fábrica seja menor, o preço unitário é suficiente para compensar isso.

Essa é a razão pela qual estamos fazendo isso. Mas se falarmos apenas sobre a arquitetura em si, eu diria que, se eu tivesse mais dinheiro, investiria mais na arquitetura existente.

Dwarkesh Patel:
Acho a ideia desse "token ultra-premium" e a estratificação do mercado de inferência muito interessante.

Uma última pergunta. Supondo que a revolução do aprendizado profundo nunca tivesse acontecido, o que a NVIDIA estaria fazendo hoje?

Jensen Huang:
Bem, é claro que os jogos ainda seriam um foco, mas além disso, continuaríamos com a computação acelerada. Esse sempre foi o nosso caminho.

A premissa fundamental da nossa empresa é que a Lei de Moore desaceleraria. A computação de propósito geral é ótima para muitas coisas, mas não é ideal para muitas tarefas computacionais. Portanto, combinamos a arquitetura da GPU com a CPU para acelerar as cargas de trabalho da CPU. Diferentes núcleos de código, diferentes algoritmos podem ser descarregados para serem executados na GPU. Dessa forma, uma aplicação pode ser acelerada em 100 ou 200 vezes.

Onde isso seria utilizado? Bem, em engenharia, ciência, física, processamento de dados, gráficos de computador, geração de imagens e várias outras áreas.

Portanto, mesmo que a IA não existisse hoje, a NVIDIA ainda seria uma empresa muito grande. A razão é bastante fundamental: a capacidade de continuar expandindo a computação de propósito geral essencialmente atingiu seus limites. E uma maneira de melhorar o desempenho—uma maneira crucial, não a única—é fazer aceleração específica de domínio.

Inicialmente, entramos na computação gráfica, mas há muitas outras áreas. Como vários cálculos científicos, física de partículas, simulações de fluidos, processamento de dados estruturados e assim por diante—vários tipos de algoritmos que podem se beneficiar do CUDA.

Portanto, nossa missão sempre foi trazer computação acelerada para o mundo, impulsionar aplicações que a computação de propósito geral não pode alcançar, ou não pode escalar para o nível necessário de desempenho, para ajudar a promover avanços no campo científico. Algumas de nossas primeiras aplicações foram em dinâmica molecular, processamento sísmico para exploração de energia e, claro, processamento de imagens.

Em todas essas áreas, a computação de propósito geral era muito ineficiente por si só. Então sim, se não houvesse IA, eu ficaria triste. Mas precisamente por causa de nosso progresso em computação, democratizamos o aprendizado profundo. Permitimos que qualquer pesquisador, qualquer cientista, qualquer estudante, em qualquer lugar, usasse um PC ou uma GPU GeForce para fazer descobertas científicas notáveis. E esse compromisso fundamental nunca vacilou, nem um pouco.

Portanto, se você olhar para a GTC, encontrará que uma parte significativa do conteúdo não está relacionada à IA. Seja litografia computacional, química quântica ou processamento de dados, todos esses são importantes, mas não estão relacionados à IA. Eu sei que a IA é fascinante e muito empolgante.

No entanto, ainda há muitas pessoas fazendo trabalhos muito importantes que não estão relacionados à IA. Tensor não é o único modo de computação deles. E queremos ajudar todas essas pessoas.

Dwarkesh Patel:
Jensen, muito obrigado.

Jensen Huang:
De nada, eu realmente gostei desta conversa.

[Link do Artigo Original]