Huang Renxuns vollständige GTC-Rede: Die Ära der Inferenz ist angebrochen, mit einem erwarteten Umsatz von mindestens einer Billion Dollar bis 2027, und Hummer ist das neue Betriebssystem
Am 16. März 2026 wurde die NVIDIA GTC 2026-Konferenz offiziell eröffnet, wobei der NVIDIA-Gründer und CEO Jensen Huang die Eröffnungsrede hielt.
Auf dieser Konferenz, die als "jährliche Pilgerfahrt der KI-Industrie" gilt, erläuterte Huang die Transformation von NVIDIA von einem "Chip-Unternehmen" zu einem "KI-Infrastruktur- und Fabrikunternehmen." Um den Bedenken des Marktes hinsichtlich der Nachhaltigkeit der Leistung und des Wachstumspotenzials zu begegnen, erläuterte Huang die zugrunde liegende Geschäftslogik, die das zukünftige Wachstum antreibt – "Token-Fabrik-Ökonomie."
Die Leistungserwartungen sind äußerst optimistisch: "Mindestens 1 Billion Dollar an Nachfrage bis 2027"
In den letzten zwei Jahren ist die globale Nachfrage nach KI-Computing exponentiell explodiert. Während sich große Modelle von "Wahrnehmung" und "Generierung" zu "Schlussfolgerung" und "Aktion (Aufgabenausführung)" entwickeln, hat der Verbrauch von Rechenleistung dramatisch zugenommen. Als Reaktion auf die Bedenken des Marktes hinsichtlich Aufträgen und Umsatzobergrenzen äußerte Huang sehr starke Erwartungen.
Huang erklärte in seiner Rede:
Letztes Jahr zu dieser Zeit erwähnte ich, dass wir eine Nachfrage von 500 Milliarden Dollar mit hoher Zuversicht sahen, die Blackwell und Rubin bis 2026 abdeckte. Jetzt, hier und jetzt, sehe ich mindestens 1 Billion Dollar an Nachfrage bis 2027.
Huangs Billionen-Dollar-Erwartung ließ den Aktienkurs von NVIDIA einmal um über 4,3 % steigen.
Darüber hinaus ergänzte er diese Zahl weiter:
Ist das vernünftig? Darüber werde ich als Nächstes sprechen. Tatsächlich könnten wir sogar mit Versorgungsengpässen konfrontiert sein. Ich bin mir sicher, dass die tatsächliche Nachfrage nach Rechenleistung viel höher sein wird.
Huang wies darauf hin, dass die heutigen NVIDIA-Systeme sich als die "kostengünstigste Infrastruktur der Welt" erwiesen haben. Da NVIDIA KI-Modelle in fast allen Bereichen ausführen kann, stellt diese Vielseitigkeit sicher, dass die 1 Billion Dollar, die von Kunden investiert wurden, vollständig genutzt und über einen langen Lebenszyklus aufrechterhalten werden können.
Derzeit stammen 60 % des Geschäfts von NVIDIA von den fünf größten Hyperscale-Cloud-Service-Anbietern, während die verbleibenden 40 % weit über souveräne Clouds, Unternehmen, Industrien, Robotik und Edge-Computing verteilt sind.
Token Factory Economics, wo die Leistung pro Watt das Lebenselixier des Geschäfts bestimmt.
Um die Angemessenheit dieser Nachfrage von 1 Billion Dollar zu erklären, präsentierte Huang den CEOs globaler Unternehmen eine neue Geschäftseinstellung. Er wies darauf hin, dass zukünftige Rechenzentren nicht mehr Lagerhäuser zum Speichern von Dateien sein werden, sondern "Fabriken", die Tokens (die grundlegende Einheit, die von KI erzeugt wird) produzieren.
Huang betonte:
Jedes Rechenzentrum, jede Fabrik, wird als durch Energie begrenzt definiert. Eine 1GW (Gigawatt) Fabrik wird niemals zu einer 2GW Fabrik werden; das ist ein Gesetz der Physik und der Atome. Bei fester Leistung wird derjenige mit dem höchsten Token-Durchsatz pro Watt die niedrigsten Produktionskosten haben.
Huang kategorisierte zukünftige KI-Dienste in vier Geschäftsebenen ein:
- Kostenlose Stufe (hoher Durchsatz, niedrige Geschwindigkeit)
- Mittlere Stufe (~3 $ pro Million Tokens)
- Hohe Stufe (~6 $ pro Million Tokens)
- Hochgeschwindigkeitsstufe (~45 $ pro Million Tokens)
- Ultra-Hochgeschwindigkeitsstufe (~150 $ pro Million Tokens)
Er stellte fest, dass KI intelligenter wird, wenn die Modelle größer werden und die Kontexte länger werden, aber die Token-Generierungsrate abnehmen wird. Huang erklärte:
In dieser Token-Fabrik werden Ihr Durchsatz und Ihre Token-Generierungsgeschwindigkeit direkt in Ihren genauen Umsatz für das nächste Jahr übersetzt.
Huang betonte, dass die Architektur von NVIDIA es den Kunden ermöglicht, im kostenlosen Bereich extrem hohe Durchsatzraten zu erreichen, während sie im höchsten Wert-Inferenzbereich eine erstaunliche Leistungssteigerung von 35-fach erzielen.
Vera Rubin erreicht in zwei Jahren eine 350-fache Beschleunigung, Groq schließt die Lücke für ultra-schnelle Inferenz
Unter den Einschränkungen physikalischer Grenzen stellte NVIDIA sein komplexestes KI-Computersystem aller Zeiten vor, Vera Rubin. Huang erklärte:
Früher, wenn ich Hopper erwähnte, hielt ich einen Chip hoch, was schön war. Aber wenn man Vera Rubin erwähnt, denkt jeder an das gesamte System. In diesem zu 100 % flüssigkeitsgekühlten System, das die traditionelle Verkabelung vollständig eliminiert, benötigen Racks, die früher zwei Tage für die Installation benötigten, jetzt nur noch zwei Stunden.
Huang wies darauf hin, dass Vera Rubin durch extremes End-to-End-Hardware-Software-Co-Design einen erstaunlichen Daten-Sprung innerhalb des gleichen 1GW-Datenzentrums geschaffen hat:
In nur zwei Jahren haben wir die Token-Generierungsrate von 22 Millionen auf 700 Millionen erhöht und damit ein 350-faches Wachstum erreicht. Das Mooresche Gesetz konnte im gleichen Zeitraum nur eine 1,5-fache Steigerung bringen.
Um das Bandbreitenengpass unter ultra-schnellen Inferenzbedingungen (wie 1000 Tokens/Sekunde) zu beheben, bot NVIDIA die endgültige Lösung durch die Integration des übernommenen Unternehmens Groq: asymmetrische getrennte Inferenz. Huang erklärte:
Diese beiden Prozessoren haben völlig unterschiedliche Eigenschaften. Der Groq-Chip hat 500 MB SRAM, während ein Rubin-Chip 288 GB Speicher hat.
Huang bemerkte, dass NVIDIA durch das Dynamo-Software-System die "Pre-Fill"-Phase, die massive Berechnungen und Videospeicher erfordert, Vera Rubin zuweist, während die "Decoding"-Phase, die extrem latenzsensitiv ist, Groq zugewiesen wird. Huang gab auch Vorschläge zur Konfiguration der Rechenleistung für Unternehmen:
Wenn Ihre Arbeitslast hauptsächlich hohe Durchsatzraten hat, verwenden Sie 100 % Vera Rubin; wenn Sie eine große Anzahl von hochgradigen Programmier-Token-Generierungsbedarfen haben, weisen Sie 25 % Ihrer Datenzentrumskapazität Groq zu.
Es wurde bekannt gegeben, dass der Groq LP30-Chip, der von Samsung hergestellt wird, in die Massenproduktion gegangen ist und voraussichtlich im dritten Quartal ausgeliefert wird, während das erste Vera Rubin-Rack bereits auf Microsoft Azure in Betrieb ist.
Darüber hinaus stellte Huang in Bezug auf die optische Interkonnekt-Technologie den weltweit ersten massenproduzierten Co-Packaged Optical (CPO) Switch, Spectrum X, vor und beruhigte die Marktbedenken über den "Kupfer-zu-Optik-Übergang":
Wir benötigen mehr Kupferkabelkapazität, mehr optische Chipkapazität und mehr CPO-Kapazität.
Agent beendet traditionelles SaaS, "Gehalt + Token" wird zum Standard im Silicon Valley
Neben Hardware-Barrieren widmete Huang einen erheblichen Teil seiner Rede der Revolution in der KI-Software und den Ökosystemen, insbesondere der Explosion von Agenten.
Er beschrieb das Open-Source-Projekt OpenClaw als "das beliebteste Open-Source-Projekt in der Menschheitsgeschichte" und behauptete, es habe die Errungenschaften von Linux in den letzten 30 Jahren in nur wenigen Wochen übertroffen. Huang erklärte unverblümt, dass OpenClaw im Wesentlichen das "Betriebssystem" für Agentencomputer ist.
Huang behauptete:
Jedes SaaS-Unternehmen (Software as a Service) wird sich in ein AaaS-Unternehmen (Agent-as-a-Service) verwandeln. Es besteht kein Zweifel, dass NVIDIA, um diese Agenten sicher einzusetzen, die in der Lage sind, auf sensible Daten zuzugreifen und Code auszuführen, ein unternehmensweites NeMo Claw-Referenzdesign eingeführt hat, das eine Richtlinien-Engine und einen Datenschutz-Router hinzufügt.
Für gewöhnliche Fachkräfte steht diese Transformation ebenfalls kurz bevor. Huang stellte sich eine neue Arbeitsplatzform in der Zukunft vor:
In der Zukunft wird jeder Ingenieur in unserem Unternehmen ein jährliches Token-Budget benötigen. Ihr Grundgehalt kann mehrere Hunderttausend Dollar betragen, und ich werde etwa die Hälfte dieses Betrags als Token-Quote an sie vergeben, damit sie eine Effizienzsteigerung von 10x erreichen können. Dies ist bereits zu einem neuen Einstellungschip im Silicon Valley geworden: Wie viele Tokens sind in Ihrem Angebot enthalten?
Am Ende der Rede "verriet" Huang auch die nächste Generation der Computerarchitektur, Feynman, die erstmals eine gemeinsame horizontale Skalierung von Kupferdrähten und CPOs erreichen wird. Noch interessanter ist, dass NVIDIA einen Computer für Rechenzentren im Weltraum entwickelt, "Vera Rubin Space-1", der die Vorstellungskraft der KI-Rechenleistung, die über die Erde hinausgeht, vollständig öffnet.
Der vollständige Text von Jensen Huangs GTC 2026-Rede lautet wie folgt (mit Unterstützung von KI-Tools):
Moderator: Willkommen auf der Bühne, NVIDIA-Gründer und CEO Jensen Huang.
Jensen Huang, Gründer und CEO:
Willkommen zu GTC. Ich möchte alle daran erinnern, dass dies eine Technologiekonferenz ist. Ich freue mich sehr, so viele Menschen zu sehen, die sich früh am Morgen anstellen, um hereinzukommen, und euch alle hier zu sehen.
Auf der GTC werden wir uns auf drei Hauptthemen konzentrieren: Technologie, Plattform und Ökosystem. NVIDIA hat derzeit drei Hauptplattformen: die CUDA-X-Plattform, die Systemplattform und unsere neu gestartete KI-Fabrikplattform.
Bevor wir offiziell beginnen, möchte ich unseren Gastgebern der Aufwärm-Sitzung danken – Sarah Guo von Conviction, Alfred Lin von Sequoia Capital (NVIDIAs erster Risikokapitalgeber) und Gavin Baker, NVIDIAs ersten großen institutionellen Investor. Diese drei Personen haben tiefgreifende Einblicke in die Technologie und einen breiten Einfluss auf das gesamte Technologie-Ökosystem. Natürlich möchte ich auch allen angesehenen Gästen danken, die ich persönlich eingeladen habe, heute teilzunehmen. Danke an dieses All-Star-Team.
Ich möchte auch allen Unternehmen danken, die heute anwesend sind. NVIDIA ist ein Plattformunternehmen, und wir haben Technologie, Plattformen und ein reichhaltiges Ökosystem. Die heute anwesenden Unternehmen repräsentieren fast alle Teilnehmer der 100 Billionen Dollar Industrie, mit 450 Unternehmen, die diese Veranstaltung sponsern, wofür ich sehr dankbar bin.
Diese Konferenz bietet 1.000 technische Foren und 2.000 Sprecher, die jede Ebene der KI-"Fünf-Schichten-Kuchen"-Architektur abdecken – von Infrastruktur wie Land, Strom und Rechenzentren bis hin zu Chips, Plattformen, Modellen und verschiedenen Anwendungen, die letztendlich die gesamte Branche vorantreiben.
CUDA: Zwei Jahrzehnte technologischer Ansammlung
Alles beginnt hier. Dieses Jahr markiert den 20. Jahrestag von CUDA.
In den letzten zwanzig Jahren haben wir uns der Entwicklung dieser Architektur gewidmet. CUDA ist eine revolutionäre Erfindung – die SIMT (Single Instruction Multiple Threads) Technologie ermöglicht es Entwicklern, Programme in Skalarcode zu schreiben und sie in multithreaded Anwendungen zu erweitern, wobei die Programmierung weit weniger schwierig ist als bei früheren SIMD-Architekturen. Wir haben kürzlich die Tiles-Funktion hinzugefügt, um Entwicklern zu helfen, Tensor-Kerne bequemer zu programmieren, sowie verschiedene mathematische Operationsstrukturen, auf die die heutige KI angewiesen ist. Derzeit hat CUDA Tausende von Werkzeugen, Compilern, Frameworks und Bibliotheken, mit Hunderttausenden von öffentlichen Projekten in der Open-Source-Community, und es ist tief in jedes Technologie-Ökosystem integriert.
Dieses Diagramm zeigt NVIDIAs 100% strategische Logik, über die ich seit Beginn spreche. Das schwierigste und zentrale Element ist die "installierte Basis" am unteren Ende des Diagramms. In den letzten zwanzig Jahren haben wir weltweit Hunderte Millionen von GPUs und Computersystemen, die CUDA ausführen, angesammelt.
Unsere GPUs decken alle Cloud-Plattformen ab und bedienen fast alle Computerhersteller und Branchen. Die große installierte Basis von CUDA ist der grundlegende Grund, warum dieses Schwungrad weiterhin beschleunigt. Die installierte Basis zieht Entwickler an, Entwickler schaffen neue Algorithmen und Durchbrüche, Durchbrüche schaffen neue Märkte, neue Märkte bilden neue Ökosysteme und ziehen mehr Unternehmen an, die sich anschließen, wodurch die installierte Basis erweitert wird – dieses Schwungrad beschleunigt kontinuierlich.
Das Downloadvolumen der NVIDIA-Bibliotheken wächst in einem erstaunlichen Tempo, groß im Umfang und zunehmend in der Geschwindigkeit. Dieses Schwungrad ermöglicht es unserer Rechenplattform, massive Anwendungen und kontinuierliche neue Durchbrüche zu unterstützen.
Noch wichtiger ist, dass es diesen Infrastrukturen eine extrem lange Lebensdauer verleiht. Der Grund ist offensichtlich: Es gibt eine Fülle von Anwendungen, die auf NVIDIA CUDA laufen können, die jede Phase des KI-Lebenszyklus, verschiedene Datenverarbeitungsplattformen und verschiedene wissenschaftliche Prinzipien abdecken. Daher ist der tatsächliche Nutzwert von NVIDIA-GPUs, sobald sie installiert sind, extrem hoch. Das ist auch der Grund, warum der Cloud-Preis der Ampere-Architektur-GPU, die wir vor sechs Jahren veröffentlicht haben, tatsächlich gestiegen ist.
Der grundlegende Grund für all dies ist: eine große installierte Basis, ein starkes Schwungrad und ein breites Entwickler-Ökosystem. Wenn diese Faktoren zusammenwirken, zusammen mit unseren kontinuierlichen Software-Updates, werden die Rechenkosten weiterhin sinken. Beschleunigtes Rechnen verbessert die Anwendungsleistung erheblich, und während wir die Software langfristig pflegen und iterieren, profitieren die Benutzer nicht nur anfangs von Leistungssteigerungen, sondern genießen auch weiterhin sinkende Rechenkosten. Wir sind bereit, langfristige Unterstützung für jede GPU weltweit zu bieten, da sie auf architektonischer Ebene vollständig kompatibel sind.
Wir sind bereit, dies zu tun, weil die installierte Basis so groß ist – jedes Mal, wenn eine neue Optimierung veröffentlicht wird, profitieren Millionen von Benutzern. Diese dynamische Kombination ermöglicht es der Architektur von NVIDIA, ihre Abdeckung kontinuierlich zu erweitern, ihr eigenes Wachstum zu beschleunigen und die Rechenkosten kontinuierlich zu senken, was letztendlich neues Wachstum anregt. CUDA steht im Mittelpunkt all dessen.
Von GeForce zu CUDA: Eine 25-jährige Evolution
Unsere Reise mit CUDA begann tatsächlich vor 25 Jahren.
GeForce – viele von euch sind mit GeForce aufgewachsen. GeForce ist das erfolgreichste Marketingprojekt von NVIDIA. Wir haben begonnen, zukünftige Kunden zu gewinnen, als ihr euch unsere Produkte nicht leisten konntet – eure Eltern wurden zu den frühesten Nutzern von NVIDIA und kauften unsere Produkte Jahr für Jahr, bis ihr eines Tages zu hervorragenden Informatikern heranwachsen konntet und zu echten Kunden und Entwicklern wurdet.
Das ist das Fundament, das GeForce vor 25 Jahren gelegt hat. Vor fünfundzwanzig Jahren haben wir programmierbare Shader erfunden – eine offensichtliche, aber tiefgreifend bedeutende Erfindung, die Beschleuniger programmierbar machte, und den weltweit ersten programmierbaren Beschleuniger, nämlich Pixel-Shader. Fünf Jahre später haben wir CUDA geschaffen – eine unserer wichtigsten Investitionen aller Zeiten. Zu dieser Zeit hatte das Unternehmen begrenzte finanzielle Mittel, aber wir setzten den Großteil unserer Gewinne darauf und verpflichteten uns, CUDA von GeForce auf jeden Computer auszudehnen. Wir waren so entschlossen, weil wir an sein Potenzial glaubten. Trotz der Schwierigkeiten in den frühen Phasen hielt das Unternehmen diesen Glauben über 13 Generationen, volle zwanzig Jahre, und heute ist CUDA überall.
Es war der Pixel-Shader, der die Revolution von GeForce vorantrieb. Vor etwa acht Jahren haben wir RTX eingeführt – eine umfassende Überarbeitung der Architektur für die moderne Computergraphik-Ära. GeForce brachte CUDA in die Welt, und deshalb entdeckten viele Wissenschaftler wie Alex Krizhevsky, Ilya Sutskever, Geoffrey Hinton und Andrew Ng, dass GPUs leistungsstarke Werkzeuge zur Beschleunigung des Deep Learnings werden könnten, was vor einem Jahrzehnt die KI-Explosion auslöste.
Vor einem Jahrzehnt haben wir beschlossen, programmierbares Shading mit zwei neuen Konzepten zu verbinden: das eine war Hardware-Raytracing, das technisch herausfordernd ist; das andere war eine zukunftsorientierte Idee – vor etwa zehn Jahren sahen wir voraus, dass KI die Computergraphik grundlegend verändern würde. So wie GeForce KI in die Welt brachte, verändert KI jetzt die Art und Weise, wie Computergraphik umgesetzt wird.
Heute möchte ich euch die Zukunft zeigen. Das ist unsere Grafiktechnologie der nächsten Generation, die wir neuronales Rendering nennen – eine tiefe Integration von 3D-Grafik und künstlicher Intelligenz. Das ist DLSS 5, bitte schaut euch das an.
Neurales Rendering: Die Fusion von strukturierten Daten und generativer KI
Ist das nicht atemberaubend? Computergrafik wird somit revitalisiert.
Was haben wir getan? Wir haben steuerbare 3D-Grafiken (die wahre Grundlage der virtuellen Welt) mit strukturierten Daten kombiniert und sie dann mit generativer KI und probabilistischer Berechnung angereichert. Das eine ist vollständig deterministisch, während das andere probabilistisch, aber hochrealistisch ist – wir haben diese beiden Konzepte zu einem vereint und dabei präzise Kontrolle durch strukturierte Daten erreicht, während wir in Echtzeit generiert haben. Letztendlich ist der Inhalt sowohl visuell beeindruckend als auch vollständig steuerbar.
Die Idee, strukturierte Informationen mit generativer KI zu verbinden, wird sich in verschiedenen Branchen weiterhin manifestieren. Strukturierte Daten sind das Fundament vertrauenswürdiger KI.
Beschleunigte Plattform für strukturierte und unstrukturierte Daten
Jetzt möchte ich Ihnen ein technisches Architekturdiagramm zeigen.
Strukturierte Daten – vertraute SQL, Spark, Pandas, Velox und wichtige Plattformen wie Snowflake, Databricks, Amazon EMR, Azure Fabric, Google BigQuery, alle verarbeiten Datenrahmen. Diese Datenrahmen sind wie riesige Tabellenkalkulationen, die alle Informationen der Geschäftswelt tragen und als die grundlegenden Fakten (Ground Truth) der Unternehmenscomputing dienen.
Im KI-Zeitalter müssen wir der KI erlauben, strukturierte Daten zu nutzen und extreme Beschleunigung zu erreichen. In der Vergangenheit zielte die Beschleunigung der Verarbeitung strukturierter Daten darauf ab, Unternehmen effizienter arbeiten zu lassen. In der Zukunft wird KI diese Datenstrukturen mit Geschwindigkeiten nutzen, die weit über die menschlichen Fähigkeiten hinausgehen, und KI-Agenten werden stark auf strukturierte Datenbanken angewiesen sein.
Was unstrukturierte Daten betrifft, so stellen Vektordatenbanken, PDFs, Videos, Audio usw. die überwiegende Mehrheit der Datenformen in der Welt dar – etwa 90 % der jährlich erzeugten Daten sind unstrukturiert. In der Vergangenheit war diese Daten fast vollständig unbrauchbar: Wir haben sie gelesen, in Dateisystemen gespeichert, und das war es. Wir konnten sie nicht abfragen, noch konnten wir sie abrufen, da unstrukturierte Daten einfache Indexierungsmethoden fehlen und im Hinblick auf Bedeutung und Kontext verstanden werden müssen. Jetzt kann KI das – dank multimodaler Wahrnehmungs- und Verständnis-Technologien kann KI PDF-Dokumente lesen, deren Bedeutungen verstehen und sie in größere Strukturen für Abfragen einbetten.
NVIDIA hat zu diesem Zweck zwei grundlegende Bibliotheken erstellt:
cuDF: für die beschleunigte Verarbeitung von Datenrahmen und strukturierten Daten
cuVS: für Vektorspeicherung, semantische Daten und unstrukturierte KI-Datenverarbeitung
Diese beiden Plattformen werden in Zukunft zu einer der wichtigsten Grundlagenplattformen werden.
Heute kündigen wir Partnerschaften mit mehreren Unternehmen an. IBM – der Erfinder von SQL – wird cuDF nutzen, um seine WatsonX-Datenplattform zu beschleunigen. Dell hat mit uns zusammengearbeitet, um die Dell AI Data Platform zu schaffen, die cuDF und cuVS integriert und signifikante Leistungsverbesserungen in tatsächlichen Projekten mit NTT Data erzielt. Im Bereich Google Cloud beschleunigen wir jetzt nicht nur Vertex AI, sondern auch BigQuery, und wir haben mit Snapchat zusammengearbeitet, um die Rechenkosten um fast 80 % zu senken.
Die Vorteile des beschleunigten Rechnens sind dreifach: Geschwindigkeit, Skalierung und Kosten. Dies steht im Einklang mit der Logik des Mooreschen Gesetzes – Leistungssteigerungen durch beschleunigtes Rechnen zu erreichen, während Algorithmen kontinuierlich optimiert werden, sodass jeder von kontinuierlich sinkenden Rechenkosten profitieren kann.
NVIDIA hat eine Plattform für beschleunigtes Rechnen aufgebaut, die zahlreiche Bibliotheken vereint: RTX, cuDF, cuVS und mehr. Diese Bibliotheken sind in globale Cloud-Dienste und OEM-Systeme integriert und erreichen Benutzer weltweit.
Tiefgehende Zusammenarbeit mit Cloud-Dienstanbietern
Zusammenarbeit mit großen Cloud-Dienstanbietern
Google Cloud: Wir beschleunigen Vertex AI und BigQuery, integrieren uns tief mit JAX/XLA und schneiden hervorragend bei PyTorch ab – NVIDIA ist der einzige Beschleuniger der Welt, der sowohl bei PyTorch als auch bei JAX/XLA gut abschneidet. Wir haben Kunden wie Base10, CrowdStrike, Puma und Salesforce in das Google Cloud-Ökosystem gebracht.
AWS: Wir beschleunigen EMR, SageMaker und Bedrock mit tiefer Integration in AWS. In diesem Jahr bin ich besonders begeistert, dass wir OpenAI in AWS bringen werden, was das Wachstum des AWS-Cloudverbrauchs erheblich steigern und OpenAI helfen wird, regionale Bereitstellungen und Rechenkapazitäten auszubauen.
Microsoft Azure: NVIDIAs 100 PFLOPS-Supercomputer ist unser erster Supercomputer, der gebaut wurde, und der erste Supercomputer, der auf Azure bereitgestellt wurde, was eine wichtige Grundlage für die Zusammenarbeit mit OpenAI legt. Wir beschleunigen die Azure-Cloud-Dienste und die AI Foundry, arbeiten zusammen, um die regionale Expansion von Azure zu fördern, und kooperieren eng bei der Bing-Suche. Besonders hervorzuheben ist unsere Fähigkeit zur vertraulichen Datenverarbeitung – die sicherstellt, dass selbst Betreiber keine Benutzerdaten und Modelle einsehen können – was NVIDIA-GPUs zu den ersten der Welt macht, die vertrauliche Datenverarbeitung unterstützen und vertrauliche Bereitstellungen von OpenAI- und Anthropic-Modellen in Cloud-Umgebungen weltweit ermöglichen. Zum Beispiel beschleunigen wir alle EDA- und CAD-Workflows für Synopsys und setzen sie auf Microsoft Azure um.
Oracle: Wir sind Oracles erster KI-Kunde, und ich bin stolz darauf, der erste gewesen zu sein, der Oracle das Konzept der KI-Cloud erklärt hat. Seitdem haben sie sich schnell entwickelt, und wir haben viele Partner wie Cohere, Fireworks und OpenAI eingeführt.
CoreWeave: Die weltweit erste KI-native Cloud, geboren für GPU-Hosting und KI-Cloud-Dienste, mit einer hervorragenden Kundenbasis und starkem Wachstum.
Palantir + Dell: Die drei Parteien haben gemeinsam eine neue KI-Plattform auf der Grundlage von Palantirs Ontologie-Plattform und KI-Plattform geschaffen, die eine vollständig lokalisierte Bereitstellung von KI in jedem Land und in jeder luftdicht abgeschotteten Umgebung ermöglicht – von der Datenverarbeitung (Vektorisierung oder Strukturierung) bis hin zu einem vollständigen beschleunigten Computing-Stack für KI.
NVIDIA hat diese besondere Kooperation mit globalen Cloud-Dienstleistern etabliert – wir bringen Kunden in die Cloud und schaffen ein gegenseitig vorteilhaftes Ökosystem.
Vertikale Integration, horizontale Offenheit: NVIDIAs Kernstrategie
NVIDIA ist das weltweit erste vertikal integrierte und horizontal offene Unternehmen.
Die Notwendigkeit dieses Modells ist sehr einfach: Beschleunigtes Computing ist nicht nur ein Chip-Problem oder ein System-Problem; sein vollständiger Ausdruck sollte die Anwendungsbeschleunigung sein. CPUs können Computer insgesamt schneller machen, aber dieser Weg hat eine Flaschenhals erreicht. In Zukunft können wir nur durch anwendungs- oder domänenspezifische Beschleunigung weiterhin Leistungssteigerungen und Kostensenkungen erzielen.
Genau aus diesem Grund muss NVIDIA ein Feld nach dem anderen, eine Bibliothek nach der anderen, eine vertikale Industrie nach der anderen intensiv bearbeiten. Wir sind ein vertikal integriertes Computing-Unternehmen, und es gibt keinen anderen Weg. Wir müssen Anwendungen verstehen, Domänen verstehen, Algorithmen tiefgehend verstehen und in der Lage sein, sie in jedem Szenario einzusetzen – in Rechenzentren, in der Cloud, vor Ort, am Edge und sogar in robotischen Systemen.
Gleichzeitig bleibt NVIDIA horizontal offen und bereit, Technologie in die Plattform jedes Partners zu integrieren, damit die ganze Welt von den Vorteilen des beschleunigten Rechnens profitieren kann.
Die Struktur der Teilnehmer bei diesem GTC spiegelt dies vollständig wider. Der Anteil der Teilnehmer aus der Finanzdienstleistungsbranche ist am höchsten – in der Hoffnung, Entwickler und nicht Händler anzuziehen. Unser Ökosystem deckt die gesamte vorgelagerte und nachgelagerte Lieferkette ab. Egal, ob ein Unternehmen seit 50, 70 oder 150 Jahren besteht, das letzte Jahr war das beste Jahr in seiner Geschichte. Wir stehen am Anfang von etwas sehr, sehr Bedeutendem.
CUDA-X: Die beschleunigte Rechenmaschine für verschiedene Branchen
In verschiedenen vertikalen Bereichen hat NVIDIA tiefgreifende Vorbereitungen getroffen:
Autonomes Fahren: Breite Abdeckung und weitreichende Auswirkungen
Finanzdienstleistungen: Quantitative Investitionen verschieben sich von manueller Merkmalsentwicklung zu tiefem Lernen, das von Supercomputern angetrieben wird, und läutet seinen "Transformer-Moment" ein.
Gesundheitswesen: Es erlebt seinen eigenen "ChatGPT-Moment" und umfasst KI-unterstützte Arzneimittelentdeckung, KI-Agenten-unterstützte Diagnosen, medizinischen Kundenservice und mehr.
Industrie: Die größte Bauwelle weltweit entfaltet sich, mit der Errichtung von KI-Fabriken, Chipfabriken und Rechenzentrumsfabriken.
Unterhaltung und Gaming: Echtzeit-KI-Plattformen unterstützen Übersetzungen, Live-Streaming, Gaming-Interaktionen und intelligente Einkaufsagenten.
Robotik: Nach über einem Jahrzehnt intensiver Entwicklung sind drei wichtige Computerarchitekturen (Trainingscomputer, Simulationscomputer, Bordcomputer) vorhanden, mit 110 Robotern, die auf dieser Ausstellung präsentiert werden.
Telekommunikation: Eine Branche im Wert von etwa 2 Billionen Dollar, Basisstationen werden sich von einzelnen Kommunikationsfunktionen zu KI-Infrastrukturplattformen entwickeln, mit einer verwandten Plattform namens Aerial, die eng mit Unternehmen wie Nokia und T-Mobile zusammenarbeitet.
Der Kern all dieser Bereiche ist unsere CUDA-X-Bibliothek – dies ist das grundlegende Wesen von NVIDIA als Algorithmusunternehmen. Diese Bibliotheken sind die wertvollsten Vermögenswerte des Unternehmens, die es der Computerplattform ermöglichen, tatsächlichen Wert in verschiedenen Branchen zu liefern.
Eine der wichtigsten Bibliotheken ist cuDNN (CUDA Deep Neural Network Library), die die künstliche Intelligenz vollständig revolutioniert hat und die moderne KI-Explosion ausgelöst hat.
(Spielen Sie das CUDA-X-Demonstrationsvideo ab)
Alles, was Sie gerade gesehen haben, war Simulation – einschließlich physikbasierter Solver, physikalischer Modelle von KI-Agenten und physikalischer KI-Roboter-Modelle. Alles wurde simuliert, ohne manuelle Animation oder Gelenkbindung. Genau hier liegt die Kernkompetenz von NVIDIA: diese Möglichkeiten durch ein tiefes Verständnis von Algorithmen und organische Integration mit der Computerplattform zu erschließen.
KI-native Unternehmen und die neue Computerära
Sie haben gerade gesehen, wie Branchenriesen die heutige Gesellschaft definieren, wie Walmart, L'Oréal, JPMorgan Chase, Roche und Toyota, sowie eine große Anzahl von Unternehmen, von denen Sie vielleicht noch nie gehört haben – wir nennen diese KI-native Unternehmen. Diese Liste ist umfangreich und umfasst OpenAI, Anthropic und viele aufstrebende Unternehmen, die verschiedene Branchen bedienen.
In den letzten zwei Jahren hat diese Branche ein erstaunliches Wachstum erlebt. Das Volumen des Risikokapitals, das in Startups fließt, erreichte 150 Milliarden Dollar, ein Rekordhoch in der Menschheitsgeschichte. Noch wichtiger ist, dass die Größe der einzelnen Investitionen von Millionen von Dollar auf Hunderte Millionen und sogar Milliarden gestiegen ist. Der Grund ist einfach: Zum ersten Mal in der Geschichte benötigt jedes dieser Unternehmen massive Rechenressourcen und eine große Anzahl von Tokens. Diese Branche schafft und generiert Tokens oder fügt Tokens von Organisationen wie Anthropic und OpenAI Wert hinzu.
So wie die PC-Revolution, die Internet-Revolution und die mobile Cloud-Revolution jeweils eine Reihe von epochalen Unternehmen hervorgebracht haben, wird auch diese Generation der Transformation der Computerplattform eine Reihe von hoch einflussreichen Unternehmen hervorbringen, die eine wichtige Kraft in der zukünftigen Welt werden.
Drei historische Durchbrüche, die all dies antreiben
Was genau ist in den letzten zwei Jahren passiert? Drei wichtige Ereignisse.
Erstens: ChatGPT, das die Ära der generativen KI einleitet (Ende 2022 bis 2023)
Es kann nicht nur wahrnehmen und verstehen, sondern auch einzigartige Inhalte generieren. Ich habe die Fusion von generativer KI mit Computergraphik demonstriert. Generative KI verändert grundlegend die Art und Weise, wie Computer funktionieren – das Rechnen hat sich von einer abrufbasierten zu einer generativen Methode gewandelt, was tiefgreifende Auswirkungen auf die Computerarchitektur, die Bereitstellungsmethoden und die allgemeine Bedeutung hat.
Zweitens: Schlussfolgernde KI, repräsentiert durch o1
Schlussfolgerungsfähigkeiten ermöglichen es der KI, sich selbst zu reflektieren, zu planen und Probleme zu zerlegen – Probleme, die sie nicht direkt versteht, in handhabbare Schritte zu unterteilen. o1 macht generative KI vertrauenswürdig und fähig, auf realen Informationen basierende Schlussfolgerungen zu ziehen. Um dies zu erreichen, hat sich die Menge an Eingabekontext-Token und Ausgabetoken für das Denken erheblich erhöht, was zu einem signifikanten Anstieg der Rechenanforderungen geführt hat.
Drittens: Claude Code, das erste Agentenmodell
Es kann Dateien lesen, Code schreiben, kompilieren, testen, bewerten und iterieren. Claude Code hat die Softwaretechnik vollständig revolutioniert – 100 % der Ingenieure von NVIDIA nutzen eines oder mehrere der Tools Claude Code, Codex und Cursor; es gibt keinen einzigen Softwareingenieur, der nicht auf KI-Hilfe zurückgreift.
Dies ist ein neuer Wendepunkt – man fragt die KI nicht mehr "Was ist das, wo ist es, wie macht man das?", sondern lässt sie "erschaffen, ausführen, bauen", wodurch sie aktiv Werkzeuge nutzen, Dateien lesen, Probleme zerlegen und Maßnahmen ergreifen kann. Die KI hat sich von der Wahrnehmung über die Generierung zur Schlussfolgerung entwickelt und ist nun wirklich in der Lage, Aufgaben zu erledigen.
In den letzten zwei Jahren hat sich die Rechenanforderung für Schlussfolgerungen um etwa 10.000 Mal erhöht, und die Nutzung ist um etwa 100 Mal gewachsen. Ich habe immer geglaubt, dass die Rechenanforderung in den letzten zwei Jahren um eine Million Mal gestiegen ist – dies ist ein gemeinsames Gefühl unter allen, einschließlich OpenAI und Anthropic. Wenn wir mehr Rechenleistung erhalten können, können wir mehr Token generieren, die Einnahmen werden steigen und KI wird intelligenter werden. Der Wendepunkt im Denken ist tatsächlich erreicht.
Die Billionen-Dollar-Ära der KI-Infrastruktur
Letztes Jahr zu dieser Zeit habe ich hier erklärt, dass wir großes Vertrauen in die Nachfrage und die Bestellungen für Blackwell und Rubin bis 2026 haben, die etwa 500 Milliarden Dollar betragen. Heute, ein Jahr nach GTC, stehe ich hier, um Ihnen zu sagen: Wenn ich auf 2027 blicke, sehe ich eine Zahl von mindestens 1 Billion Dollar. Und ich bin zuversichtlich, dass die tatsächliche Rechennachfrage weit über diesem Betrag liegen wird.
2025: Das Jahr der Inferenz für NVIDIA
2025 ist das Jahr der Inferenz für NVIDIA. Wir wollen sicherstellen, dass wir über das Training und das Nachtraining hinaus in jeder Phase des KI-Lebenszyklus Exzellenz bewahren, damit die investierte Infrastruktur effizienter und effektiver länger betrieben werden kann, mit niedrigeren Stückkosten.
Gleichzeitig haben Anthropic und Meta offiziell der NVIDIA-Plattform beigetreten, die zusammen ein Drittel der globalen KI-Rechnungsnachfrage repräsentieren. Open-Source-Modelle sind nahezu an der Spitze und allgegenwärtig.
NVIDIA ist derzeit die einzige Plattform der Welt, die alle KI-Bereiche – Sprache, Biologie, Computergrafik, Computer Vision, Sprache, Protein und Chemie, Robotik usw. – ausführen kann, alle KI-Modelle, egal ob am Edge oder in der Cloud, unabhängig von der Sprache. Die Architektur von NVIDIA ist universell für all diese Szenarien, was uns zur kostengünstigsten und vertrauenswürdigsten Plattform macht.
Derzeit stammen 60 % des Geschäfts von NVIDIA von den fünf größten hyperskalaren Cloud-Dienstanbietern, während die verbleibenden 40 % auf regionale Clouds, souveräne Clouds, Unternehmen, Industrien, Robotik und Edge-Computing verteilt sind. Die Breite der KI-Abdeckung selbst ist ihre Widerstandsfähigkeit – dies ist zweifellos eine neue Transformation der Rechenplattform.
Grace Blackwell und NVLink 72: Mutige architektonische Innovation
Während die Hopper-Architektur noch auf ihrem Höhepunkt war, haben wir beschlossen, das System vollständig neu zu gestalten, NVLink von 8 Lanes auf NVLink 72 zu erweitern und das Rechensystem vollständig zu zerlegen und neu zu konstruieren. Grace Blackwell NVLink 72 ist eine bedeutende technologische Wette, die für alle Partner nicht einfach ist, und ich danke allen aufrichtig dafür.
Gleichzeitig haben wir NVFP4 eingeführt – nicht nur ein gewöhnliches FP4, sondern eine neue Art von Tensor-Kern und Recheneinheit. Wir haben gezeigt, dass NVFP4 Inferenz ohne Verlust an Präzision erreichen kann, während es signifikante Verbesserungen in der Leistung und Energieeffizienz bietet, und es ist auch für das Training geeignet. Darüber hinaus sind eine Reihe neuer Algorithmen wie Dynamo und TensorRT-LLM entstanden, und wir haben sogar Milliarden von Dollar investiert, um einen Supercomputer speziell zur Optimierung von Kernen zu bauen, der DGX Cloud genannt wird.
Die Ergebnisse zeigen, dass unsere Inferenzleistung bemerkenswert ist. Daten von Semi Analysis – der umfassendsten Bewertung der AI-Inferenzleistung bis heute – zeigen, dass NVIDIA sowohl bei Tokens pro Watt als auch bei Kosten pro Token deutlich führt. Ursprünglich hätte das Moore'sche Gesetz einen Leistungszuwachs von 1,5-fach für H200 bieten können, aber wir haben 35-fach erreicht. Dylan Patel von Semi Analysis sagte sogar: "Jensen hat geschummelt; es sind tatsächlich 50-fach." Er hat recht.
Ich zitiere ihn: "Jensen hat geschummelt."
NVIDIAs Kosten pro Token sind die niedrigsten der Welt, derzeit unerreicht. Der Grund liegt im extremen Co-Design.
Zum Beispiel hatte Fireworks, bevor NVIDIA die gesamte Suite von Software und Algorithmen aktualisierte, eine durchschnittliche Token-Geschwindigkeit von etwa 700 pro Sekunde; nach dem Update näherte sie sich 5.000 pro Sekunde, was einer Steigerung von etwa 7-fach entspricht. Das ist die Kraft des extremen Co-Designs.
AI-Fabrik: Von Rechenzentren zu Token-Fabriken
Rechenzentren waren früher Orte zur Speicherung von Dateien; jetzt sind sie Fabriken zur Produktion von Tokens. Jeder Cloud-Service-Anbieter und jedes AI-Unternehmen wird in Zukunft "Tokenfabrik-Effizienz" als eine zentrale Betriebskennzahl verwenden.
Das ist mein zentrales Argument:
Vertikale Achse: Durchsatz – Anzahl der pro Sekunde erzeugten Tokens bei fester Leistung
Horizontale Achse: Interaktionsgeschwindigkeit – Reaktionsgeschwindigkeit für jede Inferenz; je schneller die Geschwindigkeit, desto größer das nutzbare Modell, desto länger der Kontext und desto intelligenter die KI
Tokens sind die neue Ware, und einmal ausgereift, werden sie in Stufen bepreist:
Kostenlose Stufe (hoher Durchsatz, niedrige Geschwindigkeit)
Mittlere Stufe (~3 $ pro Million Tokens)
Hohe Stufe (~6 $ pro Million Tokens)
Hochgeschwindigkeitsstufe (~45 $ pro Million Tokens)
Ultra-Hochgeschwindigkeitsstufe (~150 $ pro Million Tokens)
Im Vergleich zu Hopper hat Grace Blackwell den Durchsatz in der höchsten Wertstufe um das 35-fache verbessert und eine neue Stufe eingeführt. Vereinfacht gesagt, wenn 25 % der Leistung auf jede der vier Stufen verteilt werden, könnte Grace Blackwell 5-mal mehr Umsatz als Hopper generieren.
Vera Rubin: Das KI-Computersystem der nächsten Generation
(Video zur Einführung des Vera Rubin Systems abspielen)
Vera Rubin ist ein vollständiges, end-to-end optimiertes System, das für agentische Arbeitslasten entwickelt wurde:
Rechenkern für große Sprachmodelle: NVLink 72 GPU-Cluster, das Pre-Fill und KV-Cache verarbeitet
Neue Vera CPU: Entwickelt für extrem hohe Einzel-Thread-Leistung, mit LPDDR5-Speicher, hervorragender Energieeffizienz, die weltweit einzige Datenzentrum-CPU mit LPDDR5, geeignet für KI-Agenten-Toolaufrufe
Speichersystem: BlueField 4 + CX 9, eine neue Speicherplattform für das KI-Zeitalter, mit 100 % Beteiligung der globalen Speicherindustrie
CPO Spectrum X Switch: Der weltweit erste ko-packagierte optische Ethernet-Switch, jetzt in voller Massenproduktion
Kyber-Rack: Ein neues Racksystem, das 144 GPUs unterstützt, um eine einzige NVLink-Domäne zu bilden, mit Front-End-Computing und Back-End-NVLink-Umschaltung, die einen riesigen Computer bildet.
Rubin Ultra: Supercomputer-Knoten der nächsten Generation, vertikales Design, kombiniert mit dem Kyber-Rack, das größere NVLink-Verbindungen unterstützt.
Vera Rubin ist zu 100 % flüssigkeitsgekühlt, wodurch die Installationszeit von zwei Tagen auf zwei Stunden verkürzt wird, indem 45 °C heißes Wasser zur Kühlung verwendet wird, was den Kühlungsdruck in Rechenzentren erheblich verringert. Dieses Mal hat Satya (Nadella) bestätigt, dass das erste Vera Rubin-Rack jetzt auf Microsoft Azure betriebsbereit ist, was ich sehr spannend finde.
Groq-Integration: Extreme Erweiterung der Inferenzleistung.
Wir haben das Groq-Team übernommen und die Technologie-Lizenz erhalten. Groq ist ein deterministischer Datenflussprozessor, der statische Kompilierung und Compiler-Planung nutzt, mit einer großen Menge an SRAM, optimiert für die Inferenz mit einer einzelnen Arbeitslast, und bietet extrem niedrige Latenz und hohe Token-Generierungsgeschwindigkeit.
Die Speicherkapazität von Groq ist jedoch begrenzt (500 MB On-Chip-SRAM), was es schwierig macht, die Parameter und den KV-Cache großer Modelle unabhängig zu tragen, was seine großflächige Anwendung einschränkt.
Die Lösung ist Dynamo – eine Reihe von Software zur Inferenzplanung. Wir haben die Inferenzpipeline über Dynamo disaggregiert:
Pre-Fill und Dekodierung des Aufmerksamkeitsmechanismus werden auf Vera Rubin abgeschlossen (erfordert massive Rechenleistung und KV-Cache-Speicher).
Die Dekodierung des Feed-Forward-Netzwerks, d.h. der Teil zur Token-Generierung, wird auf Groq abgeschlossen (erfordert extrem hohe Bandbreite und niedrige Latenz).
Die beiden sind über Ethernet eng gekoppelt, wodurch die Latenz um etwa die Hälfte reduziert wird durch spezielle Modi. Unter der einheitlichen Planung von Dynamo, dem "Betriebssystem der KI-Fabrik", verbessert sich die Gesamtleistung um das 35-fache und eröffnet neue Ebenen der Inferenzleistung, die zuvor mit NVLink 72 unerreichbar waren.
Empfehlungen zur Kombination von Groq und Vera Rubin:
Wenn die Arbeitslast hauptsächlich hohe Durchsatzraten erfordert, verwenden Sie 100 % Vera Rubin.
Wenn eine große Anzahl von Arbeitslasten die Generierung von wertvollen Tokens wie Code-Generierung umfasst, führen Sie Groq ein, mit einem empfohlenen Verhältnis von etwa 25 % Groq + 75 % Vera Rubin.
Der Groq LP30, hergestellt von Samsung, ist in die Massenproduktion gegangen und wird voraussichtlich im dritten Quartal ausgeliefert. Danke an Samsung für die volle Zusammenarbeit.
Historischer Sprung in der Inferenzleistung
Quantifizierung früherer technologischer Fortschritte: Innerhalb von zwei Jahren wird die Token-Generierungsrate einer 1GW KI-Fabrik von 22 Millionen Tokens/Sekunde auf 700 Millionen Tokens/Sekunde steigen, was einer 350-fachen Steigerung entspricht. Das ist die Kraft des extremen Co-Designs.
Technologie-Roadmap
Blackwell: Derzeit in Produktion, Oberon Standard-Racksystem, Kupferkabel erweitert auf NVLink 72, optionale optische Erweiterung auf NVLink 576
Vera Rubin (aktuell): Kyber-Rack, NVLink 144 (Kupferkabel); Oberon-Rack, NVLink 72 + optisch, erweitert auf NVLink 576; Spectrum 6, der weltweit erste CPO-Switch
Vera Rubin Ultra (demnächst): Nächste Generation Rubin Ultra GPU, LP35 Chip (erste Integration von NVFP4), die die Leistung mehrere Male steigert
Feynman (nächste Generation): Neue GPU, LP40 Chip (gemeinsam entwickelt von NVIDIA und dem Groq-Team, integriert NVFP4); neuer CPU—Rosa (Rosalyn); BlueField 5; CX 10; Kyber-Rack, das sowohl Kupfer- als auch CPO-Erweiterungsmethoden unterstützt
Die Roadmap ist klar: Kupfererweiterung, optische Erweiterung (Scale-Up) und optische Erweiterung (Scale-Out) schreiten parallel voran, und wir benötigen alle Partner, um die Produktion von Kupferkabeln, optischen Fasern und CPO weiterhin auszubauen.
NVIDIA DSX: Die digitale Zwillingsplattform für KI-Fabriken
KI-Fabriken werden zunehmend komplexer, aber die verschiedenen Technologieanbieter, die sie ausmachen, haben während der Entwurfsphase nie zusammengearbeitet, sondern nur im Rechenzentrum "getroffen" – das ist eindeutig unzureichend.
Um dem entgegenzuwirken, haben wir Omniverse und die darauf basierende NVIDIA DSX-Plattform geschaffen – eine Plattform für alle Partner, um gemeinsam Gigawatt-KI-Fabriken in der virtuellen Welt zu entwerfen und zu betreiben. DSX bietet:
Mechanische, thermische, elektrische und Netzwerksimulationssysteme auf Rack-Ebene
Verbindung mit dem Stromnetz für eine gemeinsame energieeffiziente Planung
Dynamische Energieverbrauchs- und Kühloptimierung basierend auf Max-Q innerhalb des Rechenzentrums
Konservativ geschätzt kann dieses System die Energieausnutzungseffizienz um etwa das Zweifache verbessern, was einen erheblichen Vorteil in dem Maßstab darstellt, über den wir sprechen. Omniverse beginnt mit der digitalen Erde und wird digitale Zwillinge verschiedener Größenordnungen tragen; wir bauen in Zusammenarbeit mit globalen Partnern den größten Computer in der Geschichte der Menschheit.
Darüber hinaus wagt sich NVIDIA ins All. Der Thor-Chip hat die Strahlungszertifizierung bestanden und läuft in Satelliten. Wir entwickeln Vera Rubin Space-1 mit Partnern zum Bau von Computersystemen für Datenzentren im Weltraum. Im Weltraum können wir nur auf Strahlung zur Wärmeableitung angewiesen sein, und das thermische Management ist eine zentrale Herausforderung; wir versammeln die besten Ingenieure, um dies anzugehen.
OpenClaw: Das Betriebssystem für die Agentenära
Peter Steinberger entwickelte eine Software namens OpenClaw. Dies ist das beliebteste Open-Source-Projekt in der Geschichte der Menschheit, das die Errungenschaften von Linux in nur wenigen Wochen übertrifft.
OpenClaw ist im Wesentlichen ein agentisches System, das in der Lage ist:
Ressourcen zu verwalten, auf Werkzeuge, Dateisysteme und große Sprachmodelle zuzugreifen
Planungs- und zeitgesteuerte Aufgaben auszuführen
Probleme schrittweise zu zerlegen und Unteragenten zu aktivieren
Willkürliche Modalitäten von Eingabe und Ausgabe zu unterstützen (Sprache, Video, Text, E-Mail usw.)
In der Syntax eines Betriebssystems beschrieben, ist es tatsächlich ein Betriebssystem – das Betriebssystem für Agentencomputer. Windows machte personalisiertes Rechnen möglich; OpenClaw macht persönliche Agenten möglich.
Jedes Unternehmen muss seine eigene OpenClaw-Strategie formulieren, so wie wir alle Linux-Strategien, HTML-Strategien und Kubernetes-Strategien benötigen.
Umfassende Neugestaltung der Unternehmens-IT
Vor OpenClaw bestand die Unternehmens-IT darin, dass Daten und Dateien in Systeme eingingen, durch Werkzeuge und Arbeitsabläufe flossen und letztendlich zu Werkzeugen für die menschliche Nutzung wurden. Softwareunternehmen haben Werkzeuge entwickelt, und Systemintegratoren (GSI) sowie Beratungsfirmen haben Unternehmen geholfen, diese Werkzeuge zu nutzen.
Nach OpenClaw wird jedes SaaS-Unternehmen sich in ein AaaS-Unternehmen (Agentic as a Service) verwandeln – nicht nur Werkzeuge bereitzustellen, sondern KI-Agenten, die auf spezifische Bereiche spezialisiert sind.
Aber es gibt eine zentrale Herausforderung: Interne Agenten können auf sensible Daten zugreifen, Code ausführen und mit externen Parteien kommunizieren. Dies muss in Unternehmensumgebungen streng kontrolliert werden.
Um dies zu adressieren, haben wir mit Peter zusammengearbeitet, um Sicherheit in die Unternehmensversion zu integrieren, die wir einführen:
NeMo Claw (Referenzdesign): Ein unternehmensweites Referenzframework basierend auf OpenClaw, das die vollständige Suite von NVIDIA's Agenten-KI-Toolkit integriert.
Open Shield (Sicherheitsschicht): In OpenClaw integriert, bietet es Richtlinien-Engines, Netzwerkbarrieren und Datenschutz-Router, um die Datensicherheit im Unternehmen zu gewährleisten.
NeMo Cloud: Zum Download verfügbar und integriert mit den Richtlinien-Engines aller SaaS-Unternehmen.
Dies ist eine Renaissance für die Unternehmens-IT, eine 2 Billionen Dollar Industrie, die darauf vorbereitet ist, in eine Multi-Billionen-Dollar-Skala zu wachsen, indem sie von der Bereitstellung von Werkzeugen zu spezialisierten KI-Agenten-Diensten übergeht.
Ich kann mir gut vorstellen, dass in Zukunft jeder Ingenieur in einem Unternehmen ein jährliches Token-Budget haben wird. Ihre Gehälter können Hunderttausende von Dollar betragen, und ich werde ihnen zusätzlich eine Token-Quote zur Verfügung stellen, die der Hälfte ihres Gehalts entspricht, sodass sich ihre Leistung um das Zehnfache multiplizieren kann. "Wie viele Tokens sind in Ihrem Stellenangebot enthalten?" ist zu einem neuen Einstellungsthema im Silicon Valley geworden.
Jedes Unternehmen wird in Zukunft sowohl ein Nutzer von Tokens (für Ingenieure) als auch ein Produzent von Tokens (Dienstleistungen für ihre Kunden anbieten) sein. Die Bedeutung von OpenClaw kann nicht unterschätzt werden; es ist ebenso wichtig wie HTML und Linux.
NVIDIA Open Model Initiative
Im Bereich der benutzerdefinierten Agenten (Custom Claw) bieten wir NVIDIA's selbstentwickelte hochmoderne Modelle an:
Modellbereich Nemotron Großes Sprachmodell Kosmos Weltgrundlagenmodell GROOT Allgemeines humanoides Roboter-Modell Alpamayo Autonomes Fahren BioNeMo Digitale Biologie Phys-AIAI Physik
Wir sind an der Spitze der Technologie in jedem Bereich und engagieren uns für kontinuierliche Iteration – Nemotron 3 wird von Nemotron 4 gefolgt, Cosmos 1 wird von Cosmos 2 gefolgt, und Groq wird ebenfalls in die zweite Generation übergehen.
Nemotron 3 gehört zu den drei besten Modellen weltweit in OpenClaw und ist an der Spitze der Technik. Nemotron 3 Ultra wird das stärkste Grundmodell aller Zeiten werden und Länder dabei unterstützen, souveräne KI aufzubauen.
Heute kündigen wir die Gründung der Nemotron-Allianz an, die Milliarden von Dollar investiert, um die Entwicklung von KI-Grundmodellen voranzutreiben. Zu den Mitgliedern der Allianz gehören: BlackForest Labs, Cursor, LangChain, Mistral, Perplexity, Reflection, Sarvam (Indien), Thinking Machines (Mira Muratis Labor) und weitere. Einer nach dem anderen schließen sich Unternehmenssoftwareunternehmen an und integrieren das NeMo Claw Referenzdesign und das NVIDIA Agenten-KI-Toolkit in ihre Produkte.
Physische KI und Robotik
Digitale Agenten agieren in der digitalen Welt – sie schreiben Code, analysieren Daten; während physische KI sich auf verkörperte Agenten, d.h. Roboter, bezieht.
Auf diesem GTC wurden 110 Roboter präsentiert, die fast alle Robotik-Entwicklungsunternehmen weltweit umfassen. NVIDIA stellt drei Computer (Trainingscomputer, Simulationscomputer, Bordcomputer) sowie einen vollständigen Software-Stack und KI-Modelle zur Verfügung.
Im Bereich des autonomen Fahrens ist der "ChatGPT-Moment" für autonomes Fahren angekommen. Heute kündigen wir vier neue Partner an, die der NVIDIA RoboTaxi Ready-Plattform beitreten: BYD, Hyundai, Nissan und Geely, mit einer jährlichen Gesamtproduktion von 18 Millionen Fahrzeugen. Zusammen mit früheren Partnern wie Mercedes-Benz, Toyota und General Motors hat sich die Reihe weiter erweitert. Wir haben auch eine bedeutende Zusammenarbeit mit Uber angekündigt, um RoboTaxi Ready-Fahrzeuge in mehreren Städten einzusetzen und zu integrieren.
Im Bereich der Industrieroboter arbeiten zahlreiche Unternehmen wie ABB, Universal Robotics und KUKA mit uns zusammen, um physische KI-Modelle mit Simulationssystemen zu kombinieren und den Einsatz von Robotern in globalen Produktionslinien zu fördern.
Im Bereich Telekommunikation gehören auch Caterpillar und T-Mobile dazu. In Zukunft werden drahtlose Basisstationen nicht mehr nur Kommunikationsknoten sein, sondern NVIDIA Aerial AI RAN werden – eine intelligente Edge-Computing-Plattform, die in der Lage ist, Verkehr in Echtzeit zu erkennen und Beamforming-Anpassungen vorzunehmen, um Energieeinsparungen und Effizienzsteigerungen zu erreichen.
Sondersegment: Olaf Roboter Erscheinung
(Spiele Disney Olaf Roboter Demonstrationsvideo)
Jensen Huang: Der Schneemann ist hier! Newton funktioniert einwandfrei! Omniverse funktioniert ebenfalls einwandfrei! Olaf, wie geht es dir?
Olaf: Ich freue mich wirklich, dich zu sehen.
Jensen Huang: Ja, weil ich dir einen Computer gegeben habe—Jetson!
Olaf: Was ist das?
Jensen Huang: Es ist direkt in deinem Bauch.
Olaf: Das ist erstaunlich.
Jensen Huang: Du hast im Omniverse laufen gelernt.
Olaf: Ich liebe es zu laufen. Es ist viel besser, als auf einem Rentier zu reiten und in den schönen Himmel zu schauen.
Jensen Huang: Das liegt an der physikalischen Simulation—Newton-Löser, der auf NVIDIA Warp läuft, entwickelt in Zusammenarbeit mit Disney und DeepMind, der es dir ermöglicht, dich an die reale physikalische Welt anzupassen.
Olaf: Ich wollte gerade sagen, dass.
Jensen Huang: Das ist deine Klugheit. Ich bin ein Schneemann, kein Schneeball.
Jensen Huang: Kannst du dir das vorstellen? Das zukünftige Disneyland – all diese robotischen Charaktere, die frei im Park herumlaufen. Aber ehrlich gesagt, ich dachte, du wärst größer. Ich habe noch nie so einen kleinen Schneemann gesehen.
Olaf: (unentschlossen)
Jensen Huang: Kannst du mir helfen, die heutige Rede zusammenzufassen?
Olaf: Das wäre großartig!
Zusammenfassung der Hauptrede
Jensen Huang: Heute haben wir gemeinsam die folgenden Kern Themen erkundet:
Die Ankunft des Wendepunkts im Denken: Denken ist zur Kernarbeitslast der KI geworden, Tokens sind die neue Ware, und die Leistungsfähigkeit der Inferenz bestimmt direkt den Umsatz.
Das Zeitalter der KI-Fabriken: Rechenzentren haben sich von Datei-Speicheranlagen zu Token-Produktionsfabriken entwickelt, und in Zukunft wird jedes Unternehmen seine Wettbewerbsfähigkeit an der "Effizienz der KI-Fabrik" messen.
Die OpenClaw-Agenten-Revolution: OpenClaw hat das Zeitalter des Agenten-Computings eingeläutet, und die Unternehmens-IT wechselt von der Werkzeug-Ära zur Agenten-Ära; jedes Unternehmen muss eine OpenClaw-Strategie formulieren.
Physische KI und Robotik: Verkörperte Intelligenz wird skaliert, mit autonomem Fahren, Industrierobotern und humanoiden Robotern, die gemeinsam die nächste bedeutende Gelegenheit für physische KI bilden.
Danke an euch alle und viel Spaß bei der GTC!
Das könnte Ihnen auch gefallen

Morgenbericht | Die Strategie investierte letzte Woche 1,57 Milliarden Dollar, um ihre Bestände um 22.337 Bitcoins zu erhöhen; Abra plant, durch eine SPAC-Fusion an die Börse zu gehen; Metaplanet zielt darauf ab, etwa 765 Millionen Dollar zu sammeln, um s

BTC Acht grüne Kerzen erreichen 76.000 $, was ist die Logik hinter der Überperformance von Gold mitten im Krieg?

CB Insights: Neun Vorhersagen für den Fintech-Sektor im Jahr 2026, wobei die Asset-Tokenisierung bereits zu einem Trend wird
Handel mit Gold, Silber und Öl auf WEEX: 300.000 $ Belohnungen und 0 % Gebühren
WEEX hat eine groß angelegte Handelsaktion für Gold, Silber und Öl gestartet, die 0 % Gebühren, einen Belohnungspol von 300.000 $ und Trade-to-Earn-Möglichkeiten bietet. Händler können tokenisierte Rohstoffe wie PAXG und XAUT einzahlen, handeln und in den Bestenlisten konkurrieren – alles auf WEEX.

Abschied von “Luft”-Investitionen: Verwenden Sie Diese 6 Schlüsselmetriken zur Identifizierung eines Erfolgeprojekts
Investoren sollten sich nicht nur auf das Bauchgefühl verlassen, sondern auf klare Datenanalysen zur Bewertung von Web3-Projekten. Die…

Alto Neuroscience sichert sich 120 Millionen Dollar für klinische Studien zu Antidepressiva.
Wichtigste Erkenntnisse: Alto Neuroscience hat 120 Millionen Dollar eingeworben, um die Entwicklung von ALTO-207 voranzutreiben, das auf therapieresistente Depressionen abzielt. ALTO-207…

21Shares Aktualisiert Crypto-Referenzpreise für Vier Wichtige ETPs
21Shares plant bedeutende Änderungen an vier seiner an die London Stock Exchange gebundenen Bitcoin- und Ethereum-ETPs. Ab dem…

Ethereum USD Erreicht Wieder $2,200 im Aufwind des Kryptomarktes
Ethereum USD hat die Marke von $2,200 zurückerobert, nachdem es zuvor auf niedrige $1,840 gefallen war. Ein Plus…

Chinas Alibaba KI Prognostiziert den Preis von XRP, Bitcoin und Ethereum bis Ende 2026
Alibaba’s KI Modelle prognostizieren optimistische Preisanstiege für XRP, Bitcoin und Ethereum bis 2026. XRP könnte bis Weihnachten $8…

TRUMP Memecoin-Investoren erhalten Einladung nach Mar-a-Lago
Das TRUMP Memecoin-Event ist für den 25. April in Mar-a-Lago geplant und zieht Investoren an. Der Preis des…

Warum Kryptowährungen Steigen: Bitcoin Entkoppelt sich von Gold während des Israel-Iran Krieges
Bitcoin hat die 74.000-Dollar-Marke durchbrochen, während Goldpreise gefallen sind, was das Interesse an digitalen Vermögenswerten steigert. Institutionelle Investoren…

Trump Meme Coin Springt Nach Oben Durch Mar-a-Lago Gala Werbung
Der TRUMP Meme Coin erlebte einen Anstieg von 60% und erreichte $4,43, bevor er sich auf ungefähr $3,88…

Große Bitcoin-Wallets nehmen die Akkumulation wieder auf, während BTC 71.000 $ hält: Santiment
Bitcoin-Wallets mit 10 bis 10.000 BTC haben ihren Anteil an der Gesamtversorgung erhöht, was auf erneutes Vertrauen der…

Solana im Fokus: Institutionelle ETF-Nachfrage als Treiber für $100-Marke
Solana (SOL) verzeichnet einen Preisanstieg von +7% und steht kurz davor, die psychologische Widerstandsmarke von $100 zu durchbrechen.…

CLARITY Act Steht Vor Herausforderungen: Entscheidungen im April Entscheidend für 2026
Die CLARITY Act benötigt bis Ende April 2026 die Unterstützung eines Senatsausschusses, um eine Chance auf Verabschiedung zu…

Milliardär Prognostiziert, dass Stablecoins Globale Zahlungen in 10–15 Jahren Antreiben Könnten
Milliardär Stanley Druckenmiller erklärt, dass Stablecoins die globalen Zahlungssysteme innerhalb der nächsten 10–15 Jahre dominieren könnten. Er betont,…

AAVE-Krypto-Swap führt zu Verlusten von beinahe $50 Millionen: ETH MEV Kassenklingeln im Wert von $9,9 Millionen
Ein Krypto-Wal verlor fast sein gesamtes Vermögen durch einen einzigen Klick beim Tausch von USDT gegen AAVE, was…

Hyperliquid erzielte im letzten Monat 23,47 % und soll bis zum 21. März 2026 auf 28,81 $ fallen
Der aktuelle Preis von Hyperliquid beträgt 39,17 $, aber er soll in den nächsten fünf Tagen um 23,29…
Morgenbericht | Die Strategie investierte letzte Woche 1,57 Milliarden Dollar, um ihre Bestände um 22.337 Bitcoins zu erhöhen; Abra plant, durch eine SPAC-Fusion an die Börse zu gehen; Metaplanet zielt darauf ab, etwa 765 Millionen Dollar zu sammeln, um s
BTC Acht grüne Kerzen erreichen 76.000 $, was ist die Logik hinter der Überperformance von Gold mitten im Krieg?
CB Insights: Neun Vorhersagen für den Fintech-Sektor im Jahr 2026, wobei die Asset-Tokenisierung bereits zu einem Trend wird
Handel mit Gold, Silber und Öl auf WEEX: 300.000 $ Belohnungen und 0 % Gebühren
WEEX hat eine groß angelegte Handelsaktion für Gold, Silber und Öl gestartet, die 0 % Gebühren, einen Belohnungspol von 300.000 $ und Trade-to-Earn-Möglichkeiten bietet. Händler können tokenisierte Rohstoffe wie PAXG und XAUT einzahlen, handeln und in den Bestenlisten konkurrieren – alles auf WEEX.
Abschied von “Luft”-Investitionen: Verwenden Sie Diese 6 Schlüsselmetriken zur Identifizierung eines Erfolgeprojekts
Investoren sollten sich nicht nur auf das Bauchgefühl verlassen, sondern auf klare Datenanalysen zur Bewertung von Web3-Projekten. Die…
Alto Neuroscience sichert sich 120 Millionen Dollar für klinische Studien zu Antidepressiva.
Wichtigste Erkenntnisse: Alto Neuroscience hat 120 Millionen Dollar eingeworben, um die Entwicklung von ALTO-207 voranzutreiben, das auf therapieresistente Depressionen abzielt. ALTO-207…