Último podcast de Huang Renxun: O Moat da NVIDIA pode durar?
Título do vídeo: Jensen Huang: - O fosso da Nvidia persistirá?
Autor do vídeo: Dwarkesh Patel
Tradução: Peggy, BlockBeats
Nota do Editor: Enquanto o mundo exterior ainda está debatendo se "o fosso da Nvidia vem da cadeia de suprimentos", esta conversa argumenta que o que realmente é difícil de replicar não é o próprio chip, mas a capacidade de todo o sistema de "electrificar em tokens" - da arquitetura computacional, sistema de software à operação colaborativa do ecossistema de desenvolvedores.
Este artigo é compilado a partir da conversa entre Dwarkesh Patel e Jensen Huang. Dwarkesh Patel é um dos anfitriões de podcasts de tecnologia mais vistos no Vale do Silício, hospedando o canal YouTube Dwarkesh Podcast, especializado em entrevistas de pesquisa em profundidade, envolvendo diálogos de longo prazo com pesquisadores de IA e figuras principais da indústria de tecnologia.

À direita é Dwarkesh Patel, à esquerda é Jensen Huang
Em torno deste núcleo, esta conversa pode ser entendida a partir de três perspectivas.
Primeiro, há a mudança na tecnologia e na estrutura da indústria.
A vantagem da Nvidia não reside apenas no desempenho do hardware, mas no ecossistema de desenvolvedores carregado pelo CUDA, e na dependência de caminho formada em torno da pilha de computação. Neste sistema, o poder de computação não é mais a única variável, e algoritmos, engenharia de sistemas, rede e eficiência energética juntos determinam o ritmo do avanço da IA. Isso também leva a um julgamento importante: o software não será simplesmente "commoditizado" pela IA; pelo contrário, com a proliferação de agentes, as invocações de ferramentas crescerão exponencialmente, amplificando ainda mais o valor do software.
Em segundo lugar, há os limites das opções de negócios e estratégicas.
Diante da cadeia de indústria de IA em constante expansão, a Nvidia opta por "fazer o que é necessário, mas não fazer tudo". Ele não entra em computação em nuvem, nem se envolve em integração vertical excessiva, mas amplifica o tamanho global do mercado através de investimento e apoio ao ecossistema. Esta restrição permite-lhe manter o controle crítico, evitando ao mesmo tempo tornar-se o substituto de um ecossistema, trazendo assim mais participantes para o seu sistema tecnológico.
Terceiro, há uma discrepância na difusão da tecnologia e na paisagem da indústria.
A parte mais tensa da conversa não está nas conclusões específicas, mas em como entender o próprio "risco". Um ponto de vista enfatiza a vantagem do primeiro-mover gerada pela liderança do poder de computação, enquanto outro se concentra mais na atribuição a longo prazo de ecossistemas e padrões no processo de difusão de tecnologia. Em vez da lacuna de capacidade a curto prazo, a questão mais crítica pode ser: qual sistema tecnológico os futuros modelos de IA e desenvolvedores operarão.
Em outras palavras, o jogo final desta competição não é apenas "quem pode construir um modelo mais poderoso primeiro", mas "quem define a infraestrutura sobre a qual o modelo funciona".
Neste sentido, o papel da NVIDIA já não é apenas o de uma empresa de chips, mas mais próximo de ser o "provedor de sistema operacional subjacente" da era da IA - ela procura garantir que não importa como o poder de computação se prolifere, o caminho para a criação de valor ainda gira em torno de si mesma.
O seguinte é o conteúdo original (reorganizado para facilitar a compreensão da leitura):
TL; DR
· O fosso da NVIDIA não está em "chips", mas na "capacidade de sistema de pilha completa de elétrons para tokens." O núcleo não é o desempenho do hardware, mas a capacidade de converter o cálculo em valor através de uma abordagem de pilha completa (arquitetura + software + ecossistema).
· A vantagem essencial do CUDA não é a ferramenta em si, mas o maior ecossistema de desenvolvedores de IA do mundo. Desenvolvedores, frameworks e modelos estão todos ligados à mesma pilha de tecnologia, formando uma dependência de caminho insubstituível.
· A chave para a concorrência de IA não é apenas o poder de computação, mas a combinação de "computational stack × algorithms × system engineering". As melhorias na arquitetura, na rede, na eficiência energética e na colaboração de software vão muito além do progresso da mera tecnologia de processos.
· O gargalo computacional é um problema de curto prazo, e a oferta será reabastecida sendo impulsionada por sinais de demanda dentro de 2–3 anos. A verdadeira restrição a longo prazo não é o chip, mas a energia e a infraestrutura.
· O software de IA não será commoditizado; em vez disso, ele experimentará crescimento exponencial no uso de ferramentas devido à explosão do agente. O futuro não é software mais barato, mas um aumento exponencial na invocação de software.
· A estratégia básica da NVIDIA é não se aventurar na nuvem: fazer "tudo o necessário", mas não engolir toda a cadeia de valor. Através do apoio ao investimento e ao ecossistema em vez da integração vertical, a NVIDIA amplifica o tamanho global do mercado.
O verdadeiro risco estratégico não é que os concorrentes ganhem poder de computação, mas que o ecossistema global de IA não esteja mais baseado na pilha de tecnologia americana. Uma vez que os modelos e os desenvolvedores migram, os padrões técnicos a longo prazo e a dominação industrial mudam de acordo.
Conteúdo da entrevista
Onde está o moat da NVIDIA: na cadeia de suprimentos ou no controle de "electrons to Tokens"?
Dwarkesh Patel (Anfitrião):
Vimos que as avaliações de muitas empresas de software diminuíram porque se espera que a IA converta o software em um produto padronizado. Há outro entendimento um pouco ingênuo que vai algo assim: você vê, dos arquivos de design (GDS2) entregues à TSMC, a TSMC é responsável pela fabricação do chip lógico, fabricação de wafer, construção dos circuitos de interruptor, em seguida, embalagem com HBM produzidos pela SK Hynix, Micron, Samsung, e finalmente enviado para a ODM para montagem em um quadro de máquina completo.
Nota: HBM (High Bandwidth Memory) é uma tecnologia de memória avançada concebida especificamente para computação de alto desempenho e IA; ODM (Original Design Manufacturer) refere-se a um fabricante de contrato responsável por produção e design de produto.
Então, desta perspectiva, a NVIDIA está essencialmente fazendo software, enquanto a produção é feita por outros. Se o software for commoditizado, então a NVIDIA também será commoditizada.
Jensen Huang (CEO da NVIDIA):
Mas, finalmente, tem que haver um processo para converter os elétrons em tokens. De elétrons para tokens, e tornando esses tokens mais valiosos ao longo do tempo, eu acho que essa transformação é difícil de commoditar completamente.
A transformação de elétrons em tokens é em si um processo muito extraordinário. E fazer um token mais valioso, como fazer uma molécula mais valiosa do que outra, é fazer um token mais valioso do que outro.
Neste processo, há muita arte, engenharia, ciência e invenção envolvidas para dar valor a este token.
Claramente, estamos testemunhando tudo isso acontecendo em tempo real. Portanto, este processo de transformação, processo de fabricação e os vários sinais envolvidos não foram totalmente compreendidos, e esta jornada está longe de terminar. Então eu não acho que esse cenário vai acontecer.
Claro, vamos torná-lo mais eficiente. Na verdade, a forma como você acabou de descrever o problema é realmente um modelo mental que eu tenho da NVIDIA: a entrada é de elétrons, a saída é de tokens, e a NVIDIA está no meio.
Nosso trabalho é "fazer o máximo possível do necessário e o mínimo possível do desnecessário" para alcançar esta transformação e dar-lhe capacidade extremamente elevada.
Quando digo "o mínimo possível", quero dizer que para qualquer coisa que não precisemos fazer sozinhos, vamos colaborar com os outros e incorporá-la em nosso ecossistema. Se você olhar para a NVIDIA hoje em dia, podemos ter um dos maiores ecossistemas de parceiros nas cadeias de suprimentos upstream e downstream. De fabricantes de computadores, desenvolvedores de aplicativos, a desenvolvedores de modelos - você pode ver a IA como um "torta de cinco camadas", e temos um layout do ecossistema nestes cinco níveis.
Leitura relacionada: "O CEO da NVIDIA Jensen Huang: O 'Five-Layer Cake' da AI"
Então tentamos fazer o mínimo possível, mas a parte que temos que fazer é realmente extremamente difícil. E eu não acho que a parte será commoditized.
De fato, eu também não acho que as empresas de software empresarial estejam fundamentalmente no negócio da "fabricação de ferramentas". No entanto, a realidade é que a maioria das empresas de software hoje são provedores de ferramentas.
Claro, existem exceções; algumas são sistemas de codificação e solidificação de fluxos de trabalho, mas muitas empresas são fundamentalmente empresas de ferramentas.
Por exemplo, o Excel é uma ferramenta, o PowerPoint é uma ferramenta, o que o Cadence faz é uma ferramenta e o Synopsys também é uma ferramenta.
Jensen Huang:
E a tendência que vejo é realmente contrária às opiniões de muitas pessoas. Acredito que o número de agentes vai crescer exponencialmente, e o número de usuários de ferramentas também vai crescer exponencialmente.
O número de instâncias que chamam várias ferramentas também provavelmente aumentará. Por exemplo, as instâncias de uso do Synopsys Design Compiler podem aumentar significativamente.
Haverá um grande número de agentes usando planadores de piso, ferramentas de layout e ferramentas de verificação de regras de design.
Hoje, somos limitados pelo número de engenheiros; mas amanhã, esses engenheiros serão apoiados por um grande número de agentes, e vamos explorar o espaço de design de maneiras sem precedentes. Quando você começar a usar essas ferramentas hoje, essa mudança será muito evidente.
O uso de ferramentas levará essas empresas de software a atingir um crescimento explosivo. Este crescimento explosivo ainda não aconteceu porque os agentes atuais ainda não são hábeis em usar as ferramentas.
Então, ou essas empresas construem agentes por si mesmas, ou os próprios agentes se tornam suficientemente fortes para usar essas ferramentas. Acredito que o resultado final será uma combinação dos dois.
Dwarkesh Patel
Eu me lembro em sua mais recente divulgação, você tinha quase 100 bilhões de dólares em compromissos de aquisição para componentes de fronteira, memória, embalagem, etc. E o relatório SemiAnalysis sugere que essa cifra pode chegar a US$ 250 bilhões.
Uma interpretação é que o fosso da NVIDIA reside em você fechar na oferta desses componentes escassos para os próximos anos. Em outras palavras, outros podem fazer aceleradores também, mas eles podem ter memória suficiente? Eles podem obter chips lógicos suficientes?
Será esta a principal vantagem da NVIDIA nos próximos anos?
Jensen Huang:
É algo que podemos fazer, mas é muito difícil para os outros. A razão pela qual podemos fazer compromissos tão maciços é parcialmente explícita, como nos compromissos de aquisição que mencionou; e parcialmente implícita.
Por exemplo, grande parte do investimento na corrente alta é realmente feita por nossos parceiros da cadeia de suprimentos, porque eu diria ao seu CEO: Deixe-me dizer-lhe o quão grande esta indústria vai ser, deixe-me explicar o porquê, deixe-me deduzir com você, deixe-me dizer-lhe o que vejo.
Através desse processo – transmitindo informações, inspirando uma visão, construindo consenso – eu me alinharei com CEOs de diferentes indústrias, e só então eles estão dispostos a fazer esses investimentos.
Então, por que eles estão dispostos a investir em mim e não em outros? Porque eles sabem que eu tenho a capacidade de comprar sua capacidade e digerir através da minha corrente inferior. É precisamente por causa da demanda e da escala da cadeia de suprimentos da NVIDIA que eles estão dispostos a investir no upstream.
Olhe para o GTC, a escala da conferência surpreendeu muitas pessoas. É essencialmente um universo de IA de 360 graus que reúne toda a indústria. Todos se reúnem porque precisam se ver. Eu os junto para deixar o upstream ver o downstream, o downstream ver o upstream, e ao mesmo tempo deixar todos ver o progresso da IA.
Mais importante, eles podem interagir com empresas nativas de IA e startups, ver várias inovações acontecendo de primeira mão, e assim validar esses julgamentos que eu fiz.
Portanto, passei muito tempo, direta ou indiretamente, explicando as oportunidades atuais para nossos parceiros da cadeia de suprimentos e do ecossistema. Muitas pessoas dirão que meu discurso principal não é como um anúncio de produto tradicional um após o outro em uma conferência, mas tem uma parte que soa como "ensinar". E esse é realmente o meu propósito.
Preciso de assegurar que toda a cadeia de suprimentos - seja a corrente alta ou a corrente baixa - entenda: o que vai acontecer a seguir, por que vai acontecer, quando vai acontecer, quão grande será a escala, e ser capaz de raciocinar sistematicamente através dessas perguntas como eu faço.
Então, o "moat" que você acabou de mencionar realmente existe. Se este mercado atingir uma escala de trilhões de dólares nos próximos anos, temos a capacidade de construir a cadeia de suprimentos para apoiá-lo. Como o fluxo de caixa, a cadeia de suprimentos também tem fluxo e volume de negócios. Se o volume de negócios de uma arquitetura não for rápido o suficiente, ninguém irá construir uma cadeia de suprimentos para ela. A razão pela qual podemos manter essa escala é que a demanda a jusante é extremamente forte, e todos podem ver isso.
É precisamente este ponto que nos permite fazer essas coisas na escala que estamos agora.
Dwarkesh Patel
Eu ainda quero entender melhor se o upstream pode acompanhar. Nos últimos anos, suas receitas praticamente dobraram ano após ano, e a capacidade de computação que você fornece ao mundo triplicou.
Jensen Huang:
E continua a dobrar nessa escala.
Dwarkesh Patel:
Exatamente. Então, se você olhar para os chips lógicos, como se você fosse um dos maiores clientes da TSMC no processo N3, também um grande cliente no N2.
De acordo com algumas análises, este ano a IA pode representar 60% da capacidade N3, e no próximo ano pode até chegar a 86%.
Nota: N3 refere-se ao nó de processo de 3 nanômetros (3nm) da TSMC, que pode ser entendido como um dos processos de fabricação de chips mais avançados da TSMC
Então, considerando que você já ocupa uma parte tão grande, como você pode continuar a dobrar? E dobrar todos os anos nisso? Entramos em uma fase em que o crescimento do poder de computação de IA deve diminuir devido às restrições do upstream? Existe uma maneira de contornar essas limitações? Como podemos construir duas fábricas de wafer todos os anos?
Jensen Huang:
Em certos momentos, a demanda instantânea de fato excede a oferta de toda a indústria, tanto em alta como em baixa. E em certos casos, podemos até ser limitados pelo número de tubarões – isso realmente aconteceu.
Dwarkesh Patel:
Então, o GTC do próximo ano deve convidar tubarões.
Jensen Huang:
Sim, na verdade é um bom fenômeno. Você quer estar em um mercado como este: onde a demanda instantânea é maior do que a oferta total da indústria. Inversamente, é claro, não é tão bom.
Se a lacuna entre os dois for muito grande, um link específico, um determinado componente se torna um gargalo claro, e toda a indústria se apressará para resolvê-lo. Por exemplo, notei que as pessoas não estão falando muito sobre CoWoS agora. A razão é que nos últimos dois anos, fizemos um enorme investimento e expansão nele, multiplicando-o várias vezes.
Agora eu acho que a situação geral é bastante boa. A TSMC também percebeu que o fornecimento de CoWoS deve acompanhar a crescente demanda por chips lógicos e memória. Então eles estão expandindo o CoWoS ao mesmo tempo que também estão expandindo futuras tecnologias avançadas de embalagem, e estão se expandindo ao mesmo ritmo que os chips lógicos.
Isso é muito importante porque no passado, a memória CoWoS e HBM eram mais como "capacidades especiais", mas não mais. Agora todos perceberam que eles são parte da tecnologia de computação mainstream.
Ao mesmo tempo, agora temos a capacidade de influenciar uma cadeia de suprimentos mais ampla. No passado, quando a revolução da IA estava apenas começando, o que estou falando agora, eu estava falando de cinco anos atrás.
Algumas pessoas acreditavam e investiam naquela época, como a equipe Sanjay da Micron. Ainda me lembro vividamente daquela reunião, onde expliquei claramente o que aconteceria no futuro, por que isso aconteceria, e previ os resultados que vemos hoje. Naquela época, eles optaram por aumentar significativamente seu investimento, e também estabelecemos uma parceria com eles. Eles fizeram investimentos em várias direções, como LPDDR e HBM, o que obviamente lhes trouxe retornos significativos. Algumas empresas seguiram mais tarde, mas agora todos entraram nessa fase.
Então eu acredito que cada geração de tecnologia, cada gargalo de garrafa, receberá muita atenção. E agora, estamos "prefetching" esses gargantas vários anos de antecedência. Por exemplo, nossa colaboração com Lumentum, Coherent e todo o ecossistema de fotônica de silício. Nos últimos anos, temos realmente reformulado todo o ecossistema e cadeia de suprimentos.
No campo da fotónica de silício, construímos uma cadeia de suprimentos completa em torno da TSMC, colaboramos com eles para desenvolver tecnologia, inventamos muitas novas tecnologias e licenciamos essas patentes para a cadeia de suprimentos, mantendo a abertura do ecossistema. Preparamos a cadeia de suprimentos inventando novas tecnologias, novos fluxos de trabalho, novos equipamentos de testes (incluindo detecção de dois lados), investindo em empresas relacionadas e ajudando-as a crescer.
Então você pode ver que estamos ativamente moldando este ecossistema para permitir que a cadeia de suprimentos suporte a escala futura.
Dwarkesh Patel:
Parece que algumas gargantas são mais fáceis de resolver do que outras. Por exemplo, em comparação com a expansão do CoWoS, há aqueles que são mais difíceis
Jensen Huang:
Na verdade, o que acabei de mencionar é o mais difícil.
Dwarkesh Patel:
Qual deles?
Jensen Huang:
Plumista. Sim, realmente. O que eu mencionei anteriormente é o mais difícil — canalistas e eletricistas. A razão é que isso também me preocupa um pouco com alguns "dictadores" que estão sempre falando sobre o desaparecimento de empregos, posições sendo substituídas. Se aconselharmos as pessoas a não se tornarem engenheiras de software por causa disso, então vamos realmente faltar engenheiros de software no futuro.
Previsões semelhantes foram feitas há dez anos. Naquela época, alguns disseram: "O que quer que você faça, não se torne um radiologista." Você ainda pode encontrar esses vídeos online, dizendo que a radiologia seria a primeira profissão a ser eliminada, e o mundo não precisaria mais de radiologistas. Mas a realidade é que agora temos falta de radiologistas.
Dwarkesh Patel:
De volta à pergunta anterior: Alguns links podem ser expandidos, alguns não. Então, especificamente, como a capacidade de produção de chips lógicos pode duplicar? Afinal, o verdadeiro gargalo está aqui, tanto a memória quanto a lógica são fatores limitantes. E as máquinas de litografia EUV? Como você consegue dobrar sua quantidade a cada ano?
Jensen Huang:
Tudo isso não é impossível. De fato, a escalada rápida não é fácil, mas realizar essas coisas em dois ou três anos não é difícil, na verdade. A chave é ter um sinal de demanda claro. Uma vez que você pode fazer um, você pode fazer dez; uma vez que você pode fazer dez, você pode fazer um milhão. Então, fundamentalmente, essas coisas não são difíceis de replicar.
Dwarkesh Patel:
Então, você transmitiria esse julgamento para a profundidade da cadeia de suprimentos? Por exemplo, você iria ao ASML e dizer: se eu olhar três anos no caminho, a fim de alcançar a receita anual da NVIDIA de US $ 2 trilhões, precisamos de mais máquinas de litografia EUV?
Jensen Huang:
Algumas eu faria diretamente, outras são feitas indiretamente. Se eu puder convencer o TSMC, o ASML será naturalmente convencido também. Portanto, devemos identificar gargantas críticas. Mas desde que a TSMC acredite nessa tendência, em alguns anos, você terá equipamentos de EUV suficientes.
O que eu quero dizer é, nenhum pescoço de garrafa vai durar mais de dois a três anos, nenhum.
Ao mesmo tempo, também estamos aumentando a eficiência computacional. De Hopper a Blackwell, alcançámos aproximadamente uma melhoria 10x, 20x, e em alguns casos, até 30x a 50x. Também estamos constantemente introduzindo novos algoritmos. Como o CUDA é flexível o suficiente, podemos desenvolver vários novos métodos para expandir a capacidade, melhorando a eficiência.
Então, essas coisas não me preocupam. O que realmente me preocupa são fatores externos além da nossa corrente inferior, como a política energética. Sem energia, você não pode expandir; sem energia, você não pode estabelecer uma indústria; sem energia, você não pode construir um ecossistema de fabricação totalmente novo.
Agora, queremos impulsionar a reindustrialização nos Estados Unidos, trazendo de volta a fabricação de chips, fabricação de computadores e embalagens, ao mesmo tempo em que estabelecemos novas indústrias como veículos elétricos e robótica. Quando estamos construindo uma fábrica de IA, tudo isso depende da energia, e a construção relacionada à energia tem um longo ciclo. Em contraste, aumentar a capacidade do chip é um problema de dois a três anos; aumentar a capacidade do CoWoS também é um problema de dois a três anos.
Dwarkesh Patel:
Muito interessante. Eu sinto que alguns dos convidados que eu entrevistou deram o julgamento exatamente oposto. É apenas sobre este assunto, eu realmente não tenho fundo técnico suficiente para julgar.
Jensen Huang:
No entanto, a coisa boa é que agora você está falando com especialistas.
O TPU do Google vai abalar a posição da NVIDIA?
Dwarkesh Patel:
Sim, de fato. Eu queria perguntar sobre seus concorrentes. Quando olhamos para TPUs, pode-se dizer que atualmente, dois dos três principais grandes modelos globais - Claude e Gemini - foram treinados usando TPUs. O que isso significa para o futuro da NVIDIA?
Nota: TPU (Tensor Processing Unit) é um tipo de chip especializado projetado pelo Google especificamente para inteligência artificial, especialmente deep learning
Jensen Huang:
O que fazemos é completamente diferente. A NVIDIA está construindo "computação acelerada", não unidades de processamento de tensores (TPUs).
Computação acelerada pode ser usada para uma variedade de tarefas, como dinâmica molecular, cromodinâmica quântica, processamento de dados, frameworks de dados, dados estruturados, dados não estruturados, dinâmica de fluidos, física de partículas e, claro, AI. Portanto, o escopo de aplicação de computação acelerada é muito mais amplo.
Embora a discussão atual esteja centrada em torno da IA, que é de fato muito importante e tem um impacto significativo, o alcance do "computing" em si é muito mais amplo do que a IA. O que a NVIDIA faz é reinventar a abordagem de computação de computação de propósito geral para computação acelerada. Nossa cobertura de mercado é muito mais ampla do que qualquer TPU ou outro acelerador especializado pode alcançar.
Se você olhar para o nosso posicionamento, somos a única empresa que pode acelerar vários tipos de aplicações. Temos um vasto ecossistema onde vários quadros e algoritmos podem ser executados na plataforma NVIDIA. Além disso, nossos sistemas de computador são projetados para serem "operados por outros". Qualquer operador pode comprar nossos sistemas para usar.
A maioria dos sistemas auto-desenvolvidos não são projetados para uso por outros; você basicamente tem que operá-los você mesmo porque eles não foram inicialmente projetados para ser flexível o suficiente para que outros usem. Como qualquer um pode operar nossos sistemas, entramos em todas as principais plataformas, incluindo Google, Amazon, Azure, OCI e outros.
Se você está procurando alugar poder de computação para operar sistemas ou para usar sistemas você mesmo, se você quiser se envolver em um negócio de locação, você deve ter um ecossistema de clientes em grande escala que cubra várias indústrias para atender a essas necessidades. Se você está operando sistemas para seu próprio uso, certamente temos a capacidade de ajudá-lo a fazer isso. Por exemplo, o xAI de Elon.
Porque permitimos que operadores de qualquer indústria ou empresa usem nossos sistemas, você pode usá-lo para construir supercomputadores para empresas como a Lilly, para pesquisa científica e descoberta de drogas. Podemos ajudá-los a operar seus próprios supercomputadores e aplicá-los a várias aplicações na pesquisa de drogas e nas ciências biológicas, todas áreas que podemos acelerar.
Assim, podemos cobrir uma ampla gama de aplicações, que a TPU não pode fazer. O CUDA da NVIDIA, que foi construído pela NVIDIA, também pode servir como uma excelente plataforma de processamento de tensores, mas não é só isso. Ele abrange todo o ciclo de vida do processamento de dados, computação, IA e muito mais. Portanto, nossa oportunidade de mercado é muito maior, com um alcance mais amplo. E porque agora suportamos praticamente todos os tipos de aplicativos em todo o mundo, você pode implantar sistemas NVIDIA em qualquer lugar, e tenha a certeza de que certamente haverá clientes usando-os.
Então, isso é fundamentalmente uma coisa completamente diferente.
Dwarkesh Patel:
Esta pergunta será um pouco mais longa.
Suas receitas atuais são incríveis, e essas receitas não vêm principalmente de produtos farmacêuticos ou computação quântica. Você não está ganhando 600 bilhões de dólares por trimestre desses negócios, mas porque a IA é uma tecnologia sem precedentes que está avançando a uma taxa sem precedentes.
Então a questão é: se olharmos apenas para a IA, qual é a solução ideal? Não estou no nível do solo, mas falei com alguns pesquisadores de IA, e eles dirão: quando eu uso uma TPU, é uma grande matriz, muito adequada para a multiplicação da matriz; enquanto as GPUs são mais flexíveis, adequadas para lidar com um grande número de ramificações e acesso à memória irregular.
Mas se você olhar para a IA, não é basicamente apenas uma multiplicação de matriz altamente previsível e repetitiva? Então você realmente não precisa ocupar área de chips para recursos como agendamento de warp, comutação de fios, banco de memória, e assim por diante. Assim, as TPUs são altamente otimizadas para a atual onda de demanda de potência de computação e crescimento de receita, focando nos principais cenários de aplicação.
Como você vê esse ponto de vista?
Jensen Huang:
A multiplicação da matriz é uma parte importante da IA, mas não é toda a IA.
Se você quiser propor um novo mecanismo de atenção, ou fazer cálculos de uma maneira diferente; se você quiser projetar uma arquitetura completamente nova, como um SSM híbrido; se você quiser construir um modelo que combina difusão e autorregressivo - você precisa de uma arquitetura programável de propósito geral, e podemos executar qualquer coisa que você possa pensar.
Esta é nossa vantagem, tornando a invenção de novos algoritmos muito mais fácil. É porque é um sistema programável, e inventar constantemente novos algoritmos é a razão pela qual a IA pode progredir tão rapidamente.
TPU, como qualquer outro hardware, também está sujeito à Lei de Moore. Sabemos que a Lei de Moore traz cerca de 25% de melhoria a cada ano. Então, se você quer alcançar um salto 10x, 100x, a única maneira é mudar fundamentalmente o algoritmo e seu cálculo a cada ano.
Esta é exatamente a força central da NVIDIA.
A razão pela qual conseguimos alcançar uma melhoria significativa com a Blackwell em comparação com a Hopper - eu disse que era 35 vezes na época - quando anunciei pela primeira vez que a eficiência energética de Blackwell seria 35 vezes maior do que a de Hopper, ninguém acreditou.
Mais tarde, Dylan escreveu um artigo dizendo que eu estava realmente sendo conservador, e a melhoria real é mais próxima de 50 vezes, e esse tipo de melhoria não pode ser alcançada apenas pela Lei de Moore. Nosso método para resolver este problema é introduzir novas estruturas de modelo, como o MoE, e para paralelar, desacoplar e distribuir a computação, estendendo-a em todo o sistema de computação. Sem a capacidade de entrar profundamente na camada de hardware e desenvolver novos núcleos de computação usando CUDA, isso seria muito difícil de alcançar.
Nota: Referindo-se a Dylan Patel, um analista bem conhecido no campo dos semicondutores e da infraestrutura de IA, e fundador da empresa de pesquisa SemiAnalysis
Então, nossa vantagem reside em: a programabilidade da arquitetura, e NVIDIA como uma empresa altamente co-desenhada. Podemos até descarregar alguns cálculos para a arquitetura de interconexão, como NVLink, ou a camada de rede, como Spectrum-X. Em outras palavras, podemos impulsionar a mudança simultaneamente em todo o processador, sistema, interconexão, bibliotecas de software e algoritmos. Tudo isso acontece de uma só vez. Sem o CUDA para apoiar tudo isso, eu nem saberia por onde começar.
Dwarkesh Patel:
Isso também levanta uma questão sobre a base de clientes da NVIDIA: Se 60% de suas receitas vêm desses cinco hiperscalers, em outra era, enfrentando um tipo diferente de cliente, como um professor experimentando, eles dependem muito do CUDA. Eles não podem usar outros aceleradores, eles só podem usar PyTorch + CUDA, e tudo precisa ser bem otimizado.
Mas se são esses grandes hiperescaladores, eles têm a capacidade de escrever seus próprios núcleos. Na verdade, eles têm que fazê-lo para espremer os últimos 5% do desempenho. Empresas como Anthropic e Google muitas vezes usam aceleradores personalizados ou TPUs para treinamento. Mesmo OpenAI, ao usar GPUs, usa Triton. Eles dirão: Precisamos do nosso próprio kernel. Então eles escreveram diretamente CUDA C++, em vez de usar bibliotecas como cuBLAS, NCCL, e construir sua própria pilha de software, e até compilá-lo para outros aceleradores.
Então, para a maioria dos seus clientes, eles podem e estão realmente substituindo o CUDA. Quanto, então, o CUDA ainda é um motor chave para a IA de ponta que deve depender da NVIDIA?
Jensen Huang:
Em primeiro lugar, a CUDA é um ecossistema muito rico. Se você está desenvolvendo em qualquer computador, começar com o CUDA é uma escolha muito sábia. Como este ecossistema é muito rico, nós apoiamos todos os frameworks mainstream.
Se você precisa escrever núcleos personalizados, como o Triton, temos contribuído com muita tecnologia NVIDIA para o backend do Triton, e também estamos muito dispostos a ajudar vários frameworks a se tornarem melhores. Agora existem muitos frameworks, como Triton, vLLM, SG Lang, e muitos mais.
Com o avanço do pós-treinamento e do aprendizado de reforço, este campo está se expandindo rapidamente. Por exemplo, você tem Vairal, NeMo RL e uma gama de novos frameworks. Se você quer desenvolver em uma determinada arquitetura, começar com CUDA é a escolha mais razoável porque você sabe que o ecossistema é maduro. Quando surgem problemas, é mais provável que seja seu próprio problema de código do que o pilar subjacente de código.
Não se esqueça, a base de código por trás desses sistemas é muito grande. Quando o sistema tem problemas, você quer saber se o problema está no seu código ou na própria plataforma de computação.
Você certamente espera que o problema esteja em seu próprio código e não na plataforma de computação. Claro, nós mesmos temos muitos bugs, mas nosso sistema é muito maduro, e você pode continuar a construir sobre uma base confiável, pelo menos.
O segundo ponto é a escala base de instalação. Se você é um desenvolvedor, não importa o que você está fazendo, a coisa mais importante é a "base de instalação". Você quer que seu software seja executado em tantos computadores quanto possível. Você não está escrevendo software para si mesmo; você está escrevendo software para todo o seu cluster, e até mesmo para toda a indústria porque você é um desenvolvedor de framework.
O ecossistema CUDA da NVIDIA é essencialmente o nosso ativo mais importante. Atualmente existem centenas de milhões de GPUs em todo o mundo. Todos os provedores de nuvem os têm, desde V100, A100, H100, H200, até a série L, série P, várias especificações.
E eles existem em várias formas. Se você é uma empresa de robótica, você gostaria que o CUDA funcionasse diretamente no corpo do robô. Estamos praticamente em todos os lugares.
Isso significa que uma vez que você desenvolveu um software ou um modelo, ele pode ser usado em qualquer lugar. Então o valor desta base de instalação em si é extremamente significativo.
O último ponto é a flexibilidade do local de implantação. Existimos em todas as plataformas de nuvem, o que nos dá singularidade. Como uma empresa ou desenvolvedor de IA, você não tem certeza com qual provedor de nuvem vai colaborar, nem onde seu sistema será executado. No entanto, podemos executar em qualquer lugar, incluindo a implantação on-premises.
Portanto, a riqueza do ecossistema, a escala da base de instalação e a flexibilidade do local de implantação, quando combinados, são muito valiosos.
Dwarkesh Patel:
Isso faz sentido. Mas o que eu estou curioso sobre é se essas vantagens são realmente tão importantes para seus clientes-chave. Muitas pessoas realmente se beneficiarão dessas vantagens, mas aqueles que podem construir seus softwares empilharem-se - o grupo que contribui com a maioria de suas receitas - especialmente em um mundo onde a IA está se tornando mais forte em uma tarefa de "ciclo de feedback verificável", como em cenários de aprendizagem de reforço, onde otimizações do kernel como atenção ou MLP são realmente um ciclo de feedback muito facilmente verificável.
Então, esses provedores de nuvem em grande escala podem escrever esses núcleos? Claro, eles ainda podem escolher a NVIDIA para a eficiência de custo. Mas a questão é, será que isso acabará por se tornar uma comparação simples: quem pode fornecer especificações melhores? Por exemplo, em termos de custo unitário, quem pode fornecer maior potência de computação (FLOPs) e maior largura de banda de memória? Porque no passado, a NVIDIA teve uma margem de lucro muito alta (mais de 70%) tanto nos níveis de hardware quanto de software, em grande parte devido ao fosso do CUDA.
Então a questão é, se a maioria dos clientes pode construir suas próprias pilhas de software sem depender de CUDA, essa margem de lucro pode ser sustentada?
Jensen Huang:
O número de engenheiros que colocamos nestes laboratórios de IA é realmente incrível, trabalhando com eles, ajudando-os a otimizar toda a pilha de tecnologia. A razão é que ninguém conhece nossa arquitetura melhor do que nós. E essas arquiteturas não são tão de propósito geral como as CPUs.
A CPU é um pouco como um "carro de família", você pode pensar nele como um carro de cruzeiro, não dirigindo especialmente rápido, mas todos podem dirigir bem, com controle de cruzeiro, tudo é direto. Mas o acelerador de GPU da NVIDIA é mais como um carro de corrida de F1. Eu posso imaginar que todo mundo poderia conduzi-lo a 100 quilômetros por hora, mas para realmente empurrá-lo para o limite requer uma experiência considerável.
E usamos muita IA para gerar esses núcleos. Estou muito certo de que, por muito tempo, ainda somos indispensáveis. Nossa experiência pode ajudar os parceiros nesses laboratórios de IA a dobrarem facilmente seu desempenho. Muitas vezes, depois de otimizar sua pilha de tecnologia ou um determinado kernel, seus modelos podem acelerar 3 vezes, 2 vezes, ou até 50%. Esta é uma melhoria significativa, especialmente quando você considera que eles têm grandes aglomerados de Hopper e Blackwell.
Se você dobrar o desempenho, isso significa que suas receitas dobram diretamente. Isso está diretamente relacionado às receitas. A pilha de computação da NVIDIA tem o melhor desempenho global de custo total de propriedade (TCO), sem comparação com qualquer concorrente. Nenhuma empresa pode provar-me qual plataforma oferece uma melhor relação de desempenho / TCO do que a nossa. Nem uma única. E esses testes de referência estão disponíveis publicamente.
Dylan está certo. Inference Max é público, qualquer pessoa pode usá-lo. Mas nenhuma equipe da TPU está disposta a usá-lo para mostrar sua vantagem de custo de inferência. É difícil de fazer, ninguém está disposto a sair e provar isso.
O mesmo se aplica ao MLPerf. Eu os acolho para demonstrar a vantagem de 40% que sempre reivindicaram. Eu gostaria de vê-los provar a vantagem de custo da TPU. Para mim, não faz sentido, simplesmente não se soma. -Não de todo.
Então eu acredito que a razão fundamental para o nosso sucesso é que o nosso TCO é excelente.
Outro ponto, você mencionou que 60% dos nossos clientes vêm dos cinco principais fabricantes, mas a maioria desse negócio é realmente direcionada a clientes externos. Por exemplo, na AWS, o poder de computação da NVIDIA é fornecido principalmente a clientes externos, não usado pela própria AWS. No Azure, nossos clientes também são principalmente clientes externos; o mesmo se aplica à OCI. Eles nos escolhem porque nosso alcance é muito amplo.
Podemos trazer os melhores clientes do mundo para eles, e esses próprios clientes são construídos na plataforma NVIDIA. E essas empresas são construídas sobre a NVIDIA porque nossa cobertura e flexibilidade são muito fortes.
Então eu acho que este volante está funcionando: a base instalada, a programabilidade da arquitetura, e a acumulação contínua do ecossistema. Além disso, agora existem milhares de empresas de IA em todo o mundo. Se você é uma das startups de IA, que arquitetura você escolheria? Você escolheria o mais popular, aquele com a maior base instalada, e o ecossistema mais rico. Essa é a lógica deste volante.
Então as razões são:
· Primeiro, nosso desempenho por dólar é muito alto, portanto o menor custo de token;
· Segundo, o nosso desempenho por watt é o mais alto do mundo; se um parceiro constrói um data center de 1GW, ele deve produzir o maior número de tokens, ou seja, o maior volume de receita. E nossa arquitetura pode produzir o maior número de tokens por unidade de consumo de energia.
·Terceiro, se o seu objetivo é alugar o poder de computação, temos mais clientes globalmente.
É por isso que este volante foi criado.
Dwarkesh Patel:
Muito interessante. Eu acho que a essência da questão é como a estrutura do mercado realmente parece. Mesmo com muitas empresas, um cenário poderia surgir: existem milhares de empresas de IA, todas praticamente compartilhando poder de computação.
Mas se a realidade é que através desses provedores de nuvem hiperescala, aqueles que realmente utilizam o poder de computação são empresas de modelo fundamentais como Anthropic e OpenAI, e eles têm a capacidade de fazer diferentes aceleradores funcionar.
Jensen Huang:
Eu acho que sua premissa está errada.
Dwarkesh Patel:
Talvez. Deixe-me repassar isso. Se essas alegações sobre desempenho e custo são verdadeiras, por que empresas como a Anthropic, que acaba de anunciar uma colaboração multi-exajoule TPU com a Broadcom e o Google há alguns dias, fizeram isso? E a maior parte do seu poder de computação vem desses sistemas. Para o Google, a TPU é a principal fonte de potência de computação. Então, olhando para essas grandes empresas de IA, elas eram todas NVIDIA, mas esse não é o caso mais.
Se essas vantagens teoricamente se mantêm, por que eles ainda escolherão outros aceleradores?
Jensen Huang:
Antropic é um caso bastante especial. Se não houvesse Antropic, o crescimento da TPU dificilmente existiria. O crescimento da TPU vem quase inteiramente da Anthropic. Da mesma forma, se não houvesse Antropic, o crescimento na demanda de treinamento quase não existiria.
É um fato muito claro. Não há muitas oportunidades semelhantes; na realidade, há apenas um Antropic.
Dwarkesh Patel:
Mas OpenAI também colabora com a AMD, e eles estão desenvolvendo seu próprio acelerador Titan.
Nota: AMD (Advanced Micro Devices) é uma empresa norte-americana de semicondutores que projetam principalmente chips de computação e é um concorrente chave para a NVIDIA e a Intel.
Jensen Huang:
Mas a grande maioria deles ainda usa a NVIDIA. Continuaremos a colaborar extensivamente. Não me incomodo quando os outros tentam outras soluções. Se eles não tentarem outras soluções, como saberão o quão boa é a nossa solução?
Às vezes é necessário reafirmar isso através da comparação. E também temos de provar constantemente que merecemos a nossa posição atual.
Sempre houve várias reivindicações no mercado. Você pode ver quantos projetos ASIC foram cancelados. Só porque você começa a fazer ASICs não significa que você pode criar algo melhor do que a NVIDIA.
Na verdade, não é fácil. Pode-se até dizer que racionalmente, não se mantém bem. A menos que a NVIDIA tenha realmente cometido um erro grave em alguns aspectos. Mas considerando nossa escala, nosso ritmo - somos a única empresa globalmente que alcança saltos significativos a cada ano.
Dwarkesh Patel:
Sua lógica é: Você não precisa ser melhor que a NVIDIA, você simplesmente não deve ser 70% pior que a NVIDIA, porque eles acham que sua margem de lucro é de 70%.
Jensen Huang:
Mas não se esqueça, mesmo com ASICs, a margem de lucro é realmente muito alta. A margem de lucro da NVIDIA é de cerca de 60% a 70%, e a margem de lucro das ASICs também pode ser de cerca de 65%. Quanto você realmente economizou?
Você sempre tem que pagar alguém. Então, do que eu vi, a margem de lucro desses negócios fundamentais (ASIC) é realmente muito alta, e eles também acreditam assim e estão bastante orgulhosos disso.
No passado, realmente não tínhamos a capacidade de fazer isso. E para ser honesto, na época eu realmente não entendi profundamente como é difícil construir um modelo de laboratório fundamental como OpenAI ou Anthropic. Nem percebi totalmente que eles realmente precisavam de apoio de investimento maciço do lado da oferta.
Naquela época, não tínhamos a capacidade de fazer investimentos de bilhões de dólares, como investir em Anthropic para que usassem nosso poder de computação. Mas o Google e a AWS poderiam, eles investiram enormes somas de dinheiro desde o início, e em troca, a Anthropic usa seu poder de computação.
Não tínhamos a capacidade de fazer isso na época, e tenho que dizer, foi o meu erro: Eu não percebi completamente que eles realmente não tinham outra escolha. As empresas de capital de risco não podem investir US$ 5 bilhões ou US$ 10 bilhões para apoiar um laboratório de IA e esperar que ele cresça para Anthropic.
Foi o meu equívoco. Mas mesmo se eu tivesse percebido isso, eu não acho que tivéssemos a capacidade naquela fase para fazê-lo.
No entanto, não vou cometer o mesmo erro novamente. Estou feliz em investir em OpenAI, e também estou feliz em ajudá-los a expandir, acho que é necessário. Quando Anthropic mais tarde se aproximou de nós, eu também estava feliz em me tornar um investidor e ajudá-los a crescer.
Foi só nessa altura, realmente não conseguimos. Se pudéssemos começar de novo, se a Nvidia já fosse tão poderosa como é agora, eu estaria muito disposto a fazer essas coisas.
Por que a Nvidia não faz "cloud"?
Dwarkesh Patel:
Isso é muito interessante. Ao longo dos anos, a Nvidia sempre foi uma empresa que "venda palhas para ganhar dinheiro" no campo da IA, e ganhou muito dinheiro. E agora você está começando a investir esse dinheiro. Há relatos de que você investiu US$ 30 bilhões em OpenAI, US$ 10 bilhões em Anthropic. E as avaliações dessas empresas continuam a subir.
Então, olhando para trás nos últimos anos, você deu-lhes poder de computação, viu as tendências, e na época suas avaliações eram apenas um décimo do que são agora, ou mesmo muito mais baixas do que são agora apenas um ano atrás. E você tinha muito dinheiro na época.
Na verdade, existe uma possibilidade: Nvidia poderia ter se tornado uma empresa modelo fundamental em si, ou investiu em grande escala anteriormente a uma avaliação mais baixa, semelhante ao que você está fazendo agora.
Então eu estou realmente curioso, por que você não fez isso antes?
Jensen Huang:
Fizemos isso no momento em que "podíamos". Se pudéssemos ter feito isso, eu teria feito isso antes. Quando Anthropic precisava do nosso apoio no início, eu teria feito isso. Mas naquela época, realmente não tínhamos a capacidade.
Foi além das nossas capacidades e além dos nossos hábitos de tomada de decisão.
Dwarkesh Patel:
Era uma questão de financiamento, ou não?
Jensen Huang:
Sim, era uma questão de escala de investimento. Naquela época, quase não tínhamos tradição de investimento externo, muito menos investimento de tal escala. E não percebemos que era necessário.
Meu pensamento na época era, eles poderiam ir encontrar capital de risco, como qualquer outra empresa. Mas o que eles queriam fazer era realmente além do que o capital de risco poderia suportar. O que a OpenAI queria fazer também era algo que o capital de risco não podia suportar.
Foi algo que percebi mais tarde. Mas foi aí que eles foram inteligentes. Eles perceberam naquele momento que tinham que seguir esse caminho. Eu estou feliz que eles fizeram. Mesmo que não pudéssemos participar na época, o que levou a Anthropic a recorrer a outros parceiros, eu ainda acho que é uma coisa boa. A existência de Anthropic é uma coisa boa para o mundo inteiro, e eu estou feliz com isso. Alguns arrependimentos são aceitáveis.
Dwarkesh Patel:
Então a pergunta ainda voltará a um ponto: Agora que você tem tanto dinheiro na mão e continua crescendo, como a NVIDIA deve usar esse financiamento?
Uma ideia é que agora existe um ecossistema intermediário que ajuda esses laboratórios de IA a converter os gastos de capital (capex) em gastos operacionais (opex) para que possam alugar a potência de computação.
Porque as GPUs são caras, mas à medida que os modelos avançam, elas podem gerar continuamente tokens de maior valor ao longo de seu ciclo de vida. E a própria NVIDIA tem a capacidade de suportar esses gastos de capital antecipados. Por exemplo, há relatos de que você forneceu até US$ 6,3 bilhões em suporte ao CoreWeave e investiu US$ 2 bilhões.
Então, por que a NVIDIA não se torna um provedor de nuvem? Por que não se tornar um hiperescalador, construir sua própria nuvem e alugar poder de computação? Afinal, você tem a capacidade de dinheiro.
Jensen Huang:
É uma pergunta filosófica para a empresa, e eu acho que é uma filosofia sábia: devemos fazer "tanto quanto necessário e o mínimo possível".
Isso significa que quando se trata de construir uma plataforma de computação, se não o fizermos, eu realmente acredito que não seria feito.
Se não assumirmos esses riscos, não construirmos o NVLink, não construirmos toda a pilha de software, não criarmos este ecossistema, não investimos 20 anos fazendo CUDA (a maioria dos quais até estava perdendo dinheiro), se não fizermos essas coisas, ninguém mais vai. Se não construirmos essas bibliotecas específicas de domínio de CUDA-X – seja o rastreamento de raios, a geração de imagens ou os primeiros modelos de IA, processamento de dados, dados estruturados, processamento de dados vetoriais – se não o fizermos, essas coisas não existirão.
Estou totalmente convencido disso. Nós até desenvolvemos uma biblioteca para litografia computacional chamada cuLitho, se não fizermos isso, ninguém mais fará.
Então, a razão pela qual a computação acelerada se desenvolveu até o nível que tem hoje é porque nós fizemos essas coisas. Essa é a parte que devemos estar totalmente comprometidos a fazer.
Mas ao mesmo tempo, já existem muitos provedores de nuvem no mundo. Mesmo se não o fizermos, outra pessoa fará. Assim, baseado no princípio de fazer o máximo possível de coisas necessárias, mas o mínimo possível de outras coisas, esse conceito sempre esteve presente na empresa. Toda decisão que tome é vista dessa perspectiva.
No espaço da nuvem, se não apoiássemos CoreWeave inicialmente, essas novas nuvens de IA (neocloud) podem não existir. Se não os apoiássemos, eles não teriam evoluído para a escala que são hoje. O mesmo vale para Nscale, Nebius, se não fosse pelo nosso apoio, eles não teriam chegado tão longe. E agora, todos eles se desenvolveram bastante bem.
Mas é um negócio no qual devemos nos envolver pessoalmente? Não. Nós ainda aderimos a esse princípio: fazer o que é necessário, e fazer o mínimo possível além disso. Então vamos investir no ecossistema porque eu quero que todo o ecossistema floresça. Eu quero que nossa arquitetura conecte tantas indústrias e países quanto possível, permitindo que a IA seja desenvolvida globalmente e construída sobre uma pilha de tecnologia baseada nos Estados Unidos.
Esta é a visão que estamos avançando.
Ao mesmo tempo, como você mencionou, existem muitas excelentes empresas de modelo de fundação agora, e vamos tentar investir nelas o máximo possível.
Outro ponto é que não vamos "seleccionar vencedores". Queremos apoiar todos. É uma necessidade de negócios e algo que estamos dispostos a fazer. Assim, quando investir em uma empresa, investir em outras também.
Dwarkesh Patel:
Então, por que você deliberadamente evita escolher os vencedores?
Jensen Huang:
Porque não é nossa responsabilidade. Esse é o primeiro ponto.
Em segundo lugar, quando a NVIDIA foi fundada, havia cerca de 60 empresas de gráficos, 60 empresas fazendo gráficos 3D. No final, só nós sobrevivemos. Se você escolher uma dessas 60 empresas naquela época para ter sucesso, a NVIDIA provavelmente seria a menos provável de ter sucesso.
Isso foi antes do seu tempo, mas na época, a arquitetura gráfica da NVIDIA estava completamente errada. Não um pouco, mas fundamentalmente errado. Projetamos uma arquitetura que os desenvolvedores mal poderiam suportar, que estava condenada a falhar. Deduzimos isso de princípios muito razoáveis, mas acabamos com a solução errada.
Todos pensaram que não poderíamos ter sucesso, mas ainda sobrevivemos no final. Então tenho humildade suficiente para admitir isso e não escolher vencedores. Ou deixe-os desenvolver por conta própria, ou apoie todos.
Dwarkesh Patel:
Há um ponto que eu não entendi. Você disse que não está deliberadamente priorizando o suporte para esses novos fornecedores de nuvem, mas também acabou de mencionar que sem a NVIDIA, eles podem não existir. Como esses dois pontos coexistem?
Jensen Huang:
Primeiro, eles devem querer existir por conta própria e procurar ativamente nossa ajuda. Quando eles têm uma intenção clara, um plano de negócios, capacidade e paixão - é claro, eles também devem ter um certo nível de capacidade - se eles precisam de algum apoio de investimento na fase inicial, nós estaremos lá.
Mas a chave é para eles estabelecer rapidamente seu próprio volante. Sua pergunta agora foi, nós queremos entrar no negócio de financiamento? A resposta é não. Não queremos nos tornar uma instituição financeira. Já há muitas pessoas no mercado fazendo financiamento, e preferimos cooperar com essas instituições financeiras em vez de fazer financiamento nós mesmos.
Portanto, nosso objetivo é focar em nosso próprio negócio, manter o modelo de negócios o mais simples possível, e ao mesmo tempo, apoiar todo o ecossistema.
Jensen Huang:
Quando uma empresa como a OpenAI precisa de um investimento de 30 bilhões de dólares antes da IPO, e nós acreditamos muito neles – eu pessoalmente acredito que eles já são uma empresa extraordinária e se tornarão uma empresa ainda mais notável. O mundo precisa deles para existir, todos esperam que eles existam, e eu espero que eles também existam. Eles têm todos os elementos para ter sucesso, então nós os apoiamos e ajudamos a expandir.
Portanto, vamos fazer esse tipo de investimento porque eles precisam de nós para fazê-lo. Mas o nosso princípio não é "fazer o máximo possível", mas "fazer o mínimo possível".
Dwarkesh Patel:
Esta pergunta pode parecer um pouco óbvia, mas há muitos anos, estamos em um estado de escassez de GPU, e à medida que os modelos se tornam mais poderosos, esta situação se torna mais pronunciada.
Jensen Huang:
Sim, temos uma falta de GPU.
Dwarkesh Patel:
E a NVIDIA não é considerada simplesmente para distribuir esses recursos escassos com base na oferta mais alta, mas para considerar coisas como garantir a existência destes novos provedores de nuvem - dando alguns para CoreWeave, alguns para Crusoe, alguns para Lambda.
Primeiro, você concorda com essa visão? Em segundo lugar, quais são os benefícios para a NVIDIA?
Jensen Huang:
Eu acho que sua premissa está errada. Claro, vamos considerar esses assuntos com muita atenção.
Primeiro, se você não tem um pedido de compra (PO), não importa a quantidade de comunicação. Então, em primeiro lugar, vamos trabalhar duro com todos os clientes para prever a demanda, porque o ciclo de produção destes produtos é muito longo, e o período de construção do data center também é muito longo. Alinhamos oferta e demanda através da previsão, que é a primeira coisa.
Em segundo lugar, vamos prever com o maior número possível de clientes. Mas no final, você ainda precisa colocar uma ordem. Se você não fizer um pedido, então eu não posso fazer nada. Então, em algum momento, é "primeiro vem, primeiro é servido".
No entanto, além disso, se o seu data center ainda não estiver pronto, ou se certos componentes-chave não estiverem prontos, o que faz com que você seja temporariamente incapaz de implantar o sistema, podemos dar prioridade ao atendimento a outros clientes. Isso é apenas para maximizar a eficiência global do rendimento de nossas fábricas.
Além deste cenário, a regra de prioridade é "primeiro vem, primeiro é servido". Você deve colocar uma ordem. Se você não colocar um pedido, não há simplesmente nenhuma maneira.
Claro, há muitas histórias lá fora. Por exemplo, alguns dizem que durante um jantar com Larry, Elon e eu, eles pediram uma GPU — nós realmente jantamos juntos, que foi uma noite muito agradável, mas eles nunca "pediram" uma GPU. Eles só precisavam fazer uma ordem. Uma vez que um pedido é colocado, vamos fazer o nosso melhor para fornecer capacidade. Não é tão complicado como alguns o fazem parecer.
Dwarkesh Patel:
Então, parece um mecanismo de fila, dependendo de quando você colocar a ordem e se o data center está pronto. Mas isso ainda não é simplesmente "o maior oferente ganha", certo?
Jensen Huang:
Nunca fazemos isso.
Dwarkesh Patel:
Nunca atribuir com base na oferta mais alta?
Jensen Huang:
Nunca. Porque essa é uma prática de negócios terrível.
Você define o preço e o cliente decide se quer comprar. Eu sei que algumas empresas na indústria aumentam os preços quando a demanda aumenta, mas nós não. Nunca foi nossa prática. Os clientes podem confiar em nós. Eu prefiro ser uma presença confiável, uma pedra angular da indústria. Você não precisa se preocupar com as mudanças de preço.
Se eu lhe dar uma cotação, esse é o preço final. Mesmo se a demanda Skyrakets, não vai mudar.
Dwarkesh Patel:
Então, esta também é uma das razões para seu relacionamento estável com a TSMC, certo?
Jensen Huang:
A NVIDIA e a TSMC colaboram há quase 30 anos. Não há nem mesmo um contrato legal formal entre a NVIDIA e a TSMC; é mais de um entendimento grosseiro. Às vezes estou certo, às vezes estou errado; às vezes tenho melhores termos, às vezes não tão bons termos. Mas, no geral, essa relação é notável. Eu posso confiar totalmente neles e confiar neles.
Além disso, para a NVIDIA, uma coisa que você pode contar: este ano, Rubin será excepcional, no próximo ano, Vera Rubin Ultra será lançado, no ano seguinte Feynman será lançado, e no ano seguinte — cujo nome ainda não divulguei. Em outras palavras, todos os anos, você pode confiar em nós. Você tem que encontrar outra equipe ASIC em todo o mundo e ver se alguma pode fazer você dizer, "Eu posso apostar toda a empresa em você, confiando que você vai me apoiar todos os anos."
Meu custo do token vai diminuir em uma ordem de magnitude a cada ano, e eu posso confiar nisso como confiar em um relógio. Acabei de dizer algo semelhante sobre o TSMC. Nenhum fabricante de wafer na história nunca te deixou dizer isso.
Mas hoje, você pode dizer isso sobre a NVIDIA. Você pode confiar em nós ano após ano.
Se você quiser comprar um bilhão de dólares de computação de fábrica de IA, não há problema; se você quiser comprar 100 milhões de dólares, também não há problema; se você quiser comprar 10 milhões de dólares, ou até mesmo apenas um rack, não há problema; mesmo se você quiser comprar apenas uma GPU, não há problema. Se você quiser colocar um pedido de US $ 1 trilhão para uma fábrica de IA, também não há problema.
Hoje, somos a única empresa no mundo que pode dizer isso. E eu também posso dizer isso ao TSMC: Eu quero comprar 1 bilhão de dólares, sem problema. Nós só precisamos planejar juntos, passar pelo processo, fazer aquelas coisas que uma empresa madura faria.
Então, eu acredito que a NVIDIA pode se tornar a base da indústria global de IA, uma posição que passamos décadas alcançando. Há um enorme investimento e foco nisso, e a estabilidade e a consistência da empresa são muito importantes.
Por que a NVIDIA rejeita a aposta "Multi-Roadmap"
Dwarkesh Patel:
Isso realmente leva a uma pergunta muito interessante. Anteriormente falamos sobre TSMC, gargantas de memória, e assim por diante. Agora, se entrarmos em um mundo como este: você tomou a maior parte da capacidade N3, e no futuro, você também pode tomar a maior parte da capacidade N2. Você consideraria voltar a usar a capacidade de vazio de nós de processo mais antigos como 7nm?
Por exemplo, se a demanda por IA for muito alta e o aumento do nodo de processo mais avançado não conseguir acompanhar, então você pode aproveitar toda a experiência de hoje sobre otimização numérica e design de sistema para criar uma nova versão de Hopper ou Ampere. Você acha que esta situação irá surgir antes de 2030?
Jensen Huang:
Não há necessidade disso. A razão é que o avanço de cada geração arquitetônica não é apenas uma mudança no tamanho do transistor. Você também fez muito trabalho de engenharia em embalagens, empilhamento, sistemas numéricos e arquitetura de sistemas. No momento em que você chegar a este ponto, voltar a fazer uma versão de nó antigo exigiria um investimento em I&D que ninguém pode pagar. Podemos nos permitir continuar avançando, mas não acho que possamos nos permitir voltar atrás.
Claro, se fizermos uma experiência de pensamento: suponhamos que um dia todos digam que a capacidade avançada nunca poderá aumentar novamente. Posso voltar imediatamente a usar 7nm? Claro, sem dúvida.
Dwarkesh Patel:
Anteriormente, tive uma discussão com alguém sobre uma questão: por que a NVIDIA não executa simultaneamente vários projetos de chips completamente diferentes? Por exemplo, você poderia fazer uma como a arquitetura de escala de placas de Cerebras, uma como a grande embalagem de Dojo, e uma que não depende de CUDA.
Você tem os recursos e o talento de engenharia para fazer essas coisas em paralelo. Como ninguém sabe com certeza para onde a IA ou a arquitetura vai no futuro, por que colocar todos os seus ovos em uma cesta?
Jensen Huang:
Certamente poderíamos fazer isso. É só que não vimos uma solução melhor. Nós simulamos todas essas coisas, e elas provavelmente são inferiores em nosso emulador. Então não vamos fazer isso. O que estamos fazendo agora é o que realmente queremos fazer e o que acreditamos ser o mais correto.
Claro, se a carga de trabalho futura sozinha sofrer uma mudança radical - eu não estou falando de mudanças de algoritmo, mas se a carga de trabalho realmente mudar - então podemos adicionar outros tipos de aceleradores.
Por exemplo, recentemente adicionamos Grok, e vamos integrar Grok no ecossistema CUDA. Estamos fazendo isso agora. Isso porque o valor dos tokens tornou-se muito alto, então o mesmo modelo, com base em diferentes velocidades de resposta, pode corresponder a diferentes níveis de preço.
Há alguns anos atrás, os tokens eram quase gratuitos, ou tão baratos que eram quase gratuitos. Mas agora, diferentes clientes têm diferentes requisitos para tokens. E esses próprios clientes podem ganhar muito dinheiro com isso. Por exemplo, para engenheiros de software, se eu puder dar-lhes um token de resposta mais rápida para torná-los mais eficientes do que são hoje, então eu estou disposto a pagar por isso.
Mas esse tipo de mercado só surgiu recentemente. Então eu acredito que agora, pela primeira vez, nós realmente temos a capacidade de ter o mesmo modelo formando diferentes níveis de mercado com base no tempo de resposta.
É também por isso que decidimos estender esta fronteira de Pareto para criar um ramo de inferência de "resposta mais rápida, mas menor rendimento". Porque no passado, o alto rendimento sempre foi o mais importante. Mas agora acreditamos que no futuro, pode haver um tipo de token de alto ASP (preço unitário alto). Mesmo que o rendimento na fábrica seja menor, o preço unitário é suficiente para compensá-lo.
Esta é a razão pela qual estamos fazendo isso. Mas se falássemos apenas da arquitetura em si, eu diria, se eu tivesse mais dinheiro, eu investiria mais dinheiro na arquitetura existente.
Dwarkesh Patel:
Acho muito interessante a ideia deste "token ultra-prémium" e a estratificação do mercado de inferência.
Uma última pergunta. Assumindo que a revolução do deep learning nunca aconteceu, o que a NVIDIA faria hoje?
Jensen Huang:
Bem, é claro, o jogo ainda seria um foco, mas, além disso, continuaríamos com computação acelerada. Este sempre foi o nosso caminho.
A premissa fundamental da nossa empresa é que a Lei de Moore diminuiria. Computação de propósito geral é ótimo para muitas coisas, mas não é ideal para muitas tarefas computacionais. Então combinamos a arquitetura da GPU com a CPU para acelerar as cargas de trabalho da CPU. Núcleos de código diferentes, diferentes algoritmos podem ser descarregados para executar na GPU. Desta forma, uma aplicação pode ser acelerada em 100 ou 200 vezes.
Onde isso seria usado? Bem, na engenharia, ciência, física, processamento de dados, gráficos de computador, geração de imagens e várias outras áreas.
Então, mesmo que a IA não existisse hoje, a NVIDIA ainda seria uma empresa muito grande. A razão é bastante fundamental: a capacidade de continuar a expandir a computação para fins gerais, basicamente, atingiu seus limites. E uma maneira de melhorar o desempenho – uma maneira crucial, não a única – é fazer aceleração específica de domínio.
Inicialmente entramos em gráficos de computador, mas há muitas outras áreas. Como vários cálculos científicos, física de partículas, simulações de fluidos, processamento de dados estruturados, etc. - vários tipos de algoritmos que podem se beneficiar do CUDA.
Portanto, nossa missão sempre foi trazer computação acelerada para o mundo, para impulsionar aplicações que a computação de propósito geral não pode alcançar, ou não pode escalar para o nível necessário de desempenho, para ajudar avanços no campo científico. Algumas das nossas primeiras aplicações foram em dinâmica molecular, processamento sísmico para exploração de energia e, claro, processamento de imagens.
Em todas essas áreas, a computação para fins gerais era demasiado ineficiente por si só. Então, sim, se não houvesse AI, eu ficaria triste. Mas precisamente por causa do nosso progresso na computação, democratizamos o aprendizado profundo. Nós permitimos que qualquer pesquisador, qualquer cientista, qualquer estudante, em qualquer lugar, use um PC, ou uma GPU GeForce, para fazer descobertas científicas notáveis. E esse compromisso fundamental nunca hesitou, nem um pouco.
Então, se você olhar para o GTC, você vai descobrir que uma parte significativa do conteúdo realmente não está relacionada à IA. Seja litografia computacional, química quântica ou processamento de dados, todos estes são importantes, mas não relacionados à IA. Eu sei que a IA é fascinante e muito emocionante.
No entanto, ainda há muitas pessoas fazendo trabalho muito importante que não está relacionado à IA. Tensor não é seu único modo de computação. E queremos ajudar todas essas pessoas.
Dwarkesh Patel:
Jensen, muito obrigado.
Jensen Huang:
Você é bem-vindo, eu realmente gostei desta conversa.
Também poderá gostar de

Relatório Matinal | Coinbase Ventures realiza o seu primeiro investimento na ENA; SpaceX planeia definir o preço do IPO em 135 dólares por ação

Texto integral e análise do discurso do CEO da SanDisk na 42.ª Conferência Anual de Decisões Estratégicas da Bernstein

Previsão de Preço da Bitcoin para 2030: Ark Invest Prevê 710 mil dólares

Preço do SOL hoje: Preço da Solana em tempo real, gráficos e dados de mercado

O que é um ETF de Bitcoin: Spot vs. Futuros Explicado

Why Is Bitcoin Dropping 15% While Nasdaq Hits Record Highs?
O que é TradFi e porque é que todos falam sobre isso em 2026?

Relatório da Manhã | Strategy vendeu 32 BTC e mais de 800.000 ações da MSTR na semana passada; Binance anunciou oficialmente o seu portal de negociação de ações dos EUA; Polymarket estabeleceu uma parceria exclusiva com a OneFootball

Bootcamp de Trading WEEXPERIENCE na Polónia: Como a WEEX e a FireCrew estão a tornar o trading de cripto acessível a todos

Paris Reina Supremo: Como o PSG esmagou o sonho do Arsenal numa final histórica da UCL

TaiJi conclui financiamento estratégico de 3,5 milhões de dólares, com investimentos da Castrum Capital, Becker Ventures e Coinvestor Ventures

Bitcoin estagnado perto dos 73 mil dólares? Como os traders estão a encontrar recompensas num mercado lateral em junho

Como fazer staking de Solana: Um guia passo a passo para 2026

Preço Garantido já disponível na WEEX: Execute com maior precisão

A investigação mais recente do BIS: O futuro das stablecoins e o panorama monetário global

Entrevista com o mestre da macroeconomia Raoul Pal: A competição em IA está a dar origem a uma "singularidade económica"; não desista facilmente dos seus ativos nos próximos quatro anos

Why is Peter Thiel, behind Palantir, preparing an exit in Argentina?

