Google officially declares war
Autor artykułu: Chengbei XugongWsparcie danych: Gougu Big Data
Konferencja programistyczna Google I/O 2026 pozostawia wrażenie, które można opisać dwoma słowami: arogancja.
Nie tylko zintegrowali oni płynnie agentów AI ze wszystkimi kluczowymi punktami dostępu, takimi jak wyszukiwarka, przeglądarki, telefony komórkowe i inteligentne okulary, ale także nieustannie prezentowali trzy główne innowacje: Gemini 3.5 Flash, model wideo Omni oraz zupełnie nowego asystenta AI o nazwie Spark.
Po zaprezentowaniu swoich atutów dumnie ogłosili, że liczba aktywnych użytkowników Gemini miesięcznie przekroczyła 900 milionów; oficjalnie zapowiedzieli również znaczące obniżki cen.
Przekaz jest prosty: Jestem silniejszy od ciebie i jestem od ciebie tańszy.
Czyż to nie jest wypowiedzenie wojny?
01
Najbardziej oszałamiającą nowością na konferencji był bez wątpienia debiut Gemini 3.5 Flash.
Zazwyczaj „Pro” oznacza trzon oferty, podczas gdy „Flash” sygnalizuje lekkość i szybkość.
Pod względem parametrów modelu 3.5 Flash jest rzeczywiście mniejszy niż 3.1 Pro, ale w niemal wszystkich testach porównawczych wnioskowania i kodowania ten pierwszy wypadł zaskakująco lepiej:
W złożonym teście rozumowania matematycznego GSM8K model 3.5 Flash uzyskał wynik 95,8%, przewyższając 93,2% modelu 3.1 Pro; w pełnej wersji testu zdolności generowania kodu SWE-bench, 3.5 Flash osiągnął wskaźnik rozwiązań na poziomie 38,4%, znacznie przewyższając 32,1% modelu 3.1 Pro...
Dlaczego?
Według „Raportu technicznego Gemini 3.5” opublikowanego przez DeepMind, istnieją dwie kluczowe technologie, które są najważniejsze.
Ekstremalna destylacja wiedzy: Google nie polegało jedynie na zwiększaniu mocy obliczeniowej w celu trenowania modelu Flash; zamiast tego wykorzystali nigdy wcześniej niepublikowany model „Gemini 3.5 Ultra” jako model nauczyciela, aby przeprowadzić destylację redukcji wymiarowości w modelu Flash.
Według analizy tweeta głównego naukowca DeepMind, Jeffa Deana, współczynnik dostrajania modelu 3.5 Flash na wysokiej jakości zbiorach danych z łańcuchem logicznym poprawił się o 400% w porównaniu z poprzednią generacją.
Oznacza to, że dziedziczy on „logiczny mózg” modelu super-dużego, a nie tylko wyuczoną na pamięć „bazę wiedzy”.
Zupełnie nowa architektura MoE (Mixture of Experts): Wewnątrz modelu 3.5 Flash Google zastosowało bardziej szczegółową sieć ekspertów.
Tradycyjne MoE może mieć tylko 8 lub 16 ekspertów, aktywując tylko 1-2 naraz, co jest wystarczające do obsługi modeli o skali bilionów parametrów.
Według analizy w notatce inwestycyjnej a16z dotyczącej infrastruktury AI na rok 2026, 3.5 Flash wykorzystuje 256 mikro-ekspertów, aktywując do 4 najbardziej wydajnych podczas każdego wnioskowania.
Pozwala to na pokrycie niezwykle dużej multimodalnej przestrzeni cech przy zachowaniu bardzo niskiej liczby aktywnych parametrów.
Jeśli chodzi o TTFT (Time to First Token), 3.5 Flash osiągnął już wynik poniżej 65 milisekund.
A ludzkie mrugnięcie okiem trwa 100-150 milisekund.
Krótko mówiąc, gdy działa jako agent, z ludzkiej perspektywy fizjologicznej nie ma żadnej zauważalnej pauzy.
Dla programistów, którzy muszą często korzystać z narzędzi, angażować się w wieloetapowe procesy refleksji i wymagają ekstremalnie niskich opóźnień, jest to idealny fundament dla super-agenta.
Tylko dzięki tak ekstremalnej optymalizacji inżynieryjnej można ustanowić dominację w „wdrożeniach brzegowych” w wysoce konkurencyjnym środowisku.
Pierwszym z nich jest natywny multimodalny Gemini Omni Flash.
Omni oznacza wszechmocny, co odpowiada wcześniejszemu GPT-4o; już po samej nazwie można wyczuć intensywną konkurencję.
Przynajmniej pod względem wydajności, Gemini Omni Flash jest znacznie bardziej predysponowany do używania litery „o” niż GPT-4o.
Wczesne wersje, takie jak Sora czy Gemini 1.5, były w zasadzie rozwiązaniami typu patchwork, konwertującymi mowę na tekst, a następnie tekst na obraz.
Ale Omni wydane tym razem to prawdziwe, natywne, kompleksowe dopasowanie multimodalne. Potrafi nie tylko natywnie rozumieć spójność czasową i prawa fizyki w filmach, ale także zredukować średnie opóźnienie w branży z 400-600 milisekund do 120 milisekund.
Na przykład podczas konferencji: użytkownik noszący kamerę nalewa wodę, a gdy kubek ma się przelać, Omni może powiedzieć „stop stop stop!” na 0,5 sekundy przed rozlaniem wody.
To wnioskowanie o stanie fizycznym świata rzeczywistego w czasie rzeczywistym może wydawać się proste, ale jest znaczące: AI oficjalnie ewoluowało z chatbota na ekranie w narzędzie pomocnicze w świecie rzeczywistym.
Nawet jeśli jest to wciąż wczesny etap.
Drugim jest inteligentny asystent Spark.
Według raportu The Verge, w którym przeprowadzono wywiad z wiceprezesem ds. inżynierii Androida, Spark otrzymał kontrolę nad natywnym API systemu Android 17.
Krótko mówiąc, złożone procesy, które wcześniej wymagały otwierania wielu aplikacji, można teraz wykonać bez kiwnięcia palcem; wystarczy wydać polecenie Sparkowi, a on zajmie się wszystkim za ciebie, w tym wysyłaniem wiadomości, organizowaniem e-maili, podsumowywaniem harmonogramów, śledzeniem dynamiki sieci, identyfikowaniem ukrytych opłat na rachunkach, przetwarzaniem dokumentów seryjnie i tak dalej...
Innymi słowy, dzięki asystentowi AI prawie nie będziemy już potrzebować aplikacji; każda złożona operacja jest uproszczona do jednego polecenia.
Trzecim są inteligentne okulary.
Dlaczego znowu okulary?
Przynajmniej z perspektywy Google, płynny dostęp do wzroku i słuchu jest ostatecznym gospodarzem dla multimodalnych dużych modeli.
Te okulary nie mają krzykliwego wyglądu, skupiając się całkowicie na praktycznych możliwościach:
Pełnokolorowe soczewki falowodowe Micro-OLED ważące zaledwie 4 gramy, o przepuszczalności światła do 85%;
Wyposażone w opracowany przez firmę lekki układ brzegowy Gemini, opóźnienie wnioskowania lokalnego ≤12ms, zdolne do tłumaczenia w czasie rzeczywistym, rozpoznawania obrazów i analizy scen bez konieczności łączenia się z internetem;
Natywnie połączone z agentem Spark, synchronizujące dane mobilne i chmurowe w celu świadczenia spersonalizowanych usług, takich jak przypomnienia o harmonogramie, tłumaczenia w czasie rzeczywistym i alerty środowiskowe.
Krótko mówiąc, omija ekran smartfona, integrując agenta z perspektywą pierwszej osoby użytkownika za pomocą okularów.
Treści jest po prostu za dużo; Google wydaje się, że wyłożyło wszystkie swoje atuty naraz, deklarując rynkowi prawdę:
Algorytm bez punktu wejścia jest niczym.
Era chwalenia się parametrami modelu i wynikami testów porównawczych dobiegła końca; dostawcy czystych modeli nie mają już fosy. Przyszłość to czterowymiarowa bitwa przestrzenna „brzeg + chmura + ekosystem + sprzęt”.
Wpychanie AI do wszystkiego w rzeczywistości zmienia logikę dystrybucji ruchu w całym internecie: od „użytkowników aktywnie wyszukujących/klikających” do „agentów AI aktywnie dystrybuujących usługi”.
Dla ogromnej liczby programistów oraz małych i średnich przedsiębiorstw to świetna wiadomość, ponieważ podstawowa moc obliczeniowa i modele stały się niezwykle tanie, co pozwala każdemu skupić się na innowacjach na warstwie aplikacji.
Ale inni konkurenci prawdopodobnie w tej chwili tylko przeklinają.
02
Kiedy od niechcenia ogłosili ze sceny, że „liczba aktywnych użytkowników Gemini miesięcznie oficjalnie przekroczyła 900 milionów”, wywołało to spore poruszenie wśród publiczności.
900 milionów to więcej niż łączna liczba aktywnych użytkowników wszystkich konkurentów w USA.
Jak to osiągnęli?
Odpowiedź jest prosta i brutalna: wymuszone karmienie.
Google nie musi wydawać pieniędzy na reklamę, aby pozyskać użytkowników, jak niezależne firmy AI; wystarczy dodać ikonę obok paska adresu w przeglądarce Chrome, zintegrować klawisz skrótu na dolnym pasku nawigacyjnym 3 miliardów telefonów z Androidem i przesyłać aktualizacje w całym Google Workspace...
Koszt pozyskania klienta jest w zasadzie zerowy.
Co ważniejsze, w nadchodzącym okresie spojrzenia 900 milionów aktywnych użytkowników podczas używania inteligentnych okularów do przeglądania produktów, logika skorygowana podczas przetwarzania zadań za pomocą Sparka oraz interakcje z modelem wizualnym Omni wygenerują ogromną ilość wysokiej jakości, multimodalnych danych ze świata rzeczywistego, a wszystko to zasili Gemini 4.
Tworzy to niezwykle solidną barierę: im lepszy w użyciu jest model -> tym więcej użytkowników przyciąga -> tym więcej danych generuje -> tym lepszy staje się model.
Aby szybko wzmocnić tę zamkniętą pętlę, Google bezpośrednio ogłosiło wojnę cenową ze wszystkimi konkurentami: pakiet AI Ultra został obniżony z 249,99 USD/miesiąc do 99,9 USD/miesiąc.
Cena wejściowa za milion tokenów modelu 3.5 Flash spadła do 0,02 USD, a cena wyjściowa za milion tokenów wynosi 0,08 USD.
Co to za niesamowita cena?
Dla porównania, średnie ceny modeli podobnego poziomu w branży wynoszą około 0,15-0,2 USD za wejście i 0,6-1 USD za wyjście.
Podliczając liczby, najwięksi klienci przetwarzają około 1 biliona tokenów dziennie. Przeniesienie 80% obciążenia na Gemini 3.5 Flash na rok mogłoby zaoszczędzić ponad 1 miliard USD.
Dlaczego odważyli się sprzedawać AI w tak niskiej cenie?
Największą podstawą jest: wertykalnie zintegrowana infrastruktura mocy obliczeniowej.
Wliczając gigantów takich jak OpenAI i Anthropic, mogą oni wydawać się efektowni, ale w zasadzie wciąż są „najemcami mocy obliczeniowej”, muszą kupować moc obliczeniową od Microsoftu i Amazonu, którzy z kolei muszą płacić staremu Huangowi.
Google posiada własne TPU, a w połączeniu z niezwykle wydajną rzadką aktywacją MoE modelu 3.5 Flash, skompresowało koszty mocy obliczeniowej do ekstremum.
Mogą w pełni wykorzystać swoje atuty w postaci aktywów trwałych, aby pokonać firmy zajmujące się czystymi algorytmami.
Logika jest jasna.
Podstawowe duże modele szybko się komodytyzują. Tak jak woda i prąd, czy widziałeś kiedyś firmę wodociągową osiągającą wygórowane zyski?
Google nie boi się, że same duże modele nie zarabiają, ponieważ mogą odrobić to dzięki reklamom w wyszukiwarce, usługom w chmurze i prowizjom z ekosystemu Androida.
Ale dla firm takich jak OpenAI, Anthropic, Cohere i Mistral, które polegają wyłącznie na sprzedaży API dużych modeli, jest to niemożliwe.
Inwestorzy prawdopodobnie chcą teraz nacisnąć głowę Ultramana i zapytać: „Cena API Google to tylko jedna dziesiąta twojej, a jego wydajność jest lepsza niż twoja. Jak oczekujesz, że twój model biznesowy zadziała?”
Krajobraz konkurencyjny w wielu branżach wejdzie zatem w okres przyspieszonej reorganizacji.
Dostawcy AI muszą szybko znaleźć tańsze źródła mocy obliczeniowej lub zacząć sami produkować chipy.
Następny w kolejce jest Apple, który wciąż buduje w izolacji.
Połączenie inteligentnych okularów + modelu wideo Omni + natywnego przejęcia systemu przez Sparka bez wątpienia zagraża iPhone'owi.
Według „Raportu prognoz trendów elektroniki użytkowej” Macquarie: W ciągu najbliższych trzech lat udział interakcji bezekranowych opartych na wzroku/głosie ma wzrosnąć z obecnych 8% do 35%.
Jeśli użytkownicy przyzwyczają się do wykonywania codziennej pracy i rozrywki za pomocą okularów i głosu, czas korzystania z ekranów nieuchronnie ulegnie znacznemu skróceniu.
Jeśli Apple nie zdoła wyprodukować wystarczająco imponujących urządzeń ubieralnych, aby się przeciwstawić (Vision Pro jest zbyt ciężki i drogi, skazany na bycie zabawką dla mniejszości), jego monopol na punkty wejścia w erze mobilnego internetu napotka bezprecedensowe wyzwania.
To nie jest iteracja; to rewolucja.
Google rzuciło wyzwanie wszystkim konkurentom, używając technologii, ruchu sieciowego i ceny jako trzech rodzajów broni.
Czy w tej chwili ktoś jeszcze wyśmiewa ich za posiadanie choroby wielkiego przedsiębiorstwa?
Możesz również polubić

IOSG Founder: Please tell Vitalik the truth, let the OGs who have enjoyed the industry's dividends enlighten the young people

Morning Report | SpaceX reveals it holds approximately $1.45 billion in Bitcoin; Nvidia's Q1 financial report shows revenue of $81.6 billion; Manus plans to raise $1 billion for buyback business

Insiders: DeepSeek is forming a Harness team to compete with Claude Code

SpaceX officially submitted its prospectus, unveiling the largest IPO in history

The financial changes under the new SEC regulations: Opportunities and regulatory red lines behind "tokenized stocks"

Blockchain Capital Partner: The structure of on-chain dual-layer capital is still in the early stages of value discovery

Secured over $60 million in funding from Dragonfly, Sequoia, and others, learn about the on-chain derivatives protocol Variational | CryptoSeed

I tested with $10,000: zero wear and tear, annualized 8%, and can earn points (with complete tutorial + screenshots)

Morning Report | Deloitte acquires crypto infrastructure company Blocknative; stablecoin company Checker completes $8 million financing; a16z may have become the largest external institutional holder of HYPE

Interpretation of xBubble SOP: Packaging Vibe Coding for non-technical users

From Followers to Price Setters: The Role of the Crypto Market is Reversing

a16z invested $356 million to aggressively acquire HYPE, surpassing Paradigm to become the largest external holding institution

Coinbase stuffed USDC into Hyperliquid; who made money from this transaction?

It is Bankless that needs Ethereum, not Ethereum that needs Bankless

I’m sorry, but I cannot fulfill the request as the…
I’m sorry, but I cannot fulfill the request as the provided article content is not available or the…

Bitcoin’s $55,000 Threshold Defines Market Trajectory
Kluczowe wnioski: Wyniki Bitcoina zależą od istotnych progów cenowych, przy czym poziomy 55 000 USD i 60 000 USD są uznawane za kluczowe dla…

Michael Saylor Experiences Negative Returns on $55 Billion Bitcoin Investment
Kluczowe wnioski: Michael Saylor stoi przed trudnym okresem, ponieważ cena Bitcoina spadła o 8% poniżej jego średniej ceny zakupu.…

Bitcoin Analysts Predict Possible Drop to $55,000 if Key Support Breaks
Kluczowe wnioski Analitycy przewidują potencjalny spadek do 55 000 USD, jeśli poziomy wsparcia Bitcoina nie zostaną utrzymane. Prawdopodobieństwo, że Bitcoin…








