Google I/O 2025: Jak Gemini 2.5 i Android XR zdefiniują przyszłość #EN96

TL;DR – Najważniejsze punkty z Google I/O 2025

Eksplozja wykorzystania AI: Google odnotował 50-krotny wzrost wykorzystania AI – z 9,7 bln tokenów miesięcznie w 2024 do 480 bln tokenów w 2025
Gemini 2.5 dominuje: Nowe modele Pro i Flash zajmują czołowe miejsca we wszystkich kategoriach na LM Arena, z trybem DeepThink dla zaawansowanego rozumowania
AI Mode revolucjonizuje wyszukiwanie: Nowy tryb w Google Search z personalizacją, głębokimi badaniami i możliwościami agentowymi dostępny dla użytkowników w USA
Android XR i okulary AI: Partnerstwa z Samsung, Gentle Monster i Warby Parker mają wprowadzić okulary z asystentem AI do codziennego użytku
Narzędzia kreatywne nowej generacji: Imagen 4 z lepszym renderowaniem tekstu oraz VO3 z natywnym generowaniem audio zmieniają sposób tworzenia treści
Praktyczne zastosowania społeczne: Od wsparcia osób niewidomych przez Project Astra po wykrywanie pożarów satelitą FireSat wielkości garażu na jeden samochód
Nowe plany subskrypcji: Google AI Pro (globalnie) i Google AI Ultra (USA) z najwyższymi limitami i wczesnym dostępem do nowych funkcji

Google I/O 2025 przedstawił najbardziej ambitną wizję przyszłości sztucznej inteligencji w historii firmy. Konferencja deweloperska, która tradycyjnie skupiała się na nowościach technicznych, tym razem pokazała, jak AI ma fundamentalnie zmienić sposób interakcji z technologią.

Gemini 2.5 – Nowy standard inteligencji

Przełomowa wydajność modeli

Gemini 2.5 Pro osiągnął bezprecedensową pozycję na rynku AI:

Dominacja na LM Arena – czołowe miejsca we wszystkich kategoriach
Wzrost Elo o 300+ punktów w porównaniu do pierwszej generacji Gemini Pro
Pierwsze miejsce na Web Dev Arena – przewaga 142 punktów Elo nad poprzednią wersją
Masowa adopcja w kodowaniu – setki tysięcy linii akceptowanego kodu co minutę na platformie Cursor
Najszybsze modele – top 3 miejsca dla prędkości generowania tokenów wśród najlepszych modeli

DeepThink – Zaawansowane rozumowanie

Nowy tryb DeepThink wprowadza przełomowe możliwości myślenia i rozumowania. Wykorzystuje najnowsze badania w dziedzinie myślenia i rozumowania, włączając techniki równoległe. Jak przedstawiono na konferencji, DeepThink uzyskuje imponujący wynik w USA Mo 2025, obecnie jednym z najtrudniejszych benchmarków matematycznych. Prowadzi na Live Codebench, trudnym benchmarku dla programowania na poziomie zawodów. Ponieważ Gemini od początku był natywnie multimodalny, nie jest zaskoczeniem, że również wyróżnia się w głównym benchmarku MMMU.

DeepThink będzie dostępny początkowo dla zaufanych testerów poprzez Gemini API, z planami szerszego udostępnienia po dodatkowych ocenach bezpieczeństwa.

Praktyczne możliwości multimodalne

Demonstracja pokazała, jak Gemini 2.5 przekształca prosty szkic w działającą aplikację 3D. W przykładzie pokazanym na konferencji, system rozpoznał abstrakcyjny rysunek kuli i automatycznie wygenerował kod aktualizujący multiple pliki, wykorzystując biblioteki Three.js i tworzenie złożonej matematyki 3D. Jak pokazano, zajęło to około dwóch minut myślenia przez 37 sekund.

Nowe możliwości text-to-speech oferują pierwsze na świecie natywne wsparcie dla dwóch głosów, płynne przechodzenie między językami (ponad 24 języki) oraz ekspresyjną zmienność tonu – od normalnej rozmowy po szept.

Rewolucja w Google Search

AI Overviews – Sukces na globalną skalę

AI Overviews osiągnęły niezwykły sukces, obsługując ponad 1,5 miliarda użytkowników miesięcznie w ponad 200 krajach i terytoriach. Jak przedstawiono na konferencji, ludzie używający AI overviews są szczęśliwsi ze swoich wyników i wyszukują częściej. W największych rynkach jak USA i Indie, AI overviews napędzają ponad 10% wzrostu w typach zapytań, które je wyświetlają.

Wzrost ten zwiększa się z czasem, czyniąc AI Overviews jednym z najbardziej udanych uruchomień w wyszukiwaniu w ciągu ostatniej dekady, jak zostało przedstawione na konferencji.

AI Mode – Reimaginacja wyszukiwania

Nowy AI Mode to całkowite przeprojektowanie wyszukiwania z Gemini 2.5 w centrum. Użytkownicy zadają zapytania 2-3 razy dłuższe niż tradycyjne wyszukiwania, korzystając z zaawansowanego rozumowania.

Query Fan Out Technique – kluczowa innowacja działająca w pięciu krokach:

Rozpoznawanie zapytań wymagających zaawansowanego rozumowania
Podział pytania na różne podtematy automatycznie
Równoległe wykonywanie wielu zapytań w imieniu użytkownika
Sięganie do baz danych w czasie rzeczywistym: Knowledge Graph, Shopping Graph, lokalne dane z Map (500+ milionów kontrybutorów)
Sprawdzanie jakości informacji i wypełnianie luk dodatkowymi wyszukiwaniami

Personalizacja z kontekstem osobistym

AI Mode wprowadza Personal Context – funkcję łączącą informacje z aplikacji Google:

Analiza preferencji:

Historia wyszukiwań – preferencje dla restauracji na zewnątrz
Subskrypcje email – newslettery o galeriach sztuki w Gmail
Potwierdzenia podróży – loty i hotele dla synchronizacji z rzeczywistymi planami

Praktyczny przykład: planowanie weekendu w Nashville

Rekomendacje restauracji z miejscami na zewnątrz na podstawie wcześniejszych wyborów
Sugestie wystaw z galerii, na które użytkownik jest zapisany
Synchronizacja z czasem – wydarzenia dopasowane do terminów pobytu w mieście
Lokalizacja hotelu – propozycje w pobliżu miejsca zakwaterowania

Kontrola użytkownika:

Pełna kontrola nad funkcją – włączanie/wyłączanie w każdej chwili
Zarządzanie połączonymi aplikacjami indywidualnie
Transparentność – jasne informowanie kiedy AI używa kontekstu osobistego

Deep Search – Badania na poziomie eksperckim

Deep Search wykorzystuje zwielokrotnioną wersję Query Fan Out Technique. System może wykonać dziesiątki lub setki wyszukiwań w imieniu użytkownika, tworząc w kilka minut pełny raport na poziomie eksperckim z kompletnymi cytowaniami.

Przykład praktyczny z demonstracji: analiza nietoperzy torpedo w baseballu wymagała zrozumienia, którzy gracze ich używają, oraz porównania ich statystyk z poprzedniego sezonu. Search automatycznie wygenerował tabele i wykresy z aktualnych danych sportowych.

Asystent AI nowej generacji

Project Astra – Wsparcie w accessibility

Partnerstwo z firmą Aira pokazuje społeczny potencjał AI. System wykorzystuje technologię Astra do wspomagania osób niewidomych i słabowidzących w nawigacji po świecie.

Demonstracja z muzykiem pokazała, jak AI może rozpoznawać znaki WiFi i podawać hasła, lokalizować sprzęt muzyczny w backstage oraz wspomagać w przygotowaniach do występu. Interpretatorzy Aira aktywnie nadzorują system dla bezpieczeństwa i niezawodności.

Agent Mode – Wielozadaniowość

Nowy Agent Mode w aplikacji Gemini oferuje zaawansowane możliwości:

Wielozadaniowość – nadzorowanie do 10 jednoczesnych zadań
Teach and Repeat – uczenie się zadań do przyszłego wykorzystania
Integracja z MCP – dostęp do zewnętrznych usług przez Model Context Protocol
Automatyzacja procesów – od wyszukiwania po umawianie spotkań

Praktyczny przykład: wyszukiwanie mieszkania w Austin dla trzech współlokatorów z budżetem 1200 dolarów miesięcznie:

Automatyczne przeszukiwanie serwisów jak Zillow z określonymi kryteriami
Dostosowywanie specyficznych filtrów przez Project Mariner
Wykorzystywanie MCP do dostępu do ofert i umawiania oglądania
Kontynuowanie poszukiwań nowych ofert w tle

Gemini Live – Interakcja w czasie rzeczywistym

Gemini Live osiągnął imponujące wskaźniki adopcji:

5x dłuższe rozmowy niż tekstowe interakcje w aplikacji
Wsparcie językowe – ponad 45 języków w ponad 150 krajach
Bezpłatne funkcje – kamera i udostępnianie ekranu dla wszystkich użytkowników

Nadchodzące integracje Gemini Live:

Kalendarz – dodawanie zaproszeń przez wskazanie kamerą
Mapy – nawigacja i lokalizacja w czasie rzeczywistym
Keep – zarządzanie notatkami i listami (np. rozpoznawanie pisma ręcznego współlokatorów)
Tasks – organizacja zadań i przypomnień
Kompleksowe wsparcie – wszystkie funkcje działające razem dla pełnego doświadczenia

Narzędzia kreatywne napędzane AI

Imagen 4 – Rewolucja w generowaniu obrazów

Nowy model Imagen 4 wprowadza znaczące ulepszenia w jakości obrazów – są bogatsze, z bardziej niuansowymi kolorami i drobnoziarnistymi detalami jak krople wody i cienie. Dramatycznie poprawiono renderowanie tekstu i typografii.

Przykład z demonstracji: plakat festiwalu muzycznego z Chrome Dino jako główną gwiazdą. System nie tylko poprawnie wyrenderował tekst, ale podejmował kreatywne decyzje dotyczące układu, używając kości dinozaura w czcionce.

Szybka wersja Imagen 4 działa 10 razy szybciej od poprzedniego modelu, umożliwiając szybką iterację przez wiele pomysłów.

VO3 – Wideo z natywnym audio

VO3 to przełomowy model generowania wideo z wbudowanym systemem audio:

Główne możliwości:

Efekty dźwiękowe – automatyczne dostosowanie do sceny
Dźwięki środowiska – realistyczne odwzorowanie tła (las, ocean, miasto)
Dialogi postaci – naturalne rozmowy z synchronizacją ruchu ust
Fotorealistyczne generowanie – jakość porównywalna z prawdziwymi nagraniami
Rozpoznawanie emocji – przekazywanie nastroju przez ton głosu i mimikę

Przykład z demonstracji: dialog mądrej sowy i nerwowego młodego borsuka w lesie z naturalnymi dźwiękami środowiska i ekspresyjnymi głosami dostosowanymi do charakteru postaci.

Flow – Platforma filmowa dla twórców

Nowe narzędzie Flow łączy możliwości VO, Imagen i Gemini w jednej platformie filmowej zainspirowanej uczuciem „bycia w strefie kreatywnej”. Możliwości obejmują łatwe przesyłanie własnych obrazów lub generowanie na bieżąco przez Imagen, precyzyjną kontrolę kamery z opisami konkretnych ujęć, konsystencję postaci i scen między klipami oraz możliwość rozszerzania klipów w obu kierunkach.

Partnerstwa z branżą filmową

Współpraca z Darren Aronofsky i jego Primordial Soup pokazuje profesjonalne zastosowania VO. Film „Ancestra” w reżyserii Elizy McNitt łączy emocjonalne występy aktorów na żywo z wygenerowanymi przez VO światami mikroskopowymi i kosmicznymi scenami.

Partnerstwo pomogło w rozwoju nowych możliwości dla filmowców: wykorzystywanie składników (postaci, sceny, style) z zachowaniem spójności, precyzyjne instrukcje kamerowe dla konkretnych ścieżek oraz płynne wyrażanie pomysłów twórczych.

Android XR i przyszłość interakcji

Pierwsza platforma z ery Gemini

Android XR to pierwsza platforma Android zbudowana w erze Gemini, obsługująca szeroki spektrum urządzeń XR. Google nie wierzy w „jeden rozmiar dla wszystkich” – różne urządzenia służą różnym celom. Zestawy nagłowne idealnie sprawdzają się do filmów, gier i pracy, podczas gdy lekkie okulary dostarczają informacji w ruchu bez konieczności sięgania po telefon.

Samsung Project Muhan

Pierwszy device Android XR od Samsung oferuje nieskończony ekran do eksploracji aplikacji z Gemini u boku. W Google Maps XR można teleportować się wszędzie na świecie, po prostu prosząc Gemini o przeniesienie. Można rozmawiać z asystentem AI o wszystkim, co się widzi, i kazać mu wyciągnąć filmy i strony internetowe na temat eksplorowanych miejsc.

Samsung’s Project Muhan będzie dostępny do zakupu później w 2025 roku.

Okulary AI dla codziennego użytku

Okulary Android XR są lekkie i zaprojektowane do noszenia przez cały dzień, mimo że są wypakowane technologią. Kamera i mikrofony dają Gemini możliwość widzenia i słyszenia świata. Głośniki pozwalają słuchać AI, odtwarzać muzykę lub prowadzić rozmowy. Opcjonalny wyświetlacz w soczewkach prywatnie pokazuje pomocne informacje dokładnie wtedy, gdy są potrzebne.

Praktyczne zastosowania z demonstracji backstage Google I/O:

Automatyzacja i kontrola:

Automatyczne wyciszanie powiadomień na żądanie głosowe
Wysyłanie wiadomości tekstowych bez dotykania telefonu
Robienie zdjęć i dodawanie do ulubionych przez komendę głosową

Rozpoznawanie i kontekst:

Identyfikacja zdjęć zespołów na ścianach z historią występów w danym miejscu
Odtwarzanie muzyki związanej z rozpoznanymi wykonawcami
Zapamiętywanie detali jak logo kawiarni na kubku z wcześniejszej rozmowy

Nawigacja i planowanie:

Wyświetlanie tras 3D z instrukcjami heads-up w czasie rzeczywistym
Umawianie spotkań przez rozpoznawanie głosu i automatyczne wysyłanie zaproszeń
Sugestie miejsc na podstawie zapamiętanych preferencji użytkownika

Tłumaczenia na żywo:

Dwukierunkowe tłumaczenie w czasie rzeczywistym (demonstracja: hindi ↔ farsi)
Wyświetlanie napisów w języku docelowym bezpośrednio w okularach
Zachowanie naturalności rozmowy mimo bariery językowej

Partnerstwa strategiczne

Google ogłosił kluczowe partnerstwa – Samsung dla rozwoju sprzętu i oprogramowania, Qualcomm dla optymalizacji pod Snapdragon, Gentle Monster dla stylowych oprawek okularów AI oraz Warby Parker dla szerokiego wyboru designów dopasowanych do gustu osobistego.

Setki deweloperów już buduje dla platformy od udostępnienia Android XR Developer Preview.

Zastosowania AI w realnym świecie

FireSat – Ochrona przed pożarami

Konstelacja satelitów FireSat wykorzystuje wielospektralne zdjęcia satelitarne i AI:

Możliwości techniczne:

Precyzyjna detekcja – pożary wielkości 270 stóp kwadratowych (rozmiar garażu na jeden samochód)
Drastyczne przyspieszenie – aktualizacje co 20 minut vs obecne 12 godzin
Pierwszy satelita już na orbicie z planami rozszerzenia konstelacji
Analiza w czasie rzeczywistym – natychmiastowe alerty dla służb ratunkowych

Wsparcie w sytuacjach kryzysowych

Przykład: Huragan Helene
Wing w partnerstwie z Walmart i Czerwonym Krzyżem zapewnił:

Dostawy dronami wspierane przez AI do trudno dostępnych obszarów
Krytyczne produkty – żywność, leki, artykuły pierwszej potrzeby
Obsługa schroniska YMCA w Północnej Karolinie
Analiza potrzeb w czasie rzeczywistym dla optymalizacji dostaw
Skalowalność – aktywne prace nad rozszerzeniem na inne regiony

Przyszłe aplikacje

Konferencja wskazała na aplikacje możliwe w ciągu lat, nie dekad: kolejną generację pomocnych robotów, leczenie najśmiertelniejszych chorób świata, zaawansowane komputery kwantowe z korekcją błędów oraz całkowicie autonomiczne pojazdy.

Nowe plany subskrypcji

Google wprowadził dwa nowe poziomy subskrypcji AI:

Google AI Pro (dostępny globalnie)

Pełny zestaw produktów AI z wyższymi limitami niż wersja bezpłatna
Specjalne funkcje niedostępne w podstawowej wersji
Zawiera poprzedni Gemini Advanced w nowej formule
Skierowany do regularnych użytkowników AI

Google AI Ultra (USA, wkrótce globalnie)

„VIP pass” dla Google AI przeznaczony dla pionierów:

Dostęp priorytetowy:

Najwyższe limity wykorzystania wszystkich modeli
Najwcześniejszy dostęp do nowych funkcji i produktów Google
Dostęp do 2.5 Pro DeepThink mode przed innymi użytkownikami
Pełny Flow z VO3 – zaawansowane narzędzia filmowe

Dodatkowe korzyści:

YouTube Premium w pakiecie
Masowe przestrzenie dyskowe Google One
Wsparcie premium i priorytetowa obsługa

Statystyki wzrostu i adopcji

Eksplozja wykorzystania AI

Jak przedstawiono na Google I/O 2025, w tym czasie w zeszłym roku Google przetwarzał 9,7 biliona tokenów miesięcznie w swoich produktach i API. Teraz przetwarzają 480 bilionów tokenów miesięcznie – to około 50-krotny wzrost w ciągu roku. Aplikacja Gemini ma obecnie ponad 400 milionów miesięcznych aktywnych użytkowników. Obserwują silny wzrost i zaangażowanie, szczególnie z modelami 2.5. Dla tych używających 2.5 Pro w aplikacji Gemini, użycie wzrosło o 45%. Google Lens ma ponad 1,5 miliarda użytkowników miesięcznie, wzrost o 65% rok do roku, z ponad 100 miliardami wyszukiwań wizualnych już w tym roku.

Adopcja deweloperska

Jak poinformowano na konferencji, obecnie ponad 7 milionów deweloperów buduje z Gemini API w Google AI Studio i Vertex AI – to ponad 5-krotny wzrost od poprzedniego I/O. Wykorzystanie Gemini na Vertex AI wzrosło ponad 40 razy od zeszłego roku. Na platformie Cursor, wiodącym edytorze kodu AI, Gemini jest najszybciej rosnącym modelem roku, produkującym setki tysięcy linii akceptowanego kodu co minutę.

Osiągnięcia techniczne

Mniejsze, ale znaczące kamienie milowe pokazują postęp AI, jak przedstawiono na konferencji. Kilka tygodni temu Gemini ukończył Pokemon Blue – zdobył wszystkie osiem odznak, przeszedł Victory Road, pokonał Elitę Czterech i Mistrza, przybliżając o krok do osiągnięcia API (Artificial Pokemon Intelligence). Zaktualizowany 2.5 Pro osiągnął pierwsze miejsce na Web Dev Arena. Spośród najlepszych modeli na leaderboard LM Arena, Gemini zajmuje trzy czołowe miejsca pod względem najwyższej liczby tokenów wyjściowych generowanych na sekundę.

Ten wpis jest częścią mojej kolekcji notatek z ciekawych podcastów, webinarów i innych treści, które uważam za wartościowe i do których sam chcę wracać. Jeśli chcesz sprawdzić oryginalne źródło, znajdziesz je tutaj: Google I/O 2025 Keynote