TL;DR – Najważniejsze punkty z Google I/O 2025
- Eksplozja wykorzystania AI: Google odnotował 50-krotny wzrost wykorzystania AI – z 9,7 bln tokenów miesięcznie w 2024 do 480 bln tokenów w 2025
- Gemini 2.5 dominuje: Nowe modele Pro i Flash zajmują czołowe miejsca we wszystkich kategoriach na LM Arena, z trybem DeepThink dla zaawansowanego rozumowania
- AI Mode revolucjonizuje wyszukiwanie: Nowy tryb w Google Search z personalizacją, głębokimi badaniami i możliwościami agentowymi dostępny dla użytkowników w USA
- Android XR i okulary AI: Partnerstwa z Samsung, Gentle Monster i Warby Parker mają wprowadzić okulary z asystentem AI do codziennego użytku
- Narzędzia kreatywne nowej generacji: Imagen 4 z lepszym renderowaniem tekstu oraz VO3 z natywnym generowaniem audio zmieniają sposób tworzenia treści
- Praktyczne zastosowania społeczne: Od wsparcia osób niewidomych przez Project Astra po wykrywanie pożarów satelitą FireSat wielkości garażu na jeden samochód
- Nowe plany subskrypcji: Google AI Pro (globalnie) i Google AI Ultra (USA) z najwyższymi limitami i wczesnym dostępem do nowych funkcji
Google I/O 2025 przedstawił najbardziej ambitną wizję przyszłości sztucznej inteligencji w historii firmy. Konferencja deweloperska, która tradycyjnie skupiała się na nowościach technicznych, tym razem pokazała, jak AI ma fundamentalnie zmienić sposób interakcji z technologią.
Gemini 2.5 – Nowy standard inteligencji
Przełomowa wydajność modeli
Gemini 2.5 Pro osiągnął bezprecedensową pozycję na rynku AI:
- Dominacja na LM Arena – czołowe miejsca we wszystkich kategoriach
- Wzrost Elo o 300+ punktów w porównaniu do pierwszej generacji Gemini Pro
- Pierwsze miejsce na Web Dev Arena – przewaga 142 punktów Elo nad poprzednią wersją
- Masowa adopcja w kodowaniu – setki tysięcy linii akceptowanego kodu co minutę na platformie Cursor
- Najszybsze modele – top 3 miejsca dla prędkości generowania tokenów wśród najlepszych modeli
DeepThink – Zaawansowane rozumowanie
Nowy tryb DeepThink wprowadza przełomowe możliwości myślenia i rozumowania. Wykorzystuje najnowsze badania w dziedzinie myślenia i rozumowania, włączając techniki równoległe. Jak przedstawiono na konferencji, DeepThink uzyskuje imponujący wynik w USA Mo 2025, obecnie jednym z najtrudniejszych benchmarków matematycznych. Prowadzi na Live Codebench, trudnym benchmarku dla programowania na poziomie zawodów. Ponieważ Gemini od początku był natywnie multimodalny, nie jest zaskoczeniem, że również wyróżnia się w głównym benchmarku MMMU.
DeepThink będzie dostępny początkowo dla zaufanych testerów poprzez Gemini API, z planami szerszego udostępnienia po dodatkowych ocenach bezpieczeństwa.
Praktyczne możliwości multimodalne
Demonstracja pokazała, jak Gemini 2.5 przekształca prosty szkic w działającą aplikację 3D. W przykładzie pokazanym na konferencji, system rozpoznał abstrakcyjny rysunek kuli i automatycznie wygenerował kod aktualizujący multiple pliki, wykorzystując biblioteki Three.js i tworzenie złożonej matematyki 3D. Jak pokazano, zajęło to około dwóch minut myślenia przez 37 sekund.
Nowe możliwości text-to-speech oferują pierwsze na świecie natywne wsparcie dla dwóch głosów, płynne przechodzenie między językami (ponad 24 języki) oraz ekspresyjną zmienność tonu – od normalnej rozmowy po szept.
Rewolucja w Google Search
AI Overviews – Sukces na globalną skalę
AI Overviews osiągnęły niezwykły sukces, obsługując ponad 1,5 miliarda użytkowników miesięcznie w ponad 200 krajach i terytoriach. Jak przedstawiono na konferencji, ludzie używający AI overviews są szczęśliwsi ze swoich wyników i wyszukują częściej. W największych rynkach jak USA i Indie, AI overviews napędzają ponad 10% wzrostu w typach zapytań, które je wyświetlają.
Wzrost ten zwiększa się z czasem, czyniąc AI Overviews jednym z najbardziej udanych uruchomień w wyszukiwaniu w ciągu ostatniej dekady, jak zostało przedstawione na konferencji.
AI Mode – Reimaginacja wyszukiwania
Nowy AI Mode to całkowite przeprojektowanie wyszukiwania z Gemini 2.5 w centrum. Użytkownicy zadają zapytania 2-3 razy dłuższe niż tradycyjne wyszukiwania, korzystając z zaawansowanego rozumowania.
Query Fan Out Technique – kluczowa innowacja działająca w pięciu krokach:
- Rozpoznawanie zapytań wymagających zaawansowanego rozumowania
- Podział pytania na różne podtematy automatycznie
- Równoległe wykonywanie wielu zapytań w imieniu użytkownika
- Sięganie do baz danych w czasie rzeczywistym: Knowledge Graph, Shopping Graph, lokalne dane z Map (500+ milionów kontrybutorów)
- Sprawdzanie jakości informacji i wypełnianie luk dodatkowymi wyszukiwaniami
Personalizacja z kontekstem osobistym
AI Mode wprowadza Personal Context – funkcję łączącą informacje z aplikacji Google:
Analiza preferencji:
- Historia wyszukiwań – preferencje dla restauracji na zewnątrz
- Subskrypcje email – newslettery o galeriach sztuki w Gmail
- Potwierdzenia podróży – loty i hotele dla synchronizacji z rzeczywistymi planami
Praktyczny przykład: planowanie weekendu w Nashville
- Rekomendacje restauracji z miejscami na zewnątrz na podstawie wcześniejszych wyborów
- Sugestie wystaw z galerii, na które użytkownik jest zapisany
- Synchronizacja z czasem – wydarzenia dopasowane do terminów pobytu w mieście
- Lokalizacja hotelu – propozycje w pobliżu miejsca zakwaterowania
Kontrola użytkownika:
- Pełna kontrola nad funkcją – włączanie/wyłączanie w każdej chwili
- Zarządzanie połączonymi aplikacjami indywidualnie
- Transparentność – jasne informowanie kiedy AI używa kontekstu osobistego
Deep Search – Badania na poziomie eksperckim
Deep Search wykorzystuje zwielokrotnioną wersję Query Fan Out Technique. System może wykonać dziesiątki lub setki wyszukiwań w imieniu użytkownika, tworząc w kilka minut pełny raport na poziomie eksperckim z kompletnymi cytowaniami.
Przykład praktyczny z demonstracji: analiza nietoperzy torpedo w baseballu wymagała zrozumienia, którzy gracze ich używają, oraz porównania ich statystyk z poprzedniego sezonu. Search automatycznie wygenerował tabele i wykresy z aktualnych danych sportowych.
Asystent AI nowej generacji
Project Astra – Wsparcie w accessibility
Partnerstwo z firmą Aira pokazuje społeczny potencjał AI. System wykorzystuje technologię Astra do wspomagania osób niewidomych i słabowidzących w nawigacji po świecie.
Demonstracja z muzykiem pokazała, jak AI może rozpoznawać znaki WiFi i podawać hasła, lokalizować sprzęt muzyczny w backstage oraz wspomagać w przygotowaniach do występu. Interpretatorzy Aira aktywnie nadzorują system dla bezpieczeństwa i niezawodności.
Agent Mode – Wielozadaniowość
Nowy Agent Mode w aplikacji Gemini oferuje zaawansowane możliwości:
- Wielozadaniowość – nadzorowanie do 10 jednoczesnych zadań
- Teach and Repeat – uczenie się zadań do przyszłego wykorzystania
- Integracja z MCP – dostęp do zewnętrznych usług przez Model Context Protocol
- Automatyzacja procesów – od wyszukiwania po umawianie spotkań
Praktyczny przykład: wyszukiwanie mieszkania w Austin dla trzech współlokatorów z budżetem 1200 dolarów miesięcznie:
- Automatyczne przeszukiwanie serwisów jak Zillow z określonymi kryteriami
- Dostosowywanie specyficznych filtrów przez Project Mariner
- Wykorzystywanie MCP do dostępu do ofert i umawiania oglądania
- Kontynuowanie poszukiwań nowych ofert w tle
Gemini Live – Interakcja w czasie rzeczywistym
Gemini Live osiągnął imponujące wskaźniki adopcji:
- 5x dłuższe rozmowy niż tekstowe interakcje w aplikacji
- Wsparcie językowe – ponad 45 języków w ponad 150 krajach
- Bezpłatne funkcje – kamera i udostępnianie ekranu dla wszystkich użytkowników
Nadchodzące integracje Gemini Live:
- Kalendarz – dodawanie zaproszeń przez wskazanie kamerą
- Mapy – nawigacja i lokalizacja w czasie rzeczywistym
- Keep – zarządzanie notatkami i listami (np. rozpoznawanie pisma ręcznego współlokatorów)
- Tasks – organizacja zadań i przypomnień
- Kompleksowe wsparcie – wszystkie funkcje działające razem dla pełnego doświadczenia
Narzędzia kreatywne napędzane AI
Imagen 4 – Rewolucja w generowaniu obrazów
Nowy model Imagen 4 wprowadza znaczące ulepszenia w jakości obrazów – są bogatsze, z bardziej niuansowymi kolorami i drobnoziarnistymi detalami jak krople wody i cienie. Dramatycznie poprawiono renderowanie tekstu i typografii.
Przykład z demonstracji: plakat festiwalu muzycznego z Chrome Dino jako główną gwiazdą. System nie tylko poprawnie wyrenderował tekst, ale podejmował kreatywne decyzje dotyczące układu, używając kości dinozaura w czcionce.
Szybka wersja Imagen 4 działa 10 razy szybciej od poprzedniego modelu, umożliwiając szybką iterację przez wiele pomysłów.
VO3 – Wideo z natywnym audio
VO3 to przełomowy model generowania wideo z wbudowanym systemem audio:
Główne możliwości:
- Efekty dźwiękowe – automatyczne dostosowanie do sceny
- Dźwięki środowiska – realistyczne odwzorowanie tła (las, ocean, miasto)
- Dialogi postaci – naturalne rozmowy z synchronizacją ruchu ust
- Fotorealistyczne generowanie – jakość porównywalna z prawdziwymi nagraniami
- Rozpoznawanie emocji – przekazywanie nastroju przez ton głosu i mimikę
Przykład z demonstracji: dialog mądrej sowy i nerwowego młodego borsuka w lesie z naturalnymi dźwiękami środowiska i ekspresyjnymi głosami dostosowanymi do charakteru postaci.
Flow – Platforma filmowa dla twórców
Nowe narzędzie Flow łączy możliwości VO, Imagen i Gemini w jednej platformie filmowej zainspirowanej uczuciem „bycia w strefie kreatywnej”. Możliwości obejmują łatwe przesyłanie własnych obrazów lub generowanie na bieżąco przez Imagen, precyzyjną kontrolę kamery z opisami konkretnych ujęć, konsystencję postaci i scen między klipami oraz możliwość rozszerzania klipów w obu kierunkach.
Partnerstwa z branżą filmową
Współpraca z Darren Aronofsky i jego Primordial Soup pokazuje profesjonalne zastosowania VO. Film „Ancestra” w reżyserii Elizy McNitt łączy emocjonalne występy aktorów na żywo z wygenerowanymi przez VO światami mikroskopowymi i kosmicznymi scenami.
Partnerstwo pomogło w rozwoju nowych możliwości dla filmowców: wykorzystywanie składników (postaci, sceny, style) z zachowaniem spójności, precyzyjne instrukcje kamerowe dla konkretnych ścieżek oraz płynne wyrażanie pomysłów twórczych.
Android XR i przyszłość interakcji
Pierwsza platforma z ery Gemini
Android XR to pierwsza platforma Android zbudowana w erze Gemini, obsługująca szeroki spektrum urządzeń XR. Google nie wierzy w „jeden rozmiar dla wszystkich” – różne urządzenia służą różnym celom. Zestawy nagłowne idealnie sprawdzają się do filmów, gier i pracy, podczas gdy lekkie okulary dostarczają informacji w ruchu bez konieczności sięgania po telefon.
Samsung Project Muhan
Pierwszy device Android XR od Samsung oferuje nieskończony ekran do eksploracji aplikacji z Gemini u boku. W Google Maps XR można teleportować się wszędzie na świecie, po prostu prosząc Gemini o przeniesienie. Można rozmawiać z asystentem AI o wszystkim, co się widzi, i kazać mu wyciągnąć filmy i strony internetowe na temat eksplorowanych miejsc.
Samsung’s Project Muhan będzie dostępny do zakupu później w 2025 roku.
Okulary AI dla codziennego użytku
Okulary Android XR są lekkie i zaprojektowane do noszenia przez cały dzień, mimo że są wypakowane technologią. Kamera i mikrofony dają Gemini możliwość widzenia i słyszenia świata. Głośniki pozwalają słuchać AI, odtwarzać muzykę lub prowadzić rozmowy. Opcjonalny wyświetlacz w soczewkach prywatnie pokazuje pomocne informacje dokładnie wtedy, gdy są potrzebne.
Praktyczne zastosowania z demonstracji backstage Google I/O:
Automatyzacja i kontrola:
- Automatyczne wyciszanie powiadomień na żądanie głosowe
- Wysyłanie wiadomości tekstowych bez dotykania telefonu
- Robienie zdjęć i dodawanie do ulubionych przez komendę głosową
Rozpoznawanie i kontekst:
- Identyfikacja zdjęć zespołów na ścianach z historią występów w danym miejscu
- Odtwarzanie muzyki związanej z rozpoznanymi wykonawcami
- Zapamiętywanie detali jak logo kawiarni na kubku z wcześniejszej rozmowy
Nawigacja i planowanie:
- Wyświetlanie tras 3D z instrukcjami heads-up w czasie rzeczywistym
- Umawianie spotkań przez rozpoznawanie głosu i automatyczne wysyłanie zaproszeń
- Sugestie miejsc na podstawie zapamiętanych preferencji użytkownika
Tłumaczenia na żywo:
- Dwukierunkowe tłumaczenie w czasie rzeczywistym (demonstracja: hindi ↔ farsi)
- Wyświetlanie napisów w języku docelowym bezpośrednio w okularach
- Zachowanie naturalności rozmowy mimo bariery językowej
Partnerstwa strategiczne
Google ogłosił kluczowe partnerstwa – Samsung dla rozwoju sprzętu i oprogramowania, Qualcomm dla optymalizacji pod Snapdragon, Gentle Monster dla stylowych oprawek okularów AI oraz Warby Parker dla szerokiego wyboru designów dopasowanych do gustu osobistego.
Setki deweloperów już buduje dla platformy od udostępnienia Android XR Developer Preview.
Zastosowania AI w realnym świecie
FireSat – Ochrona przed pożarami
Konstelacja satelitów FireSat wykorzystuje wielospektralne zdjęcia satelitarne i AI:
Możliwości techniczne:
- Precyzyjna detekcja – pożary wielkości 270 stóp kwadratowych (rozmiar garażu na jeden samochód)
- Drastyczne przyspieszenie – aktualizacje co 20 minut vs obecne 12 godzin
- Pierwszy satelita już na orbicie z planami rozszerzenia konstelacji
- Analiza w czasie rzeczywistym – natychmiastowe alerty dla służb ratunkowych
Wsparcie w sytuacjach kryzysowych
Przykład: Huragan Helene
Wing w partnerstwie z Walmart i Czerwonym Krzyżem zapewnił:
- Dostawy dronami wspierane przez AI do trudno dostępnych obszarów
- Krytyczne produkty – żywność, leki, artykuły pierwszej potrzeby
- Obsługa schroniska YMCA w Północnej Karolinie
- Analiza potrzeb w czasie rzeczywistym dla optymalizacji dostaw
- Skalowalność – aktywne prace nad rozszerzeniem na inne regiony
Przyszłe aplikacje
Konferencja wskazała na aplikacje możliwe w ciągu lat, nie dekad: kolejną generację pomocnych robotów, leczenie najśmiertelniejszych chorób świata, zaawansowane komputery kwantowe z korekcją błędów oraz całkowicie autonomiczne pojazdy.
Nowe plany subskrypcji
Google wprowadził dwa nowe poziomy subskrypcji AI:
Google AI Pro (dostępny globalnie)
- Pełny zestaw produktów AI z wyższymi limitami niż wersja bezpłatna
- Specjalne funkcje niedostępne w podstawowej wersji
- Zawiera poprzedni Gemini Advanced w nowej formule
- Skierowany do regularnych użytkowników AI
Google AI Ultra (USA, wkrótce globalnie)
„VIP pass” dla Google AI przeznaczony dla pionierów:
Dostęp priorytetowy:
- Najwyższe limity wykorzystania wszystkich modeli
- Najwcześniejszy dostęp do nowych funkcji i produktów Google
- Dostęp do 2.5 Pro DeepThink mode przed innymi użytkownikami
- Pełny Flow z VO3 – zaawansowane narzędzia filmowe
Dodatkowe korzyści:
- YouTube Premium w pakiecie
- Masowe przestrzenie dyskowe Google One
- Wsparcie premium i priorytetowa obsługa
Statystyki wzrostu i adopcji
Eksplozja wykorzystania AI
Jak przedstawiono na Google I/O 2025, w tym czasie w zeszłym roku Google przetwarzał 9,7 biliona tokenów miesięcznie w swoich produktach i API. Teraz przetwarzają 480 bilionów tokenów miesięcznie – to około 50-krotny wzrost w ciągu roku. Aplikacja Gemini ma obecnie ponad 400 milionów miesięcznych aktywnych użytkowników. Obserwują silny wzrost i zaangażowanie, szczególnie z modelami 2.5. Dla tych używających 2.5 Pro w aplikacji Gemini, użycie wzrosło o 45%. Google Lens ma ponad 1,5 miliarda użytkowników miesięcznie, wzrost o 65% rok do roku, z ponad 100 miliardami wyszukiwań wizualnych już w tym roku.
Adopcja deweloperska
Jak poinformowano na konferencji, obecnie ponad 7 milionów deweloperów buduje z Gemini API w Google AI Studio i Vertex AI – to ponad 5-krotny wzrost od poprzedniego I/O. Wykorzystanie Gemini na Vertex AI wzrosło ponad 40 razy od zeszłego roku. Na platformie Cursor, wiodącym edytorze kodu AI, Gemini jest najszybciej rosnącym modelem roku, produkującym setki tysięcy linii akceptowanego kodu co minutę.
Osiągnięcia techniczne
Mniejsze, ale znaczące kamienie milowe pokazują postęp AI, jak przedstawiono na konferencji. Kilka tygodni temu Gemini ukończył Pokemon Blue – zdobył wszystkie osiem odznak, przeszedł Victory Road, pokonał Elitę Czterech i Mistrza, przybliżając o krok do osiągnięcia API (Artificial Pokemon Intelligence). Zaktualizowany 2.5 Pro osiągnął pierwsze miejsce na Web Dev Arena. Spośród najlepszych modeli na leaderboard LM Arena, Gemini zajmuje trzy czołowe miejsca pod względem najwyższej liczby tokenów wyjściowych generowanych na sekundę.
Ten wpis jest częścią mojej kolekcji notatek z ciekawych podcastów, webinarów i innych treści, które uważam za wartościowe i do których sam chcę wracać. Jeśli chcesz sprawdzić oryginalne źródło, znajdziesz je tutaj: Google I/O 2025 Keynote
Dodaj komentarz
Musisz się zalogować, aby móc dodać komentarz.