Agentic AI – ewolucja wykorzystania modeli językowych #EN136

TL;DR

Agentic AI łączy rozumowanie z działaniem – modele mogą iteracyjnie planować, wykonywać akcje i uczyć się z obserwacji środowiska
Retrieval Augmented Generation (RAG) rozwiązuje kluczowe ograniczenia – hallucynacje, knowledge cutoff i brak dostępu do danych firmowych
Cztery główne wzorce projektowe: planning, reflection, tool usage i multi-agent collaboration
Reflection pattern znacząco poprawia wyniki – model krytykuje własne odpowiedzi przed finalną wersją
Multi-agent systems dzielą złożone zadania – różne agenty specjalizują się w konkretnych obszarach
Praktyczne zastosowania obejmują software development, research, customer support i automatyzację zadań
Evaluation wymaga nowego podejścia – agent-based evaluation zamiast prostego „LLM as judge”

Ewolucja od prostych modeli do inteligentnych agentów

Tradycyjne wykorzystanie modeli językowych opiera się na prostym schemacie: tekst wejściowy generuje tekst wyjściowy. Jak wyjaśnia Insop w prezentacji Stanford, agentic AI reprezentuje kolejny etap ewolucji tej technologii.

Modele językowe przechodzą dwuetapowy proces treningu. Pre-training wykorzystuje ogromne korpusy tekstów z internetu i książek. Post-training dodaje instruction following i reinforcement learning z ludzkim feedbackiem. Ten proces sprawia, że modele stają się użyteczne w praktycznych zastosowaniach.

Ograniczenia tradycyjnych modeli i ich rozwiązania

Główne wyzwania obecnych systemów

Według Insop, modele językowe borykają się z kilkoma fundamentalnymi problemami:

Hallucynacje – generowanie nieprawdziwych informacji, szczególnie w obliczeniach
Knowledge cutoff – brak dostępu do najnowszych informacji
Brak atrybucji źródeł – trudność w weryfikacji odpowiedzi
Ograniczona długość kontekstu – wpływa na koszty operacyjne i szybkość
Brak dostępu do danych firmowych – modele trenowane tylko na publicznych źródłach

Retrieval Augmented Generation jako rozwiązanie

RAG adresuje większość wymienionych problemów. Jak opisuje prelegent, system indeksuje własne dokumenty, konwertuje je na embeddingi i przechowuje w bazie wektorowej.

Proces wygląda następująco: query użytkownika przekształcany jest na embedding. Następnie system wyszukuje najbardziej relevantne fragmenty tekstu. Znalezione informacje włączane są do promptu jako referencje, podczas gdy model generuje odpowiedź wyłącznie na podstawie dostarczonych źródeł.

Ten mechanizm redukuje hallucynacje, zapewnia atrybucję i umożliwia wykorzystanie prywatnych danych firmowych.

Alternatywne metody RAG

Jak zauważa Insop, istnieje wiele metod retrieval augmented generation (wzbogacanie generacji przez wyszukiwanie). Najbardziej popularną jest embedding-based search, jednak prelegent wspomina również o RAG opartym na grafach wiedzy. Jeśli można wygenerować graf wiedzy z tekstów źródłowych, może to pomóc w ekstrakcji bardziej relevantnych informacji niż tradycyjne wyszukiwanie wektorowe.

Tool usage – rozszerzenie możliwości modeli

Function calling umożliwia modelom wykonywanie akcji w świecie zewnętrznym. Insop ilustruje to przykładem chatbota pogodowego:

Użytkownik pyta: „Jaka jest pogoda w San Francisco?” Model generuje wywołanie funkcji: getWeather("San Francisco")
System wykonuje API call do serwisu pogodowego Wynik wraca do modelu, który formatuje odpowiedź dla użytkownika

Dodatkowo modele mogą również generować kod Pythona wykonywany w sandboxie. Dzięki temu otwierają się możliwości złożonych obliczeń i analizy danych.

Kierowanie promptów – inteligentne zarządzanie zapytaniami

Insop przedstawia dodatkową optymalizację znaną jako system kierowania promptów. Zamiast przetwarzać każdy input tym samym promptem, system może wykrywać intencję użytkownika i kierować zapytanie do odpowiedniego handlera. To rozwiązanie pomaga w redukcji kosztów operacyjnych oraz generowaniu bardziej trafnych odpowiedzi przez dopasowanie prostych promptów z prostszymi modelami do określonych typów zapytań.

Agentic AI – definicja i kluczowe koncepty

Reasoning + Action (ReAct)

Agentic language models łączą zdolność rozumowania z wykonywaniem akcji. Jak tłumaczy Insop, zamiast prostego input-output, systemy te działają w czterech kluczowych obszarach:

Planowanie – analizują zadanie i tworzą plan działania
Wykonywanie akcji – wykorzystują narzędzia zewnętrzne i API calls
Obserwacja środowiska – gromadzą feedback z wykonanych działań
Iteracyjne doskonalenie – adaptują podejście na podstawie wyników

Praktyczny przykład – customer support

Prelegent przedstawia konkretny scenariusz agenta obsługi klienta. Przykładowe pytanie brzmi: „Czy mogę otrzymać zwrot za produkt X?” Agent dzieli to zadanie na etapy. Sprawdza politykę zwrotów przez RAG z dokumentów firmowych, weryfikuje informacje o kliencie w systemie, analizuje szczegóły produktu przez API call i podejmuje decyzję na podstawie zebranych danych.

Każdy krok wykorzystuje różne narzędzia i API. System gromadzi kontekst w pamięci dla spójności całego procesu.

Dlaczego agentic AI działa lepiej?

Insop wyjaśnia fundamentalną różnicę w skuteczności. Używając tego samego modelu, bezpośrednie zapytanie może nie zostać obsłużone prawidłowo. Jednak umieszczenie zadania w formacie agentic sprawia, że model radzi sobie z znacznie bardziej złożonymi wyzwaniami. To właśnie dlatego agentic language models stają się coraz szerzej wykorzystywane – pushują granice tego, co możliwe z AI w różnych domenach.

Wzorce projektowe agentic AI

Planning – planowanie jako fundament

Planowanie stanowi kluczowy element systemów agentic. Zamiast rozwiązywać zadania bezpośrednio, model najpierw je dekonstruuje. Insop podkreśla, że breaking down complex tasks na prostsze komponenty dramatycznie poprawia wyniki.

Reflection – moc auto-krytyki

Reflection pattern polega na wykorzystaniu modelu do krytyki własnych odpowiedzi. Prelegent demonstruje to na przykładzie refaktoryzacji kodu:

Pierwszy prompt: „Oto kod – sprawdź go i dostarcz konstruktywny feedback”
Drugi prompt: „Oto kod i feedback – zrefaktoryzuj kod uwzględniając uwagi”

Ta metoda konsystentnie generuje lepsze rezultaty niż bezpośrednie żądanie poprawek.

Tool usage w praktyce

Modele generują API patterns umożliwiające rzeczywiste wywołania funkcji. Jeśli zadanie wymaga obliczeń, model może również generować kod programu uruchamiany w bezpiecznym sandbox environment z przekazaniem wyników execution z powrotem do modelu.

Multi-agent collaboration

Systemy wieloagentowe dzielą złożone zadania między wyspecjalizowane komponenty. Insop opisuje przykład automatyzacji smart home z następującymi agentami:

Climate control agent – zarządza temperaturą i wentylacją
Lighting control agent – kontroluje oświetlenie i atmosferę
Security agent – monitoruje bezpieczeństwo i dostęp
Coordinator agent – synchronizuje działania między systemami

Każdy agent używa tego samego modelu z różnymi promptami (personami) lub całkowicie różne modele w zależności od specjalizacji.

Aplikacje w świecie rzeczywistym

Software development

Agenci programistyczni analizują bugs, przeszukują kod i proponują poprawki. Insop szczegółowo opisuje workflow takiego systemu. Agent najpierw przegląda issue, następnie zbiera relevant code files i analizuje dependencies. Potem proponuje rozwiązanie i testuje je w sandbox environment. System iteracyjnie doskonali fix na podstawie wyników testów i ostatecznie przygotowuje pull request dla developerów.

Research i analiza

Systemy agentic wykonują kompleksowe badania poprzez web search z różnych źródeł, iteracyjne pogłębianie wiedzy, weryfikację faktów z wieloma źródłami i syntetyzowanie wyników w spójne raporty.

Task automation

Automatyzacja procesów biznesowych wykorzystuje agentic patterns do obsługi workflow wymagających decyzji kontekstowych i adaptacji do zmiennych warunków.

Evaluation i praktyczne wskazówki

Nowe podejścia do oceny systemów

Tradycyjne podejście „model językowy jako sędzia” może nie wystarczać dla systemów agentic. Insop rekomenduje ewaluację opartą na agentach z wzorcami refleksji w trzech krokach:

Pierwsza ocena – prompt „junior engineer” analizuje output
Druga ocena – prompt „senior engineer” weryfikuje pierwszą ocenę
Final synthesis – porównanie i synteza końcowej oceny

Ten approach daje znacznie lepsze rezultaty niż single-shot evaluation.

Automatyczna ewaluacja jako kluczowy element

Insop podkreśla krytyczne znaczenie automatycznej ewaluacji od wczesnych etapów rozwoju. Należy przygotować pary pytanie-odpowiedź jako wzorzec odniesienia, aby porównywać je z generowanymi wynikami. Można używać ludzi do ewaluacji, jednak jest to kosztowne i czasochłonne. Dlatego model językowy jako sędzia staje się popularnym rozwiązaniem.

Ewaluacja jest szczególnie ważna, ponieważ modele językowe szybko się rozwijają i stają się przestarzałe. Bez jasnej metodologii ewaluacji trudno jest robić postępy lub zmieniać modele. Jak zauważa prelegent, szybki rozwój oznacza również szybkie starzenie się technologii – organizacje mogą być zmuszone do zmiany modeli używanych w aplikacjach, a dobra ewaluacja pomaga w takich przejściach.

Checklista implementacji agentic AI

Przygotowanie projektu

□ Przetestuj model w playground przed pisaniem kodu
□ Zacznij od prostych API calls, nie od frameworków
□ Zdefiniuj jasne metryki sukcesu dla Twojego przypadku użycia
□ Przygotuj dataset do evaluation od początku projektu

Best practices promptowania (według Stanford)

□ Pisz jasne, szczegółowe instrukcje – zamiast „podsumuj”, napisz „stwórz 3-punktowe podsumowanie skupiające się na wpływie biznesowym”
□ Dodaj few-shot examples – pokaż pary input-output w pożądanym stylu
□ Dostarcz relevant context – „odpowiadaj tylko na podstawie dostarczonego artykułu, jeśli nie znajdziesz odpowiedzi, napisz 'nie mogę znaleźć odpowiedzi'”
□ Włącz chain of thought – „najpierw wypracuj własne rozwiązanie, potem porównaj je z rozwiązaniem studenta”
□ Rozbij złożone zadania – wykonuj sekwencyjnie: analizuj → planuj → wykonaj → sprawdź

Wzorce projektowe do zastosowania

□ Planning – czy zadanie wymaga dekompozycji na kroki?
□ Reflection – czy model może skrytykować własną odpowiedź?
□ Tool usage – czy potrzebujesz danych w czasie rzeczywistym lub obliczeń?
□ Multi-agent – czy zadanie ma wyraźnie oddzielne komponenty?

Bezpieczeństwo i jakość

□ Implementuj guardrails na dwóch poziomach – filtrowanie inputu i weryfikacja wyników
□ Użyj małych modeli językowych – szybka weryfikacja treści przez klasyfikatory
□ Dodaj filtrowanie kryterialne – automatyczne sprawdzanie quality gates
□ Filtrowanie po stronie dostawcy – większość dostawców już sprawdza wyniki w różnych kategoriach
□ Zapewnij logging i tracing dla debugging

Optymalizacja kosztów i wydajności

□ Balansuj długość kontekstu – dłuższy kontekst = więcej informacji, ale wyższe koszty i opóźnienia
□ Kierowanie promptów – kieruj proste zapytania do prostszych (tańszych) modeli
□ Rozważ trade-offy – koszt operacyjny vs. szybkość vs. jakość generacji tekstu

Fine-tuning i dane syntetyczne (jeśli potrzebne)

□ Zacznij od małej próbki – kilkadziesiąt sampli danych typu instrukcja-odpowiedź
□ Testuj iteracyjnie – sprawdź czy model zachowuje się zgodnie z oczekiwaniami
□ Użyj LLM do augmentacji – generuj więcej danych syntetycznych jeśli potrzebujesz
□ Format pytanie-odpowiedź – przygotuj dane w standardowym formacie instrukcji

Kiedy używać agentic AI

Zacznij od prostego modelu, jeśli zadanie ma jasny input-output, nie potrzebujesz zewnętrznych narzędzi i jedna interakcja wystarcza.

Rozważ agentic approach, jeśli zadanie wymaga wieloetapowego planowania, potrzebujesz danych w czasie rzeczywistym lub API calls, wymagana jest iteracyjna analiza i poprawa, lub zadanie ma komponenty wymagające różnych specjalizacji.

Przyszłość agentic AI

Jak zauważa Insop, agentic language models umożliwiają rozwiązywanie zadań, które wcześniej przekraczały możliwości pojedynczych wywołań modeli. Nawet te same modele osiągają lepsze wyniki w formacie agentic.

Prelegent zaleca rozpoczęcie od prostych przypadków użycia. Start simple, experiment, iterate – podstawowa zasada rozwoju systemów agentic. Obszary największego potencjału obejmują automatyzację procesów biznesowych, advanced research i personalizowane AI assistants zdolne do długoterminowego planowania.

Staying up to date w szybko zmieniającym się świecie AI

Insop przyznaje, że śledzenie postępów w tej dziedzinie jest wyzwaniem, ale rekomenduje praktyczne podejście. Warto znaleźć ekspertów w tej dziedzinie i śledzić ich na platformach takich jak Twitter czy YouTube. Od tego można zacząć własne researche i eksploracje.

Prelegent wspomina również o dostępnych kursach i materiałach edukacyjnych, w tym oferowanych przez Stanford, które mogą stanowić dobry punkt startowy dla osób chcących pogłębić wiedzę o agentic AI i praktycznych zastosowaniach.

Kluczowy insight

Format odblokowuje możliwości

Standardowo myślimy: Jeśli model nie radzi sobie z zadaniem, trzeba użyć mocniejszego/droższego modelu.

W praktyce okazuje się, że: Ten sam model w formacie agentic potrafi rozwiązać zadania, z którymi nie radził sobie w prostym input-output. Jak wyjaśnia Insop – „używając tego samego modelu, bezpośrednie zapytanie może nie zostać obsłużone prawidłowo, jednak umieszczenie zadania w formacie agentic sprawia, że model radzi sobie z znacznie bardziej złożonymi wyzwaniami.”

Dlaczego to jest istotne: Zamiast płacić więcej za mocniejszy model, możesz odblokować ukryte możliwości tego, który już masz. Format staje się ważniejszy niż raw power modelu.

Test na jutro: Następnym razem gdy model zawiedzie przy złożonym zadaniu, zamiast szukać lepszego modelu spróbuj podzielić zadanie na kroki z reflection patterns i sprawdź jak dramatycznie poprawią się wyniki.

Ten wpis jest częścią mojej kolekcji notatek z ciekawych podcastów, webinarów i innych treści, które uważam za wartościowe i do których sam chcę wracać. Jeśli chcesz sprawdzić oryginalne źródło, znajdziesz je tutaj: Stanford Webinar – Agentic AI: A Progression of Language Model Usage