Zaktualizowany przewodnik po agentach AI: ewaluacje i inżynieria kontekstu według Tina Huang #EN209

Poniższy artykuł stanowi zbiór notatek z live streamu Tina Huang poświęconego najnowszym trendom w agentach AI. Wszystkie przedstawione obserwacje, spostrzeżenia i rekomendacje pochodzą bezpośrednio od prelegentki.

TL;DR

Podstawowe komponenty agentów AI pozostają stabilne – sześć fundamentalnych elementów (modele, narzędzia, wiedza/pamięć, audio/mowa, zabezpieczenia, orkiestracja) to nadal fundament każdego systemu agentowego
Ewaluacje stanowią brakujący element – systematyczne testowanie przez LLM jako sędzia, testy oparte na regułach i oceny ludzkie umożliwiają mierzenie rzeczywistej wydajności agentów
Pętla inżynieria promptów ↔ ewaluacje – iteracyjne doskonalenie przez testowanie i ulepszanie staje się standardem w produkcyjnych systemach
Inżynieria kontekstu ewoluuje z inżynierii promptów – zamiast prostego komunikowania z AI, fokus przesuwa się na optymalizację całego okna kontekstu
Dwie zasady inżynierii kontekstu: dzielenie pełnego kontekstu między agentami oraz minimalizowanie konfliktujących decyzji w systemach wieloagentowych
Narzędzia dojrzewają szybko – od bezpłatnych rozwiązań kodowych (OpenAI evals) po platformy enterprise (Langsmith, Retool)
Struktura inżynierii kontekstu obejmuje pisanie, selekcję, kompresję i izolację kontekstu

Fundamenty agentów AI – co się nie zmienia

Tina Huang podkreśla stabilność podstawowej struktury agentów AI mimo szybkiego rozwoju całej dziedziny. Analogia „AI Agent Burger” doskonale ilustruje tę koncepcję – podobnie jak burger składa się z podstawowych elementów (bułka, kotlet, warzywa, sosy), tak agent ma sześć kluczowych komponentów.

Modele – silnik inteligencji odpowiedzialny za rozumowanie i podejmowanie decyzji
Narzędzia – możliwości interakcji z zewnętrznymi systemami i API
Wiedza/Pamięć – trwała wiedza i pamięć między sesjami
Audio/Mowa – opcjonalne możliwości głosowe obniżające barierę wejścia
Zabezpieczenia – niezbędne mechanizmy zapewniające bezpieczne działanie
Orkiestracja – wdrożenie, monitoring i doskonalenie w środowisku produkcyjnym

Jednak orkiestracja to szczególnie ważny, często zaniedbywany element. Agenty w produkcji mogą zejść na manowce – przestać działać zgodnie z oczekiwaniami. Dlatego Tina Huang podkreśla, że nie można po prostu wdrożyć agenta i mieć nadzieję na jego poprawne działanie. W rezultacie potrzebne są systemy monitoringu zapewniające ciągłą kontrolę nad zachowaniem agenta.

Inżynieria promptów pozostaje „klejem” łączącym wszystkie komponenty. Mimo to instrukcje te mówią modelowi, jak wykorzystywać dostępne narzędzia, wiedzę i przestrzegać ograniczeń.

Przy budowie nowego agenta warto przemyśleć każdy komponent: jaki rodzaj modelu wybrać, jakie API musi obsługiwać, czy potrzebuje bazy wiedzy lub pamięci między sesjami. Z kolei należy określić, czy wymaga komunikacji głosowej oraz jakie zabezpieczenia i sposób wdrożenia.

Ewaluacje – rewolucja w testowaniu agentów

Tina Huang zauważa, że orkiestracja była najczęściej zaniedbywana przez deweloperów. Wielu skupiało się na modelach, narzędziach i wiedzy, jednak pomijało systematyczne testowanie działania.

Ewaluacje to testy mierzące wydajność agenta AI w konkretnych zadaniach. Prelegentka wyróżnia trzy główne podejścia:

LLM jako sędzia – AI ocenia wyniki innych AI (np. GPT-4 sprawdza odpowiedzi agenta obsługi klienta w skali 1-5)
Oceny oparte na regułach – proste wzorce regex i dopasowywanie słów kluczowych sprawdzają podstawowe kryteria
Oceny ludzkie – manualne sprawdzanie przez recenzentów jako „złoty standard” jakości

Pętla doskonalenia

Tina Huang podkreśla kluczową pętlę inżynieria promptów ↔ ewaluacje. Projektuje się prompty, uruchamia testy, analizuje wyniki i modyfikuje prompty na podstawie informacji zwrotnej. W rezultacie ten cykl zapewnia systematyczne doskonalenie agenta.

Proces wygląda następująco: zaprojektuj początkowy prompt z instrukcjami, następnie uruchom testy na reprezentatywnych przykładach. Przeanalizuj wyniki i zidentyfikuj wzorce błędów, zaktualizuj prompt na podstawie wniosków i powtórz cykl aż do satysfakcjonujących wyników.

Kluczowe jest myślenie o przypadkach brzegowych. Przy pisaniu ewaluacji należy przewidzieć wszystkie możliwe scenariusze i dane wejściowe, jakie agent może napotkać. To właściwie testy jednostkowe dla agentów – jak zauważył jeden z uczestników live streamu, co potwierdziła Tina Huang.

Kiedy używać którego typu ewaluacji

Oceny ludzkie są szczególnie ważne dla aplikacji o wysokiej wrażliwości – przykładowo systemy opieki zdrowotnej przy diagnozach medycznych, gdzie błąd może mieć poważne konsekwencje. Używa się ich także dla bardzo specyficznych, dostosowanych zadań lub gdy dane są zbyt wrażliwe dla ewaluatorów LLM.

Mimo to oceny oparte na regułach i LLM jako sędzia mają często gotowe szablony do pobrania z internetu, więc nie trzeba ich tworzyć od zera.

Narzędzia do ewaluacji – od kodu po no-code

Rewolucja w narzędziach nastąpiła błyskawicznie. Tina Huang podkreśla, że większość platform nie istniała jeszcze 3-4 miesiące temu. OpenAI evals były wtedy słabe, Langsmith w ogóle nie istniał, jednak Retool nie miał swojej platformy ewaluacyjnej, a N8N także nie oferował takich możliwości.

OpenAI evals – struktura open-source z gotowymi testami do pobrania (darmowy)
Langsmith – kompleksowa platforma z wizualizacjami i możliwościami śledzenia dla środowisk produkcyjnych
Retool – rozwiązanie low-code dla zespołów biznesowych (€46/miesiąc)
N8N – ewaluacje no-code przez proste arkusze kalkulacyjne

Prelegentka zauważa, że rozwiązania kodowe są zawsze tańsze lub darmowe, podczas gdy platformy no-code/low-code wymagają opłat za wygodny interfejs.

Kombinowanie różnych typów ewaluacji

Tina Huang podkreśla, że często używa się kombinacji różnych ewaluacji. Można uruchomić 10 testów LLM jako sędzia, 50 testów opartych na regułach i kilka ocen ludzkich. W przypadku LLM jako sędzia można zastosować system głosowania – używać różnych modeli (GPT-4, Claude) z różnymi promptami, gdzie większość decyduje o wyniku końcowym.

Dlatego wybór narzędzia zależy od budżetu, umiejętności technicznych zespołu, złożoności testów. Z kolei środowisko (prototyp vs produkcja), potrzeby integracyjne i skala planowanych testów również mają znaczenie.

Inżynieria kontekstu – ewolucja inżynierii promptów

Trend zapoczątkowany przez Toby’ego Lütke (CEO Shopify) i Andreja Karpathy’ego wprowadza inżynierię kontekstu jako ewolucję inżynierii promptów. Zamiast prostego komunikowania z AI, fokus przesuwa się na optymalizację całego okna kontekstu.

Okno kontekstu to „pamięć robocza” lub „RAM” modelu językowego. Andre Karpathy porównuje LLMs do CPU, a okno kontekstu do RAM – to doskonała analogia dla zrozumienia mechanizmu działania.

Wszystko co otrzymuje – instrukcje, obrazy, bazy danych, narzędzia – musi zmieścić się w tym oknie. Tina Huang tłumaczy zasadę „śmieci na wejściu, śmieci na wyjściu” – złej jakości kontekst daje złe wyniki.

Problem przepełnienia kontekstu pojawia się szczególnie w długich łańcuchach procesów, gdzie każdy krok dodaje więcej informacji do okna roboczego modelu.

Dwie fundamentalne zasady

Pierwsza zasada: dzielenie kontekstu i pełnych śladów agenta. W systemach wieloagentowych każdy komponent powinien mieć dostęp do pełnej historii konwersacji, nie tylko pojedynczych wiadomości.

Przykład Flappy Bird ilustruje problem. Agent dzieli zadanie na dwa podzadania: tło z rurami i ptaka. Jeśli podagent budujący tło źle zinterpretuje zadanie i stworzy tło Mario Kart, główny agent nie będzie wiedział jak połączyć elementy.

Druga zasada: działania niosą ukryte decyzje, konfliktujące decyzje dają złe wyniki. Nawet przy pełnym kontekście podagenci mogą wybrać różne style wizualne, co utrudni integrację.

Rozwiązania praktyczne

Tina Huang, powołując się na analizę firmy Cognition, proponuje upraszczanie systemów wieloagentowych. Zamiast przetwarzania równoległego lepsze jest podejście liniowe – każdy agent otrzymuje rezultaty poprzedniego.

Kompresja kontekstu to dodatkowe rozwiązanie. Jednak specjalny agent kompresuje i podsumowuje kontekst podczas przepływu liniowego, zapobiegając przepełnieniu okna kontekstu.

Struktura inżynierii kontekstu

Tina Huang przedstawia cztery kategorie manipulacji kontekstem:

Pisanie kontekstu – długoterminowa pamięć, notatnik tymczasowy, stany
Selekcja kontekstu – pobieranie z notatnika, pamięci długoterminowej, odpowiednich narzędzi
Kompresja kontekstu – podsumowywanie dla zachowania istotnych tokenów lub przycinanie nieistotnych fragmentów
Izolacja kontekstu – podział na różne stany, środowiska i systemy wieloagentowe

Przy każdej kategorii warto zadać praktyczne pytania. Pisanie: co agent musi zapamiętać długoterminowo? Selekcja: które informacje są istotne dla bieżącego zadania? Kompresja: co można skrócić bez utraty sensu? Mimo to izolacja: które procesy można rozdzielić?

Lista kontrolna zasad inżynierii kontekstu

☐ Pełny kontekst – czy każdy agent ma dostęp do kompletnej historii zadania?
☐ Wspólne cele – czy wszystkie podagenci rozumieją główny cel projektu?
☐ Spójność decyzji – czy zminimalizowałeś niezależne wybory stylów/podejść?
☐ Przepływ liniowy – czy możesz zastąpić przetwarzanie równoległe sekwencyjnym?
☐ Kompresja kontekstu – czy długie łańcuchy wymagają podsumowania?
☐ Izolacja konfliktów – czy rozdzieliłeś sprzeczne obszary decyzyjne?

Inżynieria kontekstu vs podstawy agentów AI

Tina Huang podkreśla, że inżynieria kontekstu to nie nowa, magiczna koncepcja. To ewolucja inżynierii promptów optymalizująca wszystkie sześć komponentów agentów AI. W rezultacie nowe terminy i trendy łatwo zrozumieć przez pryzmat podstawowej struktury.

Inżynieria kontekstu ma znaczenie głównie na poziomie systemów i aplikacji, nie pojedynczych chatów. Dlatego dla prostych interakcji inżynieria promptów pozostaje wystarczająca.

Kierunki rozwoju i praktyczne wnioski

Według Tina Huang fundamentalne koncepcje agentów AI pozostaną stabilne. Zmiany dotyczą głównie narzędzi w poszczególnych kategoriach i technik inżynierii promptów.

Model Control Protocol (MCP) – standardyzacja połączeń

Na pytanie o serwer MCP, Tina Huang wyjaśnia, że MCP to protokół ułatwiający łączenie agentów z różnymi narzędziami i bazami wiedzy. Wcześniej każde API wymagało odmiennej integracji, co było ogromnym problemem.

MCP standardyzuje te połączenia – jak analogia z plugami USB-C. Zamiast różnych wtyczek wymagających konwerterów, wszyscy używają tego samego standardu. MCP dotyczy głównie kategorii Narzędzia oraz Wiedza/Pamięć z sześciu komponentów agentów AI.

Każda nowa technologia czy trend da się umieścić w ramach sześciu komponentów lub inżynierii promptów. To uniwersalna struktura do rozumienia innowacji w dziedzinie agentów AI.

Mimo to rozwój idzie w kierunku bardziej zaawansowanych systemów ewaluacji i sofistykowanego zarządzania kontekstem. Narzędzia będą bardziej dostępne, jednak podstawowe zasady projektowania agentów pozostaną niezmienne.

Praktyczne prompty z prezentacji

Tina Huang skupiła się głównie na strukturach i zasadach, jednak podała kilka konkretnych przykładów promptów:

Prompt do oceny faktów (LLM jako sędzia)

Porównujesz przedstawioną odpowiedź z odpowiedzią eksperta na dane pytanie.

Początek danych:
Pytanie: [PYTANIE]
Ekspert: [ODPOWIEDŹ EKSPERTA] 
Zgłoszenie: [ODPOWIEDŹ DO OCENY]
Koniec danych

Porównuję faktyczną treść przedstawionej odpowiedzi z odpowiedzią eksperta. Ignoruj różnice w stylu, gramatyce lub interpunkcji. Przedstawiona odpowiedź może być podzbiorem lub nadzbiorem odpowiedzi eksperta.

Kiedy stosować: Do systematycznej oceny faktycznej poprawności odpowiedzi agenta w porównaniu z wzorcową odpowiedzią eksperta. Idealny dla agentów opartych na wiedzy.

Prompt do oceny humoru

System: Czy twoja ostatnia odpowiedź powyżej dla użytkownika była zabawna?

Kiedy stosować: Do testowania czy agent potrafi generować odpowiedni humor w kontekście lub czy rozpoznaje humorystyczne sytuacje.

Uwaga: Tina Huang koncentrowała się bardziej na fundamentalnych zasadach i strukturach niż na konkretnych promptach. Podkreślała, że wiele gotowych promptów ewaluacyjnych można pobrać bezpłatnie z repozytorium OpenAI evals i innych źródeł.

Kluczowe spostrzeżenie

Wolniej znaczy lepiej

Standardowo myślimy: Więcej agentów działających równolegle = szybszy i lepszy rezultat. Systemy wieloagentowe powinny dzielić zadania i wykonywać je jednocześnie dla maksymalnej wydajności.

W praktyce okazuje się, że: Przepływ liniowy (agent po agencie) daje lepsze rezultaty niż przetwarzanie równoległe, mimo że trwa dłużej. Podagenci działający niezależnie podejmują konfliktujące decyzje, które główny agent nie potrafi później pogodzić.

Dlaczego to jest istotne: Ten paradoks kwestionuje podstawowe założenie branży AI o superiorności systemów równoległych. W rezultacie prostota i sekwencyjność często przeważają nad złożonością i szybkością.

Test na jutro: Następnym razem gdy projektujesz system wieloagentowy, zamiast dzielić zadania równolegle spróbuj przepływ liniowy gdzie każdy agent otrzymuje pełne rezultaty poprzedniego i sprawdź jakość końcowego wyniku.

Ten wpis stanowi część mojej kolekcji notatek z ciekawych podcastów, webinarów i innych treści, które uważam za wartościowe i do których sam chcę wracać. Materiał pochodzi z live streamu Tina Huang poświęconego aktualizacji przewodnika po agentach AI. Oryginalne nagranie dostępne jest tutaj: https://www.youtube.com/watch?v=gspjFSFK49k