Budowanie AI agentów: Praktyczny przewodnik po tworzeniu autonomicznych systemów #EN52

TL;DR:

  • Prawdziwe AI agenty to autonomiczne systemy, które same decydują jakich narzędzi użyć, a nie tylko wykonują predefiniowane workflow
  • Narzędzia no-code jak n8n pozwalają stworzyć proste agenty bez znajomości programowania, choć są „kapryśne” i wymagają dokładnego konfigurowania parametrów
  • Klucz do skutecznych agentów to dobry prompt engineering, właściwe projektowanie workflow i odpowiednie narzędzia
  • Przykład prostego agenta: asystent zarządzający kalendarzem Google poprzez Telegram, który odczytuje wydarzenia i planuje nowe
  • Bardziej zaawansowane podejścia oparte na kodzie (crewAI, AutoGen) oferują większą elastyczność i niższe koszty
  • Różne architektury agentowe: łańcuchy promptów, routowanie, równoległe wykonywanie, orkiestracja
  • W przypadku agentów ważne jest zachowanie kontroli i testowanie na każdym etapie

Czym naprawdę jest AI agent?

W prezentowanym livestreamie prowadząca Tina zwraca uwagę na częste nieporozumienie związane z AI agentami. Wiele osób nazywa agentami zwykłe przepływy pracy (workflows), które po prostu wyciągają i wprowadzają dane z baz danych. To jest błędne podejście.

Jak wyjaśnia Tina, opierając się na definicji Anthropic: „Agenty to systemy, w których modele LLM dynamicznie kierują własnymi procesami i wykorzystaniem narzędzi, utrzymując kontrolę nad tym, jak wykonują zadanie”. Kluczowa różnica polega na autonomii – prawdziwy agent sam decyduje, których narzędzi użyć i w jakiej kolejności, a nie jest ograniczony predefiniowanym kodem. Jak mówi Tina: „Każdy raz, gdy zwiększasz liczbę agentów, zwiększasz chaos wokół nich. Otwierasz możliwości, ale też odbierasz sobie kontrolę nad tym, co agenty faktycznie robią”.

Praktyczny przykład: Asystent kalendarzowy w n8n

W trakcie livestreama Tina demonstruje budowę prostego agenta przy użyciu narzędzia no-code n8n, który ma dwie główne funkcje:

  • Sprawdzanie wydarzeń w Google Calendar
  • Planowanie nowych wydarzeń

Architektura workflow

Cały proces zaczyna się od triggera w Telegramie, gdzie użytkownik może zarówno pisać jak i wysyłać wiadomości głosowe. System wykorzystuje komponent „switch” do routowania wiadomości – jeśli to tekst, przechodzi bezpośrednio do agenta; jeśli głos, najpierw jest transkrybowany przez OpenAI, a następnie przekazany do agenta.

Tina pokazuje dokładnie, jak działa ten workflow: „Telegram przychodzi tutaj i pobiera informacje z LLM, agenta, a następnie umieszcza je z powrotem w Telegramie jako odpowiedź”.

Konfiguracja narzędzi dla agenta

Co szczególnie wartościowe, Tina pokazuje proces debugowania i konfiguracji narzędzi krok po kroku. W jednym momencie agent próbuje zaplanować wydarzenie, ale tworzy je bez tytułu i o niewłaściwej godzinie, ponieważ narzędzie nie zostało odpowiednio skonfigurowane.

Tina wyjaśnia różnicę między parametrami „fixed” (stałymi) a „expression” (wyrażeniami): „Zamiast placeholder name, nazwiemy to start… To jest wyrażenie. Dzięki temu model będzie mógł wypełnić te dane”. Jest to kluczowa lekcja o tym, jak dać agentowi kontrolę nad parametrami.

System Prompt

Z systemowego prompta, który Tina demonstruje, widzimy szczegółową instrukcję dla agenta:

„Jesteś pomocnym asystentem. Przekażę ci listę rzeczy, które muszę zrobić dziś. Odczytasz moje wydarzenia z Google Calendar, a następnie pomożesz mi priorytetyzować i planować wydarzenia z blokami czasowymi dla tego, co muszę zrobić dzisiaj. Masz dostęp do następujących narzędzi: Create Calendar tool i Read Calendar Event tool. Upewnij się, że ustawiasz czasy rozpoczęcia i zakończenia odpowiednio. Zwróć uwagę na dzisiejszą datę i nie korzystaj z danych z przeszłości ani przyszłych dat.”

Tina podkreśla, jak ważne jest, aby nazwa narzędzia w prompcie dokładnie odpowiadała nazwie skonfigurowanego narzędzia w n8n.

Kluczowe elementy budowania agentów

Na podstawie prezentacji Tiny, wyróżniłbym trzy najważniejsze elementy przy budowaniu skutecznych agentów:

  1. Prompt engineering – Tina wielokrotnie podkreśla jak kluczowe jest odpowiednie instruowanie modelu LLM. „Jeśli będziesz tworzyć agenty, naprawdę musisz nauczyć się, jak tworzyć prompty” – mówi Tina, polecając swój 20-minutowy kurs, który streszcza 9-godzinny kurs prompt engineeringu od Google.
  2. Właściwa architektura – W oparciu o artykuł Anthropic, Tina omawia różne architektury agentowe:
    • Łańcuchy promptów – zadanie rozbijane jest na sekwencję kroków, gdzie „każde wywołanie LLM przetwarza wynik poprzedniego”
    • Routowanie – klasyfikuje dane wejściowe i kieruje je do specjalistycznych zadań, działa jak „agent-menedżer delegujący zadania innym agentom”
    • Równoległe wykonywanie – wiele instancji pracuje jednocześnie, idealne do ewaluacji i oceny różnych aspektów zadania
    • Orkiestracja – dynamiczne rozbijanie zadań, delegowanie i ponowne łączenie wyników
  3. Narzędzia – Agent potrzebuje dostępu do narzędzi, by wykonywać zadania. Tina pokazuje, że n8n oferuje szeroki wybór integracji, w tym Google Calendar, Telegram, bazy danych, a nawet możliwość pisania własnych narzędzi w JavaScript lub Python.

Narzędzia do budowania agentów: No-code vs Code

Tina zwraca uwagę na kompromisy między podejściami opartymi na kodzie i bez kodu:

No-code (n8n):

  • Łatwiejsze dla osób nieznających programowania
  • Wizualny interfejs typu „drag and drop”
  • Droższe (około $20-30 miesięcznie po 14-dniowym okresie próbnym)
  • Ograniczone możliwości, „wciąż dość kapryśne” jak zauważa Tina
  • Potrzeba dokładnego zrozumienia parametrów i konfiguracji

Code-based (crewAI, AutoGen):

  • Wymaga znajomości programowania
  • Większa elastyczność i kontrola
  • Niższe koszty (płacisz tylko za użycie LLM)
  • Możliwość tworzenia bardziej złożonych systemów wieloagentowych
  • Lepsze dla bardziej zaawansowanych systemów

Tina pokazuje, jak w crewAI można tworzyć tzw. „crew” (zespoły) łączące wielu agentów, każdy z własnymi zadaniami i narzędziami: „Zasadniczo tworzysz różne zadania dla różnych agentów i ostatecznie tworzysz crew, gdzie łączysz wszystkich różnych agentów ze wszystkimi ich różnymi zadaniami i narzędziami.”

Dodatkowo, Tina wskazuje na unikalną funkcję crewAI: „Z crewAI możesz mieć zadanie z narzędziami… Masz większą kontrolę nad tym, jakich narzędzi można używać dla zadania. Zamiast mieć nadzieję, że agent wybierze właściwe narzędzie, możesz bardziej to ograniczyć.”

Praktyczne wskazówki z livestreama

Z własnego doświadczenia, najbardziej praktycznymi wskazówkami płynącymi z prezentacji Tiny są:

  1. Zacznij od prostego – Tina radzi: „Naprawdę polecam, gdy zaczniesz budować, spróbuj czegoś super prostego, jak to, na początek.”
  2. Testuj systematycznie – „Za każdym razem, gdy wprowadzasz zmianę, najlepszą praktyką jest ciągłe testowanie tego, co robisz, bo inaczej, gdy coś nie zadziała, nie będziesz wiedzieć dlaczego.” Tina wielokrotnie demonstruje to podejście, testując workflow po każdej zmianie.
  3. Uważaj na pełną autonomię – Tina ostrzega: „Osobiście nie budowałbym agenta, chyba że mam bardzo dobrą infrastrukturę… ponieważ może potencjalnie zrobić wiele naprawdę dziwnych rzeczy.” Podkreśla również, że trzeba „myśleć o zabezpieczeniach… jak infrastrukturze, którą budujesz wokół, aby agent nie robił po prostu tego, co chce, i nie miał nad tym kontroli.”
  4. Zawsze zapisuj swoje workflow – „To przydarzyło mi się tak wiele razy, po prostu je tworzysz, a potem tego nie robisz, bo nie zapisuje automatycznie, nie wiem dlaczego nie zapisuje automatycznie. I wtedy tracisz wszystko.”
  5. Używaj najlepszego narzędzia do zadania – Tina powtarza: „Zawsze staram się użyć najprostszego możliwego rozwiązania, aby coś zrobić.” Wyjaśnia, że nie warto używać agentów do prostych, deterministycznych zadań, które można łatwo wykonać kodem.

Demonstracja zaawansowanego przykładu

Pod koniec livestreama Tina pokazuje również bardziej złożony przykład stworzony przez Ibrahima – asystenta do rozmów rekrutacyjnych, który przeprowadza symulację wywiadu behawioralnego.

Tina zauważa, że ten przykład jest znacznie bardziej złożony: „Ma pamięć, ma bazę danych… i stworzył UI (interfejs użytkownika)”. Asystent prezentuje pytania w formie interfejsu, gdzie użytkownik widzi pytania behawioralne i może na nie odpowiadać, a asystent reaguje odpowiednio na odpowiedzi.

Ten przykład pokazuje, jak zaawansowane mogą być zastosowania agentów – nie tylko odpowiadają na pytania, ale mogą prowadzić złożone, wieloetapowe interakcje i tworzyć pełnoprawne aplikacje.


Mam nadzieję, że ten artykuł dał Ci dobry wgląd w świat AI agentów. Pamiętaj, że wszystkie te informacje pochodzą z livestreama prowadzonego przez Tinę, która dzieliła się swoją wiedzą i przykładami. Jeśli miałeś okazję obejrzeć ten livestream, podziel się w komentarzach swoimi wrażeniami!


Opublikowano

,