Inspect AI - Framework do ewaluacji LLM używany przez Anthropic, DeepMind i Grok #EN174

Ten artykuł przedstawia notatki z prezentacji JJ Allaire, twórcy Inspect AI i założyciela RStudio (obecnie Posit). Wszystkie opisane przemyślenia, obserwacje i wnioski pochodzą od prelegenta.

TL;DR

Inspect AI to najbardziej zaawansowany open-source framework do ewaluacji modeli językowych, stworzony przez JJ Allaire w UK AI Security Institute
Framework używają największe organizacje AI – Anthropic, DeepMind, Grok oraz instytucje akademickie do tysięcy ewaluacji dziennie
Agent Bridge umożliwia testowanie systemów produkcyjnych bez modyfikacji kodu – przełomowe podejście do integracji
70 gotowych benchmarków dostępnych od zaraz, od GPQA po cybersecurity challenges
System obsługuje równoległe uruchamianie 50+ ewaluacji z pełną obserowalnością na poziomie produkcyjnym
Zaawansowane narzędzia programistyczne – wtyczka VS Code, wizualizacje, szczegółowe logowanie i sandboxing
Elastyczna architektura – od prostych składanych ewaluacji po niestandardowe skrypty Python

Od RStudio do rewolucji w ewaluacji AI

JJ Allaire, twórca znanego głównie z ekosystemu R i założyciel RStudio (obecnie Posit), podjął się zupełnie nowego wyzwania. Po latach budowania narzędzi dla data science dołączył do UK AI Security Institute. Ta organizacja przeprowadza tysiące ewaluacji modeli AI, prawdopodobnie więcej niż jakakolwiek inna instytucja na świecie.

Wyzwanie było ogromne – 20 osób pisało ewaluacje cały dzień. W rezultacie potrzebowali systemu, który wytrzyma obciążenia na poziomie produkcyjnym. Allaire zdecydował się stworzyć framework łączący doskonałe doświadczenie badawcze z niezawodnością produkcyjną.

Efektem jest Inspect AI – framework Python o otwartym kodzie źródłowym, udostępniony w maju ubiegłego roku. Adopcja przerosła najśmielsze oczekiwania.

Dlaczego Inspect AI wyróżnia się na rynku

Według Allaire większość narzędzi do ewaluacji koncentruje się na prostocie użycia. Inspect AI poszedł jednak inną drogą – maksymalna elastyczność przy zachowaniu możliwości na poziomie produkcyjnym.

Framework obsługuje dwa główne podejścia. Pierwsze to składanie gotowych komponentów jak klocki („snap together evals”). Drugie zapewnia pełną kontrolę przez niestandardowe skrypty Python.

Allaire podkreśla kluczową różnicę: „To bardzo zaawansowana platforma ewaluacyjna. Wszystko programuje się w Pythonie. Jest ekstremalnie elastyczna.”

Ważne zastrzeżenie: Inspect AI celowo koncentruje się wyłącznie na ewaluacji, nie na produkcji. Jak wyjaśnia Allaire: „Moi klienci robią tylko ewaluacje. To wszystko co robią – laboratoria i organizacje zajmujące się bezpieczeństwem.”

System zaprojektowano z myślą o organizacjach uruchamiających tysiące ewaluacji dziennie. Stąd nacisk na równoległość, obserwowalność i solidną architekturę.

Architektura – datasets, solvers i scorers

Allaire wyjaśnia, że każda ewaluacja składa się z trzech podstawowych elementów:

Dataset zawiera dane wejściowe oraz prawdę podstawową lub wytyczne dla oceny. Solver to serce systemu – wykonuje operacje mające na celu wydobycie najlepszej odpowiedzi z modelu. Z kolei Scorer ocenia ostateczny wynik według zdefiniowanych kryteriów.

Solvers oferują największą elastyczność. Mogą implementować rozumowanie łańcuchowe, samokrytykę, rusztowania agentów czy użycie narzędzi. Przykład prostego solvera:

prompt → rozumowanie łańcuchowe → generowanie → samokrytyka → ostateczna odpowiedź

Każdy element można dostosować przez własne szablony i prompty. W rezultacie framework nadaje się do szerokiego spektrum zastosowań – od prostych pytań i odpowiedzi oraz wyboru wielokrotnego, przez rozumowanie łańcuchowe, aż po zaawansowane wieloagentowe przepływy pracy z niestandardową logiką.

Punktacja wykracza daleko poza proste porównywanie ciągów znaków:

Ocenianie przez model z niestandardowymi szablonami promptów
Głosowanie między wieloma modelami dla zwiększenia niezawodności
Niestandardowa logika dla równań matematycznych (sprawdzanie równoważności)
Walidacja schematów JSON i złożone systemy punktacji

Agent Bridge – rewolucja w testowaniu produkcyjnych systemów

Allaire przedstawił rozwiązanie mogące zmienić sposób testowania systemów AI w produkcji. Agent Bridge umożliwia ewaluację istniejących agentów bez modyfikacji kodu.

Mechanizm działa przez podmienianie API OpenAI. Agent wywołuje standardowe wywołania API, jednak Inspect przechwytuje te interakcje. W ten sposób można testować agentów LangChain, niestandardowe potoki czy inne systemy – bez zmiany ani linijki kodu.

Jak wyjaśnia Allaire: „Agent Bridge to sposób na podłączenie agenta, który nic nie wie o Inspect. To po prostu wiadomości na wejściu, wiadomości na wyjściu.”

To przełomowe podejście oznacza, że zespoły mogą:

Testować kod produkcyjny bezpośrednio bez modyfikacji
Zachować pełną obserwowalność i analitykę Inspect
Używać wszystkich możliwości punktacji na istniejących systemach
Uruchamiać ewaluacje wsadowe na potokach produkcyjnych

Ekosystem narzędzi i doświadczenie programistów

Allaire, znany z dbałości o doświadczenie programistów, nie zawiódł. W rezultacie Inspect AI oferuje najbogatszy ekosystem narzędzi w branży.

Wtyczka VS Code zapewnia magiczne doświadczenie. Programiści mogą uruchamiać ewaluacje, przeglądać logi, analizować wyniki i nawigować przez transkrypty wiadomości – wszystko w edytorze.

Inspect View to system obserwowalności pokazujący każdą próbkę, co się wydarzyło, transkrypty wiadomości i wszystkie wywołania API modeli. Narzędzie można uruchomić jako samodzielną stronę internetową i opublikować na GitHub Pages.

Wyzwania z przeglądaniem stron: Allaire wspomina o rosnących problemach z wykrywaniem botów. Pierwotnie narzędzie przeglądarki internetowej było unikalne i działało świetnie (udostępnione przez DeepMind), jednak ostatnio: „coraz więcej stron mówi: nie możesz ze mną rozmawiać, bo widzę, że jesteś w przeglądarce bez interfejsu”. Dlatego przyszłość leży w wbudowanych interfejsach API wyszukiwania internetowego (Anthropic, OpenAI, Gemini) lub płatnych usługach jak Tavily i Exa.

Sandboxing rozwiązuje problem bezpieczeństwa. Model może generować kod Python czy polecenia bash, jednak wykonują się w izolowanym środowisku – kontenery Docker, pody Kubernetes lub niestandardowe więzienia.

System obsługuje równoległą wykonywanie do 50 ewaluacji jednocześnie. Allaire zauważa: „Próbujemy być tak skalowalny, jak to możliwe, choć ostatecznie trzeba przejść na Kubernetes.”

Adopcja w największych organizacjach AI

Sukces Inspect AI w branży jest bezprecedensowy. Anthropic, DeepMind i Grok używają frameworka wewnętrznie. Mimo to organizacje jak Epoch, Meter, Apollo – wszystkie uznane nazwy w społeczności badań AI – również go adoptowały.

Allaire podkreśla znaczenie tego momentum: „Jako rezultat dostajemy ogromne informacje zwrotne i możemy bardzo szybko ulepszać system.”

Framework dostarcza 70 gotowych implementacji benchmarków. Od GPQA Diamond (benchmark raportowany przez dostawców modeli) po cybersecurity capture-the-flag challenges.

Interesujący kontekst o GPQA: Allaire zauważa, że benchmark się nasyca – „prawdopodobnie osiąga 85-90% na większości najnowocześniejszych modeli. Ale dwa lata temu było 50% i wszyscy pytali: jak radzimy sobie na GPQA?”

Każdy benchmark można uruchomić jedną komendą:

pip install inspect-evals
inspect eval gpqa_diamond

To rozwiązuje ogromny problem reprodukowalności. Wcześniej implementacja standardowego benchmarka mogła zająć całe dni. Teraz to jednak kwestia sekund.

Wyspecjalizowane solvery: UK AI Security Institute zbudował również solvery do łamania zabezpieczeń. Jak wyjaśnia Allaire: „W przypadku próby ustalenia, co model może wiedzieć o niebezpiecznej domenie, przydatne są metody łamania zabezpieczeń.” Te solvery używają inżynierii promptów aby ominąć początkowe zabezpieczenia modelu.

Skuteczność łamania zabezpieczeń: Na pytanie czy łamanie zabezpieczeń poprawia wydajność w użytecznych umiejętnościach, Allaire odpowiada jednoznacznie: „Nie”. Metody te działają głównie w kontekście „odmawia/nie odmawia”, jednak nie poprawiają rzeczywistych umiejętności modelu.

Praktyczne zastosowania i rozpoczęcie pracy

Allaire dostrzega, że framework może początkowo przytłaczać swoją funkcjonalnością. Dlatego radzi postupowe podejście – zacząć od prostych interfejsów wysokiego poziomu, potem postupowo zagłębiać się w dostosowywanie.

Dla prostych ewaluacji wystarczy kilka linijek:

@task
def gpqa_diamond():
    return Task(
        dataset=example_dataset("gpqa_diamond"),
        plan=multiple_choice(),
        scorer=choice()
    )

Zaawansowane przypadki użycia obejmują:

Wieloagentowe przepływy pracy z użyciem narzędzi i orkiestrację kilku agentów
Niestandardowe funkcje punktacji dla metryk specyficznych dla domeny
Integrację z potokami produkcyjnymi przez Agent Bridge
Eksperymenty wsadowe ze śledzeniem hiperparametrów i testami A/B

Framework dostarcza wszechstronny interfejs LLM – obsługuje wszystkich głównych dostawców, różne sposoby wywołania narzędzi, wbudowane wyszukiwanie internetowe.

Unikalne możliwości śledzenia: System śledzi „czas pracy” – rzeczywisty czas spędzony na pracy, wykluczając ponowne próby spowodowane przeciążeniem API. Allaire wyjaśnia: „Opóźnienia – jeśli interfejs API modelu jest przeciążony, możesz czekać 30 minut, ale jutro to sekunda, więc próbujemy to śledzić.”

Śledzenie kosztów: Framework bardzo dokładnie śledzi tokeny na próbkę i na model. Jest otwarty pull request dla śledzenia kosztów, który połączy bazę danych cen tokenów z użyciem. Można też ustawiać limity – „uruchom tego pod-agenta, ale ogranicz go do 20,000 tokenów, jeśli nie uda się w tym limicie, poddaj się.”

System zatwierdzania: Szczególnie ważny dla użycia komputera, gdzie model chce kliknąć przycisk i pokazuje człowiekowi jaki przycisk – operator musi zatwierdzić akcję.

Możliwości analityczne pozwalają na odczyt logów ewaluacji do ramek danych pandas.

Kiedy wybrać Inspect AI?

Rozważ Inspect AI gdy:

Uruchamiasz regularne ewaluacje wsadowe na dziesiątkach/setkach próbek
Potrzebujesz testować systemy produkcyjne bez modyfikacji kodu
Pracujesz ze złożonymi przepływami pracy (wieloagentowe, intensywne użycie narzędzi)
Wymagasz skalowalności na poziomie produkcyjnym i szczegółowej obserwowalności

Alternatywy mogą być lepsze gdy:

Potrzebujesz jedynie prostego interfejsu typu „kliknij i uruchom”
Zespół nie ma doświadczenia z Pythonem/programowaniem
Preferujesz usługę zarządzaną zamiast samodzielnie hostowanego rozwiązania

Społeczność i przyszłość rozwoju

Allaire podkreśla otwarty charakter projektu. Inspect AI ma ponad 100 zewnętrznych kontrybutorów. Jego podejście do budowania społeczności jest jednoznaczne: „Jeśli ktoś włoży 3 godziny w pull request, upewnię się, że zostanie scalony.”

Planowany rozwój obejmuje:

Narzędzia do adnotacji – narzędzia do budowania zbiorów danych i oznaczania przez ludzi
Optymalizacja sędziów LLM – lepsze wsparcie dla studiów porównawczych model-człowiek
Inspect Viz – zaawansowany system wizualizacji z pełnym śledzeniem pochodzenia
Integracja frameworków produkcyjnych – rozbudowa możliwości Agent Bridge
Narzędzia optymalizacji kosztów – lepsze śledzenie tokenów/opóźnień i budżetowanie
Wtyczka Weights & Biases – bezproblemowa integracja MLOps

Inspect Viz to szczególnie ambitny projekt – system wizualizacji z pełną proweniencją. Allaire wyjaśnia: „Jeśli cokolwiek jest w wizualizacjach, możesz znaleźć dokładny log lub wiadomość lub interakcję z modelem, która temu odpowiada.”

Integracja Claude Code: Allaire potwierdził plany implementacji agenta Claude Code przez Agent Bridge jako część nowego pakietu „Inspect Suite” z agentami inżynierii oprogramowania.

Przepływy pracy adnotacji: Na mapie drogowej są również narzędzia do tworzenia zbiorów danych – kombinacja narzędzi UI opartych na danych i funkcji Python do analizy adnotacji ludzkich kontra ocenianie przez model. Organizacje jak Rand Corporation i UK AI Security Institute są bardzo zainteresowane „nauką ewaluacji” i tworzeniem lepszych sędziów LLM.

Zasoby społeczności:

Slack społeczności (~800 członków) – środowisko o wysokim stosunku sygnału do szumu
Repozytorium GitHub – aktywny rozwój z szybką reakcją na problemy
70+ implementacji benchmarków – gotowe przykłady i materiały do nauki
Obszerna dokumentacja – samouczki, dokumentacja API, najlepsze praktyki

Slack społeczności (~800 osób) utrzymuje wysoki stosunek sygnału do szumu – nie jest publicznie reklamowany właśnie ze względu na jakość dyskusji. To miejsce, gdzie spotykają się ludzie z laboratoriów, organizacji zajmujących się bezpieczeństwem i środowiska akademickiego.

Podsumowanie

Inspect AI reprezentuje nowe podejście do ewaluacji modeli AI. Zamiast wybierać między prostotą a możliwościami, framework dostarcza oba rozwiązania. Interfejs wysokiego poziomu dla szybkich prototypów, nieograniczona elastyczność dla zaawansowanych przypadków użycia.

Agent Bridge zmienia reguły gry w testowaniu systemów produkcyjnych. Po raz pierwszy można ewaluować rzeczywiste aplikacje AI bez przepisywania kodu.

Adopcja przez Anthropic, DeepMind i Grok pokazuje, że framework sprawdza się w najbardziej wymagających środowiskach. Dla organizacji poważnie traktujących bezpieczeństwo AI i wydajność, Inspect AI staje się de facto standardem.

Kluczowy insight

Ewaluuj kod produkcyjny, nie testowy

Standardowo myślimy: Tworzymy osobne środowisko testowe z uproszczoną wersją naszego systemu AI, piszemy kod specyficzny dla ewaluacji i testujemy „w przybliżeniu” to co działa w produkcji.

W praktyce okazuje się, że: Największe organizacje AI ewaluują dokładnie ten sam kod, który trafia do użytkowników końcowych – zero modyfikacji, zero oddzielnych implementacji, zero założeń o tym czy środowisko testowe odpowiada środowisku produkcyjnemu.

Dlaczego to jest istotne: Różnice między kodem ewaluacyjnym a produkcyjnym wprowadzają fałszywą pewność – myślisz, że testujesz swój system, a testujesz jego uproszczoną reprezentację. Dlatego Agent Bridge pokazuje, że można testować rzeczywiste potoki produkcyjne bez zmiany ani linijki kodu.

Test na jutro: Następnym razem gdy planujesz ewaluacje, zamiast przepisywać logikę swojego systemu AI do środowiska testowego, spróbuj użyć podejścia Agent Bridge (lub podobnego wzorca proxy) i przetestuj dokładnie ten kod który trafia do produkcji – sprawdź jak bardzo różnią się wyniki.

Następne kroki

Natychmiastowe działania (w ciągu tygodnia):

Sprawdź dokumentację na stronie Inspect AI
Przejrzyj dostępne benchmarki na Inspect Evals
Zainstaluj framework i uruchom pierwszy przykład

Ten wpis jest częścią mojej kolekcji notatek z ciekawych podcastów, webinarów i innych treści, które uważam za wartościowe i do których sam chcę wracać. Jeśli chcesz sprawdzić oryginalne źródło, znajdziesz je tutaj: https://www.youtube.com/watch?v=_UY49Q_qFhs

Inspect AI – Framework do ewaluacji LLM używany przez Anthropic, DeepMind i Grok #EN174