Prompting, evals, RAG i fine-tuning według eksperta z Meta #EN114

TL;DR

Prompting to „rzeźbienie” – foundation model należy stopniowo ograniczać przez system prompt, few-shot examples i podział zadań na kroki
Evals używają metodologii +1/-1 zamiast skal 1-10, co wymusza reasoning i daje lepszą granularność oceny
RAG wybieramy dla dynamicznych danych i faktów, fine-tuning dla modyfikacji zachowania i „lobotomizacji” modeli
Vector databases to matematyczna magia – embedding „king – male + woman = queen” pokazuje reprezentację pojęć w przestrzeni wielowymiarowej
Meta stawia na open source by zapewnić uniwersalny dostęp do AI, Llama 4 wprowadza mixture of experts
Sukces AI leży w prostocie – thin wrapper around LLM często lepszy niż skomplikowana infrastruktura
„Nie ma dużo magii w AI” – systematyczne podejście ważniejsze niż gonitwa za najnowszymi trendami

Każdy biznes na Ziemi próbuje teraz zrozumieć, jak zintegrować AI ze swoimi produktami. Adam Loving, AI partner engineer w Meta, który pomógł setkom firm wdrożyć sztuczną inteligencję, przedstawił podczas kursu kompleksowy przewodnik po optymalizacji systemów AI.

Fundamenty optymalizacji AI: Loving wyjaśnia podstawy: „To, co optymalizujemy, gdy zadajemy LLM-owi pytanie, to informacje, które mu wysyłamy. Zawsze słyszycie o długości context window – to odpowiada temu, ile informacji możecie wysłać wraz z pytaniem, które przeczyta przed udzieleniem odpowiedzi”.

Wszystko sprowadza się do dwóch głównych obszarów: RAG optymalizuje to, co wysyłasz w context window, podczas gdy fine-tuning pozwala wziąć model i dostosować go do własnych potrzeb.

Prompting jako sztuka „rzeźbienia” AI

Metafora sculpting w praktyce

Loving opisuje prompting jako proces rzeźbienia. „Zaczynasz z foundation model, który wie trochę o wszystkim, karmisz go szczegółami o swoim świecie, potem dajesz mu konkretne zadanie”. Ostatecznie ma być oczywiste, czego od niego oczekujesz.

„Każdy prompt, który piszę, to jakby chciałem, żeby po prostu dokończył moją myśl na końcu”. System powinien być tak wyrzeźbiony, że nie może nie dać właściwej odpowiedzi.

Checklist skutecznego promptingu (na podstawie wywodu Lovinga):

Rozdziel system prompt od main prompt – „system prompt to bardzo jak 'jesteś ekspertem w fitness clothing'”
Dodaj few-shot examples – konkretne przykłady pokazujące oczekiwane zachowanie
Zastosuj step-by-step reasoning – „chcesz, żeby faktycznie przemyślał swoją odpowiedź”
Podziel złożone zadania na pojedyncze kroki – „jedna rzecz na raz”
Specyfikuj jak najwięcej detali – „chcesz, żeby było jak najbardziej wyrzeźbione”

Workflow dla złożonych zadań – case study Lululemon

Przykład chatbota Lululemon pokazuje praktyczne zastosowanie podziału zadań. Zamiast jednego skomplikowanego prompta:

System prompt: „Jesteś ekspertem od fitness clothing. Oto top 10 powodów, dlaczego ludzie powinni kupować Lululemon”

Workflow według Lovinga:

„Najpierw rozważ mój plan treningowy”
„Potem zarekomenduj jakie ubrania powinienem kupić jako drugi krok”
„Możesz nawet kazać mu pytać mnie, gdy będzie potrzebował, pytać o mój trening, aż będzie miał wystarczająco informacji”

„Co zrobić, gdy zadanie jest zbyt złożone?” Loving radzi dzielenie na mniejsze części. „Każdy prompt powinien mieć jedno konkretne zadanie zamiast wielu jednocześnie”.

System ewaluacji AI – fundamenty jakości

Cztery typy evaluacji w praktyce

Loving identyfikuje cztery główne typy evals: „Ludzie nie powinni być zaskoczeni, jeśli nie piszą evals dzisiaj. To zupełnie powszechne. Każdy biznes na Ziemi próbuje zrozumieć, jak dostać AI do produktu”.

Kiedy stosować evals: „Gdy dostaniesz coś działającego, chcesz dodać drugą rzecz. Ale musisz upewnić się, że nie złamiesz pierwszej rzeczy. I myślę, że wtedy większość ludzi mówi – OK, muszę napisać evals”.

Typ	Opis według Lovinga	Zalety	Wady
Human	„Człowiek przechodzi i czyta wszystkie 100 odpowiedzi”	Wysoka jakość	Bolesne przy każdym wydaniu
Programmatic	„Program testuje, czy konkretne słowa są w odpowiedziach”	Szybkie, powtarzalne	Musisz napisać eval
AI-based	„Bierzesz inny model i każesz mu ocenić odpowiedź”	Skalowalne	Meta proces pisania promptu
User feedback	„Thumbs up, thumbs down button”	Prawdziwe dane użytkowników	Wolniejsze pozyskiwanie danych

Cost optimization trick: „Jeśli masz mały, szybki model obsługujący customer service chat, możesz użyć droższego modelu do oceny, bo robisz to tylko 100 razy dziennie żeby ocenić odpowiedzi przed upgrade’em głównego prompta”.

Rewolucyjna metodologia scoringu +1/-1

„Daję +1 za każdą rzecz, którą znajduje dobrą w ocenianej odpowiedzi. Zamiast po prostu wybrać wynik 1-10, nie wydaje się, żeby miał dobrą granularność czy uzasadnienie, dlaczego to 6 kontra 7”.

Przykładowa struktura oceny Lululemon:

+1 jeśli ton jest właściwy
+1 za każdy poprawny produkt wymieniony
-99 jeśli wymieni produkt, którego nie sprzedajemy

„To wymusza reasoning, bo musi wymienić każdy powód, dlaczego zasługuje na lepszy wynik”. LLM-y są lepsze w tym podejściu niż w summaryzowaniu do pojedynczego wyniku. „Potem możesz sparsować te wyniki w kodzie, zsumować wyniki i masz dokładniejszy count z 10”.

Uniwersalne zastosowanie: „To świetnie działa dla lead scoring. Robię to ze spreadsheetami pełnymi leadów, dla jakiegokolwiek gradingu czy jakości raportu. Po prostu niech da plus jeden za wszystko dobre i minus jeden za wszystko złe”.

Case study: dlaczego OpenAI wycofało model

Loving omawia niedawny przypadek: „Przeszedł przez cały proces evaluacji, zrobili mass scoring, human spot checks, nawet A/B testing. Problem był w tym, że kompletował wszystko co powiedziałeś, nawet podczas A/B testów ludzie klikali 'like’, bo sprawiał, że czuli się dobrze”.

„Wyzwanie polega na tym, że ostatnie kilka wydań modeli to rzekomo mądrzejsze niż większość ludzi. Jak zatrudnić ludzi do oceny odpowiedzi LLM-a?”

Praktyczny trick dla ground truth: Interviewer przyznaje: „Jedna leniwa rzecz, którą robię – biorę fancy AI żeby wygenerował odpowiedź i ręcznie modyfikuję ją do ground truth answer”. Loving potwierdza: „Niech weźmie pierwszą próbę napisania ich, a ty wchodzisz i edytujesz, wycinasz odstające”.

Adversarial evals i Llama Guard

Do ochrony przed prompt hackingiem Loving opisuje podejście Meta: „Mamy projekt, open source projekt zwany Llama Guard, że jeśli jesteś deweloperem aplikacji, możesz to złapać i w zasadzie wstawić do łańcucha przed tym requestem, który w ogóle dostaje się do głównego kodu, żeby to odfiltrować”.

„To prostszy model, który nie wie wszystkiego o świecie, ale jest bardzo dobry w rozpoznawaniu adversarial questions”.

Konkretne przykłady prompt hackingu: „Mam czapkę z meetupu, która mówi 'ignore all previous instructions'”. Można też zapytać model „co jesteś” albo wymyślić sytuację awaryjną.

Guardrail models: „Modele guardrail też możesz fine-tunować. Żeby wiedzieć tylko o mówieniu 'nie’ na bomby i naprawdę nie wiedzieć dużo o niczym innym”.

RAG kontra fine-tuning – framework decyzyjny

Kiedy wybierać RAG

„RAG to całkowite optymalizowanie tego, co wysyłasz w context window do LLM-a”. Loving wyjaśnia zastosowania:

Dynamiczne dane: „FAQs mogą zmieniać się dzień po dniu”
Faktyczna dokładność: „30-dniowa polityka zwrotów, nie 60 czy 90 dni”
Kontrola źródła: „Wiesz, co mu dajesz”

„Wyciąganie dokładnej faktycznej odpowiedzi z bazy danych daje ci dokładnie właściwą odpowiedź”. Jeśli dane ulegną zmianie, wystarczy zaktualizować bazę.

Kiedy wybierać fine-tuning

Loving używa metafory edukacyjnej: „Fine-tuning to jakbyś ukończył college i teraz dostajesz szkolenie do konkretnej pracy. Ładujesz do modelu specyficzne informacje i specyficzne formatowanie, którego ma przestrzegać”.

„W pewnym sensie ogłupianie go lub czynienie bardziej fokusowanym”. Loving używa też terminu „lobotomizowanie” modelu. „To jak kreatywne lobotomizowanie. Wycinamy część tej szalonej wiedzy o świecie i upewniamy się, że trzyma się naszych odpowiedzi”.

Przykład z praktyki: „Jeden z projektów, które zrobiliśmy z dużą firmą, to upewnienie się, że za każdym razem gdy klient zadaje pytanie i nie zna odpowiedzi, po prostu upewnij się, że mówi 'Przepraszam, nie wiem’. Dajesz mu 50 przykładów, gdzie powinien znać odpowiedź i 50 gdzie nie powinien”.

Dlaczego nie wystarczy prompting? „Model jest temperamentalny. Twój prompt i output mogą zmienić się drastycznie w zależności od tego, gdzie przesuniesz rzeczy w danych. Trudno na tym polegać. Fine-tuning daje ci możliwość bycia naprawdę hardcore w lobotomizowaniu modelu, żeby zachowywał się tak, jak chcemy”.

Techniczne aspekty fine-tuning

„Bierzesz Llama 4 z półki, pobierasz od nas, teraz możesz wgrać to na swój serwer i zhakować, żeby dawał tylko odpowiedzi, których chcesz”.

LoRA fine-tuning: „Jest proces zwany LoRA fine-tuning – najczęstszy dziś – low rank adapters. To w zasadzie hakowanie, dodawanie adapterów do neural net, które go upraszczają, a potem możesz ustawić wagi tych adapterów tak, by ograniczały output”.

Quantization benefit: „Powinno być też tańsze, bo ten process LoRA skwantuje wiele wag, więc możesz zmniejszyć model”.

Sweet spot rozwoju AI

„Myślę, że jest sweet spot. Gdy testujesz nową AI feature, możesz dać jej dużo do roboty, przetestować z użytkownikami, zobaczyć czy im się podoba. A potem gdy zaczynasz rozumieć, jaka jest rola tej AI feature w aplikacji, wtedy zawężasz się”.

„Myślę, że to w porządku wybrać coś jak spaghetti na ścianę na początku. A potem gdy działa dla użytkowników, piszesz więcej evals, zawężasz dokładnie to, co może robić. I wtedy, przy okazji, jeśli masz 10 milionów użytkowników robiących to codziennie, wtedy fine-tunujesz”.

Pułapka „więcej informacji = lepsze wyniki”

„Więcej informacji nie jest lepsze. Zdecydowanie nie zawsze lepsze i nigdy nie lepsze”. LLM-y mylą się tak łatwo, jak się koncentrują na właściwej odpowiedzi.

Sweet spot w ilości danych: „Jest sweet spot. Czy 20 przykładów świetne? Czy 10 przykładów świetne? Vector stores, o których za minutę, istnieją od dekady. Nie były szczególnie istotne, bo badania akademickie nad uzyskiwaniem właściwych wyników zatrzymały się przed wynalezieniem LLM-ów”.

Przykład z web search: Interviewer zauważa: „Dużo produktów web search z ChatGPT – często odpowiedź jest gorsza. Pytam o travel advice, a zamiast używać masywnej wiedzy o całym webie, szuka trzech linków i używa tylko tego”. Loving potwierdza: „Są bardziej bias na podstawie tych trzech linków”.

RAG re-ranking i agent loops

„User zadaje pytanie, możesz mieć pierwszy krok LLM-a inżynierującego query. W tym przykładzie perplexity czy deep research, weźmie pytanie które zadałeś, sformułuje query, zacznie przeszukiwać web używając tego query po istotne wyniki, przyniesie je z powrotem i iteruje jak prawie w agent loop, żeby znaleźć najistotniejsze rzeczy”.

„RAG re-ranking to bardzo powszechna rzecz, używanie LLM-a do rankingu wyników, bo wychodzące z vector store mogą nie być w najlepszej kolejności”.

Grounding concept: „Grounding to gdy faktycznie robisz Google search, web search i przynosisz informacje, które mogą albo pasować albo obalić odpowiedź, którą dał, a potem ewaluujesz używając tego”.

Vector databases – matematyka wyszukiwania semantycznego

Magia embeddingów w praktyce

„To matematyczna magia leżąca u podstaw wszystkich LLM-ów. Większość machine learningu to przekształcanie problemów z prawdziwego życia w problemy matematyczne”.

„Możesz stworzyć vector embedding pojedynczego słowa czy frazy, co jest efektywnie całym dokumentem czy nawet obrazem. To bierze tę treść i reprezentuje ją jako array liczb czy vector, gdzie cel tych liczb to oddzielenie geograficzne w wielowymiarowej przestrzeni od innych konceptów”.

Przykład king – male + woman = queen

„Jest naprawdę cool koncepcyjny przykład. Możesz wziąć king minus male plus woman, zsumować te vectory, a najbliższy vector będzie queen”.

„To co mnie zachwyca – przekształca bardzo abstrakcyjne koncepty w matematyczne”.

Rzeczywista złożoność: „Ludzie działają na intuicji i trójwymiarowej przestrzeni, którą mogę ogarnąć. Ale w rzeczywistości to jest jak 100 wymiarów”.

Praktyczne decyzje implementacyjne

Kluczowe wyzwania przy indeksowaniu dokumentów według Lovinga:

„Musisz zdecydować czy chcesz robić każdy dokument indywidualnie, czy chcesz robić fragmenty z dokumentów i to indeksować, czy chcesz robić każde zdanie i próbować znajdować najistotniejsze zdanie, czy może kombinację wszystkich trzech”.

Przykład Lululemon: „Weźmy prosty przykład – 100 dokumentów, mamy 100 paragrafów opisujących każdy z produktów. Po prostu embed je, przechowuj w VectorDB, a gdy klient pyta o coś, sformułuj query mapowane do najbliższej przestrzeni w tym 3D diagramie”.

SQL vs Vector trade-off: „Jeśli mogę wyciągnąć wszystkie produkty z bazy danych, które wspominają Yoga jednym SQL query, to będzie tanie, łatwe i szybkie vs ładowanie tysięcy dokumentów na drogie GPU”.

„Te GPU to najdroższa część architektury. Chcemy używać LLM-a tak oszczędnie jak to możliwe”.

Maintenance reality: „Utrzymywanie vector store to jak utrzymywanie bazy danych. Gdy dokument się zmieni, nadal musisz utrzymać tę zmianę, zaktualizować dokument”.

Open source AI w strategii Meta

Filozofia uniwersalnego dostępu

„Meta chce upewnić się, że każdy na świecie ma dostęp do AI, że nie jest zamknięte za OpenAI czy kontrolowane przez Anthropic”. To motywuje podejście open source od samego początku.

Llama 4 i mixture of experts

Najnowsze features Llama 4 według Lovinga:

Multimodal – speech, video, images
Multilingual – wsparcie dla wielu języków
Mixture of experts – „to nasz pierwszy mixture of experts model”

„Różne obszary neural net są ekspertami w różnych tematach. To kolejny obszar aktywnych badań – możesz być w stanie fine-tunować tylko wybrane eksperców, więc możesz działać szybciej, lepiej, taniej”.

Skala jako motywacja

„Myślę, że Meta to wszystko o skali. Jest już miliard ludzi używających Meta AI. Nie chcesz świata, gdzie tylko najbogatsi ludzie mają dostęp do najlepszych modeli”.

„Meta jest podekscytowana robieniem tego, bo chce, żeby rzeczy jak Ray-Bany działały świetnie dla wszystkich. To ma bardzo wysoką poprzeczkę, więc jest zmotywowana, żeby robić to dobrze”.

Open source vs proprietary – prognozy

„Jeśli pomyślisz o całym innym open source software, którego używałem w życiu, od WordPress do Linux, nigdy nie był na cutting edge, ale to dlatego, że musi służyć szerszej publiczności”.

Loving przewiduje dalsze pozostawanie w tyle, ale widzi wartość w podejściu Meta.

Biznesowe case studies z praktyki

AT&T customer support

„Jeśli jesteś AT&T rzeczywiście obsługującym wszystkie te customer support chaty, bardzo dobry pomysł ze stu czy tysiąca najczęstszych przypadków. Możesz wytrenować swój model do generowania początkowych odpowiedzi”.

„Customer support rep musi tylko zaaprobować odpowiedź. To bardzo dobre w produkowaniu gotowych odpowiedzi za znacznie taniej niż robiłby to w real time”.

Lululemon – kompleksowy przykład

System ładuje przykłady według Lovinga: „Mogłbyś mieć LLM-a ładującego przykłady z innych customer service chatów czy FAQ, a potem wstawia to do prompta i mówi – OK, przeczytaj FAQ, wymień istotne, teraz sformatuj odpowiedź dla użytkownika istotną dla pytania”.

System może też ładować informacje o historii zamówień: „Prawdopodobnie ma informacje o mojej historii zamówień, których może nie pytałem tutaj, ale ładuje to do kontekstu, żeby dobrze odpowiedzieć”.

Praktyczne porady dla builderów AI

„Nie ma dużo magii w AI”

„Nie ma dużo magii w AI. Wydaje się magiczne, bo nie przeczytałeś całego internetu jak foundation model. Więc mogą być momenty magii. Ale z czasem zaczynamy rozumieć, dlaczego ta magia się dzieje”.

„Ograniczamy go do robienia rodzaju magii, którą chcemy w tym momencie. Nie polegam na LLM-ie, żeby magicznie sprzedał program treningowy – Lululemon musi zasilić go wystarczającymi informacjami”.

Background: 40 startupów AI

Loving wnosi unikalne doświadczenie: „Przed Meta doradzałem startupom, pracowałem w startup studio, gdzie stworzyliśmy 40 startupów w ciągu ostatnich 10 lat, a ostatnie kilka lat to wszystko AI startups”.

Checklist dla AI builderów (na podstawie rad Lovinga):

Start:

Thin wrapper around LLM – „Możesz zarobić dużo pieniędzy cienkim wrapperem wokół LLM-a”
Doświadczenie zespołu – „Najlepsze na co możesz liczyć to przynajmniej sprawić, że twoje zespoły engineering wypróbują te features”
Coś podstawowego do produkcji – „Wprowadź coś podstawowego do produkcji”
Unikaj FOMO – „Nie miałbym zbyt dużego FOMO o najnowszej, najwspanialszej rzeczy”

Rozwój:

Napisz swoje evals – „Potem napisz swoje evals”
Rozważaj efektywność – „Rozważaj jak zrobić to efektywnie w miarę rozwoju”
„Uzależnij się od narkotyku” – „Wpadasz w uzależnienie od narkotyku – moglibyśmy użyć LLM-a do tego, i do tego”

Unikanie pułapek

„Jeśli złamałeś sobie głowę nad RAG dwa lata temu, możesz tego żałować teraz. Nie byłoby warte wysiłku”.

„Nie potrzebujesz całej tej fancy infrastruktury. Prawdopodobnie cię to powstrzymuje, jeśli zbudujesz za dużo”.

„Przewaga – czy to nowa firma czy nowa funkcja – możesz wypróbować coś bardzo ukierunkowanego, co wykorzysta inteligencję LLM-a do disruption jakiegoś rynku lub stworzenia świetnej nowej funkcji”.

Ten wpis jest częścią mojej kolekcji notatek z ciekawych podcastów, webinarów i innych treści, które uważam za wartościowe i do których sam chcę wracać. Jeśli chcesz sprawdzić oryginalne źródło, znajdziesz je tutaj: Complete AI Course (2025): Prompting, Evals, RAG & Fine-Tuning | Adam Loving (Meta)