Jak Intercom zbudował AI chatbota Fin – #EN173

Notatki z prezentacji Fergala Reida, kierownika zespołu machine learning w Intercom, dotyczącej procesu budowy AI chatbota opartego na GPT-4. Wszystkie opisane przemyślenia, obserwacje i strategie pochodzą od prelegenta.

TL;DR

  • Intercom zbudował Fin w 6 miesięcy – od pierwszych prób z ChatGPT w grudniu do pełnego produktu w czerwcu
  • Retrieval Augmented Generation to kluczowa technologia – zamiast polegać na wiedzy GPT, system przeszukuje bazę wiedzy i dostarcza kontekst
  • Model płatności za rezultat – 1 dolar za każdą rozwiązaną rozmowę, nie za użycie
  • 25% redukcja zapytań do agentów – Fin automatycznie odpowiada na pytania wymagające wcześniej ludzkiej interwencji
  • Trzy poziomy zrozumienia GPT – od zachwytu przez rozczarowanie do praktycznego wykorzystania
  • Projektowanie na niepowodzenia – system musi działać nawet gdy AI popełnia błędy
  • Zmiana zachowań użytkowników – ludzie przestali używać słów kluczowych i zaczęli naturalnie rozmawiać

Rewolucja, która zmieniła wszystko

30 listopada 2022 roku świat Intercom zmienił się na zawsze. ChatGPT pojawił się publicznie, a zespoły firmy spędziły noc na Slacku, testując nową technologię. Reid wspomina atmosferę tamtego wieczoru – wszyscy wiedzieli, że customer support już nigdy nie będzie taki sam.

Reid uważa, że to zmiana technologiczna na skalę Internetu. Coś, co zmieni wszystkie produkty w pewnym momencie. Chociaż ludzie mówią, że „LLM to nie całe AI”, Reid twierdzi, że „w pierwszym przybliżeniu właściwie są” – bo kompletnie przekształcają sposób budowania i używania AI.

Intercom od lat budował boty do obsługi klienta. Poprzednie rozwiązania działały dobrze, jednak tylko dla konkretnych, wcześniej skonfigurowanych pytań. ChatGPT z kolei potrafił prowadzić naturalny dialog. Różnica była jak między kalkulatorem a komputerem.

Cele projektowe dla Fin

Reid i zespół ustalili jasne kryteria sukcesu:

  • Naturalna konwersacja – jak ChatGPT, ale ograniczony do biznesu klienta
  • Minimalne halucynacje – znacznie mniej wymyślanych odpowiedzi
  • Zero konfiguracji – działanie od razu, bez 10 minut pracy na każde pytanie
  • Redukcja friction – 80/20 wartości natychmiast, perfekcja może poczekać

Reid podkreśla, że activation friction był „killer” poprzednich rozwiązań. Jeśli klient chciał, żeby bot odpowiadał na 100 różnych pytań, musiał poświęcić około 10 minut na skonfigurowanie każdego z nich. Ludzie po prostu tego nie robili, mimo że było warte zachodu.

Trzy poziomy zrozumienia technologii GPT

Reid identyfikuje trzy etapy, przez które przechodzi każdy, kto poznaje możliwości GPT.

Poziom pierwszy to zachwyt. Reid pokazuje przykład – pyta GPT-4 o swoją biografię i otrzymuje szczegółowe, precyzyjne informacje. Technologia wydaje się magiczna.

Poziom drugi natomiast przynosi rozczarowanie. Okazuje się, że znaczna część informacji o Reidsie jest zmyślona. Brzmi wiarygodnie, ale jest nieprawdziwa. GPT halucynuje i nie można mu ufać.

Poziom trzeci to przełom w myśleniu. Według Reida, GPT wciąż może być niesamowite, ale trzeba je traktować jako komponent inżynierski. Nie jako gotowy produkt, ale jako narzędzie do budowy produktów.

GPT jako database plus reasoning engine

Reid proponuje nowy sposób myślenia o technologii GPT. Zamiast postrzegać ją jako system przewidywania następnego słowa, lepiej widzieć ją jako kombinację bazy danych i silnika rozumowania.

Reid krytykuje powierzchowne wyjaśnienia GPT. Mówienie, że to „sequence model używający attention” jest jak mówienie o człowieku, że to „geny i ewolucja, czekasz długo i masz człowieka”. Prawdziwe, ale bezużyteczne. Podobnie bezużyteczne jest odrzucanie GPT mówiąc „to tylko przewidywanie następnego słowa”.

Silnik rozumowania to prawdziwa nowość. Reid pokazuje przykład: mysz chce ukraść ser, w pokoju jest kot i łóżko – co powinna zrobić mysz? GPT tworzy sensowny plan. Gdy dodasz, że kot jest głuchy, zmienia strategię. Gdy wspominasz dzwonek, wyjaśnia, że skoro kot jest głuchy, dzwonek nie ma znaczenia. To poziom rozumowania, o który systemy ML walczyły dekadami bez sukcesu.

Problem polega jednak na bazie danych. W ChatGPT jest ona zawodna – zawiera błędy i luki. Dla produktów takich jak Fin lepiej wykorzystać tylko zdolności rozumowania, a faktami zasilać system z zewnątrz.

Retrieval Augmented Generation staje się kluczem. Zamiast pytać „kto był prezydentem Ameryki w 1900 roku”, system pyta „na podstawie tego artykułu o historii prezydentów USA, kto był prezydentem Ameryki w 1900 roku?”

Reid wyjaśnia różnicę między zadaniami interpolacyjnymi a ekstrapolacyjnymi. Interpolacja to proszenie modelu o zrobienie czegoś podobnego do sytuacji, jakie widział wcześniej. Ekstrapolacja to proszenie o myślenie poza jego doświadczeniem. GPT są świetne w interpolacji – dlatego należy faworyzować zadania, gdzie można dać przykłady, kontekst, albo poprosić o coś, co prawdopodobnie widziało w Internecie.

Proces budowy – od prototypu do produktu

Harmonogram budowy Fin pokazuje, jak szybko można działać z nowymi technologiami AI:

  • Grudzień 2022 – pierwsze eksperymenty
    • 5 grudnia: start prac zespołu
    • 20 grudnia: prototypy testowane wewnętrznie
  • Styczeń 2023 – beta z klientami
    • 13 stycznia: beta z mniej niż 10 klientami
    • 31 stycznia: testimoniale od klientów
  • Marzec 2023 – publiczne demo
    • 14 marca: demo online dla budowy wiarygodności
  • Czerwiec 2023 – pełny produkt
    • około 100 osób zaangażowanych w projekt
    • Publiczne udostępnienie

Reid podkreśla znaczenie metodyki skunkworks. Zespół ML najpierw redukuje ryzyko technologiczne, a potem współpracuje z produktowcami nad najlepszym rozwiązaniem w ramach ustalonych ograniczeń. Kluczowe jest zapewnienie autonomii w dostarczaniu produktu i szybkiego kontaktu z klientami.

Nazwa „Fin” ma wielowarstwowe znaczenie – to krótkie, fonetyczne, łatwe do napisania słowo. Reid wspomina, że prawdopodobnie nawiązuje do irlandzkiej legendy o „Salmon of Knowledge”. Zespół świadomie robił intuitive calls zamiast dokładnych badań marketingowych, bo czas wprowadzenia na rynek był krytyczny w obliczu rewolucji AI.

Wyzwania techniczne i biznesowe

Problem halucynacji był największym wyzwaniem. Wczesne modele GPT zbyt często wymyślały odpowiedzi. GPT-4 znacznie poprawił sytuację, jednak problem nie zniknął całkowicie.

Prywatność danych budzi obawy klientów. Aby Fin działał, pytania muszą trafiać do serwerów OpenAI. Intercom wynegocjował umowę korporacyjną z korzystnymi warunkami – OpenAI nie przetrzymuje danych ani nie używa ich do treningu. Dla firm wymagających, aby dane nie opuszczały UE, system początkowo nie był dostępny – OpenAI miało tylko serwery w US, choć sytuacja się zmienia.

Jakość odpowiedzi vs oczekiwania to ciągły balans. Klienci oczekują perfekcji, a system wciąż popełnia błędy. Reid zauważa, że człowiek też może źle zinterpretować informacje z bazy wiedzy. Różnica polega na tym, że ludzie lepiej wiedzą, czego nie wiedzą. W produkcji „unusual things happen frequently”, więc potrzebny jest stały monitoring i poprawki.

Model sukcesu – płatność za rezultat

Intercom zdecydował się na rewolucyjny model rozliczeń – 1 dolar za każdą rozwiązaną rozmowę. Płaci się tylko wtedy, gdy Fin skutecznie zamyka sprawę i użytkownik nie eskaluje do człowieka.

System zbiera telemetrię przez przyciski na końcu każdej odpowiedzi. Użytkownik może kliknąć „pomogło” lub „poczekaj na zespół”. Te dane pozwalają mierzyć skuteczność i stale poprawiać system.

Reid przyznaje, że początkowo cena była wyższa – około 2 dolarów. Klienci protestowali przeciwko cenie. Po obniżce do 1 dolara większość zastrzeżeń zniknęła, gdy zobaczyli jakość odpowiedzi. Obecny stan to „good adoption” i, jak Reid nie może podać dokładnych liczb, ale sugeruje „miliony dolarów ARR raczej niż tysiące”.

Zmiana zachowań użytkowników

Fin zmienił sposób, w jaki ludzie rozmawiają z botami. Wcześniej, gdy użytkownicy zorientowali się, że gadają z botem, przechodzili w tryb wyszukiwania. Pisali krótkie, słowami kluczowymi zapytania jak w Google.

Z Fin jest inaczej. System zaczyna naturalny dialog, a użytkownicy odpowiadają w ten sam sposób. Reid spekuluje, że to efekt ChatGPT – ludzie zmienili oczekiwania wobec AI.

Przykład pokazuje różnicę. Klasyczne pytanie testowe brzmi „jak usunąć tag?”. Fin odpowiada na podstawie bazy wiedzy. Potem użytkownik pyta „a jak dodać?”. System rozumie, że „jeden” odnosi się do tagu i przeszukuje różne artykuły, żeby stworzyć syntezę odpowiedzi.

Metryki sukcesu

Fin redukuje około 25% zapytań do ludzkich agentów w ciągu kilku dni od uruchomienia. System automatycznie odpowiada na pytania, które wcześniej wymagały interwencji człowieka.

Skuteczność zależy od dziedziny i jakości bazy wiedzy. Firmy rozrywkowe czy B2B SaaS osiągają lepsze wyniki niż silnie regulowane branże. W sektorach wymagających zerowej tolerancji błędów Fin może nie być odpowiedni.

Reid dodaje, że obecny stan technologii nie nadaje się do zastosowań krytycznych dla życia czy służby zdrowia. Dla mniej krytycznych zastosowań system jest konkurencyjny z człowiekiem w wielu domenach.

Projektowanie na niepowodzenia

Kluczem sukcesu Fin jest projektowanie systemu odpornego na błędy AI. Reid podkreśla, że nie chodzi o perfekcyjny design, ale o system, który toleruje awarie komponentu AI.

Przykład to klawiatura predykcyjna w telefonie. Robi błędy cały czas, ale jest zaprojektowana tak, że można ignorować złe sugestie. Gdy sugestia jest dobra, oko samo ją zauważa.

Podobnie Fin – system musi działać nawet gdy AI się myli. Użytkownik może łatwo eskalować do człowieka. AI jest dodatkiem, nie zamiennikiem.

Przyszłość AI w customer service

Reid przewiduje dalszy gwałtowny rozwój. Jego prognoza na 2 lata to AI trudne do odróżnienia od człowieka w wielu zadaniach. Ilość pieniędzy i mocy obliczeniowej inwestowanej w ten obszar jest „insane”.

Pojawią się mniejsze modele, które można uruchamiać we własnej chmurze. Będzie postęp w dużych modelach – GPT-5 i konkurencja. Wszyscy będą musieli nauczyć się wprowadzać te systemy do swoich produktów.

Reid jest jednocześnie podekscytowany i ostrożny. Jako product developer widzi ogromny potencjał. Jako człowiek uważa, że przy przekroczeniu ludzkiego poziomu inteligencji trzeba będzie poważnie myśleć o regulacjach. Na pytanie o reasoning, odpowiada, że funkcjonalnie AI robi coś nieodróżnialnego od rozumowania, choć philosophical aspects pozostają otwarte.

Dla healthcare system może być przydatny, ale Reid nie gwarantuje zerowych błędów interpretacji. „Jeśli żyjesz w kraju z ograniczonym dostępem do pracowników służby zdrowia, nie wiem… ale generalnie nie polecamy Fin dla placówek służby zdrowia”.

Praktyczne wnioski i checklista

Checklista budowy AI chatbota według Reida:

  • Testuj na prawdziwych danych jak najszybciej
    • Systemy AI robią niespodziewane rzeczy w produkcji
    • Front-loaduj testy z rzeczywistymi danymi klientów
  • Używaj retrieval augmented generation
    • Zamiast polegać na wbudowanej wiedzy modelu
    • Dostarczaj kontekst z własnej bazy wiedzy
  • Projektuj na awarie
    • System musi działać gdy AI się myli
    • Łatwa eskalacja do człowieka
    • AI jako dodatek, nie zamiennik
  • Priorytetyzuj szybkość dostarczenia
    • Szybkość dostarczenia do klientów = najlepszy predyktor sukcesu ML produktu
    • Lepiej szybki prototyp niż perfekcyjne rozwiązanie za rok
  • Faworyzuj zadania interpolacyjne
    • AI lepiej radzi sobie z sytuacjami podobnymi do tych, jakie widział
    • Podawaj przykłady i kontekst zamiast pytać o zupełnie nowe scenariusze

Kiedy AI nadaje się do Twojej domeny?

  • Tolerancja błędów: Entertainment/B2B SaaS – prawdopodobnie TAK | Służba zdrowia/Finanse – prawdopodobnie NIE
  • Jakość bazy wiedzy: Dobra dokumentacja = większe szanse na sukces
  • Regulacje branżowe: Silnie regulowane = ostrożnie, może jeszcze za wcześnie

Customer service stoi przed największą zmianą od dekad. Technologia jest już dostępna. Pozostaje tylko pytanie, kto będzie pierwszy.

Kluczowy insight

Stop pytając AI o fakty

Standardowo myślimy: AI to super-inteligentny Google – pytamy go o fakty, które powinien znać, i oczekujemy poprawnych odpowiedzi z jego wbudowanej wiedzy.

W praktyce okazuje się, że: Najlepsze wyniki daje traktowanie AI jak smart calculator – dostarczamy mu fakty i prosimy o rozumowanie nad nimi.

Dlaczego to jest istotne: Większość problemów z halucynacjami i błędami AI wynika z próby wykorzystania go jako źródła wiedzy. Gdy przestajesz pytać „kto był prezydentem w 1900?” a zaczynasz mówić „na podstawie tego artykułu o prezydentach, kto był prezydentem w 1900?”, AI z zawodnego oracle zamienia się w niezawodny reasoning engine.

Test na jutro: Następnym razem gdy będziesz testować AI w swoim projekcie, zamiast pytać o fakty z jego „głowy”, spróbuj dostarczyć kontekst w poleceniu i poprosić o analizę, i sprawdź jak dramatycznie poprawia się jakość odpowiedzi.

Ten wpis jest częścią mojej kolekcji notatek z ciekawych prezentacji, webinarów i innych treści, które uważam za wartościowe i do których sam chcę wracać. Link do zródła: https://www.youtube.com/watch?v=eu95OO6dhuQ


Opublikowano

,

Komentarze

Dodaj komentarz