Dlaczego projektowanie dla AI jest inne - notatki z prezentacji Jareda Spoola EN206

Poniższe notatki powstały na podstawie prezentacji Jareda Spoola „Why Designing for GenAI is Different” oraz sesji Q&A. Wszystkie przemyślenia, obserwacje i wnioski pochodzą od prelegenta.

TL;DR

80% projektów AI nie dochodzi do produkcji – większość kończy się niepowodzeniem mimo ogromnych inwestycji
Framework SOUR identyfikuje 8 kluczowych wymiarów projektowania AI: dokładność, przewidywalność, kontrola, kompletność, obserwowalność, uczenie się, szybkość i świadomość kontekstu
Interfejsy konwersacyjne to powrót do wiersza poleceń – czat nie jest rewolucją, tylko nową formą starego podejścia
Badania strategiczne zastępują taktyczne – potrzeba głębokiego zrozumienia doświadczeń użytkowników na dużą skalę
Praktyczne ograniczenia są ogromne – koszty miliarda dolarów dziennie, problemy z własnością intelektualną i wpływem na środowisko
Podstawowe zasady UX pozostają niezmienne – kluczem jest adaptacja sprawdzonych umiejętności do nowych wyzwań
Oczekiwania przewyższają rzeczywistość – przepaść między szumem medialnym a tym, co AI rzeczywiście potrafi

Cztery rodzaje AI – o czym mówimy?

Spool rozpoczyna prezentację od ważnego rozróżnienia, ponieważ gdy ludzie mówią „AI”, często mają na myśli różne rzeczy:

Modele predykcyjne/machine learning działają od ponad 20 lat. Przykład stanowi aplikacja do identyfikacji ptaków, która słucha śpiewu i rozpoznaje gatunek. Te algorytmy są sprawdzone i użyteczne.

Agentic AI to obecnie „amorficzna idea agentów, którzy będą robić wszystko za nas”. Prelegent nazywa to science fiction. Istniejące „agenty” to głównie proste automaty – w zasadzie synonym dla programu.

AGI (Artificial General Intelligence) to „uber mind”, który ma leczyć wszystkie choroby, odkryć całą fizykę świata i jednocześnie nas zniewolić. Definitywnie science fiction.

Large Language Models (LLM) / Generative AI pojawiły się około 2022 roku z pierwszym ChatGPT. To właśnie o tym mówimy, gdy dyskutujemy o projektowaniu UX dla AI.

Technologia nie jest nowa

Spool podkreśla, że dużo z tej technologii już znamy. Jeśli ktoś używał Google Translate lub Apple Translate w ostatnich pięciu latach, korzystał z tej samej technologii. Google Translate działa dzięki zbieraniu dokumentów ONZ, które są pisane w wielu językach i stanowią doskonały „kamień z Rosetty”.

System może zobaczyć, jak dana fraza jest wyrażona w różnych językach i matematycznie dopasować odpowiedniki. Nie rozumie jednak znaczenia – po prostu łączy słowa probabilistycznie. To samo robią LLM, tylko na znacznie większą skalę.

Kryzys wartości w projektach AI

Prelegent rozpoczyna od szokującej statystyki: około 80% wszystkich projektów AI w firmach nie dochodzi do poziomu produkcyjnego. Te nieliczne, które trafiają do użytkowników, często nie generują wartości.

Wszyscy oprócz producentów hardware’u tracą pieniądze na inwestycjach w AI. Jak zauważa Spool, OpenAI traci około miliarda dolarów dziennie, próbując sprawić, aby technologia działała. Problem leży w tym, że wartość po prostu jeszcze nie istnieje.

To jednak tworzy ogromną szansę dla specjalistów UX. Według prelegenta, firmy bankrują całe swoje biznesy na technologii, która jest daleka od udowodnienia swojej wartości. Specjaliści od doświadczenia użytkownika mogą przyjść z pomocą organizacjom, które wszystko stawiają na AI.

Framework SOUR – 8 wymiarów projektowania AI

Spool opracował framework o nazwie SOUR (Spectrums of Usable Reality), który pomaga zrozumieć przepaść między oczekiwaniami a rzeczywistością AI. Framework identyfikuje osiem kluczowych wymiarów:

Podstawowe wymiary

Dokładność – systemy mają tendencję do „halucynacji”, wymyślając fakty i kłamiąc, ponieważ opierają się na modelach matematycznych, a nie rzeczywistej wiedzy
Przewidywalność – to samo pytanie zadane trzy razy może dać trzy różne odpowiedzi, co różni się od niezawodnych komputerów ze science fiction
Łatwość kontroli – obietnica naturalnego języka szybko znika, ludzie muszą uczyć się specjalnego języka promptowania, a „niepoprawne promptowanie” staje się standardową wymówką
Kompletność szczegółów – proces udoskonalania promptów może zajmować więcej czasu niż tradycyjne narzędzia, choć czasami pierwsze promptowanie wystarcza
Obserwowalność – systemy nie potrafią wyjaśnić, jak doszły do wyniku (przykład: ChatGPT wybiera liczbę 27 nie przez losowość, ale przez treningi na dokumentach opisujących to zachowanie)

Nowe wymiary

Uczenie się obliczeniowe – wbrew oczekiwaniom, AI nie uczy się z błędów; jedynym sposobem na „uczenie się” jest stworzenie nowego modelu
Szybkość obliczeniowa – kompromis między szybkością a jakością (Claude: szybszy kod, ale bardziej wadliwy vs ChatGPT: lepszy kod, ale wolniejszy)
Świadomość kontekstu – ograniczona wiedza o rzeczach, których nie powiedziałeś wprost (czy system wie, że to ty siedzisz przy klawiaturze?)

Krytyka „prompt engineering” – dlaczego to problem, nie rozwiązanie

Spool ostro krytykuje popularną ideę, że problemem AI jest złe promptowanie. Jak zauważa, gdy ludzie mówią „spróbowałem zrobić coś z AI i mi się nie udało”, prawie zawsze słyszą w odpowiedzi „nie promptujesz poprawnie”.

To prowadzi do absurdalnej sytuacji, w której ludzie muszą uczyć się specjalnego języka promptowania zamiast korzystać z obiecanego naturalnego języka. Prelegent wspomina przykład „thought leadera” rozdającego książkę z 35 promptami dla product managerów, co pokazuje, jak daleko odeszliśmy od obietnicy intuicyjnej interakcji.

Przykłady pokazujące ograniczenia promptowania

Test obserwowalności: Spool lubi prosić ChatGPT o wybranie liczby między 1 a 50. System prawie zawsze wybiera 27 – nie dlatego, że rozumie losowość, ale dlatego, że został wytrenowany na dokumentach opisujących to zachowanie. Gdy następnie zapytasz, jak wybrał tę liczbę, AI poda algorytm generowania liczb losowych, którego w rzeczywistości nie użył.

Absurd kontroli graficznej: Próba użycia promptu „make the raccoon cuter” pokazuje fundamentalny problem. Jak mówi prelegent, opisywanie szczegółów wizualnych tekstem to „jak opisywanie architektury przez interpretive dance” – po prostu nie jest to odpowiedni język dla tego typu zadań.

Niemożność ciągłej kontroli: Prompt „raise the pitch” może dać jakiś rezultat, ale AI nie rozumie, co to pitch, więc nie można stworzyć suwaka do płynnej kontroli wysokości dźwięku, jak w syntezatorze.

Powrót do strukturalnych rozwiązań

Prelegent przewiduje, że po fad-zie interfejsów chatowych nastąpi resurgence tradycyjnych rozwiązań. Niektóre narzędzia do tworzenia grafik już odchodzą od promptów, ponieważ nikt nie rozumie, jak manipulować abstrakcyjnymi parametrami przez słowa.

Zamiast tego potrzebujemy interfejsów, które pomagają użytkownikom zrozumieć, jak kontrolować zmienne – prawdopodobnie nie słowami, ale przez tradycyjne elementy UI z dodatkiem inteligentnych sugestii.

Wpływ popkultury na oczekiwania wobec AI

Spool identyfikuje znaczący wpływ science fiction na obecne oczekiwania wobec AI. Lata „indoktrynacji” przez Star Trek, Star Wars i postacie jak Data z Next Generation ukształtowały wyobrażenia o tym, jak powinna wyglądać interakcja z AI.

Gdy ludzie widzą interfejs konwersacyjny, automatycznie myślą: „to jest jak w tych serialach, więc AI musi być tuż-tuż”. Ta popkulturowa optymizacja science fiction napędza nierealistyczne oczekiwania wobec obecnej technologii.

Presja biznesowa pogłębia problem. Inwestorzy i wykonawcy szukają nowych sposobów na generowanie miliardów, bo niewiele ulepszeń obecnego oprogramowania może już zapewnić takie zyski. AI stało się „następną wielką rzeczą”, w którą wszyscy muszą zainwestować, żeby nie zostać w tyle.

Ta kombinacja popkulturowych fantazji i presji finansowej tworzy mit, że jeśli organizacja nie stanie się „AI-centric”, zostanie zdominowana przez konkurencję. Rezultat: firmy pakują AI do produktów nie dlatego, że to ma sens, ale dlatego, że „tak trzeba”.

Interfejsy konwersacyjne to powrót do przeszłości

Spool podkreśla, że interfejsy konwersacyjne wcale nie są rewolucją. Gdy zaczynał karierę w IT, większość interakcji była tekstowa i oparta na wierszu poleceń.

Różnica między menu a wierszem poleceń sprowadza się do rozpoznawania versus przypominania. W menu klikasz na słowa, które widzisz – czasowniki jak „print” czy „open” albo rzeczowniki jak „męskie buty”. Budowanie zdań przez klikanie nie różni się znacząco od pisania ich ręcznie.

Widzieliśmy to już wcześniej z wyszukiwarkami. Ludzie myśleli, że można pozbyć się wszystkich menu i kategorii, zostawiając tylko wielkie pole wyszukiwania. To działało, gdy wiedziałeś dokładnie, czego szukasz – jak tytuł książki. Jednak gdy szukałeś prezentu dla sześcioletniej siostrzenicy, wpisanie odpowiedniego zapytania było trudne.

Dlatego widzimy, że pierwsza generacja interfejsów AI wprowadza przykładowe prompty i modele. To odpowiednik przycisków i opcji menu – pokazują możliwości bez konieczności zgadywania.

Nieliniowość to iluzja

W sesji Q&A Spool adresuje ważne pytanie o pozorną nieliniowość interfejsów chatowych. Można by pomyśleć, że rozmowa pozwala na swobodne przeskakiwanie między tematami, podczas gdy tradycyjne interfejsy prowadzą linearnie przez kroki.

Prelegent wyjaśnia, że to złudzenie. Ludzie i tak żyją w linearnym świecie. Podaje przykład pracy nad cancer.gov – gdy projektował dla opiekunów chorych na raka, nie można było pomyśleć o tym linearnie. Ludzie chcieli wiedzieć o prognozie, opiece, komforcie – wszystko jednocześnie.

To nie jest problem interfejsów konwersacyjnych, ale architektury informacji. Tak jak arkusz kalkulacyjny ma miejsca z flow (kreator wykresu prowadzi przez kroki) i miejsca bez flow (dwuwymiarowa siatka), tak interfejs AI może mieć strukturę i swobodę jednocześnie.

Kluczem jest zrozumienie, czy użytkownik przeskoczył kontekst celowo, czy po prostu nie rozumie, gdzie go próbujemy prowadzić.

Badania UX w erze AI

Spool zauważa, że tradycyjne taktyczne badania UX nie wystarczą w świecie AI. Potrzebujemy strategicznego podejścia, które naprawdę rozumie doświadczenia użytkowników.

Jeśli budujesz system dla lekarzy do transkrypcji dokumentacji medycznej, musisz głęboko zrozumieć różne typy doświadczeń lekarzy. Co się dzieje, gdy lekarz z mocnym akcentem wymawia nazwy leków, a system słyszy je jako inne leki? W skali dokładności musisz wprowadzić weryfikacje i zabezpieczenia.

Kaiser Permanente przetestowało swój produkt transkrypcyjny z 10,000 lekarzy. Zrozumienie, jak pracować w takiej skali, jest niezbędne. Większość dzisiejszych badań to badania taktyczne – testowanie użyteczności, wywiady, ankiety. W środowisku AI ludzie będą się z tym zmagać.

Jak przekonać stakeholderów do badań

Prelegent oferuje dwa główne podejścia do przekonywania kierownictwa:

Mów o ryzyku – jeśli produkt nie zadziała, kto znajdzie się w tarapatach? Badania to sposób na zmniejszenie prawdopodobieństwa porażki. Założenie, że wszyscy klienci są tacy sami, to błąd.

Wykorzystaj historię firmy – zbierz dane o produktach, które nie spełniły oczekiwań. Firmy, które historycznie nie prowadziły dobrych badań, prawdopodobnie mają za sobą produkty generujące niechciane efekty: więcej telefonów do support, przeciążonych account managerów, zmarnowane zasoby developmentu.

Problem first-time experience

W sesji Q&A Spool adresuje kluczowy problem: moment, gdy użytkownik po raz pierwszy widzi wygenerowany przez AI rezultat. To często punkt największej frustracji – „ogromny spadek na rollercoasterze frustracji”.

Tradycyjne rozwiązania jak „Edit”, „Start over” czy „Try again” to tylko plasterki. Prawdziwy problem leży głębiej – w przepaści między tym, czego użytkownik oczekuje, a tym, co AI potrafi dostarczyć.

Prelegent sugeruje, że rozwiązaniem może być integracja AI z konwencjonalnymi narzędziami domeny. Zamiast standalone AI do muzyki, lepiej włączyć AI do istniejącego edytora muzycznego – tak jak Adobe dodało „smart delete” do Photoshopa. Jednak generyczni gracze AI nie są tym zainteresowani.

Ostatecznie, jak zauważa Spool, „nie da się nauczyć kompozycji muzycznej bez nauki kompozycji muzycznej”. Można eksperymentować i bawić się, ale żeby stworzyć coś więcej niż przypadkowe eksperymenty, nadal trzeba zrozumieć podstawy danej dziedziny. Nawet Mozart, choć zaczął bardzo wcześnie, musiał się uczyć.

Praktyczne ograniczenia i wyzwania

Spool nie ukrywa problemów, z którymi zmaga się branża AI:

Dotacje miliarderów – obecne platformy są całkowicie dotowane przez inwestorów; ChatGPT traci miliard dolarów dziennie, żeby oferować usługę prawie za darmo
Przyszłe koszty – gdy dotacje znikną, korzystanie z platform stanie się nieopłacalne dla większości użytkowników
Własność intelektualna – prawa autorskie nie nadążają za technologią, ale ostatecznie pojawią się dodatkowe koszty licencyjne
Kradzież treści – wszystko zbudowane na LLM opiera się na skradzionej własności, co prelegent nazywa „kolonializmem na nowo”
Niewolnicza praca – praktyki związane z trenowaniem modeli są problematyczne pod względem etycznym
Wpływ na środowisko – serwery generują za dużo ciepła, zużywają za dużo energii i wody, co ma realny wpływ na środowisko

Powrót do podstaw

Mimo wszystkich wyzwań, Spool podkreśla, że fundamentalne umiejętności UX się nie zmieniły. Nadal chodzi o dostarczanie najlepszej wartości klientom.

Projektując chatbota do obsługi klienta, system powinien dawać wskazówki, w czym jest dobry. To prowadzi prosto do starych struktur – przycisków, kategorii tekstowych, rzeczy, które można rozwijać. Wracamy do architektury informacji.

Aby naprawdę zrozumieć projektowanie interfejsów konwersacyjnych, prelegent zaleca powrót do podstaw architektury informacji. Poleca książki Abby Covert „How to Make Sense of This Mess”, „Information Architecture” (książka o polarnym niedźwiedziu) i fantastyczną książkę Eriki Hall o projektowaniu do rozmów.

Praktyczna checklista dla projektantów UX

Przed rozpoczęciem projektu AI

Oceń realistyczne oczekiwania – czy stakeholderzy rozumieją ograniczenia obecnej technologii AI?
Zidentyfikuj rzeczywiste potrzeby – czy AI rzeczywiście rozwiązuje problem użytkowników, czy jest dodane „dla fajności”?
Przygotuj się na badania strategiczne – czy masz budżet i czas na głębokie zrozumienie doświadczeń użytkowników?

Ocena projektu przez pryzmat SOUR

Dokładność – jak system będzie radzić sobie z błędami i halucynacjami?
Przewidywalność – czy niespójne odpowiedzi będą problemem dla użytkowników?
Łatwość kontroli – czy przewidujesz wsparcie dla promptowania, czy alternatywne interfejsy?
Kompletność szczegółów – ile iteracji użytkownicy będą musieli wykonać, aby otrzymać satysfakcjonujący rezultat?
Obserwowalność – czy system może wyjaśnić swoje decyzje w sposób zrozumiały dla użytkowników?
Uczenie się – czy system faktycznie będzie się poprawiał, czy to tylko marketingowa obietnica?
Szybkość – jaki jest akceptowalny czas odpowiedzi dla Twojego przypadku użycia?
Świadomość kontekstu – ile kontekstu system musi znać, aby być użyteczny?

Projektowanie interfejsu

Zaprojektuj wskazówki – czy system pokazuje, w czym jest dobry i jakie ma ograniczenia?
Przewiduj przykładowe prompty – czy dajesz użytkownikom punkty wyjścia zamiast pustego pola?
Zaplanuj alternatywne ścieżki – czy masz opcje dla użytkowników, którzy nie radzą sobie z promptowaniem?
Przygotuj się na błędy – jak system będzie komunikował niepewność i błędy?

Czerwone flagi w projektach AI

Brak badań użytkowników – czy organizacja opiera się tylko na analytics, ignorując doświadczenia użytkowników?
Presja na szybkie wdrożenie – czy stakeholderzy chcą wypuścić AI „bo tak trzeba”, bez zrozumienia potrzeb?
Nikt nie myśli o użytkownikach – czy jesteś jedyną osobą w zespole, która zadaje pytania o rzeczywiste potrzeby?
Brak zrozumienia ograniczeń – czy decision makers wierzą w science fiction zamiast rzeczywistości?
Niedofinansowanie badań – czy budżet przewiduje tylko development, pomijając research?

Polecane książki

Na podstawie prezentacji prelegent wymienia następujące pozycje:

„How to Make Sense of This Mess” – Abby Covert
„Information Architecture” (książka o polarnym niedźwiedziu)
Książka Eriki Hall o projektowaniu do rozmów
„Murderbot Diaries” – seria o AI z problemami emocjonalnymi (osobista rekomendacja prelegenta)

Kluczowy insight

Paradoks powrotu do przeszłości

Standardowo myślimy: Interfejsy konwersacyjne to przyszłość, która zastąpi tradycyjne menu i przyciski

W praktyce okazuje się, że: Im dłużej ludzie używają chat interfejsów, tym bardziej potrzebują tradycyjnej struktury (menu, kategorie, przykłady)

Dlaczego to jest istotne: Prelegent przewiduje, że po „fad-zie” interfejsów chatowych nastąpi resurgence tradycyjnych rozwiązań, bo ludzie gubią się w pustym polu tekstowym bardziej niż w uporządkowanej strukturze. „Przyszłościowe” rozwiązania często są krokiem wstecz w użyteczności.

Test na jutro: Następnym razem gdy projektujesz „nowoczesny” interfejs AI, zamiast ukrywać strukturę dodaj więcej wskazówek, przykładów i kategorii – i sprawdź, czy użytkownicy szybciej znajdują to, czego szukają.

Ten wpis jest częścią mojej kolekcji notatek z ciekawych podcastów, webinarów i innych treści, które uważam za wartościowe i do których sam chcę wracać. Jeśli chcesz sprawdzić oryginalne źródło, znajdziesz je tutaj: Why Designing for GenAI is Different

Dlaczego projektowanie dla AI jest inne – notatki z prezentacji Jareda Spoola EN206