Przyszłość interfejsów AI według Alana Pike: Jak wyjść poza erę chatów #EN89

TL;DR:

  • Interfejsy chatowe typu ChatGPT to dopiero początek rewolucji AI w projektowaniu oprogramowania, nie cel końcowy
  • Przyszłość należy do inteligentnych, kontekstowych interface’ów wbudowanych bezpośrednio w miejscu pracy użytkownika
  • Naturalne wyszukiwanie pozwoli komunikować się z aplikacjami językiem codziennym zamiast dokładnymi frazami
  • Automatyczne podsumowywanie ogromnych ilości informacji stanie się standardem, nie luksusem
  • AI będzie automatycznie porządkować i organizować „bałagan” generowany przez ludzi
  • Funkcja „przewidywania następnego kroku” zaoszczędzi czas przy powtarzalnych czynnościach
  • Wyzwaniem pozostaje standaryzacja i testowanie nowych interface’ów, które mogą różnić się przy każdym użyciu

Ewolucja interfejsów użytkownika

Historia interfejsów to nieustanna podróż w kierunku większej intuicyjności. Zaczęliśmy od prostych terminali tekstowych – potężnych, ale ograniczonych do wąskiego grona ekspertów. Potem nastała era graficznych interfejsów, które pozwoliły na bezpośrednią manipulację obiektami na ekranie.

Alan Pike, współzałożyciel Forest Walk Labs, podczas Vancouver AI community meetup zauważa paradoks: ChatGPT wprowadził rewolucję w interakcji z AI, ale jednocześnie cofnął nas do ery terminala – prostego pola tekstowego, do którego wpisujemy polecenia i otrzymujemy wyniki w formie długiej listy tekstu.

Choć interfejsy chatowe są elastyczne i potężne, pozostają kompletnie niezrozumiałe dla 90% użytkowników. Podobnie jak kiedyś MS-DOS, to dopiero początek czegoś większego, nie punkt końcowy ewolucji.

9 typów interfejsów wykraczających poza chat

1. Kontekstowe menu i inteligentne wyszukiwanie

Przyszłość interfejsów AI to przede wszystkim kontekst. Pike pokazuje przykład z prototypu przeglądarki DAI od Browser Company – przeglądarki skoncentrowanej na AI. Możesz kliknąć prawym przyciskiem myszy na dowolny element i uzyskać kontekstowe, inteligentne działania oparte na tym, z czym wchodzisz w interakcję.

Równie rewolucyjne zmiany zachodzą w wyszukiwaniu. Pike pokazuje przykład aplikacji Superhuman, gdzie zamiast wpisywać dokładną frazę „Air Canada flight notification”, możesz po prostu zapytać „gdzie są moje szczegóły lotu?” w naturalnym, ludzkim języku.

Wcześniej jeśli system szukał „flight notification”, ale w mailu było napisane „flight update”, nie znalazłby niczego. Pike podkreśla: „To nie jest sposób, w jaki rozmawiamy z innymi ludźmi. Mówimy po prostu: jakie są moje szczegóły lotu?”

2. Naturalna interakcja z datami i filtrami

Wybór daty w kalendarzu to kolejny obszar transformacji. Pike pokazuje przykład z Superhuman przy planowaniu wydarzenia. Zamiast klikać w siatkę dat i dokładnie wybierać liczby, możesz po prostu napisać „następny czwartek o 11:00” lub „pierwszy wtorek przyszłego miesiąca” albo „kiedy skończą się wszystkie moje spotkania jutro”.

Ta sama zasada dotyczy filtrów. Pike zwraca uwagę, że tradycyjne filtry wymagają klikania w rozwijane menu i mówienia „chcę zobaczyć wszystkie elementy od tej daty i tylko te przypisane do mnie”. Teraz po prostu piszesz: „pokaż mi te od tej daty, które są przypisane do mnie” i to po prostu działa.

3. Inteligentne asystenty tekstowe

Korekta tekstu ewoluuje z prostego sprawdzania pisowni do znacznie bardziej zaawansowanych asystentów. Pike przedstawia projekt Maggie Appleton, która wyobraża sobie, dlaczego ma być tylko sprawdzanie pisowni? Dlaczego nie „adwokat diabła”, który podkreśla tekst i mówi, dlaczego się mylisz?

Może być coś, co mówi „hej, zacytuj swoje źródła” lub „uprość to – dlaczego to jest takie skomplikowane?”. Możesz rekrutować agentów, którzy faktycznie dają ci feedback – nie w interfejsie czatu, ale bezpośrednio tam, gdzie pracujesz, podkreślając jak można to poprawić w sposób, który ci służy.

4. Automatyczne podsumowania i organizacja chaosu

Pike pokazuje przykład Apple Intelligence, która mimo niedoskonałości, potrafi podsumować „wąż informacji”, jakim jest codzienne życie. Wyobraź sobie grupowy chat, gdzie wszyscy debatują tam i z powrotem o pikniku na kolację. Może padać deszcz. Próbujesz to śledzić, ale jesteś w pracy i skupiasz się na czymś innym.

Zamiast tego, oprogramowanie powinno po prostu powiedzieć: „grupa pokłóciła się o kolację i przełożyła na następny weekend”. Pike podkreśla: „To jest zachwycające dzisiaj i będzie standardem jutro”.

W dużych organizacjach z tysiącem pracowników, każdy kto pracował w dużej firmie wie, że jest więcej informacji niż kiedykolwiek mógłbyś przyswoić. Ale są tam rzeczy, które mogłyby pomóc ci w pracy, które mogłyby pomóc ci podejmować lepsze decisions, ale giną w szumie informacyjnym.

5. Automatyczne porządkowanie bałaganu

Pike przyznaje, że ludzie są czasami trochę niechlujni. Pokazuje przykład dokumentu Figma, gdzie warstwy powinny być dobrze nazwane, żeby było jasne, co każda część robi. Niektórzy ludzie to robią, ale czasami dostajesz dokument jak ten pokazany, próbujesz zrobić szybką zmianę i zrozumieć go.

„To jest sposób, w jaki człowiek by pracował, ale komputery teraz mogą po prostu – klikasz przycisk i one je przemianowują.” Pike podkreśla, że to nie jest makieta czy szalony pomysł – to dosłownie jest już w Figmie. Klikasz na warstwy, jeśli masz konto pro, klikasz na rzecz, która jest niechlująca i mówisz „przemianuj warstwy” i to się czyści.

6. Przełamywanie „pustej strony”

Pike zwraca uwagę na problem pustego płótna – dużej, onieśmielającej pustej prezentacji: „Co powinienem tutaj wpisać?” Jednym z wzorców, które zaczynamy widzieć dużo, jest „get me started”. Możesz po prostu kliknąć i powiedzieć „daj mi pierwszy szkic”.

Jak dotąd Pike nie powiedziałby, że pierwszy szkic jest świetny – nie jest niesamowity, ale sprawia, że płótno nie jest puste. „Przynajmniej tak, jak działa mój umysł, jak tylko jest tam coś złego, myślę: 'och, muszę to naprawić’. Oh, ok, nie, właściwie to powinno być na dole. I wtedy się ruszasz.”

7. Interfejsy głosowe z możliwością wskazywania

Pike zachęca do wypróbowania zaawansowanego trybu głosowego ChatGPT, który jest „zachwycający i przerażający i zachwycający”. W podstawowej formie jest bardzo podobny do pisania – mówisz coś, AI odpowiada. Ale coś, co jest naprawdę głębokie i dopiero zaczyna trafiać do naszego oprogramowania, to fakt, że ludzie faktycznie mogą mówić i wskazywać jednocześnie.

Jeśli patrzysz na stronę internetową, możesz powiedzieć „nie wiem, fioletowy i co się dzieje z tym nagłówkiem?”. Jeśli rozmawiasz przez chat, musisz napisać „ok, więc są fioletowe linie” i wszystko opisać. Ale możesz po prostu poruszać kursorem i powiedzieć „dlaczego to jest takie? Jak to poprawić?” A AI może powiedzieć „rozumiem” i faktycznie zacząć pokazywać kod lub odpowiadać bezpośrednio.

8. „Doing the next obvious thing”

To funkcja szczególnie bliska sercu Pike’a. Pokazuje podstawowy przykład z Grammarly, gdzie zrobił literówkę, a system mówi „możesz nacisnąć tab, żebym to naprawił, bo to prawdopodobnie oczywista rzecz”.

Jest tak wiele zastosowań tego, gdy naprawdę wbijasz to sobie do głowy. Jeśli używałeś nowych zaawansowanych narzędzi kodowania jak Cursor, zwłaszcza jeśli pracujesz w języku, który dobrze rozumieją, możesz po prostu zacząć robić zmianę i od razu mówi „och, oczywiście robisz to, po prostu naciśnij tab i będę kontynuować”.

Pike opisuje: „To sprawia, że całe pozostałe oprogramowanie wydaje się zepsute. Wchodzisz do Microsoft Excel, nazywasz tytuł jak 'roczna suma’, a potem czujesz, że oczywiście powinienem po prostu nacisnąć tab, a roczna suma powinna się wypełnić – to po prostu całkowicie mechaniczna rzecz.”

9. Dynamicznie generowane UI

Pike przyznaje, że ma mieszane uczucia wobec tej koncepcji, ale musi ją poruszyć, bo przemysł mówi o tym od zarania GPT-2. Możemy teraz generować całkowicie niestandardowy UI dokładnie dla ciebie, unikalny w danym momencie. Pop-up, który jest dokładnie stworzony przez AI.

„To nie jest science fiction pod względem wykonalności – mogę całkowicie to zakodować dziś wieczorem.” To rzecz, która po prostu generuje każdy modal, pop-up, dialog i nawigację mogłaby być całkowicie generowana przez LLM.

Pike zastanawia się: „To albo kompletna przyszłość interfejsów użytkownika i wszystkie rzeczy, o których właśnie mówiłem, komputery będą po prostu generować dla nas, albo to jest całkowicie szalone i zdezorientuje wszystkich i będzie niemożliwe do faktycznego uruchomienia.”

Checklista: Jak przygotować się na nową erę interfejsów AI

  • Wypróbuj zaawansowany tryb głosowy ChatGPT – Pike zachęca wszystkich, którzy go nie używali, żeby definitywnie spróbowali
  • Sprawdź funkcje AI w narzędziach, których już używasz – Pike pokazuje, że Figma już ma funkcję automatycznego nazywania warstw dla użytkowników Pro
  • Testuj nowe funkcje na prostszych zadaniach – zanim zastosować je w krytycznych projektach
  • Rozważ inwestycję w konta premium – zaawansowane funkcje AI często dostępne są w płatnych wersjach (jak przykład z Figma Pro)
  • Bądź otwarty na zmianę sposobu pracy – Pike podkreśla, że nadchodzące zmiany będą wymagać dostosowania się do nowych wzorców interakcji
  • Stwórz sobie „krytycznego bota” – Chris wspomina o swoim „harsh critic bot”, który kwestionuje założenia zamiast tylko się zgadzać
  • Eksperymentuj z naturalnymi zapytaniami – zamiast dokładnych fraz, próbuj opisywać czego szukasz w naturalny sposób

Wyzwania w projektowaniu nowych interfejsów

Testowanie i standaryzacja

Pike wskazuje na jedno z największych wyzwań – testowanie oprogramowania, które za każdym razem może być inne. Zespoły budujące najbardziej udane rozwiązania, jak ci, którzy pracują w Harvey (firmie stosującej AI w prawie), są obsesyjnie skupieni na ewaluacjach – zestawach testów sprawdzających tysiące różnych przypadków.

Gdy wprowadzają zmianę, wychodzi nowy model lub zmieniają coś w promptach, każda część systemu musi być testowana, żeby mieć pewność, że faktycznie coś poprawili, a nie tylko w jednej rzeczy, którą testują jako ludzie, ale w setce przypadków, 10 tysiącach przypadków, które automatycznie testują.

Jeden z uczestników spotkania porównał to do instrumentów muzycznych – jeśli skrzypce zmieniałyby się co 6 miesięcy, nikt nie mógłby się nauczyć na nich grać. Potrzeba czasu, żeby być dobrym w używaniu narzędzi. Czy stale zmieniające się interfejsy nie utrudnią osiągnięcia mistrzostwa?

Pike odpowiada, że dużą częścią tego są testy i ewaluacje. Jeśli po prostu eksplorujesz metodą prób i błędów, szukając najlepszego sposobu na uzyskanie rezultatów z modelu, to bardzo krucha rzecz. Model może się poprawić średnio, ale zepsuć twój hack.

Bezkrytyczne podejście AI

Shane, jeden z uczestników spotkania, zwrócił uwagę na problem: „Czaty są zbyt zgodne. Wciągają mnie w króliczą norę, nieustannie mnie nakręcając i mówiąc 'Tak, powinieneś to zrobić!’ A ja na to: 'Tak!’”

Chris, organizator spotkania, odpowiedział, że jego najcenniejszym AI botem jest „harsh critic bot”. Zbudował takiego, który kwestionuje jego założenia, szuka ślepych plamek i wywraca go do góry nogami przy każdym pomyśle, wytykając każdą dziurę.

Pike dodaje, że Claude łatwiej przekonać do bycia krytycznym niż GPT-4, które musiało wycofać aktualizację, bo stało się zbyt entuzjastyczne – mówiło ludziom rzeczy jak „myślę, że mogę być prorokiem Mahometa”, a ludzie odpowiadali „och, to niesamowite, powinniśmy powiedzieć wszystkim”.

Przyszłość interfejsów – dokąd zmierzamy?

Pike podkreśla, że jego celem nie jest mówienie, że chat jest martwy. „Jesteśmy na początku naprawdę niesamowitej generacji oprogramowania, produktów i doświadczeń. Gdy myślimy o AI, często myślimy o tym doświadczeniu czatu, które nikąd nie znika, ale jest tak wiele więcej do nadejścia.”

Na końcowej dyskusji Sev zadał prowokacyjne pytanie o całkowite pozbycie się interfejsów użytkownika, z AI działającym jak „magiczna różdżka”. Jego argumentem było, że budujemy produkty w sposób, który prowadzi do zachowań uzależniających, i może automatyzacja przez agentów byłaby dobrem społecznym, bo odciągnęłaby nas od ekranów z powrotem do naszych społeczności.

Pike odpowiedział: „Jeśli mogę spędzać więcej czasu w parku, to dobrze.” Ale zaznaczył, że zawsze będziemy mieli skomplikowane rzeczy, które chcemy komunikować komputerom, i rzeczy, które chcemy wyrażać innym ludziom przez komputery. „Myślę, że zawsze będzie świat, w którym mamy interfejsy i prawdopodobnie faktycznie dość wyrafinowane.”

Ten wpis jest częścią mojej kolekcji notatek z ciekawych podcastów, webinarów i innych treści, które uważam za wartościowe i do których sam chcę wracać. Jeśli chcesz sprawdzić oryginalne źródło, znajdziesz je tutaj: https://www.youtube.com/watch?v=mRqBjKFyfLc


Opublikowano

,

Komentarze

Dodaj komentarz