Wczoraj testowo przez ponad godzinę dyskutowałem z nowym Advanced Voice Mode w ChatGPT. WOW! Niezłe to jest 🤯
KIlka wniosków i spraw technicznych 🧵 ↓
Jedną z najważniejszych nowych funkcji jest możliwość przerywania asystentowi w trakcie mówienia. To sprawia, że rozmowa jest naturalna.
Wygląda to tak:
- w Krakowie polecam zwiedzić Wawel oraz Sukiennice, które...
- a ile kosztują bilety na Wawel?
- 12 zł
- ok. mów dalej...
Krótkie demo z rozmowy
Utrzymanie uwagi jest na naprawdę wysokim poziomie.
"Rozmówca" cały czas wiedział, o czym mówimy, co już powiedziałem wcześniej i odwoływał się do faktów zebranych w poprzednich rozmowach (wprowadzono jakiś czas temu pamięć).
Zauważyłem także mocną poprawę jakości głosu (+dodali kilka nowych głosów). Nadal nie jest to idealny polski akcent, ale np. wymowa cyfr, która do tej pory nie wychodziła za dobrze, brzmi teraz OK.
Nie ma już zdań w stylu "w roku tys... @^%!$^%!@$... siódmym"
Kolejna sprawa to modulacja głosu. To jest naprawdę niesamowite.
Poprosiłem np. o to, żeby powiedział coś głosem czarnego charakteru z filmu kryminalnego — skrajnie mnie to zaskoczyło.
Podobnie np. gdy miał opowiadać bajkę dla dzieci. Też intonacja się zmienia na spokojniejszą.
Niestety, asystent odmówił imitowania głosów znanych postaci (nawet tych z kreskówek), powołując się na wewnętrzne zasady, jakie mu wprowadzono.
Chat zgodził się imitować mój sposób mówienia — wyszło słabo.
Imitowana jest intonacja i akcent, a nie barwa głosu.
Niesamowicie zaskoczyła mnie też responsywność odpowiedzi.
Szybkość udzielania odpowiedzi zbliżona jest do czasu reakcji człowieka.
Nie ma już tego oczekiwania na rozpoczęcie wypowiadania zdania jak w przypadku standardowej interakcji z czatem.
Co do wad, to są rzeczy, których nie jest świadomy i nie tak często przeprasza za błędy.
Zapytałem, jak długo już rozmawiamy. Twierdził, że 2 godziny.
Gdy zwróciłem mu uwagę, że to nie jest prawda, odpowiedział, że ten czas bardzo szybko leci i pewnie nie jestem tego świadomy.
O ile 'tradycyjny ChatGPT' potrafi skorzystać z netu i podać w miarę świeże informacje, to podczas zaawansowanej rozmowy głosowej działamy w trybie 'odciętej wiedzy', ale zakładam, że jest to ograniczenie na wczesnym etapie rozwoju projektu.
Nowy tryb jest aktualnie usługą testową i mocno limitowaną, ale chyba nikt nie wie, jakie to są limity.
Reddit podaje, że można rozmawiać do 2h dziennie.
W innym miejscu jest, że 2h to limit tygodniowy.
Ktoś też raportował, że po 45 minutach jego limit się wyczerpał.
Według mnie bliższy prawdy jest ten limit tygodniowy, ponieważ dzisiaj, gdy uruchomiłem aplikację, zobaczyłem komunikat informujący, że pozostało mi już tylko 12 minut rozmowy.
Advanced Voice Mode nie jest dostępny na terenie Unii Europejskiej.
Jak się domyślacie, w celu zdobycia dostępu, użyłem VPN-a, połączyłem się z siecią w taki sposób, aby mieć adres IP ze Stanów Zjednoczonych i uruchomiłem aplikację 🤷♂️
Minimalna wersja aplikacji to 1.2024.261.
Niestety, pomimo tego, że tryb zaawansowanej rozmowy aktywował się na moim koncie, to wyłączenie VPN-a spowodowało automatyczne wyłączenie tego trybu.
Po ponownym połączeniu i restarcie aplikacji wszystko wróciło do normy.
Czy OpenAI osiągnęło to, co znamy np. z filmu "Her"?
Moim zdaniem w 90% tak. Te brakujące 10% to możliwość interakcji z narzędziami, czyli "sprawdź mój kalendarz", czy "wyślij maila".
Zakładam jednak, że to czeka nas w najbliższej przyszłości.
Jeśli programiści otrzymają dostęp do API Advanced Voice Mode, a sam model ze wsparciem tej funkcji będzie obsługiwał np. function calling, to z developerskiego punktu widzenia będzie to niesamowity game changer.