Głosowe delegowanie researchy do Perplexity

•

Nauczyłem swojego asystenta AI delegowania researchy do Perplexity. Nie sądziłem, że będzie to takie łatwe, a zarazem użyteczne. Jak to zrobiłem? 🧵 ↓

Korzystam z własnego "asystenta AI". To zbiór kilkudziesięciu automatyzacji wyklikanych w Make, które przyspieszają moją pracę i ułatwiają codzienne zadania. Z asystentem porozumiewam się na kilka sposobów, a jednym z nich jest wysyłanie "głosówek" na Telegramie.

Nie chcę tutaj rozpisywać całego działania asystenta, a jedynie skupić się na nowej jego funkcji. Co do głosówek: Nagrania są pobierane przez bloczek "Telegram", a następnie wrzucane do Whispera od OpenAI. W ten sposób otrzymuję wierną transkrypcję tego, co powiedziałem.

Pierwszy bloczek widoczny na screenie to "transformacja w ustrukturyzowane dane". Zmieniam moją notatkę w plik JSON, który ma dwa pola: ↳ tytuł (jak nazwać to, czego szukam?) ↳ zapytanie (przebudowanie tego, co powiedziałem na zadanie dla Perplexity)

W praktyce wygląda to tak: INPUT: znajdź mi listę miejsc, które mogę odwiedzić z dziećmi 10 lat we Wrocławiu. Wpadnę tam w sobotę, więc upewnij się, że będzie otwarte. Takie polecenie przebudowywane jest na wspomniany wcześniej JSON.

OUTPUT: { "title":"Sobotnia wyprawa do Wrocławia — atrakcje dla dzieci", "query":"Przygotuj spis miejsc we Wrocławiu, które nadają się dla dzieci w wieku około 10 lat. Atrakcje muszą być otwarte w sobotę." } Strukturę generuje mi model GPT-4o.

Kolejny krok to wysłanie na Telegrama potwierdzenia przyjęcia zadania. Dostaję powiadomienie w stylu: "Zabieram się za raport: TYTUŁ" Następnie dane z JSON trafiają do modułu "Perplexity" z modelem "sonar-deep-research". Operacja trwa to kilka minut.

Gdy Perplexity wygeneruje raport, zawiera on dwie części: - odpowiedź na pytanie - cały tok myślenia Nie potrzebuję analizy myślenia, więc za pomocą modułu do podmiany tekstu usuwam wszystko, co jest między tagami <think> i </think>. Na tym etapie mam już czysty raport.

Nie wysyłam go jednak od razu do siebie, tylko wrzucam jeszcze na chwilę do GPT-4o z prośbą o czytelne sformatowanie tego w HTML, z podziałem na śródtytuły, z odpowiednimi pogrubieniami itp. Taki raport lepiej mi się czyta. Dopiero w tej formie wysyłam go na swojego maila.

To jest ten moment, w którym musisz zapytać: "Eeeej! a nie prościej po prostu otworzyć Perplexity, wpisać czego potrzebujesz, poczekać i przeczytać 🤷‍♂️" Wszystko zależy od definicji słowa "prościej" i od tego, jak ktoś używa Deep Research. Do moich zastosowań tak jest wygodniej.

Będąc na spacerze, wpada mi do głowy jakaś myśl. Dyktuję więc: "Znajdź mi TOP10 polecanych kempingów dla kamperów w Chorwacji. Istria. Mają mieć prywatną plażę i atrakcje dla dzieci". Zapominam o sprawie i idę dalej. Nie ma netu? To się wyśle, jak będzie.

Nie przeszkadza mi, że wyniki muszę długo czekać. Takie maile z raportami sprawdzam wieczorami lub w weekendy, gdy sprzątam skrzynkę mailową. To nie są sprawy pilne. To są sprawy, które kiedyś trzeba załatwić.