OpenRouter - testuj jakość odpowiedzi modeli LLM

•

Przy każdym nowym modelu LLM widzę to samo w socialach "Zobacz, jaki ten model jest głupi!". Moja rada co do testowania: 1) Załóż konto na OpenRouter 2) weź prompta, którego używasz na co dzień i działa on DOBRZE 3) Wrzuć go do kilku modeli. Zobacz, czy w tym nowym działa LEPIEJ 4) Weź prompta, który działa KIEPSKO i wrzuć go do kilku modeli. Zobacz, czy w tym nowym zaczął działać OK

Jeśli nowy model lepiej poradził sobie z TWOIM promptem, to dla Ciebie jest lepszy - brawo! Jeśli nowy model poprawił skuteczność mało stabilnego prompta, to znów dla Ciebie będzie lepszy (ale i tak popracuj nad promptowaniem 🫵😉).

Te testy są subiektywne, ale tylko takie eksperymenty będą użyteczne z Twojej perspektywy. Wynik w stylu "model ZZZ sprawdził się o 3.9% lepiej u 49% mieszkańców Zanzibaru" wiele nie zmieni w Twoim życiu i pracy.

Nie ma sensu pytać modeli, która kreska jest dłuższa, ile literek R jest w wyrazie albo kto wygrał w zawodach szachowych w Kropkowicach Małych w 1976 roku. To nie są zadania, które docelowo (produkcyjnie) będzie wykonywać model - testuj go na wyzwaniach z codziennej pracy.

A po co Ci OpenRouter? To najtańsza opcja, aby przetestować dziesiątki komercyjnych modeli LLM. Konto na każdej platformie z LLM trzeba doładować kwotą $5-10. Potrzebujesz sporo kasy na testy. OpenRotuer doładowujesz jednym przelewem (~40zł) i testujesz, co zechcesz.