Przy każdym nowym modelu LLM widzę to samo w socialach
"Zobacz, jaki ten model jest głupi!".
Moja rada co do testowania:
1) Załóż konto na OpenRouter
2) weź prompta, którego używasz na co dzień i działa on DOBRZE
3) Wrzuć go do kilku modeli. Zobacz, czy w tym nowym działa LEPIEJ
4) Weź prompta, który działa KIEPSKO i wrzuć go do kilku modeli. Zobacz, czy w tym nowym zaczął działać OK
Jeśli nowy model lepiej poradził sobie z TWOIM promptem, to dla Ciebie jest lepszy - brawo!
Jeśli nowy model poprawił skuteczność mało stabilnego prompta, to znów dla Ciebie będzie lepszy (ale i tak popracuj nad promptowaniem 🫵😉).
Te testy są subiektywne, ale tylko takie eksperymenty będą użyteczne z Twojej perspektywy.
Wynik w stylu "model ZZZ sprawdził się o 3.9% lepiej u 49% mieszkańców Zanzibaru" wiele nie zmieni w Twoim życiu i pracy.
Nie ma sensu pytać modeli, która kreska jest dłuższa, ile literek R jest w wyrazie albo kto wygrał w zawodach szachowych w Kropkowicach Małych w 1976 roku.
To nie są zadania, które docelowo (produkcyjnie) będzie wykonywać model - testuj go na wyzwaniach z codziennej pracy.
A po co Ci OpenRouter? To najtańsza opcja, aby przetestować dziesiątki komercyjnych modeli LLM.
Konto na każdej platformie z LLM trzeba doładować kwotą $5-10. Potrzebujesz sporo kasy na testy.
OpenRotuer doładowujesz jednym przelewem (~40zł) i testujesz, co zechcesz.