Typefully

Pozwól modelom MYŚLEĆ - test LLM

Avatar

Share

 • 

15 hours ago

 • 

View on X

Mówi się, że modele językowe (LLM) dają lepsze wyniki, gdy pozwolimy im "myśleć na głos". Wiemy, że LLM-y słabo radzą sobie z matematyką. Postanowiłem więc zrobić prosty test... Matematyczny oczywiście 😈 🧵 ↓
Wybrałem do testu 5 modeli LLM: - Claude Sonnet 4.5 - Claude Opus 4.6 - LLama 4 Meverick - GPT-4.1 - Gemini 3 Flash Preview Tak, mogłem wybrać jeszcze z 5, ale te mnie interesowały :)
Każdy model otrzymał proste matematyczne zadanie do wyliczenia: 2^(5+5)+4*16/2-0.2*50/10 To tylko potęgowanie, dodawanie, odejmowanie, mnożenie i dzielenie. Brak skomplikowanych operacji matematycznych. Dodałem tam dla utrudnienia ułamek dziesiętny i nawiasy.
Wysłałem do modeli dwa zapytania jak na screenie, ale różniły się formatem zwracanego JSON-a. Za pierwszym razem prosiłem: - daj wynik i powiedz, jak do tego doszedłeś Za drugim: - powiedz, jak to obliczyłeś i daj wynik Poprawny wynik obliczeń to 1055.
Metoda "Dawaj wynik!" - uruchomiona 3x Sonnet 4.5 → 1054, 1052, 1040 GPT-4.1 → 1044, 1048, 1044 LLama 4 → 1004, 38, 68 💩 Gemini 3 Flash → 1054, 1054, 1054 Opus 4.6 → 1055, 1055, 1055 🏆
Widać, że Opus tutaj wymiata, Gemini jest pewny siebie i nie zmienia zdania, a LLama... wypadała najbardziej lamersko. Ale nie jestem 'złą nauczycielką z podstawówki' i postanowiłem sprawdzić nie tylko wynik, ale i reasoning, czyli zobaczyć 'jak uczeń doszedł do wyniku'.
Tutaj wyniki były zaskakujące, bo 100% z modeli otrzymało wynik 1055. Claude jako jedyny w reasoningu poprawił się, że podał zły wynik. Najbardziej pewna siebie była LLama. Wynik = 68 Obliczenia = 1055 Ostatnie zdanie reasoningu: "So everything matches the calculations!" 🤪
Drugi eksperyment to zamiana struktury JSON z: {"result":"...","reasoning":"..."} Na: {"reasoning":"...", "result":"..."} Efekty były ciekawe :)
Sonnet 4.5 → 1055, 1055, 1055 GPT-4.1 → 1055, 1055, 1055 LLama 4 → 1055, 1055, 1055 Gemini 3 Flash → 1055, 1055, 1055 Opus 4.6 → 1055, 1055, 1055 3/3 testy dawały poprawne wyniki dla każdego z modeli.
Nawet słabe modele, gdy pozwolimy im "pomyśleć na głos" dają lepsze efekty niż odpowiedź bez myślenia. "Myślenie" zwiększa koszty odpowiedzi (generuje zbyteczne tokeny), ale pozwala nam używać niekiedy dziesiątki razy tańszych modeli, co może spowodować oszczędności.
Tryb reasoningu, gdy modele wrzucają nam na ekran swoje przemyślenia, nie jest "ficzerem dla usera". One robią to dla siebie - w ten sposób myślą i ulepszają ostateczną odpowiedź. Nawet jeśli model nie oferuje opcji "Thinking/Reasoning", możemy mu ją sztucznie dodać - jak wyżej.
Czyste LLM-y (bez wywoływania matematycznych tooli) nigdy NIE powinny być używane do wykonywania zadań matematycznych. Wiedziałem, że na nich polegną (no dobra... kujon Opus nie poległ), ale chciałem sprawdzić, czy jak pozwolę im myśleć, to pójdzie im lepiej. Tak - pójdzie :)
Avatar

Jakub Mrugalski 🔥

@uwteam

🤖 Piszę o technologii, AI, automatyzacji, cybersecurity i biznesie. 🛠 Dzielę się użytecznymi narzędziami i case-study 🤔 #DigitalEUAmbassador 🛑 Nie czytam DM