חשיבה תהליכית - בינה מלאכותית במתמטיקה

•

הAI שפותר בעיות במתמטיקה, ועושה את זה נפלא! אני יודע שזה הוכרז הרגע, אבל אני מכה בברזל כל עוד הוא חם. מה פשר ההכרזה של OpenAI? איך זה שונה ממודל שפה רגיל? בואו איתי 🧵 >> #פידטק #פידאטה #פידטכנולוגיה

כדי להבין מה קורה כאן, צריך תפישה טובה של מה זה מודל שפה, לשירותכם בשרשור המצורף. אני גם ממליץ לקרוא את השרשור על AutoGPT כרקע, שמקושר בציוץ הבא. מודלי שפה חובה. AutoGPT אפשר בלי. נתחיל >> twitter.com/tsoofbaror/status/1651604337100050432

1. דיברנו כבר על Complex Reasoning בשרשור על AutoGPT. אפשר להסביר למודל שפה "איך לחשוב". להגיד לו שהוא צריך לתכנן, לבקר את עצמו, לתת סיבות ורק אז לפעול. הבעיה העיקרית היא תופעת ה"הזיות", הקטע הזה שמודל שפה אומר לכם שבנימין נתניהו הוא רקדנית בלט רומנייה >> twitter.com/tsoofbaror/status/1663244782997753856

2. וכשמדברים על מודלים שבנויים בשיטת הChain, שמבצעים פעולות בהדרגה מחשבה אחרי מחשבה, כל הזיה כזו מייצרת שגיאות מצטברות שמכשילות את המודל לגמרי בהגעה לפתרון הסופי. כדי לפתור בעיות במתמטיקה חייבים חשיבה משורשרת כזו. מתמטיקה היא תהליכית! >>

3. עשו כבר Fine Tune למודלים במתמטיקה, אבל עשו את זה בשיטה בשם OEM - Outcome-supervised reward models. תגמלו מודל אם הגיע לתשובה הנכונה. OpenAI מימשו PRMs - process-supervised reward models. במילים אחרות - It's about the journey, not the destination! בעצם לא "רק" היעד. >>

4. כל הרעיון הזה מתחבר לתחום מחקר מאד משמעותי של OpenAI, שנקרא AI Alignment, כלומר יישור הAI שיתחבר לערכים האנושיים. אם נבקר אותו גם על הדרך שלו ולא רק על התוצאה, נוכל למנוע ממנו להיות רע. הראו כבר שמודלים שמתוגמלים על תוצאה משתמשים חופשי בלוגיקה שגויה כדי להגיע אליה. >>

5. במאמר מ2022 שמצוטט, הכותבים אומרים שלא נראה הבדל בתוצאות כשניסו לאמן מודל בשתי השיטות (OEM וRPM) על מתמטיקה של יסודי. OpenAI עשו את זה, כאמור, בגדול. מודל חזק יותר, הרבה יותר Human Feedback ודאטהסט של מתמטיקה מסובכת. >>

6. קודם כל, וזה חשוב, מה שהם אימנו הוא מודל פרסים ולא מודל שפה. מה הכוונה? בשלב הFine Tune של מודל שפה משתמשים בRL, שזה אימון עם פרסים. לא ארחיב על זה, אבל בן אדם צריך לבדוק כל צעד ולתת למודל השפה פרס (או קנס) עליו. זה כמובן לא אפשרי ריאלית. לכן מה שעושים הוא לאמן מודל פרסים, >>

7. מודל שמסתכל על צעד בפתרון ומחליט כמה פרס לתת לו. נזכיר: באימון מודל שפה שני חלקים. החלק הראשון הוא האימון ה"יבש" של השלמת משפטים, שם הוא לומד שפה. השני הוא אימון RL עם פידבק אנושי. הם לקחו גרסה של GPT4 בלי החלק השני, ובעצם ביצעו רק אותה בעזרת מודל הפרסים שהם יצרו. >>

8. הניסויים בוצעו עם GPT4 שאומן קצת מראש להשתפר במתמטיקה. הם עשו אימון מקדים ככה שיתן תשובות קצרות ובפורמט קבוע בכל פעם. בקיצור, שיתאים למתמטיקה. הם יצרו דאטהסט שכולל 12k בעיות, להן 75k פתרונות מוצעים ו800k צעדים סה"כ - בצורה הבאה. >>

9. כל צעד יכול להיות מתוייג כנכון, ניטרלי או שגוי. כדי לייצר את הדאטהסט, הם נתנו לבודקים אנושיים לתייג דוגמאות שמודל הפרסים חשב שהדרך בהם משכנעת, אבל התשובה שגויה. כאלה מבלבלות, כדי שסט האימון יהיה מורכב מספיק. עושים את זה, ומאמנים שוב ושוב את מודל הפרסים מחדש. >>

10. אם זה לא היה ברור, מודל הפרסים צריך לעשות את מה שהאנשים עושים - להגיד האם כל שלב נכון, פשוט על מיליוני דוגמאות. בקיצור - מייצרים N פתרונות של מודל השפה לכל בעיה. בוחרים את הK עם הפרס הכי גבוה לפי מודל הפרסים - אבל שגויים! נותנים לאדם לתייג אותם באמת. ושוב, ושוב, ושוב. >>

11. שימו לב שזה מייצר Bias רציני לתשובות שגויות. הם מתייחסים לזה במאמר, אבל כאן לא נדבר על זה. לא מספיק חשוב. נמשיך. אחרי בניית מודל הפרסים, נותנים למודל השפה לפתור בעיה לפי שלבים. מודל הפרסים מחשב לו ניקוד לפי "ההסתברות שכל צעד שמודל השפה עשה נכון".

12. גם מודל הפרסים יכול לטעות, אז מכניסים את הביטחון שלו בהחלטה לניקוד הסופי. כדי שיהיה אפשר להשוות בין OEM לRPM, הם גם החליטו שברגע שמודל השפה בRPM עושה צעד לא נכון, הם עוצרים את החשיבה שלו. פתרון נכון צריך להגיע רק אחרי שלבים נכונים. >>

13. הם אומרים שזה גם הופך את ההשוואה להוגנת יותר, כי אם ניתן למודל RPM לענות על שאלה עד הסוף ניתן לו אפילו עוד יותר אינפורמציה על היכן הוא טעה, וזה יתרון לא הוגן מול הOEM, זה יותר זמן אימון. בכל מקרה, בואו נדבר תוצאות. >>

15. מה רואים בגרף? בציר הy, אחוז התשובות הנכונות. בציר הx, קורה הדבר הבא: כל מודל מייצר N פתרונות לבעיה, ונבדק כמה מהם נכונים (ציר הy). ניתן לראות שכשנותנים למודל הPRM לייצר הרבה פתרונות, הוא מייצר יותר פתרונות נכונים. לא אכנס למה זה הMajority Voting הזה, אבל זה בייסליין.

16. זה קצת מסובך יותר: אימנו מודלים בגדולים שונים, בצורות שונות, ביצעו עוד ניסויים שקצרה היריעה לתמצת 29 עמודים לשרשור אחד. המאמר מסיק מסקנה חשובה על Alignment. היה אפשר לחשוב שלנסות להתחיל להתאים את המודלים שיחשבו כמונו, בצורה "בטוחה", יהיה משהו שיגזול משאבים. פה אנחנו מראים >>

17. שכשאנחנו מבקרים את תהליכי החשיבה של המודל - אנחנו מקבלים תוצאות טובות יותר. כלומר, מה שהם מכנים הAlignment Tax, המחיר שאנחנו משלמים על מודלים שלא מסכימים לעזור לטרוריסטים - הוא בעצם שלילי, הAlignment משפר את ביצועי המודל. מסקנה קצת מרחיקת לכת לטעמי אבל ממש לא-לא נכונה. >>

18. וזהו! ראיתי את המאמר הזה ולצערי הייתי חייב לעזוב הכל לכתוב עליו, כי הוא פשוט מרתק! מה דעתכם על הרעיון? האם ככה יראה העתיד של אימון מודלי שפה? נאמן על שרשרת מחשבות, ולא על תוצאה? יש לי תחושה שכן.

אם זה השרשור הראשון שלי שאתם קוראים, היי! מזמין אתכם לחקור איתי את הקישקע של הAI, כל פעם בדרך אחרת. זה הזמן לעקוב אחרי: twitter.com/tsoofbaror מזמין אתכם לרטווט ולהגיב אם אהבתם, ולהתעלם לגמרי אם השתעממתם. 😍

דיסקליימר: יש הרבה "פרטים קטנים" שהשמטתי כדי שהדבר הזה יהיה קריא. המודלים לא בדיוק אומנו על אותו הדאטה, היו גדולים וקטנים, אז אני באמת ממליץ לקרוא את המאמר האמיתי כדי להבין מה קרה שם: cdn.openai.com/improving-mathematical-reasoning-with-process-supervision/Lets_Verify_Step_by_Step.pdf#page=14&zoom=100,145,605 הסבר קצר על RL: youtube.com/watch?v=2xATEwcRpy8