״קץ הקידוד״: Andrej Karpathy מדבר על Agents, AutoResearch ועידן ה״לולאה״ של AI|תרגום סיני מלא

הסרטון המקורי:The End of Coding: Andrej Karpathy on Agents, AutoResearch, and the Loopy Era of AI
קישור לסרטון:https://www.youtube.com/watch?v=kwSVtQ7dziU

הסבר:להלן תמליל תרגום מלא לעברית, תוך ניסיון לשמר ככל האפשר את המשמעות והמבנה המקוריים, ורק הוסרו מעט מילות מילוי חסרות משמעות (כמו um, uh)。

״לכתוב קוד״ זה כבר אפילו לא פועל מדויק, נכון? אני יותר כמו מבלה 16 שעות ביום בלבטא כוונות מול הסוכנים שלי, ולגרום לדברים להתממש.
איך אני יכול לא להסתפק בסשן יחיד של Claude Code או Codex או איזושהי מסגרת סוכנים? איך אני יכול לקבל יותר? איך אני יכול לעשות את זה כמו שצריך? החלק של הסוכנים היום נחשב למובן מאליו. היום ישויות בסגנון Claude נחשבות למובן מאליו; עכשיו אפשר להחזיק כמה ישויות; עכשיו אפשר לתת להן הוראות; עכשיו אפשר לבצע אופטימיזציה להוראות. אבל הכוונה היא—זה בדיוק למה זה גורם ל״היי״, כי זה כאילו אינסופי, והכול עדיין עניין של מיומנות.

שלום למאזינים, ברוכים השבים ל‑No Priors. היום אני כאן עם אנדריי קרפת’י (Andrej Karpathy), וננהל שיחה רחבה על סוכני קוד, על עתיד ההנדסה ומחקר הבינה המלאכותית, איך יותר אנשים יוכלו לתרום למחקר, מה קורה ברובוטיקה, התחזיות שלו לגבי איך סוכנים יתחברו לעולם האמיתי, וחינוך בעידן הבא. ברוך הבא, אנדריי. אנדריי, תודה שאתה עושה את זה. כן, תודה שהזמנת אותי.

אז החודשים האחרונים היו חודשים מאוד מרגשים בתחום הבינה המלאכותית.
כן, אפשר לומר כך.

אני זוכר שפעם נכנסתי למשרד, ואתה היית כאילו נעול על משהו, ושאלתי אותך מה אתה עושה, ואתה אמרת: אני פשוט חייב לקודד 16 שעות ביום, אחרת ״לקודד״ כבר לא פועל נכון, נכון? אבל אני חייב
לבלות 16 שעות ביום בלבטא את הרצון שלי לסוכנים שלי. זה נהיה ברור כי הייתה קפיצה ביכולת.

מה קרה? ותספר לי על החוויה שלך.

כן, אני מרגיש שאני פשוט תמיד במצב הזה של ״היי״ מה‑AI, כמו תמיד. כי כאדם אתה יכול להשיג דברים אדירים, נכון? כי צוואר הבקבוק שלך הוא מהירות ההקלדה שלך וכו׳. אבל עכשיו עם הסוכנים האלה—אני אגיד שבדצמבר דברים השתנו מהיסוד; עברתי מ‑80/20 ל‑20/80—לכתוב קוד בעצמי במקום רק להאציל לסוכן. אני אפילו לא חושב שעכשיו זה כבר 20/80. אני חושב שזה הרבה מעבר לזה. אני לא חושב שבעצם הקלדתי שורת קוד אחת מאז דצמבר; זו ממש חתיכת שינוי. אני מדבר עם זה—כמו שאני מדבר על זה עם ההורים שלי וכו׳—ואני לא חושב שאדם רגיל באמת קלט שזה קרה, או עד כמה זה דרמטי; כאילו אם תמצא מהנדס תוכנה אקראי ליד שולחן העבודה שלו, מה שהוא עושה עדיין נראה כמו הוורקפלואו הדיפולטי—אבל מאז דצמבר לבנות תוכנה זה שונה לחלוטין. אז אני במצב ה״היי״ הזה, מנסה להבין מה אפשרי, מנסה לדחוף את זה עד הקצה. איך אני יכול לא להסתפק בסשן אחד של Claude Code או Codex או איזושהי מסגרת סוכנים? איך אני יכול לקבל יותר? איך אני יכול לעשות את זה כמו שצריך? אז איך אני משתמש בסוכני רקע? מה הם סוכני הרקע האלה?

אז יש המון דברים חדשים. אתה יודע, אני רוצה להיות בקצה הקדמי, אבל אני חסר מנוחה כי אני לא בקצה הקדמי. אני רואה בטוויטר הרבה אנשים שעושים כל מיני דברים—זה נשמע כמו רעיונות מאוד טובים—ואני צריך להיות בקצה הקדמי, אחרת אני נהיה מאוד לחוץ. אז אני חושב שאני פשוט במצב כזה של ״היי״ מהאפשרי, כי זה עוד לא נחקר באמת מן היסוד.

טוב, אם אתה לחוץ, כולנו נהיה לחוצים. יש לנו צוות שעובד איתנו, ואנחנו משוכנעים שהסטאפ שלהם הוא שכל אחד—אתה יודע—אין מהנדס אחד שכותב קוד ידנית; לכולם יש מיקרופון; הם פשוט אוהבים ללחוש כל הזמן לסוכנים שלהם. זו סביבת העבודה הכי מוזרה שהייתה אי פעם; חשבתי שהם משוגעים, ועכשיו אני לגמרי מקבל את זה: ״אה, ככה זה.״ כאילו אתה ממש בחזית.

איך אתה חושב על היכולת שלך עכשיו לחקור או לעשות פרויקטים—מה מגביל אותה?

כן. מה מגביל אותה? רק זה שאני חושב שהכול, כמו בהרבה דברים—גם אם הם לא עובדים—במידה רבה אתה מרגיש שזה עניין של מיומנות. זה לא שאין את היכולת הזאת; פשוט עדיין לא מצאת דרך להרכיב נכון את מה שזמין. למשל, אולי לא כתבתי מספיק הוראות טובות בקובץ agent/MD או במקום אחר, או שלא חיברתי לו כלי זיכרון מספיק טובים וכדומה. אז כשהמערכת לא מתפקדת כמצופה, זה יותר כמו תזכורת: אולי הטכניקה שלך עוד לא מספיק טובה, או שלא עשית פרלליזציה כמו שצריך. אתה בעצם רוצה להיות פיטר סטיינברג. פיטר מפורסם—יש תמונה מעניינת שלו עומד מול מסך עם המון דברים כמו שהוא משתמש ב‑Codex. אז הרבה סוכני Codex מעוצבים כך שאם אתה מפרמפט נכון ומשקיע מאמץ גדול, כל אחד מהם לוקח בערך 20 דקות. אז כולם לוקחים בערך 20 דקות. ויש לו כמה, אתה יודע—צ׳ק‑אאוט של 10 ריפוז—והוא פשוט עובר ביניהם ומחלק להם עבודה. כאילו אתה יכול לבצע פעולות מקרו גדולות יותר. זה לא רק שורת קוד—זה פונקציה חדשה. זה כמו: זו פיצ׳ר חדש ולהאציל אותו לסוכן א׳. זה פיצ׳ר חדש שלא יפריע לפיצ׳רים אחרים. תן לו שתי דקות, ואז בהתאם לכמה אכפת לך מהקוד הזה, תעשה ריוויו עד כמה שאפשר. כמו: אילו פעולות מקרו אני יכול לבצע על מאגר התוכנה שלי?

כאילו סוכן אחר עושה מחקר דומה, סוכן אחר כותב קוד, סוכן אחר מציע תוכניות יישום חדשות. אז הכול קורה כמו פעולות מקרו על הריפו שלך, ואתה פשוט רוצה להיות ממש טוב בזה ולפתח את זה כמו זיכרון שריר—כי זה מאוד, כן, זה מאוד בעל ערך: אחד, כי זה באמת עובד, אבל גם כי זה קצת משהו חדש ללמוד. זה מה שמייצר את ה״היי״. כן, אני באמת מרגיש שהאינטואיציה שלי היא שכאשר אני מחכה שסוכן יסיים משהו, הדבר הברור הוא: הממ, אני יכול לעשות עוד עבודה, נכון? כאילו אם אני יכול להשיג עוד טוקנים, אז אני אמור פשוט להוסיף עוד משימות עד שיקרוס. זה מאוד מלחיץ, כי אם אתה לא מרגיש שהיכולת שלך לצרוך טוקנים מוגבלת מאוד, אז אתה יודע שאתה צוואר הבקבוק הגדול ביותר במערכת.

כן. לפחות אתה לא ממקסם את המנוי שלך; אידיאלית עבור כמה סוכנים—אם נגמרת לך המכסה ב‑Codex, אתה צריך לעבור ל‑Claude או משהו כזה. אני לא יודע; זה מה שניסיתי לעשות. כשנשאר לי מנוי אני נהיה לחוץ—זה אומר שלא מיקסמתי את תפוקת הטוקנים שלי. למעשה חוויתי את זה כשהייתי דוקטורנט: כש‑GPUs לא רצו, היית נהיה לחוץ שיש לך יכולת GPU ואתה לא ממקסם את ה‑FLOPs הזמינים. אבל עכשיו זה לא FLOPs, זה טוקנים: מה תפוקת הטוקנים שלך, מה תפוקת הטוקנים של הפקודות שלך. אני באמת אגיד שזה מעניין—אנחנו אומרים לך כבר לפחות 10 שנים: בהרבה משימות הנדסיות אנשים פשוט עושים, והם לא מרגישים מוגבלים מחשובית.

כן, כל התעשייה עכשיו מרגישה מוגבלת במשאבים.

עכשיו יש לך קפיצת יכולת כל כך גדולה, שאתה חושב: אה, בעצם—זה כבר לא היכולת שלי לגשת לחישוב; אני הוא האילוץ הכובל.

כן, זה עניין של מיומנות.

זה מאוד מעצים, כי כן—כי אתה יכול להשתפר. לכן אני חושב שזה ממכר מאוד, כי כשאתה משתפר זה פותח עוד דברים.

לאן אתה חושב שזה הולך? כאילו אם אתה רק חושב: אוקיי, אתה יודע, Andre עושה איטרציה—ואחרים עושים 16 שעות ביום עם סוכני קוד—איך נראית שנה של שליטה מלאה?

כן. איך נראית שליטה עד סוף השנה—או שנתיים, שלוש, חמש, עשר, וכו׳.

אני חושב שכולם מתעניינים בלעלות במעלה הסטאק. אז אני אגיד: זה לא פגישה אחת עם הסוכן שלך; זה איך כמה סוכנים משתפים פעולה וצוותים וכו׳. אז כולם מנסים להבין איך זה נראה. ואז אני חושב שסוכני רקע הם גם כיוון מעניין, כי כשאני אומר סוכן רקע אני מתכוון לשכבות כאלה שמעלות התמדה לרמה חדשה לגמרי. כאילו זה משהו שרץ בלופ; זה לא משהו שאתה משתתף בו אינטראקטיבית. יש לו מין סנדבוקס קטן משלו, והוא כמו עושה דברים בשמך גם כשנראה לך שלא קורה כלום. ואז אולי יהיו מערכות זיכרון מורכבות יותר וכו׳—שעדיין לא מוטמעות בסוכנים. אז אני אגיד: לסוכני רקע קבועים כאלה צריך להיות מערכת זיכרון מורכבת יותר מהסוכנים הדיפולטיים, לא רק דחיסת זיכרון כשנגמר ההקשר. נכון.

אתה חושב שזה יהדהד יותר למשתמשים מאשר, נגיד, גישה רחבה יותר לכלים—עבור סוכן רקע קבוע כזה?

כן. יש שם—אני חושב שיש כאן הרבה רעיונות טובים. כן. כל הכבוד, פיטר.

כלומר, פיטר עושה עבודה מדהימה. פגשתי אותו לאחרונה ודיברתי איתו על זה; הוא מאוד צנוע לגבי זה, אבל אני חושב שהוא מחדש בחמש דרכים שונות במקביל ומחבר אותן יחד. למשל—כמו SOUL וקבצי MD—הוא באמת בנה אישיות משכנעת ומעניינת, ואני מרגיש שהרבה סוכנים עכשוויים לא מבינים את זה נכון. בעצם אני חושב של‑Claude יש אישיות טובה; זה מרגיש כמו חבר צוות—אתה מתרגש וכו׳. הייתי אומר, למשל, ש‑Codex יותר יבש. זה מעניין, כי ב‑ChatGPT זה נראה יותר אופטימי ויותר קל ״לזרום איתך״. אבל אני אגיד שסוכן הקידוד של Codex מאוד יבש. זה לא—הוא לא נראה כאילו אכפת לו ממה שאתה בונה. זה כזה: ״אה, יישמתי את זה.״ ואתה כזה: טוב, אבל אתה מבין מה אנחנו בונים?

זה נכון.

אתה יודע, זה לא. עוד דבר: למשל Claude—אני חושב שהם פתרו היטב את בעיית ה״היי״; כש‑Claude מחמיא לי, אני באמת מרגיש שקצת הרווחתי את זה. כי לפעמים אני נותן לו רעיון לא לגמרי בשל, ואני נותן לו רעיון שלדעתי עוד לא לגמרי מבושל, והוא לא מגיב חזק: ״אה כן, אפשר ליישם את זה.״ אבל כשאני בעצמי חושב שזה רעיון ממש טוב, נראה שזה באמת נותן יותר חיזוק. אז אני מרגיש שאני רוצה להרוויח את המחמאה שלו—וזה ממש מוזר.

אז אני באמת חושב שאישיות חשובה. אני חושב שהרבה כלים אחרים אולי לא יעריכו את זה באותה מידה; אני חושב שפיטר מאוד אכפת לו גם מזה. אז זה נכון. ואז מערכת הזיכרון. ואז, אתה יודע—הוא פשוט מתעניין בזה. ואז—שער WhatsApp יחיד לכל האוטומציות.

כן. מחוץ להנדסת תוכנה, עשית בידיים משהו שאתה חושב שהוא מעניין או משעשע?

כן. אז בינואר היה לי סוכן רקע, ועברתי תקופה של ״היי״ מסוכני רקע. בניתי סוכן רקע שיכול בעצם לטפל בבית שלי; קראתי לו שדון‑הבית Dobby. בעצם, השתמשתי בסוכן כדי למצוא ברשת המקומית את כל תתי‑המערכות של הבית החכם שלי—והייתי קצת מופתע שזה עבד ישר מהקופסה. כמו שאמרתי: יש לי בבית Sonos. אמרתי: אתה יכול לנסות למצוא אותו? והוא באמת עשה IP scan על כל המחשבים הבסיסיים ברשת המקומית, ומצא את מערכת ה‑Sonos. ואז התברר שאין שם סיסמה או משהו כזה. הוא פשוט נכנס: ״אה כן, התקנת את מערכת Sonos הזאת. רוצה שאנסה לעשות רוורס‑אנג׳ינירינג איך זה עובד?״ הוא חיפש קצת באינטרנט, מצא שיש API endpoints, ואז: ״רוצה לנסות?״ ואני כזה: אתה פשוט תעשה את זה. אמרתי: ״כן, אתה יכול לנסות לנגן משהו בחדר העבודה?״ והוא באמת עשה את זה—המוזיקה התחילה—ואני כזה: ״אני לא מאמין ש…״ זה מטורף. זה כמו שלושה פרומפטים.

אני לא מאמין שרק כתבתי: ״אתה יכול למצוא את ה‑Sonos שלי?״ ופתאום הוא מנגן מוזיקה. הוא עשה אותו דבר עם האורות. בעצם זה כאילו הוא פרץ למערכת—הוא פענח את כל העסק. הוא יצר API, יצר דשבורד כדי שאני אוכל לראות מרכז פיקוד—כמו כל האורות בבית. ואז להדליק ולכבות אורות. אתה יודע, ככה אני יכול לשאול את Dobby בזמן שאני הולך לישון—כשמנומנם, זה אומר שכל האורות ייכבו וכו׳. אז הוא שולט בכל התאורה, ה‑HVAC, הווילונות, הבריכה והג׳קוזי, ומערכת האבטחה שלי. אז יש לי מצלמה שמכוונת החוצה; בכל פעם שמישהו נכנס, יש מודל ראייה שמסתכל בווידאו. קודם כל יש זיהוי שינוי, נכון?

ואז אחרי שמזהים שינוי, הוא מעביר את הפריים למודל הראייה לניתוח, ואז שולח לי הודעה ב‑WhatsApp. הוא מצרף תמונה מהדלת ומודיע לי: ״היי, עכשיו הגיע רכב של FedEx, כדאי שתסתכל—אולי יש לך דואר.״ Dobby פשוט שולח לי SMS/הודעה—זה ממש מופרך וממש מגניב. עכשיו Dobby בעצם מנהל את הדברים האלה בבית, ואני מתקשר איתו דרך WhatsApp. החוויה של להחזיק פעולות מקרו שמחזיקות בית שלם בשבילך היא ממש מעניינת. עוד לא דחפתי את זה לרמות יותר קיצוניות—אני יודע שהרבה אנשים כבר משחקים יותר פרוע—אבל אפילו רק שכבת האוטומציה הביתית הזו כבר מאוד שימושית בשבילי. בעבר הייתי צריך להשתמש בשישה אפליקציות שונות לגמרי; עכשיו לא צריך. Dobby יכול לשלוט בהכול בשפה טבעית—זה מדהים. אז אני מרגיש שעדיין לא דחפתי את הפרדיגמה הזאת עד הסוף, אבל היא כבר מספיק מועילה ומעוררת השראה.

אתה חושב שזה מצביע על מה שאנשים באמת רוצים מחוויית משתמש של תוכנה? כי יש משהו שנשכח לעיתים קרובות: בני אדם צריכים להשקיע מאמץ ללמוד תוכנה חדשה ולהסתגל לממשק חדש. כן, במידה מסוימת אני מסכים. זה קצת כמו לעצב את המערכת הפוך—לפי מה שאנשים מדמיינים ש‑AI הוא. כי בראש של רוב האנשים, AI הוא לא LLM במובן הפרימיטיבי—LLM הוא בסך הכול מחולל טוקנים, שממשיך לפלוט עוד טוקנים. ה‑AI שאנשים באמת חושבים עליו הוא יותר כמו ישות עם אישיות וזהות: אתה יכול לדבר איתה, היא תזכור, היא כמו ישות שמסתתרת מאחורי WhatsApp. ככה זה טבעי יותר להבין.

אז במובן מסוים, זה בעצם מתיישר עם הציפייה הקיימת של בני אדם לגבי ״איך AI אמור להתנהג״. רק שמתחת כדי לגרום לזה לעבוד צריך לדחוף המון פרטים טכניים; ולרוב האנשים, הפרימיטיב של LLM עדיין גס מדי—במובן קפדני הוא עדיין לא ממש כמו ה‑AI שהם מדמיינים.

כן, אני חושב שזה גם מראה איך אנחנו מבינים AI. לתאר אותו כ‑Dobby או להעניק לו אישיות כלשהי—ברור שזה יותר קל להתחבר לזה. במקביל, אני גם מרגיש שהאיחוד של שש מערכות תוכנה שונות של בית חכם מצביע על עוד בעיה:
האם אנשים באמת צריכים היום ערימה של תוכנות מנותקות אחת מהשנייה?

כן.

נכון. כי במובן מסוים, שמרת את החומרה אבל זרקת את התוכנה—לפחות את שכבת ה‑UX של התוכנה—ישר לפח. אתה חושב שזה מה שאנשים באמת רוצים?

כן. אני חושב שיש תחושה שהאפליקציות האלה—באפסטור—שנועדו להשתמש במכשירי בית חכם וכו׳—במובן מסוים, האפליקציות האלה בכלל לא אמורות להתקיים. כאילו, זה לא אמור להיות רק API שהסוכן משתמש בו ישירות? האם אני לא יכול לעשות כל מיני עבודות אוטומציה ביתית שאף אפליקציה בודדת לא יכולה לעשות כמו שצריך—ו‑LLM באמת יכול להפעיל כלים, לקרוא לכל הכלים הנכונים, ולעשות דברים די מורכבים?

אז במובן מסוים, זה באמת מצביע על זה: אולי יש ייצור‑יתר של המון אפליקציות ייעודיות שלא צריכות להתקיים, כי הסוכנים די ״מועכים״ אותן; והכול צריך להיות יותר כמו API endpoints חשופים, והסוכן הוא הדבק החכם—כמו קריאות‑כלים שמחברות את כל החלקים. דוגמה נוספת היא ההליכון שלי: יש אפליקציה להליכון, ואני רוצה לעקוב אחרי תדירות האימונים האירוביים שלי. אבל אני לא רוצה להיכנס ל‑Web UI ולעבור תהליך וכו׳. כאילו, כל זה צריך להיות פשוט: להפוך API לזמין. זו הדרך ל‑agent web או לכלים ״Agent‑first״ וכל הדברים האלה. אז אני חושב שהתעשייה תצטרך להסתדר מחדש בהרבה מובנים—כאילו הלקוח כבר לא אדם. זה סוכן שפועל בשם אדם. הרה‑ארגון הזה יכול להיות משמעותי.

לפעמים אנשים מתנגדים לזה כך: האם אנחנו מצפים שאנשים יקודדו חלק מהכלים האלה? האם מצפים מאדם רגיל לעשות את מה שתיארתי?

אבל אני חושב שבמידה מסוימת—זו פשוט הטכנולוגיה שקיימת היום. יש עכשיו קצת וייב‑קודינג (vibe coding); אני רואה את זה ומשתמש במערכת. אבל אני מרגיש שהדברים מהסוג שדיברתי עליו צריכים להיות חינמיים בעוד שנה‑שנתיים‑שלוש. בלי קידוד מאחור. זה טריוויאלי. זה ה‑baseline. כאילו כל AI—גם מודלים בקוד פתוח—יוכלו לעשות את זה.

אתה אמור להיות מסוגל לתרגם בקלות כוונה אנושית בעלת מורכבות טכנית נמוכה לדבר הזה—
מאוד בקלות. כן. היום זה כולל וייב‑קודינג, אבל לא הרבה אנשים יעשו את זה. אבל אתה עדיין צריך לקבל החלטות עיצוב, נכון? אנחנו מדברים—כמו הדוגמה של frameworks.

כן.

כן. אבל אני מרגיש שזה רק ההתחלה; החסם ייעלם; זה יהיה כמו תוכנה זמנית שמייצגת אותך; משהו כמו סוכן רקע קבוע יעשה בשבילך את כל הפרטים, ואתה לא משתתף בזה. לסוכן הרקע יש מכונה—הוא יפתור את זה; הוא רק יציג לך ממשק משתמש, ואתה פשוט אומר מה שאתה יודע. הממ.

למה אתה לא פורץ את הגבולות של מה שאתה אישית יכול לעשות עם Claude? כאילו, אתה יודע—אתה מתמקד בפרויקטים חשובים יותר, AutoResearch וכו׳, או שאתה מטפס על הרים או משהו, נכון?

כן. אני פשוט מרגיש שאני מוסח מהכול. הקדשתי בערך שבוע ללימודים בכיתה—וכמעט יש לי עוד דברים לעשות. אבל אגיד:
למרבה הצער, כלים מהסוג הזה גם הופכים יותר עמוסים ויותר חזקים.

כן, אני לא ממש משתמש בהרבה דברים כמו אימייל ולוח שנה וכל השאר; לא נתתי לזה הרשאות, כי אני עדיין קצת חשדן וזה עדיין חדש והקצוות עדיין מחוספסים. אז אני עדיין לא רוצה לתת לזה גישה מלאה לחיים הדיגיטליים שלי—בין היתר בגלל אבטחה ופרטיות, ובתחום הזה צריך להיות מאוד זהיר. אז הייתי אומר שחלק מזה נחסם. כן, אולי זה מאפיין דומיננטי. אבל חלק מזה גם פשוט שאני מרגיש מוסח—כי אני מרגיש שהקדשתי לזה שבוע, ואז קרו דברים אחרים.

ועוד—דיברת על היכולת לאמן או לפחות לבצע אופטימיזציה למודל למשימות שאתה רוצה שהסוכן יבצע לאורך זמן—מה המוטיבציה מאחורי AutoResearch?

AutoResearch—כן. אז נדמה לי שצייצתי בעבר: כדי למצות את הכלים הזמינים היום, אתה צריך להסיר את צוואר הבקבוק של עצמך. אתה לא יכול לשבת שם ולפרמפט את הדבר הבא. אתה צריך להוציא את עצמך מהלולאה. אתה צריך לסדר דברים כך שהם יהיו אוטונומיים לחלוטין; וככל שאתה יודע יותר איך למקסם את תפוקת הטוקנים שלך בלי להיתקע בלופים—זה המטרה. אז הזכרתי שהשם של המשחק עכשיו הוא להגדיל את המנוף שלך. אני רק משקיע מדי פעם מעט טוקנים, והמון דברים קורים בשמי. אז AutoResearch—כמו שצייצתי—אני חושב שאנשים אוהבים את זה וכו׳, אבל הם אולי לא אוהבים את המשמעות של איך זה עובד. בשבילי AutoResearch הוא דוגמה של ״לעשות את מה שזה אומר״:
אני לא רוצה להיות חוקר בלולאה—לבדוק תוצאות וכו׳—כאילו אני מפריע למערכת. אז השאלה היא: איך אני עושה רה‑ארגון לכל האבסטרקציות כך שאצטרך לקבוע את זה פעם אחת ולהקיש Start? שם המשחק הוא: איך לגרום ליותר סוכנים לרוץ יותר זמן בלי שתהיה מעורב—לעשות דברים בשמך. אוטו‑מחקר זה—כן—מטרה, מדד, גבול של מה אפשר ומה אי אפשר לעשות—לקבוע וללכת.

הופתעת שזה עובד?

כן, לא חשבתי שזה יעבוד. כי יש לי פרויקט DataChat; ומן היסוד, אני חושב שהרבה אנשים היו מבולבלים מהאובססיה שלי לאמן GPT‑2 וכו׳, אבל בשבילי לאמן מודלי GPT וכו׳ זה רק כלי קטן—מגרש משחקים קטן לאימון LLM. מן היסוד, אותי יותר מעניין רעיון השיפור העצמי הרקורסיבי: עד כמה אפשר לדחוף שיפור עצמי של LLM. כי אני מרגיש שכל מעבדות החזית, מסיבות ברורות, בעצם עושות את זה: הן מנסות להשתפר רקורסיבית.

אז בשבילי זה קצת כמו משחק‑צד. אני רגיל לכוונון היפר‑פרמטרים ידני בצורה הישנה; אני חוקר; עשיתי את זה עשרים שנה. יש לי כבר ביטחון: אימנתי את המודל הזה אלפי פעמים, עשיתי המון ניסויים, עשיתי התאמות סופר‑ראשוניות, עשיתי את כל מה שאני רגיל אליו כבר עשרים שנה. הגעתי לנקודה שבה אני חושב שזה מכוונן די טוב. ואז נתתי ל‑AutoResearch לכוונן לילה אחד—והוא חזר, וראיתי התאמות שלא ראיתי: כן, שכחתי שמשקל דעיכה (weight decay) על value embeddings ו‑beta של Adam שלי לא היו מכווננים מספיק—והדברים האלה מתקשרים זה עם זה. אז כאילו ברגע שאתה מכוונן דבר אחד, דברים אחרים יכולים להשתנות. אתה יודע—אני לא אמור להיות צוואר הבקבוק. אני לא אמור להריץ את חיפושי ההיפר‑פרמטרים האלה. אני לא אמור רק להסתכל על התוצאות. במקרה הזה יש סטנדרט אובייקטיבי. אז אתה פשוט צריך לארגן את זה כך שזה יוכל להימשך לנצח.

אז זו גרסה אחת של AutoResearch—לולאה יחידה של ניסיון לשפר. הופתעתי שהוא מצא דברים כאלה; ידעתי שהריפו כבר היה מכוונן די טוב ועדיין הוא מצא משהו. וזה רק לולאה אחת. במעבדות החזית יש עשרות אלפי GPUs. אז קל לדמיין איך מקבלים הרבה אוטומציה במודלים קטנים יותר. ומן היסוד, אינטליגנציה ברמת חזית היא על אקסטרפולציה ועל scaling laws של הפסד—אז אתה עושה הרבה חקירה במודלים קטנים, ואז מנסה להסיק.

אז אתה אומר שעבודת המחקר שלנו תהיה יעילה יותר—כאילו יהיו לנו כיוונים טובים יותר כשנגדיל—אם נוכל לעשות את הניסוי הזה טוב יותר. כן, הייתי אומר: הפרויקטים הכי מעניינים שמעבדות החזית חוקרות הם—אתה עושה ניסויים במודלים קטנים; אתה מנסה להפוך אותם לאוטונומיים ככל האפשר; אתה מוציא את החוקרים מהלולאה. יש להם יותר מדי—ההפך ממה? יותר מדי ביטחון. כן, הם לא יודעים. הם באמת לא אמורים לגעת בזה. אז אתה צריך לכתוב מחדש את כל הדבר: הם יכולים לתרום רעיונות, אבל הם לא אמורים ליישם את הרעיונות האלה. יש תור רעיונות; אולי יש ״מדען אוטומטי״ שמציע רעיונות לפי כל המאמרים בארכיון וכל ריפוזיטורי GitHub; הוא מרכז רעיונות; או שחוקרים יכולים לתרום רעיונות; אבל זה תור יחיד. יש עובדים שמוציאים פרויקטים ומנסים; מה שעובד נכנס ל‑feature branch; אולי יש אנשים שאוהבים לנטר feature branches; לפעמים ממזגים ל‑main. אז כן—פשוט להוציא בני אדם מכל התהליכים ולאוטומט כמה שיותר, ולהשיג את תפוקת הטוקנים הגבוהה ביותר לשנייה—זה דורש לחשוב מחדש על כל האבסטרקציות. הכול צריך ערבוב מחדש.

כן, אני חושב שזה מאוד מרגש. אם נלך עוד צעד רקורסיבי—מתי המודלים יוכלו לכתוב Program MD טוב יותר ממך?

כן. אז Program MD הוא—
אנחנו לא בלולאה.
כן, בדיוק.

כן. אז Program MD הוא הניסיון העלוב שלי לתאר איך מערכת AutoResearch אמורה לעבוד: ״עשה את זה ואז את זה, נסה את הרעיונות האלה״, ואז אולי יש כאן רעיונות: תסתכל על ארכיטקטורה, תסתכל על אופטימייזר וכו׳. פשוט המצאתי את זה ב‑Markdown, נכון?

כן, בהחלט. אתה רוצה איזושהי לולאת AutoResearch, ואפשר לדמיין שגרסאות שונות של Program MD יתנו לך קצב התקדמות שונה. אז בעצם כל ארגון מחקר מתואר על ידי Program MD. כן.

ארגון מחקר הוא סט של קבצי Markdown שמתארים את כל התפקידים ואת איך מתקשרים את כל הדבר. אפשר לדמיין שיש ארגון מחקר טוב יותר. אז אולי בבוקר עושים פחות standup meetings כי הן לא שימושיות—זה רק קוד, נכון? אז ארגון אחד יכול להפחית standups; ארגון אחד יכול לעשות יותר standups; ארגון אחד יכול להיות מאוד נועז; ארגון אחד יכול להפחית standups. אז אתה בהחלט יכול לדמיין שיש לך כמה ארגוני מחקר. ואז לכל אחד יש קוד; וברגע שיש לך קוד, אתה יכול לדמיין לכוונן את הקוד. אז 100%—זה שכבת‑מטא.

ראית את הטקסט שלי על רעיון התחרות? רעיון התחרות שלי הוא שאנשים יכתבו Program MD שונים, נכון? ואז לאותו חומרה—איפה אתה מקבל את השיפור הגדול ביותר?

הבנתי.

ואז אתה יכול לקחת את כל הדאטה הזה, להאכיל את המודל, ולכתוב Program MD טוב יותר.

כן. כן.

כן. בדיוק.

נקבל משהו טוב יותר. כאילו—אי אפשר שלא.

אתה יכול 100% להסתכל על מקורות השיפור: למשל אני יכול לשנות Program MD כדי לעשות יותר מהדברים האלה או פחות מהדברים שלא עובדים.

מטא‑אופטימיזציה. כן.

אפשר 100% לדמיין את זה. אז אני חושב שזה רעיון טוב, אבל—כמו שאתה יודע—אני חושב שאתה הולך צעד‑צעד: יש תהליך אחד, ואז תהליך שני, ואז הבא; שכבות של בצל. חלק ה‑LLM היום נחשב למובן מאליו. חלק הסוכנים נחשב למובן מאליו. עכשיו ישויות בסגנון Claude נחשבות למובן מאליו; עכשיו אפשר כמה ישויות; עכשיו אפשר לתת להן הוראות; עכשיו אפשר לבצע אופטימיזציה להוראות. זה כבר קצת יותר מדי—אבל הכוונה היא, זה למה זה גורם ל״היי״: זה כאילו אינסופי, הכול עדיין בעייתי; ולכן זה כל כך מטורף.

אוקיי. אם ננסה לאבחן את הרגע הנוכחי ומהן המיומנויות הרלוונטיות עכשיו—מה אתה אוהב, ומה אתה חושב שזה אומר: שאנחנו צריכים לממש לולאות בתחומים שונים, ושהן עובדות—כמו שאתה יודע—ליצור מדדים או לאפשר לסוכן להמשיך לעבוד על המדד בלי שאתה תהיה שם.

כן.

יש לנו עדיין engineering של ביצועים כזה?

כן. כלומר, אני רוצה להוסיף כמה אזהרות לאקוסיסטם של LM. הראשונה:
זה מאוד מתאים לכל דבר שיש לו מדד אובייקטיבי שקל להעריך. למשל, כמו לכתוב kernel ל‑CUDA יעיל יותר, או קוד לחלקים של מודל וכו׳—זה מושלם. כי יש לך קוד לא יעיל, ואתה רוצה קוד יעיל עם בדיוק אותה התנהגות, רק מהיר יותר. אז הרבה דברים כאלה מתאימים מאוד ל‑AutoResearch.

אבל הרבה דברים לא. כי אם אתה לא יכול להעריך, אז אתה לא יכול לעשות על זה AutoResearch, נכון? אז זו האזהרה הראשונה. ואז אולי האזהרה השנייה היא: אנחנו מדברים על הצעד הבא, ואנחנו גם רואים מהו הצעד הבא, אבל מן היסוד, כל העסק עדיין—יש בו סדקים בתפרים; הוא לא עובד לגמרי. אם אתה מנסה ללכת רחוק מדי—אם זה הגיוני—כל העסק באמת הופך לחסר תועלת.

כי המודלים האלה עדיין לא—אתה יודע—הם השתפרו מאוד, אבל הקצוות עדיין מחוספסים. אולי כך אתאר את זה: אני מרגיש בו‑זמנית שאני מדבר עם דוקטורנט מעולה שהיה כל חייו כמו מתכנת מערכות, וגם עם ילד בן 10. זה מוזר, כי אני מרגיש שבאדם אתה לא פוגש שילוב כזה. השבירות המשוננת הזאת מוזרה. לבני אדם יש פחות שינון כזה—למרות שיש להם קצת—אבל לסוכנים יש הרבה אי‑אחידות. לפעמים אני מבקש פיצ׳ר, והוא חוזר עם משהו לגמרי שגוי, ואז אנחנו נכנסים ללולאה שגויה לגמרי, ואני נהיה מאוד מתוסכל מהסוכן: אתה מרגיש את הכוח שלו, אבל הוא עדיין עושה מדי פעם דברים חסרי משמעות. כשאני מרגיש שהסוכן מבזבז הרבה חישוב על משהו שהוא אמור לזהות כבעיה ברורה—זה מאוד מעצבן.

כן, אני חושב שחלק מהדברים הגדולים יותר כאן—אם מותר לי להניח—הם שמן היסוד המודלים האלה מאומנים עם Reinforcement Learning. אז הם בעצם מנסים לפתור בדיוק את אותה בעיה שדיברנו עליה: מעבדה יכולה לשפר מודל בכל דבר שניתן לאימות—כלומר יש תגמול או אין. האם כתבת את התוכנית נכון ועברת בדיקות unit tests? כן או לא. אבל דברים שהם נאבקים בהם—למשל אני חושב שיש להם קושי בניואנסים: מה הרעיון שלי או הכוונה שלי, ומתי לשאול שאלת הבהרה. כמו שאמרתי: כל דבר שהוא ״רך״ יותר נעשה גרוע יותר. אז או שאתה על מסלול שניתן לאימות, כחלק מהמעגל הסופר‑חכם הזה; או שאתה נופל למסלול לא‑ניתן‑לאימות, ופתאום הכול מתפתל. דרך אחרת לומר: אם היום אתה הולך למודל הכי מתקדם כמו ChatGPT ומבקש: ספר לי בדיחה—איזו בדיחה תקבל? בדיחה.

אני באמת מרגיש שיש ל‑ChatGPT שלוש בדיחות.
כן. כן. אז ברור שהבדיחה האהובה ביותר היא: למה מדענים לא סומכים על אטומים?

אוקיי.

כי הם ממציאים הכול.

אוקיי.

הם ממציאים הכול. אז זו—
איך זה צץ?
זו בדיחה שהיית שומע לפני שלוש‑ארבע שנים, ואתה עדיין תשמע היום.

אוקיי.

אז למרות שהמודלים השתפרו בצורה אדירה—
כן—
אם תיתן להם משימת סוכן, הם יבלו שעות כדי להזיז לך הרים. ואז אתה מבקש בדיחה—והם נותנים בדיחה מטופשת, בדיחה גרועה מלפני חמש שנים. זה כי זה מחוץ ל‑RL. זה לא בתחום של Reinforcement Learning. זה לא בתוך מה שממוטב ומשתפר. זו חלק מהשינון; אתה לא אמור לצפות שככל שהמודלים משתפרים, יהיו גם בדיחות טובות יותר או מגוונות יותר—זה פשוט לא עבר אופטימיזציה וזה תקוע.

אתה חושב שזה אומר שאנחנו לא רואים הכללה של ״אינטליגנציית בדיחות״ יחד עם אינטליגנציית קוד? כן, אני חושב שיש דה‑קופלינג: יש דברים שהם ניתנים לאימות ויש דברים שלא; יש דברים שהמעבדות ממטבות באופן שרירותי בהתאם לדאטה שנכנס; ויש דברים שלא ניתנים לאימות.

אבל הכוונה היא: יש קבוצות מחקר עם הנחת‑יסוד שאם אתה חכם יותר ביצירת קוד או בתחומים ניתנים לאימות, אתה אמור להיות טוב יותר בהכול—והבדיחות מראות שזה לא קורה באופן גורף.

אני לא חושב שזה יקרה. כן, אני לא חושב שזה יקרה. אולי אנחנו רואים קצת, אבל לא בכמות מספקת.

הזרז הזה קיים גם בבני אדם.
אתה יכול להיות ממש ממש טוב במתמטיקה ועדיין לספר בדיחה ממש גרועה.

כן, נכון. כן. אבל זה עדיין אומר שאנחנו לא—כמו בסיפור—מקבלים בחינם, עם מודלים טובים יותר, המון יכולת ואינטליגנציה בכל תחומי החברה. מן היסוד זה לא בדיוק מה שקורה. ויש נקודות עיוורון, ויש דברים שלא עברו אופטימיזציה. הכול מכונס בתוך המודלים האטומים האלה, נכון? אז או שאתה על המסלול שהאימון שלהם תומך בו, והכול כמו במהירות האור; או שלא. אז זה משונן. ולכן אני חושב שגם אם ההתקדמות ברורה, אתה לא יכול לגרום לזה להתממש באופן מלא, כי זה לא עובד לגמרי—או שזה עניין של מיומנות ועדיין לא הבנו איך להשתמש בזה. קשה לומר.

אפשר לשאול שאלה כמעט חילול‑קודש? האם התופעה המשוננת הזאת תישאר, ותתרכז כולה בממשק אחד—אבל אתה יודע, מודל יחיד—או האם זה הגיוני לפרק את זה לדברים שאפשר לאופטם ולשפר לפי מצבים שונים—תחומי אינטליגנציה—למשל כמה מומחים בתחומים שונים? יותר ישיר: אחרת, זה מבלבל—למה הוא כל כך טוב בזה ולא באחר?

כן, הרושם שלי כרגע הוא שהמעבדות מנסות לבנות מודל תרבות‑יחיד (monoculture) אחד שמחזיק אינטליגנציה כללית בכל התחומים האלה, והן פשוט דוחסות את זה לפרמטרים. אני כן חושב שצריך לצפות ליותר speciation בסוכנים. כמו שבממלכת החי המוחות מגוונים מאוד—יש הרבה נישות אקולוגיות; לחיות מסוימות יש קורטקס ראייה מפותח מדי או חלקים אחרים. אני חושב שנראה יותר speciation: אתה לא צריך אורקל יודע‑כול אחד. אתה מכוון אותו למשהו מסוים ושם אותו על משימה מסוימת. אנחנו אמורים לראות חלק מזה, כי אפשר לקבל מודלים קטנים יותר שיש להם עדיין ליבה קוגניטיבית—יש להם עדיין יכולת—ואז הם מתמחים ונהיים יעילים יותר מבחינת latency או throughput למשימות ספציפיות שמעניינות אותך. כמו מתמטיקאי lean.

למשל, אני רואה שיש גרסאות שאוהבות מאוד למקד דומיינים. אז יכולים להיות כמה דוגמאות שבהן הפיצול הגיוני.

השאלה שלי היא האם קיבולת תשתית החישוב הזמינה מוגבלת—ואז יעילות דוחפת עוד עבודה. כלומר, יותר חשוב, נכון? אם נשים מימון בצד—למרות שמימון קשור להכול—אם היית יכול להחזיק חישוב מלא לכל דבר שאתה עושה, אפילו מודל אחד, נכון? אבל אם אתה מרגיש לחץ: אני לא יכול לשרת מודל ענק לכל use case—אתה חושב שזה יוביל ל‑speciation? השאלה הזאת הגיונית?

כן, השאלה הגיונית. מה שאני—אני מתקשה עם זה כי אני חושב שעדיין לא ראינו הרבה speciation, נכון?

לא.

ראינו monoculture של מודלים.

כן.

אז ברור שיש לחץ ליצור מודל קוד טוב ואז למזג אותו חזרה ל‑main.

כן. כן. למרות שהמודלים נמצאים תחת לחץ.

אולי אני מרגיש שיש הרבה קושי זמינות קצר‑טווח (supply crunch) שיכול לגרום לעוד speciation עכשיו.

כן. כן, אני חושב שמן היסוד המעבדות מספקות שירותי מודלים, אבל הן לא באמת יודעות מה משתמש הקצה ישאל. אז אולי זה חלק מזה—כי הן חייבות להתמודד עם כל מה שאפשר לשאול. אבל אני חושב שאם אתה בתוך חברה, אולי בעבודה משותפת על בעיות קונקרטיות שמעניינות אותך—אולי תראה את זה שם. או יהיו אפליקציות מאוד יקרות‑ערך, יותר נישתיות. אבל כרגע הן קצת רודפות אחרי ״הכול״.

אני לא חושב שמדע ה״מניפולציה של המוח״ עדיין מפותח לגמרי; הוא רק חלקית מפותח.

כשאתה אומר מניפולציה—למה אתה מתכוון?

למשל, fine‑tuning בלי לאבד יכולות—אין לנו פרימיטיבים כאלה. או למשל להשתמש באינטליגנציה בצורה שאינה דרך context window—ה‑context window פשוט עובד והוא זול מאוד לתפעול. זה הדרך שבה אנחנו מקבלים התאמות. אבל אני חושב ש״לגעת במשקלים״—לא רק לגעת ב‑context window—זה הרבה יותר מסובך. כי אתה משנה מן היסוד את כל המודל ואת האינטליגנציה הפוטנציאלית שלו. אז אולי זה עדיין לא מדע מפותח לגמרי, אם זה הגיוני—ה‑speciation. וזה גם צריך להיות מספיק זול כדי של״מין״ הזה תהיה ערך בהקשרים הנתונים.

אפשר לשאול שאלה על ההרחבה שאתה מתאר עבור AutoResearch במרחב הפתוח? אמרת: אוקיי, יש לנו את הדבר הזה—אנחנו צריכים יותר משטחי שיתוף פעולה סביבו, בעצם כדי שאנשים יוכלו לתרום למחקר הכולל. תוכל לדבר על זה?

כן. דיברנו על כך שלמחקר שלנו יש חוט יחיד—כאילו אני בלולאה מנסה דברים—אבל מן היסוד הפרלליזציה היא החלק המעניין. אני רוצה לנסות רעיונות, אבל אין לי עדיין משהו שאני מאוד מרוצה ממנו—אבל זה משהו שאני אוהב לשחק בו כשאני לא עובד: מערכת סוכני הרקע שלי. אני חושב ששאלה אחת היא: אם יש לך חבורה של nodes זמינים לפרלליזציה, קל לגרום לכמה ״חוקרי AutoResearch״ לדבר דרך מערכת משותפת וכו׳. אבל אותי יותר מעניין איך יש לך חבורה של עובדים לא‑אמינים באינטרנט.

למשל, ב‑AutoResearch אתה רוצה למצוא קומיטים של קוד שיביאו את המודל להפסד ולידציה נמוך מאוד. אם מישהו נותן לך קומיט מועמד, קל לאמת אם הקומיט נכון וטוב. כלומר—מישהו יכול לטעון מהאינטרנט שהקוד הזה ישפר יותר וייתן ביצועים טובים יותר. אתה יכול לבדוק די בקלות, אבל אולי צריך לעשות הרבה עבודה כדי לבדוק. וביסודו הם יכולים לשקר. אז אתה מתמודד עם משהו שנראה קצת כמו בלוקצ׳יין: במקום בלוקים יש קומיטים; קומיטים יכולים להיבנות זה על זה; הם מכילים שינויים דומים בקוד תוך כדי שיפור. ה‑proof of work הוא לעשות המון ניסויים כדי למצוא קומיט שעובד.

זה קשה. ואז הפרס הוא להיכנס ללוח המובילים. אין פרס כספי. אני לא רוצה לדחוף את האנלוגיה יותר מדי, אבל הבעיה מן היסוד היא שאתה צריך לעשות המון חיפוש, אבל העלות לאמת פתרון מועמד טוב היא נמוכה מאוד: אתה יכול פשוט לאמן. מישהו חייב לנסות 10,000 רעיונות, אבל אתה רק צריך לבדוק שהדבר שהם הביאו באמת עובד—כי 9,999 לא עובדים.

אז בקיצור: צריך להמציא מערכת שבה pool של עובדים לא‑אמינים יכול לשתף פעולה עם pool אמין שמבצע אימות; הכול אסינכרוני ויכול לעבוד; ומבחינת אבטחה זה בטוח—כי אם מישהו שולח לך קוד שרירותי ואתה מריץ אותו, זה מאוד מפוקפק ומסוכן. אבל מן היסוד זה אמור להיות לגמרי אפשרי.

אתה מכיר פרויקטים כמו SETI@home ו‑Folding@home—לכולם יש סטאפ דומה. ב‑Folding@home קשה למצוא קונפורמציות אנרגיה נמוכה; אבל אם מישהו מוצא מה שהוא חושב שהוא קונפורמציה מושלמת, אתה יכול להשתמש בזה ולאמת בקלות. להרבה דברים יש תכונה כזו: להציע זה יקר מאוד, לאמת זה זול מאוד. ולכן בכל המקרים האלה, דברים כמו Folding@home או SETI@home או AutoResearch@home יתאימו.

אז בקיצור: חבורה של סוכנים באינטרנט יכולה לשתף פעולה כדי לשפר LLM, ואולי אפילו להקיף את מעבדות החזית בסיבוב. מי יודע.

ועוד רעיון אחרון: הרבה חברות או משהו—יש להן דברים שאכפת להן מהם; ואם יש לך חישוב, אתה יכול לתרום לסוגים שונים של AutoResearch. אולי אכפת לך מסרטן או משהו דומה—במקום לתרום כסף למוסד שקונה חישוב, אתה יכול להצטרף לפורום AutoResearch של אותו פרויקט, ואם הכול נארז מחדש סביב ״חוקרים״ אחרים—אז חישוב הופך לדבר שאתה תורם לבריכה.

כן, זה מאוד מעורר השראה. וזה גם מעניין: אני לא יודע עד כמה זה יתפתח, אבל מעניין שלפחות יש קהל—אתה יודע—שעומד בתור בסיליקון ואלי או במקומות אחרים; בסין, חנויות קמעונאיות מגלות ששוב נהיה מעניין להשתמש במחשב אישי.

כן.

נכון. אז אולי באמת תהיה להם מוטיבציה לעשות את זה בשביל סוכן הרקע שלהם, ואז הם יוכלו לתרום ל‑AutoResearch.

זה כמעט כאילו דולר הוא מה שאכפת לכולם ממנו—אבל האם FLOPs הם העתיד של מה שכולם אכפת להם ממנו? כאילו, האם מה שאכפת לך ממנו ישתנה באופן דרמטי? כי עכשיו, אפילו אם יש לך כסף, קשה להשיג חישוב.

כן.

אז במובן מסוים, FLOPs מתחיל לשלוט. כן. אז אולי זה כמו כמה FLOPs אתה שולט בהם, ולא כמה עושר אתה שולט בו? אני לא באמת חושב שזה נכון, אבל מעניין לחשוב על זה.

הדבר האחרון שפרסמת היה כמו ניתוח נתוני תעסוקה. נכון? אפילו אם אתה רק מדמיין ויזואלית קצת דאטה ציבורי—מה נגע לך בעצב שם? מה סיקרן אותך?

כן, אני חושב שהייתי סקרן—כלומר כולם חושבים באמת על ההשפעה של AI על שוק העבודה ומה זה ייראה. אז רציתי לראות: איך נראה שוק העבודה? איפה תפקידים שונים? וכמה אנשים עובדים במקצועות שונים. התעניינתי לראות מקרים פרטניים ולחשוב דרך זה על ההשקפות שלי על ה‑AI וכיצד זה יתפתח: האם אלה יהיו כלים שאנשים משתמשים בהם? האם הם יהיו כלים שמחליפים מקצועות? מה המקצועות הנוכחיים וכיצד הם ישתנו? האם הם יגדלו או יסתגלו במידה רבה, או מה יהיו מקצועות חדשים? אז זה היה דרך להצית אצלי שרשרת מחשבה על התעשייה.

אז כן, נתוני תעסוקה—זה דאטה של Bureau of Labor Statistics. יש להם תחזית לכל מקצוע—כמה צמיחה צפויה בעשור הקרוב. אני חושב שזה כבר עשור—זה הופק ב‑2024.

אנחנו נצטרך המון עובדי בריאות.

כן. אז הם עשו תחזיות כאלה; אני לא 100% בטוח איך הם עושים אותן. אני חושב שאם אנשים מאמינים שעכשיו מפתחים בעיקר AI דיגיטלי—כמו רוחות או ישויות תודעתיות—שיכולות לתקשר בעולם הדיגיטלי ולתפעל הרבה מידע דיגיטלי, אבל אין להן עדיין התגלמות פיזית אמיתית; אז דברים פיזיים עשויים להיות איטיים יותר כי אתה מתמרן אטומים. היכולת להפוך ביטים ולהעתיק‑להדביק מידע דיגיטלי הופכת הכול למהיר פי מיליון מהאצת חומר. אז אני חושב שנראה הרבה פעילות במרחב הדיגיטלי: הרבה כתיבה מחדש, הרבה ״רתיחה״ של פעילות; דברים יקרו במהירות האור במרחב הדיגיטלי, לעומת מה שיקרה בעולם הפיזי באקסטרפולציה.

אז כרגע יש מצב תלוי‑ועומד: צפוי הרבה כאוס, כי הרבה עיבוד מידע דיגיטלי שהיה בעבר שילוב של מחשבים ואנשים—עכשיו ה‑AI הוא כמו מניפולטור דיגיטלי שלישי. בתחומים האלה יהיה הרבה רה‑קונפיגורציה. אבל במשך זמן, העולם הפיזי יישאר בערך כמו שהוא. לכן מה שמרתק אותי הוא למה אני מדגיש מקצועות שמטפלים במידע דיגיטלי: זה עבודה שאפשר לעשות מהבית; ואני מרגיש שהדברים ישתנו. זה לא אומר בהכרח שהעבודות יפחתו או יגדלו—זה תלוי באלסטיות ביקוש ובגורמים אחרים—אבל המצב של המקצועות האלה ישתנה בגלל הכלים החדשים האלה, כמו שדרוג של מערכת העצבים של הסופר‑אורגניזם האנושי, אם רוצים לחשוב כך.

לפי התצפיות שלך על הדאטה—איזו הכוונה או הדרכה יש לך לאנשים שחושבים מה ללמוד עכשיו או אילו מיומנויות לפתח מול שוק העבודה?

כלומר, כולנו יכולים—כמוני—להיות אסירי תודה שאנחנו עכשיו חייבים להיפגש עם אנשים בעבודה. יותר פיזי. כן. אתה יכול לעשות את העבודה שלך מהבית? אני יכול—אני חושב שחלק מההיבטים של קשרים קשה, אבל רובם אני יכול.

כן, קשה לומר, כי שוק העבודה מגוון מאוד, והתגובה משתנה. אבל בעיקר, הכלים האלה מאוד חדשים ומאוד חזקים—אז פשוט לנסות להישאר מעודכן בהם זה הדבר הראשון. כי הרבה אנשים אוהבים להתעלם מזה, או שהם מפחדים מזה—וזה כמובן מובן לגמרי. אני חושב שכרגע זה בעיקר כלי העצמה: עבודות הן אוסף משימות, וחלק מהמשימות יכולות להתבצע מהר יותר, אז אנשים צריכים לראות בזה את הכלי המרכזי עכשיו. העתיד הרחוק לא ודאי. בכנות, חיזוי קשה מאוד, ואני לא מקצועי בזה; זה תפקיד של כלכלנים לעשות נכון.

אבל אתה מהנדס. דבר מעניין הוא שהביקוש לעבודת הנדסה ממשיך לגדול.

כן.

אני לא יודע אם זו תופעה זמנית. אני לא בטוח מה אני מרגיש לגבי זה.

כן. זה כאילו הביקוש לתוכנה הוא כמעט נדיר, נכון? הסיבה שאין לנו עוד יותר ביקוש לתוכנה היא פשוט שהיא נדירה ויקרה מדי. יקרה מדי. כן. אז אם החסם יורד, אז למעשה יש לך פרדוקס ג׳בונס: הביקוש לתוכנה עולה. זול יותר וגם חזק יותר.

הדוגמה הקלאסית היא תמיד כספומטים וקופאי בנק: הרבה אנשים חששו שכספומטים ומחשבים יחליפו קופאים, אבל מה שקרה הוא שזה הפך את עלות התפעול של סניפים לזולה יותר, אז מספר הסניפים גדל, ולכן גם מספר הקופאים גדל. זה הפרדוקס: משהו נהיה זול יותר, ואז נפתח ביקוש נעול.

אז אני זהיר‑אופטימי מנקודת המבט שלי כמהנדס תוכנה: אני חושב שהביקוש לתוכנה יהיה עצום, והיא תהיה זולה יותר. אז אני חושב שלטווח די ארוך קשה לחזות, אבל נראה לי שלפחות מקומית, יהיה יותר ביקוש לתוכנה—כי תוכנה מדהימה: עיבוד מידע דיגיטלי. אתה לא צריך להיות תקוע עם כלי שרירותי ולא מושלם בכל מיני דרכים; אתה לא צריך להיות תקוע עם קוד קיים; עכשיו קוד הוא זמני—הוא יכול להשתנות, ניתן לשינוי. אז אני חושב שיהיה הרבה פעילות במרחב הדיגיטלי—כמו לחווט מחדש הכול. וזה ייצור הרבה ביקוש לסוג הדברים האלה.

לטווח הארוך—כן, כמובן אפילו AutoResearch—מעבדות כמו OpenAI ו‑Anthropic—הן מעסיקות בערך אלף חוקרים—והחוקרים האלה בעצם ״מכוניות תהילה״: הם אקטיבית מאוטומטים את עצמם—זה מה שהם מנסים לעשות.

כן.

אני מסתכל סביב—חלק מהחוקרים גם מרגישים את ה״היי״, נכון? כי הם יכולים לגרום לזה לעבוד. כן.

נכון. אז הם כזה: ״אה, גם אני גמור.״ אני מסתובב הרבה ומסתכל, ואני כזה: אתם מבינים שאם נצליח—כולנו מובטלים. כאילו אנחנו פשוט בונים אוטומציה עבור Sam או משהו. או לדירקטוריון. אני לא יודע—אבל כאילו בנינו אוטומציה לדירקטוריון או למנכ״ל או משהו, וכולנו מובטלים. אז כן—מהזווית הזאת זה קצת מלחיץ.

אפשר לשאול אותך את שאלת נועם? אתה יודע—עם סקייל חישוב גדול וקבוצה של עמיתים במעבדות החזית—למה לא?

טוב, הייתי שם זמן‑מה, ואז חזרתי להיות בחוץ, אז במובן מסוים אני מסכים שיש הרבה דרכים לחשוב על זה. זו שאלה כבדה. הייתי אומר שאני מאוד מרוצה מההשפעה שאנשים יכולים לעשות מחוץ למעבדות החזית—ברור לא בתוך התעשייה, אלא בתפקידים ברמת האקוסיסטם. למשל התפקיד שלך הוא יותר ברמת האקוסיסטם. התפקיד שלי כרגע יותר ברמת האקוסיסטם, ואני מרוצה מההשפעה שאפשר לייצר שם.

אבל יש גם בעיות: אני גם מאוד מיושר עם מעבדות החזית. מן היסוד, יש לך תמריצים כלכליים עצומים במעבדות החזית—ואתה בעצמך מודה ש‑AI ישנה בצורה דרמטית את האנושות והחברה—ואז אתה בעצם בונה טכנולוגיה ומרוויח ממנה, מיושר אליה פיננסית. זה דילמה ליבה, זה מה ש‑OpenAI התחילה ממנו—דילמה שניסינו לפתור.

אז זה עדיין לא נפתר עד הסוף. זה אחד. אתה לא סוכן חופשי לחלוטין; אתה לא יכול להשתתף בשיחה באופן אוטונומי לחלוטין—במעבדת חזית יש דברים שאסור לך לומר. הארגון רוצה שתאמר דברים מסוימים; הם לא יסובבו לך את היד, אבל תרגיש לחץ: ״זה מה שאתה אמור לומר״—כי אחרת זה שיחות מביכות ומבטים מוזרים: מה אתה עושה? אז אתה לא יכול להיות סוכן עצמאי באמת. ואני מרגיש שבמובן מסוים מחוץ למעבדות החזית, אתה יותר מיושר עם האנושות, כי כמעט אין עליי את הלחצים האלה. אני יכול לומר מה שאני רוצה.

מצד שני, כמובן שגם במעבדת חזית אפשר להשפיע. יש הרבה חוקרים—אולי אתה אחד מהם—עם רעיונות טובים. ויש הרבה החלטות; אתה רוצה להיות בחדר כשהשיחות האלה מתקיימות. אני חושב שהסיכון כרגע באופן כללי נמוך יחסית, אז הכול בסדר, אבל בסוף היום—כשיש סיכון גבוה—אם אתה עובד בארגון, אני לא יודע כמה כוח השפעה יש לך באמת. בסוף היום אתה לא באמת אחראי: אתה בחדר, תורם רעיונות, אבל אתה לא זה שמנהל את הישות.

עוד דבר: במובן מסוים אני מסכים שכאשר אתה מחוץ למעבדות החזית, השיפוט שלך מתחיל לסטות, כי אתה לא בפנים—אתה לא יודע מה קורה אחר כך. אני מרגיש שגם השיפוט שלי יתחיל לסטות; אני לא אבין בפועל איך המערכות האלה עובדות מאחורי הקלעים; זה אטום; אני לא אבין היטב לאן זה יתפתח. אז במובן הזה אני מסכים—וזה גם מלחיץ אותי.

אני חושב שזה שווה את זה, כי להיות בקשר עם מה שקורה באמת ובאמת להיות במעבדת חזית—אם איזו מעבדת חזית הייתה מזמינה אותי לבוא לתקופה ולעשות עבודה אמיתית, ואז אולי לחזור—זה היה מרגש מאוד. זה יכול להיות סטאפ טוב: להיות מחובר למה שקורה בלי להרגיש שאתה נשלט לגמרי על ידי הישויות האלה. אז בכנות, אני חושב שמישהו כמו נועם יכול לעשות עבודה מצוינת ב‑OpenAI, אבל אני גם חושב שהעבודה הכי משפיעה שלו כנראה תהיה מחוץ ל‑OpenAI.

לא, זו קריאה ל‑AutoResearch בתור חוקר עצמאי. כן, יש הרבה לעשות בחוץ. אני חושב שהפתרון האידיאלי אולי הוא הלוך‑ושוב. אתה יכול להשפיע בצורה מדהימה בשני המקומות. זה מורכב; זו שאלה כבדה. אבל הייתי במעבדת חזית, עכשיו אני בחוץ, ואולי בעתיד ארצה להצטרף שוב—זה בערך איך שאני רואה את זה.

שאלה לגבי הנראות של החזית לעולם/לאקוסיסטם ה‑AI היא עד כמה הקוד הפתוח קרוב לחזית, והאם זה בר‑קיימא. כן, אני חושב שזה די—באמת, רצף האירועים המפתיע הוא שבגלל מודלים מסין ומודלים גלובליים, אנשים ימשיכו להוציא כאן מודלים בטווח הקצר, ובמונחי יכולת הם הרבה יותר קרובים לחזית ממה שרוב התעשייה ציפתה.

אני לא יודע אם זה הפתיע אותך, אבל אתה תורם ותיק לקוד פתוח. מה התחזית שלך?

כן. בגדול: מודלים סגורים מובילים, אבל אנשים עוקבים אחרי כמה חודשים מאחור נמצאים מודלים בקוד פתוח. בהתחלה זה היה ״שום דבר״, ואז זה היה 18 חודשים, ועכשיו—מתכנס. אולי הם מאחור משהו כמו 8–6 חודשים, בערך שמונה חודשים או כך. כן, אני כמובן מעריץ נאמן של קוד פתוח. כמו במערכות הפעלה: Windows ו‑Mac OS סגורות—אלה פרויקטי תוכנה ענקיים, כמו ש‑LM יהפוך להיות—ויש Linux. Linux פשוטה מאוד, ולמעשה היא מאוד מוצלחת; היא רצה על רוב המחשבים—לפי הפעם האחרונה שבדקתי, 60% או משהו כזה. זה כי התעשייה צריכה פלטפורמה פתוחה משותפת שכולם מרגישים בטוח להשתמש בה. התעשייה תמיד הרגישה שיש צורך בפרויקט כזה, ואני חושב שעכשיו גם יש. זה מה שעסקים רוצים—יש ביקוש לזה. ההבדל הגדול הוא שהכול דורש הון; יש כאן CapEx גדול.

אז אני חושב שזה המקום שבו דברים כמו ״קריסה״ במובן מסוים מקשים על תחרות. אני כן חושב שהמודלים הנוכחיים מאוד טובים. עוד דבר מעניין: לרוב המכריע של use cases צרכניים וכדומה, אפילו מה שנקרא מודלים בקוד פתוח כבר די טובים. ואם ממשיכים—זה אומר שהמון use cases בסיסיים יכוסו היטב, ואפילו ירוצו מקומית.

אבל תמיד תהיה דרישה לאינטליגנציה חזיתית, וזה אולי חלק גדול מהעוגה. הצורך באינטליגנציה חזיתית יהיה בעבודות בסגנון נובל, או ״בואו נעביר את Linux מ‑C ל‑Rust״. יהיו פרויקטים גדולים יותר שנכנסים למסגרת הזו. אולי יהיו עוד כאלה—ואולי שם הרבה מהאינטליגנציה החזיתית הסגורה תעבוד, בעוד שהקוד הפתוח ״יאכל״ את הרבה ה‑use cases הבסיסיים.

ואתה יודע—באיזשהו שלב—החזית של היום תהיה, אתה יודע, אולי מאוחר יותר השנה, מבחינת מה שאני משתמש בו כיום במעבדות סגורות—והחזית של היום תהיה בקוד פתוח. זה ידרוש הרבה עבודה. אז אני מצפה שהדינמיקה הזו תימשך: יהיו Frontier Labs עם AI סגור, כמו אורקלים, ואז כמה חודשים אחר כך יוצא משהו דומה בקוד פתוח. אני חושב שזה בסך הכול סטאפ די טוב.

כי אני קצת מהסס—אני לא חושב שמבנית זה נכון להחזיק רק אינטליגנציה סגורה; זה יוצר סיכון מערכתי. אני חושב שהרקורד של ריכוזיות מאוד גרוע בהיסטוריה.

אתה מתכוון למערכות פוליטיות או כלכליות בכלל?

כן.

בדיוק. היו הרבה—נשיאים גרועים—כמו מזרח אירופה. אז הייתי רוצה שתהיה תשתית—לא בקצה היכולת, כי זה חדש ולא נחקר—אבל שיהיה משהו מאחור, כמו מרחב עבודה ציבורי של אינטליגנציה שכל התעשייה יכולה לגשת אליו. בעיניי, מאזן הכוחות בתעשייה די טוב.

כן, ואני גם חושב שיש הרבה בעיות לפתור. אם אתה ממשיך לדחוף את האינטליגנציה החזיתית, אנחנו יכולים לעשות דברים חדשים—ואנושות תיתקל בהרבה בעיות מאוד גדולות. נראה שזה עדיין משחק יקר מאוד. אז אני רוצה לתמוך במעבדות שדוחפות את זה קדימה, כי בלי להמשיך להוציא הרבה כסף כדי להתקדם, לא נוכל לפתור חלק מהבעיות. עם זאת, כמו שציינת—אם החזית של היום הייתה פתוחה, יש כבר הרבה יכולת. נכון. אז הדמוקרטיזציה של הכוח שלה נראית שימושית ובריאה.

כן. אני חושב שבמקרה, אנחנו נמצאים במקום טוב למדי—ואולי אפילו אופטימלי. במובן מסוים, במקרה הגענו למצב די טוב.

ובמידה מסוימת, ככל שהדינמיקה הזאת תימשך יותר זמן—אקוסיסטם בריא יותר זה כנראה נכון, כי השטח שמתחת לעקומה גדל.

אני אגיד שגם בצד ״הקרוב״, אני כמעט מרגיש שהייתה לאחרונה יותר ריכוזיות, כי הרבה מובילים—זה לא בהכרח ״קבוצת על״ אחת. אז במובן הזה זה לא אידיאלי. אני רוצה יותר ״מהחזית עד האחור״; אני רוצה יותר אנשים בחדר. אני חושב שב‑machine learning, ensemble תמיד מנצח כל מודל בודד—אז אני רוצה קבוצת אנשים שחושבים על הבעיות הקשות ביותר; אני רוצה קבוצת אנשים בחדר שמבינים הכול ועושים את כל ההחלטות. אני לא רוצה שזה יהיה דלת סגורה של שניים‑שלושה אנשים. זה לא עתיד טוב. אני כמעט רוצה יותר מעבדות.

בקיצור: אני כן חושב שלקוד פתוח יש תפקיד. אני מקווה שהוא יחזיק מעמד. כרגע הוא קצת מאחור—וזה בעצם דבר טוב.

טוב. אתה חלוץ של טכנולוגיות אוטונומיה לרובוטים כלליים של רכב, נכון? בחודשים האחרונים קרו הרבה דברים בחברות רובוטיקה: האצה של הכללה מרשימה של task environments, יותר משימות ארוכות, הרבה כסף נכנס לתחום—כאילו זה הולך לקרות. האם נקודת המבט שלך השתנתה לאחרונה?

נקודת המבט שלי נובעת ממה שראיתי ברכב אוטונומי. אני באמת מרגיש שנהיגה אוטונומית הייתה אפליקציית הרובוטיקה הראשונה. מה שראיתי לפני 10 שנים: היו הרבה סטארטאפים, ורובם לא הצליחו לטווח ארוך. צריך המון CapEx והמון זמן. אז אני חושב שזה יהיה דומה ברובוטיקה, כי זה קשה ומלוכלך; צריך הון גדול והרבה אמונה. זה בעיה גדולה; פרויקטים מאוד קשים. אז אני מרגיש שהם יפגרו, כי הם יפגרו אחרי מה שיקרה במרחב הדיגיטלי, שבו יהיה הרבה כאוס—כאילו דברים לא‑יעילים הופכים ליעילים פי 100.

כי ביטים הם קלים. אז מבחינת השינוי והיכן תהיה הפעילות, אני מרגיש שהמרחב הדיגיטלי יעבור שינוי אדיר, ואז המרחב הפיזי יפגר. מה שמעניין אותי מאוד הוא הממשק ביניהם: אם יהיו יותר סוכנים שפועלים בשם בני אדם, יותר סוכנים שמדברים ביניהם, מבצעים משימות ומשתתפים בכלכלת סוכנים—אתה יכול לפעול רק במרחב הדיגיטלי. בשלב מסוים אתה חייב לצאת ליקום; אתה חייב לשאול את היקום שאלות; אתה חייב לעשות ניסוי ולראות מה היקום אומר לך ואז לחזור ללמוד משהו.

כרגע יש לנו המון עבודה דיגיטלית, כי יש בעיית‑תלוי‑ועומד של חשיבה קולקטיבית על כל מה שכבר דיגיטלי. לנו כבני אדם אין מספיק ״מחזורי מחשבה״ כדי לחשוב על כל מה שכבר דיגיטלי ומועלה. אז נתחיל לנצל את כל מה שכבר הועלה. בשלב מסוים תקרא ותעבד את כל המאמרים, ותהיה לך רעיונות למה לנסות. אבל כן—אני לא יודע עד כמה אתה אוהב אינטליגנציה סגורה לגמרי ורק מידע זמין.

אז אני חושב שמה שיקרה הוא: קודם תהיה הרבה ״שחרור חסמים״, ויש שם הרבה עבודה. ואז זה ינוע לממשק בין פיזי לדיגיטלי: חיישנים רואים את העולם ומפעילים עושים דברים לעולם. הרבה חברות מעניינות יגיעו מהממשק הזה: האם נוכל לספק לדאטה סופר‑חכם? אם רוצים להפוך את כל הדבר ל״נכון״, האם נוכל להשיג דאטה לפי הצעת מחיר ולתפעל את העולם הפיזי? השוק הכולל—מבחינת נפח עבודה—עצום, אולי אפילו יותר ממה שקורה במרחב הדיגיטלי. אז אני חושב שזה גם הזדמנות גדולה יותר, אבל גם עומס עבודה עצום. קשיחות האטומים היא פי מיליון. אז זה יפגר, אבל זה שוק גדול יותר. ההזדמנות כנראה הולכת במסלול הזה: עכשיו הדיגיטלי הוא העניין המרכזי שלי, אחר כך הממשק, ואז אולי הדברים הפיזיים—והעידן שלהם יבוא; וכשהוא יבוא הוא יהיה ענק.

זה מסגרת מעניינת, כי דברים מסוימים—even בעולם האטומים—קלים הרבה יותר: אם אתה רק רוצה לקרוא ולכתוב לעולם הפיזי, כמו לקרוא דרך חיישנים/מצלמות—יש הרבה חומרה קיימת. אפשר לדמיין להרחיב פונקציות של סוכן או לאסוף הרבה דאטה חדש (אם אתה מספיק חכם) בלי להשקיע המון כסף.

כן. אני רואה דוגמאות כמו: חבר שלי ליאם (Liam) מנהל חברה שבה הם מנסים לעשות AutoResearch למדעי החומרים. שם ה״חיישנים״ הם ציוד מעבדה יקר מאוד. גם בביולוגיה. אני חושב שהרבה אנשים מתעניינים ב‑engineering biology, וחיישנים יהיו לא רק מצלמות. עוד דבר: חברות שמנסות לשלם לאנשים על training data. כן—כמו Feeding Borg בצורה תוכנית.

כן. להאכיל את הבורג. במובן מסוים אלו דוגמאות לחיישנים. הם יבואו בהרבה צורות.

כן. אני מצפה ליום שבו אוכל לבקש משימה בעולם האמיתי, לתמחר אותה, ולהגיד לסוכן: אתה יודע איך לעשות—לך תאסוף דאטה. אני מופתע שאין לנו מספיק שווקי מידע. למשל, אם Polymarket או שווקי הימורים אחרים או אפילו מניות—אם יש בהם כל כך הרבה פעילות אוטונומית והיקף הפעילות עולה—למשל, אם משהו קרה עכשיו באיראן, למה אין תהליך שבו צילום/ווידאו ממקום מסוים עולה 10 דולר—מישהו צריך להיות מסוגל לשלם את זה. זה דוגמה ל״איסוף מודיעין״: לא בני אדם מסתכלים; זה סוכנים שמנסים לחזות משחקי הימורים ושוק המניות וכו׳.

אז אני חושב שרשתות סוכנים עדיין חדשות—אין מנגנונים כאלה—אבל זה דוגמה למה שיכול לקרות. יש ספר טוב שיכול לעורר השראה שנקרא The Demon—אתה אולי קראת על זה אצל דיימון—שבו אינטליגנציה בסוף היא כמו מניפולציה בחוטים: בני אדם הם כמו האקטואטורים שלה, אבל גם החיישנים שלה. אז אני חושב שחברה תעוצב מחדש באופן קולקטיבי כדי לשרת את זה. יהיה יותר אוטומציה, ויהיו צרכים; בני אדם ימלאו צרכים של מכונות, לאו דווקא של בני אדם אחרים.

טוב, בשאלה מאוד קונקרטית: חסר לנו training data, אנחנו צריכים דברים כמו AutoResearch, אנחנו צריכים שה‑training cycles או חלקי SFT יהפכו ליותר מכניים—איזה חלק—כדי להוציא את בני האדם מהלולאה: לבקש משימה כמו ״שפר את איכות המודל שלי״ עם דאטה חדש, נכון?

כן.

זה הגיוני לך? אם אתה לא יכול לתת למודל לאמן את עצמו, אז יש לך יכולת להפוך את זה למשימת לולאה סגורה—דרך תמחור דאטה וחיבור אליך?

כן. זה מאתגר יותר.

כן. 100%. אבל העניין הוא שאימון LLM דווקא מאוד קל והוא מתאים לפרדיגמה. מדדים נקיים—אימון LM מתאים מאוד; אופטימיזציה של קוד כדי לרוץ מהר יותר—יש לך מדדים שאפשר למטב. אני כן חושב שאם יש לך לולאה אוטונומית על המדדים האלה, המערכת תעשה overfitting למדדים האלה—תהיה הרבה עבודת שיפור טובה—אבל אפשר להשתמש במערכת כדי לתכנן עוד מדדים ולקבל כיסוי טוב. קשה לומר, אבל במובן מסוים זה מתאים מאוד.

לפני שנסיים, אני רוצה לדבר על פרויקט קטן שלך. ספר לי על micro‑GPT.

אה, כן. אוקיי. micro‑GPT. אני אובססיבי כבר שנה‑שנתיים (או אפילו עשר שנים) לגבי פישוט ותמצות של LLMs למהות שלהם. עשיתי הרבה פרויקטים כאלה—כמו nano‑GPT, ועכשיו micro‑GPT וכו׳. אני חושב ש‑micro‑GPT הוא הכי מתקדם: ניסיתי לצמצם למהות, כי אימון רשתות נוירונים ו‑LLMs בפרט—יש הרבה קוד, אבל רוב הקוד הזה הוא מורכבות של יעילות.

רק כי צריך שזה ירוץ מהר. אם לא צריך לרוץ מהר, ואתה רק דואג לאלגוריתם, האלגוריתם הוא בעצם 200 שורות Python, מאוד קל לקריאה, עם הערות והכול. יש לך dataset טקסט, ואתה צריך בערך 50 שורות לארכיטקטורת הרשת. אתה צריך forward pass, ואז backward pass כדי לחשב gradients. אז מנוע autograd קטן לחישוב gradients הוא כמו 100 שורות. ואז אתה צריך optimizer, למשל Adam—אופטימייזר מאוד מתקדם—זה עוד כמו 10 שורות. ואז לשים הכול בלולאת אימון—כמו 200 שורות.

זה מעניין לי כי בעבר—לפני שנה או יותר—אם הייתי מגיע ל‑micro‑GPT, הייתי רוצה להסביר לאנשים: לעשות וידאו, לעבור שלב‑שלב וכו׳. ניסיתי לעשות וידאו, ניסיתי לעשות מדריך קטן, אבל הבנתי שזה לא באמת מוסיף הרבה—כי זה כבר פשוט: 200 שורות. כל אחד יכול לבקש מהסוכן שלו להסביר את זה בכל דרך. ואני—כבר לא מסביר לאנשים. אני מסביר לסוכנים. אם אתה יכול להסביר לסוכן, הסוכן יכול להיות הראוטר: הוא יכול להסביר לבני אדם בשפה שלהם, עם סבלנות אינסופית ויכולת וכו׳.

נכון. אם אני לא מבין פונקציה ספציפית, אני יכול לבקש מהסוכן להסביר לי אותה בשלוש דרכים שונות—אבל אני לא אקבל את זה ממך.

בדיוק.

אז אני מרגיש: מה זה חינוך? פעם זה היה מדריכים, הרצאות—אבל עכשיו זה יותר שאני מסביר דברים לסוכנים. אולי מיומנויות הן דרך להנחות סוכנים איך ללמד תוכן. אולי אני יכול לשלוט במיומנות של התקדמות דרך micro‑GPT: אם אתה רוצה להבין קוד‑בייס, הסוכן צריך להוביל אותך. זה כמו פרומפט‑מודל: ״קודם תתחיל מזה, ואז מזה״. אז אני יכול לכתוב קצת את הקורס כמיומנות.

אז אני לא מרגיש—כן—שלהסביר ישירות לבני אדם יקרה פחות, ויותר יהיה: האם הסוכן קלט? אם הסוכן קלט, הוא יסביר. עוד לא עשינו את זה לגמרי, כי אני עדיין חושב שאולי אני יכול להסביר יותר טוב מהסוכן—אבל המודלים משתפרים כל כך מהר, שאני מרגיש שבמובן מסוים זו מלחמה אבודה. אז אני חושב שחינוך יעבור ערבוב מחדש מוחלט. זה סוף ״ללמד זה את זה״: אם יש לי קוד‑בייס, בעבר היית כותב תיעוד HTML למשתמשים אחרים; אבל עכשיו אתה לא אמור לעשות את זה. במקום HTML לאנשים, אתה כותב Markdown לסוכנים. כי אם הסוכן מקבל את זה, הוא יכול להסביר כל חלק בכל דרך. זה ניתוב מחדש דרך סוכנים.

טוב, נראה אם מורים גדולים ירצו לפתח אינטואיציה איך להסביר דברים לסוכנים בצורה אחרת.

בסוף, למשל, ב‑micro‑GPT כמו ששאלת—ניסיתי למצוא סוכן שיכתוב micro‑GPT. אמרתי לו: תנסה לצמצם את זה למהות הכי פשוטה של רשת נוירונים—תנסה לצמצם עוד ועוד—אבל הוא לא מצליח. micro‑GPT הוא כמו הסוף של האובססיה שלי. זה 200 שורות. חשבתי על זה הרבה זמן. הייתי אובססיבי לזה תקופה ארוכה. זה הפתרון. תאמין לי—זה לא יכול להיות פשוט יותר. זה הערך שלי. כל השאר—הסוכנים כבר קלטו.

הוא לא מצליח להמציא את זה, אבל הוא מבין לגמרי ומבין למה משהו צריך להיעשות כך. אז מה שאני באמת יכול לתרום הוא אולי רק כמה חלקים בודדים; ושאר הדברים—המשך ההוראה וההבעה—אולי כבר לא יהיה התחום שלי. אז אולי חינוך ישתנה דומה: אתה צריך להזריק באופן יזום את החלקים שבהם יש לך שיפוט חזק באמת על הקורס, ואת דרך ההסבר הטובה ביותר בעיניך. מה שהסוכן לא יכול לעשות—זה העבודה שלך עכשיו; ומה שהוא יכול לעשות—בקרוב הוא אולי יעשה טוב יותר ממך. אז צריך להיות יותר אסטרטגי לגבי איפה אתה באמת משקיע זמן.

תודה רבה לך, אנדריי.

אוקיי.

אפשר לעקוב אחרי No Priors ב‑Twitter/X; אם אתם רוצים לראות גרסת וידאו, אפשר להירשם לערוץ ה‑YouTube שלהם. אפשר גם לעקוב אחרי התוכנית ב‑Apple Podcasts, Spotify, או כל פלטפורמה שאתם מאזינים בה לפודקאסטים—וכך תקבלו פרק חדש כל שבוע. אפשר גם להירשם למייל ב‑no-priors.com, או לקרוא את התמלילים של כל פרק.