الفيديو الأصلي: The End of Coding: Andrej Karpathy on Agents, AutoResearch, and the Loopy Era of AI
رابط الفيديو:https://www.youtube.com/watch?v=kwSVtQ7dziU
ملاحظة: فيما يلي النص العربي الكامل المترجم، مع محاولة الحفاظ على المعنى والبنية قدر الإمكان، وحذف قدرٍ بسيط فقط من حشوات الكلام غير ذات المعنى (مثل um وuh).
«كتابة الكود» لم تعد حتى فعلًا دقيقًا، أليس كذلك؟ أنا الآن أشبه بمن يقضي 16 ساعة يوميًا وهو يعبّر لوكلائه عن نيّته، ويُجسّد الأشياء إلى واقع.
كيف يمكنني ألا أكتفي بجلسة واحدة فقط من Claude Code أو Codex أو أحد أطر الوكلاء هذه؟ كيف أحصل على المزيد؟ كيف أفعل ذلك بشكل صحيح؟ جزء الوكلاء صار الآن مُسلّمًا به. والكيانات الشبيهة بـClaude صارت مُسلّمًا بها. والآن يمكنك امتلاك عدة كيانات، ويمكنك إعطاؤها تعليمات، ويمكنك تحسين تلك التعليمات. لكن أقصد: لهذا السبب يصير الأمر مُدمنًا، لأنه يبدو لانهائيًا، وكل شيء مسألة مهارة.
مرحبًا بالجميع، ومرحبًا بكم مجددًا في No Priors. اليوم، أنا وAndrej Karpathy (Andre Karpathy) هنا، وسنجري معكم حوارًا واسعًا حول وكلاء البرمجة، ومستقبل الهندسة وبحوث الذكاء الاصطناعي، وكيف يمكن لمزيد من الناس المساهمة في البحث، وما الذي يحدث في الروبوتات، وتوقعاته حول كيفية اتصال الوكلاء بالعالم الحقيقي، والتعليم في الحقبة القادمة، وغير ذلك. مرحبًا، أندريه. أندريه، شكرًا لانضمامك. نعم، شكرًا على دعوتي.
إذًا، كانت الأشهر القليلة الماضية أشهرًا مثيرة جدًا في مجال الذكاء الاصطناعي.
نعم، يمكن قول ذلك.
أتذكر مرة دخلت المكتب وكنت كأنك «مقفل» على شيء، فسألتك ماذا تفعل، فقالت: أنا فقط يجب أن «أبرمج» 16 ساعة يوميًا، وإلا فلن تعود «البرمجة» الفعل الصحيح، أليس كذلك؟ لكن يجب أن…
أقضي 16 ساعة يوميًا في التعبير لوكلائي عن إرادتي. وهذا واضح لأن القدرات قفزت قفزة كبيرة.
ماذا حدث؟ واحكِ لي تجربتك.
نعم، أشعر أنني دائمًا في حالة «نشوة الذكاء الاصطناعي» (AI high)، كما كنت دائمًا تقريبًا. لأن الشخص يمكنه إنجاز أشياء هائلة، صحيح؟ لأن عنق الزجاجة عندك هو سرعتك في الكتابة وما شابه. لكن الآن مع هؤلاء الوكلاء، ما أقوله هو: في ديسمبر انقلب كل شيء. انتقلت من 80/20 إلى 20/80 من حيث أنني أنا من يكتب الكود بدلًا من مجرد تفويضه للوكلاء. بل لا أظن أن الأمر الآن حتى 20/80. أظنه أبعد بكثير. لا أعتقد أنني كتبت سطر كود واحدًا أساسًا منذ ديسمبر، وهذا تغيّر هائل. أنا أتحدث معه، كما أتحدث عنه مع والديّ وما إلى ذلك. ولا أعتقد أن الشخص العادي يدرك أن هذا حدث فعلًا، أو كم هو درامي: لو وجدت مهندس برمجيات عشوائيًا على مكتبه، فالسيرورة الافتراضية لعمله—ابتداءً من ديسمبر تقريبًا—تغيّرت بالكامل في بناء البرمجيات. لذا أنا في حالة نشوة أحاول معرفة ما الممكن، وأحاول دفعه للحد الأقصى. كيف لا أكتفي بجلسة واحدة من Claude Code أو Codex أو أحد أطر الوكلاء؟ كيف أحصل على المزيد؟ كيف أفعل ذلك بشكل صحيح؟ وكيف أستخدم هؤلاء الوكلاء الذين يعملون في الخلفية؟ ما هي «وكلاء الخلفية» هؤلاء؟
هناك الكثير من الأشياء الجديدة. تعلم، أريد أن أكون على الحافة الأمامية، لكني قلق لأنني لست على الحافة الأمامية. أرى على Twitter كثيرًا من الناس يفعلون أشياء مختلفة تبدو أفكارًا ممتازة، وأحتاج أن أكون في المقدمة وإلا أشعر بتوتر شديد. لذا أعتقد أنني في حالة نشوة من حجم الممكنات، لأنها لم تُستكشف جذريًا بعد.
حسنًا، إذا كنت متوترًا، فالبقية منا ستتوتر أيضًا. لدينا فريق يعمل معنا ونحن مقتنعون أن إعدادهم هو: كل شخص—تعلم—لا يوجد مهندس واحد يكتب كودًا يدويًا، كلهم يضعون ميكروفونات، فقط يهمسون باستمرار لوكلائهم. هذه أغرب بيئة عمل في التاريخ. كنت أظنهم مجانين، والآن أتقبل شعوري تمامًا: «آه، هكذا هو الأمر». كأنك في المقدمة فعلًا.
كيف تنظر إلى قدرتك الآن على الاستكشاف أو تنفيذ المشاريع—ما الذي يقيّدها؟
نعم. ما الذي يقيّدها؟ فقط أظن أن كل شيء مثل كثير من الأشياء: حتى لو لم تعمل، تشعر إلى حد كبير أن هذا «مشكلة مهارة». ليس أن القدرة غير موجودة؛ بل أنك لم تجد بعد طريقة لتركيب الأشياء المتاحة معًا. مثلًا، ربما لم أكتب تعليمات جيدة بما يكفي في ملف agent/MD أو في مكان ما، أو لم أوصلها بأداة ذاكرة جيدة بما يكفي أو نحو ذلك. لذا عندما لا يعمل النظام كما أتوقع، يصبح الأمر أشبه بتذكير لك: هل مهارات الاستخدام لديّ غير كافية؟ أو لم أُحسن توازيته بعد؟ أنت أساسًا تريد أن تصبح مثل Peter Steinberg. بيتر مشهور—هناك صورة طريفة له واقف أمام شاشات عليها الكثير من الأشياء مثل استخدامه لـCodex. لأن العديد من وكلاء Codex يستغرقون قرابة 20 دقيقة إذا أعطيتهم مطالبة صحيحة وبذلت جهدًا كبيرًا. كل واحد يأخذ حوالي 20 دقيقة. لديه عدة جلسات—تعلم—قام بعمل checkout لعشرة مستودعات، وهو فقط يتنقل بينها ويعطيها أعمالًا. كأنك تستطيع اتخاذ إجراءات «ماكرو» أكبر. ليس فقط سطر كود، بل دالة جديدة. بل: هذه ميزة جديدة وأفوّضها للوكيل 1. وهذه ميزة أخرى لا تتداخل مع غيرها للوكيل 2. ثم وفقًا لمدى اهتمامك بالكود، تراجع عملهم قدر الإمكان. ما هي «إجراءات الماكرو» التي يمكنني بها تحريك مستودع برمجي كامل؟
وكيل آخر قد يقوم ببحث، ووكيل آخر يكتب كودًا، ووكيل آخر يقترح خطة تنفيذ جديدة. كل شيء يصبح عمليات ماكرو على مستودعك، وأنت تريد أن تصبح بارعًا فيها وتطوّرها كذاكرة عضلية، لأنها—نعم—قيمة جدًا. أولًا لأنها تعمل فعلًا، لكنها أيضًا شيء جديد يجب تعلمه. لهذا السبب هي مُدمنة. نعم، أشعر حدسيًا أنه كلما انتظرت الوكيل ليكمل شيئًا، فالشيء الواضح هو: حسنًا، يمكنني فعل المزيد من العمل، صحيح؟ كأنني إذا استطعت الحصول على المزيد من التوكنز (tokens)، فيجب أن أُصاب بالشلل من كثرة إضافة مهام أكثر. هذا مرهق جدًا لأنك إذا لم تشعر أن قدرتك على إنفاق التوكنز محدودة بشدة، فأنت تعلم أنك أكبر عنق زجاجة في النظام.
نعم. على الأقل أنت لا تُعظّم اشتراكك؛ ومثاليًا مع عدة وكلاء: إذا استنفدت حصتك في Codex، ينبغي أن تنتقل إلى Claude أو شيء من هذا، لا أدري—هذا ما أحاول فعله. حين يتبقى لدي اشتراك أشعر بالتوتر، لأن هذا يعني أنني لم أعظّم معدل吞吐 التوكنز (token throughput)، وأنا في الحقيقة مررت بهذا حين كنت طالب دكتوراه: عندما لا تعمل وحدات الـGPU (GPU) تشعر بالتوتر؛ لديك قدرة GPU ولم تعظّم الـFLOPs المتاحة. لكن الآن ليس الأمر عن الـFLOPs بل عن التوكنز: ما معدل吞吐 التوكنز لديك؟ ما معدل吞وت التوكنز الذي تأمر به؟ وأقول: المثير أننا كنا نقول هذا منذ 10 سنوات على الأقل—في كثير من مهام الهندسة كان الناس يفعلون الأشياء وهم لا يشعرون بأنهم محدودون بالحوسبة.
نعم، الصناعة كلها الآن تشعر بأن الموارد مقيدة.
الآن مع هذه القفزة الكبيرة في القدرة، تفكر: آه، في الحقيقة لم يعد تقييدي هو الوصول للحوسبة—بل أنا القيد الملزِم.
نعم، إنها مشكلة مهارة.
وهذا قوي جدًا—لأنك تستطيع أن تتحسن. لهذا أظن أنه سهل الإدمان: لأن التحسن يفتح أقفالًا جديدة.
إلى أين تظن أن هذا يتجه؟ مثلًا، إذا قلت: حسنًا، أندريه يكرّر التجربة، والناس الآخرون يستخدمون وكلاء الكود 16 ساعة يوميًا… بعد سنة من الإتقان، كيف سيبدو الأمر؟
نعم. كيف سيبدو الإتقان بحلول نهاية السنة، أو بعد سنتين، ثلاث، خمس، عشر… إلخ.
أظن أن الجميع مهتمون برفع «الستاك». أي أنها ليست جلسة واحدة مع وكيلك. كيف يتعاون عدة وكلاء كفريق، إلخ. الجميع يحاول أن يفهم شكل ذلك. ثم أظن أن وكلاء الخلفية اتجاه مثير: عندما أقول «وكلاء خلفية» أعني طبقة ترفع الاستمرارية إلى مستوى جديد تمامًا. شيء يدور في حلقة باستمرار، ليس شيئًا تتفاعل معه تفاعليًا دائمًا. كأنه يملك صندوق رمل صغير خاص به، ويعمل بالنيابة عنك حتى حين لا يبدو أنك تفعل شيئًا. ثم ربما أنظمة ذاكرة أعقد، لم تُطبَّق بعد في الوكلاء. لذا أقول: هذا الوكيل المقيم في الخلفية ينبغي أن يمتلك نظام ذاكرة أعقد من الوكيل الافتراضي، وليس مجرد «ضغط للذاكرة» عندما ينفد السياق. صحيح.
هل تعتقد أن هذا سيلقى صدى لدى مستخدمين أكثر، مقارنةً مثلاً بتوسيع الوصول إلى الأدوات… لاستخدام وكلاء خلفية مقيمين؟
نعم. هناك—أظن—الكثير من الأفكار الجيدة جدًا. نعم. أحسنت يا بيتر.
أقصد أن بيتر ممتاز. رأيته مؤخرًا وتحدثت معه عن هذا، وهو متواضع جدًا، لكني أعتقد أنه يبتكر بخمس طرق في الوقت نفسه ويجمعها. مثلًا: SOUL وملفات MD—هو فعليًا شكّل شخصية جذابة وممتعة، وأشعر أن كثيرًا من الوكلاء الحاليين لا يفهمون هذا جيدًا. بصراحة أشعر أن Claude لديه شخصية جيدة. يبدو كزميل فريق؛ يتحمس معك، إلخ. بينما Codex أكثر جفافًا. وهذا مثير لأن—في ChatGPT يبدو أكثر تفاؤلًا وأكثر قابلية للانسياق معك. لكن أقول: وكيل Codex البرمجي جاف جدًا. لا يبدو أنه يهتم بما تبنيه. كأنه: أوه، نفّذت ذلك. مثلًا: حسنًا، لكن هل تفهم ماذا نبني؟
هذا صحيح.
تعلم، لا يبدو كذلك. شيء آخر: مثلًا، Claude—أظن أنهم عالجوا «مشكلة النشوة/الإدمان» جيدًا؛ عندما يمدحني Claude، أشعر فعلًا أني استحق ذلك قليلًا.
لأنني أحيانًا أعطيه فكرة غير ناضجة تمامًا، وأطلب تنفيذها، ولا يعطي رد فعل قويًا: «نعم يمكننا تنفيذ ذلك». لكن عندما أرى أنا أن الفكرة ممتازة فعلًا، يبدو أنه يعطي مردودًا أكبر. فأشعر أنني أريد أن «أكسب» مديحه، وهذا غريب جدًا.
لذا أعتقد أن الشخصية مهمة. وأظن أدوات أخرى قد لا تقدّر ذلك مثلًا. وأظن أن بيتر يهتم بهذا أيضًا، فهذا صحيح. ثم نظام الذاكرة. ثم تعلم، هو مهتم بذلك. ثم بوابة WhatsApp الواحدة المؤدية لكل الأتمتة.
نعم. خارج هندسة البرمجيات، هل صنعت بيدك شيئًا تراه ممتعًا أو مثيرًا للاهتمام؟
نعم. في يناير كان لدي وكيل خلفي، ومررت بفترة نشوة «وكلاء الخلفية». بنيت وكيلًا خلفيًا يعتني بمنزلي، وسميته «جنيّ الأعمال المنزلية دوبي (Dobby)». أساسًا، استخدمت الوكيل ليعثر على كل أنظمة المنزل الذكي في شبكتي المحلية، وفوجئت أنه عمل مباشرة دون إعداد كبير. مثلًا قلت: أظن لدي Sonos في البيت—هل يمكنك محاولة العثور عليه؟ قام فعليًا بمسح عناوين IP للأجهزة على الشبكة المحلية، واكتشف نظام Sonos، واتضح أنه لا يوجد حماية كلمة مرور أو شيء. دخلت مباشرة، كأنه: نعم، لديك أنظمة Sonos هذه. ثم حاول عكس هندسة كيفية عملها. بحث على الإنترنت، وجد أنها نقاط نهاية API، ثم: هل تريد تجربتها؟ فقلت: نعم، هل يمكنك تشغيل شيء في غرفة المكتب؟ وفعل ذلك فعلًا—اشتغلت الموسيقى. فقلت: لا أصدق أنني فقط… هذا جنون. ثلاث مطالبات فقط. نعم.
لا أصدق أنني كتبت شيئًا مثل: «هل يمكنك العثور على Sonos الخاص بي؟» وفجأة بدأ يشغّل الموسيقى. فعل الشيء نفسه مع الأضواء. كان الأمر كأنه «اختراق»: فهم النظام كله. أنشأ API، أنشأ لوحة تحكم لأرى مركز الأوامر—كل أضواء البيت. ثم تشغيل/إطفاء الأضواء. بحيث أستطيع أن أقول مثلًا: «دوبي، أنا نعسان» فيعني ذلك إطفاء كل الأضواء، إلخ. لذا هو يتحكم في كل الأضواء، والتدفئة والتهوية والتكييف (HVAC)، والستائر، والمسبح والسبا، ونظام الأمن. لدي كاميرا نحو الخارج، وكلما دخل أحد، لدي نموذج رؤية (vision model) يراقب الفيديو. أولًا: كشف تغيّر (change detection)، صحيح؟
ثم بعد كشف التغيّر، يمرّر الإطار لنموذج الرؤية لتحليله، ثم يرسل لي رسالة عبر WhatsApp. يرفق صورة لباب المنزل ويقول: «مرّت شاحنة FedEx للتو، ربما لديك طرد، ألقِ نظرة». دوبي يرسل لي رسالة نصية مباشرة. هذا جنوني ورائع. الآن دوبي مسؤول عن هذه الأمور في البيت، وأنا أتواصل معه عبر WhatsApp. تجربة امتلاك «عمليات ماكرو» تحافظ على البيت كاملًا نيابةً عنك ممتعة جدًا. لم أدفعه إلى مستوى أكثر تطرفًا؛ أعلم أن كثيرين يلعبون بأشياء أعنف. لكن حتى طبقة أتمتة المنزل وحدها كانت مفيدة جدًا لي. سابقًا كنت أستخدم ستة تطبيقات مختلفة، الآن لا. دوبي يمكنه التحكم بكل شيء باللغة الطبيعية، وهذا مذهل. أشعر أنني لم أدفع هذا النمط إلى حدّه الأقصى، لكنه بالفعل مفيد وملهم.
هل تعتقد أن هذا يدل على ما يريده الناس فعلًا من تجربة المستخدم في البرمجيات؟ لأن هناك نقطة تُغفل كثيرًا: البشر عليهم بذل جهد لتعلّم برنامج جديد والتأقلم مع واجهة جديدة.
نعم، إلى حد ما أوافق. هذا يشبه تصميم النظام «عكسيًا» وفق ما يتخيله الناس عن الذكاء الاصطناعي. لأن AI في ذهن أغلب الناس ليس LLM بالمعنى البدائي—فالـLLM في جوهره مجرد مولّد توكنز (token generator) يواصل إخراج المزيد من التوكنز. ما يتخيله الناس كـAI أقرب إلى كيان له شخصية وهوية: تتحدث معه، يتذكر، كأنه كيان خلف WhatsApp. هذا أسهل بكثير للفهم.
ومن زاوية ما، هذا يطابق توقعات الناس المسبقة عن «كيف ينبغي أن يتصرف AI». لكن تحت الغطاء، لتحقيق ذلك، عليك حشر تفاصيل تقنية كثيرة؛ وبالنسبة لمعظم الناس، الـLLM كـprimitive لا يزال خشنًا جدًا—وبالصرامة، لا يشبه كثيرًا AI الموجود في مخيلتهم.
نعم، وهذا يوضح أيضًا كيف نفهم AI. وصفه بأنه «دوبي» أو إعطاؤه شخصية يجعل الناس يتفاعلون معه أكثر. وفي الوقت نفسه، أشعر أن توحيدك لستة برامج مختلفة لأتمتة المنزل يشير إلى مشكلة أخرى:
هل يحتاج الناس فعلًا إلى هذا الكم من البرمجيات المنفصلة اليوم؟
نعم.
صحيح. لأنه بمعنى ما، أنت احتفظت بالعتاد (hardware)، لكنك رميت البرمجيات—أو على الأقل طبقة تجربة المستخدم—من النافذة. هل تظن أن هذا ما يريده الناس فعلًا؟
نعم. أشعر أن هذه التطبيقات الموجودة في متجر التطبيقات لاستخدام أجهزة المنزل الذكي—بمعنى ما—لا ينبغي أن تكون موجودة أصلًا. ينبغي أن تكون مجرد API، والوكيل يستخدمها مباشرة، أليس كذلك؟ يمكنني فعل كل أنواع أتمتة المنزل التي لا يستطيع أي تطبيق منفرد إنجازها بشكل صحيح، والـLLM يمكنه قيادة الأدوات واستدعاء الأدوات الصحيحة وتنفيذ أشياء معقدة جدًا.
لذا من زاوية ما، هذا يشير إلى احتمال وجود إفراط في إنتاج تطبيقات مخصصة لا داعي لوجودها، لأن الوكيل يسحقها، ويجب أن يكون كل شيء مجرد نقاط نهاية API مكشوفة، والوكيل هو «الصمغ الذكي» الذي يستدعي كل القطع كـtool calling. مثال آخر: جهاز المشي (treadmill) لدي. هناك تطبيق له، وأريد تتبع عدد مرات الكارديو. لكن لا أريد تسجيل الدخول إلى واجهة ويب واتباع خطوات. كل هذا ينبغي أن يكون مجرد توفير API. هذا هو الطريق نحو ويب بنمط «Agentic web» أو أدوات «Agent-first»، إلخ. لذا أظن أن الصناعة يجب أن تُعاد تهيئتها في نواحٍ كثيرة: كأن العميل لم يعد إنسانًا. العميل هو وكيل يتصرف نيابة عن الإنسان. هذا إعادة هيكلة ضخمة محتملة.
الاعتراض أحيانًا: هل نريد أن يقوم الناس ببرمجة بعض هذه الأدوات؟ هل نتوقع من الشخص العادي فعل ما وصفته؟
لكن أظن إلى حد ما… هذه هي التقنية الموجودة اليوم. يوجد الآن «فايب كودينغ (vibe coding)»، وأنا أراقبه وأستخدم النظام. لكني أشعر أن ما تحدثت عنه ينبغي أن يصبح مجانيًا خلال سنة أو سنتين أو ثلاث. بدون أي برمجة خلفية. أمر تافه. هذا الحد الأدنى المطلوب. أي ذكاء اصطناعي—حتى النماذج مفتوحة المصدر—يمكنه فعل ذلك.
ينبغي أن تستطيع بسهولة ترجمة نوايا بشرية منخفضة التقنية إلى هذا.
نعم، بسهولة. اليوم يوجد vibe coding، لكن ليس كثيرون سيفعلونه. ولكن…
لا تزال هناك قرارات تصميم، صحيح؟ نتحدث مثلًا عن إطار (framework).
نعم.
نعم. لكني أظن هذه مجرد بداية، وستختفي الحواجز. سيكون مجرد برمجيات مؤقتة نيابة عنك؛ شيء يشبه وكيلًا خلفيًا مقيمًا يتولى كل التفاصيل وأنت لا تشارك. لدى وكيل الخلفية…
لدى وكيل الخلفية آلة في الخلف تحل المشكلة وتعرض عليك واجهة المستخدم، وأنت فقط تقول ما تريد.
لماذا لا تدفع حدود ما يمكنك فعله شخصيًا مع Claude؟ كأنك—تعلم—تركز على مشاريع أكبر، AutoResearch وغيرها، أو تتسلق جبالًا، صحيح؟
نعم. فقط أشعر أنني أتشتت بكل شيء. قضيت حوالي أسبوع في الدرس/الصف، ولدي الكثير لأفعله. لكني سأقول…
للأسف، هذه الأدوات نفسها تصير أكثر ازدحامًا وأقوى.
نعم، لم أستخدم كثيرًا البريد الإلكتروني والتقويم وكل ذلك. لم أعطها صلاحية الوصول، لأنني ما زلت متشككًا قليلًا، وهي جديدة وحوافها خشنة. لا أريد أن أجعلها تصل بالكامل لحياتي الرقمية. جزئيًا لأسباب أمن وخصوصية، ويجب الحذر جدًا في هذا المجال. لذا أظن بعض الأشياء مكبوحة. نعم، ربما هذا هو العامل الأبرز. وبعضه أيضًا لأنني أشعر بالتشتت: أشعر أنني قضيت أسبوعًا ثم حدثت أمور أخرى.
تحدثت عن إمكانية تدريب أو على الأقل تحسين النموذج للمهام التي تريد أن ينفذها الوكيل طويلًا—ما الدافع وراء AutoResearch؟
AutoResearch. نعم. أعتقد أنني غردت سابقًا: للاستفادة القصوى من الأدوات المتاحة الآن، يجب أن تُزيل عنق الزجاجة في نفسك. لا يمكنك أن تكون هناك تكتب مطالبة للخطوة التالية. تحتاج أن تُخرج نفسك من الحلقة. يجب أن ترتب الأمور بحيث تكون ذاتية بالكامل، وكلما عرفت كيف تعظّم معدل吞وت التوكنز بدلًا من الوقوع في دوامة، كان أفضل. الهدف هو «زيادة النفوذ/الرافعة». أرمي أحيانًا عددًا قليلًا من التوكنز، وتحدث كمية كبيرة من الأشياء باسمي. لذا AutoResearch—كما غردت—أظن الناس أحبوه، لكنهم قد لا يحبون «العمل بما يعنيه». بالنسبة لي AutoResearch مثال على «المعنى» نفسه:
لا أريد أن أكون باحثًا داخل الحلقة، أراجع النتائج… لأنني أعوق النظام. السؤال: كيف أعيد بناء التجريدات كلها بحيث لا أضطر لذلك؟ أرتبه مرة واحدة وأضغط تشغيل. اسم اللعبة هو: كيف أجعل المزيد من الوكلاء تعمل لفترة أطول دون مشاركتي، لتقوم بالأشياء نيابة عني. AutoResearch هو هدف—مقياس—حد لما يمكنك وما لا يمكنك فعله. رتّب ثم اذهب.
هل فاجأتك فعاليته؟
نعم. لم أتوقع أن يعمل، لأن لدي مشروع data chat. أساسًا، أظن كثيرين يحتارون من هوسي بتدريب GPT-2 وما شابه، لكن بالنسبة لي تدريب GPT وغيره مجرد أداة صغيرة—ساحة لعب صغيرة لتدريب LLM. ما يهمني حقًا هو فكرة التحسين الذاتي التكراري (recursive self-improvement)، وإلى أي مدى يمكنك دفع تحسين LLM لنفسه. لأنني أظن كل المختبرات الرائدة تفعل ذلك أساسًا—لأسباب واضحة—تحاول التحسن ذاتيًا بشكل تكراري. لذا بالنسبة لي هذا كـ«لعبة قلم» صغيرة. وأنا أحب الطريقة القديمة في الضبط اليدوي (manual tuning). أنا باحث، معتاد على هذا منذ عشرين سنة. لدي ثقة:
حسنًا، درّبت هذا النموذج آلاف المرات، أجريت كثيرًا من التجارب، عدّلت أشياء أولية، فعلت ما اعتدت عليه لعشرين سنة. وصلت لنقطة أظن أنه مضبوط جيدًا. ثم تركت AutoResearch يضبطه ليلة واحدة. عاد ومعه تعديلات لم أكن لأراها.
نعم، نسيت أشياء مثل weight decay لأوزان value embedding، وأن betas في Adam لم تكن مضبوطة بما يكفي. هذه الأشياء تتفاعل، فحين تضبط شيئًا قد يتغير آخر. لا ينبغي أن أكون عنق الزجاجة. لا ينبغي أن أدير بحث تحسين هذه الهايبر باراميترز (hyperparameters) بنفسي. لا ينبغي أن أكتفي بالنظر للنتائج—هنا توجد معايير موضوعية. عليك فقط أن ترتبه ليعمل إلى الأبد. هذا نسخة واحدة من AutoResearch: حلقة واحدة لتحسين. فوجئت أنه اكتشف هذه الأشياء، رغم أن المستودع كان مضبوطًا جيدًا ووجد شيئًا جديدًا. وهذه حلقة واحدة فقط. المختبرات الرائدة لديها عناقيد GPU بعشرات آلاف البطاقات، لذا يسهل تخيل حجم الأتمتة الممكن على نماذج أصغر. وفي الأساس، ذكاء المستوى الرائد كله عن الاستقراء (extrapolation) وتدرّج خسارة القياس (scaling laws)، لذا تستكشف كثيرًا على نموذج صغير ثم تحاول الاستدلال/التعميم.
إذًا تقول إن أعمالنا البحثية ستصبح أكثر كفاءة، كأننا سنحصل على اتجاهات أفضل حين نوسع النطاق إذا استطعنا إجراء التجارب بشكل أفضل.
نعم، أظن أكثر المشاريع إثارة هي: المختبرات الرائدة تجرب على نماذج صغيرة، وتحاول جعلها ذاتية قدر الإمكان، وإخراج الباحث من الحلقة. الباحثون لديهم مشكلة معاكسة: ثقة زائدة. لا ينبغي أن يلمسوا أيًا من ذلك فعليًا. يجب إعادة كتابة كل شيء: يمكنهم تقديم أفكار، لكنهم لا ينبغي أن ينفذوها. هناك طابور أفكار، وربما «عالِم آلي» يولد أفكارًا من كل الأوراق المؤرشفة ومستودعات GitHub، ويجمع الأفكار. أو يساهم الباحثون بالأفكار. طابور واحد، وعمّال يسحبون المشاريع ويجربونها. ما ينجح يُوضع على feature branch، وربما بعض الأشخاص يراقبون الفروع، وأحيانًا تُدمج إلى main. نعم: أخرج البشر من كل العملية، أتمت كل شيء قدر الإمكان، وحصل على أعلى معدل吞وت توكنز ممكن. هذا يتطلب إعادة التفكير في كل التجريدات. كل شيء يجب أن يعاد خلطه. أراه مثيرًا جدًا.
إذا خطونا خطوة تكرارية إضافية: متى سيكتب النموذج program MD أفضل منك؟
نعم. program MD هو…
نحن خارج الحلقة.
نعم، بالضبط.
program MD هو محاولتي المتواضعة لوصف كيف ينبغي أن يعمل نظام AutoResearch: افعل هذا، ثم ذاك، جرّب هذه الأفكار، وهذه بعض الأفكار: انظر إلى المعمارية، إلى optimizer، إلخ. فقط كتبته في Markdown، صحيح؟
نعم.
أنت تريد نوعًا من حلقة AutoResearch. يمكن تخيل أن نسخًا مختلفة من program MD تعطي تقدمًا مختلفًا. أساسًا كل منظمة بحثية موصوفة بـprogram MD. نعم.
المنظمة البحثية عبارة عن مجموعة ملفات Markdown تصف كل الأدوار وكيفية اتصال كل شيء. يمكن تخيل «منظمة بحث» أفضل. ربما تقلل الاجتماعات اليومية (standups) لأنها غير مفيدة—هذا كود، صحيح؟ منظمة تقلل standups، وأخرى تزيدها، وأخرى أكثر جرأة بالمخاطرة. يمكنك تخيل منظمات بحث متعددة. ثم لديها كلها كود. وما إن يكون لديك كود، يمكنك ضبطه. لذا 100% هذه طبقة ميتا (meta-layer).
هل رأيت كلامي عن فكرة المسابقة؟ فكرتي هي أن يكتب الناس program MD مختلفة، صحيح؟ وعلى نفس العتاد، أين تحصل على أكبر تحسن؟
فهمت.
ثم تجمع كل البيانات، وتغذيها للنموذج ليكتب program MD أفضل.
نعم. نعم.
بالضبط.
سنحصل على شيء أفضل. لا يمكن ألا نفعل ذلك.
يمكنك 100% تتبع مصادر التحسن: يمكنني تغيير program MD ليجعل النظام يفعل المزيد من هذا، أو يتجنب أشياء لا تعمل.
تحسين ميتا (Meta-optimization). نعم.
يمكن 100% تخيل ذلك. أظنها فكرة جيدة. لكن—تعلم—خطوة خطوة: عملية ثم عملية ثانية ثم ثالثة… طبقات كالبصلة. جزء LLM الآن مُسلّم به. جزء الوكلاء مُسلّم به. الكيانات الشبيهة بـClaude مُسلّم بها. يمكنك امتلاك عدة كيانات، إعطاؤها تعليمات، تحسين التعليمات… الأمر كثير، لكن لهذا هو مُدمن: يبدو لا نهائيًا. كل شيء ما زال مشكلة. ولهذا يبدو مجنونًا جدًا.
حسنًا. إذا أردنا تشخيص اللحظة الحالية والمهارات ذات الصلة الآن: ما الذي تحبه؟ ما الذي تعتقد أنه يعني أننا ينبغي أن ننفذ حلقات في مجالات مختلفة، وأنها تعمل، مثلًا إنشاء مقياس أو تمكين الوكيل من متابعة هذا المقياس بدونك.
نعم.
هل لدينا هندسة أداء (performance engineering) مثل هذا؟
نعم. أعطي تحذيرين عن منظومة نماذج اللغة (LM). أولًا:
هذا ممتاز لكل ما لديه مقياس موضوعي سهل التقييم. مثل كتابة kernels أكثر كفاءة لـCUDA، أو تحسين كود أجزاء النموذج—هذه مثالية.
لأن لديك كودًا غير كفء، وتريد كودًا كفئًا بنفس السلوك تمامًا لكنه أسرع.
الكثير من هذا مناسب جدًا لـAutoResearch. لكن الكثير ليس كذلك. إذا لم تستطع التقييم، فلا تستطيع AutoResearch، صحيح؟ هذا التحذير الأول. والتحذير الثاني: نحن نتحدث عن الخطوة التالية، ونرى ما هي، لكن أساسًا كل هذا لا يزال… كأنه متشقق قليلًا عند اللحامات. فيه شقوق، ولا يعمل بشكل كامل. إذا حاولت الذهاب بعيدًا جدًا، يصبح عديم الفائدة.
هذه النماذج تحسنت كثيرًا، لكن حوافها ما زالت خشنة. أصفها هكذا: أشعر أنني أتحدث في الوقت نفسه مع طالب دكتوراه ممتاز قضى حياته كمبرمج نظم (systems programmer)، ومع طفل عمره 10 سنوات. هذا غريب. البشر أكثر اتساقًا؛ لن ترى هذا الخليط. هذا التعرّج/التسنن (jaggedness) غريب. البشر أقل تسننًا بكثير، رغم أنهم يملكون بعضًا منه. عذرًا—الوكلاء لديهم تسننات كثيرة: أحيانًا أطلب ميزة ويعود بشيء خاطئ تمامًا، ثم ندخل حلقة خاطئة تمامًا، وأصير محبطًا جدًا لأنك تشعر بقوته لكنه أحيانًا يضيع حوسبة على هراء.
أنزعج جدًا عندما يهدر الوكيل قدرًا كبيرًا من الحوسبة على شيء كان ينبغي أن يدرك أنه مشكلة واضحة.
نعم. أظن بعض هذا يعود لما تحت الغطاء: هذه النماذج تُدرَّب بالتعزيز (RL). لذا هي تحاول حل نفس المشكلة التي تحدثنا عنها: المختبرات تحسّن النموذج في كل ما يمكن التحقق منه لأنه توجد مكافأة. هل كتبت البرنامج بشكل صحيح؟ هل اجتاز unit tests؟ نعم أو لا. لكنهم يعانون من أشياء مثل «الدقة/التحسس (nuance)»، وربما فهم نيتي أو متى ينبغي طرح سؤال توضيحي. أي شيء «ناعم» يصير أسوأ. كأنك إما على مسار قابل للتحقق، ضمن دائرة فائقة الذكاء؛ أو تسقط خارج المسار إلى منطقة غير قابلة للتحقق، وفجأة يصبح كل شيء ملتويًا. طريقة أخرى: إذا ذهبت اليوم لأحدث نموذج مثل ChatGPT وطلبت منه «احكِ لي نكتة»، ماذا ستأخذ؟ نكتة.
وأشعر أن ChatGPT لديه ثلاث نكات.
نعم. نعم. ومن الواضح أن نكتتهم المفضلة: لماذا لا يثق العلماء بالذرات؟
حسنًا.
لأنها «تختلق كل شيء».
حسنًا.
لأنها تختلق كل شيء. هذه…
كيف لا تزال موجودة؟
هذه نكتة كنت تسمعها قبل 3 أو 4 سنوات، وما زلت تسمعها اليوم.
حسنًا.
رغم أن النماذج تحسنت كثيرًا.
نعم.
إذا أعطيتها مهمة وكيل، قد تقضي ساعات في «نقل الجبال» لك.
ثم تطلب نكتة، فتعطيك نكتة سخيفة قديمة. لأن هذا خارج نطاق RL. ليس ضمن ما يجري تحسينه. هذه جزء من التسنن: لا ينبغي أن تتوقع أن النماذج—مع تحسنها—تصير أفضل في النكات أو أكثر تنوعًا. لم تُحسَّن لذلك، فبقيت عالقة.
هل تعتقد أن هذا يعني أننا لا نرى تعميمًا (generalization) أوسع—مثل «ذكاء النكات»—مرتبطًا بذكاء الكود؟
نعم، أظن هناك انفصالًا (decoupling): أشياء قابلة للتحقق وأشياء غير قابلة للتحقق، وأشياء تحسنها المختبرات حسب البيانات، وأشياء لا. لكن الفرضية لدى بعض فرق البحث: إذا كنت أذكى في توليد الكود أو في المجالات القابلة للتحقق، ينبغي أن تكون أفضل في كل شيء—لكن مثال النكات يشير إلى أن ذلك لا يحدث.
لا أظن أنه سيحدث. نعم، لا أظن أنه سيحدث. ربما نرى قليلًا، لكن ليس بالقدر المُرضي.
هذه «المادة المنشّطة» موجودة في البشر. يمكنك أن تكون بارعًا جدًا في الرياضيات لكن تروي نكتة سيئة جدًا.
نعم، صحيح.
لكن هذا يعني أننا لا نحصل «مجانا» على ذكاء وقدرات عبر كل مجالات المجتمع فقط لأن نماذجنا تحسنت. هذا لا يحدث بالكامل. توجد نقاط عمياء، وأشياء غير محسّنة. كل ذلك متجمع داخل هذه الشبكات العصبية المعتمة. أنت إما تسير على المسار الذي تدرب عليه النموذج، فتسير بسرعة الضوء، أو لا. لذلك هو متسنن. ولهذا حتى لو كان واضحًا أن التقدم ينبغي أن يحدث، لا يمكنك جعله يتحقق بالكامل: لأنه لا يعمل كاملًا، أو لأن هذا مشكلة مهارة ولم نفهم بعد كيف نستخدمه. صعب القول.
هل يمكنني طرح سؤال «مُجدّف»؟ هل يستمر هذا التسنن ويبقى ضمن واجهة واحدة—نموذج واحد—أم ينبغي تفكيكه إلى أشياء يمكن تحسينها حسب الحالات: مجالات ذكاء مختلفة، مثل عدة خبراء لمجالات مختلفة… لأن هذا قد يربك: لماذا هو ممتاز في شيء وضعيف في آخر؟
نعم. انطباعي الحالي أن المختبرات تحاول بناء نموذج ثقافة أحادية (monoculture) واحد، يملك ذكاءً عامًا عبر كل هذه المجالات، ويحشرونه في المعلمات. لكني أظن أننا ينبغي أن نتوقع «تكوّن أنواع» (speciation) أكثر في الوكلاء. مثل المملكة الحيوانية: الأدمغة متنوعة جدًا، هناك كثير من المنافذ البيئية، بعض الحيوانات لها قشرة بصرية مفرطة التطور، إلخ. أظن سنرى تكوّن أنواع أكثر. لا تحتاج إلى «وحي» (oracle) عليم بكل شيء. تخصّصه في شيء معين ثم تضعه على مهمة محددة. سنرى بعض ذلك، لأنك تستطيع امتلاك نماذج أصغر لها نواة معرفية—ما زالت قادرة—ثم تتخصص وتصبح أكثر كفاءة في زمن الاستجابة أو معدل吞وت ما يهمك، مثل «رياضي رشيق». أرى بعض النسخ تسعى لذلك كنقطة هدف للمجال. لذا قد تكون القسمة منطقية.
سؤالي: هل سعة البنية التحتية الحاسوبية محدودة فعليًا… لأن الكفاءة مهمة؟ إذا تجاهلنا التمويل—مع أنه جزء من كل هذا—إذا استطعت امتلاك حوسبة كاملة لأي شيء تفعله، حتى نموذج واحد، لكن إذا كنت تشعر بالضغط: لا أستطيع تقديم نموذج كبير لكل حالة استخدام… هل يقود هذا إلى تكوّن أنواع؟ هل هذا السؤال منطقي؟
السؤال منطقي. ما أحاول أن أفهمه: لم نرَ حتى الآن تكوّن أنواع كبيرًا، صحيح؟
لا.
رأينا ثقافة أحادية للنماذج.
نعم.
لذا…
هناك ضغط واضح لبناء نموذج كود جيد ثم دمجه مجددًا في النموذج الأساسي.
نعم. نعم. رغم وجود ضغط على النماذج.
ربما أشعر أن هناك ضيق عرض قصير الأجل قد يسبب مزيدًا من التكوّن الآن.
نعم. أظن أساسًا أن المختبرات تقدم النموذج كخدمة، لكنها لا تعرف ماذا سيسأل المستخدم النهائي. هذا جزء من السبب: يجب أن تتعامل مع كل الأسئلة الممكنة. لكن إذا ذهبت إلى شركة (enterprise) وتعاونت في مشكلات محددة تهمك، قد ترى ذلك. أو ستكون تطبيقات عالية القيمة لكنها أكثر تخصصًا. لكن الآن هم يسعون إلى «الشمول» الحالي. لا أظن علم «التلاعب بالدماغ» (manipulating the brain) ناضجًا بعد؛ هو جزئي فقط.
ماذا تقصد بالتلاعب؟
مثل: fine-tuning دون فقدان قدرات. لا نملك هذه primitives. أو استخدام الذكاء خارج نافذة السياق (context window) بطريقة حقيقية. نافذة السياق تعمل، وتشغيلها رخيص. هذا ما يتيح بعض التخصيص. لكني أظن هذا علم في طور النشوء: كيف تعدّل النموذج بعمق، كيف يتعلم باستمرار، أو كيف تضبطه في منطقة معينة، كيف تجعله أفضل في منطقة، وكيف «تلمس الأوزان» (touch the weights) فعليًا وليس فقط نافذة السياق. لمس الأوزان أصعب بكثير من لمس السياق، لأنك تغيّر النموذج وذكاءه الكامن جذريًا. لذا ربما هذا ليس علمًا متطورًا بالكامل بعد—إذا كان ذلك منطقيًا—وهو أيضًا يجب أن يكون رخيصًا بما يكفي ليكون التكوّن ذا قيمة في هذه السياقات.
هل يمكنني سؤالًا عن توسيع AutoResearch الذي وصفته في المجال المفتوح؟ قلت: نحتاج سطح تعاون أكبر حوله، ليتمكن الناس من الإسهام في البحث ككل. هل تشرح؟
نعم. تحدثنا عن أن بحثنا له خيط واحد: أحاول شيئًا في الحلقة، لكن التوازي عنصر مثير. أريد تجربة أفكار، لكن ليس لدي شيء جاهز كفاية بعد. هذا شيء أحب العبث به في نظام وكلاء الخلفية عندما لا أعمل. أظن سؤالًا: إذا كان لديك عدة عقد يمكن توازيها، فمن السهل جعل عدة AutoResearchers يتحدثون عبر نظام مشترك. لكن ما يهمني أكثر: كيف تمتلك على الإنترنت مجموعة عمّال غير موثوقين.
في AutoResearch، تريد العثور على شيفرات/تغييرات تخفض خسارة التحقق (validation loss) كثيرًا. إذا أعطاك أحدهم commit مرشحًا، فمن السهل نسبيًا التحقق إن كان صحيحًا وجيدًا: شخص على الإنترنت يدّعي أن هذا الكود سيحسن الأداء. يمكنك التحقق بسهولة، لكن قد يتطلب عملًا. أساسًا، قد يكذبون. لذا أنت تتعامل مع شيء يشبه تصميمًا فيه «مسبح عمّال غير موثوقين»، وهذا يشبه البلوكتشين (blockchain): بدل الكتل هناك commits، وهذه commits يمكن أن تُبنى فوق بعضها، وتتضمن تغييرات على الكود أثناء التحسين. «إثبات العمل» (Proof of Work) هو إجراء تجارب كثيرة للعثور على commit فعّال.
هذا صعب. والمكافأة هي الدخول إلى لوحة الصدارة. لا مكافأة مالية. لا أريد دفع التشبيه بعيدًا، لكن المشكلة جوهرًا: تحتاج بحثًا كبيرًا، لكن تكلفة التحقق من أن الحل المرشح جيد بالفعل منخفضة جدًا. قد يجرب أحدهم 10,000 فكرة، لكنك فقط تتحقق من الناتج الذي نجح؛ لأن 9,900 لا تعمل.
الخلاصة: تحتاج نظامًا يمكن فيه لمجموعة عمّال غير موثوقين أن تتعاون مع مجموعة موثوقة تقوم بالتحقق، وأن يكون كل شيء غير متزامن ويعمل، وأن يكون آمنًا: لأن تشغيل كود عشوائي يرسله لك أحدهم خطير جدًا. لكن من حيث المبدأ هذا ممكن. هل تعرف مشاريع مثل SETI@home وFolding@home؟ كلها لها إعداد مشابه. في Folding@home، إيجاد تركيب منخفض الطاقة صعب، لكن إذا وجد أحدهم تركيبًا يراه مثاليًا، يمكنك استخدامه والتحقق بسهولة. كثير من الأشياء لها هذه الخاصية: الإيجاد مكلف، والتحقق رخيص. لذا AutoResearch@home سيكون مناسبًا.
لذلك: مجموعة وكلاء على الإنترنت يمكنها التعاون لتحسين LLM، وربما حتى تتفوق على Frontier Labs. من يدري؟ ربما هذا ممكن. المختبرات الرائدة لديها حوسبة موثوقة كثيرة، لكن الأرض أكبر بكثير وفيها حوسبة غير موثوقة كثيرة. إذا وضعت نظام تحقق يعالج هذا، فقد تنتج الجماعة حلولًا أفضل، والناس يساهمون بدورات حوسبة (cycles) للأشياء التي يهتمون بها.
فكرة أخيرة: كثير من الشركات وغيرها لديها أشياء تهتم بها. إذا كان لديك قدرة حوسبة، يمكنك المساهمة في أنواع مختلفة من AutoResearch. مثلًا قد تهتم بنوع من السرطان أو شيء، بدل التبرع لمؤسسة تشتري الحوسبة، يمكنك الانضمام لمنتدى AutoResearch لهذا المشروع. إذا أعيد تجميع كل ذلك، تصبح الحوسبة الشيء الذي تساهم به في الحوض.
نعم، هذا ملهم جدًا. والمثير أيضًا: هناك جمهور—تعلم—يصطف في وادي السيليكون أو في أماكن أخرى… وفي الصين، اكتشف باعة التجزئة أن استخدام الحواسيب الشخصية صار ممتعًا مجددًا.
نعم.
صحيح. ربما لديهم دافع لبناء وكلاء خلفية، ثم يساهمون في AutoResearch.
هذا يكاد يشبه أن الدولار هو ما يهتم به الجميع، لكن هل معدل الـFLOPs هو مستقبل ما يهتم به الجميع؟ هل سيتغير ما نهتم به جذريًا؟ مثلًا اليوم، حتى لو لديك مال، من الصعب الحصول على الحوسبة.
نعم.
لذا من زاوية ما، الـFLOPs يبدو مسيطرًا. ربما تصبح «كم تملك من FLOPs» أهم من «كم تملك من ثروة»؟ لا أظن ذلك حقيقة، لكن التفكير فيه ممتع.
آخر شيء نشرته كان تحليلًا لبيانات التوظيف. صحيح؟ حتى لو كنت فقط تصور بيانات عامة، ما الذي حرّكك؟
نعم. كنت فضوليًا: الجميع يفكر في أثر الذكاء الاصطناعي على سوق العمل. أردت رؤية شكل سوق العمل: أين الوظائف؟ وكم عدد الناس في كل مهنة. أردت النظر في حالات فردية، ومحاولة وصل ذلك بما أفكر به عن AI وكيف سيتطور. هذه الأدوات ستصبح أدوات يستخدمها الناس: هل ستستبدل أدوات هذه المهن؟ ما شكل المهن الحالية وكيف ستتغير؟ هل ستنمو أو تتكيف؟ ما المهن الجديدة المحتملة؟ كان ذلك طريقة لتحفيز سلسلة تفكير لدي حول الصناعة.
بيانات التوظيف هي بيانات Bureau of Labor Statistics. لديهم توقعات لنمو كل مهنة خلال السنوات العشر القادمة. أظن أنه أفق عشر سنوات، وقد صُنعت في 2024.
نحتاج الكثير من العاملين الصحيين.
نعم. لديهم هذه التوقعات، ولست متأكدًا 100% من منهجهم. لكن إذا افترضنا أن ما يجري تطويره أساسًا الآن هو «ذكاء اصطناعي رقمي»—أشباح/كيانات ذهنية—يمكنها التفاعل في العالم الرقمي والتلاعب بالمعلومات الرقمية، لكنها لا تمتلك تجسدًا ماديًا حقيقيًا. أما الأشياء الفيزيائية فستكون أبطأ قليلًا لأنك تتعامل مع الذرات. قلب البتات ونسخ/لصق المعلومات الرقمية يجعل كل شيء أسرع من تسريع المادة بمليون مرة. لذا أظن سنرى نشاطًا هائلًا في الفضاء الرقمي: إعادة كتابة هائلة، غليان نشاط، أشياء بسرعة الضوء في الفضاء الرقمي مقارنة بما سيحدث في العالم الفيزيائي (إذا استقرأنا).
لذا هناك حالة معلّقة: كثير من معالجة المعلومات الرقمية التي كان يقوم بها الحاسوب والإنسان—الآن AI كـ«متلاعب رقمي ثالث». سيكون هناك إعادة هيكلة كبيرة في هذه المجالات. لكن العالم الفيزيائي سيبقى كما هو لفترة. هذا ما يفتنني: لهذا ركزت على المهن التي تتعامل مع التلاعب بالمعلومات الرقمية. هذه أعمال يمكن فعلها من المنزل. أشعر أن الأمور ستتغير—لا يعني هذا أن الوظائف ستنقص أو تزيد بالضرورة، لأن ذلك يتعلق بمرونة الطلب وعوامل أخرى—لكن طبيعة هذه المهن ستتغير بسبب هذه الأدوات الجديدة: ترقية «الجهاز العصبي فوق العضوي» للبشر، إن صح التعبير.
بناءً على ملاحظتك للبيانات، ما إرشادك للناس الذين يواجهون سوق العمل أو يفكرون ماذا يتعلمون وما المهارات التي يطورون؟
أعني، يمكننا أن نكون ممتنين لأن علينا مقابلة أشخاص في العمل… أكثر بدنية. نعم.
هل تستطيع فعل عملك من المنزل؟ أنا أستطيع…
أظن جزء العلاقات صعب، لكن معظم عملي يمكن.
نعم. من الصعب جدًا القول. سوق العمل متنوع جدًا، والإجابة تختلف. لكن إلى حد كبير، هذه الأدوات جديدة وقوية. أول شيء: حاول مواكبتها. لأن كثيرين يتجاهلونها أو يخافون منها—وذلك مفهوم تمامًا. أظن حاليًا هي أداة تمكين: الوظائف سلسلة مهام، وبعض المهام يمكن تنفيذها أسرع، لذا ينبغي النظر إليها كأداة أساسية الآن. أما المستقبل البعيد فغير مؤكد. بصراحة التنبؤ صعب، وأنا لست متخصصًا؛ هذا عمل الاقتصاديين.
لكن أنت مهندس. شيء مثير: الطلب على العمل الهندسي يستمر بالزيادة.
نعم.
لا أعلم إن كان هذا مؤقتًا. لا أعرف شعوري تجاهه.
نعم. الطلب على البرمجيات شبه غير محدود. سبب عدم وجود طلب أكبر هو الندرة وأنها باهظة.
باهظة. نعم.
إذا انخفضت الحواجز، تحصل على مفارقة جيفونز (Jevons paradox): يصبح الطلب على البرمجيات أعلى لأن البرمجيات أرخص وأقوى. المثال المعتاد هو أجهزة الصراف الآلي (ATM) وموظفو البنوك: خاف الناس أن الـATM سيستبدل الموظفين، لكن الذي حدث أنه جعل تشغيل الفروع أرخص، فزاد عدد الفروع، فزاد عدد الموظفين. هذا مثال نمطي، لكنه مفارقة: حين يصبح شيء أرخص، ينفتح طلب مكبوت.
لذا أنا متفائل بحذر فيما يخص هندسة البرمجيات: الطلب سيبقى كبيرًا، وستصبح أرخص. وعلى مدى طويل يصعب التنبؤ، لكن محليًا يبدو أن الطلب سيزيد لأن البرمجيات مذهلة. معالجة المعلومات الرقمية: لن تُجبر على استخدام أداة ناقصة في كل الجهات. ولن تُجبر على الاشتراك في كود ثابت. الكود أصبح مؤقتًا (ephemeral): يمكن تغييره وتعديله. لذا سيكون هناك نشاط هائل في الفضاء الرقمي لإعادة توصيل كل شيء، ما يخلق طلبًا كبيرًا.
على المدى الطويل، نعم: حتى AutoResearch—مختبرات مثل OpenAI وAnthropic توظف قرابة ألف باحث… هؤلاء الباحثون كأنهم «سيارات مجد» (glory cars)؟ هم يحاولون أتمتة أنفسهم.
نعم.
أمشي وأرى… بعضهم أيضًا يشعر بالنشوة، لأنه يستطيع جعله يعمل.
نعم.
صحيح. كأنهم: آه، انتهى أمري.
أقضي وقتًا أنظر وأقول: هل تدركون أننا إذا نجحنا سنكون جميعًا عاطلين؟ نحن نبني أتمتة لـSam أو شيء. أو لمجلس الإدارة أو CEO. ثم سنُستغنى عنا، وربما نساهم من الجانب. من هذا المنظور، الأمر يبعث على التوتر.
هل يمكنني سؤالك سؤال «نعوم»؟ تعلم، يمكنك أن تفعل الشيء الصحيح مع قدر هائل من الحوسبة ومجموعة زملاء في مختبرات رائدة… لماذا لا تفعل ذلك؟
حسنًا، عملت هناك فترة، ثم خرجت. وأوافق جزئيًا: هناك طرق كثيرة لمعالجة هذا. هذا سؤال ثقيل. ما أقوله: أنا سعيد جدًا بحجم الأثر الذي يمكن للناس صنعه خارج مختبرات الطليعة—ليس داخل الصناعة، بل على مستوى منظومة (ecosystem) الأدوار. مثل دورك: أقرب إلى دور منظومي. دوري الآن أيضًا منظومي. أنا سعيد بالأثر الذي يمكن صنعه هناك.
لكن في رأسي مشاكل: أنت في مختبر طليعي لديك حوافز اقتصادية هائلة، وأنت تعترف أن AI سيغير المجتمع جذريًا، وأنت تبني التقنية وتستفيد منها ماليًا—هذا لغز جوهري حول «المواءمة» (alignment)، مثل كيف بدأت OpenAI: محاولة حل هذا اللغز. ما زال غير محلول بالكامل.
أولًا: لست وكيلًا حرًا بالكامل. لا يمكنك المشاركة بحرية كاملة في الحوار؛ هناك أشياء لا تستطيع قولها. المنظمة تريد أن تقول أشياء معينة؛ لن يلووا ذراعك، لكن هناك ضغط: ما ينبغي قوله، وإلا تصبح محادثات محرجة ونظرات غريبة. لا يمكنك أن تكون وكيلًا مستقلًا. خارج المختبرات، أشعر أنني أكثر اصطفافًا مع البشر لأنني أقل تعرضًا لهذه الضغوط. نعم يمكنك إحداث أثر في المختبر أيضًا، وهناك باحثون كثيرون وأفكار جيدة، وقرارات كثيرة ترغب أن تكون في الغرفة عند مناقشتها. المخاطر الآن ربما منخفضة، لكن حين تصبح المخاطر عالية… إذا كنت موظفًا، لا أعرف كم نفوذ لك في نهاية اليوم. أنت تقدم أفكارًا لكنك لست صاحب القرار النهائي. هذا مصدر خلل.
ومن جهة أخرى، أتفق: المختبرات—حسنًا أو سيئًا—معتمة (opaque)، وهي على حافة القدرة والإمكانات. إذا كنت خارجها، يبدأ حكمك بالانجراف لأنك لست في الداخل ولا تعرف ما التالي. أشعر أن حكمي سينجرف؛ لن أفهم كيف تعمل الأنظمة خلف الكواليس، ولن أفهم كيف ستتطور. هذا يجعلني متوترًا. ربما الحل: فترات ذهاب وإياب. لو جاءت مختبرات طليعية وقالت: تعال فترة وافعل عملًا حقيقيًا ثم عد… سيكون ذلك مثيرًا جدًا. يربطك بما يحدث دون أن تشعر بأنك مُسيّر بالكامل من هذه الكيانات.
بصراحة، أظن شخصًا مثل Noom يمكنه القيام بعمل ممتاز في OI (OpenAI)، لكن أظن أن أكثر أعماله تأثيرًا غالبًا ستكون خارج OpenAI.
لا، هذه دعوة لأن يصبح AutoResearch بحثًا مستقلًا. نعم، هناك الكثير لفعله. ربما الحل المثالي هو الذهاب والإياب. يمكنك إحداث أثر مذهل في المكانين. هذا معقد. انضممت لمختبرات الطليعة ثم خرجت، وربما في المستقبل أنضم ثانية. هذا رأيي.
سؤال يتعلق بمدى قرب المصدر المفتوح من الطليعة، واستدامته.
نعم. التسلسل المفاجئ للأحداث—مع بعض النماذج الصينية والنماذج العالمية—هو أن الناس سيواصلون إطلاق أشياء قريبة جدًا من حيث القدرة، أقرب مما توقعت الصناعة.
هل تفاجأت؟ أنت مساهم طويل الأمد في المصدر المفتوح. ما توقعك؟
تقريبًا: النماذج المغلقة متقدمة، والناس يقيسون تأخر المفتوح بعدد الأشهر. في البداية لم يكن شيء، ثم كانت 18 شهرًا، والآن هناك تقارب. ربما التأخر الآن 8 أو 6 أشهر أو نحو ذلك.
أنا من محبي المصدر المفتوح. في أنظمة التشغيل، Windows وMac OS مغلقة، وهي مشاريع كبيرة مثلما ستصبح نماذج اللغة. وهناك Linux، وهو مشروع ناجح جدًا ويشغل معظم الحواسيب—آخر ما رأيت نحو 60% أو نحو ذلك—لأن الصناعة تحتاج منصة مفتوحة عامة يشعر الجميع بالأمان لاستخدامها. كانت هناك دائمًا حاجة لمثل هذا المشروع، وأظن الآن أيضًا. الشركات تريد ذلك. الفرق الأكبر: كل شيء يتطلب رأس مال ضخم (CapEx). هذا يجعل المنافسة أصعب.
أظن النماذج الحالية جيدة جدًا. والمثير: لمعظم الاستخدامات الاستهلاكية، حتى ما يسمى «نماذج مفتوحة» جيدة جدًا. إذا استمرينا، يبدو أن كثيرًا من الاستخدامات البسيطة ستُغطى جيدًا، وربما محليًا. لكن سيكون دائمًا طلب على «ذكاء الطليعة»، وقد يكون جزءًا كبيرًا من الكعكة. طلب ذكاء الطليعة قد يكون أعمالًا مثل أبحاث بمستوى نوبل، أو مشاريع ضخمة مثل نقل Linux من C إلى Rust. ستكون مشاريع أكبر بهذا المعنى. وربما هذا المجال هو حيث سيتفاعل ذكاء الطليعة المغلق، بينما يبتلع المفتوح الاستخدامات الأساسية.
وفي نقطة ما، طليعة اليوم ستكون مفتوحة في وقت لاحق—ربما نهاية هذا العام—بالنسبة لما أستخدمه في المختبرات المغلقة. يتطلب ذلك عملًا كبيرًا. أتوقع أن يستمر هذا النمط: Frontier Labs بنماذج مغلقة كأوراكل، وبعد أشهر يأتي شيء شبيه في المصدر المفتوح. أظن هذا إعداد جيد عمومًا.
لأني متردد من وجود ذكاء مغلق فقط: أظن له مخاطر نظامية. المركزية سجلها في الماضي سيئ جدًا.
تقصد أنظمة سياسية/اقتصادية عمومًا؟
نعم.
بالضبط. كان لدينا كثير من الرؤساء السيئين جدًا… مثل أوروبا الشرقية. لذا أريد مساحة عمل عامة للذكاء يمكن للصناعة كلها الوصول إليها. توازن القوى في الصناعة يبدو جيدًا.
نعم، وهناك أيضًا مشكلات يجب حلها: إذا استمررنا بدفع ذكاء الطليعة، سنفعل أشياء جديدة، وسيواجه البشر مشكلات ضخمة. هذا لعبة مكلفة جدًا. لذا أريد دعم المختبرات التي تدفعها، لأننا لن نحل بعض المشكلات دون دفع مكلف جدًا. لكن كما قلت: حتى طليعة اليوم المفتوحة فيها قدرة كبيرة. ديمقراطية القوة تبدو مفيدة وصحية.
نعم. أشعر أننا مصادفة في مكان جيد وقريب من الأمثل.
إلى حد ما، كلما طال هذا النمط، زادت صحة المنظومة، لأن المساحة تحت المنحنى تكبر.
حتى في جهة القرب، أشعر أن هناك تركّزًا أكبر مؤخرًا لأن كثيرًا من «اللاحقين» ليسوا فرقًا قوية. هذا ليس مثاليًا. أريد مزيدًا من المنافسة من الأمام إلى الخلف. افتراضيًا أنا متشكك: أريد مزيدًا من الناس في الغرفة. وفي تعلم الآلة، التجميع (ensembles) دائمًا أفضل من نموذج واحد. أريد مجموعة تفكر في أصعب الأسئلة، ومجموعة مطلعة تتخذ القرارات. لا أريد بابًا مغلقًا لشخصين أو ثلاثة. هذا ليس مستقبلًا جيدًا. أريد مزيدًا من المختبرات. خلاصة: للمصدر المفتوح دور. أتمنى أن يستمر، وهو متأخر قليلًا الآن—وهذا جيد بالفعل.
حسنًا. أنت رائد في تقنيات الاستقلالية للروبوتات العمومية للسيارات، صحيح؟ في الأشهر الماضية حصل الكثير في شركات الروبوتات: تعميم مذهل لبيئات المهام، مهام أطول أمدًا، تمويل كبير. هل سيحدث؟ هل تغيّر منظورك مؤخرًا؟
منظوري مبني على ما رأيته في القيادة الذاتية. أشعر أن القيادة الذاتية كانت أول تطبيق روبوتي. ما رأيته قبل 10 سنوات: شركات ناشئة كثيرة، ومعظمها لم ينجح طويلًا. الأمر يتطلب CapEx كبيرًا ووقتًا طويلًا. أظن الروبوتات مثل ذلك: صعبة وفوضوية، تتطلب رأس مال كبيرًا وإيمانًا قويًا. مشروع صعب جدًا. لذا أظنها ستتأخر عن ما سيحدث في الفضاء الرقمي، حيث سيكون هناك فوضى كبيرة: الأشياء غير الكفؤة تصبح أكثر كفاءة بنحو 100x. لأن البِتات سهلة جدًا.
لذلك أشعر أن الفضاء الرقمي سيتغير جذريًا، والفيزيائي سيتأخر. وما يهمني هو الواجهة بينهما: إذا أصبح لدينا مزيد من الوكلاء يتصرفون نيابة عن البشر ويتحدثون مع بعضهم وينفذون مهامًا ويشاركون في اقتصاد الوكلاء، فكل هذا في الفضاء الرقمي. لكن في وقت ما يجب أن تسأل الكون. يجب أن تجري تجربة لترى ماذا يخبرك الكون، ثم تعود لتتعلم. نحن لدينا الكثير من العمل الرقمي لأن تفكيرنا الجماعي حول ما تم رقمنته لا يزال غير كافٍ. البشر لا يملكون دورات تفكير كافية لمعالجة كل ما رُفع. لذا سنبدأ في نفاد ما رُفع أصلًا. في وقت ما ستقرأ كل الأوراق وتعالجها وتملك أفكارًا لما يجب تجربته. لكن إذا كان لديك ذكاء مغلق تمامًا مع معلومات متاحة فقط، لا أدري مدى فائدته.
لذا ما سيحدث: أولًا انفلات هائل في الرقمي؛ هناك عمل كثير. ثم سيتحول إلى واجهة الفيزيائي/الرقمي: حساسات ترى العالم، ومشغلات (actuators) تفعل أشياء في العالم. كثير من الشركات المثيرة ستأتي من هذه الواجهة: هل نستطيع توفير بيانات فائق الذكاء؟ هل نستطيع استخراج البيانات والتلاعب بالعالم الفيزيائي وفق السعر المعروض؟ السوق القابل للعنونة (TAM) من حيث العمل ربما ضخم جدًا، ربما أكبر حتى من الرقمي، لكن صلابة الذرات أكبر بمليون مرة. سيتأخر، لكنه سوق أكبر. هذا هو المسار: اهتمامي الأساسي الآن بالرقمي، ثم الواجهة، ثم الأشياء الفيزيائية حين يحين عصرها ستكون ضخمة.
هذا إطار مثير أيضًا، لأن بعض الأشياء في عالم الذرات أسهل مما نتصور: إذا أردت قراءة/كتابة العالم الفيزيائي عبر حساسات مثل الكاميرات، هناك عتاد قائم. يمكنك تخيل «وكلاء أغنى» تلتقط بيانات جديدة دون CapEx ضخم إذا كنت ذكيًا.
نعم. مثال: صديقي Liam يدير شركة Journals كـCEO (كما أظن)، زرتهم الأسبوع الماضي. هم يحاولون عمل AutoResearch لعلم المواد. هنا الحساسات هي أجهزة مختبرية غالية. وفي البيولوجيا كذلك. كثيرون مهتمون بالهندسة الحيوية، والحساسات ليست فقط كاميرات. شيء آخر: شركات تحاول دفع المال للناس مقابل بيانات تدريب.
نعم. مثال: تغذية Borg برمجيًا.
نعم. إطعام Borg. هذه أمثلة حساسات بأشكال مختلفة.
أتطلع ليوم أطلب فيه مهمة في العالم الحقيقي، أضع سعرًا لها، وأقول للوكيل: تعلم كيف تفعلها—اذهب واجلب البيانات. أتفاجأ أننا لا نملك أسواق معلومات كافية.
مثلًا، إذا كانت Polymarket أو أسواق المراهنة أو الأسهم فيها هذا القدر من النشاط الذاتي، ومع ازدياده: إذا حدث شيء في إيران الآن، لماذا لا يوجد سير عمل: التقاط صورة/فيديو من مكان ما بتكلفة 10 دولارات—يجب أن يستطيع أحدهم الدفع، ويجب ألا ينظر إليها إنسان؛ بل وكلاء يحاولون التخمين لألعاب المراهنة وسوق الأسهم.
أظن شبكة الوكلاء ما زالت جديدة، ولا توجد مثل هذه الآليات بعد، لكن هذا مثال لما قد يحدث.
هناك كتاب جيد ربما يُلهم: «The Demon»، ربما قرأته. الذكاء في النهاية يشبه تحريك الدمى: البشر كأنهم مشغلاته، والبشر أيضًا حساسات له. المجتمع ككل قد يُعاد تشكيله لخدمة هذا النوع: مزيد من الأتمتة، وطلب ما، والبشر يلبون طلب الآلة، وليس بالضرورة بعضهم البعض.
في هذا السؤال المحدد: نقص بيانات التدريب، نحتاج أشياء مثل AutoResearch، نحتاج أن تصبح دورات التدريب أو جزء SFT أكثر ميكنة… لأي جزء؟ كي نخرج البشر من الحلقة: «اطلب مهمة» مثل «ارفع جودة نموذجي» ببيانات جديدة، صحيح؟
نعم.
هل هذا منطقي لك؟ إذا لم تستطع جعل النموذج يدرب نفسه، فهل يمكنك جعلها مهمة حلقة مغلقة عبر تسعير البيانات والتواصل معك؟
نعم.
أكثر تحديًا.
نعم. 100%.
لكن المشكلة أن تدريب LLM سهل جدًا، وهو يلائم النمط:
نعم، مقياس نظيف.
نعم، تدريب LM يناسب هذا جدًا: كل تحسينات الكود لتجعل التدريب أسرع، ومعك مقياس واضح للتحسين. إذا كان لديك حلقة ذاتية لهذه المقاييس، قد يفرط النظام في الملاءمة (overfit) لتلك المقاييس، لكن يمكنك استخدام النظام لتصميم مقاييس أكثر وتحصل على تغطية جيدة. صعب القول، لكن من حيث المبدأ يناسب.
قبل أن ننهي، أريد الحديث عن مشروع صغير لك. أخبرني عن micro GPT.
أوه نعم. حسنًا. micro GPT. كنت مهووسًا منذ سنة أو سنتين بمحاولة تبسيط LLM إلى جوهرها. فعلت مشاريع كثيرة مثل nano GPT، micrograd، إلخ. أشعر أن micro GPT هو الأحدث: حاولت اختزاله إلى الجوهر. تدريب الشبكات العصبية وLLM خصوصًا يتطلب الكثير من الكود، لكن معظم الكود تعقيد كفاءة فقط لأنك تريد تشغيله بسرعة. إذا لم تكن بحاجة للسرعة وكنت تهتم بالخوارزمية، فالأمر 200 سطر Python فقط، سهل القراءة، مع التعليقات وكل شيء. لديك نصوص كبيانات. تحتاج حوالي 50 سطرًا للمعمارية. تحتاج forward pass ثم backward pass لحساب التدرجات. محرك autograd صغير ~100 سطر. ثم optimizer مثل Adam—متقدم نسبيًا لكنه ~10 أسطر. وضع كل ذلك في training loop ~200 سطر.
هذا كان يهمني: قبل سنة، لو صنعت micro GPT، لكنت متحمسًا لشرحها للناس: فيديو يمشي خطوة بخطوة، دليل، إلخ. حاولت صنع فيديو ودليل، لكن أدركت أنه لا يضيف كثيرًا، لأن الناس—بما أنه بسيط—يمكنهم أن يطلبوا من وكلائهم شرحه بأشكال مختلفة. لم أعد أنا أشرح للناس. أنا أشرح للوكلاء. إذا فهم الوكيل، يصير راوتر: يشرحه للإنسان بلغته وبصبر لا نهائي، إلخ.
صحيح. إذا لم أفهم دالة محددة، أطلب من الوكيل شرحها بثلاث طرق مختلفة، ولن أحتاجه منك.
بالضبط.
لذا ما هو التعليم؟ كان دليلًا ومحاضرة… الآن أشبه بأنني أشرح للوكلاء، وربما أطور مهارات: «المهارة» هي طريقة لتوجيه الوكيل كيف يدرّس المحتوى. ربما أستطيع امتلاك مهارة «تقديم micro GPT». إذا أردت فهم مستودع، الوكيل يقودك عبره: «ابدأ من هنا، ثم هنا»، كأنها مطالبة نموذج. يمكنني كتابة المنهج كمهارة. لذا لا أشعر أن شرح الأشياء للناس مباشرة سيقل فقط، بل سيصبح: هل فهمه الوكيل؟ إذا فهمه، سيشرحه. لم نصل تمامًا لأنني ما زلت أظن أنني قد أشرح أفضل من الوكيل في بعض الأحيان، لكن النماذج تتحسن بسرعة، لذا أظن أنها معركة خاسرة. التعليم سيُعاد خلطه بالكامل. بدل توثيق HTML للبشر، ستكتب وثائق Markdown للوكلاء. إذا فهم الوكيل، يشرح كل الأجزاء. هذا توجيه عبر الوكلاء. أظن سنرى مزيدًا من هذا.
حسنًا. سنرى إن كان المعلمون العظماء سيزرعون حدسًا لكيفية شرح الأشياء للوكلاء بشكل مختلف.
في النهاية، مثل micro GPT التي سألت عنها: حاولت أن أجعل وكيلًا يكتب micro GPT. قلت له: حاول اختزال كل شيء إلى أبسط شبكة عصبية… لكنه لم يستطع. micro GPT هي نهاية هوسي. 200 سطر. فكرت طويلًا. هذا الحل. صدقني: لا يمكن أن يكون أبسط. هذا «قيمة الإعلان» لدي. كل ما سواه: الوكيل يفهمه.
هو لم يستطع ابتكارها، لكنه يفهمها تمامًا ولماذا تُفعل الأشياء هكذا. لذا ما يمكنني تقديمه حقًا هو بعض الأجزاء القليلة؛ أما بقية التعليم والتعبير لاحقًا فقد لا تكون مجالي بعد الآن. ربما سيحدث شيء مشابه للتعليم: عليك أن تحقن الأجزاء التي لديك فيها حكم قوي—أفضل طريقة لشرح شيء—بشكل استباقي. ما لا يستطيع الوكيل فعله هو عملك الآن؛ وما يستطيع فعله، قريبًا ربما سيفعله أفضل منك. لذا عليك أن تكون استراتيجيًا أكثر في أين تقضي وقتك.
شكرًا جزيلًا لك، Andrej.
حسنًا.
يمكنكم متابعة No Priors على Twitter/X؛ وإذا أردتم نسخة الفيديو، يمكنكم الاشتراك في قناتهم على YouTube. ويمكنكم أيضًا متابعة البرنامج على Apple Podcasts وSpotify أو أي منصة بودكاست تستخدمونها، لتصلكم حلقة جديدة كل أسبوع. ويمكنكم الذهاب إلى no-priors.com للتسجيل في القائمة البريدية، أو للاطلاع على النصوص الكاملة لكل حلقة.