האם ההאשמות של Anthropic לגבי „התקפות זיקוק מודלים“ עומדות במבחן המציאות?

לאחרונה פרסמה Anthropic, אחת החברות המובילות והמוכרות בתחום ה-AI, הצהרה מעוררת מחלוקת במיוחד. לטענתה, שלוש מעבדות AI מרכזיות מסין (DeepSeek, Moonshot ו-MiniMax) מבצעות נגד המודלים של Anthropic “התקפות זיקוק” (Distillation Attacks).

לפי הדו"ח של Anthropic, גופים אלה השתמשו ביותר מ-24,000 חשבונות הונאה, יצרו למעלה מ-16 מיליון אינטראקציות (Exchanges), וניסו לחלץ את היכולות הבסיסיות של מודל Claude ולהשתמש בהן לאימון המודלים שלהם. עם זאת, אם בוחנים לעומק את הנתונים וההיגיון מזווית של מפתחים טכניים, מנגנוני תפעול API ובנצ’מרקים תעשייתיים, מתברר שלטענה הזו יש לא מעט נקודות חולשה שראוי לערער עליהן.

1. מהי “התקפת זיקוק”?

לפני שנדון בהאשמות, צריך להבהיר למה מתכוונים ב“זיקוק” (Distillation) בלמידת מכונה. זיקוק מודלים מסורתי הוא תהליך שבו מזינים מודל חכם וגדול יותר בפרומפטים, מקבלים ממנו נתוני פלט איכותיים, ומשתמשים בנתונים הללו כדי לאמן מודל חדש קטן יותר וזול יותר, כך שירכוש יכולות דומות. זהו אמצעי טכני נפוץ מאוד בתעשייה; למשל, כלי עזר לתכנות כמו Cursor משתמשים בנתונים שנוצרים כדי לאמן מודל קוד קל יותר, בתנאי שמשלמים כחוק על עלויות ה-API.

“התקפת זיקוק” הוא מונח חדש ש-Anthropic טבעה. כיום מעבדות גדולות נוקטות זהירות רבה כלפי התנהגויות זיקוק. למשל, OpenAI סבורה ש-DeepSeek השתמשה בנתונים ממודל o1 שלה כדי לאמן את מודל R1, ולכן OpenAI החליטה להסתיר את “תהליך ההיגיון” (Reasoning Trace) של מודל o1 ולהוציא רק את התוצאה הסופית. לעומת זאת, Anthropic לא בחרה בתחילה לערפל או להסתיר את שלבי ההיגיון הללו כשהשיקה מודלים בעלי יכולת היסק. אמנם זה הקל על מפתחים לבצע דיבוג למערכת, אבל גם הפך את הנתונים שלה לבעלי ערך רב יותר עבור גורמים שמנסים לבצע Reinforcement Learning ואימון זיקוק.

2. בחינה ביקורתית של נתוני הליבה: מלכודת החישוב של “מספר האינטראקציות”

Anthropic הציגה בדו"ח נתוני “ראיות” ספציפיים נגד כל מעבדה, אך לפי ידע טכני בסיסי, היקף הנתונים הללו לא רק שאינו גדול—אפשר לומר שהוא זניח למדי:

  • DeepSeek: נטען שביצעה כ-150,000 אינטראקציות.
  • Moonshot (月之暗面): נטען שביצעה כ-3.4 מיליון אינטראקציות.
  • MiniMax: נטען שביצעה כ-13 מיליון אינטראקציות.

אפקט ההגדלה של נפח הבקשות בשל קריאות כלים (Tool Calls)

המפתח להבנת המספרים הוא ההגדרה של Anthropic ל“אינטראקציה (Exchange)”. ביישומי סוכן (Agent) מודרניים, קריאות כלים (Tool Calls) גורמות לכך שבקשת משתמש אחת יכולה להתנפח לעשרות ואף למאות אינטראקציות.

כשמודל מתבקש לבצע משימה מורכבת (כמו “לעדכן את קוד דף הבית כך שיכלול תמחור חדש”), זרימת העבודה היא:

  1. המודל מבקש לחפש קבצים רלוונטיים (סיום אינטראקציה 1, החיבור נסגר).
  2. המערכת מריצה את החיפוש ואז מחזירה למודל את כל ההיסטוריה והתוצאות (אינטראקציה 2).
  3. המודל מבקש לקרוא כמה קבצים ספציפיים (אינטראקציה 3).
  4. המערכת מחזירה את תוכן הקבצים, והמודל מייצר לבסוף הצעת שינויי קוד (אינטראקציה 4 ואינטראקציות נוספות).

אם מפעילים חיפושים מרובים או ניתוח מורכב של מאגר קוד, פרומפט משתמש פשוט יכול להפוך בקלות למאות “אינטראקציות” רציפות.

ניתוח משולב עם בנצ’מרקים ומוצרי אמת

  • 150 אלף האינטראקציות של DeepSeek: עבור אפליקציית צ’אט AI קטנה-בינונית, 160 אלף בקשות ביום הוא נתון בסיסי לחלוטין. אם זה משמש להרצת בנצ’מרקי מודלים רגילים (Benchmark, כמו SnitchBench), 150 אלף אינטראקציות מספיקות בקושי להרצה מלאה של 2–3 סבבי בדיקה. כל מעבדה צריכה להריץ לעיתים תכופות API של מתחרים כדי לכייל את הבנצ’מרקים הפנימיים שלה.
  • האינטראקציות ברמת מיליונים של Moonshot ו-MiniMax: ניקח לדוגמה את בנצ’מרק התכנות הידוע SWE-bench, שמכיל כ-2,300 משימות. אם מעניקים למודל יכולת קריאת כלים במסגרת הבדיקה, בהערכה שמרנית של 50 אינטראקציות Tool Calls לכל משימה, הרצה של סבב אחד של SWE-bench דורשת 115,000 אינטראקציות. מספיק להריץ 30 סבבי בנצ’מרק כדי להגיע בקלות לסדר גודל של 3.4 מיליון אינטראקציות.
  • צריכה בצד מוצר לגיטימי: ל-MiniMax היה בעבר מוצר Agent מול משתמשים (כגון שירותים ששילבו את Gemini ומודלים צד-שלישי נוספים). אם מוצרים כאלה צריכים לבצע מחקר עומק והרבה שליפות נתונים, 13 מיליון אינטראקציות הוא מספר שקל מאוד להגיע אליו ביישומים מסחריים רגילים הפונים למשתמשים.

בנוסף, Anthropic ציינה שכאשר היא מפרסמת מודל חדש, MiniMax מנתבת בתוך 24 שעות כמעט מחצית מהתעבורה למודל החדש. בפועל, זה תואם לחלוטין להיגיון התנהגות משתמשים—כשמופיע בממשק ה-UI כפתור מעבר למודל הדגל העדכני, רוב התעבורה של משתמשים אמיתיים תיטה באופן טבעי ובמהירות אל המודל החדש.

3. פרדוקס בלוגיקת האבטחה ופאניקת קוד פתוח

Anthropic טוענת שמודלים שנבנים באמצעות זיקוק בלתי חוקי “מקלפים” את מעקות הבטיחות של המודל המקורי, ובכך יוצרים סיכון לביטחון לאומי (למשל שימוש לפיתוח נשק ביולוגי).

לטענה הזו יש פרדוקס לוגי ברור: אם מנגנוני הבטיחות של המודל של Anthropic באמת יעילים, הוא אמור לסרב מלכתחילה להפיק ידע על נשק ביולוגי. אם המודל הבסיסי כבר דוחה בקשות זדוניות, כיצד התוקף יכול “לזקק” באמצעות פרומפטים יכולת מסוכנת שהמודל ממילא לא מוציא?

בנוסף, בדו"ח Anthropic ניכרת הסתייגות חריפה ממודלים “קוד פתוח/משקולות פתוחות (Open-weight)”, תוך רמיזה שמודלי זיקוק בקוד פתוח יגרמו לאובדן שליטה בסיכון. ראוי לציין ש-Anthropic היא כיום המעבדה המרכזית היחידה שלא פרסמה אף מודל עם משקולות פתוחות (OpenAI, Google ומעבדות סיניות רבות כן פרסמו מודלים פתוחים). באופן אירוני, יש ראיות לכך ש-Anthropic עצמה השתמשה באימון בשיטת אימון שהומצאה במאמר טכני ש-DeepSeek פרסמה בפומבי בשנת 2024.

4. האמת על אשכולות פרוקסי (Hydra-clusters)

הדבר האובייקטיבי היחיד בדו"ח שנראה אמין יחסית הוא: בסין אכן קיימת התנהגות נרחבת של גישה בתדירות גבוהה למודל Claude באמצעות שירותי פרוקסי מסחריים וארכיטקטורת “אשכולות הידרה (Hydra-cluster)”.

הסיבה היסודית לכך היא שאנתרופיק מטילה חסימה אזורית (Geo-blocking) והגבלות גישה מחמירות על אזור סין. כדי לעקוף את ההגבלות, חלק מספקי הפרוקסי צד-שלישי רושמים כמויות עצומות של חשבונות כדי לפצל תעבורה, ואף מספקים ממשק פרוקסי זול ל-Claude כדי לאסוף נתונים, ולאחר מכן לאמן מודלים קטנים משלהם כדי לסבסד את עלויות הפרוקסי. אף שהתנהגות כזו קיימת אובייקטיבית, ייחוסה הישיר למעבדות AI מובילות כמו DeepSeek כפעולה ארגונית רשמית אינו רק חסר ראיות חד-משמעיות—גם היקף הנתונים הזעיר שנחשף אינו יכול לתמוך בהאשמה כה רחבת היקף.

Anthropic הציגה קטע פרומפט שלטענתה הוא “פרומפט טיפוסי” המשמש לזיקוק; התוכן דורש מהמודל לשחק תפקיד של “אנליסט נתונים מומחה” ולספק “תובנות המבוססות על נתונים אמיתיים והיגיון שקוף”. מנקודת מבט טכנית, זהו פשוט System Prompt סטנדרטי ולגיטימי של Agent מחקרי, וקשה מאוד לקבוע על סמך זה בלבד שמדובר בהתקפת זיקוק זדונית.

5. סיכום: גבולות עמומים וסטנדרטים כפולים

כל האירוע חושף את הסתירה העמוקה שעמה תעשיית ה-AI מתמודדת כיום. המודלים הענקיים של חברות כמו Anthropic ו-OpenAI אומנו מלכתחילה על נתונים שנאספו באמצעות גריפה רחבת היקף של תוכן ציבורי מהאינטרנט (ואפילו כולל תוכן מוגן בזכויות יוצרים). דווקא פעולות הגריפה של החברות הגדולות הן שהובילו לכך שהנתונים באינטרנט נעשים כיום סגורים יותר ויותר.

אך כאשר חברות אחרות מנסות להשתמש בנתוני הפלט של מודלים אלה, הן מיד מתויגות כ“חילוץ בלתי חוקי” ו“מתקפה”. בתקופה שבה ההגדרה ב-Terms of Service (תנאי השירות) עמומה מאוד—למשל, האם גריפה של מאגר GitHub ציבורי שמכיל קוד שנוצר על ידי Claude נחשבת “זיקוק”?—חסימה חד-צדדית והאשמות חסרות ביסוס נתונים נראות פחות כשיקול בטיחותי, ויותר כפעולת יחסי ציבור הנובעת מחרדת תחרות עסקית.