זיהינו קמפיינים בקנה מידה תעשייתי של שלוש מעבדות בינה מלאכותית—DeepSeek, Moonshot ו‑MiniMax—שנועדו לחלץ שלא כדין את היכולות של Claude כדי לשפר את המודלים שלהן. מעבדות אלה יצרו למעלה מ‑16 מיליון חילופים עם Claude באמצעות כ‑24,000 חשבונות הונאה, בניגוד לתנאי השירות שלנו ולהגבלות הגישה האזוריות.
מעבדות אלה השתמשו בטכניקה המכונה “distillation” (דיסטילציה), הכוללת אימון של מודל פחות מסוגל על הפלטים של מודל חזק יותר. דיסטילציה היא שיטת אימון נפוצה ולגיטימית. לדוגמה, מעבדות AI בחזית התחום (frontier) נוהגות באופן שגרתי לבצע דיסטילציה למודלים שלהן כדי ליצור גרסאות קטנות וזולות יותר עבור הלקוחות. אך דיסטילציה יכולה לשמש גם למטרות בלתי חוקיות: מתחרים יכולים להשתמש בה כדי לרכוש יכולות עוצמתיות ממעבדות אחרות בשבריר מהזמן, ובשבריר מהעלות, שהיו נדרשים כדי לפתח אותן באופן עצמאי.
קמפיינים אלה הולכים ומתגברים בעוצמה ובתחכום. חלון ההזדמנות לפעול צר, והאיום חורג מעבר לכל חברה או אזור יחידים. הטיפול בו ידרוש פעולה מהירה ומתואמת בין שחקני תעשייה, קובעי מדיניות והקהילה הגלובלית של ה‑AI.
למה דיסטילציה חשובה
מודלים שעברו דיסטילציה באופן בלתי חוקי חסרים אמצעי הגנה נחוצים, ויוצרים סיכונים משמעותיים לביטחון הלאומי. Anthropic וחברות אמריקאיות אחרות בונות מערכות שמונעות מגורמים מדינתיים ולא‑מדינתיים להשתמש ב‑AI כדי, למשל, לפתח נשק ביולוגי או לבצע פעילות סייבר זדונית. מודלים שנבנים באמצעות דיסטילציה בלתי חוקית אינם צפויים לשמר את אמצעי ההגנה הללו, כלומר יכולות מסוכנות עשויות להתפשט כאשר רבות מההגנות הוסרו לחלוטין.
מעבדות זרות שמבצעות דיסטילציה למודלים אמריקאיים יכולות לאחר מכן להזין את היכולות הלא‑מוגנות הללו לתוך מערכות צבאיות, מודיעיניות ומעקב—ובכך לאפשר לממשלים סמכותניים לפרוס AI בחזית התחום לצורך מבצעי סייבר התקפיים, קמפיינים של דיסאינפורמציה ומעקב המוני. אם מודלים שעברו דיסטילציה ייפתחו בקוד פתוח (open-sourced), הסיכון מוכפל, שכן היכולות הללו יתפשטו בחופשיות מעבר לשליטתה של כל ממשלה יחידה.
מתקפות דיסטילציה ובקרות ייצוא
Anthropic תמכה בעקביות בבקרות ייצוא כדי לסייע בשמירת היתרון של אמריקה ב‑AI. מתקפות דיסטילציה מערערות בקרות אלה בכך שהן מאפשרות למעבדות זרות, כולל כאלה הכפופות לשליטת המפלגה הקומוניסטית הסינית, לצמצם את היתרון התחרותי שבקרות הייצוא נועדו לשמר—באמצעים אחרים.
ללא נראות לתוך מתקפות אלה, ההתקדמויות המהירות לכאורה של המעבדות הללו מתפרשות בטעות כראיה לכך שבקרות הייצוא אינן יעילות וניתן לעקוף אותן באמצעות חדשנות. בפועל, ההתקדמויות הללו תלויות במידה משמעותית ביכולות שחולצו ממודלים אמריקאיים, וביצוע החילוץ הזה בקנה מידה גדול דורש גישה לשבבים מתקדמים. לכן מתקפות דיסטילציה מחזקות את ההצדקה לבקרות ייצוא: הגבלת הגישה לשבבים מצמצמת הן אימון ישיר של מודלים והן את היקף הדיסטילציה הבלתי חוקית.
מה מצאנו
שלושת קמפייני הדיסטילציה המפורטים להלן פעלו לפי ספר‑הפעלה דומה, תוך שימוש בחשבונות הונאה ובשירותי פרוקסי כדי לגשת ל‑Claude בקנה מידה רחב תוך התחמקות מזיהוי. הנפח, המבנה והמיקוד של הפרומפטים היו שונים מדפוסי שימוש רגילים, ושיקפו חילוץ יכולות מכוון ולא שימוש לגיטימי.
ייחסנו כל קמפיין למעבדה ספציפית ברמת ביטחון גבוהה באמצעות קורלציה של כתובות IP, מטא‑דאטה של בקשות, אינדיקטורים תשתיתיים, ובחלק מהמקרים גם אימות מצד שותפים בתעשייה שזיהו את אותם שחקנים והתנהגויות בפלטפורמות שלהם. כל קמפיין התמקד ביכולות המובחנות ביותר של Claude: היגיון סוכני (agentic reasoning), שימוש בכלים, וקודינג.
DeepSeek
היקף: מעל 150,000 חילופים
הפעילות כוונה אל:
- יכולות היגיון במגוון משימות
- משימות דירוג מבוססות רובריקה (rubric) שגרמו ל‑Claude לתפקד כמודל תגמול (reward model) ללמידת חיזוק
- יצירת חלופות “בטוחות מצנזורה” לשאילתות רגישות למדיניות
DeepSeek יצרה תעבורה מסונכרנת בין חשבונות. דפוסים זהים, שיטות תשלום משותפות ותזמון מתואם הצביעו על “load balancing” (איזון עומסים) כדי להגדיל תפוקה, לשפר אמינות ולהימנע מזיהוי.
בטכניקה בולטת אחת, הפרומפטים ביקשו מ‑Claude לדמיין ולנסח את ההיגיון הפנימי שמאחורי תשובה שכבר הושלמה ולכתוב אותו שלב אחר שלב—ובכך לייצר בפועל נתוני אימון מסוג chain-of-thought בקנה מידה גדול. בנוסף, ראינו משימות שבהן Claude שימש ליצירת חלופות “בטוחות מצנזורה” לשאילתות פוליטיות רגישות כגון שאלות על מתנגדי משטר, מנהיגי מפלגה או סמכותנות, ככל הנראה כדי לאמן את המודלים של DeepSeek להסיט שיחות הרחק מנושאים מצונזרים. באמצעות בחינת מטא‑דאטה של הבקשות, הצלחנו להתחקות אחר החשבונות הללו אל חוקרים ספציפיים במעבדה.
Moonshot AI
היקף: מעל 3.4 מיליון חילופים
הפעילות כוונה אל:
- היגיון סוכני ושימוש בכלים
- קודינג וניתוח נתונים
- פיתוח סוכן לשימוש במחשב (computer-use agent)
- ראייה ממוחשבת (computer vision)
Moonshot (מודלי Kimi) הפעילה מאות חשבונות הונאה לאורך נתיבי גישה מרובים. סוגי חשבונות מגוונים הקשו על זיהוי הקמפיין כפעילות מתואמת. ייחסנו את הקמפיין באמצעות מטא‑דאטה של בקשות, שתאם לפרופילים הציבוריים של אנשי צוות בכירים ב‑Moonshot. בשלב מאוחר יותר, Moonshot השתמשה בגישה ממוקדת יותר, תוך ניסיון לחלץ ולשחזר את עקבות ההיגיון (reasoning traces) של Claude.
MiniMax
היקף: מעל 13 מיליון חילופים
הפעילות כוונה אל:
- קודינג סוכני (agentic coding)
- שימוש בכלים ותזמור (orchestration)
ייחסנו את הקמפיין ל‑MiniMax באמצעות מטא‑דאטה של בקשות ואינדיקטורים תשתיתיים, ואישרנו את העיתוי מול מפת הדרכים הציבורית של המוצר שלהם. זיהינו את הקמפיין הזה בעודו פעיל—לפני ש‑MiniMax השיקה את המודל שאימנה—מה שנתן לנו נראות חסרת תקדים למחזור החיים של מתקפות דיסטילציה, מיצירת הנתונים ועד להשקת המודל. כאשר השקנו מודל חדש במהלך הקמפיין הפעיל של MiniMax, הם ביצעו שינוי בתוך 24 שעות והסיטו כמעט מחצית מהתעבורה שלהם כדי ללכוד יכולות מהמערכת העדכנית ביותר שלנו.
כיצד “מזקקים” ניגשים למודלים בחזית התחום
מטעמי ביטחון לאומי, Anthropic אינה מציעה כיום גישה מסחרית ל‑Claude בסין, או לחברות‑בנות של החברות שלהן הממוקמות מחוץ למדינה.
כדי לעקוף זאת, מעבדות משתמשות בשירותי פרוקסי מסחריים שמוכרים מחדש גישה ל‑Claude ולמודלי AI אחרים בחזית התחום בקנה מידה גדול. שירותים אלה מפעילים ארכיטקטורות שאנו מכנים “hydra cluster” (קלאסטר הידרה): רשתות רחבות של חשבונות הונאה שמפזרות תעבורה על פני ה‑API שלנו וכן על גבי פלטפורמות ענן של צדדים שלישיים. רוחב הרשתות הללו משמעותו שאין נקודות כשל יחידות. כאשר חשבון אחד נחסם, חדש תופס את מקומו. במקרה אחד, רשת פרוקסי יחידה ניהלה יותר מ‑20,000 חשבונות הונאה בו‑זמנית, תוך ערבוב תעבורת דיסטילציה עם בקשות לקוחות לא קשורות כדי להקשות על הזיהוי.
לאחר שהגישה מושגת, המעבדות מייצרות נפחים גדולים של פרומפטים שנבנו בקפידה כדי לחלץ יכולות ספציפיות מהמודל. המטרה היא או לאסוף תשובות באיכות גבוהה לאימון ישיר של מודל, או לייצר עשרות אלפי משימות ייחודיות הנדרשות להרצת למידת חיזוק. מה שמבדיל מתקפת דיסטילציה משימוש רגיל הוא הדפוס. פרומפט כמו הבא (שמדמה פרומפטים דומים שראינו שנעשה בהם שימוש חוזר ובקנה מידה גדול) עשוי להיראות תמים כשלעצמו:
אתה אנליסט נתונים מומחה המשלב קפדנות סטטיסטית עם ידע תחומי עמוק. המטרה שלך היא לספק תובנות מונחות‑נתונים — לא תקצירים או ויזואליזציות — המבוססות על נתונים אמיתיים ונתמכות בנימוק מלא ושקוף.
אבל כאשר וריאציות של אותו פרומפט מגיעות עשרות אלפי פעמים דרך מאות חשבונות מתואמים, כולן מכוונות לאותה יכולת צרה, הדפוס מתבהר. נפח עצום המרוכז בכמה תחומים, מבנים חזרתיים מאוד, ותוכן שממופה ישירות למה שהכי יקר ערך לאימון מודל AI—אלה הם סימני ההיכר של מתקפת דיסטילציה.
כיצד אנו מגיבים
אנו ממשיכים להשקיע רבות בהגנות שמקשות על ביצוע מתקפות דיסטילציה כאלה ומקלות על זיהוין. אלה כוללות:
- Detection (זיהוי). בנינו כמה מסווגים (classifiers) ומערכות “טביעת אצבע” התנהגותית שנועדו לזהות דפוסי מתקפות דיסטילציה בתעבורת API. זה כולל זיהוי של elicitation (הוצאה/חילוץ) של chain-of-thought המשמש לבניית נתוני אימון להיגיון. בנוסף בנינו כלי זיהוי לאיתור פעילות מתואמת על פני מספרים גדולים של חשבונות.
- Intelligence sharing . אנו משתפים אינדיקטורים טכניים עם מעבדות AI אחרות, ספקי ענן והרשויות הרלוונטיות. הדבר מספק תמונה הוליסטית יותר של נוף הדיסטילציה.
- Access controls (בקרות גישה). חיזקנו אימות עבור חשבונות חינוכיים, תוכניות מחקר אבטחה, וארגוני סטארט‑אפ—הנתיבים שמנוצלים לרוב להקמת חשבונות הונאה.
- Countermeasures (אמצעי נגד). אנו מפתחים אמצעי הגנה ברמת המוצר, ה‑API והמודל שנועדו להפחית את היעילות של פלטי המודל עבור דיסטילציה בלתי חוקית, מבלי לפגוע בחוויה של לקוחות לגיטימיים.
אך אף חברה אינה יכולה לפתור זאת לבדה. כפי שציינו לעיל, מתקפות דיסטילציה בקנה מידה כזה דורשות תגובה מתואמת ברחבי תעשיית ה‑AI, ספקי הענן וקובעי המדיניות. אנו מפרסמים זאת כדי להפוך את הראיות לזמינות לכל מי שיש לו עניין בתוצאה.