כיצד 160,000 הודעות יורטו הובילו לסיפור ה-NSA האחרון שלנו

בלוגים

בסוף השבוע שעבר, ALES פרסמה סיפור שכתבתי עם ג'ולי טייט ואשקן סולטני על מעקבים של הסוכנות לביטחון לאומי שסוחף את השיחות של אנשים שאינם מטרות זרות. הסיפור, המבוסס על 160,000 הודעות שיירטו שקיבלתי מקבלן ה-NSA לשעבר אדוארד סנודן, עורר הרבה שאלות, התנגדויות, ולדעתי, אי הבנות.

כמה קוראים ופרשנים תיארו את הסיפור כהצהרה מחוממת יתר על המידה של המובן מאליו: שמעקב אחר אדם אחד כולל תוכן של אנשים שמדברים איתו. אחרים אמרו כי ALES, לא הממשלה, פלשה לפרטיותם של חפים מפשע כי פרסמנו את השיחות שלהם וה-NSA לא. לדעת כמה מבקרים, הפגינו בורות לגבי מערכות NSA או בחרנו ביודעין לעוות את אופן פעולתן.

(תמליל: שאלות ותשובות עם ברטון גלמן)

מעקב NSA הוא נושא מורכב - משפטית, טכנית ומבצעית. ניסחנו את הסיפור בקפידה ועומדים מאחוריו. אני רוצה לפרוק כמה מהנקודות והמחלוקות העיקריות, ולפזר חומר חדש להקשר. בפורמט הזה, אני יכול להציע פרטים טכניים נוספים על מערך הנתונים שסנודן סיפק והשיטות בהן השתמשנו כדי לנתח אותו. אתייחס גם לכמה סוגיות אתיות וביטחון לאומי שעמדנו בפנינו. על הדרך, אסביר מדוע הסיפור שלנו למעשה המעיט בממצאיו, אבהיר ספקולציות לגבי ריגול אחר הנשיא אובמה ואבדוק עובדות על ציוץ שפורסם לאחרונה ב-CIA על סיסמאות אבודות.

נתחיל במבט מקרוב על ההובלה שלנו:

משתמשי אינטרנט רגילים, אמריקאים ולא אמריקאים כאחד, עולים בהרבה על זרים הממוקדים מבחינה חוקית בתקשורת שיירטה הסוכנות לביטחון לאומי מרשתות דיגיטליות בארה'ב, על פי חקירה שנמשכה ארבעה חודשים של ALES.

דמיינו ערימה גדולה של שיחות שיירטו על ידי ה-NSA. יש בו טקסט של צ'אטים ודואר אלקטרוני יחד עם תמונות וסוגים אחרים של קבצים שמישהו שלח למישהו אחר. ספרנו את כל האנשים שהשתתפו בתקשורת הזו (או ליתר דיוק, את מספר החשבונות המקוונים הייחודיים) והשווינו את הנתון הזה למספר אליו כיוונה ה-NSA.

רוב החשבונות שמצאנו בערימה לא היו יעדים של NSA ולא היו כשירים ככאלה מבחינה משפטית. כמה פרשנים אמרו שזה לא מפתיע ולא ראוי לציון. אני אחזור לזה.

לאחר מכן שמים עליו מספר:

תשעה מתוך 10 בעלי חשבונות שנמצאו במטמון גדול של שיחות שיירטו, שקבלן ה-NSA לשעבר, אדוארד סנודן, סיפק במלואם ל-The Post, לא היו מטרות המעקב המיועדות אלא נתפסו ברשת שהסוכנות הטילה עבור מישהו אחר.

הנתון הזה למעשה נמוך מדי, אבל זה היה היחיד שיכולנו למדוד בכל דיוק. גרפיקה מאת טוד לינדמן שברה את זה. מצאנו כ-11,400 חשבונות מקוונים ייחודיים. מתוכם, כ-1,200 הוגדרו על ידי ה-NSA כמטרות זרות. 10,000 הנותרים פלוס היו דומים לעוברי אורח דיגיטליים. כמה מהם הכירו את מטרות ה-NSA ושוחחו איתם. אחרים נפלו לערימה על ידי הצטרפות לחדר צ'אט, ללא קשר לנושא, או שימוש בשירות מקוון המתארח בשרת שהיעד שימש למשהו אחר לגמרי.

לא הייתה לנו רשימה רשמית של NSA של מטרות. היינו צריכים למצוא אותם בערימה בעצמנו. סולטני, עצמאי חוֹקֵר , עשה על זה את רוב המשימות הכבדות. מכיוון שהמידע לא היה מונח בשורות ובעמודות, כפי שהוא עשוי להיות בגיליון אלקטרוני, סולטני כתב קוד מחשב כדי לחלץ את מה שחיפשנו ממשהו כמו רבע מיליון עמודים של טקסט לא מובנה.

על חלק מהשאלות שלנו לא ניתן היה לענות עם הנתונים שהיו בידינו. מסיבה זו, הסיפור שלנו לא אמר את מה שייחסו לו כמה פרשנים.

אלו הבחנות משובחות, אבל הן חשובות כי דיווחנו רק על מה שיכולנו לספור. לא אמרנו שה-NSA יירט מספר גדול יותר של שיחות או נפח גבוה יותר של תוכן השייך לעוברי אורח מאשר מטרות. אמרנו שיש יותר משתתפים (חשבונות מקוונים ייחודיים) באותן שיחות שלא היו יעדים מאשר משתתפים שהיו.

גם לא אמרנו שיש בערימה יותר אמריקאים ממטרות זרות. אנו חושדים שההצעה הזו עשויה להיות נכונה, אך לא הצלחנו לבסס אותה בצורה מהימנה.

הנה, מהפסקה השלישית, כמה מהדברים שיכולנו לספור:

כמעט מחצית מתיקי המעקב, שיעור גבוה להפליא, הכילו שמות, כתובות דואר אלקטרוני או פרטים אחרים שה-NSA סימנה כשייכים לאזרחים או תושבי ארה'ב. אנליסטים של ה-NSA הסתירו, או הפחיתו למינימום, יותר מ-65,000 אזכורים כאלה כדי להגן על פרטיותם של האמריקאים, אך הפוסט מצא כמעט 900 כתובות דואר אלקטרוני נוספות, חשופות בקבצים, שיכולות להיות קשורות בקשר חזק לאזרחי ארה'ב או לתושבי ארה'ב.

אלו שלוש מדידות נפרדות ומשמעותיות.

1. אמריקאים - מדברים, שמדברים איתם או מדברים עליהם - היו מזוהים קרוב למחצית מהקבצים שקיימו שיחות יורטו. זו הייתה תוצאה שלא ציפינו ממעקב שהופנה לזרים שנמצאים מעבר לים.

2. ה-NSA בלע כל כך הרבה תוכן כפי שריגלה אחר 1,250 זרים, עד שנאלצה להשבית 65,000 אזכורים לאזרחים ארה'ב ולבעלי גרין קארד. נתון זה אינו כולל חברות אמריקאיות, שהן גם אנשים בארה'ב תחת חוקי המעקב.

3. אנליסטים של NSA השאירו מספר ניכר של כתובות דואר אלקטרוני בארה'ב חשופות. על ידי חפירה בנתונים ציבוריים וזמינים מסחרית, חוקרי Soltani ו-ALES ג'ולי טייט וג'ניפר ג'נקינס קישרו כ-900 מהחשבונות שנתפסו לזהויות אמריקאיות. המקורות שלהם הסתמכו על חיפושים סטנדרטיים באינטרנט, רישומי רישום חשבונות, שינויי כתובת דואר בארה'ב, מאגרי מידע לשיווק מוצרים, מסמכים בבתי משפט ורשימות רישום בוחרים. האיכות של הנתונים הללו אינה מושלמת, אך סביר להניח שהיא תהיה מדויקת ברוב המקרים.

מהכוחות המזוינים ל-NSA ועד משרד האוצר, PostTV מפרק את 16 הסוכנויות והארגונים השונים שאוספים מודיעין עבור ממשלת ארה'ב - ואת המשרד ה-17 שמפקח על כולם. (דיווין קובורן/ALES)אמריקאים 'מקריים' ו'מוזערים'

המונחים וכללי המינימום אטומים, ולעתים קרובות נעשה בהם שימוש כדי לכוון לא נכון את הדיון הציבורי. נאסר על ה-NSA להתמקד באזרחים אמריקאים, בעלי גרין קארד או חברות לצורך מעקב ללא צו אישי משופט. אם הוא אכן מכוון לאמריקאים בשוגג - מתוך אמונה שהם זרים, ואז מגלה אחרת - ה-NSA בדרך כלל משליך את השיחות שלהם.

כל זה טוב לפרטיות, אבל זה לא קשור לאופן שבו אמריקאים למעשה נלכדים על ידי מערכות איסוף של NSA. שירותי המודיעין האמריקאיים משתמשים באופן שגרתי בשיטות איסוף נגד זרים שצפוי - בוודאות - בולעים גם כמויות גדולות של תקשורת אמריקאית.

זה נקרא גבייה אגבית. ה-NSA אינו משליך את השיחות הללו בארה'ב. הוא מאחסן אותם, עם שמות לא מצונזרים, במאגר שנקרא PINWALE ובמאגרי מידע מרכזיים אחרים. שום חוק לא אוסר על ה-NSA לחפש בתוך תוכן זה שמות אמריקאים ומזהים אחרים, והיא עושה זאת. ה-CIA עושה זאת גם כן, וה-FBI דיווח לאחרונה כי הוא מחפש בנתונים באופן שגרתי עד כדי כך שאינו יכול לספק ספירה. כללי המינימום מציבים תנאים לאותם חיפושים ומגבילים, אך אינם אוסרים, הפצה של זהויות אמריקאיות בדיווחים לסוכנויות אחרות.

אין דרך למנוע איסוף מקרית, אבל בחירות מדיניות מחליטות כמה מזה יקרה ומה מותר ל-NSA ולסוכנויות אחרות לעשות עם הפירות שלה.

בקטע שהבחין בו מעט בדו'ח שלה, קבוצת הביקורת של הנשיא על טכנולוגיות מודיעין ותקשורת קראה בסוף השנה שעברה ( המלצה 12, עמ'. 28 ) כי יש לטהר מידע שנרכש אגב על אמריקאים עם זיהוי, אלא אם הוא מספק מידע מודיעיני זר יקר ערך או מזהיר מפני פגיעה חמורה באחרים. את רוב מה שה-NSA שומר עכשיו, כנראה היה צריך לזרוק תחת התקן הזה. הנשיא וצוותו הניחו זאת בצד ללא הערות פומביות.

עד כה לא ניתן היה לדון בגבייה אגבית באופן קונקרטי. לא ידענו כמה מזה קרה או מה אופי התוכן הפרטי שנאסף. ה-NSA לא עונה על שאלות בפומבי לגבי הדברים האלה. משרד מנהל המודיעין הלאומי טוען כי הוא אינו מסוגל אפילו להעריך כמה אמריקאים מושפעים. ולאף כלב שמירה חיצוני - כולל הקונגרס, בתי המשפט, מועצת הפיקוח על הפרטיות וחירויות האזרח או קבוצת הביקורת על טכנולוגיות מודיעין ותקשורת - לא הייתה גישה למספיק תוכן שיירט כדי לשפוט בעצמו.

'כשאתה מניח. . . '

כמה מוותיקי מודיעין טענו השבוע שהסיפור שלנו ריגש עובדות לא מפתיעות. היועץ המשפטי של ה-NSA לשעבר, סטיוארט בייקר, כתב (באתר האינטרנט של The Post) שמעקב אחר מטרה זוכה כמובן לתקשורת של אנשים אחרים. (חוקרי רשתות חברתיות בכל מקום: טוב, מדען מחשבים רוברט אולסון צייץ בטוויטר .)

אם זה כל מה שהפוסט אמר, לפי בייקר:

. . . ההטיה הטבועה במדד היא כזו שהיא דורשת הכרה. (אחרי הכל, זה מאפשר לך לומר 'מחצית מכל בעלי החשבונות במסד הנתונים לא היו היעד' אם הסוכנות מאחסנת רק הודעה בודדת שנשלחה אל היעד.) זה משהו שכל עורך חש בחצי הדרך היה צריך לזהות.

כפי שציינתי לעיל, הסכמנו שאיסוף אגב, בתקציר, אינו חדשות. קרוב לראש הסיפור שלנו אמרנו שזה בלתי נמנע בצורות רבות של מעקב.

קנה המידה של האוסף הזה והסודות האינטימיים שהוא חושף אולי לא מפתיעים את חוקרי המודיעין, שמבינים את ההשפעות הנלוות של המעקב ומקבלים את החודרנות כמובנת מאליה. עם זאת, זה מפתיע - ובהתבסס על תגובות הקוראים, מטריד - להרבה אנשים שהסתמכו על הבטחות ציבוריות שה-NSA מתמקד בחוזקה במטרות זרות ואינו יכול לקרוא דואר אלקטרוני של ארה'ב ללא צו.

הנה הדרך שבה ניסחנו את השאלה הזו:

תיקי המעקב מדגישים דילמה מדיניות ששודרה רק באופן מופשט בציבור. יש גילויים בעלי ערך מודיעיני ניכר בהודעות שיירטו - ופגיעה נלווית בפרטיות בקנה מידה שממשל אובמה לא היה מוכן להתייחס אליו.

מארק אמבינדר, עיתונאי שכתב הרבה על מעקב, הציע ביקורת מפורטת יותר. זה ראוי לתשובה קצת יותר ארוכה כי זה צוטט בהרחבה. אמבינדר ביסס את מסקנתו שהסיפור שלנו היה פספוס על הנחות שגויות לגבי מערך הנתונים שלנו ותיאורים שגויים של המערכות שבהן משתמשת ה-NSA כדי ליירט ולעבד תקשורת.

לפי סעיף 702 של חוק מעקב אחר מודיעין זר המתוקן, כותב אמבינדר, פעולות מקומיות של NSA מתחילות בקבוצת מטרות שאושרה על ידי בית משפט - כמו 'פקידי ממשל רוסים המתגוררים ביוטה'. למעשה, קבוצות היעד שאושרו על ידי בית המשפט של FISA רחבות בהרבה. (רוסיה, כולה, היא אחת מ-193 מדינות מוסמכות לעניין) ובית המשפט אינו מודיע על המטרות הספציפיות שה-NSA בוחרת ממעמד מוסמך. זה נותן לסוכנות הרבה יותר מרחב פעולה למעקב ממה שאמבינדר מציע.

בשלב הבא, כותב אמבינדר, ה-NSA מנסה לחסל כמה שיותר מהאימיילים והצ'אטים של היעדים לאנשים בתוך ארצות הברית באופן אוטומטי. זה לא נכון. ישנן מערכות שמנסות להביס, או לסנן, שיחות שהן אך ורק מקומיות או אך ורק בקרב אמריקאים. אבל ה-NSA אינו מחויב חוקית, ובפועל היא לא מנסה, לסנן אזרחים או תושבים אמריקאים שמתקשרים עם יעד זר.

שתי השגיאות הללו מביאות את אמבינדר לטיעון העיקרי שלו, שהוא שהשיעור הגבוה של איסוף אגב והזהויות האמריקאיות החפויות שמצאנו נובעים ממגבלות טכניות של מערכת המינימום האוטומטית. אבל זו לא בעיה, הוא כותב, כי הפגמים נרפאים ביד בהמשך התהליך. אנליסטים של NSA נדרשים רק למזער כל תקשורת של אדם אמריקאי שהם רואים, הוא כותב, והסיפור שלנו התבסס על תוכן שיירט אותו אנליסטים עדיין לא בדקו.

התקשורת פשוט לא נבדקה. אף בן אדם לא ראה את זה. הכתבים של הפוסט הסתכלו על כל שורה של 160,000 יירוטים. האנליסטים של ה-NSA לא עושים את זה/לא יכולים לעשות את זה כי מערכת SIGINT לא הייתה פועלת לשנייה אם כן.

גם זה לא בסדר. כל מה שבמדגם שניתחנו הוערך על ידי אנליסטים של NSA בהוואי, נשלף מהמאגרים המרכזיים של הסוכנות וממוזער ביד לאחר מאמצים אוטומטיים לסנן זהויות אמריקאיות. אני מתאר את הנתונים בצורה מלאה יותר לקראת סוף הפוסט הזה.

אילו המדגם שלנו לא היה מוערך, הרבה יותר מ-90 אחוז מהאנשים בו היו לא מטרות. אם זה לא היה ממוזער, היינו מוצאים הרבה יותר אמריקאים ממה שזיהינו לבד.

מדוע הממצאים שלנו היו מאופקים

בנתונים שדיווחנו, כללנו כל חשבון מקוון חשוף. לא כללנו את החשבונות הממוזערים כי לא הייתה לנו דרך לדעת כמה הם ייחודיים.

לדוגמה, נוכל לספור 2,721 מופעים של המונח 'אדם אמריקאי ממוזער', 5,060 של שם משתמש בארה'ב ממוזער ו-57,331 של כתובת IP ממוזערת בארה'ב. (יש קצת יותר מ-1,000 קטגוריות נוספות של תוכן ממוזער.) אבל בתיאוריה, אנחנו לא יכולים לשלול שכל המונחים האלה מתאימים לאדם בודד - דמות דמוית זליג ששיחותיה השתרעו איכשהו על יקום של 11,000 חשבונות. במציאות, סביר להניח שהזהויות בארה'ב רעולי פנים מונים מאות או אלפים.

מהי תורת הקאנון

לא כללנו אף אחד מהם בסטטיסטיקה שלנו, כי בחרנו לא לזקוף מספר שלא יכולנו לספור. בין החשבונות שיכולנו לזהות בביטחון, 900 היו שייכים לאמריקאים ו-1,250 למטרות זרות. אם רק 400 מתוך עשרות אלפי זהויות ארה'ב רעולי פנים הן ייחודיות, אז מאגר הנתונים מכיל יותר אמריקאים מאשר מטרות זרות חוקיות.

'נשיא ארה'ב ממוזער נכנס לבר'

הרבה סגור קוראים לא מובן קטע, עמוק בסיפור שלנו, שהתייחס לנשיא אובמה. הם חשבו שזה אומר שה-NSA מיירט את הדואר האלקטרוני שלו. זה לא. (ריגול אחר הנשיא הוא סוג החדשות שאתה כנראה יכול לסמוך על הפוסט כדי להעלות בראש.) אם הייתי צופה את הקריאה הזו, הייתי כותב את הפסקאות הבאות אחרת:

יותר מ-1,000 מונחי מזעור ברורים מופיעים בקבצים, בניסיון להסוות את זהותם של אנשים ארה'ב אפשריים, פוטנציאליים וסבירים, יחד עם שמות חברות המשקאות בארה'ב, אוניברסיטאות, רשתות מזון מהיר ומארחי דואר אינטרנט.

חלקם גובלים באבסורד, תוך שימוש בתארים שיכולים לחול רק על אדם אחד. נשיא ארה'ב נבחר ממוזער מתחיל להופיע בתיקים בתחילת 2009, והפניות לנשיא ארה'ב הממוזער הנוכחי מופיעות 1,227 פעמים בארבע השנים הבאות.

אף אחת מהן לא הייתה שיחות שבהן השתתף אובמה. בדקנו היטב. הסטטיסטיקה מתייחסת, במקום זאת, לשיחות שבהן מישהו אחר הזכיר את שמו של הנשיא. אף אחד מהם לא היה מעורב במידע פנים.

בשיחה אחת יורטה, מישהו מספר בדיחה שמתחילה: [אדם US MINIMIZED PERSON] & [MINIMIZED US PRESIDENT] נכנסים לבר. שורת המחץ מוצאת את דרכה לרצח עם. זו לא בדיחה ידידותית. בחילופי דברים אחרים, מישהו לועג למכר באומרו שהעצה שלו לגבי נשים היא כמו עצה לגבי איסלאם מ[ממוזער נשיא ארה'ב לשעבר].

כמה אי הבנות קשה לרפא. ציינתי בטוויטר על יוֹם רִאשׁוֹן ו יוֹם שֵׁנִי ששיחות אובמה לא יורטו. כמה מאלה שהשיבו היו לֹא נוֹטֶה ל לְהֶאֱמִין זה.

אנשים רבים שאלו, מאז פרסום הסיפור, האם מצאנו שיחות שיירטו מנבחרי ציבור אחרים, שופטים, עיתונאים או ארגונים לא ממשלתיים. אנחנו לא. התיקים כוללים הפניות ממוזערות לסנאטור אחד, חבר קונגרס אחד, שלושה שופטים, שלושה גופי שידור אמריקאים וכמה ארגונים לא ממשלתיים. בכל אותם מקרים, הנושאים הוזכרו על ידי אנשים אחרים בשיחות על אירועים ציבוריים.

ההתייחסות שלנו לאובמה נועדה להבהיר נקודה נוספת. העמדנו את ההקפדה הקפדנית של ה-NSA על מזעור, בהקשרים רבים, עם מדיניות המאפשרת לאנליסט להסתמך על ראיות מפוקפקות כבסיס לשיפוט יעד לא כשיר להגנה על פרטיות זו. מצאנו מקרים רבים שבהם אנליסטים ביססו אמונה סבירה של זרות על העובדה שהיעד דיבר שפה זרה או התחברות מכתובת IP שנראתה מעבר לים. קריטריונים אלה יחולו על עשרות מיליוני אמריקאים.

תמיכה טכנית של לאנגלי

ה-CIA פתח חשבון טוויטר בחודש שעבר והשתמש בהומור חצוף כדי לזכות בקהל עוקבים גדול תוך זמן קצר. ביום שני נשלח החשבון הכרזה זו : לא, אנחנו לא יודעים את הסיסמה שלך, אז אנחנו לא יכולים לשלוח לך אותה. זה הפך לוויראלי, עם יותר מ-12,000 ציוצים מחדש.

כפי שזה קורה, קבצי ה-NSA שבדקנו כללו 1,152 סיסמאות אמריקאיות ממוזערות, כלומר סיסמאות לחשבונות דואר אלקטרוני וצ'אט אמריקאים שיירטו מקישורי נתונים בארה'ב. אל תצפו לתמיכה טכנית מלנגלי, אבל ל-CIA יש גישה לתעבורה הגולמית הזו.

'תמים' נגד 'אינטימי'

הביקורת של סטיוארט בייקר על הסיפור שלנו העלתה נקודה שנייה שלא הזכרתי למעלה:

הסיפור בנוי סביב הטענה המשתמעת ש-90% מנתוני היירוט של ה-NSA הם על אנשים חפים מפשע. אני חושב שהסטטיסטיקה מזויפת.

זה לא מה שהסיפור אמר או מה שהוא התכוון. לא ניסינו למדוד אשמה או מידות טובות. עבור כמויות גדולות של תוכן שיירט, האיכות המגדירה היא אינטימיות, לא תמימות.

בייקר גרם לתיבת הדואר הנכנס שלו להישמע די משעממת, מלאה בעסקים שגרתיים ובהודעות חד פעמיות שאני יכול להתמודד איתם בתשובה קצרה (או בהתעלמות מההודעה). כפי שזה קורה, הדואר האלקטרוני אינו מהווה את עיקר מה שה-NSA מיירט. הרבה יותר מהתוכן מגיע מצ'אט חי, מדיום של צעיר שמלא בעיסוקיהם של הצעירים.

בקרב הרוב הגדול של האנשים שאינם מטרות NSA, רבות מהשיחות במדגם שלנו הן פרטיות ביותר. לעתים קרובות הם רחוקים מאוד מפרסום, ללא עריכה.

הוא: מה איתך [פועל, שם תואר רכושני, שם עצם]

היא: אני [פועל] אם אתה [פועל אחר].

הוא: אפשר לארגן את זה.

היא: אני ממש צריכה עונש.

צעירה אחרת, גם היא לא מטרה, מגיבה למחזר שמציע להגיע לביקור.

היא: אל תחשוב שזה יהיה הוגן כלפי הבחור שאני פוגש

הוא: אתה יכול להיות קצת שובב לפעמים חחח

היא: כן חחח

השיחה ממשיכה משם. האם זה משנה לאישה או לחבר שלה שה-NSA הקליט את החלקה שלה לקראת בגידה אם אף אחד מהם לא יודע זאת? (היא אזרחית אוסטרלית, שזהותה אמורה להיות ממוזערת באותה זהירות בגלל אמריקאי, אבל שמה ותצלומיה חשופים.)

האם זה משנה לבן שהתיקים הרפואיים של אביו, או לאם שתמונות האמבטיה של התינוק שלה, נמצאים בחנויות NSA?

בתחילת הדיון בסנודן, יו'ר ועדת המודיעין של בית הנבחרים, מייק רוג'רס אמר בשימוע שהעובדה שלא הוגשו לנו תלונות כלשהן עם כל ספציפיות בטענה שהפרטיות שלהם הופרה, מעידה בבירור על כך שהמערכת עובדת.

אבל מי יתלונן? שאל העד, פרופסור למשפטים באוניברסיטה האמריקאית סטיבן ולאדק.

מישהו שפרטיותו הופרה, השיב רוג'רס. אתה לא יכול להפר את הפרטיות שלך אם אתה לא יודע שהפרטיות שלך מופרת.

ולאדק לא הסכים בחריפות עם האמירה הזו. לא ניתן לשפוט כללים ונהלים של ה-NSA ללא הסתכלות אובייקטיבית על מה שהיא עושה עם סמכותה. זה הוויכוח שהסיפור שלנו נועד להודיע.

סיר, תכיר קומקום

במסגור הסיפור שלנו, עמדנו בפני פרדוקס: כיצד אנו מדווחים על פגיעה בפרטיות מבלי להחמיר אותם? חלק מהקוראים הוטרדו מהציטוט שלנו מהתכתבויות פרטיות - ואפילו מההחלטה שלנו לקרוא אותה.

בן ויטס, כותב על Lawfare , מתאר את העברת תוכן NSA על ידי סנודן אליי כך:

הקבלן נותן מטמון של 160,000 שיחות כאלה - חלקן ארוכות מאוד - לצד שלישי. הוא עושה זאת ככל הנראה ללא הבחנה, והוא לא משאיר אלא לסמוך על כך שהנמען ישתמש בחומר בצורה אחראית. לאחר מכן הצד השלישי ממשיך לפרסם קטעים. . . מהתכתבויות של אדם פרטי, שנכתב לחבר על הרומן לכאורה שלו - אדם פרטי שהואשם על לא עוול בכפו. . . . אם הקבלן המדובר היה מישהו אחר מלבד אדוארד סנודן, היינו מזהים מיד את הגילוי הזה במה שהוא: הפרה מסיבית של חירויות האזרח בדיוק מהסוג שהנחנו את המודיעין בשלטון החוק כדי לנסות למנוע.

אנחנו מזהים כאן דילמה, אבל אנחנו לא חושבים שהתשובה ברורה. היה סיפור חשוב לספר על מעקב ופרטיות. לא האמנו שנוכל לספר זאת ברמיזות רחבות לתוכן אישי לא מוגדר בקבצים המיירטים של ה-NSA. האמנו גם שעלינו לתת משקל להשלכות הפרטיות והביטחון הלאומי של ציטוטם.

ויטס כותבת, בהתייחסות לאישה שציטטנו, שלמרות ששמרנו בעדינות את שמה מחוץ לסיפור, כל עולמה החברתי יידע מי היא. זו ספקולציה. האישה אומרת לי אחרת.

החלטנו מלכתחילה שלא נצטט מכל שיחה ללא הסכמת הדובר. האישה האוסטרלית נתנה לנו את זה, בתנאי שהעלינו את שמה ופרטים נוספים שציינה. לאחר מכן, היא כתבה לשבח מאמר פנטסטי ואמרה שהמעסיק והחברים שלה, מלבד אלה שהכירו את הסיפור כבר, לא חיברו אותו אליה.

תודה רבה, היא כתבה. אני מעריך את המאמצים שלך לאנונימיות.

הדוגמה האחת מלבדה, ויטס מבצע מתקפה רחבה יותר על סנודן - תוך שימוש בלתי מוגבל של שיקול דעתו הבלתי מוגבל - בוחר בגלמן כמבחן ואיזון הבלעדי לחשיפת נתונים אישיים - גלמן, שבניגוד ל-NSA, אין לו תקן סטטוטורי לעמוד בו. לא וללא פיקוח מצד הקונגרס או בתי המשפט.

נכון שלמעט חריגים בודדים כמו לשון הרע, הממשלה לא קובעת סטנדרטים של פרסום ולא מאלצת אותי לפעול לפיהם. זה מאפיין בסיסי למדי של המערכת החוקתית שלנו. הדרך שבה אני משתמש בחופש הזה, והבחירות ש-The Post עשה עבור הסיפור הזה, הן משחק הוגן עבור כל אחד לשפוט. נוח לנו עם הבחירות שלנו ומהדרך שבה עשינו אותן.

בקשת הסכמה לפני הצעת המחיר לא הייתה השיקול היחיד שלנו, או אפילו הראשון שלנו. זיהינו בשלב מוקדם שיש סיכונים לביטחון לאומי בעצם ההתראה של מישהו שהשיחות שלה יורטו. עשינו דיווח עצמאי כדי לקבוע, לפני שהתקשרתי אליה, שהחבר לשעבר של האישה האוסטרלית כבר לא נמצא במעקב וכבר לא נחשב על ידי המודיעין האמריקני כאיום.

גם כשהשארנו שמות, לא הרגשנו חופשיים לצטט שיחות שיירטו בלי מחשבה מדוקדקת. שפה ייחודית עשויה להיות מזוהה על ידי יעד מעקב, ובדומה לכך, רמיזות לסודות מביכים כאשר קוראים אותה מישהו קרוב לאדם המצוטט.

כפי שכתב הסיפור שלנו, ראינו בעצמנו בדגימת סנודן שמעקב תחת סעיף 702 הפיק הרבה מאוד מידע רב ערך. אם היינו אומרים למטרה במישרין או בעקיפין שהוא נמצא תחת המיקרוסקופ של ה-NSA, היינו מסכנים את זה.

כשחיפשנו דוגמאות שנוכל לצטט, התחלנו בבדיקה אם יעד מעקב עדיין חי וקיים. לפי דיווח בלתי תלוי, זיהינו ארבעה שהיו במעצר. הבאנו את השמות האלה ל-NSA ול-CIA. גורמי מודיעין נתנו לנו סיבות קונקרטיות ומשכנעות, לא לתיעוד, מדוע כל אזכור של שניים מהם יביא לסילוק הפעילות השוטפת. השארנו אותם בחוץ וציטטנו את השניים האחרים - מוחמד טאהיר שחזאד, בונה פצצות מפקיסטאן, ואת עומר פאטק, חשוד בפיגוע טרור ב-2002 באי האינדונזי באלי - בסיפור שלנו.

ישנם סיכונים לפרטיות, כפי שציינו כמה מבקרים, בשמירת עותקים של הקבצים שיירטו. ישנם סיכונים דומים לביטחון לאומי אם מישהו גונב את הארכיון. נקטנו באמצעים משמעותיים, בייעוץ של מומחים מובילים, כדי לשמור על החומר בטוח ככל שנוכל מפני גורמים חיצוניים. לאף עובד של ALES אין גישה לא מסומנת, ולמעטים מאוד יש גישה בכלל. השמדת הקבצים כעת תהיה הדרך הבטוחה להבטיח שהם לא נפרצו. זה יעורר שאלות משפטיות ויעצור את עבודתנו על סיפור של יבוא עולמי מתמשך. לא קיבלנו החלטה לטווח הארוך.

נתונים ושיטות

במערך הנתונים שניתחנו היו 22,000 קבצים אלקטרוניים, שהכילו תוכן שיירט על ידי ה-NSA בין 2009 ל-2012. הם הגיעו ממאגר שהתארח במתקן האזורי של ה-NSA Kunia בהוואי, אשר היה משותף לקבוצת אנליסטים המתמחים בדרום מזרח. איומים ומטרות אסיה.

מסד הנתונים של הוואי נאצר, בעצם, על ידי חברי הקבוצה. הם הסתמכו על מאגר גדול בהרבה של תוכן גולמי, או לא מעובד, המתארח במטה ה-NSA וייבאו מבחר ממנו לתבניות לחומר מוערך. בקרות גישה מיוחדות הגנו על הקבצים בשני המיקומים מכיוון שהתקשורת התקבלה ממתגי רשת ושרתי מחשבים בארצות הברית. עד 2008, סוג כזה של גבייה הצריך צו פרטני משופט. סעיף 702 של FISA איפשר ל-NSA לבחור עשרות אלפי מטרות בעצמה במסגרת כללים ונהלים שנבדקים על ידי בית המשפט פעם בשנה.

מכיוון שהמדגם שלנו נבחר ידנית על ידי אנליסטים עבור מסד הנתונים של הוואי, היה הרבה פחות תוכן לא רלוונטי ותקשורת אמריקאית שנאספה אגב, ממה שמבקר ימצא במסד הנתונים המרכזי של PINWALE ממנו הוא נלקח.

כ-16,000 מקבצי הנתונים הכילו טקסט של שיחות שיירטו. השאר היו תצלומים או מסמכים כמו רשומות רפואיות, שוברי נסיעה, תמלילים מבית הספר וחוזי נישואין. המרנו כל טקסט בתוך קבצי התמונה לצורה הניתנת לקריאה במכונה.

לחלק מהקבצים הייתה רק חילופי דואר אלקטרוני או הודעות מיידיות בודדות. אחרים כללו שיחות נפרדות רבות, עם משתתפים רבים. לעוד אחרים היו תמלילי צ'אט ארוכים ובלתי נשברים שנמשכו על פני כמה ימים ומאות עמודים.

על מנת לנתח את הקבצים, סולטני הכניס את כולם למסד נתונים. לאחר מכן נוכל לחפש מידע שניתן לכמת בעזרת כלים גיקים כגון ביטויים רגולריים של Unix ו-SQL, או שפת שאילתות מובנית.

רצינו לדעת, למשל, כמה שיחות מובחנות יש בתיקים. סולטאני ניסה מספר שיטות למצוא את הגבולות בכל תיק מסמכים. הוא תיאר את הנתונים כמלוכלכים, עם שגיאות דפוס וחוסר עקביות בשימוש בעיצוב ובתבניות רשמיות. Soltani תיקן את השגיאות הללו על ידי שימוש במספר קריטריונים בחיפושים שלו, כגון מזהה PINWALE שהופיע לראשונה בכותרת. השוואה ביניהם הביאה אותנו לנתון שפורסם של 160,000 שיחות.

סולטאני עשה את רוב הניתוח, אבל הוא לימד אותי לעשות את השאילתות שלי. כתובות דואר אלקטרוני, אם ניקח דוגמה מאוד פשוטה, מורכבות תמיד מטווח תווים מותר לפני ואחרי הסימן @, עם נקודה במחצית השנייה. שאילתה זו מצאה 12,310 כניסות. לאחר ניקיון חיוביות כוזבות והוספת נקודות אחיזה בצ'אט ומזהי פייסבוק, הגענו לנתון שפורסם של כ-11,400 חשבונות ייחודיים.

היינו צריכים להשתמש בשיטות מורכבות יותר כדי לזהות אילו מהחשבונות הללו היו יעדי NSA. השווינו מספר גישות, שהניבו תוצאות דומות אך לא זהות. לאחר שבדקנו מדוע הם נבדלים זה מזה, שיערנו שספירת ציוני מקרה ייחודיים, או CASNs, הייתה האמינה ביותר.

סימון מקרה נראה כך: P2BSQC090008441. לפני שנה פרסמנו שקופית שימושית לפענוחה.


התווים SQC מייצגים את תוכנית PRISM, אשר אוספת את התוכן של חשבונות מקוונים מתשע חברות אינטרנט גדולות בארה'ב. P2 מזהה את היעד כחשבון יאהו, ב' אומר שזהו חשבון צ'אט והשאר מזהה את שנת ההתחלה של המעקב (2009) ואת המספר הסידורי הייחודי של היעד.

איסוף מתגי רשת, שה-NSA מכנה Upstream, השתמש בסימוני מקרה שמתחילים ב-XX.SQF. אלה נקראים גם אוסף FBI של ה-FBI, מנוהל על ידי הלשכה ומשותף עם NSA. Upstream משמש לרוב לצורות צ'אט ארעיות יותר שלא ניתן להשיג בקלות משרתי חברות אינטרנט.

המספר הכולל של המטרות, בספירה לפי CASN, הגיע ל-1,257. עשינו בדיקת בטן של המספר - האם זה הגיוני? - על ידי קריאת התוכן של מדגם גדול מהשיחות שלהם.

ג'ולי טייט וג'ניפר ג'נקינס השקיעו עבודה נפלאה בקביעת שמות בעלי החשבונות ובחקירת הרישומים הציבוריים שלהם. כמעט בכל מקרה, הסיבות לעניין של ה-NSA היו ברורות. בין יותר מ-10,000 חשבונות לא ממוקדים, התקשורת שיקפה מגוון נורמלי של אינטראקציה אנושית.

בגלל השינויים שהקונגרס ביצע בסעיף 702, מועצת הפיקוח על פרטיות וחירויות אזרחיות דיווחה כי נפח האיסוף הלא ממוקד - ותוכן ארה'ב אגבי בתוכו - גדל באופן אקספוננציאלי.

המועצה התפצלה בשאלה האם יש לחייב את הממשלה לקבל צו לחיפוש ולעשות שימוש באותן שיחות אמריקאיות שיירטו. (אין צורך בצו כעת.) קבוצת הביקורת של הנשיא המשיכה רחוק יותר, והמליצה ל-NSA להשליך את התוכן האמריקאי ברוב הנסיבות.

ממשל אובמה לא התייחס לאף אחת מההמלצות הללו. הסיפור שלנו הוסיף מידע שלא ניתן היה למצוא בשום מקום אחר על האינטרסים המתחרים שעל כף המאזניים.