דילוג לתוכן

בלשנים נגד סופרים: מותו של שם העט

דצמבר 30, 2018

לאחרונה קיבלתי את סיכום השנה של מילון מריאם-ובסטר – רשימת מילים שזכו לחיפושים רבים במיוחד במהלך שנת 2018. אחת המילים האלה הייתה lodestar, "כוכב הצפון" במשמעות מופת או מקור השראה. מספר החיפושים של lodestar זינק בתחילת ספטמבר, בעקבות טור דעה אנונימי בניו-יורק טיימס שבו הצהיר "בכיר בממשל טראמפ", כי הוא ועמיתיו משתדלים לסכל את פעולותיו חסרות האחריות של הנשיא. הבכיר הוסיף כי הסנטור הרפובליקני המנוח ג'ון מקיין הוא "כוכב הצפון" להשבת הכבוד לחיים הציבוריים בארצות הברית.

הטור הזה עורר, כמובן, סקרנות רבה באשר לזהות מחברו. אחת ההשערות התבססה על השימוש במילה הנדירה יחסית lodestar: נמצא כי סגן הנשיא מייק פנס מרבה להשתמש במילה זו. האם הוא המחבר? או שמא המחבר האמיתי ניסה להפנות אליו את תשומת הלב, באמצעות שימוש בביטוי החביב עליו?

פרשה זו אינה אלא דוגמה – בולטת במיוחד – לניסיונות לזהות מחברים אלמוניים על פי סגנון הכתיבה שלהם. תחום זה זכה לתנופה עצומה הודות לכלים מתחום הבלשנות החישובית, שגויסו לאחרונה למשימה ספרותית: זיהוי הסופרת, או הסופר, הכותבים תחת שם העט אלנה פרנטה.

 

בעקבות אלנה פרנטה: הבלשן כבלש

מחבר הטור בניו-יורק טיימס שומר על אלמוניותו מאז ספטמבר; אלנה פרנטה שומרת על האנונימיות שלה זמן רב קצת יותר – הרומן הראשון שלה, "אהבה מטרידה", ראה אור באיטלקית ב-1992. הניסיונות לגלות את זהותה צברו תאוצה בעקבות הצלחתה העצומה של סדרת "הרומנים הנאפוליטניים". במאמר הטרי הזה, החוקר ז'אק סאבו מציג את מחקרו בתחום הבלשנות החישובית, העוסק בסוגיה זו. סאבו התבסס על קורפוס, כלומר מאגר טקסטים, שהכינה לצורך העניין קבוצת חוקרים איטלקים מאוניברסיטת פדובה. המאגר כולל 150 רומנים איטלקיים שראו אור בשנים 1987 עד 2016; היצירות הן פרי עטם של 40 מחברים, כמה מהם מאזור נאפולי, ובהם, בלשונו של סאבו, "27 גברים, 12 נשים ופרנטה". הרשימה נועדה להקיף את כל הסופרים ה"חשודים" בכתיבת כתבי פרנטה – אם כי לא את אחת משני החשודים המרכזיים, המתרגמת אניטה רָאיָה. כל הטקסטים עברו הגהה קפדנית לצורך כלילתם בקורפוס, וסולקו מהם אלמנטים מיותרים כגון מספרי העמודים.

סאבו בחן את הקורפוס הזה בעזרת שישה מודלים לזיהוי מחברים. המודלים האלה מבוססים על בדיקת שכיחויותיהן של מילים מסוימות בטקסט הנבדק, והשוואתן לשכיחויות של אותן מילים בטקסטים דומים שמחבריהם ידועים. יש שהמילים הנבדקות הן קבוצה קטנה יחסית של 500-200 מילים, הכוללות בעיקר מילות יחס, כינויי גוף וכן הלאה; ויש שבודקים את השכיחויות של כלל המילים המופיעות בטקסט, או של רצפי אותיות באורכים שונים.

סאבו מציג את המודלים שבהם השתמש ומנתח את ממצאיו באריכות ובפירוט (ואף הפתיע אותי בגילוי שהמושג "אנטרופיה" רלוונטי למודלים בבלשנות). אך כדי להמחיש את הרעיון, ניעזר בניתוח פשוט יותר שערך העיתונאי בן בלאט.

 

ג'יי קיי רולינג וטביעת האצבע המילולית

בלאט השתמש בגרסה פשוטה של אחד המודלים ששימשו את סאבו: בדיקת השכיחות של 70 מילים נפוצות והשוואת השכיחויות בין יצירות של כמה סופרים.

גם בלאט, כמו סאבו, בחר יצירות בעלות אופי דומה, במקרה זה – רומנים בלשיים באנגלית שכתבו שלושה סופרים מצליחים ילידי שנות החמישים והשישים. אחד הסופרים האלה הוא רוברט גלבריית; זהו, כמובן, שם עט של הסופרת ג'יי קיי רולינג, מחברת "הארי פוטר". כמו כן נכללו בבדיקה גם ספרי "הארי פוטר". בדרך זו בדק בלאט שתי שאלות שונות: האם לכל אחד מהסופרים יש "טביעת אצבע מילולית" אופיינית? ואם כן, האם "טביעת האצבע" של ג'יי קיי רולינג חוזרת בכל ספריה, או שהיא שונה בין ספרי "הארי פוטר" לבין הספרים שכתבה כ"רוברט גלבריית" – אשר שייכים לז'אנר אחר ונועדו לקהל יעד אחר?

לפניכם שני גרפים שיצר המודל של סאבו. בגרף העליון אנו רואים את השכיחויות של המילה what ביצירות שנבדקו, מוצגות כנגד שכיחויות המילה but באותן יצירות. שמות ארבעת הסופרים מופיעים למעלה, בארבעה צבעים – אדום, צהוב, כחול ותכלת; העיגולים שעל הגרף, באותם ארבעה צבעים, מציינים את היצירות השונות. העיגולים הכחולים-בהירים מציינים את ספרי הארי פוטר של ג'יי קיי רולינג, והעיגולים הכחולים-כהים – את ספרי הבילוש שכתבה תחת שם העט "רוברט גלבריית".

אילו המילים but ו-what היו מופיעות באותה תדירות בכל הספרים שנבדקו, כל העיגולים היו מצטופפים יחד במקום אחד על הגרף. זה, כמובן, לא המצב. אילו תדירויותיהן היו שונות מספר לספר, אך בלי קשר למחבר, העיגולים היו פזורים ברחבי הגרף מבלי להתקבץ לפי צבע – כפי שאכן אפשר לראות בגרף התחתון, המתאר את שכיחויות המילים so ו-were. אך בגרף העליון, אנו רואים בפירוש מקבץ של עיגולים צהובים, המלמדים אותנו שמייקל קונלי מרבה יחסית להשתמש במילה what, וממעט להשתמש במילה but; מקבץ של עיגולים אדומים, המציינים שאצל לואיז פני המצב הפוך; ומקבץ של עיגולים כחולים-כהים וכחולים-בהירים – המעידים שג'יי קיי רולינג משתמשת בשתי המילים האלה בתדירויות קבועות יחסית בשני השמות שתחתיהם היא כותבת.

 

מתחת לגרפים מופיעה רשימת המילים שבדק בן בלאט; אם תיכנסו לטור הזה שפרסם במגזין Slate, תמצאו בו "גרף חי" – אפשר לבחור כל אחת מהמילים שברשימה ולהציג את השכיחות שלה ביצירות כנגד השכיחות של כל מילה אחרת. אפשר גם לראות איזה ספר מייצגת כל נקודה, בעזרת ריחוף מעליה עם העכבר. לאחר שהשתעשעתי בגרף זמן-מה, נראה לי שהתוצאות אכן מאששות את מסקנתו של בלאט: בדרך כלל, ההבדלים בין ספרים של אותו סופר קטנים מההבדלים בין ספרים של מחברים שונים, כלומר, לכל מחבר יש "קול" משלו – וזאת בלי לבדוק מאפיינים תחביריים כגון אורך ומבנה של משפטים, בלי להתייחס לסימני פיסוק, ואפילו בלי להתייחס לאוצר המילים, אלא אך ורק לתדירויותיהן של 70 מילים שכיחות.

נחזור למחקרו של ז'אק סאבו על קורפוס פדובה, שנועד לבלוש אחר זהותה הסודית של אלנה פרנטה. סאבו בדק את הקורפוס בעזרת ששת המודלים שבחר, והסיק כי "אלנה פרנטה" הוא שם עט של הסופר דומניקו סטַרנוֹנֶה – וזאת, לדבריו, ברמת ודאות גבוהה מאוד; כלומר, הזיהוי עם סטרנונה הוא התוצאה העיקרית שמספקים כמה מודלים שונים, ובדרך כלל, דירוג מידת הדמיון בין היצירות של פרנטה ליצירות של סטרנונה גבוה בהפרש ניכר מדירוג מידת הדמיון בין היצירות של פרנטה ליצירות של סופרים אחרים.

הזיהוי של פרנטה כסטרנונה הולם, כמובן, את אחת ההשערות המקובלות כיום (ואת הדמיון הרב בין "ימי הנטישה" של פרנטה ל"שרוכים" של סטרנונה, מבחינת הנושאים, המיקום והעלילה). סטרנונה, כמובן, מכחיש את ההשערה הזאת. סאבו אף מתייחס בעקיפין להשערה שלפיה "פרנטה" היא צמד כותבים, כנראה סטרנונה וראיה; לדעתו של סאבו, הניתוח שערך מלמד על אחידות המאפיינת כותב יחיד, גם אם אדם נוסף היה מעורב, למשל, באפיון הדמויות.

 

אל תסתפקו בדובדבן – בדקו את כל העוגה

התחלנו את הפוסט עם המילה lodestar, והניסיון לזהות כותב של טקסט על פי שימוש במילה יחידה. המשכנו למודלים המבוססים על ניתוח שכיחויות של מספר גדול של מילים; ולסיום, נחזור שוב למילים יחידות. ז'אק סאבו, במחקרו בקורפוס האיטלקי, התייחס גם לכמה מילים המופיעות כמה וכמה פעמים ביצירות של פרנטה וסטרנונה, ופעמים מעטות מאוד ביצירותיהם של שאר 38 הסופרים בקורפוס. כזו היא, לדוגמה, הקללה strunz, השייכת לניב הנאפוליטני (באיטלקית הקלאסית קיימת הצורה stronzo). המילה strunz מופיעה 18 פעמים בספרי פרנטה, 63 פעמים בספריו של סטרנונה, ורק 4 פעמים בסך הכל בכל ספריהם של הכותבים האחרים. יפה. אך פה אנו חוזרים לקושי שהזכרנו בתחילת הפוסט: קללה נאפוליטנית היא מאפיין שקל להבחין בו, ובדיוק משום כך קל לשלוט בו ולמנן אותו – למשל, להשתמש בו בטקסט כדי להעניק לדמויות נופך נאפוליטני אותנטי, או כדי ליצור את הרושם שהמחבר עצמו הוא בן נאפולי. לעומת זאת, במאפיינים הסטטיסטיים שתיארנו קשה הרבה יותר לשלוט, ולכן הם עשויים לספק ראיות אמינות יותר.

האם היסטוריה מפוארת של משחקי זהויות בחסות שמות עט למיניהם עומדת להסתיים בקרוב, הודות לכישרונם של בלשי הבלשנות החישובית?

13 תגובות
  1. רוני הפנר permalink

    היי,
    א) כדי לזהות כותב צריך קצת סטטיסטיקה, אז סופרים שכותבים ספרים שלמים ואפילו מאמרים קצרים יחסית לא יצליחו להסתיר את זהותם, אבל סביר להניח שכותבים שאין להם מספיק תיעוד בכתב, או שיתאמצו לכתוב תגובה קצרה בסגנון לא אופייני עדיין לא יזוהו.
    ב) אם התפעלת מהמילה אנטרופיה, אני יכול להציע מתחום הבלשנות הממוחשבת גם את המילה perplexity, המציינת את המידה שבה מילה או משפט נראים "נכונים" בהינתן מודל סטטיסטי של שפה. בלשון הרגילה זה אומר משהו כמו "מידת התהייה" או "תמיהתיות".

    • היי רוני,
      א) המחקר של סאבו והקורפוס של פדובה ממחישים בדיוק את הנקודה הזאת: אניטה ראיה אינה נכללת בקורפוס ובהשוואה, משום שהיא מתרגמת ולא סופרת, או במילים אחרות – אם היא אלנה פרנטה, היא לא פרסמה שום יצירת ספרות בשמה האמיתי. נדמה לי שאם קוראים בין השיטין, אפשר לראות שסאבו חש שזו נקודת חולשה במחקר שלו: הוא מזכיר בחטף את ראיה, ובהמשך מעלה ושולל את האפשרות שמדובר בצמד כותבים, וכמובן מציג ושולל את האפשרות שהמחבר האמיתי כלל אינו מופיע בקורפוס.
      אגב, לדעתי היה אפשר להרחיב קצת את המחקר ולהתייחס גם לאפשרות הזאת: במקרה של ראיה, יכלו להשתמש בטקסטים לא-ספרותיים פרי עטה, כמו הקדמות המתרגמת וכו'. אפשרות שנייה הייתה לבדוק תרגומים שלה – סוגיה מרתקת בפני עצמה: עד כמה שכיחויות המילים בטקסט מתורגם תלויות במחבר, ועד כמה – במתרגם?
      בכל אופן, כן, בהחלט, שיטות ניתוח מהסוג שתואר כאן אינן רלוונטיות אם אין טקסטים להשוות אליהם.
      ב) נחמד, תודה! נראה לי קצת דומה לציון הכוכבית, שפירושו שמשפט מסוים אינו טבעי לדוברים ילידיים של שפה מסוימת – כמו

      * הם טובים אנשים

      למשל, שמציין שדובר עברית ילידי לא יאמר כך (אלא "הם אנשים טובים").

      • רוני הפנר permalink

        לתחושתי, ככל שמדובר בשכיחות של 70 המילים היסודיות שנבדקו במחקר, לא אמורה להיות בעיה לזהות קול ייחודי של כותב/ת, גם אם מדובר בטקסט מתורגם. התרגום אמור לבוא לידי ביטוי במילים הנדירות, אבל לא במילים היסודיות האלה.

        להרחבה (אולי את מכירה), השפה שמשתמשים בה מתרגמים נחקרה ומתברר שהיא שונה במקצת משפה של כותבים מקוריים. לשפה הזאת (קיבלה את השם translationese) יש שני מאפיינים ייחודיים: (א) היא פשוטה יחסית – מתרגמים נוהגים להשתמש במבנים שגורים יחסית בשפה ולא לחדש מילים או להשתמש במילים נדירות (ב) היא מכילה מבנים שאולים רבים יחסית משפת המקור. שני מקורות להכיר את הנושא:
        1. המבוא לעבודה הזאת: http://cs.haifa.ac.il/~shuly/publications/vered-thesis.pdf
        2. הרצאה של פרופ' שולי וינטר

  2. חצצון תמר permalink

    אחלה של כתבה.

    אפשר כמובן גם להיזכר בסצנה המצוינת מ'הערת שוליים' שבה מגלה האב שבנו הוא שכתב את ההמלצה עליו לפרס ישראל.

  3. זה הזכיר לי את המכתב שכתב רומן גארי בעקבות פרשת אמיל אז'אר (פורסם בעברית כנספח לספרו "עפיפונים" בהוצאת עם עובד). הוא מתגאה שם איך הצליח לעבוד כמעט על כולם עם הפסבדונים שבחר לארבעת ספרי אמיל אז'אר, אך גם מתאר כמה אנשים שבניתוח תוכן שיטתי ומדויק (לא בלשנות חישובית, כמובן) הצליחו לחשוף את התרמית – למשל מורה לצרפתית שהראתה לו דרך ביטויים חוזרים ואפילו עיצובי דמויות שאז'אר הוא בעצם גארי.

    כמי שכותב די הרבה ועורך טקסטים של אחרים, אין לי ספק שיש לי ולאחרים דפוסים חוזרים בכתיבה. הקושי הוא כמובן לדעת מה בדיוק לחפש.

    • קיוויתי שמישהו יזכיר את גארי ו"אז'אר"… ואפילו לא זכרתי (קראתי כמובן את הנספח הזה בזמנו) שבאמת היו מי שזיהו את הדמיון בסגנון.
      אגב, מעניין אם יש – מן הסתם יש – דמיון במאפייני הכתיבה (למשל אצל כותבים שמחקים מחבר מפורסם) שיכול להטעות קוראים אנושיים, אבל לא ניתוח ממוחשב. כפי שאיפור ופיאה וכו' יכולים להטעות בני אדם, אבל לא תוכנות לזיהוי פנים – הן מודדות למשל את המרחקים בין תווי הפנים, שאותם קשה יותר לשנות.

  4. זאב רז permalink

    מרתק!!
    חבל שאין התיחסות על דרך השלילה – בוודאי יש צירופי מלים מקובלים (או מלים מסוימות) שהסופר "החשוד" אינו משתמש בהם כלל.

    • תודה רבה! ברגע שמדובר על שכיחויות, השכיחות יכולה כמובן להיות גם אפס, כלומר השיטות הסטטיסטיות האלה מכסות גם מצבים שמילה מסוימת מופיעה מעט מאוד, או כלל לא, בטקסט הנבדק או בטקסט שמשווים אליו.

  5. מעתיקה הנה דיון מעניין מפייסבוק:

    קטיה בניוביץ': זה כל כך מוזר שדווקא במילים השגורות ביותר מצוי ההבדל. איך ייתכן?

    אנוכי: שאלה מאוד מעניינת. ראשית, אני בטוחה שיש הבדלים גם במילים אחרות – כמובן – אלא ששם ההבדל אולי קשור יותר ליצירה הספציפית (למשל: אם היא עוסקת בילדים, באופנה, בסוסים וכן הלאה – נמצא שם מילים שקשורות לנושא הזה). אם מחפשים מאפיינים שקשורים למחבר עצמו, אולי כדאי להסתכל על מילים בסיסיות יותר. כמו כן, כדי לייצר סטטיסטיקה משמעותית, דרושה כמות – ומילים שכיחות ייתנו תוצאה יותר מובהקת ממילים נדירות יותר, שיכולות להופיע פעמים ספורות לאורך הספר (כמו strunz שהזכרתי בסוף).
    סאבו אכן בודק גם מילים כמו "אמא" ו"אבא", שהן פחות אבני בניין תחביריות ויותר מעידות על נושאי כתיבה.
    בעניין הסיבה להבדלים בתדירות השימוש במילים השכיחות, אני יכולה כמובן רק לשער. אם נסתכל על הגרפים של בן בלאט, שהם מאוד נגישים, נראה שההבדל בשימוש בדרך כלל אינו עצום, אבל הוא משמעותי. למשל, בגרף העליון שהבאתי, ההבדל בשימוש במילה but בין מייקל קונלי ללואיז פני הוא ההבדל שבין 50 פעם ל-10,000 מילה ל-90 פעם ל-10,000 מילה. זה כמעט כפול, אבל לא פי חמישה נניח. ואם נחשוב איך הוא נוצר, באמת מעניין – כנראה פני נוטה יותר לציין ניגוד… קונלי משתמש במילה are קצת יותר מפני ומרולינג, אבל ההבדל בולט עוד יותר במילה is – ברוב הספרים הוא משתמש בה הרבה יותר מהן. למה? אולי הוא עוסק חלק גדול יותר מהזמן באדם יחיד (לעומת כמה)? אולי הוא מרבה יותר לכתוב בזמן הווה?

    חמוטל ילין: אני חושבת שבמקרה של but, יכול להיות שיש אנשים שאוהבים להשתמש במילות ניגוד אחרות יותר, כמו though, למשל.

    אני יודעת שלי יש נטייה כמעט פתולוגית להשתמש יותר מדי במילה "אז", שנראית על פניה פשוטה ותמימה.

    בקיצור, אני יכולה להבין איך זה קורה.

    אני: נכון. האמת שאפילו חיפשתי בין המילים שבלאט בדק מילים אחרות שמציינות ניגוד, ולא מצאתי. כעורכת, אני נוטה להחליף "אבל" ב"אך" כדי לצמצם את מספר ההברות במשפט, ו(אם הוא נמצא בתחילת המשפט) להפוך את תחילת המשפט לזורמת יותר. אז כן, בדיוק.

  6. מרתק!
    ואני רוצה לציין,
    שבקריאת הספרים של פרנטה,
    חשדתי שזה גבר. בחיי!!

    • תודה רבה! ומעניין… באיזה ספר? כשקראתי את "ימי הנטישה", חשבתי על השאלה הזאת כי אמרו עליו שהוא כל כך נשי, ואני הרגשתי שהחוויה הזאת של בדידות וכעס ואומללות בעקבות נטישה בהחלט יכולה להיות גם של גבר, כלומר לא הרגשתי שהספר הזה כל כך נשי במובהק כמו שאמרו עליו.

      • חשבתי ככה כבר בימי נטישה, היתה בו אכזריות שנראתה לי לא מתאימה לאישה. ומשהו ביובש הסיגנוני גם. וזה המשיך גם בסדרת החברה הגאונה. אינטואיציה שקיבלה חיזוק במחקר שסיפרת עליו…

להשאיר תגובה

הזינו את פרטיכם בטופס, או לחצו על אחד מהאייקונים כדי להשתמש בחשבון קיים:

הלוגו של WordPress.com

אתה מגיב באמצעות חשבון WordPress.com שלך. לצאת מהמערכת /  לשנות )

תמונת גוגל

אתה מגיב באמצעות חשבון Google שלך. לצאת מהמערכת /  לשנות )

תמונת Twitter

אתה מגיב באמצעות חשבון Twitter שלך. לצאת מהמערכת /  לשנות )

תמונת Facebook

אתה מגיב באמצעות חשבון Facebook שלך. לצאת מהמערכת /  לשנות )

מתחבר ל-%s

%d בלוגרים אהבו את זה: