סגנון ממוחשב: כשהמחשב מחווה דעה על סגנון הכתיבה שלך

בקטע זכור במיוחד בסרט "המטריקס", סַייפר מתבונן יחד עם ניאו במסכי מחשב שעליהם רצות שורות קוד, המייצגות את המציאות המדומה שרוב בני האדם חיים בה. "אני כבר לא רואה את הקוד," הוא אומר לניאו. "אני רואה רק בלונדינית, ברונטית, ג'ינג'ית…".
בפינתי "מוציאה לשון" בתוכנית "מה שכרוך" שוחחנו אתמול על כלים ממוחשבים לניתוח טקסטים, וכיצד אפשר להשתמש בהם כדי לזהות שינויים בסגנון הכתיבה של סופרים וסופרות לאורך זמן. במובן מסוים, כאשר אנחנו קוראים, אנחנו עושים בדיוק מה שעשה סייפר: האותיות שעל הדף או על המסך נעשות כמעט שקופות בעבורנו, ובמקום לראות אותן אנחנו נסחפים ביצירה ו"רואים" את הדמויות, את הסיפור. לעומת זאת, כאשר אנחנו – או חוקרים שזה עיסוקם – מנתחים טקסטים באמצעות כלים ממוחשבים, מה שקורה הוא ההפך מזה: אנחנו מתעלמים מהדמויות ומהסיפור, מהדימויים ומהרגש שהיצירה עשויה לעורר, ומתרכזים באותיות עצמן ובסימני הפיסוק, בסדר שלהם, במספר המילים השונות ביצירה ובמבנה התחבירי של המשפטים.
מחקר ספרותי, זיהוי משמיצים, אבחון רפואי
מי יוצר כלים כאלה, ומה אפשר לעשות בעזרתם? מחקרים מסוג זה אינם מתחילים בחוגים לספרות, אלא בפקולטות למדעי המחשב ובתחום בבלשנות הנקרא בלשנות חישובית. ולצד הפוטנציאל שלהם בחקר הספרות, מחקרים כאלה עשויים לשרת גם מטרות שאינן ספרותיות. החוקרים משתמשים בכלים ובמודלים ממוחשבים כדי לזהות מאפייני כתיבה של כותבים, כאשר כלי "מוצלח" הוא כזה שמסוגל לזהות בצורה טובה את מאפייני הכתיבה, כלומר את הסגנון, של כותב מסוים – וכך מסוגל להבחין בעקביות בין יצירות של של סופרים שונים, או בין יצירות מוקדמות ומאוחרות של אותו סופר, וכן הלאה.
מלבד חקר הספרות, לאילו מטרות אחרות כלים כאלה עשויים לשמש? ובכן, כיוון מועיל אחד הוא הכיוון המשפטי: למשל, זיהוי אנשים שמפיצים פייק ניוז והשמצות ברשתות החברתיות. עוד כיוון הוא אקדמי – זיהוי עבודות ומאמרים שמי שחתום עליהן אינו מי שכתב אותן בפועל. כיוון חשוב אחר הוא אבחון רפואי, כגון של התפתחות מחלת אלצהיימר; שינויים מסוימים בסגנון הכתיבה עשויים להצביע על בעיות קוגניטיביות עוד לפני שקשיים אחרים העידו עליהן. ולבסוף, התמצאות מעמיקה במאפיינים של סוגים שונים של טקסטים עשויה לסייע בפיתוח כלי עזר לכתיבה, כמו הכלים ברמות תחכום שונות שמשולבים כבר כיום בתוכנות כמו Word ותוכנות דואר אלקטרוני.
אילו מאפיינים סגנוניים אפשר לזהות בכלים ממוחשבים?
חקר המאפיינים הסגנוניים (style markers) של לשון, לרוב כתובה, הוא תחום הנקרא סטילומטריה. כמה מהמאפיינים העיקריים של טקסטים הנבדקים במחקרים בתחום זה הם:
• אורך מילים ומשפטים
• המורכבות התחבירית והארגון התחבירי של המשפטים – ישנם כיום כלים ממוחשבים (מצוינים באנגלית, קצת פחות בעברית) המסוגלים לבצע ניתוח תחבירי של משפטים
• אופן הפיסוק
• עושר אוצר המילים
• תדירות מילים: גם מילים שכיחות מאוד, כגון מילות יחס, וגם מילים נדירות המופיעות בטקסט פעמים מועטות או פעם אחת (מילים יחידאיות)
• טעויות איות – מאפיין רלוונטי לטקסטים לא-מוגהים, כגון טקסטים המופיעים ברשתות חברתיות, ופחות לספרים
• n-grams: סוגים שונים של רצפים בטקסט, כאשר n מציינת את מספר הפריטים בחזרה. לדוגמה, 3-gram הוא רצף של שלושה פריטים – כגון רצף של 3 אותיות, 3 מילים או שלושה חלקי דיבר (parts of speech)
כלים המבוססים על אוצר מילים: זיהוי כותב המסתתר מאחורי שם עט
חסרונם של מאפיינים הקשורים לאוצר המילים הוא, שהם מושפעים בקלות יחסית מנושא הכתיבה: מן הסתם, בספר העוסק בנזירות ובמנזרים יופיעו בתדירות גבוהה מילים הקשורות לנושאים האלה, אבל תדירותן אינה קשורה לסגנון וכנראה אינה מאפיין קבוע של הסופר או הסופרת. כמו כן, אוצר המילים הוא מאפיין שאפשר לשלוט בו בקלות יחסית, למשל לבחור במילות סלנג של אזור מסוים כדי ליצור רושם שהמחבר הוא בן אותו אזור.
דוגמה לחקר מאפיינים של אוצר מילים היא מאמר של הבלשן ז'אק סבואה שהתפרסם ב-2018. סבואה ניסה לזהות מיהם הסופר או הסופרת שמאחורי שם העט "אלנה פרנטה", מחברת "הרומנים הנפוליטניים" (שהראשון שבהם הוא "החברה הגאונה"). הוא השווה בכמה שיטות בין ספריה של פרנטה לספרים של 39 מחברות ומחברים איטלקים אחרים מאותה תקופה (150 ספרים בסך הכל, ובהם ספריה של פרנטה, שראו אור בשנים 1987 עד 2016), והשתמש בין השאר במאפיינים של אוצר המילים. כך בדק בין היתר את תדירות הופעתה של הקללה הנפוליטנית strunz, המקבילה לקללה השימושית "סטרונצו", stronzo, באיטלקית קלאסית. סבואה מצא כי strunz הנפוליטנית מופיעה 18 פעמים בספריה של פרנטה, 63 פעמים בספריו של הסופר דומניקו סטרנונה, ורק ארבע פעמים בודדות בכל ספריהם של הכותבים האחרים יחדיו. על סמך ממצא זה וממצאים המבוססים על שימוש בכלים אחרים, הסיק סבואה כי סטרנונה הוא פרנטה (על מחקר זה של סבואה כתבתי ביתר הרחבה בספרי "מוציאה לשון").
בעקבות מחלת אלצהיימר
במחקר אחר, בנושא חשוב יותר אך מלבב פחות, ערכה קבוצת חוקרים מאוניברסיטת טורונטו השוואה בין מאפייני הסגנון של יצירות לאורך ציר זמן, אצל שלוש סופרות בריטיות שכתבו הרבה ולאורך עשורים רבים, גם בשנות ה-70 וה-80 לחייהן: אייריס מרדוק, שחלתה במחלת אלצהיימר, אגתה כריסטי, שסבורים שהייתה חולה במחלה זו, ופי די ג'יימס, שזכתה בזִקנה בריאה. ידוע כי מחלת אלצהיימר כרוכה בפגיעה בשימוש בשפה, והחוקרים קיוו כי ממצאי המחקר שלהם יוכלו לשמש בעתיד לאבחון מוקדם ולא-פולשני של מחלת אלצהיימר על פי טקסטים שכותבים המטופלים בהקשרים שונים. החוקרים בדקו מדדים שונים לעושר אוצר המילים, להיקף החזרות על צירופי מילים ולמורכבות תחבירית, והסיקו כי אפשר להבחין במאפיינים לשוניים מסוימים הקשורים להופעת מחלת אלצהיימר, ובהם ירידה באוצר המילים וחזרה רבה על צירופי מילים, שבמקרה של אייריס מרדוק, הופיעו כבר בשנות ה-40 וה-50 לחייה, לפני האבחון שלה כחולת אלצהיימר. עם זאת, במאפיינים לשוניים אחרים שנבדקו לא נמצאה השפעה של המחלה.

יש מוקדם ומאוחר בתורה
ואם נניח לאבחונים רפואיים ונחזור לסוגיות ספרותיות, האם כלים מסוג זה מסוגלים להבחין בין יצירות מוקדמות ליצירות מאוחרות, אולי בשלות יותר, של סופר? במאמר שהתפרסם לפני חודש בכתב העת המדעי PLOS ONE, חוקרים ממקסיקו מתארים כיצד השתמשו בכלים מתחום הבלשנות החישובית – כלים ומודלים ממוחשבים – כדי לזהות את השינויים שהתחוללו לאורך השנים בסגנון הכתיבה של 11 סופרות וסופרים. המטרה הייתה ליצור ולבדוק סט של כלים שיוכלו לקבל, למשל, רומן של דיקנס (צ'רלס דיקנס אכן היה אחד הסופרים שנכללו במחקר) ולומר לנו אם זוהי יצירה מוקדמת או מאוחרת שלו – והמטרה הזאת אכן הושגה. כמובן, היכולת להבדיל בין יצירה מוקדמת ומאוחרת של דיקנס, של אייריס מרדוק או של ארתור קונן דויל תלויה בכך שאכן יש הבדלים בסגנון בין היצירות המוקדמות והמאוחרות של הסופרים האלה. מידת ההצלחה לא הייתה שווה לגבי כל הסופרים, כלומר היו סופרים שסגנונם השתנה במידה מועטה יותר לאורך השנים – או לחלופין, ייתכן שסגנונם השתנה בדרכים שהכלים האלה אינם מיטיבים לזהות.
כדי לערוך את המחקר, בחרו החוקרים 11 סופרות וסופרים שכתבו בשפה האנגלית, ואשר כתבו לפחות 6 רומנים. כמה מהסופרים האלה הם צ'רלס דיקנס, ארתור קונן דויל ("שרלוק הולמס"), אייריס מרדוק, מרק טוויין, אדגר רייס בוֹרוֹז ("טרזן") וגם שמות אחרים ידועים פחות, כגון לואיס טרייסי וגב' ג'ורג' די הורן וֵייזי. מעניין להבחין כי הקבוצה הקטנה הזאת של 11 סופרים כוללת מחברים בני המאות ה-19 וה-20, בריטים ואמריקאים, מז'אנרים מגוונים מאוד – אייריס מרדוק שכתבה ספרות יפה, בורוז שכתב את "טרזן" ומדע בדיוני; סופרים גדולים כמו דיקנס לצד סופרים ידועים הרבה פחות, ובדיוק שתי נשים. הסתקרנתי לדעת מה היו הקריטריונים לבחירה, מלבד המובנים מאליהם (כתבו באנגלית, הרבה ולאורך זמן); אך במאמר נאמר רק שיצירות אלה שימשו גם במחקר קודם, והמאמר שאליו הפנו כתוב בספרדית. לעומת הדיון היסודי והנרחב במאפייני האלגוריתמים ששימשו במחקר, מצחיקה מעט ההתייחסות המינימליסטית לבחירת הסופרים שנכללו בו. ייתכן שבעיני קבוצת החוקרים האלה, מתחום מדעי המחשב, "סופרים שכתבו בשפה האנגלית" היא הגדרה ראויה ומספקת.
מכל מקום, לכל סופר וסופרת נבחרו 3 יצירות מהמוקדמות ביותר ו-3 יצירות מן המאוחרות ביותר; הקבוצה הראשונה הוגדרה כ"שלב ההתחלתי" והקבוצה השנייה כ"שלב הסופי", והפרש הזמן ביניהן היה לפחות 5 שנים. בעבור אייריס מרדוק, למשל, שלוש היצירות המוקדמות (ובהן "תחת הרשת" ו"הפעמון") ראו אור בשנות ה-50 של המאה ה-20, ושלוש המאוחרות – בשנות ה-80 וה-90.
מבחינת כלי הניתוח, החוקרים השתמשו בכמה סוגים של n-grams, ובהם n-grams של סימני דפוס (characters), כגון אותיות וסימני פיסוק; של מילים, של חלקי דיבר במשפט ושל איברים במשפט על פי עץ תחבירי שלו. על פי רוב, לכל סוגי ה-n-grams, הביצועים הטובים ביותר התקבלו עם 3-grams, כלומר רצפים של שלושה פריטים.
החוקרים חילקו את החומרים שעמדו לרשותם לטקסטים למטרת אימון (training set) ולטקסטים לבדיקת הביצועים (test set), הניחו לתוכנות לנתח את הטקסטים מה"שלב ההתחלתי" ומה"שלב הסופי" של כל סופר וללמוד את מאפייניהם, ואז הציגו לתוכנות טקסטים משתי התקופות של כל אחד מהסופרים ובדקו אם הן מצליחות לסווג אותן בצורה נכונה למוקדמים ולמאוחרים. מכיוון שיש שתי אפשרויות – מוקדמת או מאוחרת – הרי שאם התוכנה מנחשת בצורה אקראית, היא תגיע בממוצע להצלחה של 50 אחוז. בפועל, מידת ההצלחה הייתה גבוהה בהרבה, בין 60 אחוז ל-100 אחוז, עם הבדלים בין שיטות הבדיקה והסופרים. למשל, הצלחה טובה מאוד בסיווג הטקסטים למוקדמים או מאוחרים הושגה אצל אדגר רייס בורוז ואייריס מרדוק – כלומר, אצל הסופרים האלה היו הבדלים בסגנון בין התקופות שהכלים האלה זיהו בצורה טובה.
היי שלומית. אני מקווה שאני לא גולש לתחום שהתכוונת לדבר עליו בהמשך – האמת שכלים כאלה קיימים גם בעברית. מי שכנראה מוביל את חקר הנושא בעברית הוא פרופ' משה קופל מבר אילן, והוא גם גייס כסף והקים קבוצה סמי-אקדמית שנקראת "דיקטה" שזה בין השאר תחום המחקר שלה. למשל כבר לפני כמה שנים הם העידו שהצליחו לאמת את ההשערה שספר ישעיהו מורכב משני חלקים, ושמפרק מ' אכן מתחיל "ישעיהו השני".
לגבי שימושים אפשריים – רעיון נוסף ומסחרי לשימוש בזה הוא סיוע לכתיבה. היתה תקופה שהופצצתי בפרסומות של חברת Grammarly שעוזרת לאנשים לשפר את הכתיבה שלהם באנגלית ומציעה להם תיקוני תחביר ואולי גם דברים נוספים. חשבתי פעם לעשות משהו כזה גם לעברית, אבל זה לא נראה לי מספיק אטרקטיבי, ונדמה לי שבטווח הארוך אנשים נוטים לברוח מכלים שמנסים למשטר את הכתיבה שלהם (למשל – העליה שרואים בשנים האחרונות בתוכן וידאו על חשבון השפה הכתובה).
היי רוני, תודה רבה! התייחסתי כאן לסוגיה ספציפית בתחום הכלים הדיגיטליים, אפיון של סגנון כתיבה ספרותי או בכלל; יש כמובן גם כלים דיגיטליים אחרים, למשל של חיפוש, זיהוי ציטוטים וניקוד, ודיקטה מציע כלים מצוינים. לא במקרה פיתחו אותו חוקרים מבר-אילן, שפיתחה כבר בשנות ה-60 את פרויקט השו"ת. יש קישור לכמה מהכלים של דיקטה (וגם ל"ספריא") משמאל, ועל הנקדן המעולה של דיקטה כתבתי פעם כאן: https://did.li/Qcgrl
יש בדיקטה באמת גם כלי של "פילוח סגנוני", אבל הוא נועד ככל שאני רואה רק לקבוצה סגורה של טקסטים מהמקורות היהודיים, למטרות מהסוג שציינת (בעניין ספר ישעיהו), כלומר זה סוג אחר של כלי לאפיון סגנון.
מבחינת מה שיש בעברית הזכרתי בקצרה גם את הכלים לניתוח תחבירי (שעומדים לרשות אנשי אקדמיה, לא מכירה כרגע כלי כזה הפתוח לציבור).
כמדומתני שהזכרתי בקצרה את הנושא של פיתוח כלי עזר לכתיבה, כגון הכלים שיש ב-Word ובתוכנות מייל, ברמות שונות של תחכום, באנגלית וגם בעברית. בעברית אני באמת מכבה אותם, ומעניין הקישור שעשית בין הכלים האלה למעבר לווידיאו.
כתבתי רק בראשי תיבות… התחום של זיהוי דוברים הוא נושא המחקר העיקרי של פרופ' קופל. כבר לפני 18 שנה (!) הוא כתב תוכנה שמזהה האם הכותב הוא גבר או אישה. וזה עוד לפני ההתפתחויות בתחום רשתות הנוירונים לעיבוד שפה (שפרץ בצורתו הנוכחית בשנת 2012).
https://www.ynet.co.il/articles/0,7340,L-2970322,00.html
נכון שבבר אילן נוצר גם פרויקט השו"ת, אבל האלגוריתמים שעוסקים בזה (וגם החוקרים) לא קשורים ישירות למה שעשה פרופ' שוויקה בפרויקט השו"ת בשנות ה-1980.
לגבי דיקטה – בכנס ההשקה שלהם ב-2015 הם הציגו את נושא זיהוי הדוברים כאחד מהכיוונים האפשריים שלהם ונתנו את הדוגמה של ישעיהו. אני חושב שהנושא הזה די פתור מבחינה מחקרית והסיבה שהם לא פיתחו מוצר כזה נובעת כנראה משילוב של חוסר ביקוש ושל התמקדות בתחומים "יהודיים" (דיקטה שייכים לפורום קהלת ושם נמצאים התורמים שלהם ותחומי העניין שלהם). אבל מבחינת התוכנה אין הבדל עקרוני אם מדובר במקורות יהודיים או בכותבים עבריים מודרניים, זאת רק שאלה של איך מציגים את המוצר כלפי חוץ ועל איזה טקסטים מאפשרים לו לרוץ. אגב, בשאר המוצרים שלהם הם מנסים "לעשות טוב" מבחינת קידום העברית והיהדות (ולהתרחק מכל דבר שעלול להזיק), אבל הגבולות בתחום הזה דקים מאוד. האם תוכנת הנקדן של דיקטה הועילה לידיעת הניקוד בארץ או לשימוש בו? אשאיר את זה כשאלה פתוחה.
מה שקיים ב-e-mail למיטב ידיעתי זאת רק השלמת מילים אוטומטית, נניח את כותבת thank you והתוכנה מציעה להוסיף very much. לא ידוע לי (לפחות כך היה עד לפני הקורונה) על פיתוח באימייל שעוסק בתחביר ובסגנון (נניח מציע להחליף a ב-the או לשנות את סדר המילים במשפט). לפי מיטב ידיעתי את זה עושה כיום רק Grammarly ואולי אם קמו לה בשנה-שנתיים האחרונות מתחרות נוספות. זה שונה ממה שקיים באקדמיה בארץ כי בארץ עושים רק ניתוח ולא מנסים לתקן תחביר. מה עושה word בגרסאות האחרונות אני לא יודע.
מעניין מאוד, רוני, תודה רבה! (כן, הכלים שנלווים חינם למייל ולוורד די בסיסיים. הוורד מתריע למשל אם מילה מופיעה פעמיים ברצף.)
מרתק
תודה!
מעניין מאוד. חידשת לי הרבה
תודה רבה, מוטי!
מעניין מאוד – לומדת ממך המון דברים חדשים. תודה יקירה
איילה, מקסימה, כיף שאת כאן! תודה רבה!