Chatgpt לוקח את מבחן טיורינג ... וזה לא אומר הרבה

GPT-4.5 ו- LLAMA-3.1, הדגמים הגדולים של Openai ו- Meta Langue, העבירו לאחרונה בהצלחה גרסה מעודכנת של מבחן טיורינג המפורסם, מה שמאפשר למדוד את יכולתו של מודל להעמיד פנים שהוא אדם בשיחה טקסטואלית ... אך היזהר משגיאות פרשנות.

הגרסה המקורית של המבחן, המדומיינת על ידי המפואראלן טיורינגבשנת 1950, המבוסס על אינטראקציות בין חוקר אנושי המפטפט בו זמנית עם שני "עדים" - מכונה ואדם אחר. לשני העדים הללו יש אותה מטרה: לשכנע את בן שיחתם שהם האדם האמיתי. אם השמאי לא מצליח לזהות את המכונה באופן קבוע (בלמעלה מ- 50 % מהמקרים), נוכל לקחת בחשבון שהאחרון עבר את הבדיקה.

בעבודה זו בהובלת אוניברסיטת סן דייגו, בארצות הברית, החוקרים בחרו בגרסה שונה של המבחן המקורי. כמו בתדירות גרסאות מודרניות אלה, החוקרים סיפקו לשני דגמים בקשות טקסט (או מהירות) המציינות אותן לאמץ א"אישיות" כמה שיותר אנושי, בפרט על ידי שימוש בשפה מוכרת למדי ושילוב של מה שחוקרים מכנים "מדדים חברתיים-רגשיים"התכוונו להתערבל על המסילה.

אצלםלִלמוֹדהמחברים פורסמו בשרת ה- Arxiv Prepublication, והגיעו למסקנה כי שני הדגמים עברו את המבחן גבוה. Llama 3.1 נחשב משכנע יותר מאשר יריבו האנושי ב56 % מהמקרים, בעוד ש- GPT-4.5 אפילו הגיע לציון מרשים של73 %ו

הדפס מקדים חדש: הערכנו LLMs במבחן טיורינג בן 3 מפלגות (המשתתפים מדברים עם אנושי ו- AI בו זמנית ומחליטים איזה זה).
GPT-4.5 (כאשר התבקש לאמץ פרסונה אנושית) נשפט כאנושי 73% מהזמן, ומציע שהיא עוברת את מבחן טיורינג (🧵)pic.twitter.com/gbetofjhvy
- קמרון ג'ונס (@Camrobjones)1 באפריל 2025

מבחן טיורינג בוחן את בני האדם יותר ממכונות

ברשתות החברתיות, משתמשי אינטרנט רבים ויוצרי תוכן מיהרו לומר שזו הייתה נקודת מפנה נהדרת בהיסטוריה של טכנולוגיה זו, וסימן ברור לכך שאנו נכנסים לעידן שלבינה מלאכותית הנקראת "כללי"ו עם זאת, מדובר בפרשנות סנסציוניסטית מאוד, מנותקת למדי מההשלכות האמיתיות של מחקר זה.

מה שחשוב הוא שגם אם הגרסאות המודרניות של מבחן טיורינג הן הרבה יותר מוצקות מהמקור מנקודת מבט מתודולוגית, המטרה מעולם לא הייתה להשוות בין היכולות האינטלקטואליות של מודל AI ואדם. זה נותר משחק חיקוי שמטרתו היחידה היא לבדוקהיכולת של כלים אלה להעמיד פנים שהם בני אדם- הבחנה מכריעה לחלוטין בהקשר זה. בפועל, זה יותרבדוק אמינות אנושיתכי היכולות 'האינטלקטואליות' של המודל.

נקודה זו מתבררת במיוחד כאשר אנו מושכים את 'ההתאמה האישית' המפורסמת הזו מהמשוואה. בלעדיהם, ציון ה- GPT-4.5, למשל, נפל ב -36 %. זה מוכיח שוב שהצלחתו במהלך החוויה הראשונה אינה סימן למודיעין ראוי. תוצאות אלה פשוט מראות שברגע שהוגדרו כראוי, LLMs מודרניים הםמוכשר ביותר בכל מה שקשור לחילוץ סמנים לשוניים מזהות אנושית, ולזקוק אותם ביעילות בשיחה.

יש לזכור גם שזו לא הפעם הראשונה שמודל גדול של שפה היה אהב את הבשר ובני שיח העצם בדרך זו, רחוק ממנה. הדוגמה המתועדת הראשונה (אליזה, צ'אט בוט רודמנטרי שתוכנן על ידי MIT Engineers), כבר הצליח לצלול כמה אנשים ... משנת 1965!

מעניין לציין כי אותה אליזה עדיין השיגה ציון של 23 % במחקר חדש זה, ואילו יכולותיה של 'הנמקה' הן שנות אור מאלה של LLMs מודרניים. לדברי המחברים, הדבר מוסבר על ידי העובדה שהדיאלוגים שנוצרו על ידי צ'אט בוט הפרהיסטורי הזה לא תואמים את הרעיון שלבני האדם של ימינו יש מודל של IA. במילים אחרות, זה מראה שוב שמבחן טיורינגנשאר מעל לכולם דרך להעריך בני אדם, ולא מדד אמיתי.

בדוק את "מוֹדִיעִין"מודלים של AI, אתגר טכני אמיתי

זה מביא אותנו למעורבות האחרת של העבודות. במאמרם, מחברי המחקר מתעקשים כיאינטליגנציה היא תופעה "מורכב ופרוטאני»ששום מבחן מאוחד, ובוודאי שלא זה של טיורינג,כעת מסוגל לכמת בקפדנותו

כדי לקבוע אם LLM יגיע יום אחד לשלב של בינה מלאכותית כללית, עם יכולות הנמקה גבוהות יותר מאלו של בני אדם, לפיכך יהיה צורך לפתח סוגים חדשים של בדיקות ... וכנראהאל תכלול את המין שלנו את המשוואהו אכן, אין סיכוי מועט שאנו עדיין מסוגלים לשפוט באופן אובייקטיבי את המצב אם אנו מתמודדים עם יום אחד עם סופר -אנושי כזה.

לכן יהיה מעניין מאוד לעקוב אחר פרויקטים של חוקרים העובדים על מדדי ה- IA. בהקשר הנוכחי, בו מומחים רבים מאמינים כי בינה מלאכותית כללית יכולה להופיע בעוד מספר שנים, הם יצטרכו להכפיל את כושר ההמצאה כדי למצוא דרכים לאמוד את המודלים השונים על ידי אי הכללת הטיות אנושיות מהמשוואה, והתהליך שיאפשר להשיג אותו ללא ספק יהיה מרתק למדי.

טקסט המחקר זמיןICIו

🟣 לא להחמיץ שום חדשות בעיתון החנון, הירשםחדשות גוגלואילךWhatsApp שלנוו ואם אתה אוהב אותנו, יש לנועלון כל בוקרו