בזמן שכלי בינה מלאכותית מראים יכולת לעלות על רופאים באבחון מחלות, מחקר חדש חושף שהבעיה האמיתית בדיוק הטכנולוגיות האלה אינה באלגוריתמים, אלא באופן שבו אנשים משתמשים בהן.
מחקר של אוניברסיטת אוקספורד גילה שכלי בינה מלאכותית כמו ChatGPT יכולים לאבחן מצבים רפואיים בדיוק של 94.9% כשהאלגוריתמים משתמשים בהם ישירות. אבל כשבני אדם השתמשו בהם, הדיוק ירד ל-34.5% בלבד.
את המחקר הוביל ד"ר אדם מהדי, והשתתפו בו יותר מ-1,300 אנשים שהתבקשו להתנהג כחולים במצבים רפואיים שונים. כל משתתף פעל מול שלושה מודלים שונים של בינה מלאכותית, ונתבקש לשאול שאלות ולתאר סימפטומים. למרות שהמערכות היו מסוגלות להגיע לתשובות נכונות, האינטראקציה של המשתמשים איתן הייתה בעייתית.
הסיבה: המשתמשים שאלו שאלות לא מלאות, שכחו לציין סימפטומים חשובים, או לא פירטו מתי ובאיזו עוצמה הופיעו הסימפטומים. לכן הבינה המלאכותית נתנה תשובות לא מדויקות - לא בגלל כשל שלה, אלא בגלל מידע אנושי מטעה.
טעות נפוצה היא להניח שהבינה המלאכותית "מבינה אותך" כמו חבר קרוב. אבל המציאות שונה: המודלים לא מבינים רמזים, רגשות או הקשר אלא אם מציגים אותם במפורש. הם צריכים הוראות מדויקות וישירות, לא ניחושים עמומים.
החוקרים השוו זאת לעובד מצוין בחברה עם ניהול אנושי גרוע - הביצועים שלו יפגעו למרות היכולות שלו. גם כשהבינה המלאכותית נתנה אבחון נכון, חלק מהמשתמשים התעלמו מהתוצאה או לא המשיכו לצעדים הבאים, בדיוק כמו שקורה לפעמים עם הוראות רופאים.
כלים כמו OpenEvidence משמשים רופאים לבדיקת מקורות רפואיים - וזה ההבדל: בינה מלאכותית מצליחה כשמומחה שיודע איך לעבוד איתה משתמש בה, לא כשחולה לא מאומן משתמש בה.
המחקר מדגיש שהבעיה לא ביכולות הבינה המלאכותית, אלא באופן שאנשים מתקשרים איתה. קשה למערכות להתמודד עם מידע אנושי מבולבל או לא ברור, במיוחד בתחומים רגישים כמו בריאות.
המחקר מבהיר: בינה מלאכותית אינה קסם, אלא כלי חזק שדורש שימוש נכון. בעוד שהדיוק שלה בבדיקות מרשים, נשאר פער גדול בין היכולות התיאורטיות שלה ליישום בפועל, אם לא נדע לכוון אותה ולעבוד איתה כראוי.