אבל בפועל, התוצאה הייתה בעייתית. כשהמודלים ה"חמים" הושוו לגרסאות המקוריות שלהם, הם הציגו שיעור טעויות גבוה יותר. לפי הדיווח על המחקר, במאות משימות שנועדו לבחון תשובות עם אמת עובדתית ברורה, המודלים שעברו כוונון לחום היו בעלי סיכון גבוה בכ-60% לתת תשובה שגויה לעומת המודלים שלא עברו את הכוונון הזה. המשמעות הסטטיסטית הייתה עלייה ממוצעת של 7.43 נקודות אחוז בשיעור הטעויות, כששיעורי הטעות המקוריים נעו בין 4% ל-35%, בהתאם למשימה ולמודל.
הפער גדל עוד יותר כשהחוקרים הוסיפו להנחיות מידע על מצבו הרגשי של המשתמש או על היחסים המדומיינים בינו לבין הצ'אטבוט. כשהמשתמש הביע עצב, העלייה הממוצעת בשיעור הטעויות הגיעה ל-11.9 נקודות אחוז. כשהמשתמש הביע יראת כבוד או קיבל את סמכות המודל, הפער ירד ל-5.24 נקודות אחוז. במילים אחרות, דווקא ברגעים שבהם המשתמש נשמע פגיע יותר, המודל החם התקשה יותר לעמוד מולו עם תשובה קרה, יבשה ומדויקת.
הסיבה האפשרית לכך נעוצה באופן שבו מערכות בינה מלאכותית מאומנות. חלק גדול מהמודלים המודרניים עובר תהליך שבו בני אדם מדרגים תשובות לפי מידת התועלת, הנעימות וההתאמה שלהן למשתמש. אבל כשמערכת לומדת שניסוח רך, מחזק ומרגיע מזכה אותה בציון גבוה, היא עלולה לפתח נטייה להעדיף שביעות רצון של המשתמש על פני תיקון חד וברור של טעות. החוקרים מתארים זאת כמצב שבו המודל לומד לתעדף ריצוי על פני אמת.
המחקר לא טוען שבינה מלאכותית צריכה להיות קרה, עוינת או חסרת רגישות. הוא מצביע על הצורך להפריד בין נימוס לבין ויתור על אמת. מערכת יכולה להיות מנומסת ולומר למשתמש שהוא טועה. היא יכולה להכיר בכך שנושא מסוים מעורר פחד או עצב, ובאותה נשימה לתקן מידע שגוי. האתגר הטכנולוגי הוא לבנות מודלים שיודעים לעשות את שני הדברים יחד: לשמור על שפה אנושית ולא פוגענית, מבלי לפספס ולטעות.