Учените взаимодействали с човек и една от AI системите в продължение на пет минути, след което се опитали да отгатнат кой е техният събеседник. Тестовете са проведени във формат на светски разговори, като специално внимание е отделено на емоционалната страна на общуването.
Участниците в експеримента са имали възможност да задават въпроси относно мнения, чувства и преживявания на своите събеседници – човек и AI модели.
Според резултатите от експеримента, GPT-4.5 по-често е приеман за човек, отколкото истинският човек – резултатът му е 73%. При Llama 3.1–405B този показател достига 56%, докато GPT-4o регистрира само 21%.
“Ако участник в експеримента не може да направи разлика между човек и машина, това означава, че машината е преминала успешно теста на Тюринг. Така GPT-4.5 и Llama 3.1–405B демонстрират високо ниво на имитация на човешка комуникация”, казват авторите на изследването.
Тестът на Тюринг, разработен от Алън Тюринг през 1950 г., тества способността на машината да имитира човешкия интелект. Ако хората не могат да различат нейните отговори от човешките, се счита, че системата е преминала теста.