Новейшая версия языковой модели GPT-4.5 достигла исторического результата в классическом тесте Тьюринга, сумев в 73% случаев убедить участников эксперимента в том, что они беседуют с реальным человеком. Такие данные были обнародованы исследовательской платформой «Новосвят» после масштабного онлайн-эксперимента, в котором участвовали три сотни добровольцев.
Каждый участник на протяжении восьми раундов взаимодействовал с двумя собеседниками, один из которых всегда был искусственным интеллектом. Главной задачей для человека выступало определение, кто из них является настоящим. При этом максимальный успех GPT-4.5 обеспечивала предварительная кастомизация — модель настраивалась на конкретную роль, что значительно усиливало её убедительность. Без этой персонализации показатель падал почти вдвое — до 36%.
Для сравнения, другая модель, GPT-4o, выступила скромнее — даже в лучших условиях ей удалось ввести в заблуждение лишь 21% участников. Примечательно, что легендарный чат-бот ELIZA, разработанный в 60-х годах XX века, обошёл GPT-4o, показав результат в 23%. В тестировании также участвовала модель LLama 3.1-405B, однако её показатели остались ниже заявленного рекорда GPT-4.5.
Идея теста Тьюринга была предложена британским математиком Аланом Тьюрингом в середине прошлого века как способ выяснить, способна ли машина демонстрировать уровень интеллектуального поведения, неотличимого от человеческого. Считается, что если человек в ходе общения не может распознать, беседует ли он с человеком или с машиной, — искусственный интеллект успешно прошёл проверку.
Несмотря на столь впечатляющие цифры, специалисты в области этики и технологий подчёркивают, что прохождение теста Тьюринга не может служить доказательством наличия у ИИ сознания или понимания. Модели, подобные GPT-4.5, лишь формируют текст на основе статистического анализа огромных массивов данных, не осмысливая его в человеческом понимании.
Тем не менее, сама возможность настраивать модель под конкретный образ или поведение открывает перед разработчиками и бизнесом широкие горизонты: от использования в клиентских сервисах до интеграции в образовательные или медицинские платформы. При этом не исключены и потенциальные риски, включая манипуляции, дезинформацию или утрату контроля в ситуациях, где необходим человеческий фактор.