Кто придумал тест тьюринга? вопросы теста тьюринга

Что такое тест Тьюринга: основная концепция

Еще в конце 40-х годов прошлого столетия очень многие ученые умы занимались проблемами первых компьютерных разработок. Именно тогда один из членов некой негосударственной группы Ratio Club, занимавшейся исследованиями в области кибернетики, задался совершенно логичным вопросом: можно ли создать машину, которая бы думала, как человек, или, по крайней мере, имитировала его поведение?

Нужно ли говорить, кто придумал тест Тьюринга? По всей видимости, нет. За первоначальную основу всей концепции, которая и сейчас актуальна, был взят следующий принцип: сможет ли человек в течение некоторого времени общения с неким невидимым собеседником на совершенно разные произвольные темы определить, кто перед ним – реальный человек или машина? Иными словами, вопрос заключается не только в том, чтобы сымитировать машиной поведение реального человека, но и выяснить, может ли она думать самостоятельно. Без сомнения, до сих пор этот вопрос остается спорным.

История создания теста Тьюринга

Английский математик Алан Мэтисон Тьюринг известен, как уникальный специалист в области информатики, вычислительной техники и криптографии. Именно он создал прообраз современного компьютера (вычислительную машину Тьюринга). У ученого было множество других достижений. В конце 40-х годов прошлого века математик начал задаваться вопросом о том, какой электронный интеллект можно считать разумным и сможет ли робот приблизиться к поведению человека настолько сильно, что собеседник не поймет, кто на самом деле находится перед ним.

Идея создания теста возникла после того, как в Англии стала популярной «Игра в имитацию». Эта модная для того времени забава предполагала участие 3 игроков — мужчины, женщины и судьи, в роли которого мог быть человек любого пола. Мужчина и женщина расходились по разным комнатам и передавали судье записки. По стилю написания и другим признакам судья должен был понять, какие записки принадлежали игроку того или иного пола. Алан Тьюринг решил, что одного из участников можно было бы заменить электронной машиной. Если в процессе электронного дистанционного общения экспериментатор не сможет определить, кто из собеседников — реальный человек, а кто — робот, можно считать, что тест пройден. И это должно стать поводом для признания разумности искусственного интеллекта.

Правила игры

Каждый подключившийся к боту участник может взять на себя роль игрока, отвечающего на вопросы, или судьи, эти вопросы задающего.
Если участник решил быть судьей, то бот случайным образом подбирает ему игрока – либо среди людей-игроков, либо подключает робота. То есть в игре отвечающий всегда один, и судья задает вопросы только ему.
Если участник решил быть игроком, то бот аналогично ищет ему в пару участника-судью.
Игра поделена на туры по 5 вопросов. По окончанию каждого тура судья принимает решение, с кем он общается, с человеком или с машиной — на этом игра заканчивается. Если он не может определиться, то может начать следующий тур или сдаться, прекратив игру.
Робот играет роль маленького мальчика Миши пяти лет. Чтобы судье не облегчать задачу, человеку-игроку рекомендуется тоже отвечать от имени Миши.

решение «робот» — 74
решение «человек»- 41

решение «робот» (на самом деле человек) — 15
решение «человек» (на самом деле робот) — 11

конкурсе в 2012 годубота-одессита Женю Густмана

Прохождение теста

В 1950 году Алан Тьюринг сформулировал систему вопросов, которые могли бы убедить людей в том, что машины умеют мыслить. Со временем тест был модернизирован и в качестве объектов тестирования стали чаще выступать не машины, а компьютерные боты. За весь период существования теста его удалось пройти лишь нескольким программам. Но такой успех некоторые специалисты поставили под сомнение. Правильные ответы можно объяснить совпадением и даже в самых лучших случаях программам удалось ответить не более, чем на 60 % вопросов. Полного совпадения достичь так и не удалось.

Одной из программ, успешно прошедших тест Тьюринга, была «Элиза». Ее создатели наделили искусственный интеллект способностью выделять из речи человека ключевые слова и составлять встречные вопросы. В половине случаев люди не смогли распознать, что общались с машиной, а не с живым собеседником. Некоторые специалисты поставили под сомнение результат тестирования по причине того, что организаторы заранее настраивали испытуемых на живое общение и участвующие в эксперименте даже не догадывались, что давать ответы и задавать вопросы может робот.

Успешным можно назвать прохождение теста программой, составленной одесситом Евгением Густманом и российским инженером Владимиром Веселовым. Она имитировала личность мальчика в возрасте 13 лет. 7 июня 2014 года состоялось ее тестирование. В нем приняло участие 5 ботов и 30 реальных людей. Только 33 жюри из 100 смогли определить, какие ответы давали роботы, а какие — реальные люди. Такой успех можно объяснить не только хорошо составленной программой, но и тем, что интеллект тринадцатилетнего подростка несколько ниже интеллекта взрослого. Возможно, некоторых жюри ввело в заблуждение данное обстоятельство.

В пользу противников признания результата говорит и то, что Женя Густман, создавший программу, писал ее на английском языке. Во время тестирования многие судьи списали странные ответы машины или уход от ответов не только на возраст предполагаемого собеседника, но и на языковой барьер. Они посчитали, что робот, которого они приняли за человека, плохо знает язык.

С момента создания теста Тьюринга приблизиться к тому, чтобы успешно его пройти, удалось также программам:

«Deep Blue»;
«Watson»;
«Parry».

Премия Лебнера

При создании программ и современных роботов специалисты не считают прохождение теста Тьюринга первостепенной задачей. Это всего лишь формальность. Успех новой разработки от результатов тестирования не зависит. Самое главное, чтобы программа оказалась полезной, выполняла определенные задачи. Но в 1991 году была учреждена премия Лебнера. В ее рамках искусственные интеллекты соревнуются между собой в успешном прохождении теста. Предусмотрены 3 категории медалей:

золотая (общение с элементами видео и аудио);
серебряная (за текстовую переписку);
бронзовая (вручается машине, которая в текущем году достигла лучшего результата).

Золотые и серебряные медали еще не были вручены никому. Бронзовые награды вручаются регулярно. В последнее время заявок на участие в состязании становится все больше, так как создаются новые мессенджеры и чат-боты. У конкурса есть немало критиков. Беглый взгляд на протоколы участников за последние десятилетия показывает, что машину можно легко обнаружить с помощью не очень изощренных вопросов. Наиболее успешные игроки также заявляют о сложности конкурса Лебнера по причине отсутствия компьютерной программы, которая бы могла вести достойный разговор в течение пяти минут. Общепризнанным является факт, что конкурсные приложения разрабатываются исключительно с целью получения малого приза, присуждаемого лучшему участнику года, и на большее они не рассчитаны.

В настоящее время тест Тьюринга получил несколько современных модификаций:

обратный тест Тьюринга (необходимо ввести защитный код для подтверждения того, что пользователь — человек, а не робот);
минимальный интеллектуальный тест (предполагает только варианты «да» и «нет» в качестве ответов);
мета-тест Тьюринга.

Тест Тьюринга в наше время.

В наше время актуальность данного теста является тем моментом, который вызывает множество споров и дискуссий. Многие ученые, работающие в сфере создания искусственного интеллекта отказались от идеи уподобления машинного ума к человеческому, а пошли по отдельному направлению. Также, технический прогресс и возможности современных компьютеров сильно изменили требования к правилам проведения данного теста.

И все же, каждый год проходят различные мероприятия, куда ученые привозят свои программы, участвуют в тестах, и соревнованиях с целью определения лучшего создателя искусственного интеллекта.

Почему так легко?

Другие считают тест Тьюринга недостаточно требовательным. Существуют анекдотичные доказательства того, что совершенно бестолковые программы (например, ELIZA) могут казаться обычному наблюдателю обладателями интеллекта в течение достаточно продолжительного времени. Кроме того, за такое короткое время, как пять минут, вполне вероятно, что почти все интервьюеры могут быть обмануты хитрыми, но совершенно неразумными приложениями

Однако важно помнить, что программа тест Тьюринга не может пройти, обманув «простых наблюдателей» в иных условиях, чем те, в которых проверка должна происходить. Приложение должно быть в состоянии выдержать допрос того, кто знает, что один из двух других участников беседы является машиной

Кроме того, программа должна выдерживать такой допрос с высокой степенью успешности после многократного числа испытаний. Тьюринг не упоминает о том, какое конкретно количество тестов потребуется. Однако можно смело предположить, что их число должно быть достаточно большим, чтобы можно было говорить о среднем значении.

Если программа способна на это, то кажется правдоподобным утверждение, что мы, по крайней мере предварительно, будем иметь основания предполагать присутствие интеллекта. Возможно, стоит подчеркнуть еще раз, что может существовать умный субъект, в том числе и умный компьютер, тест Тьюринга пройти не сумевший. Можно допустить, например, существование машин, которые отказываются лгать по моральным соображениям. Поскольку предполагается, что участник-человек должен делать все возможное, чтобы помочь интервьюеру, то вопрос «Вы – машина?» позволит быстро отличить таких патологически правдивых субъектов от людей.

Игра в имитацию

Тьюринг описывает следующий вид игры. Предположим, есть человек, машина и лицо, задающее вопросы. Интервьюер находится в комнате, отделенной от остальных участников, которые проходят тест Тьюринга. Цель теста состоит в том, чтобы задающий вопросы определил, кто является человеком, а кто машиной. Интервьюеру оба испытуемых известны под метками X и Y, но по крайней мере в начале ему неизвестно, кто скрывается за меткой Х. В конце игры он должен сказать, что Х – это человек, а Y – это машина, или наоборот. Интервьюеру разрешено задавать испытуемым вопросы теста Тьюринга следующего вида: «Ну будет ли Х любезен сказать мне, играет ли Х в шахматы?» Тот, кто является Х, должен отвечать на вопросы, адресованные Х. Цель машины состоит в том, чтобы ввести в заблуждение спрашивающего, и тот ошибочно сделал вывод о том, что она – человек. Человек же должен помочь установить истину. Об этой игре Алан Тьюринг в 1950 году сказал: «Я считаю, через 50 лет можно будет запрограммировать компьютеры с объемом памяти около 109 таким образом, что они успешно смогут играть в имитацию, и средний интервьюер с вероятностью, превышающей 70%, за пять минут не будет в состоянии угадать, кто является машиной».

Суперкомпьютеры Deep Blue и Watson

Достаточно интересными выглядели разработки корпорации IBM, которые не то чтобы мыслили, но обладали невероятной вычислительной мощностью.

Наверное, многие помнят, как в 1997 году суперкомпьютер Deep Blue выиграл 6 партий в шахматы у тогдашнего действующего чемпиона мира Гарри Каспарова. Собственно, тест Тьюринга применим к этой машине весьма условно. Все дело в том, что в нее изначально было заложено множество шаблонов партий с невероятным количеством интерпретации развития событий. Машина могла оценивать порядка 200 миллионов позиций фигур на доске в секунду!

Компьютер Watson, состоявший из 360 процессоров и 90 серверов, выиграл американскую телевикторину, обойдя по всем параметрам двух других участников, за что, собственно, и получил 1 миллион долларов премии. Опять же, вопрос спорный, поскольку в машину были заложены невероятные объемы энциклопедических данных, а машина просто анализировала вопрос на предмет наличия ключевого слова, синонимов или обобщенных совпадений, после чего давала правильный ответ.

Что под капотом

собственно бот с движком игры
диспетчер роботов
робот

Начало игры
Ждём вопроса от судьи
Ждём ответа от игрока
Ждём решения от судьи
Игра закончена

galqiwi

pymorphy2kmikeYARN

Проверяет, известен ли ему вопрос. Если известен, то выбирает один из подходящих ответов.
Иначе разбивает вопрос на токены-слова, также находит им синонимы в нормальной форме, отбирает среди известных вопросов те, в которых есть найденные слова, и уже из найденных вопросов выбирает наиболее вероятные по количеству совпадений. И выдает подходящий ответ.

Словарь Вильяма Шекспира, по подсчёту исследователей, составляет 12000 слов. Словарь негра из людоедского племени «Мумбо-Юмбо» составляет 300 слов. Эллочка Щукина легко и свободно обходилась тридцатью.

Эмулятор Eugene Goostman

Одним из самых интересных событий в этой области стала программа одессита Евгения Густмана и российского инженера Владимира Веселова, ныне проживающего в США, которая имитировала личность 13-летнего мальчика.

7 июня 2014 года программа Eugene показала свои возможности в полном объеме. Интересно, что в тестировании приняли участие 5 ботов и 30 реальных людей. Только в 33% случаев из ста жюри смогло определить, что это компьютер. Дело тут в том, что задача осложнялась тем, что у ребенка интеллект ниже, чем у взрослого человека, да и знаний поменьше.

Вопросы теста Тьюринга были самыми общими, правда, для Юджина (Euegene) были и некоторые конкретизированные вопросы о событиях в Одессе, которые не могли остаться незамеченными ни одним жителем. Но ответы все равно заставляли думать, что перед жюри ребенок. Так, например, на вопрос о местожительстве программа ответила сразу. Кода был задан вопрос, находился ли собеседник такого-то числа в городе, программа заявила, что не хочет об этом говорить. Когда собеседник попытался настаивать на разговоре в русле того, что именно произошло в этот день, Юджин открестился тем, что заявил, мол, вы и сами должны знать, чего ж его-то спрашивать? В общем, эмулятор ребенка оказался на редкость удачным.

Тем не менее это все-таки эмулятор, а не мыслящее существо. Так что восстание машин не состоится еще очень долго.

Недостатки теста

Одним из главных недостатков теста считается то, что перед программой ставится задача обмануть человека, запутать его, чтобы заставить его поверить в общение с реальным собеседником. Получается, что признать мыслящим можно того, кто умеет манипулировать, а это можно поставить под большое сомнение. В жизни все происходит несколько иначе. В теории хороший робот должен максимально точно имитировать действия человека, а не запутывать собеседника. Программы, составленные специально для прохождения теста, в нужных местах уклоняются от ответов, ссылаются на незнание. Машины программируют на то, чтобы переписка выглядела максимально естественной.

Многие ученые считают, что фактически тест Тьюринга оценивает схожесть речевого поведения человека и робота, но не способность искусственного разума мыслить, как это было заявлено создателем. Скептики уверяют, что ориентация на подобное тестирование тормозит прогресс, не дает науке двигаться вперед. В прошлом веке прохождение теста было большим достижением и даже чем-то фантастическим, но в настоящее время способность компьютера «переписываться, как человек», нельзя назвать сверхестественным.

Программы ELIZA и PARRY

Со временем программы стали усложняться, а две из них в ситуациях, когда применялся тест Тьюринга, показали ошеломляющие на то время результаты. Таковыми стали ELIZA и PARRY.

Что касается «Элизы», созданной в 1960 году: исходя из вопроса, машина должна была определить ключевое слово и на его основе составить обратный ответ. Именно это позволяло обманывать реальных людей. Если такого слова не оказывалось, машина возвращала обобщенный ответ или повторяла один из предыдущих. Однако прохождение теста «Элизой» до сих пор остается под сомнением, поскольку реальных людей, которые общались с программой, изначально подготавливали психологически таким образом, чтобы они заранее думали, что разговаривают с человеком, а не с машиной.

Программа PARRY несколько похожа на «Элизу», но была создана для имитации общения параноика. Что самое интересное, для ее тестирования были использованы настоящие пациенты клиник. После записи стенограмм бесед в режиме телетайпа их оценивали профессиональные психиатры. Лишь в 48 процентах случаев они смогли правильно оценить, где человек, а где машина.

Кроме того, практически все тогдашние программы работали с учетом определенного промежутка времени, поскольку человек в те времена соображал намного быстрее машины. Сейчас – наоборот.

Конкурс Лебнера

Мало кто сомневается, что Алан Тьюринг был бы разочарован положением дел с игрой в имитацию к концу ХХ века. Участники конкурса Лебнера (ежегодного мероприятия, в ходе которого компьютерные программы подвергаются тесту Тьюринга) далеки от стандарта, представленного основоположником информатики. Беглый взгляд на протоколы участников за последние десятилетия показывает, что машину можно легко обнаружить с помощью не очень изощренных вопросов. Более того, наиболее успешные игроки постоянно заявляют о сложности конкурса Лебнера по причине отсутствия компьютерной программы, которая бы могла вести достойный разговор в течение пяти минут. Общепризнанным является факт, что конкурсные приложения разрабатываются исключительно с целью получения малого приза, присуждаемого лучшему участнику года, и на большее они не рассчитаны.

Почему дискретная машина?

Еще одним спорным аспектом работы теста Тьюринга является то, что его обсуждение ограничено «цифровыми компьютерами»

С одной стороны, очевидно, что это важно лишь для прогноза, а не касается подробностей самого метода. Действительно, если тест достоверный, то он подойдет для любой сущности, в том числе для животных, инопланетян и аналоговых вычислительных устройств

С другой стороны, весьма спорно утверждение о том, что «думающие машины» должны быть цифровыми компьютерами. Также вызывает сомнения то, что так полагал сам Тьюринг. В частности стоит отметить, что седьмое возражение, рассматриваемое им, касается возможности существования машин непрерывных состояний, которые автор признает отличными от дискретных. Тьюринг утверждал, что даже если мы являемся автоматами непрерывных состояний, то дискретная машина сможет хорошо подражать нам в игре в имитацию. Однако кажется сомнительным, что его соображения достаточны для того, чтобы установить, что при наличии машин непрерывных состояний, прошедших тест, можно сделать дискретный конечный автомат, который также успешно справится с этим испытанием.

В целом, важным моментом представляется то, что хотя Тьюринг признавал наличие значительно более обширного класса машин, помимо дискретных конечных автоматов, он был уверен в том, что правильно спроектированный дискретный автомат может преуспеть в игре в имитацию.