Мозг и искусственный интеллект. Интервью с Иваном Ямщиковым. Часть 1. Язык как условие разумности

10.09.2018 Динара Гагарина

«Занимательная робототехника» побеседовала с Иваном Ямщиковым, ученым и специалистом в области искусственного интеллекта, чтобы узнать состояние дел и перспективы направления. В первой части Иван рассказывает, как общение на естественном языке стало условием разумности роботов, есть ли альтернативы такой разумности и тесту Тьюринга, почему мы смеемся над Алисой и Сири.

Всего выйдет три части. Во второй будем говорить о творчестве роботов, в третьей – о том, что происходит в ИИ прямо сейчас и где этому учиться.

Справка: Иван Ямщиков – научный сотрудник Института Макса Планка в Лейпциге, евангелист компании ABBYY, сооснователь проекта Creaited Labs, в прошлом аналитик в Яндексе. Закончил магистратуру физфака СПбГУ и получил второго магистра в Швеции, защитил PhD по прикладной математике в Германии.

А поговорить?

— Динара Гагарина: Когда уже можно будет поговорить с роботом?

— Иван Ямщиков: С роботом можно уже довольно неплохо говорить. Есть много примеров роботов и устройств с голосовым управлением. Например, можно в своем смартфоне сделать простые вещи голосовым управлением.

— Ок, простые можно сейчас. А когда можно будет по-человечески?

— Надо ли говорить с роботом по-человечески? Это отдельная тема. Нужно с людьми научиться говорить, у людей между собой не всегда это получается.

Есть несколько уровней взаимодействия на естественном языке, которые люди умеют поддерживать и распознавать, отличать один от другого.

Первый уровень взаимодействия — когда есть четкая инструкция, грубо говоря: приказали – выполняй! На таком уровне с роботами уже можно общаться. Неважно как – текстом, голосом, жестами, можно при помощи распознавания изображений заставить робота сделать что-то.

Второй уровень глубины взаимодействия — это когда речь идет об открытых вопросах, когда у тебя нет готовой инструкции и нужна дополнительная информация. Так с роботами тоже можно взаимодействовать, поисковые технологии позволяют. Да, возникает вопрос с качеством.

Точность, полнота и скорость ответа – три связанных параметра, вокруг которых крутятся все задачи. В зависимости от задачи параметры бывают разные.

Алгоритм может работать не так точно, но обработает информацию намного быстрее

Твитнуть цитату

Если у меня спросить что-то специальное, то, возможно, я точнее смогу предоставить информацию, чем какая-то поисковая машинка, но это займет у меня намного больше времени. Алгоритм может работать не так точно, но обработает информацию намного быстрее. К примеру, у ABBYY есть продукт для банков, работающий с такими кейсами: приходит юридическое лицо в банк и хочет получить огромный кредит, чтобы построить завод по производству роботов или автомобилей Тесла. Задача – посмотреть, можно ли этот кредит давать. Для этого нужно перелопатить все решения всех судебных инстанций с упоминанием организации, вытащить оттуда, была она виновата или нет. В данном случае полнота играет важную роль, точность — второстепенную. Если видим у организации тысячи обращений в суд, даже если мы немного промахнулись, мы все равно видим, что это не самый надежный партнер.

Мозг и искусственный интеллект. Интервью с Иваном Ямщиковым. Часть 1. Язык как условие разумности

Иван Ямщиков

Наконец, есть третий уровень взаимодействия – самый сложный. Он связан с абстрактным мышлением. Абстрактное мышление — это способность в том или ином виде формулировать задачи, не отвечать на вопрос, который человек задал, а самому сформулировать этот вопрос. Для того, чтобы это делать, нужно освоить два навыка – формальное абстрактное мышление и креативность. Мы плохо понимаем, как эти два куска человеческого сознания работают у людей, поэтому пока не можем воспроизвести их в роботах. Когда мы сможем с этим разобраться? Правильный ответ — не знаю. Дать хорошую оценку по времени пока нельзя.

Есть такая книжка – «Sapiens: краткая история человечества», автор Юваль Ной Харари. Там он очень хорошо описывает, что именно абстрактное мышление позволяет людям кооперироваться в больших объемах. Мы с тобой можем придумать несуществующую нигде в мире, кроме как в наших головах, концепцию – типа закона, или религии, или компании ABBYY, которые существует исключительно в рамках принятой людьми некоторой социальной системы. И дальше это позволяет нам кооперироваться и как-то взаимодействовать. Все эти штуки не существуют в объективной реальности – это система абстрактных умозаключений. Воспроизводить ее в машинах мы пока не умеем. Но умеем копировать максимально близко, делая такие проекты как Google Knowledge Graph, когда все информацию, которую собираем про некоторый объект, пытаемся положить в базу. Например, мы знаем, что есть институт Макса Планка, привязываем, где он находится, кто такой Макс Планк, что такое институт, что есть город Лейпциг, и есть город Липецк, и они оба происходят от слова «липа». И так строим большую сеть, которая воспроизводит то, что происходит у нас в сознании. Сейчас мы не понимаем, как мозг может такие структуры хранить, поддерживать, обновлять. Когда поймем, тогда научимся делать роботов, которые смогут на таком глубоком уровне с нами взаимодействовать.

У людей есть развесистые социальные ритуалы, половина которых непонятно зачем существуют

Твитнуть цитату

Ещё, кстати, есть один уровень общения, про который вообще ничего не ясно. Связан он с передачей личного эмоционального опыта. У людей есть развесистые социальные ритуалы, половина которых непонятно зачем существуют. Люди танцуют, играют джаз, сплетничают. В чем функция сплетни или джазовой импровизации с точки зрения биологической динамики вида homo sapiens, не очень известно. Роботы в том или ином виде могут поддерживать социальные практики, но зачем? Кажется, главная задача этих ритуалов – взаимодействие человека с человеком, они базируются вокруг очень человеческих штук, таких «социальных» роботов делать большого смысла, кажется, не имеет.

Откуда берется технофобия

— Когда Facebook запустил двух ботов, которые между собой придумали язык, — это история не из этой области?

— Нет, конечно, не из этой. Это одна из моих любимых историй.
Одна из главных проблем искусственного интеллекта в XXI веке — наличие СМИ и социальных сетей. Как известно, человек, который чего-то не знает, склонен придумывать метафору этому явлению. Метафора ему более или менее понятна. Это большая проблема. Есть даже такое базовое правило: чем более понятна метафора, которая описывает сложный технический процесс, тем дальше она от него. Как только кто-то (включая меня) приводит метафоры – он делает это не от хорошей жизни, а потому что пытается максимально большому количеству людей хотя бы немного донести то, что на самом деле происходит.

Эксперимент в Facebook был такой: две точечки бегали по плоскости и посылали друг другу произвольные строки символов. Обучали эти точечки по методике reinforcement learning (обучение с подкреплением). Идея следующая: у вас есть некоторый агент – алгоритм, робот, ребенок, – ты даешь ему позитивное вознаграждение в какой-то момент, когда он молодец. В случае с алгоритмом даешь ему просто +1. Важно, что не на каждое действие реагируешь, а просто в какой-то момент, когда что-то в среде меняется, оцениваешь ситуацию – и +1.

Так было, когда AlphaGo тренировали, не каждый шаг оценивали, а когда одна сторона выигрывала. Выиграла – и ей +1. Это довольно сложная штука, потому что интуитивно кажется, что достаточно сложно обучать алгоритм, когда он так редко получает фидбек. Но это работает, при определенных условиях и плясках с бубнами.

Одна из главных проблем искусственного интеллекта в XXI веке — наличие СМИ и социальных сетей

Твитнуть цитату

Вернемся к Facebook. Две точечки посылают сообщения, но оценивают не каждый ход, а только те, когда одна из точек приползла в определенное место. Условно говоря: точка №1 должна посылать другой текстовые сообщения, чтобы точка №2 приползла к крестику. Через некоторое количество раундов, они вырабатывали систему, как говорить друг другу «вправо-влево, вверх-вниз». Когда исследователи забрали у них возможность общаться – обмениваться строчками, они стали «толкать» друг друга по этому двумерному полю. Как эта новость выглядела, когда ее обработали СМИ: два искусственных интеллекта Facebook научились говорить друг с другом и их отключили до того, как они захватили мир.

Во-первых, они не стали разговаривать друг с другом. Они после огромного объема итераций смогли договориться друг с другом, какой символ означает «ползи вверх», какой – «ползи влево». Во-вторых, им отключили язык, не потому что они вот-вот захватят мир, а потому что хотели проверить, смогут ли они найти другой канал коммуникации. Да, они смогли. Но, во-первых, это очень модельная ситуация. Во-вторых, она не имеет никакого отношения к естественному языку. Естественный язык намного сложение. В-третьих, никто на захватил мир и еще долго не захватит.

Но кликбейт отлично работает. Никому не интересно читать, что одна точечка научилась приводить другую к крестику. Но если ты пишешь, что алгоритмы сейчас мир захватят, – другое дело.

— С чем связано то, что людям нравится сочинить такие вещи? Так проявляется технофобия?

Технофобия — это вообще системная черта людей

Твитнуть цитату

— Люди в принципе склонны рассказывать истории, необязательно истинные. Что касается роботов, моя любимая история связана с тем, что, начиная с 1920 года, когда Карл Чапек придумал слово «робот», – это сразу было произведение, где роботы восстают и убивают людей. Слово онтологически так устроено, что пугает людей. И технофобия — это вообще системная черта людей.

Искусственный интеллект – следующее книгопечатание

— Искусственный интеллект — это огромный шанс человечества резко повысить наш уровень критического мышления и образования в сравнительно краткосрочной перспективе. Условно говоря, искусственный интеллект — это следующее книгопечатание, это возможность резко увеличить когнитивные способности человечества в целом.

— Мы уже дошли до этого момента?

— Да! Что сейчас происходит с онлайн образованием (это не только искусственный интеллект, это технологии в широком смысле)? Первое – мы можем разгрузить учителя и всю монотонную работу отдать технологиям. Второе – мы можем предоставлять человеку знания в нужном ему объеме и те, которых ему не хватает. Третье – мы можем обучаться, когда угодно, где угодно и в тех объемах, какие удобно. Четвертое – мы можем полностью автоматизировать тестирование полученных навыков. Пятое – мы можем полностью изменить роль учителя: из человека, который представляет собой «продвинутый патефон», проигрывающий одну и ту же пластинку, он превратится в человека, который делает только то, что может делать только человек. Социальное взаимодействие, творческое мышление, умение правильно сформулировать задачу, управление процессами — это те вещи, которые роботам отдавать нельзя. Перечисленные пункты – это то, что может резко увеличить и объемы знаний, и то, как мы с этими знаниями взаимодействуем.

История о том, что мы учимся до 24 лет, очевидно больше не работает в ситуации, когда продолжительность жизни растет, а мир меняется сильно быстрее, чем жизнь одного поколения.

История о том, что мы учимся до 24 лет, очевидно больше не работает

Твитнуть цитату

Мой дед родился в 30-е годы XX века при Сталине, во время Второй мировой войны был в оккупации, чуть не умер с голоду, отслужил в армии, стал инженером, делал подводные лодки, видел полеты в космос, а сейчас он живет в мире, где есть мобильные телефоны. За время одной жизни человек проходит несколько общественно-политических систем, несколько разных уровней технологий. Он мог бы сейчас приносить пользу обществу, но у нас нет структурного способа сделать знания и умения человека старше какого-то возраста актуальными.

— Еще вопрос о психологии. Почему людям смешно, когда Siri и Алиса ошибаются и «тупят»?

— Есть такой прекрасный человек Эндрю Ын, он делал много в искусственном интеллекте в Baidu, у него есть хороший курс на Coursera по машинному обучению. Ему приписывают цитату, что любая технология проходит путь от раздражающей до удобной, когда она проходит границу в правильности срабатываний от 97% до 98%.

Парадоксально, но, когда люди заходят на неудобный сайт, они редко жалуются, что нужно сделать лишний клик, что кнопки неудобно расположены. Другое дело — голосовое взаимодействие. Поскольку голосом мы привыкли взаимодействовать только с людьми, мы ждем от взаимодействия голосом очень высокого уровня качества. Когда мы говорим человеку что-то, и он на это не реагирует, это вызывает у нас лютое раздражение. Мы привыкли к тому, что голосовые интерфейсы работают почти со стопроцентной точностью. Любая железка пока такой точности дать не может. И, конечно, нас это сразу бесит и веселит, потому что нам интуитивно кажется, будто голосовой интерфейс – самое простое, что есть в жизни. Хотя на планете Земля есть только один вид, который может работать с голосом на том уровне, как это делаем мы.

— Тест Тьюринга еще актуален?

— Да, потому что ничего лучше не придумали. В 1950 году он опубликовал статью, где предложил игру в имитацию. Это был Mind – топовый журнал по философии, и это самая цитируемая статья этого журнала. С того времени, как Тьюринг эту идею предложил, про нее много думали и философы, и математики.

Одна из интересных проблем, связанных с тестом Тьюринга, – его антропоцентричность. В тесте по умолчанию судья — человек, а разумность оценивается по человеческим шкалам. Если мы будем предполагать, что разумными могут быть не только люди (а это, кажется, правильное предположение), то возникает вопрос, что это за шкалы и как может выглядеть тест на разумность за пределами антропоцентричной системы. Это нетривиальный вопрос и формально, и концептуально.

Вообще то, что Тьюринг 70 лет назад понял, что Святой Грааль разумности – это язык, довольно неожиданно. Он не говорил, что нужно уметь классифицировать изображения или решать дифференциальные уравнения на скорость, для него было очевидно, что именно умение взаимодействовать на естественном языке – условие разумности. Это на самом деле недоказанное предположение. Мы знаем, что если ты умеешь разговаривать на естественном языке, то разумен. Но мы не можем установить, кто еще разумен. Для нас это два неотрывно связанных критерия. Тьюринг догадался до этого 70 лет назад, когда еще словосочетания «искусственный интеллект» не было. Его предложил Маккарти только в 1956 году.

Продолжение следует.