Ученые приблизились к имитации естественного распознавания речи

Голосовые помощники уже разработаны каждым уважающим себя IT-гигантом. И кажется, что они даже становятся полезными, а не только залихватски шутят. Однако можно все чаще услышать, что алгоритмы, по которым работают такие системы, далеки от того, как воспринимает речь или другие смысловые идентификаторы человек.

Группа Александра Жданова представила новый подход к распознаванию речи на основе биоморфных нейроподобных сетей. Задача этой научной группы — построить нейроноподобную систему распознавания речи, в перспективе - без программной составляющей. Если эта попытка будет успешной, станет возможно имитировать естественный принцип распознавания речи. Работа опубликована в журнале Programming and Computer Software.

В середине прошлого столетия ученые стали обсуждать возможность создания искусственного мозга. Были проанализированы сети «формальных» искусственных нейронов и показано, как они могут выполнять простые логические функции. В 1956 году было введено в оборот понятие искусственного интеллекта. Постепенно сформировались два основных подхода к его изучению. Один из них — программно-прагматический подход, в рамках которого построено множество систем распознавания образов, автоматических переводчиков, игровых программ, роботов и других прикладных систем. Однако они, решая свою узкую задачу, имеют мало общего с биологическим мозгом и не обладают его свойствами. Второй подход, бионический, был попыткой ученых понять, как работает живой организм. В рамках этого подхода некогда были придуманы искусственные нейронные сети, которые, впрочем, впоследствии почти потеряли сходство со своим биологическим прообразом, перейдя в разряд программно-прагматических методов.

На пути создания искусственных интеллектуальных систем без оглядки на устройство природы трудно добиться тех успехов, которых она добилась за миллионы лет эволюции. Основным свойством природных систем управления является их адаптивность – способность обучаться, “дообучаться” и переобучаться прямо в процессе управления, благодаря которой природа находит способы управлять объектами любой сложности. Такими свойствами сегодня искусственные системы управления практически не обладают. Они требуют либо предварительной настройки по математической модели, либо предварительного обучения на больших обучающих выборках.

Например, расчет полета межконтинентальной ракеты или орбитального спутника – сложнейший процесс, однако математически он достаточно простой. Но как только появляются помехи, неопределенности, изменяющиеся на ходу характеристики – традиционные системы управления, построенные на программно-прагматическом подходе, начинают работать крайне плохо.

«У человечества нет другого серьезного пути для развития, кроме как понять принцип работы природной адаптивной системы управления и этот принцип начать воспроизводить», — считает главный научный сотрудник Института точной механики и вычислительной техники РАН, профессор МФТИ Александр Жданов.

Группа Александра Жданова на протяжении последних десятилетий занималась описанием принципа работы мозга. Ими была проведена математическая формализация его работы. Построено множество примеров адаптивных систем управления – для мобильного робота, автопилота, подвески автомобиля, спутника, – с помощью которых показано, что разработанные группой алгоритмы работают. Система обучается непосредственно в процессе управления, как живой организм.

«Отличия нашего подхода от «искусственных нейронных сетей» начинаются уже с модели нейрона. Отдельный нейрон понимается в нашем «методе автономного адаптивного управления» как самостоятельная самообучающаяся система распознавания. Этот нейрон наблюдает за сигналами, которые поступают на его входы, и проверяет всё время два критерия. Первый критерий — структурный: не повторяется ли конфигурация, удовлетворяющая заложенному в нейрон требованию. При обнаружении сигнала, который удовлетворяет этому требованию, начинает проверяться статистический критерий. Если сигнал, который удовлетворил первому критерию, наблюдается достаточно много раз, то этот прообраз считается неслучайным, нейрон становится обученным, а образ сформированным. С этого момента нейрон меняет свое функционирование и приобретает способность распознавать этот образ при каждом его появлении», — поясняет Александр Жданов.

Однако главное отличие нейроноподобной системы «автономного адаптивного управления» от нейросетей в том, она решает задачу адаптивного управления, а искусственные нейросети – только задачу распознавания (или аппроксимации). Задача адаптивного управления требует не только распознавания, но и решения задач поиска и накопления знаний, моделирования эмоций, принятия решений и некоторых других.

Принцип работы нейрона Мак-Каллока — Питтса в обычных нейросетях другой. Нейрон является пороговым сумматором, и задачу распознавания решает не один нейрон, а вся сеть. Обучение выглядит так: на вход сети подается сигнал, соответствующий объекту из обучающей выборки. Для всех нейронов подобраны определенные веса на их входы. Дальше каждый нейрон суммирует каждый сигнал, умноженный на вес для данного входа. Эта сумма сравнивается с некоторой активационной функцией, и сразу выдается какой-то выходной сигнал. Затем, зная, что нужно получить на выходе всей сети, и видя, что на самом деле эта сеть выдала, по определенному алгоритму начинают меняться веса у всех нейронов в этой сети, чтобы сеть выдала нужный результат. И так происходит, пока все объекты из обучающей выборки не будут показаны помногу раз, и все веса не будут изменены, — пока сеть не начнет выдавать то, что от нее требуется.

Александр Жданов: «Одним из важных отличий человека от животных является наличие у человека языка. У биологических нейронов и у нашей модели нейронов есть свойство распознавать образ при наличии помех, когда не все входные сигналы от прообраза поступили на вход. Допустим, вы научились распознавать свою новую кошку по ее четырем лапам, хвосту и двум ушам. Через некоторое время вы уже ее распознаете, если даже не видите хвоста, потом достаточно двух ушей, из-за холодильника торчащих, – вы уже распознаете кошку. То есть, у вас не все сигналы от прообраза поступают, однако те нейроны, которые обучены распознавать кошку, ее распознают даже при неполной информации. Причем, чем больше времени пройдет, тем вы ее будете распознавать по меньшему количеству признаков с сохранением той же вероятности».

Рис.1. Представление слова «слева». По оси X — время, по оси Y — частота звукового сигнала.

Оказывается, что это свойство можно использовать для идентификации. В работе описана следующая методика: если при наблюдении нейроном сигналов от реального объекта сопровождать его появление каким-то сигналом искусственного происхождения – звуком, картинкой, жестом – то, в конце концов, найдется нейрон, у которого эти два события начнут ассоциироваться. То есть наблюдение реального объекта и распознавания идентификатора станут для него связаны. Затем нейрон станет в состоянии распознавать этот же объект либо при наблюдении самого объекта, либо при предъявлении только искусственного идентификатора без предъявления объекта.

На примере мобильного робота авторы работы создали описанную систему. Робот видит какие-то препятствия на своем пути. Если сопровождать появление этих препятствий звуковыми идентификаторами: препятствие слева — говорить, что препятствие слева, и наоборот, — робот начинает распознавать эти препятствия вкупе со словами. И через некоторое время он начинает реагировать уже только на слова. Если он научится объезжать препятствие, то с какого-то момента можно будет беспричинно сказать, например, что препятствие слева – робот распознает образ препятствия слева и повернет вправо.

Рис.2. Пример сигналов в упрощенной модели: по оси X — время, а по оси Y — частота звукового сигнала.

«Мы поняли, описали и смоделировали момент зарождения языка. Дальше нам нужно снабдить идентификаторами образы, действия и эмоциональные оценки. И нужно это вот для чего. Есть два важнейших процесса использования языка, которые, в природе сильно отличают человека от других животных. Первый – это диалог человека посредством языка со своей или чужой базой знаний для многошагового принятия решений, моделирования будущего. Для этого нужен индивидуальный и коллективный язык. Второй процесс – передача знаний от одного индивида к другому. В процессе своего развития и адаптации система управления накопила данные, которые записаны в базе знаний в форме обученных нейронов. Обученные биологические нейроны – это нейроны с выращенными определенными синапсами. Пусть вам нужно передать эти знания от одного индивида к другому. У человека и живых организмов нет USB-разъемов, и считать базу знаний или записать ее никакой возможности нет. Ее можно только постепенно заполнить в процессе целенаправленного обучения с помощью учителя, который будет действовать через ваши штатные входы: глаза и уши. Поэтому язык, будь то русский, английский или язык жестов — единственный способ в природе передать знания», — заключает Александр Жданов.

Теги: МФТИ

Новости робототехники

Ученые приблизились к имитации естественного распознавания речи

Комментарии

Ищите команду разработчиков? Не можете найти робота для своих нужд? Пишите нам!

Новые комментарии

Другие статьи по теме

Категории