Речевые технологии: понимание гарантировано
Слово редактора
Довольно часто приходится слышать мнение, что современные компьютеры стали мощнее, производительнее и даже умнее своих создателей — людей. В качестве неоспоримого доказательства приводятся, как правило, результаты последних шахматных матчей «компьютер против человека». Первый такой матч состоялся в 1956 г. в Лос-Аламосе, когда компьютер MANIAC I проиграл профессиональному шахматисту, но выиграл у молодой девушки, которая только недавно научилась играть в шахматы. А начиная с 90-х годов прошлого века программы Fritz 3, Deep Blue, Deep Fritz, Deep Junior, Hydra и другие уже на равных играют с лучшими гроссмейстерами мира.
Однако, на мой взгляд, попытка сравнить по мощности человеческий мозг с компьютером является некорректной. Поспешные выводы о победе компьютера над мозгом идут от непонимания сложности и масштабности информационных процессов, протекающих в голове человека. И я даже не говорю о каких-то сложных творческих задачах. Возьмем для примера такую «рутинную», но жизненно необходимую задачу, как распознавание речи. И будем говорить даже не о смысловом содержании, а о «простейшей» задаче нижнего уровня — распознавание отдельных звуков. Как это удается делать человеческому мозгу?
По всей видимости, к пониманию этого процесса человек пришел, попытавшись повторить путь природы, то есть попытавшись создать технические устройства, распознающие речь. И при первом же рассмотрении этой задачи становится ясно, что она очень непростая. Из школьного курса физики все знают, что речь — это акустические колебания. Как все колебательные процессы, они характеризуются двумя основными параметрами: амплитудой и частотой. Мы понимаем как шепот (колебания малой амплитуды), так и крик (колебания большой амплитуды). Следовательно, амплитуда сама по себе не несет полезной информации. Далее, мы понимаем бас (колебания на низких частотах), а также тонкий голос ребенка (колебания на высоких частотах). Следовательно, и основная частота колебаний отдельных звуков не несет полезной информации. Таким образом, мы пришли к парадоксальному выводу: ни амплитуда, ни частота не дают ключа для распознавания речи!
И вот здесь простота закачивается, и начинаются сложности. Приходится вспомнить курс высшей математики (тем, кто его проходил, естественно). Вспомнить, что периодическая функция (в данном случае — акустический сигнал) может быть разложена в ряд Фурье, определяющий частотный спектр функции. Иными словами, он может быть представлен в виде суммы гармонических функций основной частоты и высших гармоник. И вот оказалось, что соотношения амплитуд этих высших гармоник зависят от произносимого звука. Другими словами, вид спектра у звуков, передающих различные буквы, различен. И по виду этого спектра можно распознать буквы.
Таким образом, чтобы понять речь, мозг выделяет из слитной речи отдельные звуки (как это он делает, здесь мы даже не обсуждаем, это большая самостоятельная задача), «вычисляет» преобразование Фурье для каждого звука, сравнивает полученный спектр с хранящимися в памяти «эталонными» спектрами и определяет произнесенную букву. И все это в зашумленной среде и в реальном масштабе времени! Какие вычислительные мощности для этого необходимы и насколько успешно с этой «простенькой» задачей справляется современная техника, можно узнать из обзорной статьи номера, подготовленной специалистами ООО «Центр речевых технологий».
Теперь заставьте еще шахматный компьютер понимать и синтезировать человеческую речь, распознавать простейшие зрительные образы и управлять хотя бы одной механической рукой для перестановки фигур, и вы получите тугодума, весом в сотни килограммов и пожирающего киловатты энергии. А это только миллионная часть обычных способностей головного мозга!
Однако сравнивать человека с компьютером можно. И здесь интересно поставить совсем другой, принципиальный вопрос: а является ли человек компьютером? То есть организована ли деятельность его мозга на тех же принципах, что и компьютер? Создавая компьютер, повторил ли человек себя?
Сложность с ответом состоит в том, что человек и, прежде всего, его умственная деятельность не до конца изучены. Здесь часто приходится говорить о более или менее проверенных гипотезах. Так вот, в соответствии с принятыми взглядами, нервные клетки — нейроны — могут находиться в двух состояниях: покой и возбуждение. Поэтому можно предположить, что вся информация, все ощущения от органов чувств, все воспоминания обрабатываются и хранятся в мозге в виде двоичных кодов, где «1» – возбуждение, а «0» – покой! Далее, доказанным является существование у человека двух видов памяти: кратковременной (оперативной — в компьютерной терминологии), имеющей «электрическую» природу, и долговременной («накопитель на жестких дисках»), имеющей химическую природу. Предполагается, что во время сна информация из оперативной памяти сбрасывается на «жесткий диск» — в долговременную память. А если мы коснемся вопросов передачи информации с помощью генетического кода, то вообще столкнемся с классическим помехоустойчивым избыточным кодированием: 64 кодовые последовательности (кодона) для описания 20 аминокислот и одной команды «стоп».
Похоже, что мы все-таки компьютеры. И на «братьев наших меньших», стоящих на столе в офисе или лаборатории, не надо смотреть свысока: возможно, со временем они достигнут нашего уровня интеллекта. Ведь организованы они так же, как и мы. Но появится ли у них душа? Эту тонкую субстанцию пока не удалось описать ни кодовыми последовательностями, ни рядами Фурье…