«Голосовой отпечаток», или игра в pexeso

Здравствуйте, уважаемые друзья чешской науки. Только что мы услышали запись голоса, измененного с помощью нехитрого приема под названием «буратино». И темой нашей сегодняшней рубрики будет работа со звуковыми записями. Вот уже несколько лет группа чешских ученых из Политехнического университета в Брно стабильно добивается результатов в конкурсе, который в области голосовой идентификации проводит Американский национальный институт стандартов.

Ян Черноцки
Слово руководителю научного объединения Speech@FIT доценту Яну Черноцкому:

«Я бы подчеркнул, что этот успех стал результатом длительной целенаправленной работы, нацеленной на высокий результат в области распознания речи. У нас достойные итоги испытаний в экспериментальных условиях. Больше всего мы довольны долгосрочным характером положительной оценки нашей работы, поскольку она выставляется нам уже достаточно долгое время».

Подобные разработки, которые, очевидно, могли бы применяться в различных сферах человеческой деятельности, но, прежде всего, в области безопасности, осуществляются во многих странах. Особенность чешского метода заключается в следующем:

«Для нашей модели, в первую очередь, характерно то, что мы в состоянии справиться с искажениями, возникающими в результате передачи речи по разным каналам. Например, если голос записан на микрофон, а во втором случае человек говорит по телефону. Если одна запись является зашумленной, а вторая – нет. Мы называем это вариабельностью голосовой записи. Именно в этом заключается наша сильная сторона».

Сегодня чешские ученые принадлежат к мировой элите в области голосовой и речевой идентификации. Значительное внимание они уделяют и международному сотрудничеству:

«В Чехии в данной области большой традиции не было. Поэтому, в основном, мы работаем с зарубежными учреждениями. Например, научными лабораториями в США и в Южной Африке, где интерес представляет не только футбол. Наши разработки продолжаются 10 лет. На протяжении последних 5 годов мы активно занимались именно голосовой и речевой идентификацией, а также возможностями перевода звуковой речи в текст. Исследования проходят по обоим направлениям и взаимно дополняют друг друга».

Например, в области речевой идентификации компьютер довольно легко на основании краткой записи может определить, на каком языке говорит тот или иной человек. Подумаешь, экая невидаль, - возразит полиглот. Но… научить компьютер иностранному языку нельзя, а вот суметь сделать так, чтобы он в мгновение ока определил, сделана запись на немецком, венгерском, китайском и других языках, наука умеет и продолжает в этом совершенствоваться. О том, что чешским ученым принадлежит в этом процессе одна из ведущих ролей, свидетельствует список участников научной конференции, которая недавно проходила в Брно:

«В наш вуз приехали лучшие эксперты со всего мира, работающие в данной сфере. На прошлой неделе у нас проходил мастер-класс, а на этой – конференция «Одиссей 2010». Мы очень этим гордимся».

Областей использования так называемого «голосового отпечатка», с которым, в первую очередь, работают чешские ученые, довольно много. Впрочем, на данный момент речь идет о биометрическом методе, возможности которого все еще ограничены:

«Попытки применить данную систему в банках в качестве одного из ограничителей доступа существовали раньше, встречаются они и теперь. Однако по сравнению с другими биометрическими методами, сетчаткой глаза, отпечатками пальцев или тестами ДНК, они не так надежны. Сегодня «голосовой отпечаток» используется, скорее, оперативными группами, нежели в системах безопасности банков. К тому же, в финансовых учреждениях необходимо, чтобы запись, сделанная для его получения была предельно короткой, чтобы не раздражать клиентов».

Сегодня система автоматической идентификации голоса усовершенствована настолько, что правильно определить две записи, на которых запечатлен голос одного и того же человека, среди сотен тысяч записей можно с точностью на 98%, при этом каждая запись в данном тесте длится всего 87 секунд. В случае 10 секундной записи количество правильных ответов составляет 80%.

По мнению ученых, вряд ли когда-либо «голосовой отпечаток» станет абсолютным методом. Причиной являются как новые типы телефонных соединений, переговоры по интернету, голос меняется с возрастом и в результате разных болезней. Положительная тенденция проявляется в том, что по результатам международных сравнений, число ошибок при такой идентификации снижается наполовину. А вот какова программа-максимум группы доцента Черноцкого:

«Оптимальный результат – узнать говорящего по записи, которая длится всего несколько секунд, в случае, если он был записан на микрофон (даже на расстоянии нескольких метров от микрофона), в ситуации, когда его голос смешан с голосами других, при открытом окне, за которым еще кто-то работал с отбойным молотком. Вот это было бы супер».