Mozilla создаёт систему распознавания кыргызской речи. Любой может принять в этом участие

Пока смартфоны не умеют распознавать голосовой ввод на кыргызском языке, да и с русским эта функция работает не очень хорошо. Фото: Арсений Мамашев / Kloop.kg

Сообщество Mozilla больше всего известно своим браузером Firefox, но оно делает ещё много чего — в том числе, создаёт систему распознавания кыргызской речи, в улучшении которой может поучаствовать любой желающий. Как это работает и для чего это нужно?

Важное уточнение: «Клооп» принимал участие, хоть и косвенно, в том, чтобы эта система начала работать, но делал это на безвозмездной основе, и на беспристрастности материала это не сказалось.

Житель Бишкека Акпар Мендебаиров ослеп, когда ему было восемь лет. Это не помешало ему построить карьеру юриста, преподавать в университете и самостоятельно передвигаться по городу.

Слепота не мешает ему и пользоваться смартфоном. Он включает функцию talkback в операционной системе «Андроид», которая озвучивает все его действия с телефоном.

Как и многие незрячие пользователи смартфонов, он развил в себе способность слушать эту озвучку на невероятной скорости и быстро на неё реагировать, нажимая пальцем на экран.

Некоторые действия Акпар совершает при помощи голосовых команд, но он пользуется этим не так часто, как хотелось бы — по его словам, всё из-за того, что распознавание русской речи на смартфонах не идеально.

В социальном центре «Равные возможности» Мендебаиров обучает других незрячих людей тому, как использовать смартфон. И если даже с распознаванием русской речи не всё идеально, с кыргызским языком ситуация катастрофична — смартфоны попросту не понимают этот язык.

В итоге посетители курсов, говорящие на кыргызском, не могут использовать смартфон так легко и просто, как это делает Акпар.

«Кыргызоязычное население плохо выговаривает слова на русском, и приложение их часто не слышит и не понимает», — объясняет юрист.

***

Системы распознавания речи нужны не только незрячим людям. Ими можно пользоваться для голосового набора текста или для команд в умном доме.

Еще они нужны в работе с большими данными — например, искусственному интеллекту было бы гораздо проще и быстрее проанализировать все выступления заседания парламента на поиск ключевых слов, чем человеку.

Но мало для кого эта система так важна, как для слепых людей.

Популярнейшие в мире языки давно представлены в системах распознавания речи — например, англоязычные системы уже в начале 1990-х имели словарный запас больше, чем у среднестатистического человека.

Кыргызский язык до сих пор не представлен в них никак, и проект Mozilla CommonVoice — это первая попытка создать систему распознавания речи на нём.

Так выглядит главная страница кыргызского CommonVoice.

Как это делается?

Чтобы искусственный интеллект, отвечающий за распознавание речи, начал отличать отдельные слова, его нужно натренировать.

Для этого он должен иметь доступ к как можно более обширной базе произнесенных вслух слов и фраз из этого языка. Затем он учится сопоставлять устные версии слов с их письменными аналогами.

Можно было бы собрать в одном помещении сотню кыргызоязычных волонтёров, чтобы они зачитали вслух и записали все существующие в языке слова.

Но это, во-первых, сложно организовать, а, во-вторых, это не так уж эффективно — некоторые слова могут иметь разный смысл в зависимости от контекста, поэтому придётся записывать ещё и миллионы комбинаций фраз, и у сотни людей уйдёт на это очень много времени.

Поэтому Mozilla решила использовать так называемый краудсорсинг — когда данные собираются маленькими кусочками у огромного количества добровольцев через интернет.

Нажмите на иконку микрофона на сайте и прочитайте предложенную фразу — так вы подарите проекту свой голос.

Для этого нужно было сначала собрать очень много письменных текстов на кыргызском, и люди из команды CommonVoice обратились к «Клоопу», чтобы получить разрешение на использование всех кыргызоязычных материалов издания.

Затем кыргызоязычные статьи «Клоопа» закачали на серверы CommonVoice — теперь любой желающий может озвучить случайно выбираемые системой предложения из них.

Чем больше голосов и акцентов будет записано, тем быстрее система натренируется, и тем лучше она научится распознавать отдельные кыргызские слова, смысловые фразы и предложения.

Как в этом поучаствовать?

В первую очередь, вам нужно зайти на сайт проекта.

Что дальше? Показываем:

Кто потом сможет использовать всё это?

У «Мозиллы» необычная структура и философия — это конгломерат некоммерческой организации Mozilla Foundation и коммерческой корпорации Mozilla Corporation.

Последняя отвечает за почтовый сервис Thunderbird и браузер Firefox, а все остальные проекты воплощает Mozilla Foundation, которая многие свои работы выпускает под открытой лицензией и разрешает всему человечеству использовать их бесплатно.

Пользователи, которые решили помочь собрать базу голосов для CommonVoice, будут сами проверять друг друга.

То же самое касается и системы распознавания кыргызской речи — любая компания сможет воспользоваться результатами работы Mozilla.

«Разработчики смогут скачать базу данных записей наших пользователей и самостоятельно натренировать свои системы распознавания речи», — объясняет Джош Мейер, один из авторов проекта кыргызского языка в CommonVoice.

В пример он приводит компанию Google, которая сможет с помощью этих данных запустить кыргызоязычного голосового помощника для операционной системы «Андроид». Они могут помочь и кыргызским компаниям — в своей записи, посвященной запуску CommonVoice на кыргызском, Мейер приводит в пример «Намбу такси», которая сможет использовать эти данные для голосового вызова такси на кыргызском через свои приложения.

***

Абдыразак Жумабаев — один из кыргызоязычных незрячих людей, который ходит на курсы использования смартофона в «Равные возможности».

Он установил на свой телефон голосовой синтезатор на кыргызском языке (это не то же самое, что система распознавания речи) и жалуется на его плохое качество.

«Например, мне голосовой синтезатор зачитывает сообщение: «Сиздин балансыңызда сто сом». Как так можно, ни по-русски ни по-кыргызски!» — возмущается он.

О том, чтобы телефон понимал его команды, Абдыразак пока может только мечтать.

«Конечно, хотел бы пользоваться голосовым управлением. Главное, чтобы хорошо работало», — говорит он.

Но, как пишет Джош Мейер, насколько хорошо будут работать кыргызоязычные системы, зависит теперь исключительно от активности пользователей CommonVoice:

«Чтобы построить сильную технологию, нам нужно как можно больше разных голосов и акцентов».

Над текстом работали: Айжамал Джаманкулова, Бектур Искендер

Видео: Гульжан Эшбаева, Арсений Мамашев, Эдиль Байызбеков

Хотите быстро получать самые важные и интересные тексты «Клоопа» прямо в свой телефон? Подпишитесь на наш канал в Telegram.

Читать еще:

Важно, чтобы об этом проекте Mozilla узнало как можно больше людей, умеющих читать по-кыргызски. Для этого поделитесь этим текстом: