Как работает «Яндекс.Переводчик» с кыргызским языком

Российская интернет-компания «Яндекс» обновила свой сервис «Переводчик» и добавила туда кыргызский язык. При этом перевод на этот язык работает пока в тестовом режиме. Редакция Kloop.kg решила протестировать работу сервиса.

«Яндекс.Переводчик» пополнился кыргызским, казахским и таджикским языками, сообщила команда сервиса в своем блоге 11 июня.

«Перед тем как с чистой совестью открыть отпускной сезон, мы решили ударно поработать, в результате чего наш сервис пополнился еще тремя языками: казахским, таджикским и киргизским. Казахский перевод с первой попытки получился довольно качественным, таджикский и киргизский пока работают в тестовом режиме», — написали представители компании.

Так как кыргызская версия перводчика все еще находится в бета-режиме, его работа пока несовершенна. Помимо этого, в нем отсутствуют функции, доступные в «Переводчике» на работающих в полную силу других языках.

Так, в сервисе пока отсутствует функция поиска синонимов для кыргызских слов, проверка правописания, и пока нельзя услышать правильного произношения слов в аудио.

Редакция Kloop.kg протестировала работу сервиса и перевела в «Яндекс. Переводчике» различные тексты с кыргызского языка на русский и наоборот.
Для перевода были выбраны тексты различных жанров и стилистик.

Фрагмент гимна Кыргызской Республики, переведенный "Яндекс.Переводчиком" с кыргызского на русский язык.
Фрагмент гимна Кыргызской Республики, переведенный “Яндекс.Переводчиком” с кыргызского на русский язык. Для того, чтобы увеличить картинку, нажмите на нее.
Стихотворение Александра Пушкина "На холмах Грузии" - машинный перевод с русского языка.
Стихотворение Пушкина “На холмах Грузии” – машинный перевод с русского языка. Для того, чтобы увеличить картинку, нажмите на нее.
Фрагмент выступления Владимира Путина от 24 сентября 1999 года - перевод с русского.
Фрагмент выступления Владимира Путина от 24 сентября 1999 года – перевод с русского. Для того, чтобы увеличить картинку, нажмите на нее.

«Неудовлетворительное» качество

Разработчик кыргызского онлайн-словаря Tili.kg Александр Туманов в интервью Kloop.kg отметил, что качество перевода от «Яндекса» «оставляет желать лучшего»:

«Это вполне логично, видно что он [«Яндекс.Переводчик»] еще сыроват, но там есть пометка, что кыргызский язык находится в стадии доработки. Конечно, качество перевода оставляет желать лучшего, но с точки зрения перевода отдельных слов, он вполне неплохо переводит», — сказал Туманов.

Туманов так же заметил, что сервис «Яндекс.Переводчик» смог опередить запуск кыргызского языка Google Translate.

«Сейчас Google тоже работает над кыргызским языком, но «Яндекс» выпустил бета-версию быстрее. Он даже простые предложения неправильно структурирует — можно поиграться, но изучать язык не очень, даже словарная база неполная и многие слова остаются без перевода. В принципе, сервис сырой, но, надеюсь, в будущем он станет намного интереснее и удобнее», — сказал Туманов.

Представитель общественного фонда «Биздин Мурас» Чоробек Сааданбек, который работает над добавлением кыргызского языка в сервис переводчик от «Гугла», говорит, что их команда уже перевела 400 тысяч фраз.

По словам Сааданбека проект для «Гугла» был запущен в ноябре 2014 года, но дата добавления кыргызского языка в сервис пока неясна — волонтеры еще не перевели достаточное количество материала.

«Больше 400 тысяч фраз переведено. Это делается с помощью нашего сообщества из молодых [волонтеров], которые хотят, чтобы кыргызский язык попал в сервис. […] Это открытый проект, есть специальная платформа, где любой желающий может зарегистрироваться и вносить свой вклад», — пояснил он.

Он добавил, что для попадания в «Гугл Транслейт» необходимо перевести миллион фраз.

«Это очень долгая кропотливая работа, это не проект двух месяцев», — рассказывает он.

Сааданбек оценил работу «Яндекс.Переводчика» с кыргызским языком как «неудовлетворительную». Он считает, что разрабатываемый для Google переводчик будет работать лучше.

«Зайдя в Google Translate Community, вы можете сами проверить качество перевода, которое сейчас предоставляется для оценки сообщества и сравнить его с тем, что предлагает “Яндекс”», — сказал он.

Перевод стихотворения Алыкула Осмонова "Музыка" с кыргызского языка на русский.
Перевод стихотворения Алыкула Осмонова “Музыка” с кыргызского языка на русский. Для того, чтобы увеличить картинку, нажмите на нее.
Перевод с кыргызского фрагмента биографии Чингиза Айтматова из "Википедии".
Перевод с кыргызского фрагмента биографии Чингиза Айтматова из “Википедии”. Для того, чтобы увеличить картинку, нажмите на нее.
Перевод "Яндекса" стихотворения Иосифа Бродского "Пилигримы".
Перевод “Яндекса” стихотворения Иосифа Бродского “Пилигримы”. Для того, чтобы увеличить картинку, нажмите на нее.

Трудности перевода

В компании «Яндекс» корреспонденту Kloop.kg объяснили, что кыргызский язык «труден для машинного перевода» из-за сложностей морфологии.

«[…] в интернете мало одинаковых текстов на нём и других языках. Поскольку текстов для обучения технологии немного, перевод для киргизского пока работает в тестовом режиме», — написали представители компании в письме.

В российском интернет-гиганте пока не могут сообщить дату запуска полной версии для кыргызского языка.

Согласно информации на сайте «Яндекс.Переводчика», система машинного перевода была внедрена компанией в начале 2011 года, сейчас в сервисе представлено 63 языка, часть из которых доступна пока в тестовом режиме.

Перевод в сервисе основан на статистике — правила языка системе неизвестны, и для того, чтобы «выучить язык» она сравнивает сотни тысяч текстов на разных языках, содержащих одинаковую информацию. К примеру, это может быть информация с сайтов различных организаций, имеющих версии на разных языках.

Для соответствия перевода современным стандартам качества системе нужно изучить сотни миллионов фраз на разных языках. Этим, в том числе, можно объяснить недостаточное качество кыргызоязычного переводчика — текстов на этом языке в Интернете пока не так много.

К примеру, в онлайн-энциклопедии «Википедия» раздел на кыргызском языке содержит около 35 тысяч статей. Для сравнения, раздел на русском языке вмещает в себя более 1,2 миллионов статей, а на английском — около 5 миллионов. Статей на госязыке соседнего Казахстана, который также попал в сервис «Яндекса», в «Википедии» больше 200 тысяч.