БашкортСофт: проект по сохранению башкирского языка говорит голосом телеведущего Наиля Юнусова

БашкортСофт: проект по сохранению башкирского языка говорит голосом телеведущего Наиля Юнусова

Фонд по сохранению и развитию башкирского языка запустил новый проект Bashkortsoft. Он является первым в своем роде, переводящий цельные предложения с башкирского языка на русский, с русского на башкирский язык. Озвучил проект известный башкирский телеведущий Наиль Юнусов. Башкирско-русский и русско-башкирский переводчик представлен на веб-сервисе: https://bashkortsoft.ru/.

В рамках проекта поставлены следующие задачи: накопление параллельных обучающих корпусов данных, разработка методов искусственного расширения обучающих данных, внедрение структурно-функциональной модели морфем, а также создание программных средств обучения машинного переводчика на основе современных нейросетевых подходов — будет способствовать решению актуальных и значимых задач по сохранению, развитию и популяризации государственных языков в Республике Башкортостан, а также расширению присутствия башкирского языка в интернет-пространстве.

«Проект ориентирован и полезен для всех, кто работает с текстами на башкирском языке, с переводами. Онлайн-переводчик переводит большие тексты, есть отдельный раздел — словарь, также есть озвучка текстов. Стали разрабатывать, так как нет онлайн-переводчиков с русского на башкирский, с башкирского на русский. На данный момент онлайн-переводчик работает в тестовом режиме, исправляем выявленные ошибки. Пока качество переводчика составляет где-то 70 процентов. Чем больше параллельных текстов, тем качественнее будет переводчик», — прокомментировала руководитель фонда Гульназ Юсупова.

На основе собранных в 2020 году параллельных данных произведено обучение ансамбля из 8 нейросетей, демонстрирующего наилучшее качество распознавания. Продолжается накопление и обработка материалов, доступных одновременно на башкирском и русском языках. Осуществлена обработка новостей на двух языках, опубликованных в 2021 году. Всего обработано более 14 тысяч интернет-страниц.

«Над порталом мы работали нынешним летом около 2,5 месяцев. Было непросто. Мне поставили задачу — читать максимальное количество слов в день, чтобы тембр голоса не менялся. Первое время я начитывал всего по 200-250 слов в день, речь должна быть размеренной, в одной тональности, не как в обычной жизни. Голос поначалу уставал. В концу проекта я дошел до 1300 слов в день. Несмотря на сложности, мы это сделали. Надеюсь, что наш вклад пригодится в изучении башкирского языка, и люди будут с удовольсвтием пользоваться этим ресурсом», — рассказал «Башинформу» Наиль Юнусов. 

Озвученные диктором записи были проанализированы и обработаны экспертами. Итогом этой работы стала база данных, готовая для использования при обучении нейросетевого синтезатора башкирской речи. В общей сложности было выделено 19 892 предложения общей длительностью 40 часов.

На данный момент на сайте в режиме тестирования запущен синтез речи. Тестирование можно пройти через любой браузер, заранее обновив кеш, так как сайт может показывать старую версию сайта без иконки синтеза речи.

«Компьютерная программа, способная озвучить любой текст на башкирском языке голосом Наиля Юнусова, была создана благодаря поддержке Фонда по сохранению и развитию башкирского языка. Протестировать синтезатор могут все желающие на сайте русско-башкирского переводчика bashkortsoft.ru. Пользователям сайта доступна возможность послушать, как звучит перевод текста на башкирском языке», — прокомментировал один из разработчиков сайта Айдар Хусаинов.

Фонд по сохранению и развитию башкирского языка выразил уверенность, что реализация проекта будет способствовать активному развитию информационных технологий в Республике Башкортостан и послужит паритетному функционированию государственных языков Республики Башкортостан.

ИА «Башинформ»