Чукотский язык приближается к появлению в крупных цифровых сервисах. Специалисты Чукотского арктического научного центра завершили сбор и первичную обработку 100 тысяч словоформ – первого крупного массива данных, необходимого для машинного перевода. Сейчас эти данные проходят финальную проверку и редактирование, после чего станут основой для сайта «Национальный корпус чукотского языка». Следующим шагом станет передача проверенных пар «оригинал – русский перевод» для их интеграции в сервис «Яндекс.Переводчик», что позволит обеспечить автоматический перевод на чукотский язык и с него.
Проект по цифровизации языка активно ведется с прошлого года при участии носителей языка из разных сел Чукотки, включая Бориса Ыттыгыргына, Григория Ранаврольтына и ведущую новостей на «Радио Пурга» Анну Гыргольгыргыну. Их работа заключалась в тщательной проверке достоверности каждого перевода. Для оцифровки архивных текстов, которые легли в основу корпуса, при поддержке Сбера был приобретен специализированный книжный сканер. С его помощью в цифровой формат перевели более 30 книг, газет и брошюр, изданных в период с 1940-х по 1980-е годы.
Как отметил директор центра Денис Литовка, первоначальный порог для включения языка в «Яндекс.Переводчик» составлял 300 тысяч словоформ, но для языков малочисленных народов его удалось снизить до 100 тысяч. После передачи первой части данных начнется работа по формированию следующей сотни тысяч словоформ. Параллельно планируется развитие аудиосервиса для голосового перевода с русского на чукотский и обратно. Этот проект реализуется в рамках масштабной программы по сохранению языкового наследия, по которой в течение трех лет в цифровые сервисы планируется добавить еще 20 языков народов России.
Фото: chukotka-priroda.ru
Источник: КМНСОЮЗ