душман Опубликовано 17 апреля, 2023 Опубликовано 17 апреля, 2023 Теперь нейросети «Яндекс браузера» могут переводить видео с китайского и автоматически накладывать русскую озвучку. Для этого понадобилось учесть множество особенностей сложного восточного языка. Технология уже работает на YouTube, а чуть позже появится поддержка популярной китайской видеоплатформы Bilibili. Об этом сообщили представители «Яндекса». Нейросети учатся на примерах, и они должны соответствовать определенным критериям. Готовых решений не было, поэтому разработчики «Яндекса» с нуля собрали собственный датасет. С помощью специального алгоритма они обработали 1,5 млн видео и выбрали 100 тыс. с качественными субтитрами на северно-китайском языке, которым владеет более 1 млрд человек. Соответствие аудио и субтитров так важно, потому что именно по ним нейросеть учится понимать речь. Превращение речи в текст — первый этап перевода, и для этого нейросетям браузера пришлось выучить тысячи иероглифов. Каждый из них читается как слог. Чтобы нейросеть научилась их понимать, весь необходимый для работы с китайским словарь разработчики закодировали в виде 10 тыс. токенов. Для сравнения, пять европейских языков, которые «Яндекс браузер» научился переводить раньше, уместились в библиотеку на 5000 токенов. Один токен равен одному слогу или регулярно использующемуся сочетанию двух слогов. Одновременно с этим нейросеть обучили делить сплошной поток иероглифов на смысловые отрезки, чтобы точнее синхронизировать перевод с исходной речью и сделать его более качественным. С самой сложной особенностью китайского, на понимание которой у людей уходят годы, нейросети браузера справились всего за месяц. Именно столько им потребовалось на изучение четырех тонов, определяющих смысл сказанного. Тон — это мелодический рисунок голоса. Один и тот же слог, произнесенный с повышением или понижением голоса, может означать совершенно разные вещи. А еще в китайском много омофонов — слов, которые звучат одинаково, но пишутся по-разному и обладают разным значением. Чтобы различать их, нейросети «Яндекс браузера» умеют учитывать контекст. IPTV сервис | Доступные цены кардшаринга | Доступные цены IPTV
Рекомендуемые сообщения
Для публикации сообщений создайте учётную запись или авторизуйтесь
Вы должны быть пользователем, чтобы оставить комментарий
Создать аккаунт
Зарегистрируйте новый аккаунт в нашем сообществе. Это очень просто!
Регистрация нового пользователяВойти
Уже есть аккаунт? Войти в систему.
Войти