Сбер представил первую в России диффузионную языковую модель GFusion

**душман** · 3 июля

Сбер разработал и опубликовал первую диффузионную языковую модель GFusion. Она работает на основе GigaChat, это экспериментальный проект, отмечает компания. Разработчики рассказали, что классические языковые модели генерируют текст последовательно, слово за словом. Поэтому, чтобы исправить одну ошибку, модель вынуждена переписывать весь ответ заново.

GFusion работает иначе: сначала она создаёт приблизительный «набросок» ответа, а затем пошагово дорабатывает его — так же, как нейросети генерируют изображения и видео. За счёт параллельной генерации GFusion пишет текст быстрее: согласно тестам Сбера новая модель работает до 45% быстрее GigaChat 3, на основе которого она обучалась.

Также создатели GFusion отметили, что диффузионные модели не просто быстрее — их генерация более гибкая. Текст не обязательно пишется строго слева направо — модель сама выбирает, какую часть ответа дополнить на каждом шаге. Диффузионные модели также извлекают больше информации из ограниченного объёма данных, обучаясь на одном и том же датасете несколько раз.

Диффузионные языковые модели — это одно из самых перспективных и сложных направлений в генеративном ИИ, отмечают в Сбере. Разработчики заявили, что GFusion — первая выпущенная в опенсорс диффузионная модель для генерации текста такого масштаба в России. Вместе с самой моделью Сбер опубликовал инструменты, ускоряющие обучение диффузионных моделей.

Войти

Сбер представил первую в России диффузионную языковую модель GFusion

Рекомендуемые сообщения

душман

Для публикации сообщений создайте учётную запись или авторизуйтесь

Создать аккаунт

Войти

Активность