Gradium обошла OpenAI в переводе речи в реальном времени: задержка всего 3 секунды
Gradium 3 июня выпустила две модели для перевода речи в реальном времени, которые работают на пяти языках и обходят решения OpenAI по точности при сопоставимой задержке.

Впервые один сервис объединяет распознавание, перевод и синтез речи в два шага вместо трёх, убирая промежуточную модель и сокращая задержку до 3 секунд на полный цикл «речь на входе, речь на выходе».
До сих пор стандартная схема перевода устной речи требовала трёх отдельных моделей: распознавание речи в текст, перевод текста на другой язык, синтез текста в речь. Каждый этап добавлял задержку и требовал отдельной интеграции. Gradium, как сообщает компания в своём блоге, сократила цепочку до двух моделей и предложила готовый API с контролем голоса на выходе, включая клонирование, чего нет у конкурирующего решения OpenAI.
| Что | Когда | Кто выпустил | Цена |
|---|---|---|---|
| Модели «stt-translate» (речь в текст) и «s2s-translate» (речь в речь) | 3 июня 2025 | Gradium | Компания не раскрыла |
Две модели вместо трёх: что именно вышло?
-
«stt-translate» принимает речь на одном языке и возвращает текст на другом. Распознавание и перевод происходят за один проход, без промежуточной расшифровки. Модель построена на архитектуре Hibiki-Zero и дообучена (обучение модели на специализированных данных под узкую задачу) с помощью обучения с подкреплением (Reinforcement Learning), как указывает Gradium.
-
«s2s-translate» превращает устную речь на одном языке в устную речь на другом. Она объединяет «stt-translate» с собственной моделью синтеза речи Gradium. Вы отправляете аудио, получаете и переведённую речь, и текстовую расшифровку одновременно.
-
Пять языков, 20 направлений. Поддерживаются английский, французский, немецкий, испанский и португальский. Любой из пяти на любой другой, итого 20 языковых пар.
-
Выбор и клонирование голоса. В отличие от «gpt-realtime-translate» (решение OpenAI), Gradium позволяет выбрать голос на выходе или клонировать свой. Всё работает через один двусторонний WebSocket (постоянное соединение для обмена данными в реальном времени).
Насколько быстро и точно работает перевод речи в реальном времени?
Gradium публикует результаты на собственном наборе разговорных данных (повседневные темы: работа, путешествия, погода). Компания использует две метрики:
- BLEU (стандарт оценки машинного перевода) измеряет, насколько перевод совпадает с эталонным. Шкала от 0 до 100, чем выше, тем лучше.
- MetricX (нейросетевая метрика от Google) предсказывает, как перевод оценил бы человек. Это оценка ошибок: чем ниже, тем лучше.
По данным Gradium, их модель опережает «gemini-3.5-live-translate» (решение Google) по обеим метрикам. По сравнению с «gpt-realtime-translate» (OpenAI) Gradium лидирует по BLEU, а по MetricX результаты сопоставимы.
Средняя задержка полного цикла «s2s-translate» составляет 3,0 секунды. Для сравнения: «gpt-realtime-translate» показывает 3,6 секунды, «gemini-3.5-live-translate» чуть быстрее, 2,9 секунды. Gradium точнее, Google на долю секунды быстрее, OpenAI уступает по обоим параметрам.
Как попробовать?
- Зарегистрируйтесь на сайте Gradium и получите API-ключ (ключ доступа к сервису).
- Установите Python SDK командой и сохраните ключ в переменной окружения «GRADIUM_API_KEY».
- Используйте готовый код из документации: достаточно указать модель («s2s-translate» или «stt-translate»), язык перевода и формат аудио. Компания публикует рабочий пример на Python из нескольких строк.
Входной формат аудио: PCM, 24 кГц, 16 бит, моно. На выходе: PCM, 48 кГц, 16 бит, моно. Также поддерживаются WAV, Opus, mu-law и A-law.
Что с этим делать в России?
Русский язык в списке поддерживаемых пока отсутствует. Gradium работает только с пятью европейскими языками. Для русскоязычных задач перевода речи в реальном времени прямого аналога с таким же набором функций на рынке РФ пока нет.
-
Авторам Дзена и копирайтерам. Если вы работаете с иностранными источниками на английском, французском, немецком, испанском или португальском, «stt-translate» может заменить ручную расшифровку и перевод подкастов, интервью, докладов. Текст приходит сразу переведённым, без промежуточного этапа.
-
Маркетологам и предпринимателям. Для компаний, которые ведут переговоры или поддержку клиентов на европейских языках, «s2s-translate» убирает необходимость склеивать три разных сервиса. Один API, одно подключение. Но ценообразование Gradium пока не раскрыла, и без поддержки русского языка для внутрироссийских задач сервис не подходит.
-
Разработчикам в РФ. Решение интересно как архитектурный ориентир: две модели вместо трёх в цепочке. Для русского языка стоит следить за обновлениями Gradium и параллельно смотреть на «YandexGPT» и «GigaChat», которые развивают мультимодальные (работающие с текстом, звуком и изображением одновременно) возможности, хотя готового аналога «речь в речь» с переводом у них на момент публикации нет.
Gradium сделала ставку на архитектурную простоту: убрать одно звено из цепочки и получить выигрыш по задержке без потери точности. По заявленным цифрам это работает. Но есть три оговорки. Первая: бенчмарки проведены на собственном датасете Gradium, независимых подтверждений пока нет. Вторая: пять языков без русского, для большинства наших читателей это ограничение. Третья: цены не названы, сравнивать экономику с OpenAI или Google невозможно. Что я бы сделал сегодня: если вы работаете с европейскими языками, протестируйте «stt-translate» на реальном аудио и сравните с тем, что даёт ваш текущий сервис. Разница в 0,6 секунды на каждом фрагменте складывается в минуты на длинных записях.
Частые вопросы
Можно ли использовать Gradium для перевода с русского?
Нет. На момент запуска поддерживаются только английский, французский, немецкий, испанский и португальский. Русский язык в списке отсутствует, и компания не сообщала о сроках его добавления.
Чем «stt-translate» отличается от обычного распознавания речи?
Обычный сервис распознавания превращает речь в текст на том же языке. «stt-translate» делает два действия за один проход: распознаёт речь и сразу переводит текст на другой язык. Это убирает отдельный этап перевода и сокращает задержку.
Бесплатно ли это?
Gradium не раскрыла стоимость API. Для тестирования нужен API-ключ, который выдаётся после регистрации на сайте компании. Условия бесплатного доступа и лимиты на момент публикации не указаны.

Основатель dzen.guru. Эксперт по монетизации и продвижению на Дзен. Автор курса «Старт на Дзен 2026».
Читайте также

Обновления Figma: код, анимации и ИИ-плагины теперь живут на одном холсте
Почему это важно Figma впервые объединяет код, анимацию и генеративный ИИ на одном холсте, и это касается не только дизайнеров: продуктовые менеджеры и…

Из Google уходят сотрудники уровня Нобелевской премии: четверо ушли к конкурентам за две недели
Исследователи AI уходят из Google: четыре ключевые фигуры за две недели перешли в OpenAI и Anthropic, и это тревожный сигнал для всей экосистемы Gemini. Почему…

Figma AI генерирует анимацию и шейдеры по текстовому описанию прямо на холсте
Figma выпустила набор ИИ-инструментов для анимации, шейдеров и работы с кодом прямо на холсте, представив их на ежегодной конференции Config, и впервые…
Комментарии