Игорь Градов

21 июня 2026 г. в 03:30 МСК6 мин

Нейросеть для обработки видео из четырёх звеньев: нарезка доклада обходится в 25 рублей

Телеграм-бот автора разбирает 40-минутный доклад с конференции на пять-шесть вертикальных клипов со слайдами и субтитрами, и весь прогон обходится в 15-25 рублей на вызовы языковой модели, потому что распознавание речи крутится на собственном сервере.

Почему это важно

Нейросеть для обработки видео здесь не один сервис, а цепочка из четырёх звеньев: распознавание речи, поиск ярких моментов через языковую модель, определение слайда по кадру и сборка итогового ролика. Каждое звено можно запустить на обычном процессорном сервере без видеокарты, и именно это держит себестоимость на уровне, при котором первую нарезку отдают бесплатно.

Автор пайплайна Акимов опубликовал подробный разбор архитектуры бота, который принимает файл или ссылку на YouTube, Google Drive или Яндекс Диск и возвращает готовые вертикальные ролики. Ниже собран практический гайд по каждому шагу: что нужно, как повторить, где споткнётесь.

Что понадобится?

Сервер с CPU и несколькими ядрами (GPU не требуется, распознавание параллелится по ядрам процессора)
Whisper medium (открытая модель распознавания речи от OpenAI) для превращения аудио в текст с таймкодами
Доступ к языковой модели (LLM, large language model, большая языковая модель) для поиска ярких фрагментов в расшифровке
Vision-модель (модель, которая «видит» картинку и описывает её) для определения текущего слайда по кадру видео, с параметром detail=high
ffmpeg (бесплатная утилита для монтажа и обработки видео из командной строки)
Telegram Bot API для приёма файлов и отдачи результата
Время на один прогон: зависит от длины доклада, основное узкое место Whisper на CPU

Пошаговая инструкция

1. Распознайте речь через Whisper

Запустите Whisper (medium) на аудиодорожке доклада. Модель выдаст слова с таймкодами. Ключевой момент: после распознавания склейте слова обратно в предложения. Если нарезать по отдельным словам, мысль в итоговом клипе будет рваться на полуслове.

На CPU распознавание медленное, поэтому автор распараллелил процесс по ядрам сервера. Для 40-минутного доклада это критично.

2. Найдите «хайлайты» через языковую модель

Отправьте склеенные предложения с таймкодами в LLM и попросите выбрать 5-6 самодостаточных фрагментов. Наивный промпт (промпт, текстовая инструкция для нейросети) формата «найди вирусные моменты» работает плохо: модель начинает фрагмент с середины фразы или со связки вроде «Но...».

Вот что помогает:

Запрашивайте диапазон по номерам предложений [from, to], а не по секундам
Пропишите в промпте жёсткие критерии отбора: история, факт, мнение или юмор
Явно запретите стартовать фрагмент со связок
После ответа модели «доснэпьте» границы к реальным границам предложений в расшифровке
Заложите повторные запросы (ретраи) на случай кривого JSON или ошибки 503, модель периодически сбоит, но второй запрос обычно проходит

3. Определите слайд для каждого момента

Для каждого таймкода фрагмента нужно понять, какой слайд презентации показывался на экране. Автор пробовал сравнение хешей изображений (image-hash, цифровой «отпечаток» картинки), но в итоге отказался: vision-модель с параметром detail=high определяет слайд точнее, потому что «читает» текст на слайде, а не просто сравнивает пиксели.

4. Соберите композицию одним проходом ffmpeg

Итоговый вертикальный ролик делится на три зоны: спикер, субтитры, слайд. Всё собирается за один проход ffmpeg. Три находки автора:

Субтитры через drawtext, а не через файл формата .ass. Контроль над переносом строк по ширине карточки, размером шрифта и таймингом получается чище
Полуинтервал для таймингов субтитров. Используйте enable через комбинацию gte + lt (больше-или-равно начала, строго меньше конца), а не функцию between. Иначе на стыке двух фрагментов оба субтитра рисуются одновременно
Динамическая раскладка. Когда спикера не видно (общий план, перебивка), карточка спикера уходит за кадр, слайд переезжает в центр через плавную функцию, а субтитры меняются через кросс-фейд, чтобы текст не налезал на слайд

5. Центрируйте спикера в кадре

В вертикальном ролике спикер должен быть по центру. Автор использует трекинг лиц (отслеживание положения лица в кадре) и ищет, у кого больше движения губ в окне примерно 1,2 секунды. Без этого порога бот путается, когда на слайдах появляются мемы или фотографии с людьми. Дополнительно помогает сегментация (разбивка) по склейкам монтажа: если камера переключилась, заново ищем активного спикера.

Что делать с этим прямо сейчас?

Авторам Дзена и спикерам: если вы выступаете на конференциях, один доклад даёт 5-6 готовых вертикалок для соцсетей. Нейросеть для обработки видео в такой связке экономит часы ручного монтажа. Закиньте ссылку на запись в бот и получите нарезку
Маркетологам: себестоимость 15-25 рублей за прогон позволяет обрабатывать десятки докладов без бюджета на видеомонтажёра. Первая нарезка бесплатна, это порог входа для теста
Предпринимателям в РФ: весь пайплайн работает на CPU-сервере, Whisper запускается локально, vision-модель и LLM вызываются через API. Если используете отечественные серверы, STT (speech-to-text, распознавание речи) обходится бесплатно. Зависимость от зарубежных GPU-облаков минимальна

Что ввели и что получили

Автор загрузил 40-минутную запись доклада с конференции (спикер на сцене плюс презентация на экране). Бот в Telegram принял файл, прогнал через Whisper, нашёл шесть ярких фрагментов через языковую модель, для каждого определил нужный слайд через vision-модель и собрал шесть вертикальных клипов: спикер по центру, слайд сбоку, субтитры внизу. Себестоимость вызовов LLM составила около 20 рублей, распознавание речи на своём сервере не стоило ничего.

Частые ошибки

Нарезка по словам вместо предложений. Если после Whisper не склеить слова в предложения, фрагменты начинаются и заканчиваются на полуслове. Модель подхватит эту рваную структуру и выберет бессмысленные границы.

Наивный промпт для поиска хайлайтов. «Найди интересные моменты» без критериев и запретов выдаёт мусор. Пропишите конкретные типы контента и запрет стартовать со связок.

Функция between в ffmpeg. На стыке двух субтитров оба отображаются одновременно. Используйте полуинтервал gte + lt.

Image-hash вместо vision-модели для слайдов. Хеши не читают текст на слайде и путают похожие по цвету слайды. Vision-модель с detail=high работает точнее.

Трекинг лиц без порога движения губ. Бот «цепляется» за лица на слайдах (мемы, фотографии спикеров). Окно 1,2 секунды на движение губ отсекает ложные срабатывания.

Совет редакции dzen.guru

Самое ценное здесь не сам бот, а архитектура: пять звеньев, каждое заменяемо. Whisper можно поменять на другую STT-модель, LLM переключить на любую доступную в России (тот же YandexGPT для поиска хайлайтов), vision-модель заменить на GigaChat с поддержкой изображений. Пайплайн модульный, и это его сила.

Честная оговорка: автор сам отмечает, что выбор хайлайтов остаётся самым сложным местом. Качество нарезки зависит от промпта и от того, насколько структурирована речь спикера. Монотонный доклад без историй и фактов даст слабые клипы, и никакая нейросеть для обработки видео это не вытянет. Проверяйте результат глазами перед публикацией.

Бот доступен в Telegram: reels_akimov_bot. Автор просит обратную связь именно по качеству выбора хайлайтов, и если у вас есть запись доклада, это хороший способ проверить пайплайн на реальном материале и заодно получить контент для своих площадок.

Попробуйте бот на своём докладе

Закиньте ссылку на запись выступления и получите готовые вертикальные клипы с субтитрами и слайдами. Первая нарезка бесплатна.

Открыть бот в Telegram

Поделиться:Telegram VK

Игорь Градов

Основатель dzen.guru. Эксперт по монетизации и продвижению на Дзен. Автор курса «Старт на Дзен 2026».

Автосводка новостей дня из 4 источников: как Python-скрипт заменил ручные отчёты

Компания или автор запустили не коммерческий продукт, а личный скрипт-автоматизацию. Источник — авторский пост-разбор без названия компании-разработчика, без…

21 июня в 04:45 МСК6 мин

AI-агенты пишут 15% кода Block: как устроен Builderbot и его открытая основа Goose

Block сделала одну полезную вещь: рассказала не просто «мы используем ИИ-агентов» (ИИ-агент, программа, которая сама выполняет задачи по цепочке, а не ждёт…

21 июня в 04:30 МСК5 мин

Google DeepMind описала 4 пути от AGI к ASI: искусственный интеллект ждут барьеры на каждом

Исследователи Google DeepMind 10 июня 2026 года опубликовали отчёт, в котором разобрали четыре конкретных пути перехода от AGI (искусственного общего…

21 июня в 04:15 МСК5 мин