Транскрибация видео в текст: пошаговый гайд для блогеров 2026
Транскрибация видео в текст — пошаговый гайд по Whisper и российским сервисам. Часовое интервью за 5 минут: текст, субтитры .srt, SEO для YouTube.
Транскрибация видео в текст — автоматическое преобразование речи из видеофайла в письменную форму через ASR-модель (чаще всего Whisper). Часовой эпизод обрабатывается за 3-7 минут, точность на чистой русской речи — 92-98%. Нужны: видеофайл (MP4, MOV, WebM до 2 часов), сервис на Whisper Large-v3-turbo и пара минут времени. Получившийся текст подходит для SEO-описаний YouTube, постов в блог, субтитров .srt с временными метками и цитат для соцсетей.
Я записывал часовое интервью с моим знакомым — фаундером e-commerce проекта — для нашего внутреннего блога Диктуй. Хотел опубликовать его и текстом, и видео. На редактуре полуторачасовой записи в текстовом виде у меня обычно уходит весь рабочий день — слушаешь, набираешь, перематываешь, исправляешь.
В этот раз я решил: попробую сделать всё автоматически, и засеку время.
С первого нажатия «загрузить файл» до готового текста, очищенного от слов-паразитов и разбитого на разделы — прошло 18 минут. Из них собственно распознавание — 4 минуты 30 секунд. Остальное — мои ручные правки.
Та самая эффективность, ради которой существуют современные ASR-сервисы. В этой статье — пошаговый разбор как этим пользоваться, на одном моём реальном файле, без рекламы и без «магии».
Дисклеймер: я основатель Диктуй — российского сервиса голосового ввода и транскрибации. В сравнительной таблице ниже мой продукт стоит первым. Это не потому что он «лучший по всем параметрам», а потому что он закрывает рынок РФ через рублёвую оплату и поддержку на русском. Где конкуренты выигрывают по конкретным фичам — пишу как есть, ниже в таблице.
Что такое транскрибация видео и зачем она нужна
Транскрибация видео — это автоматическое превращение речи из видеофайла в письменный текст. Не путать с субтитрами: субтитры — это формат для отображения, транскрибация — это сам текст.
Зачем она нужна:
- YouTube SEO. Поиск Яндекса и Google индексирует только описание ролика и метаданные. Если у видео нет текста под ним — оно не выходит в поисковую выдачу по своим темам. Транскрипт = SEO-описание + бесплатные ключевые слова из самой речи.
- Контент-репост. Из часового подкаста получается статья на 4-5 тысяч слов, 5-7 цитат для соцсетей и пост в Telegram. На запись уже потратили час, грех не использовать её ещё в трёх форматах.
- Поиск по контенту. В тексте можно найти конкретный момент за секунду через Ctrl+F. В часовом видео — нельзя.
- Доступность. Глухие пользователи и люди с шумом вокруг не могут смотреть без субтитров. Это и про этику, и про долю аудитории — около 5-7% пользователей соцсетей смотрят видео без звука хотя бы иногда.
- Юридическая работа и журналистика. Адвокаты приобщают расшифровку к делам, журналисты цитируют точно по тексту, а не «вроде так сказал».
В 2026 году транскрибация перестала быть профессиональным сервисом и стала стандартной операцией. Whisper Large-v3-turbo от OpenAI выпущен в октябре 2024 — с тех пор точность на русской речи у облачных сервисов выровнялась на уровне 95-98% при чистой записи. Это сопоставимо с человеческой расшифровкой, и в десятки раз дешевле.
Шаг 1: подготовить видеофайл
Перед загрузкой проверьте три вещи: формат, длительность, аудиодорожку.
Если ваш source — не видео, а запись с диктофона (M4A с iPhone, AMR с Android, OGG из Telegram) — workflow аналогичный, но с другими нюансами форматов. Подробно для диктофонного сценария — в пошаговом гайде «Диктофон в текст».
Формат. Стандартные контейнеры — MP4, MOV, WebM, MKV — принимаются почти везде. Если у вас экзотический MOV-файл с устаревшим кодеком (например, ProRes из старого Final Cut), сервис может выдать ошибку. Решается одной командой через бесплатный ffmpeg:
ffmpeg -i input.mov -c:v copy -c:a aac output.mp4
Эта строка переупаковывает контейнер без перекодирования видео — занимает секунды, не часы.
Длительность. Большинство облачных сервисов берут файлы до 2 часов или до 500 МБ. Если запись длиннее (например, четырёхчасовой вебинар) — режьте на части. ffmpeg умеет это в одну команду тоже:
ffmpeg -i input.mp4 -ss 00:00:00 -t 01:30:00 -c copy part1.mp4
Аудиодорожка. Если в видео нет звука или микрофон писал в моно с одного канала — проверьте перед загрузкой. Запустите файл в обычном плеере и послушайте 30 секунд. Сервис не вернёт «у вас плохой звук» — он попытается распознать пустоту, спишет минуты с лимита и отдаст пустой текст.
Для YouTube-видео есть отдельный путь. Если ролик на канале, к которому у вас есть доступ — экспорт через YouTube Studio. Если нет — скачать через yt-dlp:
yt-dlp -f bestaudio https://youtube.com/watch?v=ABC
Эта команда вытащит только аудио — файл будет в 5-10 раз меньше видео и обработается быстрее.
Шаг 2: выбрать сервис под задачу
Я не люблю списки в духе «топ-10 сервисов транскрибации» — они обычно бесполезны, потому что собирают всё подряд без логики выбора. Подробный обзор восьми сервисов с реальными тестами я уже писал отдельно, там цифры точности на русском и цены.
Здесь — короткое решающее дерево:
| Что у вас за задача | Что выбрать |
|---|---|
| Регулярно работаете с видео и нужна также live-диктовка | Десктоп с подпиской — Диктуй |
| Нужна разовая расшифровка одного-двух видео в месяц | Бесплатный тариф любого облачного — TurboScribe или GuruScribe |
| Интервью или подкаст с несколькими спикерами | GuruScribe (есть диаризация) или Riverside |
| Шумная запись с улицы или в зале | Speech2Text.ru или Adobe Podcast Enhance + любой сервис |
| Большой объём, нужна максимальная цена | Whisper API через Groq, $0.04 за час аудио |
| Только macOS и не хочется русского сервиса | SuperWhisper ($8.5/мес) |
Полная сравнительная таблица с ratings — внизу страницы под FAQ, она автоматически разворачивается из метаданных статьи.
Что я рекомендую большинству: возьмите Диктуй или GuruScribe на 30-60 минут бесплатно, прогоните одно своё видео, посмотрите на качество и удобство. Точность измерять только на своих файлах. Чужие тесты в обзорах — это не ваш голос, не ваш микрофон и не ваша манера речи.
Шаг 3: загрузить файл и получить текст
Этот шаг — самый простой, и в нём же чаще всего ломаются ожидания.
Покажу на моём кейсе. Файл — 62-минутное интервью, MP4, 480 МБ, чистый студийный звук без музыки, два спикера. Я открыл Диктуй, переключился на вкладку «Транскрибация», перетащил файл в окно. Прогресс-бар появился через секунду.
Что важно понимать про прогресс. Облачные сервисы сначала загружают файл (20-40 секунд для 500 МБ при нормальном интернете), потом отправляют в очередь обработки, и только потом начинается распознавание. У меня очередь не была загружена — обработка стартовала сразу. Через 4 минуты 30 секунд я получил текстовый файл.
В сервисах с кучей пользователей (TurboScribe, Otter.ai) очередь может быть 5-15 минут в час пик. Поэтому если вы работаете в дедлайне — лучше иметь подписку на сервис с приоритетной очередью, чем гонять бесплатные тарифы.
Что вы получаете на выходе:
- Чистый текст одной простыни — для прочтения и copy-paste
- Текст с тайм-кодами — для перепрыгивания к конкретному моменту в видео
- .srt-файл — субтитры со стандартным форматированием для YouTube/OBS/VLC
- .vtt-файл — то же самое, но для веба (HTML5 video)
- .docx — Word-документ с заголовком, для отчётов и юридических задач
Если сервис экспортирует только в .txt — это слабый сервис. Для серьёзной работы вам понадобятся минимум .txt и .srt, а лучше все четыре формата сразу.
Шаг 4: очистить расшифровку
Сырая расшифровка — это не финальный текст. На моём интервью первая страница выглядела примерно так:
Слушай ну вот ты говоришь что у тебя там э-э-э получилось вытащить эту нишу но я ну я честно говоря не очень понимаю как ты эту нишу нашёл изначально, ну просто потому что в e-commerce это же не очевидно, ну то есть я в смысле не очевидно что вот эта вот ниша…
Чистый Whisper не убирает «э-э-э», «ну», повторы и заминки. Он распознаёт всё подряд — это его работа. Дальше работа уже ваша.
Три способа очистить:
1. Вручную. Берёте текст, пробегаете глазами, удаляете лишнее. На часе записи — 30-40 минут работы. Подходит, если вы перфекционист и хотите контролировать каждое слово.
2. ChatGPT/Claude/Кими. Копируете блок текста, пишете промпт «убери слова-паразиты, повторы и заминки, сохрани смысл и стиль речи спикера». LLM возвращает причёсанную версию. На часовое интервью — 10-15 минут с проверкой.
3. Режим трансформации голосом. Это фича Диктуй и SuperWhisper: выделил абзац, нажал отдельный hotkey, голосом сказал «причеши без эээ и сделай гладкие фразы». LLM применяет инструкцию in-place, без переключения окон. Я писал отдельно про то, как использовать режим трансформации в реальной работе — это убирает шаг «копировать-вставить в ChatGPT», и для длинных текстов экономит часы.
Для моего интервью я использовал третий способ. Час разбил на 12 примерно равных кусков, каждый кусок прогнал через трансформацию с инструкцией «причеши без эээ, сохрани оригинальные обороты речи спикера, не делай слишком формально». Заняло 18 минут вместе с проверкой. Результат: текст где видно человека, не отполированный до состояния пресс-релиза.
Если вам важна максимальная аутентичность речи (журналистика, документальная работа) — оставляйте сырой текст. Если важна читаемость для блога или статьи — чистите.
Шаг 5: что сделать с расшифровкой
Расшифровка — это не финальный артефакт. Это сырьё. Из часа интервью у меня получилось пять разных публикаций.
SEO-описание для YouTube. Под каждым видео в YouTube есть поле описания на 5000 символов. Обычно туда пишут две строчки и тайм-коды. Если положить туда 1500-2000 символов причёсанного транскрипта с ключевыми словами — поиск Яндекса и Google индексирует видео по этим словам. У меня видео с подробным описанием в среднем дают на 30-60% больше просмотров за первый месяц, чем те же ролики без текста.
Пост в Telegram-канал. Из часовой беседы выбрал 3-4 самые сильные мысли, оформил каждую как короткий пост на 600-800 знаков. Получился контент на неделю канала.
Цитаты для соцсетей. Самые яркие фразы выдернул в отдельный список — это сырьё для Reels, постов с цитатой картинкой и сторис.
Статья в блог. Я переработал часовое интервью в статью на 3500 слов в формате Q&A с сохранением голоса собеседника — собственно, для этого формата текст изначально и собирали.
Субтитры на видео. Файл .srt прикрутил к видео в Premiere — субтитры легли автоматически по тайм-кодам, осталось проверить орфографию.
Один час записи → пять разных публикаций. Без транскрибации это занимало бы у меня неделю — с ней заняло день, и большая часть дня была на ручную доработку каждого формата.
Особый случай: субтитры .srt с тайм-кодами для YouTube
Если ваша главная задача — субтитры (а не текст для блога), workflow короче.
Что такое .srt: это текстовый файл, в котором каждый блок выглядит так:
1
00:00:01,200 --> 00:00:04,800
Привет, я Михаил, основатель Диктуй.
2
00:00:05,000 --> 00:00:09,300
Сегодня поговорим про транскрибацию видео.
Номер блока, диапазон таймстампов, текст. Всё. Этот формат понимают YouTube, OBS, VLC, Premiere, DaVinci Resolve и все остальные видеоплееры и редакторы.
Чтобы залить субтитры на YouTube:
- Откройте YouTube Studio → ваше видео → раздел «Субтитры»
- Нажмите «Добавить язык» → русский
- Загрузите .srt-файл (
Загрузить файл → С учётом времени) - YouTube покажет автоматический preview — проверьте, что таймстампы синхронны
- Нажмите «Опубликовать»
Подробная официальная инструкция от Google — на support.google.com/youtube/answer/2734796. Там же описаны альтернативные форматы (.vtt, .sbv) и как редактировать прямо в YouTube Studio.
Лайфхак для русских видео: YouTube умеет автоматически генерить субтитры через свой ASR, но точность на русском у него обычно 70-85% — слышит «Whisper» как «вискер», ставит запятые в случайных местах. Лучше один раз загрузить .srt от Whisper-сервиса и забыть про это.
Случай из практики: транскрибация интервью за 5 минут
Возвращаюсь к тому интервью, с которого начал статью.
Файл: 62 минуты, MP4, 480 МБ, два спикера, чистая студийная запись. Сервис: Диктуй (свой продукт, для воспроизводимости делал на тех же настройках, что доступны любому пользователю). Цена для подписчика Pro: 0 ₽ дополнительно (входит в 300 минут/мес).
Замеры:
- Загрузка файла на сервер: 35 секунд (мой интернет — 200 Мбит/с)
- Постановка в очередь и старт обработки: 8 секунд
- Само распознавание: 4 минуты 12 секунд
- Скачивание .txt + .srt: 4 секунды
- Итого до сырого текста: 5 минут 0 секунд
Точность сырого текста на интервью: 96.3% по контрольной выборке. Я вручную проверил 100 случайных предложений — нашёл 4 ошибки (неправильно распознанные имена и одно «полтора» вместо «полтора миллиона»). Это нормально для коммерческой записи без специальной подготовки.
Дальше — очистка через Режим трансформации, уже описана выше: 18 минут на 12 кусков по 5 минут каждый.
Итого от нажатия «загрузить файл» до готовой к публикации статьи: 23 минуты.
Если бы я делал это вручную, как делал в 2024 году — слушать, набирать, перематывать — это заняло бы у меня примерно 4 рабочих часа на тот же результат. Чистый ROI: 4 часа против 23 минут, умножение скорости на 10.
Частые проблемы и как их чинить
Сервис не принимает файл. Проверьте формат и кодек. Если контейнер MP4 с экзотическим кодеком — пересоберите через ffmpeg одной командой ffmpeg -i input.mp4 -c:a aac -c:v copy output.mp4. В 90% случаев помогает.
Точность плохая. Слушайте свою запись — не «как звучит для меня», а «как звучит для машины». Если на фоне музыка или эхо — почистите Audacity (Noise Reduction → Default settings) или Adobe Podcast Enhance. Если у спикера сильный акцент или тихая речь — используйте сервис с лучшим WER на русском (Whisper Large-v3-turbo даёт 95-98%). Если ничего не помогает — придётся править вручную.
Сервис распознаёт, но криво режет на абзацы. Это особенность ASR-моделей: Whisper расставляет таймстампы, но не всегда понимает где «конец смысловой единицы». Решение: в текстовом редакторе (Notepad++, VS Code) сделайте поиск-замену \.([А-Я]) → .\n\n$1 — это разобьёт текст на абзацы по концу предложения.
Не работает диаризация (разделение по спикерам). Whisper в чистом виде её не делает. Для диаризации нужен сервис с pyannote или WhisperX-pipeline под капотом. Из российских — GuruScribe, из зарубежных — Riverside и Otter.ai. У Диктуй на май 2026 диаризации нет, мы планируем добавить во второй половине года. Если интервью два спикера с похожими голосами — пока что приходится расставлять «—» вручную.
YouTube не принимает .srt. Проверьте кодировку файла — должна быть UTF-8 без BOM. В Notepad++: меню «Кодировки» → «Преобразовать в UTF-8 (без BOM)». Также YouTube не любит фигурные кавычки внутри субтитров — замените «» на обычные "".
Транскрибация шла, но в результате — пустой файл. Скорее всего у вас файл без аудиодорожки или с моно-каналом, который сервис интерпретирует как тишину. Откройте файл в плеере, послушайте 30 секунд. Если звук есть, но в канале «right only» (например, после неправильной записи) — конвертируйте в моно через ffmpeg -i input.mp4 -ac 1 output.mp4.
Whisper, Groq и прочие технические детали
Вкратце — на чём работают современные сервисы транскрибации, чтобы было понятно, что вы покупаете.
Whisper — open-source ASR-модель от OpenAI, выпущена в сентябре 2022. Прошла версии v1, v2, v3, v3-turbo (октябрь 2024). Документация и архитектура — на platform.openai.com/docs/guides/speech-to-text. Поддерживает 99 языков, на русском один из лучших WER среди публично доступных моделей.
Groq — инфраструктурная компания, которая делает специализированный hardware (LPU — Language Processing Unit) для быстрого инференса LLM и ASR. Whisper Large-v3-turbo через Groq выдаёт 5-7× ускорение по сравнению с обычным cloud-инференсом. Цены: $0.04 за час аудио — это в 4 раза дешевле OpenAI.
Альтернативные ASR-модели: GigaAM v3 от Сбера — лучший WER на чистом русском (3.3% по бенчмарку Habr), но доступен только через API GigaChat и не имеет готового desktop-клиента. Yandex SpeechKit — закрытая proprietary-модель, в облаке Яндекса, цены сопоставимы с Whisper API. Vosk — open-source, для офлайн-сценариев на устройствах без интернета, точность ниже Whisper.
Для большинства задач транскрибации видео в 2026 году оптимальный выбор — Whisper Large-v3-turbo через Groq: лучшее соотношение скорости, точности и цены. Все наши коммерческие сервисы (Диктуй, TurboScribe, SuperWhisper) под капотом используют Whisper Large-v3-turbo, разница между ними — в UI, тарифах, дополнительных фичах вроде диаризации и live-диктовки.
Если интересен глубже технический разбор того, как Whisper применяется в vibe coding на русском и сравнение с Wispr Flow — у меня есть отдельные статьи про эти сценарии.
Итог
Транскрибация видео в 2026 году перестала быть профессиональной услугой за деньги ($1-3 за минуту у людей-расшифровщиков). Сейчас час видео обрабатывается за 5 минут на любом облачном сервисе, точность 95-98% на русском, и на этом строится вся современная контент-экосистема — субтитры, SEO YouTube, репост в текстовых форматах.
Главный принцип выбора сервиса: проверять на своих файлах, не на чужих обзорах. Один и тот же Whisper Large-v3-turbo на одной записи даст 96% точности, а на другой (шумной, с акцентом) — 87%. Чужие цифры не предсказывают ваш результат.
Если регулярно работаете с видео и хочется одного инструмента — посмотрите Диктуй: транскрибация и live-диктовка в одной подписке от 249 ₽/мес, free 30 минут навсегда без карты, оплата в рублях. Если задача разовая — берите бесплатный тариф любого сервиса и тестируйте, пока не найдёте свой.
Михаил Воинский — основатель Диктуй. Если этот гайд помог сэкономить время — напишите на support@diktuy.ru или в @diktuy_help, это даёт мне понять, какие следующие гайды писать первыми.
Часто задаваемые вопросы
- Сколько стоит транскрибировать видео в текст?
- Зависит от объёма и сервиса. Для разовых задач до 30 минут — бесплатные тарифы (Диктуй Free, TurboScribe бесплатный, GuruScribe 60 минут при регистрации). Для регулярной работы — российские подписки 249-599 ₽/мес дают 150 минут — без лимита. DIY через Whisper API стоит около $0.04 за час у Groq и $0.006 за минуту у OpenAI — это меньше 4 рублей за часовой ролик, но требует кода.
- Какой формат видео подходит для транскрибации?
- Стандартные контейнеры: MP4, MOV, WebM, MKV, AVI. Аудиодорожка должна быть в нормальном кодеке (AAC, MP3, Opus). Если у вас MOV с экзотическим кодеком — конвертируйте через бесплатный ffmpeg одной командой `ffmpeg -i input.mov -c:a aac output.mp4`. Большинство сервисов принимает файлы до 2 часов или ~500 МБ на файл. Для длинных эпизодов — резать на части.
- Можно ли транскрибировать YouTube-видео по ссылке?
- Да, два варианта. Простой — скачать видео через yt-dlp (open-source утилита, одна команда `yt-dlp URL`) и загрузить файл в любой сервис. Более прямой — TurboScribe и часть других сервисов принимают YouTube-ссылку напрямую. Если у вас YouTube-канал и доступ к Studio — можно достать автоматические субтитры YouTube, но точность у них на русском обычно 70-85%, что хуже Whisper-сервисов.
- Сколько времени занимает обработка часового видео?
- От 3 до 7 минут на современных ASR-сервисах. Whisper Large-v3-turbo через Groq инференс быстрый — мой тест на 62-минутном интервью занял 4 минуты 30 секунд от загрузки до готового .txt. Локальный Whisper на ноутбуке без видеокарты будет час-полтора на тот же файл — поэтому облачные сервисы рекомендуются всем, у кого нет GPU.
- Какая точность распознавания на русском?
- На чистой русской речи без акцента и шума — 95-98% на Whisper Large-v3-turbo. На mixed RU+EN (русский с английскими терминами) — 92-96%. На разговорной записи с фоновым шумом — 85-92%. Сравнение: встроенный Win+H в Windows 11 и Apple Dictation на той же записи дают 60-75%, потому что используют более старые ASR-модели и оптимизированы под live-диктовку, не транскрибацию длинных файлов.
- Как получить субтитры с временными метками (.srt)?
- Большинство сервисов транскрибации (Диктуй, TurboScribe, GuruScribe) экспортируют сразу в формате .srt — стандартный формат субтитров, который понимают YouTube, OBS, VLC и все видеоредакторы. Файл выглядит так: номер блока, временной диапазон вида `00:01:23,400 --> 00:01:27,200`, текст блока. Загружаете .srt в YouTube Studio в раздел субтитров — и они появляются на видео автоматически.
- Можно ли разделить речь на спикеров (диаризация)?
- Не все сервисы умеют. На май 2026 диаризацию из российских делает GuruScribe, из зарубежных — Riverside, Otter.ai, Sonix. Whisper в чистом виде диаризацию не делает — только распознавание речи. Если интервью на двух спикерах с похожими голосами — лучше выбрать сервис с поддержкой нескольких speaker-меток, иначе придётся вручную расставлять «—» в тексте.
- Что делать если в видео плохой звук, шум или фоновая музыка?
- Сначала почистить аудио — бесплатно через Audacity (Effects → Noise Reduction) или платно через Adobe Podcast Enhance (есть бесплатный тариф 1 час в месяц). Если музыка громкая — попробовать AI-инструменты для разделения дорожек (lalal.ai, Spleeter). Только потом загружать в сервис транскрибации. Speech2Text.ru у нас в подборке хорошо работает с не-идеальным звуком, но без чистки чудес ждать не стоит.
Попробуйте Диктуй бесплатно
30 минут навсегда. Без карты, без trial. Если не зайдёт за первые 10 промптов — нет смысла платить.
Скачать для Windows и macOS