Транскрибация аудио в текст: сравнение 8 сервисов на русском в 2026
Тестировали 8 сервисов транскрибации на одном часе разговора с mixed RU+EN речью. Точность Whisper Large-v3 vs Otter vs Apple Dictation, цены, поддержка форматов, рублёвая оплата.
Из 8 проверенных сервисов транскрибации точность 95%+ на mixed RU+EN держат три: Wispr Flow ($15/мес, США), SuperWhisper ($8.5/мес, США) и Диктуй (449 ₽/мес, Россия). Все на Whisper Large-v3-turbo. Otter.ai теряет 30% на русском. SpeakFlow сопоставим по точности с Диктуй, но 690 ₽ и без рабочей macOS. Apple Dictation и Win+H не для серьёзной работы.
Что такое транскрибация и почему точность так различается
Транскрибация — это автоматический перевод речи из аудио или видеофайла в текст. С 2022 года индустрия фактически свелась к одной модели: Whisper Large-v3 от OpenAI, обученной на 680,000 часов многоязычной речи (включая ~30,000 часов русского). Все сервисы, которые серьёзно относятся к качеству на русском, используют именно эту модель. Различия — в инфраструктуре запуска, постобработке и UX.
Это объясняет, почему Otter.ai, Apple Dictation и Win+H проигрывают Whisper-based решениям: у них собственные модели, обученные в основном на английских данных. На русском они работают, но точность ниже на 10–25 пунктов. Для одиночной фразы это не критично; для часа интервью — это разница между «текст сразу в дело» и «надо переписывать».
С 2024 года ландшафт сложился так:
- Whisper-based, западные: Wispr Flow, SuperWhisper, Aqua Voice, Voicy, Sonix
- Whisper-based, российские: Диктуй, SpeakFlow
- Свой движок: Otter.ai, Trint
- Встроенные системные: Apple Dictation, Win+H, диктовка Word/Microsoft 365
Дальше — как мы тестировали и что вышло.
Методология тестирования
Один и тот же набор записей мы прогнали через все 8 сервисов в апреле 2026. Аудио-файлы:
- Чистая русская речь — 30 минут подкаста, диктор, студийный микрофон.
- Mixed RU+EN — 20 минут IT-планёрки разработчиков (термины: «pull request», «деплой», «webhook», «middleware» вперемешку с русским).
- Запись с шумом — 15 минут совещания на удалёнке, дешёвый микрофон ноутбука.
- Длинный файл — 90 минут интервью с двумя говорящими.
- Telegram-голосовое в OGG — 5 минут эмоциональной речи без подготовки.
Метрики: Word Error Rate (WER) — процент неправильно распознанных слов. WER считал вручную для случайных 200-словных отрывков из каждого файла. Низкий WER = высокая точность. Дополнительно: сколько занимает обработка часа аудио, поддержка форматов, цена на 5 часов транскрибации в месяц.
Дисклеймер. Я основатель Диктуй, поэтому в тесте есть очевидный конфликт интересов. Чтобы это компенсировать: цифры по Диктуй проверяемы — поставьте бесплатные 30 минут и прогоните свой файл. Если результаты у вас отличаются — напишите на support@diktuy.ru, разберёмся. Конкурентов тестировал на стандартных триальных периодах, без специальных оптимизаций — то же, что увидит обычный пользователь.
Сводная таблица: 8 сервисов в одном кадре
| Сервис | Точность RU (чистая речь) | Точность mixed RU+EN | Цена | Платформы | Оплата в РФ |
|---|---|---|---|---|---|
| Диктуй | 95–98% | 92–96% | 0₽ (30 мин) → 449₽/мес Pro | Win, Mac | МИР, СБП ✅ |
| SpeakFlow | 95–97% | 90–94% | 690 ₽/мес | Win (Mac сломан) | Российские карты ✅ |
| Wispr Flow | 95–97% | 92–95% | $15/мес после 2000 слов | Win, Mac | Только валюта ❌ |
| SuperWhisper | 95–98% | 92–96% | $8.5/мес Pro | Mac, Win | Только валюта ❌ |
| Sonix | 92–95% | 88–92% | $10/час с файла | Web only | Только валюта ❌ |
| Otter.ai | 70–80% | 60–70% | $16.99/мес Pro | Web, iOS, Android | Только валюта ❌ |
| Voicy | 92–94% | 88–92% | $8.49/мес или $220 lifetime | Win, Chrome | Только валюта ❌ |
| Aqua Voice | 90–93% | 85–90% | $10/мес | Mac, Win | Только валюта ❌ |
Краткие выводы из таблицы:
- Топ-3 по точности на русском: Диктуй, SpeakFlow, Wispr Flow / SuperWhisper. Разница между ними — в пределах статистической погрешности (1–3 пункта WER), решает уже не точность, а цена и платформа.
- Otter.ai сильно отстаёт на русском — это известная проблема их собственного движка.
- Apple Dictation и Win+H не включены в основную таблицу, поскольку у них принципиально другой use-case (не транскрибация файлов, а диктовка в реальном времени). Они кратко рассмотрены в финальном разделе.
Подробно по каждому сервису
1. Диктуй (Россия) — 449–599 ₽/мес
Десктоп-приложение для Windows и macOS, использует Whisper Large-v3-turbo через Groq. Файлы загружаются drag-and-drop, обработка часа аудио занимает 1–3 минуты благодаря инфраструктуре Groq. Поддерживает MP3, WAV, M4A, OGG, FLAC, MP4, WebM. Файлы до 2 часов / 500 МБ, длинные автоматически чанкуются.
Сильные стороны: оплата картами МИР и СБП без переходников, free-тариф 30 минут навсегда без карты, работающий macOS-билд (в отличие от SpeakFlow на апрель 2026), словарь пользователя для специальной лексики (термины, имена, аббревиатуры).
Слабые стороны: нет speaker diarization (разделения говорящих) — для интервью с двумя голосами текст идёт сплошным потоком. Нет встроенного редактора с привязкой к аудио (как у Sonix или Trint) — экспорт в TXT/DOCX/SRT, дальше редактируете в любом текстовом редакторе.
Кому подходит: регулярная транскрибация 5+ часов в месяц, работа в РФ, нужна оплата в рублях, важна macOS-версия. Подробнее — на лендинге /transcription.
2. SpeakFlow (Россия) — 690 ₽/мес
Прямой конкурент Диктуй на российском рынке. Whisper-based, активная контентная стратегия (несколько SEO-лендингов под Word, расшифровку аудио, видео). Десктоп-приложение для Windows; macOS-билд сломан в версии 1.3.60 (на 29 апреля 2026 — сайт SpeakFlow отдаёт «приложение повреждено» при запуске на Mac).
Сильные стороны: ассистент встреч (запись системного аудио + саммари) — фича, которую у Диктуй пока нет. Командный тариф 490 ₽ за пользователя — выгоден для команд от 3 человек.
Слабые стороны: macOS не работает; цена выше Диктуй на 13% при сопоставимой модели; privacy-страница урезана до 6 абзацев (для сравнения, у Диктуй 10 разделов с детализацией по 152-ФЗ); код приложения не подписан — Windows показывает SmartScreen-предупреждение.
Кому подходит: Windows-only пользователи, которым нужен встроенный ассистент встреч и команда от 3 человек.
3. Wispr Flow (США) — $15/мес
Cloud-сервис, стартап с большим финансированием (Series A $25M в ноябре 2025). Используется тысячами разработчиков на Западе. Free-тариф — 2000 слов в неделю (≈30 минут диктовки), дальше Pro $15/мес безлимит. Работает на Windows и macOS как системный voice-typing — нажали хоткей, продиктовали, текст вставился в активное окно.
Сильные стороны: один из самых отполированных UX в индустрии; быстрая обработка; стабильная работа на длительных диктовках; есть Rewrite-режим (LLM-постобработка надиктованного текста — по case study Baseten под капотом Llama 3.1).
Слабые стороны: оплата в долларах требует прокси-карту (Wise, Profee, зарубежная Visa); $15/мес для российского пользователя — это ~1350 ₽, в 3 раза дороже Диктуй Pro; русский интерфейс отсутствует (всё на английском, что для части аудитории — стоп-фактор).
Кому подходит: русский разработчик с зарубежной картой, для которого важен максимально полированный UX и не критична цена.
Развёрнутый разбор Wispr Flow для русскоязычной аудитории — про оплату, качество русского распознавания и 4 альтернативы — в отдельной статье «Wispr Flow в России в мае 2026».
4. SuperWhisper (США) — $8.5/мес Pro
Mac-первый voice-input (есть и Win-версия, но менее зрелая). Используется Andrej Karpathy как основной voice-input — что в 2025–2026 стало сильным маркетинговым сигналом. Поддерживает локальную модель (Whisper на устройстве, без интернета) для приватных задач или cloud Whisper для скорости.
Сильные стороны: локальная модель работает без интернета (приватность); free-тариф позволяет реально пользоваться без оплаты; цена $8.5/мес — самая низкая в категории Whisper-based.
Слабые стороны: оплата только в долларах, прокси-карта обязательна; Win-версия отстаёт от Mac по UX и стабильности; интерфейс на английском.
Кому подходит: русский пользователь Mac с зарубежной картой, для которого важна приватность (локальная модель) и низкая цена.
5. Sonix (США) — $10 за час с файла
Web-сервис, специализированный под транскрибацию длинных интервью и видео. Не для real-time диктовки. Платите за час обработанного аудио, безлимита нет. На страничке загрузки выбираете язык (русский поддерживается), формат экспорта (TXT, DOCX, SRT, VTT), нужно ли разделение говорящих.
Сильные стороны: speaker diarization работает корректно (две головы — две колонки в редакторе); встроенный текстовый редактор с привязкой к аудио (кликаете слово — играет аудио из этого места); экспорт в SRT/VTT качественный для субтитров.
Слабые стороны: $10/час — дорого для регулярной работы (5 часов = $50/мес = ~4500 ₽, в 7 раз дороже Диктуй Unlimited); only web — нет десктоп-приложения; обработка часа аудио занимает 10–20 минут (медленнее Whisper-on-Groq).
Кому подходит: разовые длинные интервью с двумя говорящими; журналисты с эпизодической нагрузкой; продакшен субтитров для YouTube-канала с парой видео в месяц.
6. Otter.ai (США) — $16.99/мес Pro
Один из самых известных международных сервисов транскрибации. Использует собственный движок, не Whisper. На английском — топ-уровень. На русском — заметно хуже: WER 20–30% против 5% у Whisper. Это не баг — это архитектурное решение Otter оптимизировать модель под английский корпус.
Сильные стороны: real-time транскрибация Zoom/Google Meet с высокой точностью на английском; саммари встреч через AI; iOS и Android приложения; интеграция с Slack, Notion, Salesforce.
Слабые стороны: на русском просто плохо. Для журналиста, делающего интервью на русском, или для российского менеджера, расшифровывающего совещание — Otter не вариант. $16.99/мес = ~1530 ₽, и это — за качество, которое в РФ хуже встроенной диктовки Word.
Кому подходит: бизнес-пользователь, работающий 80%+ времени на английском; международная команда с Zoom-встречами на английском.
7. Voicy (США) — $8.49/мес или $220 lifetime
Бюджетный voice-typing на Windows и Chrome. Использует Whisper, но не топовую версию (lite-вариант). Lifetime-тариф $220 — единственный в индустрии (большинство сервисов — только подписка).
Сильные стороны: lifetime-тариф — нет регулярного платежа, выгоден при использовании 2+ года; Chrome-расширение работает в Google Docs, Slack web, любых веб-формах.
Слабые стороны: только Windows + Chrome, нет macOS-десктопа; точность на 2–3 пункта ниже топовых Whisper-сервисов из-за легкой модели; русский поддерживается, но интерфейс англоязычный.
Кому подходит: Windows-пользователь, работающий в основном в браузере, ищущий разовый платёж вместо подписки.
8. Aqua Voice (США) — $10/мес
Стартап YC-batch, известен моделью Avalon, оптимизированной под программирование (умеет распознавать имена переменных, ключевые слова синтаксиса, форматы регулярок). Mac + Win. Поддерживает 49 языков, включая русский.
Сильные стороны: для программистов на английском — лучше всех в категории распознаёт code-related речь; gamification UI (стрики, статистика «сэкономленных минут»); хорошая русская локализация интерфейса.
Слабые стороны: $10/мес = ~900 ₽ — не самый дешёвый; для русской речи использует Whisper-fallback, и тут Aqua Voice не превосходит Wispr Flow и SuperWhisper, при этом стоит дороже SuperWhisper.
Кому подходит: русскоговорящий разработчик, который основной код пишет с английскими комментариями и хочет максимальную точность distinct по English code-speak. Для смешанной русско-английской работы — есть варианты выгоднее.
Какой сервис выбрать под конкретную задачу
Для регулярной работы в РФ (5+ часов транскрибации в месяц):
- Сценарий «копирайтер / журналист / студент»: Диктуй Pro 449 ₽/мес — оптимальный баланс цены, качества и macOS-поддержки.
- Сценарий «менеджер / руководитель»: Диктуй Unlimited 599 ₽/мес — нет лимита, плюс командный тариф для отдела.
Для разового длинного интервью (1–3 часа в год):
- Sonix ($10/час) — заплатили один раз, получили редактор с разделением говорящих и SRT-экспорт. Подписка не нужна.
Для работы в основном на английском:
- Otter.ai ($16.99/мес) — если 80%+ времени английский, его движок выигрывает в точности и интеграциях.
Для приватных/чувствительных записей:
- SuperWhisper локальная модель ($8.5/мес) — Whisper работает на самом устройстве, аудио никуда не отправляется. Единственный вариант в списке с этой опцией.
Для команды из 3+ человек:
- SpeakFlow командный 490 ₽/чел/мес или Диктуй Unlimited 599 ₽ × N — посчитайте, что выгоднее под вашу нагрузку.
Если ваш бюджет — 0:
- Apple Dictation на macOS или Win+H на Windows — встроенные, бесплатные. Точность 60–80% на русском, для коротких заметок и сообщений в мессенджеры — приемлемо. Для серьёзной работы — нет. Подробный разбор включения встроенной диктовки и трёх альтернатив именно для Word — в гайде «Как включить голосовой ввод в ворде в 2026».
Что насчёт Yandex SpeechKit и GigaChat
Часто спрашивают про российские облачные API: Яндекс SpeechKit Cloud и GigaChat от Сбера. Оба умеют распознавать речь, оба заточены под русский. Но это API для разработчиков, а не готовое приложение.
Чтобы расшифровать MP3 через SpeechKit, нужно:
- Зарегистрироваться в Yandex Cloud, получить API-ключ.
- Написать код на Python (или curl-команду): отправить файл через REST.
- Дождаться async-ответа (для длинных файлов), скачать JSON, разобрать его.
- Собрать текст из json-сегментов.
Для разработчика, делающего интеграцию в свой продукт — это нормальный путь. Для рядового пользователя, которому надо расшифровать одно интервью — overkill. Все 8 сервисов из этой статьи решают задачу drag-and-drop'ом, без кода.
Кроме того, точность SpeechKit на русском — хорошая, но не сопоставима с Whisper Large-v3 в нашем тестировании на mixed RU+EN. SpeechKit оптимизирован под чистую русскую речь (call-центры, IVR), на смешанной речи теряет качество быстрее.
Что дальше
Наша рекомендация: возьмите 30 минут бесплатно у Диктуй, прогоните своё реальное аудио (одно интервью, одну планёрку, один подкаст-эпизод). Посмотрите глазами — устраивает ли точность под ваш конкретный workflow. Если да — Pro 449 ₽/мес или Unlimited 599 ₽/мес. Если не устраивает — попробуйте Wispr Flow free-tier (2000 слов в неделю), убедитесь что разница в качестве оправдывает разницу в цене и сложности оплаты.
Главный совет: не доверяйте чужим бенчмаркам, в том числе нашим. Распознавание речи сильно зависит от вашего конкретного микрофона, акцента, доменной лексики. Тест на 30 минутах своего реального аудио закроет вопрос быстрее, чем час чтения сравнений.
Михаил Воинский — основатель Диктуй. Замечания, поправки, цифры из вашего собственного теста — пишите на support@diktuy.ru или в @diktuy_help.
Часто задаваемые вопросы
- Что такое транскрибация и зачем она нужна?
- Транскрибация — автоматическое преобразование речи в текст. Час записи интервью или совещания, который человек расшифровывал бы 4–6 часов вручную, нейросеть Whisper Large-v3 делает за 1–3 минуты. Используется журналистами для интервью, подкастерами для субтитров, студентами для лекций, юристами для допросов, и vibe-coder'ами для расшифровки голосовых заметок и Telegram-войсов.
- Какая точность транскрибации на русском в 2026?
- На чистой записи (диктор, тихая комната, микрофон близко) Whisper Large-v3-turbo даёт 95–98% точности. На записях с шумом, акцентом или фоновой музыкой — 88–93%. На mixed RU+EN речи (типичной для IT) — 92–96%. Конкуренты на собственных моделях (Otter, частично Trint) показывают на русском 70–85%. Apple Dictation и встроенный Win+H — 60–80%. Разница в 10–25 пунктов — это разница между готовым текстом и текстом, который надо переписывать.
- Можно ли транскрибировать видео в текст?
- Да, любым из сервисов на основе Whisper. Видео-форматы (MP4, WebM, MOV) обрабатываются автоматически: сервис извлекает аудиодорожку и распознаёт её. Если нужны субтитры с временными метками — выбирайте сервис с экспортом в SRT или VTT. Sonix, Otter и Диктуй умеют это; Wispr Flow и SuperWhisper изначально заточены под voice-typing, экспорт SRT там не основной use-case. Подробный пошаговый гайд по транскрибации видео с примером часового интервью — в [отдельной статье про транскрибацию видео в текст](/blog/transkribatsiya-video-v-tekst-poshagovo-2026).
- Какой сервис подходит для транскрибации интервью на 1–2 часа?
- Sonix ($10/час) и Trint ($80/мес базовый) — заточены именно под длинные интервью с разделением говорящих (speaker diarization), временными метками и редактором текста с привязкой к аудио. Для разовых интервью разово выгоднее Sonix (платите за час). Для регулярной работы (5+ интервью в месяц) — Диктуй Pro 449 ₽ или Unlimited 599 ₽ выйдет в 4–10 раз дешевле, при сопоставимом качестве распознавания.
- Можно ли расшифровать запись с диктофона телефона?
- Да. Запись iPhone сохраняется в M4A, Android-диктофоны обычно в M4A или AMR. Все Whisper-сервисы (Диктуй, Wispr Flow, SuperWhisper, SpeakFlow, Sonix) принимают M4A. AMR может потребовать конвертации — используйте бесплатный CloudConvert или ffmpeg. Telegram-голосовые сохраняются в OGG — Диктуй обрабатывает их напрямую без конвертации. Развёрнутый пошаговый гайд под именно диктофонный сценарий с кейсами под журналистов, студентов и юристов — в [статье «Диктофон в текст: пошагово как расшифровать запись»](/blog/diktofon-v-tekst-rasshifrovat-2026).
- Сколько стоит транскрибация в рублях для российского пользователя?
- Российские сервисы (Диктуй 449 ₽/мес Pro, SpeakFlow 690 ₽/мес) принимают карты МИР и СБП без прокси. Зарубежные требуют иностранную карту или переходник вроде Wise/Profee. По эффективной стоимости часа транскрибации для регулярного использования (5+ часов в месяц): Диктуй Unlimited 599 ₽ — самый выгодный вариант. SpeakFlow на 13% дороже при сопоставимой модели распознавания. Sonix $10/час разово — выгоден для 1–3 часов в год, иначе подписка дешевле.
- Как защищены персональные данные при транскрибации?
- Все 8 сервисов передают аудио на свои сервера для обработки — это технически необходимо для работы Whisper. Различия: где хранятся данные и сколько. Диктуй и SpeakFlow удаляют файл сразу после возврата текста, текст хранится на серверах в РФ (152-ФЗ). Wispr Flow, SuperWhisper, Sonix, Otter — серверы в США, политика хранения у каждого своя, читать privacy. Для медицинских записей, договоров и юридически чувствительных материалов мы не рекомендуем использовать облачную транскрибацию — это касается любого сервиса, не только Whisper-based.
- Whisper Large-v3 одинаково работает у всех?
- Технически — да, базовая модель та же. Различия — в инфраструктуре и обвязке. Wispr Flow, SuperWhisper и Диктуй используют Groq (специализированные LPU-чипы), которые ускоряют inference в 5–10 раз. Sonix запускает Whisper на собственных GPU — медленнее, но дешевле для длинных файлов. SpeakFlow — на стандартных GPU. Качество распознавания одинаковое; разница в скорости (1 минута на час vs 10 минут) и в постобработке (умеет ли сервис ставить пунктуацию, разделять говорящих, чистить «эээ»).
Попробуйте Диктуй бесплатно
30 минут навсегда. Без карты, без trial. Если не зайдёт за первые 10 промптов — нет смысла платить.
Скачать для Windows и macOS