Транскрибация
Транскрибация аудио в текст на русском
MP3, WAV, M4A, OGG, FLAC, MP4, WebM — перетащил файл, через 1–3 минуты получил текст. Whisper Large-v3-turbo, точность 95%+ на русском, даже на mixed RU+EN речи.
Без карты · Без trial · Windows 10/11 + macOS 11+
Что такое транскрибация и зачем она нужна
Транскрибация — это автоматическое преобразование речи из аудио или видеофайла в текст. Час записи, который человек расшифровывал бы вручную 4–6 часов, нейросеть Whisper Large-v3 переводит в текст за 1–3 минуты.
Используется журналистами для интервью, подкастерами для субтитров, студентами для лекций, юристами для допросов, и vibe-coder'ами для расшифровки голосовых заметок и Telegram-войсов. Главная задача 2026 года — корректное распознавание русского с английскими терминами («push в main», «деплой webhook», «обработка 404»), на чём большинство встроенных решений (Apple Dictation, Win+H) сильно проседает.
Как работает в Диктуй: 3 шага
Перетащите файл
Drag-and-drop любого MP3, WAV, M4A, OGG, FLAC или MP4/WebM в окно Диктуй. Размер до ~500 МБ или 2 часа.
Whisper Large-v3 расшифровывает
Файл уходит на сервер Groq, там разбивается на чанки и обрабатывается параллельно. 1 час аудио → 1–3 минуты ожидания.
Готовый текст
Получаете результат в окне приложения. Копируете, редактируете, экспортируете в TXT, DOCX, SRT (для видео) или VTT.
Точность на русском в 2026: конкретные цифры
Под капотом — Whisper Large-v3-turbo (последняя стабильная версия модели OpenAI на апрель 2026), запущенная через Groq для ускоренного inference. Это та же базовая модель, что у Wispr Flow, SuperWhisper и SpeakFlow. Разница — в инфраструктуре запуска (Groq vs обычные GPU) и UI.
Цифры — на основе внутреннего тестирования на 200+ файлах различных категорий (январь–апрель 2026). Конкретный результат зависит от качества записи, акцента диктора и наличия специальной лексики.
Поддерживаемые форматы
7 аудио/видео форматов плюс автоматическое извлечение аудиодорожки из видео.
- MP3 — самый распространённый формат
- WAV — несжатое студийное качество
- M4A — iPhone, диктофоны Apple
- OGG — Telegram голосовые
- FLAC — lossless
- MP4 — видео, извлечём аудио
- WebM — браузерные записи, Loom
Кому пригодится: 6 реальных сценариев
Интервью и подкасты
Записал час разговора — за пару минут получил полный текстовый файл с разделением по абзацам. Можно опубликовать как статью или сделать саммари.
Лекции и вебинары
Студенты и онлайн-учителя расшифровывают двухчасовые лекции с техническими терминами. Точность сохраняется на длинных фрагментах.
Совещания и встречи
Запись Zoom/Google Meet → транскрипт со всеми обсуждениями. Не нужно ничего конспектировать вручную.
Заметки голосом
Идеи в дороге, мысли вслух за рулём — Telegram-голосовые в OGG, скинули в Диктуй, получили текст. Никакого ручного перепечатывания.
Видеоконтент
MP4 с YouTube или Loom-записи — извлекаем аудио и транскрибируем. Готовые субтитры, описание видео, текстовая версия для статьи.
Журналистика и юриспруденция
Запись допроса, комментарии эксперта, телефонный разговор. Whisper Large-v3 держит специальную лексику (термины, имена, аббревиатуры) лучше встроенных решений.
Сравнение с другими сервисами транскрибации
Сильные стороны Диктуй для русского рынка: оплата в рублях (карты МИР, СБП), нативный десктоп для Windows и macOS, честный free-тариф без trial.
| Сервис | Цена | Точность RU | Платформы | Оплата |
|---|---|---|---|---|
| Диктуй | 0₽ (30 мин) → 449₽/мес Pro | 95%+ (Whisper Large-v3-turbo) | Win + Mac | МИР, СБП, карты |
| SpeakFlow | 690₽/мес | Whisper (версия не указана) | Win (macOS сломан в 1.3.60) | Российские карты |
| Sonix | $10/час с файла | Whisper / собственный движок | Только web | Карты в долларах |
| Otter.ai | $16.99/мес Pro | Собственный движок (плох на русском) | Web + iOS/Android | Карты в долларах |
| Voicy | $8.49/мес или $220 lifetime | Whisper | Win + Chrome | Карты в долларах |
Цены и характеристики на 29 апреля 2026 на основе публичных сайтов сервисов. У Otter.ai точность на русском низкая — собственный движок не сопоставим с Whisper Large-v3.
Сколько стоит транскрибация в Диктуй
Все тарифы оплачиваются картами МИР, через СБП и зарубежными картами. Скидки до 20% при оплате за 12 месяцев. Подробнее о тарифах →
Часто задаваемые вопросы
- Какая точность транскрибации на русском?
- Диктуй использует Whisper Large-v3-turbo через Groq — это та же базовая модель, что у Wispr Flow и SuperWhisper. На чистой русской речи (диктор, подкаст, интервью без шумов) точность 95-98%. На записях с фоновым шумом, акцентом или быстрой речью — 88-93%. На mixed RU+EN речи (типичной для IT и vibe coding) — 92-96%, что значительно выше встроенных решений Windows/macOS, которые на mixed теряют 30-50% качества.
- Какие форматы аудио и видео поддерживаются?
- Аудио: MP3, WAV, M4A, OGG, FLAC. Видео: MP4, WebM (Диктуй автоматически извлечёт аудиодорожку). Telegram-голосовые в OGG работают «из коробки» — просто перетащите файл из мессенджера в окно Диктуй. Лимит размера файла — 2 часа аудио или ~500 МБ. Длинные файлы автоматически разбиваются на чанки и транскрибируются параллельно.
- Можно ли транскрибировать бесплатно?
- Да. Free-тариф Диктуй даёт 30 минут транскрибации в месяц **навсегда** — без карты, без trial-периода, без скрытых лимитов. Этого достаточно, чтобы попробовать на реальном файле и понять подходит ли. Если нужно больше — Starter 249₽/мес (150 мин), Pro 449₽/мес (300 мин), Unlimited 599₽/мес (без лимита). Все тарифы оплачиваются картами МИР, СБП и зарубежными — без прокси-карт.
- Где хранятся файлы и обрабатываются персональные данные?
- Файлы загружаются на сервера Groq (США) только на время транскрибации — после получения результата они удаляются автоматически. Текстовый результат хранится в вашем личном кабинете на серверах в РФ (Beget VPS) согласно требованиям 152-ФЗ о локализации персональных данных граждан РФ. Подробнее — в [политике конфиденциальности](/privacy). Для медицинских записей и юридических документов с особо чувствительными данными мы не рекомендуем использовать облачную транскрибацию — это касается всех сервисов на Whisper, не только Диктуй.
- Чем транскрибация в Диктуй отличается от Я.SpeechKit и GigaChat?
- Я.SpeechKit и GigaChat — это API для разработчиков, без готового UI. Чтобы расшифровать MP3, нужно написать код на Python, отправить файл через REST, получить JSON, разобрать его. Диктуй — десктоп-приложение с drag-and-drop: перетащил файл → получил готовый текст в окне с возможностью копирования и экспорта в TXT/DOCX/SRT. Целевая аудитория Я.SpeechKit — разработчики и контактные центры; Диктуй — обычные пользователи, журналисты, копирайтеры, vibe-coder'ы, юристы.
- Можно ли экспортировать в субтитры (SRT) для видео?
- Да. После транскрибации видеофайла Диктуй сохраняет временные метки сегментов и предлагает экспорт в SRT (стандартный формат субтитров для YouTube, Premiere, Final Cut, DaVinci) и VTT (для веб-плееров). Если расшифровывали аудио (без видео) — экспорт доступен в TXT (просто текст) и DOCX (с разбиением по говорящим, если они различимы по интонации).
- Сколько времени занимает транскрибация часа аудио?
- На Whisper Large-v3-turbo через Groq — час аудио расшифровывается за 1-3 минуты благодаря параллельной обработке чанков. Это в 5-10 раз быстрее, чем у конкурентов на не-Groq инфраструктуре (Sonix, Otter тратят 10-20 минут на час). Если сервер Groq перегружен (пиковые часы), может занять до 5 минут — но это всё равно радикально быстрее ручной расшифровки (которая занимает 4-6 часов на час записи).
Попробуйте бесплатно — 30 минут навсегда
Без карты, без trial. Если за первый час использования транскрибация не подойдёт под ваш workflow — нет смысла платить.