Диктуй
9 мин чтенияМихаил Воинский, основатель Диктуй

Vibe coding на русском в 2026: как надиктовывать промпты Cursor и Claude Code на родном языке

Голос быстрее печати в 3 раза, но Win+H ломается на mixed RU+EN. Разбираем 5 voice-инструментов для vibe coding в 2026 — что реально работает с русско-английскими промптами.

Коротко

Vibe coding — практика, когда программист надиктовывает задачу AI-агенту (Cursor, Claude Code, Codex), а тот пишет код. Голосом получается в 3 раза быстрее: 130–150 слов в минуту против 38–40 печатью. Главная проблема на русском — встроенный Win+H в Windows 11 и Apple Dictation плохо распознают mixed RU+EN («сделай pull request», «push в main», «обработай webhook»). Из 5 проверенных решений для русско-английского кодинга реально работают только три: SuperWhisper (используется Karpathy), Wispr Flow и Диктуй — все на базе Whisper Large-v3.

Что такое vibe coding и почему он стал главной темой 2025–2026

Vibe coding — это стиль программирования, при котором разработчик описывает задачу AI-агенту на естественном языке, а агент пишет код. Термин ввёл Andrej Karpathy (бывший директор по AI в Tesla, со-основатель OpenAI) 2 февраля 2025 в твите: «There's a new kind of coding I call "vibe coding", where you fully give in to the vibes, embrace exponentials, and forget that the code even exists».

В декабре 2025 Collins Dictionary выбрал «vibe coding» Словом года — публикация ушла в массмедиа, и за следующий квартал термин превратился из nerd-jargon в стандартный workflow. К апрелю 2026 в русских Telegram-каналах вроде @evocoders («Эволюция Кода») и @claudedevolper обсуждение Cursor, Claude Code, Codex и Lovable идёт в режиме нон-стоп.

В практическом смысле vibe-coder работает в одном из четырёх инструментов:

  • Cursor ($20/мес) — IDE-форк VS Code с агентом, который читает кодовую базу.
  • Claude Code ($100/мес у power users) — CLI-агент от Anthropic, работает в терминале.
  • Codex (OpenAI, $20–200/мес) — для тех, кто привык к GPT.
  • Lovable ($25/мес) — для веб-фронта без бэкенда.

Общее во всех четырёх: вы тратите больше времени на формулировку промпта, чем на написание кода руками. Голос на этом этапе быстрее печати в 2-3 раза — мысль формулируется естественнее, чем при наборе по словам.

Сколько на самом деле экономит голос: три цифры из реальных бенчмарков

1. Скорость ввода: 3× быстрее печати

Стандартная печать профессионального разработчика — 38–40 слов в минуту. Естественная речь — 130–150 слов в минуту. На длинных промптах разрыв не сокращается, а растёт: пока вы успели бы напечатать «добавь обработку ошибок в эндпоинт /api/users со всеми краевыми случаями», голосом вы уже проговорили все три абзаца контекста.

2. Личный замер от Zach Prozer (Pinecone): 90 vs 179 WPM

Zach Prozer, инженер Pinecone, измерил собственную скорость ввода: 90 слов в минуту печатью против 179 голосом через SuperWhisper. Двукратный разрыв даже у быстрого machinist'а — голос сокращает время написания промпта вдвое.

3. Karpathy: «I just talk to Composer with SuperWhisper»

Сам Karpathy, формализовавший термин vibe coding, в публичных постах и интервью повторил тот же workflow: использует SuperWhisper как voice-input на macOS и Cursor Composer как агента. Если автор термина считает голос обязательной частью workflow, это сильный сигнал, что без него работать в этой парадигме неэффективно. Я тоже проверил эту гипотезу на себе — 30 дней печатал голосом март-апрель 2026, процент времени на голосе вышел 60-70%, и AI-промптинг стал главным выигрышным сценарием. С релиза GPT-5.5 Instant 5 мая 2026 этот workflow окупается ещё лучше — модель отвечает короче на 30% при той же сути (разбор GPT-5.5 в России).

Главная боль vibe-coder'а на русском: mixed RU+EN

Если вы программист в России или СНГ, вы говорите так:

«Сделай push в main и rebase на свежую ветку, потом проверь CI, и если build упал, открой pull request в фичу-флаг репо»

Половина слов — английские. И это не блажь: большинство технических терминов в IT не переводятся («push», «pull request», «webhook», «middleware», «dependency injection»). Имена фреймворков, методов, переменных — тоже на английском.

Встроенные решения это не вытягивают.

  • Windows 11 (Win+H): использует локальную модель Microsoft, оптимизированную под одну выбранную раскладку. Если выбран русский, английские слова коверкаются («push» → «пуш», «rebase» → «ребаст»). Если выбран английский — наоборот. Переключаться раскладкой посреди фразы — не вариант.
  • Apple Dictation на macOS: те же грабли. Поддержка русского есть, но переключение в реальном времени между языками работает плохо. На сложных фразах с mixed RU+EN качество распознавания падает на 30–50% по сравнению со специализированными решениями.

Внешние решения на Whisper Large-v3-turbo держат mixed речь стабильно, потому что модель обучена на 99 языках одновременно и распознаёт переключения внутри одной фразы без ручного переключения раскладки. Это и есть техническая разница, из-за которой большинство русскоговорящих vibe-coder'ов в 2026 уходят на внешние инструменты.

5 голосовых решений для Cursor и Claude Code: что реально работает в 2026

Проверены лично или на основании отзывов в @evocoders, на Habr и Reddit r/cursor.

ИнструментПлатформаЦенаMixed RU+ENПодходит для vibe coding
Win+H (Windows 11)Windowsбесплатноплохонет
Apple DictationmacOSбесплатноплохонет
Wispr FlowWin + Mac$15/месхорошода
SuperWhisperMac + Win$8.5/месотличнода
ДиктуйWin + Mac449 ₽/месотличнода

Win+H — встроенный Windows 11

Когда использовать: короткие фразы на одном языке. Записать русский комментарий в код, надиктовать сообщение в чат коллеге.

Когда НЕ использовать: mixed RU+EN, длинные промпты для Cursor, любая работа с техническими терминами. Качество падает катастрофически на переключениях. Если Win+H у вас просто не работает, а не «работает плохо» — отдельный troubleshooting-гайд по 7 типичным причинам сбоев Win+H собран в статье «Не работает голосовой ввод в Windows».

Apple Dictation — встроенный macOS

То же самое, что Win+H, но на Mac. Включается двойным нажатием Fn (или настраивается отдельный hotkey). Поддерживает русский, но плохо держит mixed речь.

Wispr Flow — мировой лидер для англоязычных

Cloud-сервис, $15/мес после free 2000 слов в неделю. Используется тысячами разработчиков на Западе. Поддерживает русский в смысле «распознаёт», но интерфейс и документация — англоязычные. Подключается к Cursor через системный hotkey: нажали → диктуете → текст появляется в активном окне.

Минус для русских: оплата в долларах требует прокси-карту (Wise, Profee, или зарубежная Visa/Mastercard). Если вы готовы возиться с этим — рабочий вариант.

Подробный разбор Wispr Flow для русскоязычного юзера — оплата в РФ, качество русского распознавания, 4 рабочих альтернативы в рублях — в отдельной статье «Wispr Flow в России в мае 2026».

SuperWhisper — выбор Karpathy

$8.5/мес Pro, есть бесплатный тариф с базовыми возможностями. Локальная модель + cloud Whisper по выбору. Известна тем, что Andrej Karpathy использует её как основной voice-input на Mac. На Reddit r/cursor — самый частый рекомендованный инструмент в 2025–2026.

Минус для русских: оплата в долларах. Та же проблема, что у Wispr Flow.

Диктуй — родной русский

449–599 ₽/мес (Pro/Unlimited), оплата картами МИР, СБП и зарубежными. На базе той же Whisper Large-v3-turbo через Groq, что у Wispr Flow и SuperWhisper, плюс собственный режим трансформации: выделяешь надиктованный текст, голосом даёшь инструкцию (перевести, в деловой стиль, разбить на пункты, переделать в Telegram-пост, убрать слова-паразиты — любая инструкция на естественном языке) — LLM применяет к тексту. Работает на Windows и macOS, бесплатные 30 минут навсегда без карты — чтобы попробовать на своём workflow до оплаты.

Дисклеймер: я основатель Диктуй. Поэтому ниже — пошаговая инструкция как использовать именно его. Но если у вас есть карта в долларах и Mac — SuperWhisper тоже отличный выбор. Win+H и Apple Dictation для vibe coding не подходят — оба ASR не держат mixed RU+EN на коде.

Как настроить Диктуй для Cursor: пошаговая инструкция

  1. Скачайте Диктуй для Windows или macOS, установите, зарегистрируйтесь. Free-тариф даёт 30 минут диктовки навсегда — этого хватит, чтобы протестировать с десятком промптов.
  2. Запустите Cursor, откройте проект.
  3. Поставьте курсор в Cursor Composer (Cmd/Ctrl+I) или в чат справа — туда, куда хотите вставить промпт.
  4. Зажмите hotkey Диктуй (по умолчанию Right Alt на Windows, Right Option на macOS — настраивается).
  5. Диктуйте задачу: «Добавь endpoint /api/users/:id с обработкой not found и валидацией id через zod».
  6. Отпустите hotkey — текст появится в Cursor Composer.
  7. Нажмите Enter — Composer запускает агента.

Совет для длинных промптов: используйте режим трансформации. Надиктовали → выделили текст → нажали хоткей трансформации → голосом сказали «сделай чистым промптом, убери эээ и слова-паразиты» (или любая другая инструкция). LLM трансформирует текст по вашей инструкции. Это даёт более точный код от агента — Cursor понимает чёткие, конкретные инструкции лучше, чем поток сознания.

Как использовать с Claude Code (терминал)

Claude Code запускается из терминала командой claude. Поскольку Диктуй (как и SuperWhisper, Wispr Flow) вставляет текст в активное окно, никакой специальной интеграции не нужно:

  1. Откройте терминал, наберите claude, нажмите Enter.
  2. Когда появится приглашение Claude Code — поставьте курсор в его поле ввода.
  3. Зажмите hotkey, диктуйте задачу.
  4. Отпустите — текст появится в Claude Code.
  5. Нажмите Enter — агент стартует.

То же самое работает для Codex CLI (codex), Aider (aider) и любого другого CLI-агента.

Speed paradox: когда голос реально замедляет, а не ускоряет

В 2025 исследовательская группа METR опубликовала контролируемое испытание с 16 опытными open-source разработчиками. Им давали реальные задачи (медианный размер проекта 22 000 ⭐ на GitHub, 1 миллион строк кода) и сравнивали скорость с AI-инструментами и без.

Результат: опытные разработчики с AI-инструментами были на 19% медленнее, чем без них.

При этом до эксперимента они предсказывали ускорение на 24%, а после эксперимента — продолжали верить, что AI ускорил их на 20%. Это 22-пунктовый разрыв между ощущением и реальностью — почти точная инверсия фактического результата.

У меня самого эта же дельта проявилась в начале апреля 2026: на трекинге через RescueTime недельный output по фиксам в знакомом legacy-проекте упал на ~12% с переходом на Claude Code, хотя ощущение было «работаю быстрее». Подсказку даёт сам формат данных: голос ускоряет одну фазу — ввод промпта. А ревью кода агента, отладка его краевых случаев, контекст-switching между «диктую → читаю → правлю» — всё это никуда не делось и в сумме съедает выигрыш.

Где голос реально окупается

  • Длинные контекстные промпты для агента (Cursor Composer, Claude Code) — описать что нужно: «сделай endpoint, обработай 404, добавь rate limiting через Redis, тесты на edge cases». Печатать это полчаса, проговорить — 90 секунд.
  • Ad-hoc скрипты и прототипы — где код всё равно одноразовый, ревью неглубокое.
  • Новый для вас кусок кодовой базы — когда формулируете задачу на естественном языке, потому что ещё не знаете точные имена функций и слоёв архитектуры.
  • Документация, README, комментарии — голос здесь близок к печати, но вытаскивает мысль быстрее.

Где голос НЕ окупается (отдельные кейсы)

  • Критичный production-код — тут руками медленнее, но безопаснее: каждое имя переменной, каждая скобка, каждая зависимость — на учёте.
  • Точечные фиксы в знакомом проекте — печать 2-3 строк руками быстрее, чем диктовка + ревью + правка распознавания.
  • Пошаговая отладка — когда вы переключаетесь между breakpoint'ами, читаете stack trace, мысленно держите 4 уровня контекста. Голос здесь только ломает фокус.
  • Pair programming — два голоса в одном канале, одно говорит АI, второе говорит коллега, выходит шум.

Голос — не замена клавиатуры, а второй ввод. Включаете его на длинных промптах, выключаете на коротких фиксах. Разница в недельном output легко 10-20% — но в обе стороны, в зависимости от того, что вы делаете.

Что дальше

Если вы дочитали до сюда, скорее всего, у вас уже руки чешутся попробовать голосом. Конкретные шаги:

  1. Если у вас Mac и есть способ платить в долларах — поставьте SuperWhisper. Реально хорошо.
  2. Если у вас Windows или вы в России и не хотите возиться с прокси-картами — попробуйте Диктуй. 30 минут бесплатно, без карты, без trial. Если за 30 минут не зашло — нет смысла платить.
  3. Win+H и Apple Dictation для vibe coding забудьте. Они для «надиктовать сообщение жене», не для промптов агенту.

Развёрнутое сравнение 5 решений для Cursor и Claude Code конкретно (с цифрами WER на контрольном промпте, цен в рублях и слабых мест каждого) — в отдельной статье «Голосовой ввод в Cursor и Claude Code на русском в мае 2026».

И поделитесь опытом в @evocoders или напишите на support@diktuy.ru — нам интересно, какой workflow реально окупается у русских vibe-coder'ов в 2026.


Михаил Воинский — основатель Диктуй. Вопросы и поправки → support@diktuy.ru или в @diktuy_help.

Часто задаваемые вопросы

Что такое vibe coding простыми словами?
Vibe coding — это стиль программирования, при котором разработчик описывает задачу AI-агенту голосом или текстом, а агент сам пишет код. Термин ввёл Andrej Karpathy 2 февраля 2025, в декабре 2025 Collins Dictionary выбрал «vibe coding» Словом года. На практике это работа в Cursor, Claude Code, Codex или Lovable: вы говорите, что нужно сделать, агент генерирует код, вы ревьюите результат.
Можно ли надиктовывать код на русском, если переменные и фреймворки на английском?
Да, но качество распознавания зависит от модели. Встроенные решения (Win+H в Windows 11, Apple Dictation на macOS) сильно ломаются на mixed RU+EN: «push в main» превращается в «пуш в маин» или «push wmane». Внешние инструменты на базе Whisper Large-v3-turbo (SuperWhisper, Wispr Flow, Диктуй) держат смешанную речь стабильно — модель обучена на 99 языках одновременно и распознаёт переключения внутри одной фразы.
Голос реально быстрее, чем печать в IDE?
Да, в среднем в 3 раза. Печать профессионального разработчика — 38–40 слов в минуту; речь — 130–150 слов в минуту. Конкретный замер от Zach Prozer (Pinecone): 90 WPM на клавиатуре против 179 WPM голосом. Но есть нюанс: исследование METR 2025 показало, что опытные разработчики с AI-инструментами работают на 19% медленнее, чем без них, хотя думают, что быстрее на 20%. Голос ускоряет ввод промпта, но не ускоряет ревью кода — ревью остаётся узким местом.
Какой голосовой ввод выбрать для Cursor на русском?
Если работаете на macOS и платите в долларах — SuperWhisper ($8.5/мес). Если на Windows и нужна оплата в рублях — Wispr Flow ($15/мес, не блокирован в РФ через прокси-карты, но цена кусается) или Диктуй (449 ₽/мес за Pro). Apple Dictation и Win+H для серьёзной работы с mixed RU+EN не подходят: качество распознавания падает на 30–50% относительно Whisper Large-v3-turbo, который под капотом у внешних решений.
Как vibe-coder может использовать голос с Claude Code в терминале?
Claude Code запускается из терминала, поэтому voice-инструмент должен вставлять текст в активное окно — терминал, а не в специальное поле. Все три рабочих варианта (SuperWhisper, Wispr Flow, Диктуй) работают через системный hotkey: вы нажимаете комбинацию, диктуете, отпускаете — текст появляется там, где курсор. То есть после `claude` в терминале просто диктуете задачу как обычно, никакой специальной интеграции не требуется.
Что делать с «эээ» и слова-паразитами в надиктовке промпта?
Использовать AI-обработку диктовки. У Диктуй для этого есть **режим трансформации**: выделил надиктованный фрагмент, нажал отдельный хоткей трансформации, голосом дал инструкцию — «убери слова-паразиты и оформи как чистый промпт», «переведи на английский», «разбей на пункты задач», или любая другая инструкция. LLM применяет её к выделенному тексту. Например, «эээ короче добавь там обработку 404 ошибки и чтобы redirect на главную если что» с инструкцией «сделай чистым промптом» превращается в «Добавь обработку 404 — редирект на главную». У Wispr Flow аналогичная функция называется Rewrite. Для Cursor это критично: чище промпт = точнее код от агента.
Голос подходит для написания самого кода или только промптов?
Только для промптов. Распознавание имён переменных, синтаксиса, скобок, ключевых слов — у любого STT (даже Whisper Large-v3) ниже 80%, и постредактировать дольше, чем напечатать. Vibe coding — это про делегирование кода агенту. Голос вы используете для описания задачи на естественном языке, а агент превращает её в синтаксически корректный код.
Сколько готовы платить русские разработчики за голосовой ввод в 2026?
По данным обсуждений на Habr и в русских AI-каналах Telegram, ценовой потолок для одиночного инструмента — 600–1000 ₽/мес. Cursor ($20) и Claude Code ($100/мес у power users) уже занимают значительную часть бюджета, поэтому voice-ввод воспринимается как «приятное дополнение», а не основной расход. Поэтому Wispr Flow ($15) и Диктуй (449–599 ₽) попадают в зону комфортной оплаты, а Aqua Voice ($10) и SuperWhisper ($8.5) тоже терпимы при наличии способа платить в долларах.

Попробуйте Диктуй бесплатно

30 минут навсегда. Без карты, без trial. Если не зайдёт за первые 10 промптов — нет смысла платить.

Скачать для Windows и macOS