Реально ли заменить клавиатуру голосом полностью?

Нет, и я даже не пытался. По моему опыту 60-70% — это потолок для типичной рабочей недели разработчика-фаундера. Остальные 30-40% — это код в редакторе, точные числа в таблицах, заметки на встречах, ситуации когда вокруг шум или коллеги. Цель эксперимента была не «всё голосом», а «голос там где он реально быстрее».

Нужен ли мощный компьютер для голосового ввода?

Нет, если используете облачные сервисы на Whisper Large-v3-turbo через Groq (Диктуй, Wispr Flow, SuperWhisper) — вся обработка на сервере, локально нужен только микрофон и интернет. Я работал на MacBook Air M4, никаких проседаний не заметил. Локальный Whisper тяжелее — нужна видеокарта или хотя бы 16 ГБ RAM, и качество ниже чем у v3-turbo.

Как привыкнуть говорить вместо печатать?

Первая неделя — самая сложная. Привычка говорить «как пишу» (короткими формальными фразами) ломается, нужно переучиваться формулировать мысли вслух. Помогло одно: первые 3 дня заставлял себя надиктовывать всё, даже короткие сообщения в Telegram. После недели мозг переключается, и уже наоборот — печатать кажется медленным когда нужно изложить мысль в 2-3 предложения.

Какой сервис голосового ввода выбрать на русском?

Я основатель Диктуй, поэтому пристрастен — использую свой продукт. Но не по той причине что сервис МОЙ, а потому что альтернативы объективно хуже для российского рынка. Если хочется альтернатив с такой же точностью на русском: SuperWhisper (только macOS, $8.5/мес), Wispr Flow ($15/мес, кросс-платформа). Все три на одной модели Whisper Large-v3-turbo, точность 95-98% на чистом русском. Подробнее в [сравнении 8 сервисов](/blog/transkribatsiya-audio-v-tekst-8-servisov-2026).

Работает ли смешанная русско-английская речь?

Да, и это критично для разработчиков. Whisper Large-v3-turbo держит mixed RU+EN на 92-96%: фразы «закоммить в main», «сделай pull request», «обработай webhook» распознаются нормально. Win+H в Windows 11 и Apple Dictation на смешанной речи проседают до 60-70% — отдельная боль которую я разбирал в [статье про vibe coding на русском](/blog/vibe-coding-na-russkom-2026).

Можно ли диктовать в опен-спейсе или коворкинге?

Технически — да, если шумоподавление микрофона хорошее и нет параллельной речи рядом. Психологически — сложнее: говорить вслух при коллегах непривычно. Я в марте работал из дома и из тихих кофеен. Опен-спейс не пробовал, но судя по отзывам пользователей Диктуй — решается направленным микрофоном и более тихой подачей голоса.

Что такое «режим трансформации» и почему он важен в этом эксперименте?

Это вторая фича Диктуй после самой диктовки: выделил уже надиктованный текст, нажал отдельный хоткей, и голосом же говоришь что с ним сделать — «переведи на английский», «оформи как deal-style письмо», «разбей на список задач», «сократи в три раза». LLM применяет инструкцию и заменяет выделенный текст. Это убирает шаг «копировать в ChatGPT, написать что нужно, скопировать обратно» — который для меня раньше занимал половину работы с черновиками.

6 мая 2026 г.10 мин чтенияМихаил Воинский, основатель Диктуй

Как печатать голосом 30 дней: Мой личный эксперимент

60-70% времени голосом за 30 дней. Где это работает на 100% (промпты AI, статьи, чаты), где не работает (созвоны, числа в документах). Личный отчёт основателя Диктуй с реальными сценариями.

Коротко

Я провёл март-апрель 2026, печатая голосом примерно 60-70% рабочего времени. Главное открытие: голос не заменяет клавиатуру полностью, но в трёх сценариях даёт X5 скорости — промпты для AI-моделей, длинные тексты (статьи, письма) и режим трансформации, когда диктуешь черновик и потом голосом же просишь привести его в нужный вид. Не работает в созвонах, в документах с точными цифрами и в код-редакторе на самом коде. Усталость от рук падает на те же 60-70%.

Этот эксперимент я задумал не как блог-материал. Просто хотел проверить — после года работы с Cursor, Claude Code и Кими я заметил что общаюсь с моделями всё чаще на естественном языке, а не точными короткими промптами. Возникла мысль: если я и так почти разговариваю с AI — почему я печатаю это пальцами, а не говорю голосом?

Толчком стал пост Andrej Karpathy в феврале 2025 — он публично написал что пишет 60% кода голосом через SuperWhisper. Если человек который ставил архитектуру GPT в OpenAI и Tesla Autopilot предпочитает голос печати, имеет смысл хотя бы попробовать.

С 1 марта 2026 я завёл правило: каждый раз когда нужно ввести больше пары слов — пробую голосом. Если получилось быстрее или удобнее — оставляю. Если нет — возвращаюсь к клавиатуре. Никакого трекера времени или замеров слов в минуту я не вёл — это не научное исследование. Скорее дневник: где сработало, где нет, и почему.

Дисклеймер: я основатель Диктуй — российского сервиса голосового ввода и транскрибации. На эксперименте использовал свой продукт, потому что других сервисов с такой же точностью на русском в РФ не запускается без валютной карты. Это влияет на мою оценку, но реальные сценарии и провалы описаны как есть, без сглаживания.

Что вообще хотел проверить

Не «можно ли заменить клавиатуру полностью» — на это я знал ответ заранее. Нет, нельзя: код в редакторе никто голосом не пишет, в Excel с числами голос только мешает, на встречах в Zoom молча клавишу нажимать удобнее.

Хотел проверить другое:

В каком проценте моей реальной работы голос быстрее клавиатуры?
Какие конкретно сценарии становятся быстрее в 2-3 раза, а какие — в 5+ раз?
Где есть скрытые провалы которых я не предвижу?

Период — 30 дней, с 1 по 30 марта 2026. Потом ещё две недели апреля чтобы проверить — осталась ли привычка после конца «эксперимента».

Неделя 1 (1-7 марта): первое сопротивление

Первые три дня были болезненные. Я печатаю на клавиатуре с подросткового возраста — ~25 лет привычки. Когда нужно было быстро ответить в Telegram «ок, согласен», рука тянулась к клавиатуре сама. Голос казался медленнее, потому что нужно нажать хоткей, дождаться индикатора, проговорить, подождать пока вставится.

Самый раздражающий момент: я говорил несколько слов, потом задумывался, потом продолжал — и сервис заканчивал распознавание на паузе. Получался обрывок вместо целой фразы. Решилось настройкой паузы окончания (в Диктуй это «long-pause», в SuperWhisper аналог) — выставил 2.5 секунды вместо 1.5.

К концу недели я обнаружил неочевидное. Длинные сообщения голосом получаются не быстрее печати, а точнее. Когда печатаешь, мысль обрывается на каждой длинной паузе с поиском нужного слова. Голосом мысль льётся целиком, и потом её достаточно слегка причесать. Особенно это работает в чате — там никто не ждёт идеальной формулировки.

Процент времени голосом за неделю — примерно 30%. Большая часть — это сообщения в Telegram, заметки в Apple Notes, и краткие email-ответы.

Неделя 2 (8-14 марта): моменты когда щёлкнуло

Главный сдвиг произошёл во вторник 11 марта. Я писал промпт для Cursor — нужно было сделать рефакторинг auth-логики, и контекст был сложный: три файла, три разных слоя ошибок, и решение которое я хотел увидеть в коде. Обычно такой промпт я печатаю минут пять-семь, по дороге уточняя формулировки.

В этот раз я просто наговорил всё за две минуты. Не идеально структурировано, с повторами, с «ну то есть короче» в середине. Cursor разобрался без проблем — современные модели уже не требуют идеального промптинга, они вытаскивают намерение из контекста.

Это и был главный инсайт месяца: AI-промптинг — лучший use case для голоса. Особенно после релиза GPT-5.5 Instant 5 мая 2026, где ответы стали короче на 30% — длинный промпт голосом + плотный ответ от модели = workflow, который в 2024 году был невозможен (см. GPT-5.5 в России).

Раньше промпт был артефактом — его нужно было собрать, отполировать, перечитать. Сейчас промпт стал ближе к разговору с коллегой: «слушай, мне нужно вот это, контекст такой, попробуй так и так». Голос для разговора с коллегой — естественный интерфейс. Печатать «разговор с коллегой» — это вынужденная неестественная форма.

Со среды я начал диктовать все промпты в Cursor, Claude Code и Кими. Время на типичный сложный промпт упало с 5-10 минут до 1-2 минут. Это не x2, это x5 — потому что без голоса я бы половину промпта не написал из лени и просто схалтурил с коротким «сделай как лучше».

Процент времени голосом за неделю — 50-55%.

Неделя 3 (15-21 марта): режим трансформации

К середине третьей недели я начал использовать режим трансформации интенсивно. Это вторая фича Диктуй: после того как ты уже надиктовал текст, можно выделить его, нажать отдельный хоткей, и голосом сказать что с этим текстом сделать.

Например, надиктовал черновик письма клиенту — выделил — сказал «оформи в деловом стиле, без личных оборотов». Получаешь отредактированную версию. Или: надиктовал список идей вперемешку — выделил — сказал «разбей на нумерованный список задач». Или: написал на русском — выделил — сказал «переведи на английский, сохрани технические термины».

Я раньше делал это через ChatGPT: копировал текст, переключался в браузер, вставлял в окно чата, писал инструкцию, копировал результат, переключался обратно, вставлял. Каждый цикл — минута-полторы плюс смена контекста. Режим трансформации убирает все эти шаги: курсор остаётся где был, операция происходит in-place.

Конкретный кейс из 18 марта: писал ТЗ на 1500 слов для подрядчика. Надиктовал черновик за 12 минут — поток сознания, без структуры. Выделил, сказал «разбей на разделы: цель, требования, ограничения, deliverables, дедлайны». Получил структурированное ТЗ за 30 секунд. Потом ещё раз пробежался голосом, уточнил два места.

Итого: 1500-словесное ТЗ за 18 минут вместо моих обычных 1.5-2 часов.

Это уже не x2 — это x5 к скорости всего pipeline работы с текстом.

Неделя 4 (22-30 марта): где это не работает

К четвёртой неделе я уже знал что голос — рабочий инструмент. Теперь хотел зафиксировать где он не помогает или мешает.

1. Сам код в редакторе. Я пробовал диктовать имена переменных, синтаксис скобок, отступы. Это медленнее печати в 3 раза и нервирует. Голос для кода работает только в обсуждении кода (комментарии, PR descriptions, документация), не в самом написании.

2. Точные числа и идентификаторы. Когда нужно ввести «23456,78 рублей» или ID транзакции — голосом это страдает. Whisper иногда слышит «двадцать три» как «двадцать три тысячи», добавляет ноли, путает запятые. Цифры — клавиатурой.

3. Созвоны в Zoom/Meet. Очевидно: ты уже говоришь с собеседником, параллельно говорить вслух свои заметки невозможно. На созвонах я переходил на печать или на короткие письменные пометки.

4. Окружение с шумом. Кафе с тихой музыкой — ок. Кафе с разговорами рядом — точность падает на 10-15%. Опен-спейс я не тестировал, но коллеги-пользователи Диктуй пишут что направленный микрофон решает.

5. Документы где важна абсолютная точность. Договор, медицинская справка, юридический термин — здесь я надиктовывал черновик голосом, но финальную вычитку делал глазами и клавиатурой. Голос не заменяет вычитку. Если задача — диктовать длинные документы прямо в Word, без переключения окон — отдельный разбор трёх способов в гайде про голосовой ввод в ворде, включая встроенную диктовку Microsoft 365 и почему она проигрывает Whisper.

6. Очень длинные смысловые рассуждения. Что-то длиннее 4-5 предложений со сложной структурой — лучше плана на бумаге. Голосом получается «поток сознания», и режим трансформации потом не всегда вытаскивает структуру правильно.

К концу марта процент времени голосом стабилизировался на 60-70%. Это и был тот «потолок» к которому я пришёл.

Что осталось через две недели после конца эксперимента

К 14 апреля привычка не откатилась. Наоборот — без голоса теперь работа кажется неудобной. За эти две недели я:

Надиктовал ~15 промптов для Cursor и Claude Code
Написал три блог-черновика голосом + режим трансформации (включая статью про Wispr Flow)
Ответил на ~40 длинных писем в Gmail
Расшифровал две голосовые записи встреч через транскрибацию файлов — отдельная фича для уже записанного аудио. Если интересен пошаговый workflow от файла до субтитров — описал в гайде про транскрибацию видео в текст

Проценты времени голосом примерно те же — 60-70%. Усталость рук — реально упала. До эксперимента я ловил себя на том, что к концу дня мизинец и запястье ноют. После — это редкость, ноют только в дни когда было много кода.

Тактические открытия которые сэкономили бы мне время

За 30 дней набралось около десятка маленьких настроек и привычек, которые радикально меняют опыт. Если бы кто-то сказал мне их в первый день — я бы не потерял первые три дня на сопротивление.

1. Длинная пауза окончания фразы. Дефолт 1.5 секунды у большинства сервисов рассчитан на короткие команды. Для рабочей диктовки длинных мыслей — выставляй 2-2.5 секунды. Это снимает 80% обрывов.

2. Сначала надиктовать поток, потом структурировать. Не пытаться сразу выдать структурированный текст голосом. Это медленнее печати. Лучше так: надиктовал поток сознания за 2 минуты, выделил, попросил режим трансформации «структурируй в разделы». Получаешь готовое за минуту вместо ~10.

3. Словарь — обязательный day-one setup. До словаря я три недели правил руками одни и те же слова: имена коллег, технические термины, наши внутренние названия проектов. Со словарём это решается один раз. У меня сейчас ~30 терминов, и я не помню когда последний раз правил имя «Михаил» в Whisper-выводе.

4. Автозамена для повторяющихся фраз. Это вторая фича после словаря, и она для другого. Словарь — про правильное распознавание. Автозамена — про подстановку: говоришь «моя почта» → вставляется реальный email, говоришь «диктуй точка ру» → вставляется https://diktuy.ru. У меня в автозамене ~15 пар: рабочие email-ы, ссылки на наши соцсети, типовые блоки текста (шапка договора, подпись email).

5. Хоткеи на оба режима. Один хоткей для голосового ввода, второй для режима трансформации. Я поставил Cmd+Shift+1 и Cmd+Shift+2 — близко друг к другу, легко вспоминать. Если хоткей сложный — мозг забывает, и привычка не закрепляется.

6. Отключить автоматическую вставку точек/запятых на коротких сообщениях. В чатах в Telegram точка в конце сообщения читается как претензия. Я отдельно настроил профиль «чат» где автопунктуация мягче.

7. Не диктовать с эмоциями. Это не очевидно но важно: Whisper ловит интонацию и иногда добавляет восклицательные знаки или вопросительные интонации в неожиданных местах. Особенно на mixed RU+EN. Лучше говорить ровно — это даёт чище результат.

8. Пауза перед нажатием хоткея. Я ловил себя на том что нажимал хоткей, и в первую секунду уже начинал говорить — а сервис ещё не успел инициализироваться, и первое слово терялось. Полсекунды паузы решают.

Эти восемь пунктов — это всё что нужно для day-one setup. Если поставить их перед началом эксперимента, первая болезненная неделя сократится до пары дней.

Что я бы сделал иначе если бы начинал сейчас

Не пытался бы заменить всё голосом. Сэкономил бы себе три раздражающих дня в начале. Цель — найти 3-4 сценария где голос реально даёт x3-x5, и в них переключиться.

Сразу бы поставил длинную паузу окончания (2-2.5 секунды вместо дефолтной 1.5). Это снимает 80% раздражения от обрывов.

Сразу бы использовал режим трансформации для черновиков. Я открыл это только на третьей неделе, и потерял две недели на ручное переключение в ChatGPT.

Завёл бы словарь для своих специфических терминов — имён коллег, названий проектов, аббревиатур. В Диктуй это отдельная фича — она избавляет от необходимости править одно и то же слово после каждой диктовки. У меня в словаре сейчас ~30 терминов: имена пятерых коллег, три названия наших продуктов, GitHub-username, и пара русских слов которые Whisper стабильно слышал неправильно.

Итог: где это работает, где нет

Голос не заменяет клавиатуру полностью — и не должен. Снимает примерно 60-70% усталости от рук, выигрывает реально много времени в трёх сценариях:

Промпты для AI-моделей (Cursor, Claude Code, ChatGPT, Кими) — x5 к скорости
Длинные тексты — статьи, письма, ТЗ, черновики постов в блог — x3 к скорости
Режим трансформации — диктуешь черновик, потом голосом же приводишь в нужный вид (deal-style, список, на другой язык) — заменяет цикл «копировать в ChatGPT» полностью

Не работает в коде (сам код), числах в документах, созвонах, шумной обстановке, абсолютно точных документах.

Кто много работает с нейросетями и часто промптит — выиграет больше всего. Кто пишет много текста, но не AI-промпты — тоже выиграет, но скромнее, в районе x2.

Если есть желание попробовать — у Диктуй бесплатные 30 минут навсегда, без карты, на Whisper Large-v3-turbo. Этого хватит чтобы прогнать пять-семь типичных задач и понять, в каких сценариях голос тебе даёт x5, а в каких ничего не меняет. Это и есть единственный честный способ узнать.

Часто задаваемые вопросы

Реально ли заменить клавиатуру голосом полностью?: Нет, и я даже не пытался. По моему опыту 60-70% — это потолок для типичной рабочей недели разработчика-фаундера. Остальные 30-40% — это код в редакторе, точные числа в таблицах, заметки на встречах, ситуации когда вокруг шум или коллеги. Цель эксперимента была не «всё голосом», а «голос там где он реально быстрее».
Нужен ли мощный компьютер для голосового ввода?: Нет, если используете облачные сервисы на Whisper Large-v3-turbo через Groq (Диктуй, Wispr Flow, SuperWhisper) — вся обработка на сервере, локально нужен только микрофон и интернет. Я работал на MacBook Air M4, никаких проседаний не заметил. Локальный Whisper тяжелее — нужна видеокарта или хотя бы 16 ГБ RAM, и качество ниже чем у v3-turbo.
Как привыкнуть говорить вместо печатать?: Первая неделя — самая сложная. Привычка говорить «как пишу» (короткими формальными фразами) ломается, нужно переучиваться формулировать мысли вслух. Помогло одно: первые 3 дня заставлял себя надиктовывать всё, даже короткие сообщения в Telegram. После недели мозг переключается, и уже наоборот — печатать кажется медленным когда нужно изложить мысль в 2-3 предложения.
Какой сервис голосового ввода выбрать на русском?: Я основатель Диктуй, поэтому пристрастен — использую свой продукт. Но не по той причине что сервис МОЙ, а потому что альтернативы объективно хуже для российского рынка. Если хочется альтернатив с такой же точностью на русском: SuperWhisper (только macOS, $8.5/мес), Wispr Flow ($15/мес, кросс-платформа). Все три на одной модели Whisper Large-v3-turbo, точность 95-98% на чистом русском. Подробнее в [сравнении 8 сервисов](/blog/transkribatsiya-audio-v-tekst-8-servisov-2026).
Работает ли смешанная русско-английская речь?: Да, и это критично для разработчиков. Whisper Large-v3-turbo держит mixed RU+EN на 92-96%: фразы «закоммить в main», «сделай pull request», «обработай webhook» распознаются нормально. Win+H в Windows 11 и Apple Dictation на смешанной речи проседают до 60-70% — отдельная боль которую я разбирал в [статье про vibe coding на русском](/blog/vibe-coding-na-russkom-2026).
Можно ли диктовать в опен-спейсе или коворкинге?: Технически — да, если шумоподавление микрофона хорошее и нет параллельной речи рядом. Психологически — сложнее: говорить вслух при коллегах непривычно. Я в марте работал из дома и из тихих кофеен. Опен-спейс не пробовал, но судя по отзывам пользователей Диктуй — решается направленным микрофоном и более тихой подачей голоса.
Что такое «режим трансформации» и почему он важен в этом эксперименте?: Это вторая фича Диктуй после самой диктовки: выделил уже надиктованный текст, нажал отдельный хоткей, и голосом же говоришь что с ним сделать — «переведи на английский», «оформи как deal-style письмо», «разбей на список задач», «сократи в три раза». LLM применяет инструкцию и заменяет выделенный текст. Это убирает шаг «копировать в ChatGPT, написать что нужно, скопировать обратно» — который для меня раньше занимал половину работы с черновиками.

Попробуйте Диктуй бесплатно

30 минут навсегда. Без карты, без trial. Если не зайдёт за первые 10 промптов — нет смысла платить.

Скачать для Windows и macOS