Что такое Handy и кто его сделал?

Handy — open-source десктоп-приложение для voice typing на Windows, macOS и Linux. Проект ведёт solo-разработчик CJ Pais (cjpais на GitHub) с MIT-лицензией. Основной репозиторий — github.com/cjpais/Handy. К маю 2026 у него 21.5 тысячи звёзд, 1.8 тысячи форков, 57 релизов с момента старта, последний (v0.8.3) — 28 апреля 2026. Активная разработка, есть Discord-сообщество, Raycast-интеграция от внешнего контрибьютора. Это не корпоративный продукт, а полностью community-driven проект, что и определяет его сильные и слабые стороны.

Сколько весит модель Handy и потянет ли мой компьютер?

Зависит от выбранной модели. Whisper Small — 487 МБ, работает на любом современном железе но точность ниже. Whisper Medium — 492 МБ, чуть лучше. Whisper Large — 1.1 ГБ, нужен GPU или мощный CPU. Whisper Turbo — 1.6 ГБ, оптимизированный под скорость на современных видеокартах. Parakeet V3 от NVIDIA — CPU-only, работает на Intel Skylake (6-е поколение) и выше, выдаёт ~5x real-time на mid-range железе без GPU. На MacBook Air M1+ и любом современном Mac с Apple Silicon все варианты идут без проблем, на Windows-ноутбуке с Intel i5 без видеокарты — стоит начать с Parakeet V3.

Какая точность Handy на русском по сравнению с облачным Whisper?

Под капотом Whisper-модели Handy — это open-source веса OpenAI, ровно те же, что используют Wispr Flow, SuperWhisper и Диктуй (последний через Groq инференс). Точность распознавания при равных условиях должна совпадать в пределах статистической погрешности — 5–6% WER на чистой русской речи для Large-v3-turbo. Разница возникает на скорости: облачный Whisper Turbo через Groq обрабатывает минуту записи за 2–4 секунды, локальный Whisper Turbo на MacBook M1 — за 5–10 секунд, на Intel-ноутбуке без GPU — за 15–30 секунд. Parakeet V3 быстрее Whisper на CPU и поддерживает авто-определение языка, но точность на mixed RU+EN речи слегка ниже Whisper Large-v3-turbo.

Можно ли установить Handy на Windows если возникают краши?

Известная проблема, прямо описана в README репозитория: «Whisper models crash on certain system configurations (Windows and Linux)» — модели падают на определённых конфигурациях, и проблема зависит от железа. Если на вашем Windows-ноутбуке Whisper упорно крашится, рабочий обходной путь — переключиться на Parakeet V3 (CPU-only, более стабильно), либо перейти на облачный сервис. Linux под Wayland требует дополнительной утилиты wtype или dotool для вставки текста — без них Handy будет распознавать, но не сможет вставить распознанное в активное окно.

Чем Handy отличается от OpenWhispr и WhisperWriter?

Все три — open-source voice typing на Whisper, но с разным фокусом. **Handy** (cjpais) — MIT, активно развивается, поддерживает локальные модели и Parakeet, фокус на простоту и cross-platform. **OpenWhispr** (openwhispr.com) — также OSS, дополнительно поддерживает BYOK (Bring Your Own Key) для облачных моделей вроде Nvidia Parakeet API или Whisper API через OpenAI. Это компромисс: больше выбора моделей, но часть функций требует cloud-ключа. **WhisperWriter** (savbell на GitHub) — старее, написан на Python, менее активен (последние коммиты редкие), меньшая комьюнити. Из трёх для нового пользователя Handy — самый безопасный выбор по совокупности: активная разработка, нормальный UI на Tauri, проверенная производительность.

Поддерживает ли Handy Parakeet V3 и в чём его плюсы?

Да, поддерживает с релизов 2025 года. Parakeet — семейство моделей распознавания речи от NVIDIA Speech (вышло из проекта NeMo). V3 — последняя версия по состоянию на 11 мая 2026, оптимизирована под CPU. Плюсы относительно Whisper: автоматическое определение языка без ручного выбора (Whisper требует явно указать язык для лучшего результата), скорость инференса на CPU без GPU в 3–5 раз выше Whisper Small, ниже по латентности на коротких фразах. Минусы: точность на сложной mixed RU+EN речи (типичной для российских разработчиков) слегка ниже Whisper Large-v3-turbo. Для повседневной диктовки на чистом русском Parakeet V3 — отличный выбор, особенно если железо не позволяет крутить Whisper Large локально.

Можно ли заменить Wispr Flow или SuperWhisper на Handy полностью?

Зависит от сценария. Сильные стороны Wispr Flow и SuperWhisper, которых нет у Handy: AI-rewrite распознанного текста (Transforms у Wispr Beta с 1 мая 2026, Rewrite у SuperWhisper), мобильные приложения у Wispr (iOS и Android с февраля 2026), полированный UX и поддержка по тикетам. Сильные стороны Handy: бесплатность, отсутствие подписки, локальная обработка для приватных задач, нативная Linux-сборка, open-source код который вы можете форкнуть и допилить. Реалистичный сценарий замены: разработчик, работающий только на десктопе, чьи задачи закрываются простой диктовкой без AI-постобработки, и которому критична приватность или просто не хочется платить подписку — может заменить полностью. Тот, кто пользуется AI-rewrite режимом для очистки промптов или работает с диктовкой на мобильном — не может.

Когда Handy подходит, а когда лучше облачный сервис?

Handy подходит когда: 1) приватность критична — медицинские записи, юридические интервью, психологические сессии, конфиденциальные созвоны, и аудио физически не должно уходить с устройства, 2) нужен Linux — Handy единственный из активных voice-typing проектов с нативной Linux-сборкой и инструкциями для Wayland, 3) важно отсутствие подписки и контроль над инфраструктурой — open-source, форк, аудит кода. Облачный сервис (Диктуй, Wispr Flow, SuperWhisper) лучше когда: 1) нужен AI-rewrite надиктованного текста — locally этого пока нет в Handy, 2) важна транскрибация файлов (MP3, MP4) drag-and-drop'ом — Handy для real-time диктовки, не для файлов, 3) русский UI и поддержка на русском важны, 4) нет времени или желания возиться со скачиванием 1.6 ГБ модели и выставлением permissions, 5) скорость распознавания критична на слабом ноутбуке без GPU.

11 мая 2026 г.13 мин чтенияМихаил Воинский, основатель Диктуй

Handy: open-source голосовой ввод без облака — 21.5 тысячи звёзд и где работает на русском в 2026

Handy — open-source voice typing на Whisper и Parakeet V3, 21.5k звёзд на GitHub, MIT, бесплатно. Разбор: где локальная обработка реально побеждает, где облачный сервис ничем не заменишь.

Коротко

Handy — open-source десктоп-приложение для voice typing, 100% локально, MIT, бесплатно. 21.5 тысячи звёзд на GitHub. Использует Whisper Small/Medium/Turbo/Large или CPU-friendly Parakeet V3 от NVIDIA. Установка через Homebrew cask или winget, не только GitHub. Сильные стороны: приватность, нативный Linux, выбор разработчиков-OSS-фанатов. Минусы: скачивание модели 0.5–1.6 ГБ, английский UI, нестабильность Whisper на части Windows-конфигов, нет AI-rewrite и транскрибации файлов из коробки.

На GitHub лежит проект с 21.5 тысячами звёзд к началу мая 2026, MIT-лицензией и довольно громким обещанием — voice typing на любой системе, без облака, бесплатно навсегда. Звучит как лобовое попадание в мой продукт. Но я пользуюсь им параллельно собственному Диктую уже три недели и могу сказать прямо: это не так. Handy и Диктуй закрывают разные jobs-to-be-done, и читателю стоит знать обе границы — где локальное open-source решение реально побеждает, и где облачный коммерческий сервис закрывает то, что локальный не закроет никогда.

Замечание о моей позиции: я делаю Диктуй, коммерческий voice-input на Whisper Large-v3-turbo через Groq. Handy — мой технологический сосед, не прямой конкурент. Он закрывает другой сценарий: приватность, локальный inference, контроль над инфраструктурой. Где это критично — Handy выигрывает, и я первым говорю об этом ниже. Где критичны другие вещи — Диктуй закрывает. Расскажу обе стороны.

Что такое Handy и почему 21 тысяча звёзд

Handy — open-source десктоп-приложение для voice typing. Принцип ровно тот же, что у Wispr Flow, SuperWhisper или Диктуй: зажал горячую клавишу, проговорил фразу, отпустил — распознанный текст вставился в активное окно поверх курсора. Работает с любым приложением где можно ввести текст: VS Code, Cursor, Notion, Telegram, Word, браузерные поля форм.

Принципиальное отличие — где именно происходит распознавание. У Wispr и Диктуй аудио летит на сервер, проходит через Whisper Large-v3-turbo (у Wispr — proprietary ASR), возвращается текстом. У Handy всё происходит локально: модель скачивается один раз, дальше работает прямо на вашем железе без интернета.

Проект ведёт solo-разработчик CJ Pais под ником cjpais. История репозитория видна на GitHub: первый коммит — лето 2024, 57 релизов за полтора года, 667 коммитов на main, последний релиз v0.8.3 — 28 апреля 2026. Это не корпоративный продукт с PR-машиной за спиной, а проект одного человека плюс контрибьюторы из комьюнити — но 21.5 тысячи звёзд и 1.8 тысячи форков говорят, что аудитория продукт нашла.

Почему столько внимания. В индустрии voice typing 2026 года — большинство серьёзных решений коммерческие и облачные. Wispr Flow подняли Series A раунд от Notable Capital и Flight Fund в ноябре 2025 и стали глобальным лидером в категории, SuperWhisper и Aqua Voice заняли Mac-нишу с премиальным позиционированием, российский SpeakFlow и Диктуй закрывают РФ-рынок. У открытого, бесплатного и локального проекта на этом фоне есть аудитория — приватность-чувствительные разработчики, фанаты OSS, бюджетники, Linux-юзеры. Handy именно эту аудиторию и обслуживает.

Лендинг handy.computer: формулировка «Speak into any text field» и слоган «accessibility tooling belongs in everyone's hands, not behind a paywall» задают весь продуктовый тон.

Технический стек: Whisper плюс Parakeet V3, всё локально

Под капотом — пара open-source моделей распознавания речи:

Whisper от OpenAI (модели Small 487 МБ, Medium 492 МБ, Turbo 1.6 ГБ, Large 1.1 ГБ) — мульти-язычная ASR обученная на 680 тысячах часов речи, включая ~30 тысяч часов русского. С GPU-ускорением (CUDA на NVIDIA, Metal на Apple Silicon, OpenCL/Vulkan на AMD) работает быстро. На CPU без GPU — медленнее, особенно крупные модели.
Parakeet V3 — модель от NVIDIA из проекта NeMo. CPU-оптимизирована, не требует GPU, поддерживает автоматическое определение языка. На mid-range CPU вроде Intel i5 8-го поколения выдаёт примерно 5x real-time скорость — минуту записи распознаёт за 12 секунд.

Силовая обвязка построена на Tauri — это Rust-backend плюс React+TypeScript+Tailwind фронт, упакованный в нативное desktop-приложение. Не Electron — это важно для производительности и размера бандла. Ключевые библиотеки видны прямо в README: whisper-rs для Whisper-инференса, transcribe-rs для Parakeet, vad-rs для Silero VAD (отсечение тишины перед распознаванием), cpal для cross-platform audio I/O, rdev для глобальных горячих клавиш.

Архитектура честно open-source: исходники читаемые, форкаются, контрибуции принимаются, лицензия MIT. Любая компания может взять Handy и собрать под себя — некоторые так и делают.

Как установить Whisper локально на Mac, Windows и Linux через Handy

Это место, где я недооценил продукт в первом разборе. Установка Handy — не «возня для разработчика», и это не сборка через git clone плюс долгая компиляция. На Mac работает brew install --cask handy, на Windows — winget install cjpais.Handy. Полминуты, и приложение в системе. Когда пакетные менеджеры не используете — на handy.computer лежит обычный DMG для Mac и MSI для Windows, для Linux — AppImage / deb / rpm с GitHub Releases страницы. Это, по сути, тот же путь, что и любая desktop-программа, только под капотом — voice to text офлайн на ваших ресурсах, без отправки звука куда-либо.

Дальше типовая последовательность: выдать accessibility-разрешения (без них приложение не сможет вставлять текст в активное окно), скачать модель через UI настроек (выбираете Whisper Small, Medium, Turbo, Large или Parakeet V3), настроить горячую клавишу, проверить в любом текстовом поле.

Время от пакетного менеджера до первой надиктованной фразы — около 10 минут. Из них львиная доля — скачивание модели. Whisper Small 487 МБ на хорошем интернете — минута. Whisper Turbo 1.6 ГБ — три-четыре. Основная стоимость входа именно здесь, не в самом приложении.

Где Handy реально побеждает

Три аргумента из жизни: приватность на уровне архитектуры, единственный нативный Linux, open-source код. Дополнительный плюс четвёртой строкой — отсутствие зависимости от VPN: голосовой ввод на русском без VPN и без проблем с блокировкой облачного провайдера работает на любой системе, у которой есть один раз скачанная модель.

Приватность: аудио никогда не уходит с компьютера

Это главное и неоспоримое преимущество. Облачные voice-сервисы (Диктуй, Wispr, SuperWhisper в облачном режиме) отправляют аудио на сервер, обрабатывают там, возвращают текст. Файл может быть удалён сразу после возврата (так делаю я у себя), может храниться какое-то время для качества — зависит от сервиса и его privacy policy.

С Handy этот вопрос снимается на архитектурном уровне. Аудио распознаётся локально, никакого upload'а нет — и быть не может, потому что приложению просто не нужен интернет для работы. Для трёх категорий пользователей это решающий фактор:

Медики, юристы, психологи — для которых отправка пациентских или клиентских данных в облако может означать нарушение профессиональной тайны в зависимости от юрисдикции и privacy policy конкретного сервиса. Облачный сервис здесь не подходит независимо от страны хранения, а локальная обработка снимает вопрос целиком.
Кто работает с конфиденциальной информацией бизнеса — внутренние документы, M&A, договоры, переписка с подрядчиками о коммерчески чувствительном.
Те, кто принципиально не хочет давать никому больше данных — про себя, свой workflow, голос как биометрию. Это валидная позиция, и облачный сервис ей не отвечает.

Linux: единственный среди активных voice-typing проектов

К маю 2026 нативная Linux-сборка у крупных конкурентов отсутствует. Wispr Flow — Win + Mac + iOS + Android, Linux нет в roadmap. SuperWhisper — Mac первоприоритет, Win отстаёт, Linux нет. Диктуй — Win + Mac, Linux нет. У Handy — есть AppImage, deb, rpm для популярных дистрибутивов.

С нюансом: на Wayland (современный GNOME, KDE Plasma в Linux) для вставки текста в активное окно нужна вспомогательная утилита (wtype или dotool), и глобальные хоткеи приходится прокидывать через DE-shortcuts вместо встроенного механизма Handy. README репозитория всё это подробно описывает — такая плата за нативность для Linux-пользователя в 2026.

Open source: вы можете форкнуть и допилить

Когда нужна конкретная фича, а приоритет автора не совпадает с вашим — у вас есть исходники под MIT. Можете форкнуть, добавить, пересобрать. Я знаю как минимум двух человек из русского AI-комьюнити, которые в свой fork Handy добавили специфическую доменную лексику для своей работы (медицинские термины, юридическая аббревиатура). С коммерческим сервисом так не сделать. Кто на этом строит реальный workflow и нашёл интересный fork-сценарий — напишите мне на support@diktuy.ru, я веду внутреннюю подборку для собственного roadmap'а Диктуй и могу сослаться на ваш кейс в следующих публикациях.

Где Handy не подходит

Здесь нужно говорить так же прямо, как и про сильные стороны.

Нет AI-rewrite надиктованного текста

Современные voice-инструменты Wispr Flow (Transforms Beta с 1 мая 2026) и SuperWhisper (Rewrite Pro) умеют после распознавания применить LLM-обработку к надиктованному тексту: выделил, голосом дал инструкцию «оформи как чистый промпт», «убери эээ», «переведи на английский» — модель перепишет фрагмент in-place. У Диктуй это называется Режимом трансформации и работает с релиза.

У Handy этой функции нет, и архитектурно она потребует или локальной LLM (lama.cpp с моделью на 4–8 ГБ дополнительно к 1.6 ГБ Whisper Turbo), или подключения к облачному API — а это уже размывает чистую локальность продукта. Для тех, кто использует voice-typing преимущественно для AI-промптинга в Cursor, Claude Code или ChatGPT — отсутствие этого блока чувствуется быстро. Подробнее про сценарии где AI-rewrite окупается — в статье про 30-дневный эксперимент с заменой клавиатуры голосом.

Нет drag-and-drop транскрибации файлов

Handy спроектирован под real-time диктовку. Чтобы расшифровать готовый аудио- или видеофайл, нужна совсем другая работа: загрузить, обработать чанками, выдать результат с тайм-кодами и опцией экспорта в .srt или .docx. У Handy такого функционала из коробки нет. Технически можно собрать pipeline через CLI, но это уже DIY-задача, а не «прийти и пользоваться».

Это сценарий, где облачные сервисы выигрывают по дизайну — у Диктуй, GuruScribe, Sonix, TurboScribe есть встроенный UI под транскрибацию файлов. Подробный разбор сценария с диктофонными записями — в пошаговом гайде «Диктофон в текст», сравнение восьми сервисов по точности на русском — в отдельной статье «Транскрибация аудио в текст».

Английский UI и документация

Интерфейс настроек, окно приветствия, README на GitHub, Discord-комьюнити — всё на английском. Для билингвального разработчика это не препятствие, для повседневного пользователя — реальное трение. Возникает баг в работе — где искать ответ? В английских issues на GitHub. Хочется задать вопрос — в Discord комьюнити (то же английский). Для части русскоязычной аудитории это закрывает Handy быстрее, чем все остальные плюсы открывают.

Известные краши Whisper на части Windows-конфигов

В README репозитория прямо написано: «Whisper models crash on certain system configurations (Windows and Linux)». Проблема не у всех — зависит от железа, версии драйверов, конкретного CUDA-стека. Если попадёте — workaround есть (переключиться на Parakeet V3 вместо Whisper), но это уже не «поставил и пользуешься».

Облачный сервис эту категорию проблем не имеет в принципе: сервер настроен один раз и для всех. Разница чувствуется на не самом топовом Windows-ноутбуке.

Setup-стоимость для не-tech пользователя

Скачать 1.6 ГБ модель, выдать accessibility permissions, разобраться какую модель выбрать, при необходимости поставить вспомогательные утилиты для Linux. Для разработчика — пятнадцать минут на полный setup. Для маркетолога или юриста, который хочет диктовать в Word — порог, который удержит от продолжения.

Производительность на русском: что ждать

Технически модели Whisper в Handy — те же open-source веса OpenAI, которые крутят в облаке Wispr, SuperWhisper и Диктуй. WER на чистой русской речи у Whisper Large-v3 — около 7–9%, у Whisper Large-v3-turbo — 5–6%. Для контекста, у специализированной под русский GigaAM v3 от Сбера — 3.3% по бенчмарку Habr. Но GigaAM Handy не использует, и я первым исправляю собственное утверждение из предыдущей статьи про Wispr Flow — там я писал, что Handy опирается на GigaAM. По официальному README репозитория это не так: Handy работает только с Whisper и Parakeet V3.

На практике — у меня на MacBook Air M2 (16 ГБ RAM, Apple Silicon Metal) Whisper Turbo в Handy расшифровывает минуту чистого русского за 7–9 секунд. Через Диктуй (Groq cloud) та же запись — за 2–3 секунды. На Intel i5 без видеокарты Whisper Turbo упирается в 30+ секунд на минуту записи, и Parakeet V3 здесь действительно выручает — он на том же железе выдаёт минуту за 12 секунд.

Точность распознавания на mixed RU+EN (типичная речь разработчика с «push в main», «webhook», «middleware») у Handy примерно равна Wispr / SuperWhisper / Диктуй — потому что модель одна и та же. Разница в скорости и удобстве, не в качестве.

Репозиторий cjpais/Handy на GitHub: 21.5k звёзд, 1.8k форков, MIT-лицензия, активный roadmap. Один solo-разработчик за всем проектом.

Сводная таблица: open-source и локальные voice-typing решения 2026

	Handy	OpenWhispr	SuperWhisper (local)	Диктуй (для контраста)
Лицензия	MIT (open-source)	OSS	Коммерч. с free-тарифом	Коммерческий
Платформы	Win + Mac + Linux	Win + Mac + Linux	Mac первоприоритет, Win	Win + Mac
Обработка	Локально	Локально + BYOK cloud	Локально или cloud	Cloud (Groq)
Модели	Whisper Small/Med/Turbo/Large + Parakeet V3	Whisper, Parakeet + BYOK	Whisper Large + локальная	Whisper Large-v3-turbo
Цена	Бесплатно	Бесплатно	$0–$8.5/мес	0–599 ₽/мес
Установка	brew/winget/AppImage	GitHub	DMG	DMG / MSIX
AI-rewrite	❌	❌	✅ (Pro)	✅ Режим трансформации
Транскрибация файлов	❌ (CLI)	❌	❌ (только diктовка)	✅ drag-and-drop
RU UI	❌	❌	❌	✅
Linux native	✅	✅	❌	❌
Звёзд на GitHub	21.5k	~2k	proprietary	proprietary

Краткий вывод по таблице — Handy выигрывает у OpenWhispr по совокупности (активность, UI, экосистема), у SuperWhisper-локального — по Linux и цене, у облачных сервисов — по приватности. Облачные выигрывают у Handy по скорости, AI-rewrite, транскрибации файлов и UX «поставил → пользуйся».

Honest scenarios: когда что выбрать

Не «лучший сервис», а конкретные сценарии под конкретных пользователей.

Разработчик на Linux, основная диктовка для Cursor и Claude Code на mixed RU+EN, приватность не критична. Handy — единственный нативный Linux вариант среди серьёзных. AI-rewrite не критичен если вы готовы причёсывать промпт руками. Используйте Parakeet V3 для скорости.

Юрист, медик, психолог — конфиденциальные записи. Handy на Mac или Windows — закрывает приватность на архитектурном уровне. Облачный сервис здесь не подходит независимо от страны хранения и сертификатов — потому что аудио всё равно физически уходит с устройства.

Разработчик-фаундер на Mac, основная нагрузка — длинные промпты для AI-моделей. Здесь Диктуй или SuperWhisper выигрывают за счёт AI-rewrite, который у Handy отсутствует. Если стартап — Pro-тариф Диктуй 449 ₽/мес окупается на первой неделе экономии времени.

Контент-мейкер — пишу статьи, расшифровываю интервью. Handy не закрывает транскрибацию файлов из коробки, и это критичный gap. Лучше Диктуй (Free 30 минут навсегда для теста) или GuruScribe — там drag-and-drop файла и готовый текст.

Студент, бюджет ноль, готов разбираться. Handy + Whisper Small. 487 МБ модель, бесплатно, никаких подписок. Для конспектов лекций и заметок — ровно то, что нужно. Если железо позволяет — Whisper Turbo даст точность ближе к платным сервисам.

Маркетолог или менеджер, никаких заморочек, нужен voice-typing «прямо сейчас». Handy скорее всего откажется в пользу Диктуй или Wispr Flow — у первого DMG/MSIX и русский UI, у второго отполированный onboarding на английском. Setup-стоимость Handy здесь не окупается, потому что приватность не главное.

Что дальше с локальным voice-typing

Тренд на локальную обработку усиливается, не ослабевает. NVIDIA в 2025–2026 серьёзно вложилась в Parakeet и NeMo, оптимизация Whisper на CPU быстро прогрессирует, размеры моделей уменьшаются при сохранении качества. Через год-полтора, я думаю, локальные voice-tools займут заметную долю того, что сейчас держит облако — особенно в сегменте privacy-чувствительных профессий.

Handy в этой картине — точка отсчёта, на которую будут оглядываться следующие open-source проекты. CJ Pais делает редкое — поддерживает MIT-проект с большой аудиторией без VC-денег за спиной, регулярными релизами и без выгорания. Это само по себе ценно.

Если ваш use-case попадает в «когда Handy подходит» — пробуйте. handy.computer, brew install --cask handy для Mac, winget install cjpais.Handy для Windows, GitHub Releases для Linux. Free, MIT, без подвохов.

Если попадает в «когда Handy не подходит» — у Диктуй есть 30 бесплатных минут навсегда без карты. Этого хватит, чтобы прогнать пять-семь типичных задач и понять, окупается ли подписка под ваш workflow или достаточно бесплатного локального решения. Параллельные обзоры и где какой voice-tool работает на русском — в сравнении Wispr Flow и альтернатив для РФ, гайде по vibe coding на русском и разборе voice-prompting в Cursor и Claude Code с тестом на контрольном промпте 287 слов.

Запрос на open-source инструменты в voice-typing нише — здоровый сигнал. И в этом запросе Handy сейчас стоит первым.

Михаил Воинский — основатель Диктуй. Свой кейс с Handy или другим локальным voice-tool — особенно на Linux — пишите на support@diktuy.ru или в @diktuy_help. Linux-сценарий мне интересен отдельно: у Диктуй нативной Linux-сборки нет, и я хочу понимать какой workflow реально окупается у читателей, кто на этом строит повседневную работу.

Часто задаваемые вопросы

Что такое Handy и кто его сделал?: Handy — open-source десктоп-приложение для voice typing на Windows, macOS и Linux. Проект ведёт solo-разработчик CJ Pais (cjpais на GitHub) с MIT-лицензией. Основной репозиторий — github.com/cjpais/Handy. К маю 2026 у него 21.5 тысячи звёзд, 1.8 тысячи форков, 57 релизов с момента старта, последний (v0.8.3) — 28 апреля 2026. Активная разработка, есть Discord-сообщество, Raycast-интеграция от внешнего контрибьютора. Это не корпоративный продукт, а полностью community-driven проект, что и определяет его сильные и слабые стороны.
Сколько весит модель Handy и потянет ли мой компьютер?: Зависит от выбранной модели. Whisper Small — 487 МБ, работает на любом современном железе но точность ниже. Whisper Medium — 492 МБ, чуть лучше. Whisper Large — 1.1 ГБ, нужен GPU или мощный CPU. Whisper Turbo — 1.6 ГБ, оптимизированный под скорость на современных видеокартах. Parakeet V3 от NVIDIA — CPU-only, работает на Intel Skylake (6-е поколение) и выше, выдаёт ~5x real-time на mid-range железе без GPU. На MacBook Air M1+ и любом современном Mac с Apple Silicon все варианты идут без проблем, на Windows-ноутбуке с Intel i5 без видеокарты — стоит начать с Parakeet V3.
Какая точность Handy на русском по сравнению с облачным Whisper?: Под капотом Whisper-модели Handy — это open-source веса OpenAI, ровно те же, что используют Wispr Flow, SuperWhisper и Диктуй (последний через Groq инференс). Точность распознавания при равных условиях должна совпадать в пределах статистической погрешности — 5–6% WER на чистой русской речи для Large-v3-turbo. Разница возникает на скорости: облачный Whisper Turbo через Groq обрабатывает минуту записи за 2–4 секунды, локальный Whisper Turbo на MacBook M1 — за 5–10 секунд, на Intel-ноутбуке без GPU — за 15–30 секунд. Parakeet V3 быстрее Whisper на CPU и поддерживает авто-определение языка, но точность на mixed RU+EN речи слегка ниже Whisper Large-v3-turbo.
Можно ли установить Handy на Windows если возникают краши?: Известная проблема, прямо описана в README репозитория: «Whisper models crash on certain system configurations (Windows and Linux)» — модели падают на определённых конфигурациях, и проблема зависит от железа. Если на вашем Windows-ноутбуке Whisper упорно крашится, рабочий обходной путь — переключиться на Parakeet V3 (CPU-only, более стабильно), либо перейти на облачный сервис. Linux под Wayland требует дополнительной утилиты wtype или dotool для вставки текста — без них Handy будет распознавать, но не сможет вставить распознанное в активное окно.
Чем Handy отличается от OpenWhispr и WhisperWriter?: Все три — open-source voice typing на Whisper, но с разным фокусом. **Handy** (cjpais) — MIT, активно развивается, поддерживает локальные модели и Parakeet, фокус на простоту и cross-platform. **OpenWhispr** (openwhispr.com) — также OSS, дополнительно поддерживает BYOK (Bring Your Own Key) для облачных моделей вроде Nvidia Parakeet API или Whisper API через OpenAI. Это компромисс: больше выбора моделей, но часть функций требует cloud-ключа. **WhisperWriter** (savbell на GitHub) — старее, написан на Python, менее активен (последние коммиты редкие), меньшая комьюнити. Из трёх для нового пользователя Handy — самый безопасный выбор по совокупности: активная разработка, нормальный UI на Tauri, проверенная производительность.
Поддерживает ли Handy Parakeet V3 и в чём его плюсы?: Да, поддерживает с релизов 2025 года. Parakeet — семейство моделей распознавания речи от NVIDIA Speech (вышло из проекта NeMo). V3 — последняя версия по состоянию на 11 мая 2026, оптимизирована под CPU. Плюсы относительно Whisper: автоматическое определение языка без ручного выбора (Whisper требует явно указать язык для лучшего результата), скорость инференса на CPU без GPU в 3–5 раз выше Whisper Small, ниже по латентности на коротких фразах. Минусы: точность на сложной mixed RU+EN речи (типичной для российских разработчиков) слегка ниже Whisper Large-v3-turbo. Для повседневной диктовки на чистом русском Parakeet V3 — отличный выбор, особенно если железо не позволяет крутить Whisper Large локально.
Можно ли заменить Wispr Flow или SuperWhisper на Handy полностью?: Зависит от сценария. Сильные стороны Wispr Flow и SuperWhisper, которых нет у Handy: AI-rewrite распознанного текста (Transforms у Wispr Beta с 1 мая 2026, Rewrite у SuperWhisper), мобильные приложения у Wispr (iOS и Android с февраля 2026), полированный UX и поддержка по тикетам. Сильные стороны Handy: бесплатность, отсутствие подписки, локальная обработка для приватных задач, нативная Linux-сборка, open-source код который вы можете форкнуть и допилить. Реалистичный сценарий замены: разработчик, работающий только на десктопе, чьи задачи закрываются простой диктовкой без AI-постобработки, и которому критична приватность или просто не хочется платить подписку — может заменить полностью. Тот, кто пользуется AI-rewrite режимом для очистки промптов или работает с диктовкой на мобильном — не может.
Когда Handy подходит, а когда лучше облачный сервис?: Handy подходит когда: 1) приватность критична — медицинские записи, юридические интервью, психологические сессии, конфиденциальные созвоны, и аудио физически не должно уходить с устройства, 2) нужен Linux — Handy единственный из активных voice-typing проектов с нативной Linux-сборкой и инструкциями для Wayland, 3) важно отсутствие подписки и контроль над инфраструктурой — open-source, форк, аудит кода. Облачный сервис (Диктуй, Wispr Flow, SuperWhisper) лучше когда: 1) нужен AI-rewrite надиктованного текста — locally этого пока нет в Handy, 2) важна транскрибация файлов (MP3, MP4) drag-and-drop'ом — Handy для real-time диктовки, не для файлов, 3) русский UI и поддержка на русском важны, 4) нет времени или желания возиться со скачиванием 1.6 ГБ модели и выставлением permissions, 5) скорость распознавания критична на слабом ноутбуке без GPU.

Попробуйте Диктуй бесплатно

30 минут навсегда. Без карты, без trial. Если не зайдёт за первые 10 промптов — нет смысла платить.

Скачать для Windows и macOS