Голос вместо клавиатуры: как я сделал desktop-приложение на Python, Whisper и AI

Я давно хотел сделать небольшой инструмент, который позволит быстрее работать с текстом через голос.

Но не просто в формате обычной диктовки, когда приложение распознало речь и вставило сырой текст. Такие решения уже есть, но у них часто одна и та же проблема: после распознавания текст всё равно приходится руками править, расставлять знаки препинания, убирать слова-паразиты, переформулировать фразы и приводить всё в нормальный вид.

Мне хотелось сделать немного другой подход:

говоришь голосом — получаешь сразу готовый результат.

Так появился небольшой desktop-проект STT Desktop.

Это не классическая разработка веб-приложений, а отдельное desktop-приложение на Python. Но сама логика очень похожа на то, что часто требуется в бизнес-проектах: взять неудобный ручной процесс, добавить автоматизацию, подключить нейросеть и превратить это в рабочий инструмент.

В чём идея приложения

STT Desktop — это приложение для голосового ввода, которое работает как промежуточный слой между голосом и нужным результатом.

Сценарий простой:

Нажимаешь горячую клавишу.
Говоришь фразу.
Приложение распознаёт речь через Whisper.
Полученный текст отправляется в нейронку.
Нейронка преобразует текст по выбранному режиму.
Готовый результат автоматически вставляется туда, где сейчас стоит курсор.

То есть это не просто “голос в текст”.

Это скорее голосовой интерфейс для работы с текстом, кодом, командами и любыми шаблонными задачами.

В похожей логике можно делать и бизнес-инструменты: CRM-модули, внутренние сервисы, личные кабинеты, AI-ассистентов, интеграции с API и другие решения, где важно не просто “сделать форму”, а встроиться в реальный рабочий процесс.

Какие режимы есть

Главная фишка приложения — режимы обработки.

Один и тот же голосовой ввод можно преобразовать по-разному.

Например, можно надиктовать обычную мысль, а на выходе получить аккуратный текст:

Привет! Как дела? Давай созвонимся завтра.

Можно голосом описать, какой SQL-запрос нужен, и получить готовый SQL.

Можно сказать задачу для терминала и получить Linux-команду.

Можно использовать режим перевода на английский.

А можно добавить свой режим через промпт и настроить приложение под конкретный рабочий процесс.

Например:

улучшение текста;
SQL-запрос;
Linux-команда;
перевод на английский;
форматирование сообщения;
подготовка письма;
генерация задачи;
преобразование заметки в нормальный текст.

По сути, режим — это отдельный промпт, который объясняет нейронке, что нужно сделать с распознанной речью.

Почему это удобнее обычной диктовки

Обычная диктовка решает только первую часть задачи: переводит речь в текст.

Но в реальной работе почти всегда нужно что-то ещё.

Когда я диктую текст, я могу говорить неидеально: с паузами, словами-паразитами, повторами, не очень точной структурой. Для человека это нормально, но в текстовом виде выглядит плохо.

Поэтому приложение сначала распознаёт речь, а потом нейронка приводит результат в нормальный вид.

Например, я могу сказать:

так привет как дела давай наверное завтра созвонимся и обсудим этот вопрос

А получить:

Привет! Как дела? Давай завтра созвонимся и обсудим этот вопрос.

Это сильно снижает трение. Не нужно сначала надиктовать, потом перечитать, потом отредактировать, потом скопировать, потом вставить. Приложение сразу отдаёт более пригодный результат.

Такая же идея часто используется и в разработке веб-приложений для бизнеса: не просто перенести старый процесс в интерфейс, а сделать так, чтобы человеку стало проще выполнять задачу.

Голос как интерфейс для команд

Самая интересная часть — это не только работа с обычным текстом.

Например, можно использовать голос для терминала.

Ты не диктуешь команду буквально, а говоришь, что хочешь сделать:

создай папку logs и покажи список файлов

А приложение может вернуть:

mkdir logs && ls -la

То же самое можно делать с SQL.

Например, голосом описать:

выбери сегодняшние заказы

И получить заготовку запроса:

SELECT *
FROM orders
WHERE created_at::date = CURRENT_DATE;

Конечно, такие команды всё равно нужно проверять перед выполнением. Но сама идея удобная: голос становится способом быстро сформулировать намерение, а нейронка превращает его в рабочую форму.

Техническая часть

Приложение сделано на Python с интерфейсом на PySide6.

Для распознавания речи используется Whisper. В зависимости от настроек можно выбрать модель, например tiny или base. tiny быстрее стартует и быстрее работает, base может быть точнее.

После распознавания текст отправляется в AI-провайдер. В приложении предусмотрена работа с GigaChat, OpenAI или любым OpenAI-совместимым API.

Это удобно, потому что можно подключать разные модели и не быть привязанным к одному конкретному сервису.

Основные части приложения:

desktop-интерфейс на PySide6;
запись голоса;
локальное распознавание речи через Whisper;
режимы обработки через промпты;
горячая клавиша для запуска записи;
автоматическая вставка результата в активное поле;
настройки AI-провайдера и модели.

С технической точки зрения это небольшой проект, но в нём есть важная связка: интерфейс, локальная обработка, интеграция с AI API и удобный сценарий использования. Примерно такие же принципы я использую, когда занимаюсь разработкой MVP, внутренних сервисов или веб-сервисов под ключ.

Почему desktop, а не веб-сервис

Я специально сделал это desktop-приложением.

Задача здесь не в том, чтобы открыть сайт, загрузить файл, получить результат и потом куда-то его скопировать.

Задача — быстро использовать голос прямо там, где я уже работаю:

в Telegram;
в браузере;
в редакторе кода;
в терминале;
в CRM;
в почте;
в любом текстовом поле.

То есть приложение должно быть рядом с рабочим процессом, а не отдельной вкладкой в браузере.

Нажал горячую клавишу, сказал, получил результат в активном окне.

Если бы задача была не для личного использования, а для команды или компании, это уже можно было бы развивать в сторону полноценного веб-приложения: с личными кабинетами, ролями, историей запросов, настройками промптов, оплатой, API и интеграциями.

Разработка с AI-агентами

Проект я делал с помощью AI-агентов в формате vibe coding.

Для меня это уже не просто эксперимент, а нормальный рабочий подход: я формулирую задачу, контролирую архитектуру, проверяю результат, направляю агента, дорабатываю проблемные места и собираю всё в рабочее приложение.

AI здесь не заменяет разработчика полностью, но хорошо ускоряет рутинные части:

генерацию каркаса приложения;
работу с UI;
написание вспомогательного кода;
исправление ошибок;
подготовку конфигурации;
сборку проекта;
рефакторинг отдельных частей.

Но ответственность за итоговую архитектуру, проверку логики и понимание продукта всё равно остаётся на разработчике.

И это важный момент, особенно если вы хотите найти разработчика для проекта. Сейчас мало просто “уметь писать код”. Важно понимать продукт, архитектуру, ограничения, интеграции, безопасность данных и то, где AI действительно помогает, а где его нужно контролировать.

Где это может быть полезно для бизнеса

Хотя STT Desktop — это мой личный экспериментальный инструмент, сама идея хорошо переносится на бизнес-задачи.

Например, похожую механику можно использовать для:

голосового заполнения CRM;
подготовки писем и коммерческих предложений;
генерации задач в таск-трекере;
обработки заявок от клиентов;
расшифровки звонков и встреч;
автоматического создания кратких отчётов;
подготовки SQL-запросов или аналитических выборок;
внутренних AI-ассистентов для сотрудников.

Здесь уже начинается не просто “игра с нейросетями”, а нормальная автоматизация бизнес-процессов.

Во многих компаниях есть повторяющиеся действия, которые сотрудники делают руками: копируют данные, пишут однотипные сообщения, формируют отчёты, переносят информацию между системами. Такие задачи можно закрывать через разработку веб-приложений, интеграции с API, desktop-инструменты или внутренние сервисы.

Главное — сначала понять реальный процесс, а уже потом выбирать технологию.

Что получилось

В итоге получился небольшой, но полезный инструмент.

Он позволяет:

диктовать текст голосом;
сразу улучшать распознанный текст;
убирать мусор из речи;
добавлять пунктуацию;
преобразовывать голос в SQL;
получать Linux-команды;
переводить текст;
добавлять свои режимы через промпты;
вставлять результат в активное поле.

Самое важное — приложение показывает интересную идею: голосовой ввод становится намного полезнее, если после распознавания сразу подключить нейронку и привести результат к нужному формату.

Не просто:

голос → текст

А:

голос → смысл → готовый результат

Ссылка на проект

Код проекта доступен на GitHub:

https://github.com/imjonos/stt-desktop

Проект пока скорее экспериментальный, но уже показывает, как можно использовать связку desktop-приложения, Whisper и AI для реальной повседневной работы.

Мне кажется, такие инструменты будут постепенно становиться привычной частью рабочего процесса: когда мы не печатаем всё руками, а голосом описываем намерение и получаем готовую форму — текст, команду, запрос, письмо или задачу.

Нужна разработка веб-приложения или AI-инструмента?

Я занимаюсь проектированием и разработкой веб-приложений, MVP, внутренних сервисов, CRM-интеграций и AI-инструментов под задачи бизнеса.

Если вам нужно найти разработчика, который может не просто написать код, а разобраться в задаче, предложить архитектуру и довести проект до рабочего результата, можно посмотреть мои проекты и опыт:

Видео:

https://youtu.be/O_ZEaM8Gllw

https://vkvideo.ru/video-238292605_456239027

https://rutube.ru/video/private/30ca6e4e83fc82f102cc5b8fe964ccf0/?p=TTDtaDZRubPYOHrImxjrfQ