Я давно хотел сделать небольшой инструмент, который позволит быстрее работать с текстом через голос.
Но не просто в формате обычной диктовки, когда приложение распознало речь и вставило сырой текст. Такие решения уже есть, но у них часто одна и та же проблема: после распознавания текст всё равно приходится руками править, расставлять знаки препинания, убирать слова-паразиты, переформулировать фразы и приводить всё в нормальный вид.
Мне хотелось сделать немного другой подход:
говоришь голосом — получаешь сразу готовый результат.
Так появился небольшой desktop-проект STT Desktop.
Это не классическая разработка веб-приложений, а отдельное desktop-приложение на Python. Но сама логика очень похожа на то, что часто требуется в бизнес-проектах: взять неудобный ручной процесс, добавить автоматизацию, подключить нейросеть и превратить это в рабочий инструмент.
В чём идея приложения
STT Desktop — это приложение для голосового ввода, которое работает как промежуточный слой между голосом и нужным результатом.
Сценарий простой:
- Нажимаешь горячую клавишу.
- Говоришь фразу.
- Приложение распознаёт речь через Whisper.
- Полученный текст отправляется в нейронку.
- Нейронка преобразует текст по выбранному режиму.
- Готовый результат автоматически вставляется туда, где сейчас стоит курсор.
То есть это не просто “голос в текст”.
Это скорее голосовой интерфейс для работы с текстом, кодом, командами и любыми шаблонными задачами.
В похожей логике можно делать и бизнес-инструменты: CRM-модули, внутренние сервисы, личные кабинеты, AI-ассистентов, интеграции с API и другие решения, где важно не просто “сделать форму”, а встроиться в реальный рабочий процесс.
Какие режимы есть
Главная фишка приложения — режимы обработки.
Один и тот же голосовой ввод можно преобразовать по-разному.
Например, можно надиктовать обычную мысль, а на выходе получить аккуратный текст:
Привет! Как дела? Давай созвонимся завтра.
Можно голосом описать, какой SQL-запрос нужен, и получить готовый SQL.
Можно сказать задачу для терминала и получить Linux-команду.
Можно использовать режим перевода на английский.
А можно добавить свой режим через промпт и настроить приложение под конкретный рабочий процесс.
Например:
- улучшение текста;
- SQL-запрос;
- Linux-команда;
- перевод на английский;
- форматирование сообщения;
- подготовка письма;
- генерация задачи;
- преобразование заметки в нормальный текст.
По сути, режим — это отдельный промпт, который объясняет нейронке, что нужно сделать с распознанной речью.
Почему это удобнее обычной диктовки
Обычная диктовка решает только первую часть задачи: переводит речь в текст.
Но в реальной работе почти всегда нужно что-то ещё.
Когда я диктую текст, я могу говорить неидеально: с паузами, словами-паразитами, повторами, не очень точной структурой. Для человека это нормально, но в текстовом виде выглядит плохо.
Поэтому приложение сначала распознаёт речь, а потом нейронка приводит результат в нормальный вид.
Например, я могу сказать:
так привет как дела давай наверное завтра созвонимся и обсудим этот вопрос
А получить:
Привет! Как дела? Давай завтра созвонимся и обсудим этот вопрос.
Это сильно снижает трение. Не нужно сначала надиктовать, потом перечитать, потом отредактировать, потом скопировать, потом вставить. Приложение сразу отдаёт более пригодный результат.
Такая же идея часто используется и в разработке веб-приложений для бизнеса: не просто перенести старый процесс в интерфейс, а сделать так, чтобы человеку стало проще выполнять задачу.
Голос как интерфейс для команд
Самая интересная часть — это не только работа с обычным текстом.
Например, можно использовать голос для терминала.
Ты не диктуешь команду буквально, а говоришь, что хочешь сделать:
создай папку logs и покажи список файлов
А приложение может вернуть:
mkdir logs && ls -la
То же самое можно делать с SQL.
Например, голосом описать:
выбери сегодняшние заказы
И получить заготовку запроса:
SELECT * FROM orders WHERE created_at::date = CURRENT_DATE;
Конечно, такие команды всё равно нужно проверять перед выполнением. Но сама идея удобная: голос становится способом быстро сформулировать намерение, а нейронка превращает его в рабочую форму.
Техническая часть
Приложение сделано на Python с интерфейсом на PySide6.
Для распознавания речи используется Whisper. В зависимости от настроек можно выбрать модель, например tiny или base. tiny быстрее стартует и быстрее работает, base может быть точнее.
После распознавания текст отправляется в AI-провайдер. В приложении предусмотрена работа с GigaChat, OpenAI или любым OpenAI-совместимым API.
Это удобно, потому что можно подключать разные модели и не быть привязанным к одному конкретному сервису.
Основные части приложения:
- desktop-интерфейс на PySide6;
- запись голоса;
- локальное распознавание речи через Whisper;
- режимы обработки через промпты;
- горячая клавиша для запуска записи;
- автоматическая вставка результата в активное поле;
- настройки AI-провайдера и модели.
С технической точки зрения это небольшой проект, но в нём есть важная связка: интерфейс, локальная обработка, интеграция с AI API и удобный сценарий использования. Примерно такие же принципы я использую, когда занимаюсь разработкой MVP, внутренних сервисов или веб-сервисов под ключ.
Почему desktop, а не веб-сервис
Я специально сделал это desktop-приложением.
Задача здесь не в том, чтобы открыть сайт, загрузить файл, получить результат и потом куда-то его скопировать.
Задача — быстро использовать голос прямо там, где я уже работаю:
- в Telegram;
- в браузере;
- в редакторе кода;
- в терминале;
- в CRM;
- в почте;
- в любом текстовом поле.
То есть приложение должно быть рядом с рабочим процессом, а не отдельной вкладкой в браузере.
Нажал горячую клавишу, сказал, получил результат в активном окне.
Если бы задача была не для личного использования, а для команды или компании, это уже можно было бы развивать в сторону полноценного веб-приложения: с личными кабинетами, ролями, историей запросов, настройками промптов, оплатой, API и интеграциями.
Разработка с AI-агентами
Проект я делал с помощью AI-агентов в формате vibe coding.
Для меня это уже не просто эксперимент, а нормальный рабочий подход: я формулирую задачу, контролирую архитектуру, проверяю результат, направляю агента, дорабатываю проблемные места и собираю всё в рабочее приложение.
AI здесь не заменяет разработчика полностью, но хорошо ускоряет рутинные части:
- генерацию каркаса приложения;
- работу с UI;
- написание вспомогательного кода;
- исправление ошибок;
- подготовку конфигурации;
- сборку проекта;
- рефакторинг отдельных частей.
Но ответственность за итоговую архитектуру, проверку логики и понимание продукта всё равно остаётся на разработчике.
И это важный момент, особенно если вы хотите найти разработчика для проекта. Сейчас мало просто “уметь писать код”. Важно понимать продукт, архитектуру, ограничения, интеграции, безопасность данных и то, где AI действительно помогает, а где его нужно контролировать.
Где это может быть полезно для бизнеса
Хотя STT Desktop — это мой личный экспериментальный инструмент, сама идея хорошо переносится на бизнес-задачи.
Например, похожую механику можно использовать для:
- голосового заполнения CRM;
- подготовки писем и коммерческих предложений;
- генерации задач в таск-трекере;
- обработки заявок от клиентов;
- расшифровки звонков и встреч;
- автоматического создания кратких отчётов;
- подготовки SQL-запросов или аналитических выборок;
- внутренних AI-ассистентов для сотрудников.
Здесь уже начинается не просто “игра с нейросетями”, а нормальная автоматизация бизнес-процессов.
Во многих компаниях есть повторяющиеся действия, которые сотрудники делают руками: копируют данные, пишут однотипные сообщения, формируют отчёты, переносят информацию между системами. Такие задачи можно закрывать через разработку веб-приложений, интеграции с API, desktop-инструменты или внутренние сервисы.
Главное — сначала понять реальный процесс, а уже потом выбирать технологию.
Что получилось
В итоге получился небольшой, но полезный инструмент.
Он позволяет:
- диктовать текст голосом;
- сразу улучшать распознанный текст;
- убирать мусор из речи;
- добавлять пунктуацию;
- преобразовывать голос в SQL;
- получать Linux-команды;
- переводить текст;
- добавлять свои режимы через промпты;
- вставлять результат в активное поле.
Самое важное — приложение показывает интересную идею: голосовой ввод становится намного полезнее, если после распознавания сразу подключить нейронку и привести результат к нужному формату.
Не просто:
голос → текст
А:
голос → смысл → готовый результат
Ссылка на проект
Код проекта доступен на GitHub:
https://github.com/imjonos/stt-desktop
Проект пока скорее экспериментальный, но уже показывает, как можно использовать связку desktop-приложения, Whisper и AI для реальной повседневной работы.
Мне кажется, такие инструменты будут постепенно становиться привычной частью рабочего процесса: когда мы не печатаем всё руками, а голосом описываем намерение и получаем готовую форму — текст, команду, запрос, письмо или задачу.
Нужна разработка веб-приложения или AI-инструмента?
Я занимаюсь проектированием и разработкой веб-приложений, MVP, внутренних сервисов, CRM-интеграций и AI-инструментов под задачи бизнеса.
Если вам нужно найти разработчика, который может не просто написать код, а разобраться в задаче, предложить архитектуру и довести проект до рабочего результата, можно посмотреть мои проекты и опыт:
Хотите такой же результат?
Бесплатно посчитаем ваш проект и покажем, где автоматизация даст максимальный эффект.
Обсудить проект →
Комментарии · 0