Как я перестал переслушивать созвоны: Speech-to-Text + AI CLI превращают запись встречи в готовое ТЗ
Автор:
Eugeny Nosenko
Дата публикации:
2026-02-13 16:28:43 24
Любой разработчик знает проблему: созвоны заканчиваются быстрее, чем начинается настоящая работа после них.
Записали встречу → обсудили задачи → приняли решения.
А дальше начинается самое неприятное — нужно переслушивать запись и вручную выписывать задачи.
Если созвонов много, это превращается в постоянную потерю времени.
Я решил автоматизировать этот процесс и собрать простой CLI-pipeline:
аудиозапись → текст → анализ → готовое техническое задание.
В итоге теперь весь разбор встречи выполняется одной командой в терминале.
Почему вообще появилась эта идея
Обычно workflow выглядел так:
- запись Zoom/Meet созвона;
- ручное прослушивание;
- поиск важных моментов;
- выписывание задач;
- оформление ТЗ.
Даже при коротких встречах это занимало 20–40 минут.
При этом большая часть работы — чисто механическая:
сначала перевести речь в текст, потом структурировать его.
Обе задачи отлично решаются нейросетями.
Шаг 1. Расшифровка речи через Whisper (CLI)
Первое, что нужно — быстро получить текст разговора.
Для этого я сделал небольшой CLI-инструмент на Python на базе Whisper:
👉 https://github.com/imjonos/whisper-speech-to-text-cli
Это простой speech-to-text инструмент, который:
- принимает аудио и видео файлы;
- автоматически конвертирует их через ffmpeg;
- распознаёт русскую речь;
- поддерживает разные модели Whisper;
- работает полностью из командной строки.
Чтобы не вводить длинные команды, я добавил алиас:
stt
Теперь расшифровка выглядит максимально просто:
stt meeting.mp4 transcript.txt
На входе — запись встречи.
На выходе — текстовая расшифровка.
Используется модель base, потому что она даёт оптимальный баланс скорости и точности. Для задач анализа встреч идеальная пунктуация не нужна — важен смысл.
Шаг 2. Превращаем текст в задачи через AI CLI
После расшифровки появляется новая проблема: текст огромный и хаотичный.
Нужно:
- выделить решения;
- найти задачи;
- структурировать обсуждение.
Для этого я сделал второй инструмент:
👉 https://github.com/imjonos/gigachat-cli
Это CLI-клиент для работы с GigaChat напрямую из терминала.
Он умеет:
- суммировать текст;
- объяснять код;
- анализировать логи;
- делать ревью;
- переводить;
- принимать данные через stdin.
Я добавил алиас:
ai
Теперь анализ текста выглядит так:
cat transcript.txt | ai --summarize
А выделение задач:
cat transcript.txt | ai --prompt "Выдели задачи и оформи как техническое задание"
Шаг 3. Настоящая магия — pipeline
Самое интересное начинается, когда оба инструмента объединяются.
Теперь полный workflow выглядит так:
stt meeting.mp4 transcript.txt && \ cat transcript.txt | ai --prompt "Сформируй список задач и техническое задание"
Что происходит:
- Whisper переводит речь в текст.
- Текст сразу отправляется в AI.
- Модель структурирует информацию.
- На выходе — готовое ТЗ.
Фактически:
созвон → готовые задачи без ручной работы.
Почему CLI оказался лучше веб-сервисов
Я сознательно не делал веб-интерфейс.
CLI даёт несколько преимуществ:
- скорость — запуск одной командой;
- легко встроить в dev workflow;
- можно автоматизировать через bash-скрипты;
- работает с большими файлами;
- идеально сочетается с Unix pipeline.
По сути, это AI-инструмент, который ведёт себя как обычная консольная утилита.
Реальная экономия времени
После внедрения pipeline изменилось главное:
раньше — после каждого созвона ещё 30 минут работы;
теперь — запуск команды и готовый результат через несколько минут.
Особенно полезно для:
- тимлидов;
- фриланс-разработчиков;
- продуктовых команд;
- стартапов с большим количеством обсуждений.
Что можно улучшить дальше
Следующий логичный шаг:
- автоматическое создание GitHub Issues;
- генерация задач в Jira;
- отправка summary в Telegram или Slack;
- автоархивация встреч.
CLI-подход позволяет расширять pipeline практически бесконечно.
Итог
Получился простой, но очень практичный AI workflow разработчика:
✅ запись встречи
✅ speech-to-text через Whisper
✅ анализ текста нейросетью
✅ автоматическое создание ТЗ
Две маленькие утилиты заменили ручной разбор созвонов.
Проекты открыты на GitHub:
- Whisper Speech-to-Text CLI
- https://github.com/imjonos/whisper-speech-to-text-cli
- GigaChat CLI
- https://github.com/imjonos/gigachat-cli