Как я перестал переслушивать созвоны: Speech-to-Text + AI CLI превращают запись встречи в готовое ТЗ

Автор: Eugeny Nosenko
Дата публикации: 2026-02-13 16:28:43   24


Как я перестал переслушивать созвоны: Speech-to-Text + AI CLI превращают запись встречи в готовое ТЗ

Любой разработчик знает проблему: созвоны заканчиваются быстрее, чем начинается настоящая работа после них.

Записали встречу → обсудили задачи → приняли решения.

А дальше начинается самое неприятное — нужно переслушивать запись и вручную выписывать задачи.

Если созвонов много, это превращается в постоянную потерю времени.

Я решил автоматизировать этот процесс и собрать простой CLI-pipeline:

аудиозапись → текст → анализ → готовое техническое задание.

В итоге теперь весь разбор встречи выполняется одной командой в терминале.


Почему вообще появилась эта идея

Обычно workflow выглядел так:

  • запись Zoom/Meet созвона;
  • ручное прослушивание;
  • поиск важных моментов;
  • выписывание задач;
  • оформление ТЗ.

Даже при коротких встречах это занимало 20–40 минут.

При этом большая часть работы — чисто механическая:

сначала перевести речь в текст, потом структурировать его.

Обе задачи отлично решаются нейросетями.


Шаг 1. Расшифровка речи через Whisper (CLI)

Первое, что нужно — быстро получить текст разговора.

Для этого я сделал небольшой CLI-инструмент на Python на базе Whisper:

👉 https://github.com/imjonos/whisper-speech-to-text-cli

Это простой speech-to-text инструмент, который:

  • принимает аудио и видео файлы;
  • автоматически конвертирует их через ffmpeg;
  • распознаёт русскую речь;
  • поддерживает разные модели Whisper;
  • работает полностью из командной строки.

Чтобы не вводить длинные команды, я добавил алиас:

stt

Теперь расшифровка выглядит максимально просто:

stt meeting.mp4 transcript.txt

На входе — запись встречи.

На выходе — текстовая расшифровка.

Используется модель base, потому что она даёт оптимальный баланс скорости и точности. Для задач анализа встреч идеальная пунктуация не нужна — важен смысл.


Шаг 2. Превращаем текст в задачи через AI CLI

После расшифровки появляется новая проблема: текст огромный и хаотичный.

Нужно:

  • выделить решения;
  • найти задачи;
  • структурировать обсуждение.

Для этого я сделал второй инструмент:

👉 https://github.com/imjonos/gigachat-cli

Это CLI-клиент для работы с GigaChat напрямую из терминала.

Он умеет:

  • суммировать текст;
  • объяснять код;
  • анализировать логи;
  • делать ревью;
  • переводить;
  • принимать данные через stdin.

Я добавил алиас:

ai

Теперь анализ текста выглядит так:

cat transcript.txt | ai --summarize

А выделение задач:

cat transcript.txt | ai --prompt "Выдели задачи и оформи как техническое задание"

Шаг 3. Настоящая магия — pipeline

Самое интересное начинается, когда оба инструмента объединяются.

Теперь полный workflow выглядит так:

stt meeting.mp4 transcript.txt && \
cat transcript.txt | ai --prompt "Сформируй список задач и техническое задание"

Что происходит:

  1. Whisper переводит речь в текст.
  2. Текст сразу отправляется в AI.
  3. Модель структурирует информацию.
  4. На выходе — готовое ТЗ.

Фактически:

созвон → готовые задачи без ручной работы.


Почему CLI оказался лучше веб-сервисов

Я сознательно не делал веб-интерфейс.

CLI даёт несколько преимуществ:

  • скорость — запуск одной командой;
  • легко встроить в dev workflow;
  • можно автоматизировать через bash-скрипты;
  • работает с большими файлами;
  • идеально сочетается с Unix pipeline.

По сути, это AI-инструмент, который ведёт себя как обычная консольная утилита.


Реальная экономия времени

После внедрения pipeline изменилось главное:

раньше — после каждого созвона ещё 30 минут работы;

теперь — запуск команды и готовый результат через несколько минут.

Особенно полезно для:

  • тимлидов;
  • фриланс-разработчиков;
  • продуктовых команд;
  • стартапов с большим количеством обсуждений.

Что можно улучшить дальше

Следующий логичный шаг:

  • автоматическое создание GitHub Issues;
  • генерация задач в Jira;
  • отправка summary в Telegram или Slack;
  • автоархивация встреч.

CLI-подход позволяет расширять pipeline практически бесконечно.


Итог

Получился простой, но очень практичный AI workflow разработчика:

✅ запись встречи

✅ speech-to-text через Whisper

✅ анализ текста нейросетью

✅ автоматическое создание ТЗ

Две маленькие утилиты заменили ручной разбор созвонов.

Проекты открыты на GitHub:



Оставить реакцию:
Оставить комментарий:
Имя:
Комментарий: