
Как установить нейросеть для распознавания речи Whisper от OpenAI
1. Скачиваете Python версии 3.9.9 с данной ссылки в зависимости от того какая версия Windows у вас установлена.

Далее устанавливаете его.
Комбинацией клавиш Win+R вызываем командную строку:

Вводим в ней «cmd» и нажимаем «ок»:

Вводим в командной строке python —version и нажимаем Enter.
И если все правильно, должно выйти так:

Python мы установили, все хорошо.
2. Переходим по данной ссылке.
Выбираем такие же параметры как на скриншоте:

Мы копируем ту часть как показано на скриншоте:

Возвращаемся в командную строку, вводим python -m pip (и сразу вставляем скопированное) и нажимаем Enter.
Получается так например: python -m pip install torch torchvision torchaudio —index-url https://download.pytorch.org/whl/cu117
После этого запускается установка, ждем ее завершения.
3. Переходим по данной ссылке.
Выбираем иконку Windows и переходим по подчеркнутой красным ссылке:

В открывшемся окне выбираем то, что подчеркнуто красным:

На ваш компьютер должен скачаться архив. Нажав на архив правой кнопкой мыши, вы выбираете свойства и проверяете не заблокирован ли он. Если он заблокирован, будет кнопка «Разблокировать», жмите ее.

Из архива вам нужно извлечь (можете просто скопировать) три данных файла, которые на скриншоте (они находятся в папке «bin»), и разместить их в уже существующей папке Python.

Если все получилось, то вбив в командной строке ffmpeg выйдет следующее:

4. Теперь переходите по данной ссылке.
И так же в зависимости от версии Windows скачиваете подходящее:

Открываете установочник, на скриншотах показано что выбирать, установочник должен проставить все сам, но на всякий случай проследите.
5. Вводите в командной строке это:
python -m pip install setuptools-rust
Не забудьте Enter после ввода команд, чтобы их запустить.
Происходит установка.
Далее вводите следующую команду:
python -m pip install git+https://github.com/openai/whisper.git
После того, как все закончилось, пробуем транскрибировать аудио.
Поместите аудио, которое хотите расшифровать, в отдельную папку. Вызываете командную строку (как описывалось в начале, например), в ней прописываете whisper и название файла.
В нашем случае запись называется aitest, формат — mp3.
Чтобы помочь с распознаванием, командой —language Russian вы даете понять нейросети, что язык в аудио русский, хотя и без этой команды она может распознать язык.
Существует несколько моделей распознавания, они отличаются скоростью и точностью распознавания. По умолчанию выбирается модель small. Можно поэкспериментировать с моделями base и tiny, они будут быстрее выполняться, но точность распознавания меньше.Задается параметром —model, например —model tiny

То есть, если мы хотим аудиозапись под названием aitest формата mp3 транскрибировать на русском языке и с большей скоростью, но чуть меньшей точностью команда будет выглядеть следующим образом:
whisper aitest.mp3 —language Russian —model tiny
Можно и просто оставить:
whisper aitest.mp3
Далее начинается расшифровка:

Расшифровку наших корпоративных аудиозаписей мы показывать вам не можем, потому демонстрируем документ на примере английской песни:3 Почему английской, а не русской хотя бы? Просто я люблю эту песню, а еще английский транскрибирует быстрее, а я статью одной рукой дописываю, работы много.
По окончания процесса в папке с аудиозаписью появляется несколько текстовых документов: просто с текстом, с тайм-кодом и прочее:
Какие могут возникнуть ошибки:
-
Наличие кириллицы (русских букв) в директории программ;
-
Директория переменной PATH.
Это можно проверить в свойствах компьютера — дополнительные параметры — переменные среды.
Вот такое не пройдет из-за кириллицы: C: UsersСашаAppDataLocalProgramsPython
А вот это хорошо: C: Program FilesPython
В целом, если вы много работаете с аудио, whisper очень полезная вещь. Если вам нужно чтобы расшифровка была как можно точнее, необходима изначально качественная запись.
Можете попробовать повысить качество аудиозаписи с помощью другой нейросети от Adobe. Там ничего сложного, просто переходите по ссылке, загружаете аудиозапись, она обрабатывается, а потом скачиваете улучшенную версию.Только если у вас совсем плохая запись, вам это не поможет, на выходе рискуете получить инопланетную речь.
А для того, чтобы Whisper быстрее транскрибировал аудиофайл нужен хороший движок.
Лучшее в блогах
Вам понравится


Привет, это Soda! Мы в очередной раз нашли и перевели очень полезный текст. Он был опубликован на сайте entrepreneur.com и рассказывает о самой актуальной штуке в мире — нейросетях. Мы тоже уже подсели на ChatGPT, активно используем его для проведение ресерча и поиска идей для визуалов. По нашим подсчетам, это сэкономило нам примерно два триллиона нервных клеток и столько же человеко-часов. Подписывайтесь на Soda в Telegram, там публикуются наши классные кейсы и создается теплое комьюнити. Кстати, в конце текста мы дадим ссылки на малоизвестные, но неплохие нейросети, которые тоже помогут вам в маркетинге. А теперь — к тексту.


По оценкам экспертов, к концу 2023 года реклама в социальных сетях, особенно короткие видеоролики, обгонит в объеме все остальные платформы. Рассказываем о результатах эксперимента размещения рекламы в формате коротких видео в YouTube Shorts, Instagram Reels*, Pinterest Ideas и TikTok.

