ImCompany

22.03.2023, 10:24

Как установить нейросеть для распознавания речи Whisper от OpenAI

Возможно вам нужно транскрибировать лекции, брифы, интервью и прочее. Теперь вы можете установить бесплатно нейросеть Whisper на ваш ПК. Мы делали на винду, поэтому инструкция для нее. Не пугайтесь, это может сделать даже человек не имеющий никакого отношения к программированию. Рассказываем.

1. Скачиваете Python версии 3.9.9 с данной ссылки в зависимости от того какая версия Windows у вас установлена.

Далее устанавливаете его.

Комбинацией клавиш Win+R вызываем командную строку:

Вводим в ней «cmd» и нажимаем «ок»:

Вводим в командной строке python —version и нажимаем Enter.

И если все правильно, должно выйти так:

2. Переходим по данной ссылке.

Выбираем такие же параметры как на скриншоте:

Мы копируем ту часть как показано на скриншоте:

Возвращаемся в командную строку, вводим python -m pip (и сразу вставляем скопированное) и нажимаем Enter.

Получается так например: python -m pip install torch torchvision torchaudio —index-url https://download.pytorch.org/whl/cu117

После этого запускается установка, ждем ее завершения.

3. Переходим по данной ссылке.

Выбираем иконку Windows и переходим по подчеркнутой красным ссылке:

В открывшемся окне выбираем то, что подчеркнуто красным:

На ваш компьютер должен скачаться архив. Нажав на архив правой кнопкой мыши, вы выбираете свойства и проверяете не заблокирован ли он. Если он заблокирован, будет кнопка «Разблокировать», жмите ее.

Из архива вам нужно извлечь (можете просто скопировать) три данных файла, которые на скриншоте (они находятся в папке «bin»), и разместить их в уже существующей папке Python.

Если все получилось, то вбив в командной строке ffmpeg выйдет следующее:

4. Теперь переходите по данной ссылке.

И так же в зависимости от версии Windows скачиваете подходящее:

Открываете установочник, на скриншотах показано что выбирать, установочник должен проставить все сам, но на всякий случай проследите.

5. Вводите в командной строке это:

python -m pip install setuptools-rust

Не забудьте Enter после ввода команд, чтобы их запустить.

Происходит установка.

Далее вводите следующую команду:

python -m pip install git+https://github.com/openai/whisper.git

Снова происходит установка.

После того, как все закончилось, пробуем транскрибировать аудио.

Поместите аудио, которое хотите расшифровать, в отдельную папку. Вызываете командную строку (как описывалось в начале, например), в ней прописываете whisper и название файла.

В нашем случае запись называется aitest, формат — mp3.

Чтобы помочь с распознаванием, командой —language Russian вы даете понять нейросети, что язык в аудио русский, хотя и без этой команды она может распознать язык.

Существует несколько моделей распознавания, они отличаются скоростью и точностью распознавания. По умолчанию выбирается модель small. Можно поэкспериментировать с моделями base и tiny, они будут быстрее выполняться, но точность распознавания меньше.Задается параметром —model, например —model tiny

То есть, если мы хотим аудиозапись под названием aitest формата mp3 транскрибировать на русском языке и с большей скоростью, но чуть меньшей точностью команда будет выглядеть следующим образом:

whisper aitest.mp3 —language Russian —model tiny

Можно и просто оставить:

whisper aitest.mp3

Далее начинается расшифровка:

Расшифровку наших корпоративных аудиозаписей мы показывать вам не можем, потому демонстрируем документ на примере английской песни:3 Почему английской, а не русской хотя бы? Просто я люблю эту песню, а еще английский транскрибирует быстрее, а я статью одной рукой дописываю, работы много.

По окончания процесса в папке с аудиозаписью появляется несколько текстовых документов: просто с текстом, с тайм-кодом и прочее:

Какие могут возникнуть ошибки:

Наличие кириллицы (русских букв) в директории программ;
Директория переменной PATH.

Это можно проверить в свойствах компьютера — дополнительные параметры — переменные среды.

Вот такое не пройдет из-за кириллицы: C: UsersСашаAppDataLocalProgramsPython

А вот это хорошо: C: Program FilesPython

В целом, если вы много работаете с аудио, whisper очень полезная вещь. Если вам нужно чтобы расшифровка была как можно точнее, необходима изначально качественная запись.

Можете попробовать повысить качество аудиозаписи с помощью другой нейросети от Adobe. Там ничего сложного, просто переходите по ссылке, загружаете аудиозапись, она обрабатывается, а потом скачиваете улучшенную версию.Только если у вас совсем плохая запись, вам это не поможет, на выходе рискуете получить инопланетную речь.

А для того, чтобы Whisper быстрее транскрибировал аудиофайл нужен хороший движок.