Как установить нейросеть для распознавания речи Whisper от OpenAI
1. Скачиваете Python версии 3.9.9 с данной ссылки в зависимости от того какая версия Windows у вас установлена.
Далее устанавливаете его.
Комбинацией клавиш Win+R вызываем командную строку:
Вводим в ней «cmd» и нажимаем «ок»:
Вводим в командной строке python —version и нажимаем Enter.
И если все правильно, должно выйти так:
2. Переходим по данной ссылке.
Выбираем такие же параметры как на скриншоте:
Мы копируем ту часть как показано на скриншоте:
Возвращаемся в командную строку, вводим python -m pip (и сразу вставляем скопированное) и нажимаем Enter.
Получается так например: python -m pip install torch torchvision torchaudio —index-url https://download.pytorch.org/whl/cu117
После этого запускается установка, ждем ее завершения.
3. Переходим по данной ссылке.
Выбираем иконку Windows и переходим по подчеркнутой красным ссылке:
В открывшемся окне выбираем то, что подчеркнуто красным:
На ваш компьютер должен скачаться архив. Нажав на архив правой кнопкой мыши, вы выбираете свойства и проверяете не заблокирован ли он. Если он заблокирован, будет кнопка «Разблокировать», жмите ее.
Из архива вам нужно извлечь (можете просто скопировать) три данных файла, которые на скриншоте (они находятся в папке «bin»), и разместить их в уже существующей папке Python.
Если все получилось, то вбив в командной строке ffmpeg выйдет следующее:
4. Теперь переходите по данной ссылке.
И так же в зависимости от версии Windows скачиваете подходящее:
Открываете установочник, на скриншотах показано что выбирать, установочник должен проставить все сам, но на всякий случай проследите.
5. Вводите в командной строке это:
python -m pip install setuptools-rust
Не забудьте Enter после ввода команд, чтобы их запустить.
Происходит установка.
Далее вводите следующую команду:
python -m pip install git+https://github.com/openai/whisper.git
После того, как все закончилось, пробуем транскрибировать аудио.
Поместите аудио, которое хотите расшифровать, в отдельную папку. Вызываете командную строку (как описывалось в начале, например), в ней прописываете whisper и название файла.
В нашем случае запись называется aitest, формат — mp3.
Чтобы помочь с распознаванием, командой —language Russian вы даете понять нейросети, что язык в аудио русский, хотя и без этой команды она может распознать язык.
Существует несколько моделей распознавания, они отличаются скоростью и точностью распознавания. По умолчанию выбирается модель small. Можно поэкспериментировать с моделями base и tiny, они будут быстрее выполняться, но точность распознавания меньше.Задается параметром —model, например —model tiny
То есть, если мы хотим аудиозапись под названием aitest формата mp3 транскрибировать на русском языке и с большей скоростью, но чуть меньшей точностью команда будет выглядеть следующим образом:
whisper aitest.mp3 —language Russian —model tiny
Можно и просто оставить:
whisper aitest.mp3
Далее начинается расшифровка:
Расшифровку наших корпоративных аудиозаписей мы показывать вам не можем, потому демонстрируем документ на примере английской песни:3 Почему английской, а не русской хотя бы? Просто я люблю эту песню, а еще английский транскрибирует быстрее, а я статью одной рукой дописываю, работы много.
По окончания процесса в папке с аудиозаписью появляется несколько текстовых документов: просто с текстом, с тайм-кодом и прочее:
Какие могут возникнуть ошибки:
-
Наличие кириллицы (русских букв) в директории программ;
-
Директория переменной PATH.
Это можно проверить в свойствах компьютера — дополнительные параметры — переменные среды.
Вот такое не пройдет из-за кириллицы: C: UsersСашаAppDataLocalProgramsPython
А вот это хорошо: C: Program FilesPython
В целом, если вы много работаете с аудио, whisper очень полезная вещь. Если вам нужно чтобы расшифровка была как можно точнее, необходима изначально качественная запись.
Можете попробовать повысить качество аудиозаписи с помощью другой нейросети от Adobe. Там ничего сложного, просто переходите по ссылке, загружаете аудиозапись, она обрабатывается, а потом скачиваете улучшенную версию.Только если у вас совсем плохая запись, вам это не поможет, на выходе рискуете получить инопланетную речь.
А для того, чтобы Whisper быстрее транскрибировал аудиофайл нужен хороший движок.
Лучшее в блогах
Вам понравится
IBM и Adobe решили с помощью очень странных золотых рыбок рассказать в рекламе о рисках, связанных с невнимательным использованием генеративного ИИ. Так компании продвигают свои сервисы, обеспечивающие контроль над нейросетями и гарантирующие, что создаваемый ИИ контент не содержит ошибок. Это особенно важно для бизнеса, сегодня все чаще стремящегося при помощи генеративных нейросетей сократить затраты и повысить эффективность сотрудников. Работают над этой проблемой и в Google — там предлагают поставить на стражу достоверности нейросеть-фактчекера, умеющую пользоваться интернет-поиском.
Занимаясь поисковым продвижением получаешь истинное удовольствие, когда твои проекты растут. И неважно, что это будет рост позиций по отдельным фразам или трафика в целом. А ещё большее радуют проекты, которыми уже давно не занимаешься, а они спустя 5 лет находятся на высоких строчках поисковой выдачи, при том, что работы уже никакие не проводятся.