Speech to text

Появилась недавно у меня задача - перевести довольно много аудиосообщений в текст. К моему удивлению, ChatGPT, до этого довольно бодро справлявшийся с моими задачами, дал слабину. Причем не справился не только перевести голос в текст, но и нормально обработать результаты, когда я уже транскрибировал без него! Запахло слабостью в OpenAI короче говоря.

Гораздо лучше себя повел Gemini, успешно распознав пару аудио-файлов. Однако в UI нельзя загрузить больше 10 файлов аудио за раз, а у меня был 121 файл. Пришлось расчехлять питон и делать небольшой скриптик. Заиспользовал whisper, и в 12 GB моей RTX 4070 даже влезла какая-то large модель, что приятно. Не зря гроб собирал!

По результату могу сказать, что сработало все это дело замечательно. Аудиофайлы я экспортировал из своего приватного канала в телеграме, который создал специально для этого дела. Вначале я думал использовать фичу телеграм премиума по распознаванию аудио, однако оказалось, что долгие аудио он не вывозит. Это неявное органичение телеграма - если сообщение дольше 5 минут, шансы его перевести в текст резко падают.

Короче говоря, если хочется делать много и эффективно, без скриптов все еще никуда. Если вдруг захотите переводить бубнеж в текст в промышленных масштабах, рабочая схема такая:

Экспорт из телеграм канала
Скрипт для транскрипта
LLM для финальной шлифовки и сборки.

P.S. GPU для транскрипта необязательна, просто с ней быстрее.