Пакетное распознавание аудио и видео в текст

Ниже описана пошаговая инструкция по массовому распознаванию голоса (транскрибации) аудио- и видеофайлов в текст с помощью Vosk на Ubuntu 22. Сразу (субъективно) отмечу, что качество распознавания очень хорошее; проблемы присутствуют в тех случаях, когда голос неразборчив или плохое качество записи.