Buscar

Mostrando entradas con la etiqueta whisper. Mostrar todas las entradas
Mostrando entradas con la etiqueta whisper. Mostrar todas las entradas

2023/07/21

Genera subtítulos a tus vídeos utilizando tu navegador

En un post anterior explicábamos cómo generar subtítulos para archivos de audio utilizando Google Colab y Whisper de OpenAI.

Si se trata de subtitular vídeos, en especial los mayores a 30 minutos, siguiendo el anterior tutorial primero tendríamos que extraer el audio del vídeo (se puede utilizar la opción "Convertir" de VLC), editarlo con Audacity para cortar el vídeo en pedazos de 30 minutos, procesarlos en Google Colab, descargar los subtítulos y combinarlos con Subtitle Workshop intentando sincronizarlos de acuerdo al bitrate, etc.

Es un proceso tedioso.

Ante este problema el equipo de desarrollo de CCExtractor ha puesto a disposición de todo el mundo una web en la que se puede realizar casi todas esas tareas desde el mismo navegador.

El sitio se llama Video 2 SRT y tiene la peculariedad de simplicar ese trabajo utilizando nuestro propio navegador (y poder de cómputo de nuestra PC).


Para utilizar Video2SRT debes hacer lo siguiente:

PASO 1:

En el botón "Seleccionar archivo" elegir el vídeo que piensas subtitular, puedes subir cualquier vídeo que sea soportado por las librerías ffmpeg. Si tienes algún vídeo con códec propietario tienes que convertirlo.

En algunos navegadores hay restricciones con los tamaños de los archivos, por ejemplo Google Chrome soporta un vídeo de hasta 2 GB de tamaño, Firefox acepta archivos superiores.

Recuerda que el sonido ambiental o el ruido pueden afectar la calidad de transcripción de Whisper.

Una vez que subas el vídeo aparecerá un pequeño reproductor indicando la duración total del vídeo subido.


PASO 2:

En la lista desplegable superior indica el modelo que utilizará Whisper para hacer la traducción, por defecto soporte el inglés, si selecionas otro idioma te indicará que descargará dicho modelo para utilizarlo, tomará unos pocos minutos.

Una vez el modelo esté listo para trabajar aparecerá el mensaje "Model Ready to use!" y se activará el botón CONVERT ubicado en la parte inferior.


PASO 3:

Indica la cantidad de threads, o hilos de procesos, que utilizará la web para generar los subtítulos. Si eliges más threads el proceso de subtitulado se hará más rápido pero hará trabajar más al procesador; de forma inversa, a menos threads el proceso es más lento pero la computadora no estará tan cargada de trabajo.


PASO 4: 

Presiona el boton CONVERT para que se inicie el proceso. Los subtítulos se van mostrando en la web apenas se van procesando, recuerda que Whisper siempre se toma su tiempo para transcribir los subtítulos y por eso siempre se recomienda tener computadoras potentes.


En mi prueba utilicé el vídeo JURASSIC PARK - Costume du Raptor (Making of) que tiene una duración de 4 minutos y 35 segundos y un tamaño de 87 MB.

Recuerda que el procesador de la computadora trabajará dependiendo de la cantidad de threads que se le haya indicado, en mi caso le envié 16 threads a una laptop con procesador Core i5 de 10ma generación.



PASO 5: 

Una vez acabada el proceso de subtitulado ve a la parte inferior de la página y encontrarás dos botones mediante los cuales podrás descargar los subtítulos en formato WebVTT o SRT, dependiendo de cuál prefieras.


PASO 6:

Abre el vídeo y adjunta el subtítulo que has descargado, verifica que estén sincronizados debido a que hay casos en los que la transcripción no se ajusta al bitrate del vídeo, si se da ese problema se pueden probar aplicaciones para sincronizar los subtítulos, una de ellas es SubSync.



2023/07/17

Transcribe o traduce (al inglés) un audio utilizando Whisper de OpenAI

Si deseas transcribir y/o traducir archivos de audio de hasta media hora de duración puedes acceder al notebook que Jason Boog ha compartido en Google Colab mediante el cual se puede utilizar Whisper de OpenAI.

Recomendación: El audio debe estar lo más limpio posible, el sonido ambiental o de aparatos puede generar problemas en la transcripción o traducción en especial si se trata de un idioma diferente al inglés.

En el caso de las traducciones el ruido puede provocar que algunas palabras sean incorrectamente traducidas.

Para poder utilizar Whisper debes seguir estos pasos:

1. Acceder al notebook en Google Colab.

2. Ejecutar la celda que permite instalar Whisper (se hace click en el botón circular con el símbolo de play), a veces sale una advertencia indicando que el notebook no fue escrito por Google, si no por jasonboog@gmail.com, se puede omitir el mensaje presionando "Run anyway" (significa "Ejecutar de todas maneras").

Debes esperar un momento hasta que Google termine de ejecutar la celda, al lado izquierdo aparecerá un check acompañado del número de segundos que demoró.


3. Ejecutar la celda que instala la librería ffmpeg.


4. Subir los archivo de audio que se van a transcribir o traducir, en el lado izquierdo hay un ícono de un folder, se hace click allí y se despliega la ventana en donde se ven los archivos, para subir los archivos de audio se pueden arrastrar hacia esa ventana o se puede hacer click en el ícono con la flecha hacia arriba.

Recuerda que los archivos de audio no deben pasar de los 30 minutos, así que puede utilizar un programa como Audacity para cortarlos o editarlos.

Al seleccionar los archivos aparecerá un mensaje de advertencia indicando que los archivos serán eliminados cuando el tiempo de ejecución se termine hacer click en OK para seguir. Si actualizas la página vas a tener que comenzar de nuevo, así que se recomienda evitar que se cierre o se suspenda.


5. Para que Whisper transcriba el archivo de audio se ejecuta la celda en donde figura el comando !whisper colocando el nombre exacto del archivo entre comillas, tal como se ve en la figura. Whisper generará archivos de subtítulos con 5 tipos de extensiones (srt, vtt, txt, tsv, json.)


En la parte inferior irá apareciendo el texto que Whisper va reconociendo.



6. Puedes descargar los archivos de subtítulo generados por Whisper, haces click en los "3 puntos" que aparecen en el lado derecho del archivo, saldrá un menú en el que se debe seleccionar la opción "Download" o "Descargar" para descargarlos hacia la computadora.

7. En el caso de la traducción Whisper aún está limitado a traducir de cualquier idioma hacia el inglés, así que puedes aprovechar textos en idiomas como el japonés, chino o ruso para traducirlos a un idioma más fácil de trabajar.