Whisper — Tech stack | Notion

Technologies utilisés

Whisper (OpenAI)
- Wisper.cpp
FFmpeg

Méthodologie

Modèle utilisé: large-v3 — (anciennement large-v2)
Le transcoding se fait actullement sur un MacBook (M2 Pro).
- La fork utilisé (Whisper.cpp) est optimisé pour Core ML ce qui augmente énormément la performance, voir plus bas dans les benchmarks.
FFmpeg est utilisé pour convertir le fichier audio de MP4 → WAV.

Limitations

Aucune pour l’instant à part le fait de monopoliser mon pauvre MacBook. 😅

Benchmarks

MacBook Pro (Intel Quad i5) 16GB → 5x
- Le temps de transcription est donc 5x plus long que la durée du fichier audio.
MacBook Air M1 8GB → 0.7x
- Le temps de transcription est donc 30% moins long que la durée du fichier audio.
MacBook Pro (M2) 32GB → 0.5x
- Le temps de transcription est donc 50% moins long que la durée du fichier audio.