Technologies utilisés
Méthodologie
- Modèle utilisé:
large-v3
— (anciennement large-v2
)
- Le transcoding se fait actullement sur un MacBook (M2 Pro).
- La fork utilisé (Whisper.cpp) est optimisé pour Core ML ce qui augmente énormément la performance, voir plus bas dans les benchmarks.
- FFmpeg est utilisé pour convertir le fichier audio de MP4 → WAV.
Limitations
- Aucune pour l’instant à part le fait de monopoliser mon pauvre MacBook. 😅
Benchmarks
- MacBook Pro (Intel Quad i5) 16GB →
5x
- Le temps de transcription est donc 5x plus long que la durée du fichier audio.
- MacBook Air M1 8GB →
0.7x
- Le temps de transcription est donc 30% moins long que la durée du fichier audio.
- MacBook Pro (M2) 32GB →
0.5x
- Le temps de transcription est donc 50% moins long que la durée du fichier audio.