Module 4

L'IA vocale : comprendre et répondre en temps réel

STT, TTS, agents vocaux, latence

15 min

Comment une machine comprend la parole

L'IA vocale repose sur deux transformations symétriques. D'abord, la voix humaine est convertie en texte — c'est le Speech-to-Text (STT). Ensuite, la réponse générée par l'IA est convertie en voix — c'est le Text-to-Speech (TTS). Entre les deux, un modèle de langage traite la requête exactement comme dans un chatbot textuel.

Les systèmes STT modernes comme Deepgram Nova ou Whisper utilisent des réseaux de neurones entraînés sur des milliers d'heures d'audio. Ils ne reconnaissent pas des mots isolés — ils comprennent des phrases complètes en contexte. Ils gèrent les accents, le bruit ambiant, et les hésitations naturelles du langage parlé. La précision dépasse 95% dans la plupart des conditions.

En résumé

Le STT convertit la parole en texte avec une précision croissante

La gestion des accents, du bruit et du vocabulaire métier reste un défi

Le streaming STT permet de commencer le traitement avant la fin de la phrase

La synthèse vocale nouvelle génération

Le TTS a radicalement changé ces dernières années. Les voix synthétiques de 2020 étaient robotiques et facilement identifiables. Les modèles actuels comme Cartesia Sonic ou ElevenLabs produisent des voix naturelles avec des inflexions, des pauses, et une prosodie humaine. La différence avec une voix humaine est devenue difficile à percevoir.

Ces modèles fonctionnent en streaming : ils commencent à parler avant que la phrase complète soit générée. C'est ce qui permet d'atteindre des latences inférieures à une seconde entre la fin de la question de l'utilisateur et le début de la réponse.

En résumé

Le TTS moderne produit des voix naturelles avec prosodie et émotion

Le streaming TTS réduit la latence perçue de plusieurs secondes

Le choix de la voix (ton, genre, débit) impacte directement l'expérience utilisateur

L'architecture d'un agent vocal temps réel

Un agent vocal en temps réel est un système complexe qui orchestre plusieurs composants. L'audio de l'utilisateur est capté par le microphone du navigateur et envoyé à un serveur via une connexion WebRTC (le même protocole que les appels vidéo). Le serveur détecte quand l'utilisateur a fini de parler grâce à un détecteur d'activité vocale (VAD).

Une fois la parole détectée et transcrite, le texte est envoyé au modèle de langage qui génère une réponse. Cette réponse est convertie en audio par le TTS et renvoyée au navigateur de l'utilisateur, toujours via WebRTC. L'ensemble de ce pipeline prend entre 500ms et 2 secondes selon la complexité de la question.

Les approches les plus récentes vont encore plus loin. Certains modèles comme Gemini 2.5 Flash en mode « native audio » traitent directement l'audio sans passer par une étape de transcription intermédiaire. Le modèle reçoit l'audio en entrée et produit de l'audio en sortie — speech-to-speech. Cette approche réduit la latence et préserve les nuances vocales (ton, émotion, emphase) qui sont perdues dans une transcription textuelle.

En résumé

Le pipeline complet : micro, WebRTC, VAD, STT, LLM, TTS, haut-parleur

La latence totale est la somme de chaque composant

L'objectif est de rester sous 1 seconde pour une conversation fluide

Pipeline vocal interactif

Explorez chaque composant et son impact sur la latence

VADDétection vocale

80 ms

STTTranscription

280 ms

LLMRaisonnement

450 ms

TTSSynthèse vocale

190 ms

Latence totale

1 s

Acceptable, léger temps de réflexion perceptible

VAD (Détection vocale)80 ms

50 ms200 ms

STT (Transcription)280 ms

100 ms800 ms

LLM (Raisonnement)450 ms

200 ms2 s

TTS (Synthèse vocale)190 ms

100 ms600 ms

WebRTC et la contrainte temps réel

Le temps réel est la contrainte déterminante d'un agent vocal. Un délai de 3 secondes qui serait acceptable dans un chatbot textuel devient insupportable dans une conversation vocale. L'utilisateur s'attend à une réponse aussi fluide qu'un échange téléphonique.

WebRTC (Web Real-Time Communication) est le protocole qui rend cela possible. Il établit une connexion directe entre le navigateur et le serveur avec une latence minimale. Des plateformes comme LiveKit ajoutent une couche d'orchestration : gestion des salles, routage audio, et synchronisation entre les composants du pipeline vocal.

Innovation récente

L'approche speech-to-speech supprime les étapes intermédiaires (STT et TTS). Le modèle traite directement l'audio entrant et produit de l'audio en sortie, préservant les nuances vocales.

En résumé

Le speech-to-speech élimine les pertes de conversion texte/audio

Il préserve le ton, l'émotion et les nuances de la voix

Cette technologie est encore émergente mais progresse rapidement

Cas d'usage de l'IA vocale

L'IA vocale trouve sa place partout où la saisie textuelle est un frein. Sur un site web, un visiteur peut poser sa question à voix haute au lieu de naviguer dans les menus. En e-commerce, un client peut décrire ce qu'il cherche et recevoir des recommandations personnalisées, comme dans une boutique physique. En interne, un collaborateur peut interroger la base documentaire de l'entreprise en mains libres.

L'interface vocale est aussi un levier d'accessibilité. Elle ouvre l'accès aux personnes en situation de handicap visuel, aux personnes peu à l'aise avec la saisie textuelle, ou simplement à ceux qui préfèrent parler plutôt que taper.

En résumé

Accueil téléphonique et qualification de prospects 24h/24

Assistance vocale sur site web pour les visiteurs

Accessibilité pour les utilisateurs ayant des difficultés de lecture

Quiz — Validez vos acquis

4/4 bonnes réponses requises pour valider ce module.

1. Que signifient STT et TTS ?

2. Pourquoi le streaming est-il important pour le TTS ?

3. Quel protocole est utilisé pour la communication audio temps réel dans un navigateur ?

4. Qu'est-ce que l'approche « speech-to-speech » ?