Retour aux ressources
4
Module 4

L'IA vocale : comprendre et répondre en temps réel

STT, TTS, agents vocaux, latence

15 min

Comment une machine comprend la parole

L'IA vocale repose sur deux transformations symétriques. D'abord, la voix humaine est convertie en texte — c'est le Speech-to-Text (STT). Ensuite, la réponse générée par l'IA est convertie en voix — c'est le Text-to-Speech (TTS). Entre les deux, un modèle de langage traite la requête exactement comme dans un chatbot textuel.

Les systèmes STT modernes comme Deepgram Nova ou Whisper utilisent des réseaux de neurones entraînés sur des milliers d'heures d'audio. Ils ne reconnaissent pas des mots isolés — ils comprennent des phrases complètes en contexte. Ils gèrent les accents, le bruit ambiant, et les hésitations naturelles du langage parlé. La précision dépasse 95% dans la plupart des conditions.

La synthèse vocale nouvelle génération

Le TTS a radicalement changé ces dernières années. Les voix synthétiques de 2020 étaient robotiques et facilement identifiables. Les modèles actuels comme Cartesia Sonic ou ElevenLabs produisent des voix naturelles avec des inflexions, des pauses, et une prosodie humaine. La différence avec une voix humaine est devenue difficile à percevoir.

Ces modèles fonctionnent en streaming : ils commencent à parler avant que la phrase complète soit générée. C'est ce qui permet d'atteindre des latences inférieures à une seconde entre la fin de la question de l'utilisateur et le début de la réponse.

L'architecture d'un agent vocal temps réel

Un agent vocal en temps réel est un système complexe qui orchestre plusieurs composants. L'audio de l'utilisateur est capté par le microphone du navigateur et envoyé à un serveur via une connexion WebRTC (le même protocole que les appels vidéo). Le serveur détecte quand l'utilisateur a fini de parler grâce à un détecteur d'activité vocale (VAD).

Une fois la parole détectée et transcrite, le texte est envoyé au modèle de langage qui génère une réponse. Cette réponse est convertie en audio par le TTS et renvoyée au navigateur de l'utilisateur, toujours via WebRTC. L'ensemble de ce pipeline prend entre 500ms et 2 secondes selon la complexité de la question.

Les approches les plus récentes vont encore plus loin. Certains modèles comme Gemini 2.5 Flash en mode « native audio » traitent directement l'audio sans passer par une étape de transcription intermédiaire. Le modèle reçoit l'audio en entrée et produit de l'audio en sortie — speech-to-speech. Cette approche réduit la latence et préserve les nuances vocales (ton, émotion, emphase) qui sont perdues dans une transcription textuelle.

WebRTC et la contrainte temps réel

Le temps réel est la contrainte déterminante d'un agent vocal. Un délai de 3 secondes qui serait acceptable dans un chatbot textuel devient insupportable dans une conversation vocale. L'utilisateur s'attend à une réponse aussi fluide qu'un échange téléphonique.

WebRTC (Web Real-Time Communication) est le protocole qui rend cela possible. Il établit une connexion directe entre le navigateur et le serveur avec une latence minimale. Des plateformes comme LiveKit ajoutent une couche d'orchestration : gestion des salles, routage audio, et synchronisation entre les composants du pipeline vocal.

Cas d'usage de l'IA vocale

L'IA vocale trouve sa place partout où la saisie textuelle est un frein. Sur un site web, un visiteur peut poser sa question à voix haute au lieu de naviguer dans les menus. En e-commerce, un client peut décrire ce qu'il cherche et recevoir des recommandations personnalisées, comme dans une boutique physique. En interne, un collaborateur peut interroger la base documentaire de l'entreprise en mains libres.

L'interface vocale est aussi un levier d'accessibilité. Elle ouvre l'accès aux personnes en situation de handicap visuel, aux personnes peu à l'aise avec la saisie textuelle, ou simplement à ceux qui préfèrent parler plutôt que taper.

Quiz — Validez vos acquis

4/4 bonnes réponses requises pour valider ce module.

1. Que signifient STT et TTS ?

2. Pourquoi le streaming est-il important pour le TTS ?

3. Quel protocole est utilisé pour la communication audio temps réel dans un navigateur ?

4. Qu'est-ce que l'approche « speech-to-speech » ?