Lors de la présentation de Moshi,à Paris,le 3 juillet 2024. KUYTAI Kyutai lance Moshi. Ces deux noms mignons mais cryptiques empruntent aux mots japonais « sphère » et « allô ». L’un désigne un laboratoire parisien d’intelligence artificielle (IA) fondé en novembre,et l’autre,son premier outil rendu public,un modèle de traitement de la voix.
Moshi se veut donc innovant,même par rapport à la concurrence mondiale. Kyutai a choisi le domaine du son,moins occupé que celui des modèles de génération de texte (où opèrent déjà OpenAI,Google ou Anthropic,mais aussi les français Mistral ou LightOn). « D’ordinaire,les IA vocales utilisent plusieurs modèles successifs : l’un pour détecter la présence d’une instruction sonore,un autre pour la transcrire en texte,un autre pour comprendre la requête,un autre pour produire la réponse et un dernier pour la transformer en voix. Mais cela produit une latence de trois à cinq secondes,désagréable dans une conversation »,explique le chercheur Neil Zeghidour,qui a travaillé chez Google sur le modèle d’IA musicale AudioLM.
Pour obtenir des réponses « en temps réel » (en quelques centaines de millisecondes),Moshi s’appuie sur un modèle d’IA unique,entraîné directement sur des extraits sonores. Cela permet de mieux décoder et imiter les émotions ou les accents,assurent les chercheurs. Moshi pourrait adopter « soixante-dix styles et tons » : chuchoter,prendre une « voix de pirate »,parler anglais tel un Français… Autant de nuances inspirées de la voix d’une actrice enregistrée.
Il vous reste 38.81% de cet article à lire. La suite est réservée aux abonnés.
© Affaires Officielles