Google se lance dans la reconnaissance vocale de masse par l'intermédiaire de son nouveau service de renseignements téléphoniques, rivalisant avec les agences de renseignement.
L'omniprésent Google a lancé en avril 2007 son nouveau service Voice Local Search, un service gratuit de renseignements par téléphone, entièrement automatisé, réservé au marché américain. Cette nouvelle expérimentation a toutefois un autre objet, puisqu'il s'agit pour Google de créer une base de données vocales regroupant les phonèmes prononcés par les utilisateurs de son service.
Cette base de données servira par la suite à affiner les algorithmes d'identification vocale (speech recognition/word recognition) de Google, afin d'ajouter le contenu audio des vidéos Youtube aux résultats du moteur de recherche, puis d'indexer à terme tout le contenu audio présent sur le web.
Des logiciels de transcription vocale efficaces existent depuis les années 90, grâce à des investissements importants, comme ceux de Microsoft (Lernout & Hauspie). Ces technologies nécessitent pour la plupart un calibrage précis à partir de la voix de l'utilisateur et conservent un taux d'erreurs autour de 10%.
Les agences de renseignement, elles, traitent de larges quantités de données vocales, des conversations à locuteurs multiples, où les sons parasites, les particularités physiologiques des locuteurs et les variations de prononciation, rendent difficile la reconnaissance de mots.
Les services ont fait de réels progrès dans le développement d'outils de reconnaissance vocale (identification du locuteur), mais au début des années 2000, la reconnaissance de mots-clés vocaux représentait toujours un défi technologique. Les taux d'omissions et de faux positifs dans l'identification des mots-clés étaient encore trop élevés pour permettre la mise en oeuvre d'un système de reconnaissance à grande échelle.
Le programme Voice Local Search, permettra de constituer une large base de données vocales, qui comprendra de nombreuses variations (diction, intonation, etc.) de chaque mot prononcé. Cette base pourrait permettre à Google d'élaborer un algorithme suffisamment fin pour réussir l'indexation et la transcription automatisées (speech to text) de contenus audio anglophones.
Les agences COMINT, notamment américaines, pourraient bien profiter de cette innovation en développant ou en achetant une technologie similaire, afin d'améliorer leurs outils de reconnaissance des mots-clés vocaux.
D'autres programmes de défense basés sur la reconnaissance et la transcription vocale, tels que GALE (Global Autonomous Language Exploitation) pourraient bénéficier de ces avancées.
Aucun commentaire:
Enregistrer un commentaire