La voix remplacera le clavier dans l'usage des terminaux mobiles de demain

Publication: Mis à jour:
DR
DR
Imprimer

Les futures générations de smartphones réagiront aussi bien au toucher qu’à la voix. Les fabricants s’y intéressent de près.

Après les grands progrès réalisés dans les domaines du traitement automatique de la parole et de la modélisation mathématique du processus de la production de la voix humaine, les grandes compagnies technologiques ont décidé d’industrialiser certaines de ces solutions.

Le signal vocal, lors de son traitement par un processeur intégré à un smartphone, ou lors son transport par les réseaux des opérateurs des télécommunications, est traité par les équipements numériques avec plus d’efficacité. Mieux, les performances réalisées dans le "speech processing" permettent une analyse et une synthèse de la parole de bonne qualité, à la reconnaissance du locuteur, à la réalisation de codeurs de parole plus efficaces et surtout à la création des premiers assistants vocaux des usagers.

Aujourd’hui, le rôle primordial du traitement automatique du langage naturel dans la communication parlée Homme/Machine est de plus en plus évoqué dans de nombreux ateliers consacrés à l’avenir de l’informatique et des télécommunications.

Ce qui a poussé des sociétés comme Google, Intel, Microsoft, Apple ou Amazon à rajouter le canal voix dans les environnements software et hardware de leurs produits. L’introduction de la voix dans les projets digitaux devient un impératif économique.

Amazon a intégré Alexa, son assistante virtuelle vocale dans le kit d’interaction vocale baptisé ZeroTouch destinés aux voitures.

Ce kit, issue de la collaboration entre Amazon et Logitech, permet de gérer vocalement les plus de 8000 fonctionnalités et services dont la consultation de prévisions météos et les news sous forme audio, la création de listes de tâches, l’achat de produits ou encore l’écoute d’un livre électronique. Il est également possible de gérer des services pour maison intelligente, en demandant par exemple à Alexa de régler le thermostat ou de s’assurer qu’une porte d’entrée est bien verrouillée. Ces fonctionnalités s’ajoutent à celles déjà proposées par Logitech ZeroTouch, dont la gestion vocale des appels téléphoniques et des SMS.


L’assistant vocal "Bixby" de Samsung

Samsung a dévoilé son assistant vocal numérique exploitant des capacités d’intelligence virtuelle. Baptisée Bixby, la technologie va faire sa première apparition sur le Galaxy S8 prévu pour la fin mars. Bixby sera par la suite intégré à d’autres appareils de la firme sud-coréenne, téléviseurs et climatiseurs inclus.

Dans une chronique de blog, le chef R&D, Software et Services de Samsung, InJong Rhee assure que son assistant vocal se distingue des autres assistants numériques contrôlables via la voix. Il affirme que dès qu’une application est rendue compatible avec Bixby, l’ensemble des tâches exécutables par l’application sera supporté par l’assistant. Ce dernier est aussi doté d’une compréhension du contexte et est capable de saisir l'état de l'application, ce qui permettra aux utilisateurs d'exécuter en continu les travaux en cours, affirme le responsable R&D. Samsung indique également que Bixby peut faire preuve d’une certaine "tolérance cognitive" et comprendre les commandes même si les informations données par l’utilisateur sont incomplètes.

Ainsi, les avancées réalisées dans l’analyse et la modélisation de la parole naturelle ont permis d’atteindre des objectifs inattendus dans le domaine de la recherche par mots clés dans le web et de l’automatisation de la saisie sur clavier.

La technique du "Speech to Text" en est un exemple. Il s’agit d’une méthode de transcription automatique des sons au format texte pour permettre un meilleur référencement du contenu. Par exemple, au lieu de taper sur leurs smartphones des caractères complexes, les chinois préfèrent utiliser leurs voix pour envoyer des messages courts ou effectuer des recherches sur le Web.

A l’avenir, les usagers d’un terminal mobile subiront un contrôle d’identité vocal pour y accéder afin de bloquer l’accès aux personnes non autorisées. Pour cela il est nécessaire d’implanter un système de reconnaissance vocale en ligne qui, en temps réel, authentifie la voix de l’utilisateur.

Cependant, la disponibilité de cette technologie est conditionnée par la levée d’un obstacle très important. Il s’agit des limites relevées dans les terminaux dans le Computing des programmes nécessaires. Ces derniers doivent être stockés dans des serveurs Cloud. C’est pourquoi, les caractéristiques d’un réseau de communication doivent être prises en compte. Par exemple, la voix doit être codée à bas débit pour éviter une consommation trop importante de bande passante, et la transmission des communications doit reposer sur une architecture distribuée. On peut alors imaginer un monde dans lequel un médecin est en mesure de mener à distance un "check up" uniquement sur la base de l’analyse de la voix de son patient.

Retrouvez les articles de HuffPost Algérie sur notre page Facebook.

Pour suivre les dernières actualités en direct, cliquez ici.