LetMeVoice - Cómo funciona un programa de reconocimiento de voz

Uno de los mayores avances de la informática ha sido el desarrollo del reconocimiento de voz, que constituye una eficaz alternativa a los métodos de entrada como el ratón y el teclado. Vamos a analizar en qué consiste esta tecnología y cómo funciona un programa de reconocimiento de voz.

Qué es el reconocimiento de voz

Cada vez que deseamos dar instrucciones a un dispositivo informático (ordenador, smartphone, tableta) tenemos que utilizar la interfaz de hardware que se nos proporciona: en el caso de los ordenadores, todos tenemos en mente el teclado y el ratón, y con la aparición de los dispositivos táctiles, estos elementos de hardware pasaron directamente a la pantalla (aunque muchos modelos también admitan conexión física con estos periféricos).

El reconocimiento de voz se vale de otro periférico que habitualmente ha desempeñado un papel secundario en la informática, que normalmente no venía incluido al comprar un ordenador portátil o de escritorio, pero que está incorporado en todos los dispositivos móviles: el micrófono.

En paralelo, los fabricantes de software comenzaron a desarrollar programas destinados a capturar, convertir e interpretar la voz humana: a grandes rasgos, se estaba consiguiendo trasladar la voz humana a texto, haciendo posible que el usuario dictase palabras a su dispositivo informático.

Las posibilidades del reconocimiento de voz entonces empezaron a multiplicarse: de un uso restringido a dictar reemplazando al teclado se pasó a incorporar un sistema de interpretación de instrucciones, de modo que el usuario pudiera solicitar al sistema operativo que ejecutase algún programa, simplemente invocándolo por una instrucción de voz.

En la actualidad, se ha desarrollado también el reconocimiento de voz online: el usuario puede hacer búsquedas en Internet solicitándolo a su dispositivo, que recibe las instrucciones y navega por la red para dar una respuesta. Asimismo, estos aplicativos han empezado a estar disponibles en sitios web en lugar de solo formar parte de un sistema operativo (en calidad de aplicación nativa del sistema).

Un buen ejemplo de software de reconocimiento de voz lo tenemos en el asistente virtual Alexa, desarrollado por Amazon. Este asistente funciona principalmente por voz, de tal forma que puedes dar unas instrucciones y esperar respuestas o acciones a través de la propia aplicación.

Cómo funciona un programa de reconocimiento de voz

1. Conversión de la señal

El primer reto del reconocimiento de voz es convertir la señal analógica de audio en una señal digital (que pueda ser tratada por sistemas informáticos); el micrófono captura el sonido, lo convierte en una corriente eléctrica que pasa por un convertidor ADC (analógico a digital), y este devuelve una codificación binaria de la señal original.

2. Procesamiento del audio

La señal original debe ser lo suficientemente nítida para que el sistema la reconozca: esto incluye filtrar frecuencias y eliminar ruidos de fondo. Asimismo, también deben precargarse unos parámetros de volumen y velocidad del audio para compararlos con la señal entrante, y así facilitar su interpretación.

3. Creación de palabras

A continuación, el sistema de reconocimiento de voz debe encontrar sentido a la señal entrante y trasladarla a palabras de un idioma. Para esta tarea, existen dos métodos principales:

El modelo oculto de Markov. El sistema dispone de una base de datos precargada de fonemas, la unidad mínima del lenguaje hablado. A continuación, calcula la probabilidad de que un fonema suceda a otro, y así va construyendo las palabras.
Redes neuronales. Este sistema se basa en la idea de que la salida de que la máquina vaya aprendiendo por sí sola: a medida que el sistema de reconocimiento de voz va adquiriendo experiencia, es más preciso a la hora de predecir la ubicación de los fonemas.

4. Interpretación de instrucciones

Una vez que el sistema ha convertido la voz en un texto, otros programas deberán decidir qué hacer con la señal de entrada: puede ser simplemente un dictado para un procesador de textos o una aplicación de mensajería, puede ser interpretado como un comando que invoque algún programa instalado en el sistema operativo, o puede tomarse como unas palabras clave para realizar una búsqueda en Internet.

Aplicación del reconocimiento de voz en las empresas

Potenciar la customer experience

La gran ventaja de un sistema de reconocimiento de voz para la empresa es la facilidad con la que se puede interactuar con él: solo con un micrófono (algo que ya tienen todos los dispositivos móviles) y las aplicaciones adecuadas (ya incorporadas en los sistemas operativos), el usuario puede formular preguntas y consultas dirigidas a una empresa.

Con la definición de los touchpoints apropiados (puntos de contacto con los clientes que requieran de una interacción o respuesta), estos podrán utilizar instrucciones de voz para pedir información general, para solicitar soporte o para confirmar un pedido.

Implementar controles biométricos

La voz humana es un patrón infalible para identificar a una persona, como pueden serlo también la retina o la huella dactilar. El aparato vocal de cada ser humano es único, por lo que una empresa podría valerse de un sistema de reconocimiento de voz para verificar la identidad de una persona en concreto.

Las aplicaciones de este control biométrico son muy diversas: desde pedir una verificación para que los empleados fichen sus entradas y salidas, hasta conferir una protección adicional a elementos confidenciales, solo accesibles por personal autorizado.

Con un programa de reconocimiento de voz configurado adecuadamente al negocio, los clientes podrán relacionarse mejor con las empresas, y estas también podrán agregar elementos internos de seguridad: no cabe duda de que las órdenes de voz constituyen el nuevo paradigma de interfaz entre el hombre y la máquina.