El lenguaje hablado ha sido identificado cómo el rasgo más distintivo de la humanidad. Los computadores son impresionantemente competentes manejando solicitudes habladas que requieren un respuesta estrictamente definida. Las máquinas, en el intercambio de voz con los humanos, progresivamente pueden manejar tareas más difíciles pero bien definidas. Pero las máquinas no pueden conducir conversaciones propias con humanos, ya que ellas no entienden el mundo. Una pregunta abierta tendrá como resultado una serie que asemeja una lista proveniente de un buscador. Las interfaces de lenguaje-natural entre humanos y máquinas son solamente otro paso en el proceso de proveer información y servicios a todo el mundo. Ello tampoco significa que le gente necesariamente se comunicará exclusivamente con las computadores hablando con ellas, la gente continuará disponiendo de la opción entre texto y voz. Curiosamente, el elemento esencial en los avances en esta tecnología ha sido el uso de la estadística.
Los avances
- Se ha desarrollado un conjunto común de prácticas que enseñan a las computadoras, entre otras cosas: reconocimiento de voz , identificación del hablante, análisis del sentimiento en los textos, identificación de idioma, descomposición de la gramática y reconocimiento de la escritura manual.
- La Data habla – Casi todas las tecnología del lenguaje han mejorado con la aplicación de métodos estadísticos. Estas utilizan la acumulación y procesamiento de grandes volúmenes de información y haciendo la mejor suposición con respecto al significado de un texto no visto previamente. La aplicación de las reglas del lenguaje es un enfoque que ya fue desechado por impráctico.
- El avance más reciente ocurrió con el advenimiento de aprendizaje profundo a través de las Redes Digitales Neurales (DNN). Particularmente tuvo impacto el descubrimiento casual del hecho que las Unidades de Procesamiento Gráfico, que se usan en aplicaciones como los video-juegos, también eran brillantes en el manejo de las redes neurales.
Emparejamiento de Patrones
La tecnologías del lenguaje se auto-enseñan a través del emparejamiento de patrones:
- Para reconocimiento de voz, por un lado son alimentados archivos de sonidos y por el otro transcripciones escritas por humanos. El sistema aprende a predecir cuáles sonidos cuales deberían resultar de las transcripciones.
- Para traducción, la data de entrenamiento son textos del idioma-fuente y traducciones realizadas por humanos.
- El sistema aprende a emparejar los patrones detectados entre ellos.
- Algo que mejora tanto el reconocimiento de voz como la traducción es el “modelo de lenguaje”, un banco de conocimientos sobre como tienden a ser las oraciones del idioma.. Esto limita el volumen de suposiciones que el sistema debe considerar.
Tasas de error
Las tasas de error en el software de reconocimiento-de-voz han disminuido en forma constante a través de los años:
- Más considerablemente desde la introducción de Aprendizaje Profundo.
- Los micrófonos son mejores y más económicos.
- Con el WiFi ubícuo, las grabaciones de sonido pueden ser fácilmente transmitidas a los computadores en la Nube para su respectivo análisis.
Modelo de Lenguaje
La característica más importante de un sistema de reconocimiento-de-voz es el conjunto de expectativas de lo que el hablante podría decir, es decir su “modelo de lenguaje”:
- Cuándo un sistema de reconocimiento de voz “oye” una secuencia de sonidos, hace una serie de suposiciones sobre lo que se está diciendo y calcula las probabilidades de haber encontrado la respuesta correcta, basado en las palabras, frases y oraciones que ha visto anteriormente en sus textos de entrenamiento.
- Haber entrenado con el parlante específico disminuye la cantidad de suposiciones.
- El conocimiento del tema del cual habla el parlante incrementa la precisión.
- Entre las áreas problemas por resolver, están las voces de niños y ancianos cuándo se movilizan dentro de un ambiente.
Se hace referencia a “Language: Finding a voice” http://econ.st/2iN4nQe y “How machines learned to speak human language” http://econ.st/2jwrsUq.
He visto que en Japón y a lo mejor en otros lugares, utilizan robots humanoides para interactuar con personas mayores que se encuentran en instituciones -parecieran responder a las personas ¿por voz? ¿reconocen sentimientos o necesidades de afecto? Gracias