Alexa, ¿cómo funciona Siri? Control de voz explicado

  • Michael Cain
  • 4
  • 1263
  • 80
Anuncio

Podemos hablar con casi todos nuestros dispositivos ahora, pero ¿cómo funciona exactamente? Cuando preguntas “Que canción es esta?” o decir “Llama a mama”, Un milagro de la tecnología moderna está sucediendo. Y aunque parece que está a la vanguardia, esta idea de hablar con dispositivos se remonta a décadas, casi tan lejos como los jetpacks en ciencia ficción.!

Hoy, la mayor parte de la atención prestada a la computación basada en la voz está en los teléfonos inteligentes. Apple, Amazon, Microsoft y Google están en la cima de la cadena, y cada uno ofrece su propia forma de hablar con la electrónica. Sabes quiénes son: Siri, Alexa, Cortana y los sin nombre. “Está bien Google” siendo. Lo que plantea una gran pregunta ...

¿Cómo toma un dispositivo las palabras habladas y las convierte en comandos que puede entender? En esencia, todo se reduce a la coincidencia de patrones y a hacer predicciones basadas en esos patrones. Más específicamente, el reconocimiento de voz es una tarea compleja que proviene de Modelado Acústico y Modelado de lenguaje.

Modelado acústico: formas de onda y teléfonos

El modelado acústico es el proceso de tomar una forma de onda del habla y analizarla utilizando modelos estadísticos. El método más común para esto es Modelado oculto de Markov, que se usa en lo que se llama modelado de pronunciación para dividir el habla en partes componentes llamadas teléfonos (que no debe confundirse con los dispositivos telefónicos reales). Microsoft ha sido un investigador líder en este campo durante muchos años..

Modelado oculto de Markov: Estados de probabilidad

El modelado oculto de Markov es un modelo matemático predictivo en el que el estado actual se determina analizando la salida. Wikipedia tiene un gran ejemplo usando dos amigos.

Imagine dos amigos, un amigo local y un amigo remoto, que viven en diferentes ciudades. Local Friend quiere averiguar cómo es el clima donde vive Remote Friend, pero Remote Friend solo quiere hablar sobre lo que hizo ese día: caminar, comprar o limpiar. La probabilidad de cada actividad dependiendo del clima del día..

Finja que esta es la única información disponible. Con él, Local Friend puede encontrar tendencias sobre cómo cambió el clima de un día a otro y, utilizando estas tendencias, puede comenzar a hacer conjeturas fundamentadas sobre el clima de hoy en función de la actividad de su amiga ayer. (Puede ver un diagrama del sistema arriba).

Si desea un ejemplo más complejo, consulte este ejemplo en Matlab. En el reconocimiento de voz, este modelo esencialmente compara cada parte de la forma de onda con lo que viene antes y lo que viene después, y con un diccionario de formas de onda para descubrir lo que se dice.

Esencialmente, si haces un “th” sonido, va a comparar ese sonido con los sonidos más probables que suelen aparecer antes y después. Tal vez eso significa verificar contra el “mi” sonido, el “a” sonido, y así sucesivamente. Cuando el patrón coincide correctamente, tiene toda su palabra. Esta es una simplificación excesiva, pero puede ver la explicación completa de Microsoft aquí.

Modelado de idiomas: más que sonido

El modelado acústico ayuda mucho a que su computadora lo entienda, pero ¿qué pasa con los homónimos y las variaciones regionales en la pronunciación? Ahí es donde entra en juego el modelado de idiomas. Google ha llevado a cabo una gran cantidad de investigación en esta área, principalmente a través del uso de Modelado de N-gram.

Cuando Google intenta entender su discurso, lo hace en base a modelos derivados de su enorme banco de Búsqueda de Voz y transcripciones de YouTube. Todos esos subtítulos de video hilarantemente erróneos realmente han ayudado a Google a desarrollar sus diccionarios. Además, utilizaron el avión de ida y vuelta 411 para recopilar información sobre cómo hablan las personas..

Toda esta colección de idiomas creó una amplia gama de pronunciaciones y dialectos, lo que resultó en un diccionario robusto de palabras y cómo suenan. Esto permite coincidencias que tienen una tasa de error muy reducida que la coincidencia de fuerza bruta basada en probabilidades brutas. Puede leer un breve documento que describe sus métodos aquí..

Si bien Google es líder en este campo, se están desarrollando otros modelos matemáticos, incluidos los modelos espaciales continuos y los modelos de lenguaje posicional, que son técnicas más avanzadas que nacen de la investigación en inteligencia artificial. Estos métodos se basan en replicar el tipo de razonamiento que los humanos hacen cuando se escuchan unos a otros. Estos son mucho más avanzados tanto en términos de tecnología detrás de ellos, como también en matemáticas y programación necesarios para mapear estos modelos..

Modelado de N-Gram: la probabilidad se encuentra con la memoria

El modelado de N-gram funciona en función de las probabilidades, pero utiliza un diccionario de palabras existente para crear un árbol ramificado de posibilidades, que luego se suaviza en aras de la eficiencia. En cierto modo, esto significa que el modelado de N-gram elimina gran parte de la incertidumbre en el modelado de Markov oculto antes mencionado.

Como se señaló anteriormente, la fuerza de este método proviene de tener un gran diccionario de palabras y uso, no solo primitivo suena. Esto le da al programa la capacidad de diferenciar entre homófonos, como “golpear” y “remolacha”. Es contextual, lo que significa que cuando habla de los puntajes de la noche anterior, el programa no saca palabras sobre el borscht.

Pero estos modelos en realidad no son los mejores para el lenguaje, principalmente debido a problemas con las probabilidades de palabras en frases más largas. A medida que agrega más palabras a una oración, este modelo se vuelve un poco extraño ya que es improbable que sus primeras palabras hayan cargado todo lo necesario para su pensamiento completo.

Sin embargo, es simple y fácil de implementar, por lo que es una gran combinación para una empresa como Google que disfruta arrojando servidores a problemas informáticos. Puede leer más sobre Modelieng de N-gram en la Universidad de Washington, o puede ver una conferencia en Coursera.

Gritando en las nubes: aplicaciones y dispositivos

Cualquiera que haya usado Siri conoce la frustración de una conexión de red lenta. Esto se debe a que sus comandos a Siri se envían a través de la red para que Apple los decodifique. Cortana para Windows phone también requiere una conexión de red para funcionar correctamente. Sin embargo, en contraste, el Echo de Amazon es solo un altavoz Bluetooth sin Internet.

¿Por qué la diferencia? Porque Siri y Cortana necesitan servidores pesados ​​para decodificar su discurso. ¿Se puede hacer en su teléfono o tableta? Claro, pero matarías tu rendimiento y la duración de la batería en el proceso. Simplemente tiene más sentido descargar el procesamiento a máquinas dedicadas.

Piénselo de esta manera: su comando es un automóvil atrapado en el barro. Probablemente podría expulsarlo usted mismo con suficiente tiempo y esfuerzo, pero tomará horas y lo dejará exhausto. En cambio, llama a la asistencia en carretera y sacan su automóvil en solo unos minutos. La desventaja es que tiene que hacer la llamada y esperarlos, pero aún así es más rápido y menos exigente.

Los modelos de escritorio como Nuance tienden a usar recursos locales debido al hardware más potente. Después de todo, en palabras de Steve Jobs, su escritorio es un camión. (Lo que hace que sea un poco tonto que OS X esté usando servidores para su procesamiento). Entonces, cuando necesita procesar el lenguaje y la voz, ya está lo suficientemente equipado como para manejarlo por sí mismo.

Por otro lado, Android permite a los desarrolladores incluir el reconocimiento de voz sin conexión en sus aplicaciones. A Google le gusta adelantarse a la tecnología, y puede apostar que las otras plataformas obtendrán esta capacidad a medida que su hardware se vuelva más potente. A nadie le gusta cuando la cobertura deficiente o la mala recepción lobotomizan su dispositivo.

Comience a usar los comandos de voz ahora

Ahora que conoce los conceptos fundamentales, debe jugar con sus diversos dispositivos. Pruebe la nueva escritura de voz en Google Docs Cómo la escritura de voz es la nueva mejor característica de Google Docs Cómo la escritura de voz es la nueva mejor característica de Google Docs El reconocimiento de voz ha mejorado a pasos agigantados en los últimos años. A principios de esta semana, Google finalmente introdujo la escritura por voz en Google Docs. ¿Pero es bueno? ¡Vamos a averiguar! . Como si la suite de oficina web no fuera lo suficientemente potente, el control por voz le permite dictar y formatear completamente sus documentos. Esto amplía la poderosa tecnología que ya diseñaron para Chrome y Android.

Otras ideas incluyen configurar su Mac para usar comandos de voz Cómo usar los comandos de voz en su Mac Cómo usar los comandos de voz en su Mac y configurar su Amazon Echo con pago automático Cómo Amazon Echo puede hacer de su hogar un hogar inteligente Cómo Amazon Echo puede Convierta su hogar en un hogar inteligente La tecnología inteligente para el hogar todavía está en sus inicios, pero un nuevo producto de Amazon llamado "Echo" puede ayudar a incorporarlo a la corriente principal. . Vive en el futuro y acepta hablar con tus gadgets, incluso si solo estás pidiendo más toallas de papel. Si eres un adicto a los teléfonos inteligentes, también tenemos tutoriales para Siri 8 cosas que probablemente no sabías que Siri podría hacer 8 cosas que probablemente no sabías que Siri podría hacer Siri se ha convertido en una de las características definitorias del iPhone, pero para mucha gente, no siempre es lo más útil. Si bien algo de esto se debe a las limitaciones del reconocimiento de voz, la rareza de usar ... Cortana 6 Cosas más geniales que puedes controlar con Cortana en Windows 10 6 Cosas más geniales que puedes controlar con Cortana en Windows 10 Cortana puede ayudarte a usar las manos libres en Windows 10. Puede permitirle buscar sus archivos y la web, hacer cálculos o consultar el pronóstico del tiempo. Aquí cubrimos algunas de sus habilidades más geniales. y Android OK, Google: 20 cosas útiles que puedes decirle a tu teléfono Android OK, Google: 20 cosas útiles que puedes decirle a tu teléfono Android El Asistente de Google puede ayudarte a hacer mucho en tu teléfono. Aquí hay un montón de comandos básicos de Google básicos pero útiles para probar. .

¿Cuál es su uso favorito de control por voz? Háganos saber en los comentarios.

Créditos de imagen: T-flex a través de Shutterstock, Terencehonles a través de la Fundación Wikimedia, Estado de Arizona, Cienpies Design a través de Shutterstock




asituzucik ([email protected])
27.09.21 15:38
<a href=http://slkjfdf.net/>Osuluili</a> <a href="http://slkjfdf.net/">Aovamo</a> byl.qkoy.es.unedose.fr.msl.ep http://slkjfdf.net/
uvoxipane ([email protected])
27.09.21 15:24
<a href=http://slkjfdf.net/>Uxaculuk</a> <a href="http://slkjfdf.net/">Imobapiir</a> zsu.mrnt.es.unedose.fr.lrb.ch http://slkjfdf.net/
ekuyoyake ([email protected])
27.09.21 15:13
<a href=http://slkjfdf.net/>Uwegebo</a> <a href="http://slkjfdf.net/">Iliwuvuh</a> wjc.dslr.es.unedose.fr.lsr.ys http://slkjfdf.net/
27.09.21 15:03
<a href=http://slkjfdf.net/>Edobepu</a> <a href="http://slkjfdf.net/">Ubaraefwa</a> xpm.gybl.es.unedose.fr.wdl.fx http://slkjfdf.net/
Sobre tecnología moderna, simple y asequible.
Tu guía en el mundo de la tecnología moderna. Aprenda a usar las tecnologías y los dispositivos que nos rodean todos los días y aprenda a descubrir cosas interesantes en Internet.