¿Cómo funciona la búsqueda por voz?
26 febrero, 2018
Cómo funciona la búsqueda por voz según un consultor seo freelance
El lenguaje es la barrera que diferencia a los seres humanos de otras especies. Sin embargo, criaturas inteligentes como los delfines saben cómo utilizar los sonidos de las comunicaciones, solo los seres humanos pueden disfrutar de un lenguaje rico intrincado. De solo un par de letras, se pueden formar diez mil palabras y expresar una cantidad indefinida de pensamientos.
Durante un período prolongado, los científicos han soñado con máquinas que pueden escuchar y hablar como los humanos. La tecnología de reconocimiento de voz se desarrolló hace varios años y actualmente existe en la mayoría de las PC y dispositivos móviles de búsqueda. Sin embargo, solo unas pocas personas lo usan, posiblemente porque la mayoría de las personas no se molestan en probarlo, basándose en la suposición de que las computadoras no entienden el lenguaje humano. El reconocimiento de voz es un tema complejo que ha desafiado a los científicos informáticos, e incluso a los lingüísticos y matemáticos. Echemos un vistazo y descubramos cómo funciona la búsqueda por voz.
Cuando el ser humano habla, se generan pequeños paquetes de sonido conocidos como «Teléfonos» a partir de nuestra voz, y corresponden a un grupo de letras en palabras. Por ejemplo, hablar la palabra gatos corresponde a los teléfonos «c», «a» y «t». Otro concepto empleado es el de los fonemas que básicamente se refieren a bloques de sonidos a partir de los cuales se construyen todas las palabras. Para diferenciar los teléfonos y los fonemas, un teléfono se considera bits reales de sonidos, mientras que los fonemas son fragmentos ideales de sonido almacenados en las mentes; por lo tanto, son fragmentos de sonido que en realidad nunca se hablan.
Cuando los humanos escuchan un discurso, los oídos captan los teléfonos que vuelan por el aire y nuestro cerebro los convierte en palabras, pensamientos, oraciones e ideas. Esto sucede tan rápido que nuestro cerebro lo hace parecer un truco de magia, por lo que escuchar es muy fácil. Las computadoras y el software de búsqueda móvil manipulan tanto los teléfonos como los teléfonos, pero los bits reales se analizan y procesan para reconocerlos como voz. Es uno de los campos complejos de la ciencia de la computación, ya que es un campo interdisciplinario de informática, matemática y lingüística compleja.
Hay cuatro enfoques que una computadora usa para convertir una palabra hablada en una palabra escrita durante la búsqueda por voz. El primero es la coincidencia simple, donde una palabra se reconoce en su totalidad, y se compara con un sonido similar almacenado en la memoria. El análisis de patrones y características es el segundo; cada palabra se divide en bits que se reconocen a partir de características clave, como la vocal. El tercer enfoque es el modelado del lenguaje y el análisis estadístico donde el conocimiento de la gramática y la probabilidad de que ciertos sonidos o palabras se sigan entre sí se usa para mejorar la precisión y la velocidad del reconocimiento de voz. El cuarto enfoque emplea redes neuronales artificiales; son como modelos de computadora del cerebro que pueden reconocer patrones de sonidos y palabras después de un entrenamiento extenso.
Hoy en día, la aplicación de búsqueda de voz de Google escucha cuando una persona habla, y luego se da cuenta de lo que significa, y luego intenta encontrar lo que la persona ha pedido en Internet. Esta aplicación funciona al vincular los enfoques de reconocimiento de voz a un complejo sistema de procesamiento de lenguaje natural. No solo tienen que descubrir lo que dice una persona, sino lo que significa y la consecuencia que desea que suceda. Hoy, los dispositivos de búsqueda móvil se han incorporado con la aplicación de búsqueda de voz de Google, de modo que puede hacer búsquedas en Google sin el teclado según un consultor seo freelance
Ya en 2012, la búsqueda por voz había dado un nuevo giro al adoptar Deep Neural Networks (DNN); era una tecnología central que el sonido de los idiomas modelo. La tecnología podría evaluar el sonido producido por los usuarios en cada instante y mejorar significativamente la precisión del reconocimiento de voz. Actualmente, el reconocimiento de voz utiliza modelos acústicos de red neuronal mucho mejores que emplean técnicas de entrenamiento discriminante de secuencia y clasificación temporal conexionista. Además, estos modelos forman una extensión única de Redes neuronales recurrentes que las hacen incluso más rápidas y precisas incluso en entornos ruidosos.
Entry Filed under: Noticias. .
Leave a comment
Some HTML allowed:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>
Subscribe to the comments via RSS Feed