Golpedegato: reconocimiento de voz

Mostrando entradas con la etiqueta reconocimiento de voz. Mostrar todas las entradas

2012/03/07

El Siri de Google se llamará “Assistant”

Ya en diciembre se supo que en Mountain View trabajaban en su propio Siri, su propio asistente virtual que facilitaría la interacción con los dispositivos a los usuarios; nuevas informaciones ya le ponen nombre.

El servicio tuvo el nombre clave “Majel”, pero se lanzará oficialmente con el nombre “Assistant”, según ha indicado TechCrunch.
Sí. Ya sabemos que no es un nombre muy original ni creativo, al menos no tanto como los que Google elige para las diferentes versiones de su sistema operativo.
Los retos principales para el desarrollo de este asistente tienen que ver tres puntos: conseguir “traducir” prácticamente todo el contenido de la web a un formato que el ordenador pueda entender, crear una capa que permita “personalizar” las búsquedas y hacerlo útil para solventar necesidades cotidianas de los usuarios.
Sea como fuere, “Assistant” estaría siendo desarrollado por el equipo de Android y podría estar listo para finales de 2012. La intención de Google sería la ampliar la funcionalidad del servicio y de ponerlo a disposición de los desarrolladores.

2012/01/30

Nintendo y NTT desarrollan una tecnología de reconocimiento de voz

Según ha informado la agencia de noticias japonesa NHK, Nintendo y la empresa de telecomunicaciones NTT han establecido un acuerdo para trabajar en una tecnología de reconocimiento de voz. En esta colaboración participarán otras compañías tecnológicas.

El objetivo es desarrollar una tecnología que pueda convertir la voz en texto con el objetivo de ayudar a niños con problemas en el aula. Nintendo desea aplicar esta tecnología en sus consolas.

De esta manera, lo que se conseguiría es que se pudiera reconocer el habla de los profesores y escribir en una pizarra electrónica lo que está diciendo o bien en dispositivos portátiles personales, como una Nintendo DS o una Nintendo 3DS.

Además, las clases se almacenarían directamente en un servidor, quedando guardadas en la nube para ser accesibles desde otros terminales y en cualquier momento desde casa.

La portátil podría tener también el camino inverso en cuanto a comunicación, y utilizarse como punto de emisión de la voz que sería transformada a texto.

Los primeros experimentos ya están en marcha en la sede de NTT, en Okinawa.

2012/01/20

Siri se va de tu móvil a tu casa

Una compañía de Arkansas consigue que Siri, el asistente de voz del iPhone 4S, controle los diferentes aparatos del hogar.

Que todo lo que nos rodee en el futuro será inteligente es sabido por todos. La palabra “smart” se incorporará a todos y cada uno de los objetos cotidianos: smartwatch, smartphone, smartcar… ¿smarthome?
La tecnología de voz integrada en dispositivos que puedan responder a comandos de voz es ya una realidad. Y se llama Siri. O Majel. Pero, ¿y si esta tecnología se incorporara a los objetos del hogar?
Un vídeo publicado en YouTube demuestra cómo la compañía Carnes Audio Visual ha conseguido que Siri controle la temperatura ambiente o la intensidad de las luces sólo con órdenes de voz. La compañía ha copiado las capacidades de Siri con el empleo de equipos de automatización AMS-AIP y un servidor intermediario (proxy) para ayudar en la comunicación del asistente de voz con los objetos.
No serán, ni mucho menos, los pioneros. Eric Schmidt anunciaba recientemente las intenciones de su compañía y de Android para permitir conectar los aparatos domésticos a través de la nube.

2011/12/21

La compañía desarrolladora de Siri se hace con su mayor rival

La compañía estadounidense Nuance, ha anunciado que comprará a su principal rival en el sector de tecnología de voz, Vlingo, para la construcción de una tecnología mejorada destinada a aplicaciones, móviles y servicios.
Nuance ha sido un proveedor de tecnología de voz durante años, pero no ha sido hasta la presentación del iPhone 4S y concretamente del asistente de voz Siri, hasta cuando ha sido reconocida a nivel mundial. Un reconocimiento que también se ha dejado notar en sus ingresos que ascendieron a los 118,7 millones de dólares en los resultados financieros más recientes, según Cnet.
Vlingo por su parte, ha sido hasta ahora el principal competidor de Nuance en este campo; han disputado batallas legales por supuestas violaciones de patentes. Pero estas rivalidades, la corporativa y la judicial, han tocado a su fin.
A partir de ahora trabajarán juntas en el desarrollo de una tecnología más potente y mejorada. Se prevé que mejoren Siri, pero también otras aplicaciones similares que van ganando terreno en la medida que los dispositivos inteligentes llegan a todos los ámbitos.
El cometido, según han anunciado desde Nuance es el de “integrar una voz natural” que permita una interacción conversacional en productos móviles, aplicaciones y servicios. “Con la adquisición de Vlingo somos capaces de acelerar el proceso de innovación para satisfacer la demanda”, ha señalado Mike Thompson, vicepresidente senior de Nuance Mobile, informa Venture Beat.

2011/12/07

Cloe, un Siri español

Mientras los usuarios de iPhone 4S, el único modelo en el que funciona Siri, esperan su estreno en español, los poseedores de un teléfono con Android pueden comenzar a jugar con Cloe, un programa con la misma finalidad. O ver el vídeo demostrativo que su autor ha subido a YouTube.

Misael Moreno, un toledano de Sonseca de 27 años es su autor. "Vi que había mucha expectación con el producto de Apple, pero también decepción por tener que esperar tanto para probarlo". Detrás del nombre no hay una gran historia, tan solo la intención de dar con algo que sonase neutro y fuese fácil de pronunciar y recordar.
Como pasa con tantos desarrolladores, Moreno ha creado y sigue actualizando el programa al salir del trabajo. La primera versión se estrenó en la tienda de aplicaciones de Android a mediados de noviembre. Desde entonces roza las 4.000 descargas y se mantiene entre las 15 más populares entre las que son de pago, algo no tan común en esta plataforma abierta.
Parte del éxito se debe al precio, un euro y medio, pero también a su utilidad. Cloe reconoce el habla del dueño del teléfono y le responde tanto con voz como con información en pantalla. Moreno matiza que todavía cuenta con restricciones de sintaxis: "Quisiera que fuera tan intuitivo como es Siri pero por ahora no es posible". Estas limitaciones significan que para saber el resultado de la jornada de Liga se debe incluir en la frase los términos "jornada" y "liga". O "cartelera" y "cine" para saber qué películas se pueden ver en las pantallas. Por lo demás, sorprende que puede dar recomendaciones de lugares que se encuentran a nuestro alrededor.
Por el momento Cloe funciona como calculadora, como buscador y sabe qué tiempo hará en cualquier lugar del mundo u ofrecer la letra de una canción de la que solo conocemos algún verso. Uno de sus usos más divertidos es la consulta de recetas. Cloe va indicando los pasos para hacer multitud de platos.
Moreno, que trabaja como responsable técnico de una empresa de turismo, prepara lo que denomina la versión 3.0. "Consistirá en una integración más profunda en el teléfono para poder dictar SMS, correos y dar órdenes para abrir programas o hacer llamadas, por ejemplo", dice este desarrollador.
Entre las ventajas que destaca de Android está la facilidad de desarrollo y menores restricciones con respecto a Apple para publicar programas. Cloe es su primera aplicación. En vista del éxito se plantea exportar este asistente Made in Spain para Windows Phone 7, la plataforma de móviles de Microsoft.

2011/11/14

Amazon también será rival de Apple en sistemas de voz

Apple se ha convertido en el gran rival a batir por los grandes de internet. Y no es porque la compañía tenga grandes negocios en la red sino porque otras empresas como Amazon o Google han dado el salto del mundo virtual al real. Amazon lanzará mañana en EEUU su tableta Kindle Fire, un dispositivo llamado a competir tanto con el iPad como con su ecosistema de aplicaciones que tendrá un precio de 146 euros (el iPad más barato se comercializa por 479).
A ello se suma que la compañía de Jeff Bezos ha adquirido una empresa llamada Yap dedicada al desarrollo de aplicaciones de reconocimiento de voz. Los analistas ya especulan con que Amazon podría estar preparando una herramienta similar a Siri, de Apple, que responde mediante voz a preguntas planteadas en lenguaje natural. Disponible por el momento sólo para el iPhone 4S, cuyo problema de batería ya ha sido solucionado a través de una actualización del sistema operativo, los expertos creen que Amazon añadiría esa aplicación de voz a su tableta para tomarle la delantera por otro lado al iPad.
Google, por su parte, también dispone de herramientas de reconocimiento de voz disponibles en móviles y tabletas a través de su sistema operativo Android. Kindle Fire utilizará Android como base (otro de los motivos que enfrenta a Amazon con Apple) pero se trata de una versión modificada que sólo permite acceder a la tienda de aplicaciones ideada por Bezos. Con ello, el negocio que empezó como una librería online se asegura que todas las aplicaciones pasen por sus manos.
Y Amazon ya lanzó en marzo su servicio de almacenamiento en la nube, Cloud Drive, meses antes de que Apple hiciera lo propio con su iCloud. Tanto uno como el otro han sido creados para que el usuario almacene sus contenidos online y los reproduzca en el dispositivo que quiera. Cuando Amazon empiece a vender sus tabletas y los contenidos para ella, la batalla se trasladará de nuevo de los soportes físicos a internet.

2010/08/14

Órdenes de voz en Android, un gran complemento

the INQUIRER

Google ha presentado la característica Voice Actions para Android, un software que permite a los usuarios de Android 2.2 Froyo dictar una serie de órdenes de voz para que se ejecuten ciertas tareas u operaciones en estos smartphones.
Las posibilidades son interesantes, ya que permiten abreviar el acceso a muchas funciones que requieren varios “toques” en las pantallas táctiles de estos dispositivos, mientras que con Voice Actions basta con dictar esas órdenes para que se ejecuten de forma casi instantánea.
Por ejemplo podremos enviar SMS, escuchar cierta música, llamar a un teléfono, enviar un correo electrónico a un contacto, ir a un sitio web, escribir notas o buscar una localización en Google Maps.
Por ahora la aplicación solo está disponible en inglés, pero los que la han probado afirman que funciona de forma notable, y sin duda representa un paso adelante más en la evolución de una plataforma que cada vez se lo pone más fácil a los usuarios.

2009/10/30

No mienta por teléfono, Agnitio le reconocerá

Fuente: Expansion.
Hace aproximadamente un año y medio, un afamado abogado de Malasia fue filmado accidentalmente por su sobrino, que después colgó el vídeo doméstico en YouTube.
Las imágenes mostraban al abogado hablando por teléfono y se escuchaba cómo hablaba de sus posibilidades con los distintos magistrados del Tribunal Supremo del país.
Pronto, este personaje fue imputado, pero en su defensa alegó que el vídeo estaba manipulado y que ésa no era su voz. “Dos policías forenses malayos se presentaron de pronto en Madrid preguntando por la tecnología de Agnitio”, cuentan fuentes de la empresa.
Agnitio es una firma española que desarrolla software de biometría de voz. Es decir, programas que determinan las vibraciones de la voz de cada persona. “Cambiar el tono o ponerse un pañuelo delante de la boca no sirve de nada, porque la garganta sigue siendo la misma”, asegura Emilio Martínez, consejero delegado de Agnitio. Por supuesto, la biometría no entiende de idiomas, con lo que la tecnología es válida para cualquier país del mundo.
En la actualidad, departamentos de policía de 23 países emplean el software de Agnitio, sobre todo, como prueba forense. También los servicios secretos de inteligencia y el mundo judicial usan el reconocimiento de la voz para determinar la autoría de un hecho. El grupo compite con media docena de empresas en el mundo. “Nuestro sistema detecta posibles cortes y manipulaciones de las grabaciones”, destaca Martínez.
Fiabilidad
“Al igual que ocurre con la huella digital, es necesario comparar la voz con una muestra”, dice el presidente de Agnitio. En este sentido, existe una base de datos, llamada ASIS (Automatic Speaker Identification System), similar al AFIS para muestras de los dedos.
“En menos de un minuto es posible identificar dos o tres posibles candidatos de una lista de 100.000 personas”, afirma Martínez. Desde Agnitio, se atreven a estimar que la biometría de voz tiene, para ciertas aplicaciones reales, un nivel de falsa aceptación (inocentes cuya voz se confunde con la del culpable) por debajo del 0,5% y un falso rechazo inferior al 5%.
El mayor problema al que se enfrenta la información sobre la voz es la confidencialidad de las conversaciones que estaban teniendo lugar. “No siempre es posible intercambiar la información ente las distintas policías”, reconoce Martínez.
Otros usos
La biometría de la voz puede aplicarse en entidades bancarias y otras organizaciones comerciales, como operadoras de telefonía. “Existe una entidad financiera en España que concede una nueva contraseña a sus empleados cada mes. Como es corriente que se les olvide, pueden llamar por teléfono, el sistema les hace decir unas pocas palabras, les reconoce y les proporciona sus nuevas claves”, describe el ejecutivo español. “En unos años, el banco empleará el sistema también para reconocer a sus clientes”, añade.
Este software es también útil para trabajos remotos o teletrabajo. “En EEUU, nuestra tecnología se usa para verificar que los médicos permanecen en el hogar del paciente el tiempo que declaran: deben llamar desde el domicilio del paciente al llegar y justo antes de marcharse”, dice Martínez.
“El del reconocimiento de la voz es un sistema relativamente barato, disponible desde unos 30.000 euros. No requiere de hardware, sólo de software para digitalizar el sonido, que puede enviarse después por cualquier teléfono”, sostiene Martínez.
Por ahora, Agnitio se ha adjudicado dos concursos públicos en el Estado de Nueva York y confía en extenderse por todo el país en los próximos meses. Fundada en 2004, la empresa ya ha cerrado tres rondas de financiación, con inversores como Nauta Capital, y espera facturar más de tres millones de euros este año.

2009/03/18

IBM prepara una web hablada

Fuente: Europa Press.

Cegados por nuevas tecnologías como las pantallas "multi touch" o el emergente seguimiento de la vista para controlar los dispositivos, a veces no reparamoso en técnicas que no sean visuales. IBM ha desarrollado una tecnoloía con la que pretenden que el usuario "hable" con un tipo de web sólo para móviles

La división india de IBM ha ideado una nueva forma de concebir los hipervínculos, con respecto a la que tenemos de Internet para los ordenadores en la actualidad. "La gente hablará a la web y la web responderá", ha avanzado el director asociado del Laboratorio de Investigación de IBM India Manis Gupta, en declarciones al India Times recogidas por Europa Press.

"La tecnología de investigación es análoga a Internet. Al contrario que los ordenadores personales, funcionará en móviles, donde la gente puede crear sencillamente sitios de su voz", ha continuado Gupta.

La web hablada es una red de sitios de voz o "voz y respuesta interconectadas". La compañía ha hecho algunas pruebas en Andhra Pradesh y Gujarat, en la India, y el tipo de innovación que la gente ha descubierto con esta nueva forma de interconectar sitios ha dejado a los que lo han probado "atónitos", según Gupta.

Para este tipo de sitios, IBM ha desarrollado un nuevo protocolo, denominado Procolo de Transferencia de Hiperdiscurso -Hyperspeech Transfer Protocol, (HSTP)-, que es similar al Protocolo de Transferencia de Hipertexto -Hypertext Transfer Protocol (HTTP)-, que es el empleado en Internet en ordenadores.

2008/09/15

Google cumple 10 años y se marca el reto de la búsqueda mediante voz

Fuente: elPeriodico.com.

En inglés se ha convertido en un verbo, to google, como definición de buscar información en internet y en España lo usan el 95% de los internautas. Y es que pocos productos pueden presumir de llegar a más de 1.000 millones de personas. Pero como Google es una de esas compañías que celebran el futuro y no el pasado, sus 10 primeros años han pasado casi desapercibidos. Ni un pastel en su cambiante logo el pasado día 7, el aniversario de la constitución de la empresa. Solo una entrada en el blog corporativo a cargo de la directora de márketing, Marissa Meyer, traza las líneas de lo que debe ser el buscador en la siguiente década: móvil, capaz de encontrar a partir de la voz, las imágenes o los sonidos, y de considerar el uso social que se hace de cada término.

Una frontera que ni pensaban Sergey Brin y Larry Page cuando abrieron su primera oficina en el garaje de una amiga en Menlo Park, al más puro estilo Silicon Valley, y desde la que daban internet gratis a la casera. Pero la historia de lo que tenía que ser "la mejor experiencia de búsquedas de la red" había comenzado tres años antes, a partir del flechazo intelectual entre los fundadores en la Universidad de Stanford, de la que ambos eran alumnos.

Brin y Page tenían en común padres y madres profesores universitarios en materias como programación, matemáticas e inteligencia artificial, y un precoz interés por los ordenadores. Como ejemplo, Brin se construyó de niño una impresora con piezas de Lego.

AYUDA UNIVERSITARIA

En la facultad de informática de Stanford (que financió Bill Gates dándole el nombre de su padre), ambos desarrollaron su primera idea de buscador a base de primar las páginas más enlazadas (Page Rank), pero tuvieron que salir del entorno académico para crear la empresa, de la que Stanford siempre se consideró parte intelectual.

Aun así, profesores de la universidad fueron sus padrinos para conseguir contactos, como Andy Bechtosheim, fundador de Intel y primer inversor de la compañía, que les dio un cheque de 100.000 dólares que los dos estudiantes celebraron con una cena en el Burger King.
Si hay señales que marcan estilo, esa fue una. En un momento en que el dinero fluía para las puntocom y los Ferraris y las mesas de billar eran obligadas, Google se creó con ordenadores reciclados que mejoraban sus prestaciones por software y no fueron a comprar grandes cantidades de piezas hasta que no tuvieron 25 millones de dólares apalabrados.

Fue una financiación casi récord que pusieron a partes iguales en un pacto inusitado las dos principales firmas de inversión del Silicon Valley: Kleiner, Perkins, Caufield & Byers, y Sequoia Capital. Pagaban poco, daban a sus empleados acciones y comida de calidad gratis y no invertían en publicidad, pero el boca-oreja era tan espectacular que desbordaron a sus rivales por aquel entonces, Yahoo, Altavista y Excite, en muy poco tiempo.

Page y Brin batallaron duro para no ceder a sus inversores su todavía no negocio (no elaboraron un plan hasta el 2001) y tan solo aceptaron fichar a un ejecutivo externo cuando las visitas ya desbordaban en exceso las previsiones iniciales.

El elegido fue Eric Schmidt, presidente ejecutivo de Novell, que durante unos meses estuvo pluriempleado en la compañía de redes y en la del buscador. Y que tuvo que convencer a los dos informáticos de que una empresa como la suya no iba ya a gestionar la contabilidad con un programita para pymes.

De nuevo, la proverbial tacañería de ambos ingenieros, según cuenta David Vise en The Google Story, que reinvertían cualquier beneficio y fichaban a un neurólogo, Jim Reese, para diseñar la red de servidores.

Sus primeros ingresos llegaron de licenciar la tecnología de búsqueda a empresas como Red Hat y a competidores como Yahoo (el cofundador David Filo ya les ayudó en sus inicios), AOL y Ask Jeeves, que consideraban que esto de las búsquedas era algo banal y que había que concentrarse en un portal lo más generalista posible que permitiera retener a los usuarios.

DIFERENTES DE YAHOO
Los anuncios llegaron más tarde, después de estudiar cuidadosamente cómo colocarlos para diferenciarse de Yahoo, que los priorizaba sobre los resultados de las búsquedas. Y se vio avalada por contratos como el del gigante de la distribución Wal-Mart y el del automóvil Acura, que empezaron así a anunciarse en internet. Sería el inicio de la expansión internacional, con 68 oficinas en todo el mundo y traducción a casi todos los idiomas.

Cuando salieron a bolsa, en agosto del 2004, fueron originales y optaron por un sistema de subasta que elevó el precio inicial de 85 dólares a 200 en dos meses. Un año más tarde, Google estaba en 300 dólares, con una cuota de uso del buscador del 48% entre los internautas del mundo, y en diciembre del 2007 logró su techo de 714 dólares. El viernes estaba en 433, el 33% menos, con una cuota del 73%. La crisis de los mercados también le pasa factura.

2008/07/04

Buscar con la voz en Google Maps móvil

Fuente: Canal PDA.

Los usuarios norteamericanos de BlackBerry Pearl (modelos 8110, 8120 y 8130) ya pueden utilizar en sus teléfonos una nueva función de Google Maps: la búsqueda de empresas con la voz. En lugar de teclear el nombre de la empresa que buscan, que puede ser muy largo o tal vez ni siquiera saben cómo se escribe, pueden limitarse a decirlo para que el teléfono la busque y les indique sobre el mapa dónde se encuentra.

La búsqueda por voz en Google Maps móvil es todavía una función experimental y limitada a los terminales Pearl de BlackBerry. Utiliza el mismo sistema de reconocimiento de voz que el servicio GOOG-411 de información telefónica.

Según Google, para utilizar la nueva función, el usuario tiene que pulsar "0" para centrar el mapa en la ubicación donde se encuentra, y mantener pulsada la tecla lateral izquierda del teléfono mientras dice el nombre o tipo de empresa que busca (por ejemplo, 'pizza'). Al soltar la tecla, el programa efectúa la búsqueda y muestra el resultado en la pantalla.

Habrá que ver qué tal funciona cuando llegue aquí y comencemos a buscar 'café' o 'cerveza' en lugar de pizzas, claro.

2007/06/15

Microsoft patenta tu voz

El gigante del software mundial ha patentado un sistema de identificación de la voz humana al hablar por teléfono. Casi de ciencia-ficción.

El registro de la patente número 10.777.322 incluye un método y un aparato para identificar a la persona que hace la llamada. En la patente se indica que la entrada de voz de la persona que llama es captada y sus características son contrastadas con una lista de modelos acústicos aceptables según el patrón recibido.

Esto significa que la persona que hace la llamada puede ser identificada como nueva o conocida basándose en la lista de control de llamadas previamente efectuadas, o como una nueva persona y voz, teniendo en cuenta la variedad de los registros acústicos que existan en el sistema.

Naturalmente si alguien te llama y reconoces su voz, tu cerebro está haciendo exactamente lo mismo. Por tanto cuando la gente de Microsoft te asalte para decirte que tu cerebro está incumpliendo su patente, sabrás que te están dando la lata con este tema.

Fuente: the INQUIRER.

2007/02/27

Windows Vista: Programando en Perl con reconocimiento de voz

De: Venera7.com.