A voz do dono: a nova era dos assistentes digitais
Como não pensar em “magia” quando um “electrodoméstico”- como o “Alexa” – permite ao consumidor pôr-lhe questões (“qual é a previsão do tempo para amanhã?”) ou pedir-lhe que execute tarefas (“liga-me a televisão no canal de desporto”) e obter respostas e resultados? Mas não se trata, obviamente, de magia. É mais como se o “futuro” antecipado em tantos filmes e séries televisivas de há décadas atrás (ou como nos desenhos animados dos “Jetsons” cuja imagem encabeça este post) tivesse finalmente chegado (ou quase…).
Parece claro que, se tivermos em conta as novidades que estão, neste momento, a ser apresentadas em Las Vegas (EUA) naquela que é, porventura, a maior feira tecnológica do género – a CES (Consumer Electronics Show) – os próximos anos vão ser marcados pela “explosão” de uma variedade de novos “assistentes digitais”. Algo que não é totalmente inesperado se pensarmos que a Amazon – que lidera esse mercado com o Amazon Echo (o “Alexa”) – abriu a sua plataforma tecnológica, no ano passado, no sentido de permitir o desenvolvimento, por terceiros, de novas aplicações (uma abertura que foi decisiva, por exemplo, há dez anos atrás, para o sucesso do iPhone da Apple).
O sucesso destes “assistentes digitais” (para além do “Amazon Echo”, há que referir também o Google Home, o Siri, da Apple e o Cortana, da Microsoft) resulta, em grande medida, de desenvolvimentos recentes que possibilitaram uma muito maior fiabilidade dos “comandos de voz” (um estudo acabado de sair revela que, ao contrário do que acontecia até há bem pouco tempo atrás, as buscas na internet que usam a tecnologia do “reconhecimento de voz” têm hoje uma eficácia que atinge os 92% sendo que, neste momento, já cerca de 20% das pesquisas no Google são activadas por comandos de voz).
Há, no entanto, ainda um longo caminho a percorrer cuja complexidade convém não minimizar já que, apesar dos avanços verificados em múltiplos domínios (inteligência artificial, “deep learning”, etc.) não se trata apenas de acrescentar capacidades “áudio” a uma dada aplicação mas de criar “contextos” interpretativos sofisticados que exigem a integração de múltiplas variáveis em tempo real.