Você provavelmente já passou pela frustração de ser mal ouvido ou mal compreendido por um alto-falante inteligente ou assistente de inteligência artificial. Para pessoas que possuem a fala diferente do padrão, isso pode acontecer em quase todas as interações com esse tipo de tecnologia, mas a empresa israelense Voiceitt pretende mudar isso.
Ao usar modelos de voz personalizados, seu sistema de reconhecimento de fala com tecnologia de IA ajuda pessoas com deficiências de fala, causadas por condições como paralisia cerebral, Parkinson, Síndrome de Down ou derrame, a se comunicarem de forma mais eficaz tanto com outras pessoas quanto com dispositivos digitais.
Para a cofundadora da Voiceitt, Sara Smolley, facilitar o reconhecimento de voz para pessoas com fala não padronizada é uma missão pessoal.
“Minha avó foi diagnosticada com doença de Parkinson de início precoce”, ela disse. “Quando eu nasci, ela tinha perdido a maioria de suas capacidades motoras, e sua fala foi impactada.”
O Voiceitt foi lançado como um aplicativo em 2021 e operava como um tradutor vocal simples, convertendo a fala não padrão em áudio. A IA é treinada pelo usuário gravando a si mesmo dizendo cerca de 200 frases simples de estoque.
Smolley disse que a ideia original era facilitar a comunicação presencial, mas a tecnologia agora também foi adaptada para trabalhadores remotos.
A Voiceitt desenvolveu integrações com WebEx e ChatGPT, junto com uma extensão do Google Chrome, que converte fala não padrão em legendas mostradas na tela. A empresa também está fazendo uma parceria com Zoom e Microsoft Teams.
“Uma das coisas que realmente se destacou para mim foi a importância da tecnologia de acessibilidade no local de trabalho”, observou Smolley. “O que uma rampa [para cadeira de rodas] era para o prédio de escritórios de ontem, a Voiceitt é para o local de trabalho remoto de hoje”, disse ela.
O software é vendido com uma licença por minuto ou por usuário, com preços variando de US$ 20 a US$ 50 (cerca de R$ 108,00 a R$ 270,00). As licenças podem ser compradas em grandes quantidades para locais de trabalho e instituições de saúde ou educação.
“As pessoas estão usando o Voiceitt não apenas para videoconferências, mas para escrever documentos, e-mails, postar no LinkedIn e acessar navegadores da web por voz”, explicou Smolley. “Isso abriu o mundo digital para indivíduos que antes talvez não fossem considerados para certos empregos ou capazes de se comunicar com colegas ou clientes.”
“Todo este setor precisa de uma sacudida”
Entre os usuários do Voiceitt está Colin Hughes, um ex-produtor da BBC que virou defensor da acessibilidade. Vivendo com distrofia muscular, Hughes depende do ditado para suas interações digitais, o que o torna extremamente ciente do potencial e das limitações das tecnologias atuais. Hughes experimentou o Voiceitt para compor e-mails e ditar peças escritas mais longas.
“Achei o aplicativo da Voiceitt impressionantemente preciso com minha fala atípica, e seu processo de treinamento e configuração foi direto”, disse Hughes, embora tenha destacado lacunas críticas para usuários profissionais. “Muitas pessoas com fala prejudicada e deficiências nos membros superiores precisam de mais do que apenas fala para texto”, observou ele.
Ele defende a adição de recursos como controle de cursor por voz e reconhecimento de ditado aprimorado para rascunhar conteúdo longo, dizendo que o Voiceitt funciona melhor para mensagens de frases únicas.
Hughes enfatiza a necessidade de uma tecnologia de reconhecimento de fala mais abrangente que permita aos usuários fazer coisas como gerenciar e-mails e formatar documentos usando a voz.
Ele vê um futuro onde a tecnologia desempenha um papel maior na acessibilidade, acrescentando: “Todo esse setor precisa de uma sacudida. A Voiceitt, com melhor acesso às principais plataformas, pode ser a líder dessa mudança.”
Um futuro acessível
De acordo com Smolley, houve um progresso significativo na tecnologia de reconhecimento de fala nos últimos anos.
Um exemplo é o Speech Accessibility Project, um projeto de pesquisa liderado pelo Instituto Beckman de Ciência e Tecnologia Avançada da Universidade de Illinois, que está coletando dados de voz de pessoas com diferentes condições para criar algoritmos para dar suporte a pessoas com fala não padronizada.
No início deste ano, a Apple lançou seu recurso “Listen for Atypical Speech” (Ouvir Fala Atípica), alimentado por IA, que usa aprendizado de máquina para reconhecer uma gama mais ampla de padrões de fala.
Com a tecnologia que captura e armazena dados pessoais, como gravações de voz, a privacidade pode ser uma preocupação para os usuários. Smolley diz que sua empresa está em conformidade com os regulamentos da União Europeia, que ela chama de “os mais altos padrões do mundo em termos de privacidade de dados”.
“Se os dados do usuário forem mantidos em nosso banco de dados com seu consentimento, eles serão anonimizados e desidentificados, e usados para aumentar nossa pilha de dados e melhorar nosso algoritmo”, ela acrescenta.
Ela acredita que a tecnologia da Voiceitt pode mudar vidas. “Queremos permitir que as pessoas não apenas sejam mais independentes em suas vidas e trabalho”, diz Smolley, “mas também que aproveitem a tecnologia e se divirtam”.