Tudo sobre Inteligência Artificial
Anunciado em agosto, o modelo multimodal de inteligência artificial da Meta SeamlessM4T (Massively Multilingual and Multimodal Machine Translation), que realiza tradução de texto e fala para cerca de 100 idiomas, ganhou algumas atualizações.
Agora, junto do lançamento da versão V2 do SeamlessM4T, a empresa apresentou outros dois modelos de tradução para torná-las mais espontâneas e expressivas. Esses novos modelos foram nomeados de: Seamless Expressive e Seamless Streaming.
Seamless Expressive
O modelo permite capturar características de expressão humana durante a fala. De acordo com a Meta, a ferramenta visa “preservar as complexidades de fala; como pausas e velocidade de fala, além de estilo vocal e tom emocional”.
Como informa o Engadget, o modelo tem suporte para inglês, espanhol, alemão, francês, italiano e chinês.
Seamless Streaming
Esse modelo é focado na velocidade. Como descreve a Meta, ele é capaz de realizar traduções com cerca de dois segundo de latência. Diferentemente de outras tecnologias, que esperam o término da fala para começar a traduzir, o Seamless Streaming começa a trabalhar enquanto a pessoa está falando.
Essa velocidade acontece por causa do algoritmo da empresa, que faz uma leitura parcial do áudio e decide se há contexto suficiente para começar a tradução ou esperar até o final da fala.
SealmlessM4T v2
Como descreve a Meta, a atualização v2 do SealmlessM4T acrescenta um codificador treinado com 4,5 milhões de horas de dados de fala. Isso representa um aumento de 1 milhão de horas comparada com a versão anterior.
Uso de marca d´água nos modelos
A Meta lembra que todos os seus modelos contam com uma marca d´água. A tecnologia funciona como uma assinatura inaudível adicionada ao sinal do áudio gerado que permite o rastreamento e auditabilidade dos conteúdos.