sexta-feira, novembro 22, 2024
InícioCiência e tecnologiaNova IA da Meta consegue clonar vozes – e chega com ressalvas

Nova IA da Meta consegue clonar vozes – e chega com ressalvas

A Meta, controladora do Facebook, Instagram, WhatsApp, lançou o Audiobox, na segunda-feira (11). A plataforma usa inteligência artificial (IA) generativa para clonar vozes – e a big tech a disponibilizou com algumas ressalvas.

Para que tem pressa:

  • Lançamento do Audiobox pela Meta: A Meta lançou (com ressalvas) o Audiobox, uma plataforma de inteligência artificial (IA) que clona vozes e gera efeitos sonoros a partir de áudios e comandos de texto (prompts);
  • Tecnologia e Modelos Utilizados: A Meta desenvolveu uma “família de modelos” para o Audiobox, que utiliza aprendizado auto-supervisionado (SSL). O desenvolvimento envolveu grandes quantidades de dados de áudio em vários idiomas – mas a origem e o uso de material protegido por direitos autorais não foram detalhados pela empresa;
  • Demonstração e Restrições: A Meta demonstrou as capacidades do Audiobox com exemplos interativos. A plataforma é restrita a fins de pesquisa, não podendo ser usada comercialmente. Além disso, é restrita em certos estados dos EUA, devido às leis locais;
  • Código Aberto e Planos Futuros: Diferentemente de outros projetos de código aberto da Meta, o Audiobox não é de código aberto. Até o momento, a empresa não anunciou planos de torná-lo disponível para uso comercial ou aberto.

A replicação de estilos vocais das pessoas – incluindo tom, timbre, ritmos, maneirismos e pronúncias – é uma área emergente na IA generativa. No caso do Audiobox, o recurso foi apresentado pelo laboratório de pesquisa de IA do Facebook como um “novo modelo de pesquisa para a criação de áudio”.

Nova IA da Meta

Captura de tela da página inicial do Audiobox da Meta
(Imagem: Reprodução/Meta)

O Audiobox permite essencialmente a geração de vozes e efeitos sonoros combinando entradas de voz e comandos (prompts) de texto. Assim, o recurso possibilita aos usuários digitar frases ou descrever sons para geração automática – e também permite clonar a voz do usuário a partir de gravações.

A Meta desenvolveu uma “família de modelos” para o Audiobox, incluindo modelos separados para imitação de fala e geração de sons ambiente e efeitos sonoros. O Audiobox utiliza aprendizado auto-supervisionado (SSL), permitindo que algoritmos gerem rótulos para dados não rotulados.

O desenvolvimento do Audiobox dependeu de grandes quantidades de dados de áudio, incluindo fala, música e amostras sonoras de várias fontes e em diferentes idiomas.

A questão de onde esses dados foram obtidos e se estavam no domínio público não foi especificada pela Meta, o que levanta preocupações sobre o uso de material protegido por direitos autorais sem consentimento.

A Meta demonstrou as capacidades do Audiobox com exemplos interativos, incluindo a replicação da voz do usuário e a geração de vozes e sons novos a partir de descrições de texto.

Ressalvas no Audiobox

O Audiobox vem com a ressalva de que é apenas para fins de pesquisa e não pode ser usado comercialmente, além de ser restrito a usuários fora dos estados de Illinois e Texas (EUA), devido às leis locais.

Ao contrário de outros projetos de código aberto da Meta, como a família de modelos de linguagem Llama 2, o Audiobox não é de código aberto. E a empresa ainda não anunciou planos de torná-lo disponível para uso comercial ou aberto.

Via Olhar Digital

MAIS DO AUTOR

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui