De acordo com um estudo publicado recentemente pela Universidade de Macquarie, na Austrália, a indústria da Inteligência Artificial (IA) pode ficar desprovida de dados. Segundo os cientistas, o desfalque no combustível que alimenta os sistemas de IA poderá afetar os modelos de linguagem, e até alterar a trajetória de evolução da tecnologia.
Afinal, por que a potencial falta de dados é um problema, considerando a quantidade de dados existente na internet? Como tal situação pode ser revertida?
A importância de dados de alta qualidade para a IA
Os cientistas afirmam que é necessário muitos dados para o “treinamento” dos logaritmos de IA. O ChatGPT, por exemplo, foi “treinado” em 570 gigabytes de dados de texto, ou aproximadamente 300 bilhões de palavras.
O estudo informa que se um algoritmo for projetado com uma quantidade insuficiente de dados, ele vai produzir resultados imprecisos ou de baixa qualidade. Isso porque, dados de baixa qualidade, como publicações em redes sociais, são fáceis de obter, mas não são suficientes para “treinar” os modelos de IA de alto desempenho.
Dados ‘racistas’ e ‘misóginos’
Os cientistas têm preocupação quanto à utilização de dados das redes sociais a fim de alimentar os logaritmos da IA. Isso porque, quando a Microsoft tentou treinar o seu bot de IA usando conteúdo do Twitter/X, seu logaritmo aprendeu a reproduzir termos considerados “racistas” e “misóginos”.
É por isso que os desenvolvedores de IA buscam conteúdo em livros, artigos online, artigos científicos, na Wikipedia e em outras fontes consideradas de “alta qualidade”. O Google Assistente, por exemplo, foi “treinado” em 11 mil romances retirados do site de publicação independente Smashwords a fim de torná-lo mais “coloquial”.
O esgotamento de dados é preocupante?
A situação pode não ser tão ruim quanto parece. Apesar das prospecções, os especialistas não sabem como os modelos de IA se desenvolverão no futuro. E também não há como saber como solucionar o suposto risco de escassez de dados.
É provável que, nos próximos anos, os desenvolvedores consigam “treinar” sistemas de IA de alto desempenho usando menos dados e possivelmente menos poder computacional. Outra possível solução é o desenvolvimento de dados sintéticos necessários para a alimentação da IA.
Os cientistas podem também usar dados offline, produzidos antes do advento da internet, a fim de servir de orientação para o comportamento da tecnologia.
O artigo completo foi publicado no veículo científico oficial da Universidade Macquarie.