Medir a aprendizagem colectiva
Foram desenvolvidos inúmeros testes para identificar competências individuais e de grupo. Como podem ser medidas todas as dimensões da aprendizagem?
Publicado em 22 de novembro de 2023 Atualizado em 23 de novembro de 2023
Em muitos artigos sobre IA generativa, a pergunta mais frequente é sobre os limites da IA.
Este artigo não abordará os limites tecnológicos da IA, que são desconhecidos até à data, mas sim os possíveis limites da sua utilização na Web e na criação de conteúdos.
A expressão "o conteúdo é rei" já existe há muito tempo no mundo do marketing digital.
Significa que o conteúdo é o pilar central de uma estratégia de marketing e vendas bem sucedida. Sem um conteúdo cativante, todos os outros componentes da estratégia terão menos efeito. Este facto realça a importância da produção de conteúdos de qualidade para uma presença online bem sucedida.
Eis os principais aspectos deste conceito:
Desde 2022, o ChatGPT democratizou a utilização da IA generativa para a produção de texto. Atingiu rapidamente 100 milhões de utilizadores. A sua chegada foi vista como uma dádiva de Deus para o marketing digital, uma vez que a produção de conteúdos era um estrangulamento e representava um custo importante para a implementação de estratégias online.
Aqueles que precisavam de conteúdos em massa e recorriam a redactores offshore viraram-se em massa para a multiplicidade de ferramentas de redação automatizadas que surgiram. As mais conhecidas são Jasper, WriteSonic, WordHero, Rytr, etc.
Esta prática é também encorajada pelo Google, que decidiu não penalizar os textos gerados por uma IA. A empresa de Mountain View escreveu mesmo um artigo em 8 de fevereiro de 2023 dizendo:
"Na Google, há muito que acreditamos no poder da IA para transformar a capacidade de fornecer informações úteis. Neste artigo, explicamos com mais pormenor como o conteúdo gerado por IA se enquadra na nossa abordagem de longa data para fornecer conteúdo útil aos utilizadores na pesquisa do Google.
Recompensar conteúdos de alta qualidade, independentemente da forma como são produzidos" Fonte
As ferramentas de criação de conteúdos, como as mencionadas acima ou o ChatGPT, são aplicações específicas e personalizadas de um LLM. O ChatGPT está optimizado para interacções de conversação e tem capacidades e orientações que o tornam adequado para uma vasta gama de aplicações interactivas. Enquanto um LLM geral pode ser utilizado para uma variedade de tarefas de processamento de linguagem, o ChatGPT é especificamente aperfeiçoado para compreender, participar e manter conversas com os utilizadores.
Aqui estão os passos envolvidos na obtenção de texto gerado automaticamente:
A importância dos dados iniciais, o famoso conjunto de dados, é clara. Os conjuntos de dados servem como base de conhecimento a partir da qual o LLM aprende. Quanto maior e mais diversificado for o conjunto de dados, mais variedades de linguagem e estilos o modelo poderá aprender.
A qualidade do conjunto de dados afecta diretamente a precisão do modelo. Um bom conjunto de dados produzirá respostas mais precisas e relevantes.
Isto leva-nos à questão colocada neste artigo. Antes da sua democratização, as IA generativas dispunham de conjuntos de dados alimentados quase exclusivamente por produção humana.
No último ano, a Internet foi literalmente inundada com textos, imagens e até vídeos produzidos por IAs. Não se trata apenas da Web, mas também de conteúdos como livros, dissertações de estudantes, relatórios, artigos de imprensa, etc.
É também razoável supor que os seres humanos recorrerão cada vez mais às IA quando precisarem de gerar textos e que a proporção de criações humanas diminuirá, tanto em número como em proporção. Por conseguinte, os conjuntos de dados serão cada vez mais povoados por dados produzidos por IA com base nos seus conjuntos de dados do período em que o conteúdo foi produzido. Isto conduziria a uma forma de consanguinidade.
Se pensarmos nisto como genética, esta forma de consanguinidade pode levar a um empobrecimento do conteúdo criado, porque os seus conjuntos de dados serão cada vez menos diversificados. A variedade e a riqueza da língua gerada seriam então limitadas.
É aqui que vemos a importância das diferentes fases utilizadas para treinar e avaliar uma IA. Num caso ideal, os dados de treino devem ser previamente limpos para treinar o modelo com dados variados e relevantes.
O outro fator importante é a avaliação do LLM. Para poder avaliar corretamente um modelo de IA, os dados de teste devem ser variados e conter casos especiais. Só se a base de dados de teste for corretamente construída é que será possível verificar se o modelo foi corretamente treinado. Caso contrário, o modelo pode não ter um bom desempenho.
Se um LLM for cada vez mais treinado com conteúdos gerados por IA, é provável que a variedade do conjunto de dados de treino seja cada vez menor. Se o modelo for treinado durante demasiado tempo, existe o risco de o modelo deixar de ser suficientemente generalizado. Esta situação é conhecida como "sobreajuste". Mas graças aos dados de teste, esta queda de desempenho pode ser detectada e travada.
Para compreender como é que isto nos pode afetar no futuro, é útil saber se os engenheiros já enfrentaram situações semelhantes.
Um problema recorrente quando se treina um modelo de inteligência artificial é o acesso a uma quantidade suficiente de dados para treinar o nosso modelo. Em muitos cenários, a quantidade de dados é demasiado pequena, ou os dados não estão acessíveis por razões de confidencialidade, etc.
É comum ter de pensar em como aumentar a quantidade de dados disponíveis para poder treinar os modelos.
Algumas das técnicas utilizadas são simplistas, como a duplicação dos dados disponíveis para obter uma quantidade maior. Outras são mais complexas, como a geração de novos dados utilizando modelos GAN.
GAN é a sigla de Generative Adversarial Network (rede adversária generativa). Estas redes funcionam em duas partes:
O seu funcionamento pode ser visualizado como o de um pintor de arte falsa que tenta enganar um perito em arte.
Numa primeira fase, o pintor falsário pratica a imitação dos quadros originais a que tem acesso. Quando for capaz de pintar corretamente, deixará de praticar. O perito em arte analisará os quadros que são verdadeiros e os que são falsos. Pratica a deteção de falsificações até ser capaz de detetar a maior parte delas.
Quando as falsificações já não forem confundidas com os originais, o pintor voltará ao trabalho e praticará a pintura de quadros melhores até que, aos olhos do perito, sejam idênticos aos originais. O perito, por sua vez, melhora, e assim por diante.
No final deste processo, o pintor é capaz de criar quadros muito semelhantes aos originais. Isto permite aumentar a quantidade de dados para treinar um modelo de IA.
Podemos estabelecer um paralelo entre a IA treinada com dados do GAN e o fenómeno que discutimos anteriormente neste artigo. Os dados utilizados para treinar as futuras IA conterão dados produzidos por humanos, bem como dados gerados por modelos de IA.
À primeira vista, pode dizer-se que isto não coloca qualquer problema, uma vez que é habitualmente utilizado no mundo científico. Mas há consequências que é importante ter em conta:
É importante que os engenheiros de inteligência artificial tenham em conta todas as consequências da utilização da IA na produção de novos conteúdos para garantir que há espaço para novas ideias e avanços na nossa sociedade.
Isto implica uma vigilância constante na seleção e renovação dos conjuntos de dados, para evitar um empobrecimento da diversidade e da criatividade nos conteúdos gerados. É essencial manter um equilíbrio entre as contribuições humanas e de IA, para garantir que os conteúdos reflectem uma vasta gama de perspectivas e inovações.
Contribuição de :
Loïc Vansnick, Engenheiro Civil em Inteligência Artificial e webmarketer
Fontes :
O que é um modelo linguístico de grande dimensão (LLM)?
Notícias de Thot Cursus RSS
Leitor de RSS ? :Feedly, NewsBlur
Superprof : a plataforma para encontrar os melhores professores particulares no Brasil e em Portugal