Artigos

Publicado em 22 de novembro de 2023 Atualizado em 23 de novembro de 2023

Explorar o efeito e as implicações da IA generativa na criação de conteúdos Web

As fronteiras da inteligência artificial: da teoria à prática no marketing digital e na SEO

Em muitos artigos sobre IA generativa, a pergunta mais frequente é sobre os limites da IA.

Este artigo não abordará os limites tecnológicos da IA, que são desconhecidos até à data, mas sim os possíveis limites da sua utilização na Web e na criação de conteúdos.

Conteúdo é ROI

A expressão "o conteúdo é rei" já existe há muito tempo no mundo do marketing digital.

Significa que o conteúdo é o pilar central de uma estratégia de marketing e vendas bem sucedida. Sem um conteúdo cativante, todos os outros componentes da estratégia terão menos efeito. Este facto realça a importância da produção de conteúdos de qualidade para uma presença online bem sucedida.

Eis os principais aspectos deste conceito:

Os conteúdos acrescentam valor: os conteúdos úteis, práticos, divertidos ou inspiradores atraem a atenção e criam lealdade. É um fator-chave de sucesso.
Os conteúdos contribuem para a referenciação natural: um conteúdo rico e optimizado melhora o SEO de um sítio Web e a sua visibilidade nos resultados de pesquisa.
Os conteúdos alimentam uma estratégia de conteúdos: artigos de blogues, fichas de produtos, livros brancos, guias, webinars, podcasts... existem muitos formatos de conteúdos possíveis.
Os conteúdos afectam todas as fases do túnel de conversão: informam durante a fase de descoberta, tranquilizam durante a fase de avaliação, pesam na fase de decisão, orientam após a compra, etc.
O conteúdo cria envolvimento: permite-lhe interagir com o seu público, criar lealdade a longo prazo e desenvolver a sua marca.
Os conteúdos fornecem conhecimentos especializados: posicionam uma marca ou empresa como uma referência no seu sector.

O Large Language Model (LLM) utilizado para criar conteúdos

Desde 2022, o ChatGPT democratizou a utilização da IA generativa para a produção de texto. Atingiu rapidamente 100 milhões de utilizadores. A sua chegada foi vista como uma dádiva de Deus para o marketing digital, uma vez que a produção de conteúdos era um estrangulamento e representava um custo importante para a implementação de estratégias online.

Aqueles que precisavam de conteúdos em massa e recorriam a redactores offshore viraram-se em massa para a multiplicidade de ferramentas de redação automatizadas que surgiram. As mais conhecidas são Jasper, WriteSonic, WordHero, Rytr, etc.

Os conteúdos gerados por IA não são penalizados pelo Google

Esta prática é também encorajada pelo Google, que decidiu não penalizar os textos gerados por uma IA. A empresa de Mountain View escreveu mesmo um artigo em 8 de fevereiro de 2023 dizendo:

"Na Google, há muito que acreditamos no poder da IA para transformar a capacidade de fornecer informações úteis. Neste artigo, explicamos com mais pormenor como o conteúdo gerado por IA se enquadra na nossa abordagem de longa data para fornecer conteúdo útil aos utilizadores na pesquisa do Google.
Recompensar conteúdos de alta qualidade, independentemente da forma como são produzidos" Fonte

Uma compreensão básica do funcionamento destas ferramentas de criação de conteúdos

As ferramentas de criação de conteúdos, como as mencionadas acima ou o ChatGPT, são aplicações específicas e personalizadas de um LLM. O ChatGPT está optimizado para interacções de conversação e tem capacidades e orientações que o tornam adequado para uma vasta gama de aplicações interactivas. Enquanto um LLM geral pode ser utilizado para uma variedade de tarefas de processamento de linguagem, o ChatGPT é especificamente aperfeiçoado para compreender, participar e manter conversas com os utilizadores.

Aqui estão os passos envolvidos na obtenção de texto gerado automaticamente:

1. Recolha e preparação do conjunto de dados:

Recolha: Os dados de texto são recolhidos de várias fontes, como livros, artigos, sítios Web e outros meios de comunicação escritos.
Limpeza: Os dados são limpos para remover elementos irrelevantes ou inadequados (por exemplo, conteúdo racista).
Formatação: O texto é formatado de modo a poder ser compreendido pelo modelo.

2. Treinar o modelo :

Aprendizagem automática: Os LLM são um tipo de rede neural que utiliza a aprendizagem automática. A aprendizagem automática permite que um modelo extraia informações de uma forma estruturada.
Processamento de dados: O modelo processa os dados textuais, aprendendo as estruturas linguísticas, o vocabulário, os estilos de escrita, etc.
Otimização: O modelo ajusta os seus parâmetros internos para minimizar os erros e melhorar a sua capacidade de prever ou gerar texto.

3. Compreensão e análise linguística :

Análise de pedidos: Quando é feito um pedido ao LLM (por exemplo, uma pergunta ou um pedido de geração de texto), este analisa e interpreta o pedido utilizando os conhecimentos adquiridos durante a formação.
Contextualização: O modelo tem em conta o contexto do pedido para dar uma resposta adequada.

4. Geração de texto :

Previsão de palavras: o LLM gera uma resposta prevendo a sequência de palavras que melhor satisfazem o pedido, com base nos padrões aprendidos.
Montagem de frases: monta as palavras em frases coerentes e gramaticalmente correctas, tendo em conta o contexto e a estrutura da língua.

5. Otimização e revisão:

Ajustes: O modelo pode ajustar a sua resposta com base no feedback ou em correcções adicionais para melhorar a precisão ou a relevância.
Finalização: A resposta gerada é finalizada e apresentada ao utilizador.

A importância dos dados iniciais, o famoso conjunto de dados, é clara. Os conjuntos de dados servem como base de conhecimento a partir da qual o LLM aprende. Quanto maior e mais diversificado for o conjunto de dados, mais variedades de linguagem e estilos o modelo poderá aprender.

A qualidade do conjunto de dados afecta diretamente a precisão do modelo. Um bom conjunto de dados produzirá respostas mais precisas e relevantes.

Será que a cobra morde a própria cauda?

Isto leva-nos à questão colocada neste artigo. Antes da sua democratização, as IA generativas dispunham de conjuntos de dados alimentados quase exclusivamente por produção humana.

No último ano, a Internet foi literalmente inundada com textos, imagens e até vídeos produzidos por IAs. Não se trata apenas da Web, mas também de conteúdos como livros, dissertações de estudantes, relatórios, artigos de imprensa, etc.

É também razoável supor que os seres humanos recorrerão cada vez mais às IA quando precisarem de gerar textos e que a proporção de criações humanas diminuirá, tanto em número como em proporção. Por conseguinte, os conjuntos de dados serão cada vez mais povoados por dados produzidos por IA com base nos seus conjuntos de dados do período em que o conteúdo foi produzido. Isto conduziria a uma forma de consanguinidade.

Se pensarmos nisto como genética, esta forma de consanguinidade pode levar a um empobrecimento do conteúdo criado, porque os seus conjuntos de dados serão cada vez menos diversificados. A variedade e a riqueza da língua gerada seriam então limitadas.

É aqui que vemos a importância das diferentes fases utilizadas para treinar e avaliar uma IA. Num caso ideal, os dados de treino devem ser previamente limpos para treinar o modelo com dados variados e relevantes.

O outro fator importante é a avaliação do LLM. Para poder avaliar corretamente um modelo de IA, os dados de teste devem ser variados e conter casos especiais. Só se a base de dados de teste for corretamente construída é que será possível verificar se o modelo foi corretamente treinado. Caso contrário, o modelo pode não ter um bom desempenho.

Se um LLM for cada vez mais treinado com conteúdos gerados por IA, é provável que a variedade do conjunto de dados de treino seja cada vez menor. Se o modelo for treinado durante demasiado tempo, existe o risco de o modelo deixar de ser suficientemente generalizado. Esta situação é conhecida como "sobreajuste". Mas graças aos dados de teste, esta queda de desempenho pode ser detectada e travada.

Trata-se de um fenómeno novo?

Para compreender como é que isto nos pode afetar no futuro, é útil saber se os engenheiros já enfrentaram situações semelhantes.

Um problema recorrente quando se treina um modelo de inteligência artificial é o acesso a uma quantidade suficiente de dados para treinar o nosso modelo. Em muitos cenários, a quantidade de dados é demasiado pequena, ou os dados não estão acessíveis por razões de confidencialidade, etc.

É comum ter de pensar em como aumentar a quantidade de dados disponíveis para poder treinar os modelos.

Algumas das técnicas utilizadas são simplistas, como a duplicação dos dados disponíveis para obter uma quantidade maior. Outras são mais complexas, como a geração de novos dados utilizando modelos GAN.

O que é um GAN?

GAN é a sigla de Generative Adversarial Network (rede adversária generativa). Estas redes funcionam em duas partes:

Uma parte responsável pela criação de dados com base nos dados iniciais disponíveis.
Uma parte responsável pela diferenciação entre os dados iniciais e os dados criados.

O seu funcionamento pode ser visualizado como o de um pintor de arte falsa que tenta enganar um perito em arte.

Numa primeira fase, o pintor falsário pratica a imitação dos quadros originais a que tem acesso. Quando for capaz de pintar corretamente, deixará de praticar. O perito em arte analisará os quadros que são verdadeiros e os que são falsos. Pratica a deteção de falsificações até ser capaz de detetar a maior parte delas.

Quando as falsificações já não forem confundidas com os originais, o pintor voltará ao trabalho e praticará a pintura de quadros melhores até que, aos olhos do perito, sejam idênticos aos originais. O perito, por sua vez, melhora, e assim por diante.

No final deste processo, o pintor é capaz de criar quadros muito semelhantes aos originais. Isto permite aumentar a quantidade de dados para treinar um modelo de IA.

O que é que isto tem a ver com os nossos modelos LLM e ChatGPT?

Podemos estabelecer um paralelo entre a IA treinada com dados do GAN e o fenómeno que discutimos anteriormente neste artigo. Os dados utilizados para treinar as futuras IA conterão dados produzidos por humanos, bem como dados gerados por modelos de IA.

À primeira vista, pode dizer-se que isto não coloca qualquer problema, uma vez que é habitualmente utilizado no mundo científico. Mas há consequências que é importante ter em conta:

Em primeiro lugar, as produções de IA baseiam-se nos seus dados de treino. Um exemplo concreto é a fraude aduaneira. Temos uma amostra de dados que contém declarações aduaneiras e queremos aumentar o número de declarações fraudulentas para treinar o nosso modelo. Se gerarmos declarações fraudulentas utilizando GAN, os novos dados conterão os mesmos "tipos e métodos" de fraude que os dados originais. A IA não desenvolverá ela própria novos métodos de fraude aduaneira que poderiam ter sido descobertos através da adição de dados reais obtidos pelos serviços aduaneiros.
Uma segunda consequência é a diversidade de informações contidas nos dados. Se optarmos por treinar um modelo de IA baseado apenas em dados humanos produzidos entre 2010 e 2020. Podemos assumir que a quantidade de dados produzidos em cada ano é semelhante. Cada ano será representado de forma equivalente.

Agora, assumimos que em 2015 são criados e treinados modelos LLM com base em dados produzidos entre 2010 e 2015. Graças à criação destes dados, a quantidade de conteúdos gerados explode e 70% dos novos conteúdos produzidos entre 2015 e 2020 foram gerados pela IA.

Os anos 2010-2015 estarão sobre-representados em comparação com os anos 2015-2020. De facto, a primeira parte da década contém conteúdos humanos + todos os conteúdos de IA dos anos seguintes, uma vez que a IA é treinada com base nestes dados. O nosso novo modelo de IA, que estamos a treinar em 2020, verá principalmente dados da primeira metade da década, pelo que as ligações no modelo serão reforçadas com estes dados e a sua importância será maior.

Representatividade

É importante que os engenheiros de inteligência artificial tenham em conta todas as consequências da utilização da IA na produção de novos conteúdos para garantir que há espaço para novas ideias e avanços na nossa sociedade.

Isto implica uma vigilância constante na seleção e renovação dos conjuntos de dados, para evitar um empobrecimento da diversidade e da criatividade nos conteúdos gerados. É essencial manter um equilíbrio entre as contribuições humanas e de IA, para garantir que os conteúdos reflectem uma vasta gama de perspectivas e inovações.

Contribuição de :

Loïc Vansnick, Engenheiro Civil em Inteligência Artificial e webmarketer

Fontes :

O que é um modelo linguístico de grande dimensão (LLM)?