Artículos

Publicado el 22 de noviembre de 2023 Actualizado el 23 de noviembre de 2023

Exploración del efecto y las implicaciones de la IA generativa en la creación de contenidos web

Las fronteras de la inteligencia artificial: de la teoría a la práctica en marketing digital y SEO

IA generativa en la creación de contenidos web

En muchos artículos sobre IA generativa, la pregunta más frecuente se refiere a los límites de la IA.

Este artículo no profundizará en los límites tecnológicos de la IA, desconocidos hasta la fecha, sino en los posibles límites de su uso en la web y en la creación de contenidos.

El contenido es ROI

La expresión "El contenido es el rey" existe desde hace mucho tiempo en el mundo del marketing digital.

Significa que el contenido es el pilar central del éxito de una estrategia de marketing y ventas. Sin un contenido atractivo, todos los demás componentes de la estrategia tendrán menos efecto. Esto pone de relieve la importancia de producir contenidos de calidad para tener una presencia en línea exitosa.

He aquí los principales aspectos de este concepto:

  • El contenido añade valor: un contenido útil, práctico, entretenido o inspirador atrae la atención y fideliza. Es un factor clave del éxito.
  • El contenido ayuda a la referenciación natural: un contenido rico y optimizado mejora el SEO de un sitio web y su visibilidad en los resultados de búsqueda.
  • El contenido alimenta una estrategia de contenidos: artículos de blog, fichas de producto, libros blancos, guías, seminarios web, podcasts... hay tantos formatos de contenido posibles.
  • El contenido afecta a todas las etapas del túnel de conversión: informa durante la fase de descubrimiento, tranquiliza durante la fase de evaluación, pesa en la fase de decisión, orienta después de la compra, etc.
  • El contenido crea compromiso: permite interactuar con la audiencia, fidelizarla a largo plazo y desarrollar la marca.
  • El contenido aporta experiencia: posiciona a una marca o empresa como referente en su sector.

El Gran Modelo Lingüístico (LLM) utilizado para crear contenidos

Desde 2022, ChatGPT ha democratizado el uso de la IA generativa para la producción de textos. Rápidamente alcanzó los 100 millones de usuarios. Su llegada fue vista como un regalo del cielo para el marketing digital, ya que la producción de contenidos era un cuello de botella y representaba un coste importante para desplegar estrategias online.

Quienes necesitaban contenidos masivos y recurrían a redactores deslocalizados recurrieron en masa a la multitud de herramientas de redacción automatizada que han surgido. Las más conocidas son Jasper, WriteSonic, WordHero, Rytr, etc.

Google no penaliza el contenido generado por IA

Esta práctica también es fomentada por Google, que ha decidido no penalizar los textos generados por una IA. La firma de Mountain View llegó a escribir un artículo el 8 de febrero de 2023 en el que decía:

"En Google, creemos desde hace tiempo en el poder de la IA para transformar la capacidad de ofrecer información útil. En este artículo, explicamos con más detalle cómo el contenido generado por IA encaja con nuestro enfoque de siempre de ofrecer contenido útil a los usuarios en la búsqueda de Google".

Recompensar el contenido de alta calidad, independientemente de cómo se produzca" Fuente

Comprensión básica del funcionamiento de estas herramientas de creación

Las herramientas de autoría como las mencionadas anteriormente o ChatGPT son aplicaciones específicas y personalizadas de un LLM. ChatGPT está optimizado para interacciones conversacionales y tiene capacidades y directrices que lo hacen adecuado para una amplia gama de aplicaciones interactivas. Mientras que un LLM general puede utilizarse para diversas tareas de procesamiento del lenguaje, ChatGPT está específicamente perfeccionado para comprender, participar y mantener conversaciones con los usuarios.

Estos son los pasos que hay que seguir para obtener un texto autogenerado:

1. Recogida y preparación del conjunto de datos:

  • Recopilación: Los datos de texto se recogen de diversas fuentes, como libros, artículos, sitios web y otros medios escritos.
  • Limpieza: Los datos se limpian para eliminar elementos irrelevantes o inapropiados (por ejemplo, contenido racista).
  • Formateo: El texto se formatea para que pueda ser comprendido por el modelo.

2. Entrenamiento del modelo :

  • Aprendizaje automático: los LLM son un tipo de red neuronal que utiliza el aprendizaje automático. El aprendizaje automático permite a un modelo extraer información de forma estructurada.
  • 3. Procesamiento de datos: El modelo procesa los datos textuales, aprendiendo estructuras lingüísticas, vocabulario, estilos de escritura, etc.
  • Optimización: el modelo ajusta sus parámetros internos para minimizar los errores y mejorar su capacidad de predicción o generación de texto.

3. Comprensión y análisis lingüísticos :

  • Análisis de consultas: cuando se realiza una consulta al LLM (por ejemplo, una pregunta o una solicitud de generación de texto), éste la analiza e interpreta utilizando los conocimientos adquiridos durante el entrenamiento.
  • Contextualización: El modelo tiene en cuenta el contexto de la petición para proporcionar una respuesta adecuada.

4. Generación de texto :

  • Predicción de palabras: el LLM genera una respuesta prediciendo la secuencia de palabras que mejor se ajusta a la petición, basándose en los patrones aprendidos.
  • Ensamblaje de frases: ensambla las palabras en frases coherentes y gramaticalmente correctas, teniendo en cuenta el contexto y la estructura del lenguaje.

5. Optimización y revisión:

  • Ajustes: El modelo puede ajustar su respuesta en función de los comentarios o las correcciones adicionales para mejorar la precisión o la pertinencia.
  • 6. Finalización: La respuesta generada se finaliza y se presenta al usuario.

La importancia de los datos iniciales, el famoso conjunto de datos, es evidente. Los conjuntos de datos sirven como base de conocimiento a partir de la cual aprende el LLM. Cuanto mayor y más diverso sea el conjunto de datos, más variedades de lenguaje y estilos podrá aprender el modelo.

La calidad del conjunto de datos afecta directamente a la precisión del modelo. Un buen conjunto de datos producirá respuestas más precisas y pertinentes.

¿Se morderá la pescadilla la cola?

Esto nos lleva a la cuestión planteada en este artículo. Antes de su democratización, las IA generativas disponían de conjuntos de datos alimentados por una producción casi exclusivamente humana.

En el último año, Internet se ha inundado literalmente de textos, imágenes e incluso vídeos producidos por IAs. No se trata sólo de la web, sino también de contenidos como libros, tesis de estudiantes, informes, artículos de prensa, etc.

También es razonable suponer que los humanos recurrirán cada vez más a las IA cuando necesiten generar textos y que, por tanto, la proporción de creaciones humanas disminuirá tanto en número como en proporción. Por lo tanto, los conjuntos de datos estarán cada vez más poblados por datos producidos por las IA a partir de sus conjuntos de datos del periodo en que se produjo el contenido. Esto conduciría a una forma de consanguinidad.

Si pensamos en esto como en genética, esta forma de endogamia podría conducir a un empobrecimiento de los contenidos creados, porque sus conjuntos de datos serán cada vez menos diversos. La variedad y riqueza del lenguaje generado se vería entonces limitada.

Aquí es donde vemos la importancia de las distintas etapas utilizadas para entrenar y evaluar una IA. En un caso ideal, los datos de entrenamiento deberían limpiarse previamente para entrenar el modelo con datos variados y relevantes.

El otro factor importante es la evaluación del LLM. Para poder evaluar correctamente un modelo de IA, los datos de prueba deben ser variados y contener casos especiales. Sólo si la base de datos de prueba está correctamente construida será posible ver si el modelo ha sido correctamente entrenado. Si no es así, es posible que el modelo no funcione bien.

Si un LLM se entrena cada vez más con contenidos generados por la IA, es probable que la variedad del conjunto de datos de entrenamiento sea cada vez menor. Si el modelo se entrena durante demasiado tiempo, existe el riesgo de que deje de ser suficientemente generalizado. Es lo que se conoce como "sobreajuste". Pero gracias a los datos de prueba, esta disminución del rendimiento puede detectarse y detenerse.

¿Es un fenómeno nuevo?

Para entender cómo podría afectarnos en el futuro, es útil saber si los ingenieros ya se han enfrentado a situaciones similares.

Un problema recurrente a la hora de entrenar un modelo de inteligencia artificial es el acceso a una cantidad suficiente de datos para entrenar nuestro modelo. En muchos escenarios, la cantidad de datos es demasiado pequeña, o los datos no son accesibles por razones de confidencialidad, etcétera.

Es habitual tener que pensar en cómo aumentar la cantidad de datos disponibles para poder entrenar los modelos.

Algunas de las técnicas utilizadas son simplistas, como duplicar los datos disponibles para obtener una cantidad mayor. Otras son más complejas, como la generación de nuevos datos mediante modelos GAN.

¿Qué es un GAN?

GAN son las siglas de Generative Adversarial Network (red generativa adversarial). Estas redes funcionan en dos partes:

  1. Una parte encargada de crear datos a partir de los datos iniciales disponibles.
  2. Una parte encargada de diferenciar entre los datos iniciales y los datos creados.

Su funcionamiento puede visualizarse como el de un pintor falsificador que intenta engañar a un experto en arte.

Al principio, el pintor falsificador practica imitando los cuadros originales a los que tiene acceso. Cuando sea capaz de pintar correctamente, dejará de practicar. El experto en arte analizará los cuadros reales y los falsos. Practicará la detección de falsificaciones hasta que sea capaz de detectar la mayoría de ellas.

Una vez que las falsificaciones ya no se confundan con los originales, el pintor volverá a su trabajo y practicará pintando cuadros mejores hasta que sean idénticos a los originales a los ojos del experto. El experto, a su vez, mejora, y así sucesivamente.

Al final de este proceso, el pintor es capaz de crear cuadros muy parecidos a los originales. Esto permite aumentar la cantidad de datos para entrenar un modelo de IA.

¿Qué tiene esto que ver con nuestros modelos LLM y ChatGPT?

Podemos establecer un paralelismo entre la IA entrenada con datos de GAN y el fenómeno que hemos comentado antes en el artículo. Los datos utilizados para entrenar futuras IA contendrán tanto datos producidos por humanos como datos generados por modelos de IA.

A primera vista, podría decirse que esto no plantea ningún problema, ya que se utiliza habitualmente en el mundo científico. Pero hay consecuencias que es importante conocer:

  1. En primer lugar, las producciones de IA se basan en sus datos de entrenamiento. Un ejemplo concreto es el fraude aduanero. Tenemos una muestra de datos que contiene declaraciones de aduanas y queremos aumentar el número de declaraciones fraudulentas para entrenar nuestro modelo. Si generamos declaraciones fraudulentas utilizando GAN, los nuevos datos contendrán los mismos "tipos y métodos" de fraude que los datos originales. La IA no desarrollará por sí misma nuevos métodos de fraude aduanero que podrían haberse descubierto añadiendo datos reales obtenidos por los servicios aduaneros.

  2. Una segunda consecuencia es la diversidad de la información contenida en los datos. Si optamos por entrenar un modelo de IA basado únicamente en datos humanos producidos entre 2010 y 2020. Podemos suponer que la cantidad de datos producidos cada año es similar. Cada año se representará de forma equivalente.

    Ahora suponemos que en 2015 se crean modelos LLM y se entrenan con datos producidos entre 2010 y 2015. Gracias a la creación de estos datos, la cantidad de contenido generado explota y el 70% del nuevo contenido producido entre 2015 y 2020 ha sido generado por IA.

    Los años 2010-2015 estarán sobrerrepresentados en comparación con los años 2015-2020. De hecho, la primera parte de la década contiene contenido humano + todo el contenido de IA de los años siguientes, ya que la IA se entrena con estos datos. Nuestro nuevo modelo de IA, que estamos entrenando en 2020, verá principalmente datos de la primera mitad de la década, por lo que las conexiones del modelo se reforzarán sobre estos datos y su importancia será mayor.

Representatividad

Es importante que los ingenieros de inteligencia artificial tengan en cuenta todas las consecuencias del uso de la IA en la producción de nuevos contenidos para garantizar que haya espacio para nuevas ideas y avances en nuestra sociedad.

Esto implica una vigilancia constante en la selección y renovación de los conjuntos de datos, para evitar un empobrecimiento de la diversidad y la creatividad en los contenidos generados. Es esencial mantener un equilibrio entre las aportaciones humanas y las de la IA, para garantizar que los contenidos reflejen un amplio abanico de perspectivas e innovaciones.



Contribución de :

Loïc Vansnick, Ingeniero Civil en Inteligencia Artificial y webmarketer

Fuentes :

¿Qué es un gran modelo lingüístico (LLM)?


Ver más artículos de este autor

Archivos

  • Inteligencia Artificial perturbadora

Superprof: la plataforma para encontrar los mejores profesores particulares en España.


Reciba nuestro dossier de la semana por correo electrónico

Manténgase informado sobre el aprendizaje digital en todas sus formas cada día. Ideas y recursos interesantes. ¡Disfrútelo, es gratis!