Drücke „Enter”, um zum Inhalt zu springen.
Hinweis zu diesem Datenschutz-Blog:
Anscheinend verwenden Sie einen Werbeblocker wie uBlock Origin oder Ghostery, oder einen Browser, der bestimmte Dienste blockiert.
Leider wird dadurch auch der Dienst von VG Wort blockiert. Online-Autoren haben einen gesetzlichen Anspruch auf eine Vergütung, wenn ihre Beiträge oft genug aufgerufen wurden. Um dies zu messen, muss vom Autor ein Dienst der VG Wort eingebunden werden. Ohne diesen Dienst geht der gesetzliche Anspruch für den Autor verloren.

Ich wäre Ihnen sehr verbunden, wenn Sie sich bei der VG Wort darüber beschweren, dass deren Dienst anscheinend so ausgeprägt ist, dass er von manchen als blockierungswürdig eingestuft wird. Dies führt ggf. dazu, dass ich Beiträge kostenpflichtig gestalten muss.

Durch Klick auf folgenden Button wird eine Mailvorlage geladen, die Sie inhaltlich gerne anpassen und an die VG Wort abschicken können.

Nachricht an VG WortMailtext anzeigen

Betreff: Datenschutzprobleme mit dem VG Wort Dienst(METIS)
Guten Tag,

als Besucher des Datenschutz-Blogs Dr. DSGVO ist mir aufgefallen, dass der VG Wort Dienst durch datenschutzfreundliche Browser (Brave, Mullvad...) sowie Werbeblocker (uBlock, Ghostery...) blockiert wird.
Damit gehen dem Autor der Online-Texte Einnahmen verloren, die ihm aber gesetzlich zustehen.

Bitte beheben Sie dieses Problem!

Diese Nachricht wurde von mir persönlich abgeschickt und lediglich aus einer Vorlage generiert.
Wenn der Klick auf den Button keine Mail öffnet, schreiben Sie bitte eine Mail an info@vgwort.de und weisen darauf hin, dass der VG Wort Dienst von datenschutzfreundlichen Browser blockiert wird und dass Online Autoren daher die gesetzlich garantierten Einnahmen verloren gehen.
Vielen Dank,

Ihr Klaus Meffert - Dr. DSGVO Datenschutz-Blog.

PS: Wenn Sie meine Beiträge oder meinen Online Website-Check gut finden, freue ich mich auch über Ihre Spende.
Ausprobieren Online Webseiten-Check sofort das Ergebnis sehen

Entrenamiento de modelos de inteligencia artificial: ¿qué significa eso?

0
Dr. DSGVO Newsletter detected: Extended functionality available
More articles · Website-Checks · Live Offline-AI

Los modelos de lenguaje AI y los generadores de imágenes AI son los tipos de modelo de inteligencia artificial más extendidos. A menudo se habla de entrenamiento, pre-entrenamiento o ajuste fino. ¿Qué significan estos términos y qué son las diferencias? ¿Cuáles son los datos y sobre todo cuántos se necesitan para cada proceso típicamente?

Introducción

Un modelo de Inteligencia Artificial es un cerebro electrónico compuesto por una red neuronal. Puede ser interrogado y dar respuesta. Esto es posible de manera que recuerda en cierta forma el cerebro del hombre, según la opinión del autor. Otros tienen otra opinión. En cualquier caso, también el cerebro humano se basa en estadísticas. Sobre la cuestión de qué es la inteligencia, véase el artículo enlazado.

Ejemplos de tipos de modelos de IA son:

  • Modelo de lenguaje de gran tamaño, a menudo denominado LLM (LLM = Modelo de lenguaje de gran tamaño). Sin embargo, también existen SLMs (SLM = Modelo de lenguaje pequeño) con capacidad de funcionamiento.
  • Generador de imágenes: A partir de una entrada de texto se genera una imagen. A menudo también se puede crear un nuevo imagen a partir de un texto y una imagen de entrada. O bien, pueden conectarse varios estilos entre sí.
  • Texto a voz: A partir de un texto de entrada, el modelo de IA genera una salida en voz
  • Discurso a texto: A partir de una entrada de lenguaje, el modelo de IA genera un texto (transcripción)
  • Reconocimiento de objetos en imagen o video (segmentación)
  • Modelos de pronóstico médicos

A continuación se hace referencia solo a modelos de lenguaje y modelos de imágenes de IA, por sencillez, siendo estos muy comunes en el ámbito de la inteligencia artificial.

Hay básicamente dos procesos de entrenamiento para modelos de IA:

  1. Pre-Training
  2. Fine-Tuning (ajustando la precisión)

Otros procesos de entrenamiento prácticamente no existen en la práctica. Es posible un fine-tuning de un modelo ya fine-tuneado, lo que técnicamente es análogo al primer fine-tuning.

¿Qué significa pre-entrenamiento y qué es la diferencia con el fine-tuning? Las siguientes representaciones consideran varias configuraciones:

  1. Entrenamiento previo ("Crear") de un modelo de lenguaje gigante, como por ejemplo ChatGPT-4
  2. Entrenamiento previo de un modelo de lenguaje grande pero pequeño (sí, leído correctamente), como GPT-2
  3. Ajustando finamente el modelo de 1.
  4. Ajuste de precisión del modelo desde 2.

Los casos 1 y 3 suelen ser responsabilidad de las empresas de Inteligencia Artificial. El caso 2 es más raro o si ocurre, suele ser para modelos algo más grandes que GPT-2, como Llama3-8B. Pero incluso el modelo de 8B se crea y proporciona normalmente por parte de las empresas de Inteligencia Artificial.

El cuarto caso es prácticamente realizable por cualquier empresa. El foco de este artículo son generalmente empresas que quieren introducir la inteligencia artificial en ellas, o organizaciones que atienden a dichas empresas.

Pre-Training

El pre-entrenamiento significa aprender un modelo de IA. El modelo de IA no está allí. Se le pre-entrena, luego está allí.

A menudo se habla de "entrenamiento". El entrenamiento como concepto no existe en este contexto. Si alguien dice "entrenamiento", quiere decir que se refiere a pre-entrenamiento o ajuste fino, dependiendo del contexto que se tenga en cuenta.

Si alguien habla de la capacitación de un Custom-GPT, se refiere al fine-tuning. Si alguien habla en general de la capacitación de un modelo de lenguaje poderoso, se refiere a la pre-capacitación (por ejemplo: "La capacitación de ChatGPT-4 ha costado millones de horas de procesamiento", he leído).

El preentrenamiento es el aprendizaje de un modelo de IA.

Corresponde a la educación que recibe un niño desde su nacimiento por parte de sus padres hasta la educación escolar.

En caso de duda debe suponerse que con "entrenamiento" se entiende el "pre-entrenamiento", porque esto está más cerca lingüísticamente que "ajuste fino".

Para modelos de lenguaje se necesitan muchos miles de millones de documentos con texto para que el modelo tenga una muy buena calidad. Un documento es normalmente un extracto de una página web del internet.

Fuentes de datos conocidas son:

  • Common Crawl (CC) o C4 (Colosal Limpia Crawla Común): alrededor de 700 GB de datos, exclusión de muchas páginas web del internet
  • The Pile: 825 GB de datos, supuestamente de código abierto
  • Wikipedia (en varios idiomas)
  • RefinedWeb: Versión refinada y desduplicada de Common Crawl
  • StarCoder Data: ca. 780 GB de datos para la generación de código de programa. Las fuentes son especialmente GitHub y Jupyter Notebooks (son hojas de cálculo para programar, similares a Excel, pero para crear fácilmente código de programa compartible).

Según el tamaño de un modelo lingüístico, el entrenamiento puede durar extremadamente largo (muchos meses) o solo unas horas. Para modelos de inteligencia artificial muy grandes se han consumido millones de horas en GPU para el pre-entrenamiento. GPU significa tarjeta gráfica. En un servidor de alta gama de IA caben 8 tarjetas gráficas al precio de unos 25.000 euros.

Modelos de lenguaje muy pequeños (GPT-2) no se consideraban pequeños hace solo unos años y eran el estándar de oro. Un modelo de lenguaje GPT-2 se puede entrenar en pocas horas, días o semanas en un servidor o laptop de Inteligencia Artificial propio (pre-entrenamiento = pre-training). La duración del pre-entrenamiento depende del tamaño de los datos de entrenamiento.

Para que un modelo de lenguaje de Inteligencia Artificial sea muy eficaz, se necesitan algunas terabytes (mil gigabytes) de texto bruto como datos de entrenamiento.

Para un buen comienzo, incluso cien gigabytes bastan, que se pueden leer rápidamente. Para ello el entrenamiento del modelo de IA (Pre-Training) dura solo una cantidad razonable de horas.

La duración exacta también depende del número de iteraciones. Una iteración equivale aproximadamente a una clase escolar. Cuantas más clases alguien asiste en la escuela, mayor es la probabilidad de que su inteligencia aumente. Al igual que con los humanos, sin embargo, no hay nada más que hacer después de un tiempo, ni siquiera ir al colegio durante un año más. El rendimiento del aprendiz puede ser anulado y empeorar debido a una capacitación demasiado larga, al igual que en los humanos.

Un modelo de IA que se ha generado mediante preentrenamiento, es decir, que ha sido entrenado, también se llama Foundation Model (FM) o modelo básico. Un modelo básico puede utilizarse para tareas generales. Cuanto más grande sea el modelo básico, mejor podrá resolver tareas específicas. El tamaño de un modelo se expresa en la cantidad de conexiones neuronales que tiene. ChatGPT puede realizar cálculos muy bien debido a su gran tamaño (al menos mejor que la mayoría de las personas en esta tierra, teniendo en cuenta los errores que tanto ChatGPT como el ser humano cometen).

Fine-Tuning

La refinación también se puede llamar entrenamiento fino.

La condición previa para el fine-tuning es un modelo de lenguaje de inteligencia artificial existente. El modelo de IA está disponible después de haber sido preentrenado (pre-trained). Solo un modelo de IA preentrenado puede someterse a fine-tuning.

La refinación es comparable a un estudio que se une a la educación escolar.

Sin educación escolar, un estudio no es posible ni tampoco tiene sentido.

Un entrenamiento fino es entonces útil cuando se quiere entrenar un modelo para una tarea específica. Con el fine-tuning, por lo tanto, se sigue entrenando al modelo de lenguaje.

Es posible que un modelo de lenguaje no pueda resumir bien los textos desde casa. Esto podría ser solo ocasional, por ejemplo, para una consulta médica que utiliza un vocabulario completamente diferente en las cartas de atención médica que el utilizado en los datos de entrenamiento del modelo de IA.

El fine-tuning mejora las habilidades de un modelo de inteligencia artificial previamente entrenado en relación con una tarea específica. Esta tarea se conoce también como Downstream-Task.

Según la tarea asignada y la capacidad de un modelo de IA así como el método matemático utilizado para su entrenamiento, se necesitan diferentes cantidades de datos para lograr buenos resultados.

Para la clasificación de textos pueden bastar cien ejemplos para realizar el fine-tuning con éxito. Si un generador de imágenes por inteligencia artificial debe aprender a capturar el estilo de un artista, incluso diez ejemplos son suficientes. Después del entrenamiento fino, el modelo de IA genera imágenes que podrían haber sido pintadas por el creador de las diez imágenes de ejemplo.

En general, se requieren y son razonables muchísimo menos datos de entrenamiento para el fine-tuning en comparación con el pre-entrenamiento. Se puede suponer que el número de conjuntos de datos para el fine-tuning suele no superar los 10.000 conjuntos de datos. A menudo, se requieren y son razonables muchísimo menos de estos 10.000 ejemplos. Todo depende del caso. Por completitud, hay que mencionar un caso especial: Un modelo básico es fine-tuneado con el objetivo de crear una versión prácticamente mejorada del modelo básico. Esto ocurrió por ejemplo con Llama3. El derivado fine-tuneado recibió 64.000 conjuntos de datos de entrenamiento. Este proceso lo llevan a cabo normalmente otros. Puedes utilizar estos modelos mejorados como si fueran desde el principio (pre-entrenamiento).

El fine-tuning se lleva a cabo en la práctica en empresas para modelos de lenguaje pequeños. Pequeño no significa que no sea un modelo de lenguaje "grande" LLM, sino que describe la relación entre "muy grande" (ChatGPT) y "un muy buen LLM" (como Llama3-8B). ChatGPT tiene más de 1000 mil millones de conexiones neuronales, mientras que un modelo de 8B "solo" tiene 8 mil millones. El "B" significa "mil millones" en inglés.

Pre-Training versus Fine-Tuning

La siguiente visión general muestra las diferencias entre Pre-entrenamiento y Fine-Tuning de manera breve y concisa. En la visión general también se incluyen los rasgos de protección de datos y datos sintéticos. Los datos sintéticos son datos generados artificialmente para ampliar el alcance de los datos de entrenamiento. Estos datos se obtienen a través de modelos de Inteligencia Artificial!

CaracterísticaPre-TrainingFine-Tuning
ObjetivoCreación de un modelo de Inteligencia Artificial generalizadaMejorar un modelo de inteligencia artificial existente para una tarea específica
AnalogíaLa educación de un niño por parte de sus padres + educación escolarEstudio en la universidad o formación adicional después de la escolaridad
Datos de entrenamientoTan muchos como sea posible, a menudo miles de millones de registros de datosA menudo son necesarios 10 ejemplos, a veces 100. Muy raramente serán más de 10.000 o incluso más ejemplos.
Tiempo de cálculoPara modelos modernos, muchas millones de horasPocos minutos a semanas
PrivacidadNo puede cumplirse prácticamentePuede cumplirse en general (solo para los datos de entrenamiento finos)
Posible anonimizaciónEn práctica noMuy bien en general
Derechos de autor respetados?En práctica noMuy bien en general
Datos sintéticos son útiles?Solo para emergencias o mejoras dentro de una vía de modelosSí, para la multiplicación de datos de entrenamiento y para aumentar la varianza de estos
Diferencias entre preentrenamiento y fine-tuning de modelos de inteligencia artificial.

Conclusión

Desde la perspectiva de los datos, el fine-tuning es mucho más manejable en orden de magnitud que el preentrenamiento. Esto se refiere solo a los datos que fluyen en el fine-tunning. Los datos de entrenamiento iniciales para el preentrenamiento ya están almacenados en el modelo de IA y son recuperables.

El preentrenamiento es un reto técnico. Desde el punto de vista del software, es casi lo mismo que el ajuste fino. Sin embargo, requiere enormes capacidades informáticas y una cantidad extremadamente grande de datos de entrenamiento.

El ajuste fino es completamente distinto. Se maneja con hardware asequible de consumo y muy a menudo requiere pocos o muy pocos datos de entrenamiento.

El entrenamiento fino hereda así el "cerebro" con sus datos de entrenamiento inicialmente almacenados y agrega pocos nuevos datos. Estos pocos nuevos datos pueden ser muy bien controlados desde la perspectiva de la RGPD. Sin embargo, queda un modelo básico ilegal que ha sido entrenado en fino, lo cual es un modelo ilegalmente entrenado en fino. Los datos ilegales del modelo básico tiñen así todas las versiones posteriores del modelo. Algo ilegal no se vuelve legal agregando algo legal.

Los datos sintéticos no mejoran realmente la calidad o el privacidad en un modelo básico:

  • Los datos sintéticos también pueden contener una referencia a una persona o obra protegida por derechos de autor. No es de extrañar, ya que su modelo son los datos verdaderos.
  • Cuando se obtienen datos sintéticos modificando datos reales, puede ocurrir que se hagan afirmaciones falsas sobre personas. Esto sería una empeoración de la situación legal en el modelo de lenguaje de inteligencia artificial.

En general se puede decir: los modelos de Inteligencia Artificial son competitivos solo cuando han sido presentados con la mayor cantidad posible y buena calidad de datos de entrenamiento. Por lo tanto, en realidad todos los modelos de Inteligencia Artificial cerrada y abierta disponibles y competitivos son formalmente ilegales. De paso, Mistral también fue entrenado con datos del "web abierto", como dice Mistral mismo.

La continua y aceptada utilización de algo formalmente ilegal probablemente llevará a que se considere permitido en la lógica del derecho jurídico para la inteligencia artificial, o al menos se tolerará su "utilización ilegal".

Otro problema es el uso de servicios en la nube como ChatGPT o Azure. Porque a menudo se envían datos de terceros o secretos comerciales propios a empresas estadounidenses y sus servicios de inteligencia nacionales.

Si el argumento de seguridad de los datos no es suficiente, se le sugiere que nombre sus casos de uso concretamente y para ello utilice una inteligencia artificial optimizada. Este tipo de inteligencia artificial se llama aquí AI Offline, que corre completamente autónoma, ya sea en un servidor alquilado o en un servidor propio del negocio y a menudo proporciona mejores resultados que las generalizaciones como ChatGPT.

Mensajes clave

El entrenamiento de modelos de IA implica dos pasos principales: pre-entrenamiento para enseñar al modelo las bases y ajuste fino para especializarlo en una tarea específica.

Para que un modelo de IA sea bueno, necesita ser "entrenado" con enormes cantidades de texto, como si fuera la educación de un niño.

El entrenamiento fino permite a un modelo de IA, previamente entrenado, ser aún mejor en una tarea específica, usando mucho menos datos que el entrenamiento inicial.

El ajuste fino de modelos de IA es más sencillo que el preentrenamiento porque requiere menos datos y es más rápido.

La mayoría de los modelos de inteligencia artificial actuales son ilegales porque se entrenan con datos que probablemente infringen la privacidad o los derechos de autor.

Acerca de

Sobre el autor
Me llamo Klaus Meffert. Soy doctor en informática y llevo más de 30 años dedicándome profesional y prácticamente a las tecnologías de la información. También trabajo como experto en informática y protección de datos. Obtengo mis resultados analizando la tecnología y el Derecho. Esto me parece absolutamente esencial cuando se trata de protección de datos digitales.

Privacidad: ¿Qué son los datos personales?