Cerca documenti, chatbot, assistenti vocali, sistemi domande-risposte: tutti possono essere adattati anche per la lingua tedesca, che è sottorappresentata a livello mondiale. ChatGPT non fornisce risposte esatte. Modelli di linguaggio AI affidabili per la lingua tedesca sono possibili nonostante alcune piccole difficoltà come l'uso del genere.
Introduzione
L'impiego di intelligenza artificiale nell'azienda si differenzia fondamentalmente dall'utilizzo privato di ChatGPT, Microsoft Bing,Google Bard o altri sistemi da "dati kraken".
Imprenditori danno i loro dati insieme a secrets commerciali, brevetti, dati dei dipendenti, dati dei clienti, contratti o altri dati riservati spesso solo con riluttanza a ChatGPT. D'altra parte, in futuro dovranno essere forniti più dati ad altri. Ciò è detto dal Data Governance Act (DGA) dell'UE, che è entrato in vigore nel settembre 2023 per effetto del suo carattere regolamentare.
Inoltre le richieste per risposte corrette di un chatbot o altro sistema di linguaggio artificiale sono molto più elevate rispetto all'ambito privato. Ciò vale almeno fuori dal campo creativo. La classe dei re sono quesiti giuridici che sistemi moderni ma generalmente validi come ChatGPT e la AI di Microsoft non possono rispondere bene (motivazione: vedi link sopra). Anche le amministrazioni che si occupano del servizio al cittadino dovrebbero non fare affidamento su chatbot poco affidabili, tra cui anche ChatGPT.
Il doppio punto di genere è adatto a inquinare i dati di training per modelli linguistici.
Soprattutto perché il punto di sospensione è normalmente un segno di punteggiatura che conclude una frase.
Anche la presunta e solo di recente pubblicata funzione di correzione automatica per testi di Google Bard non funziona correttamente, come un testo pratico con un'attenta analisi ha mostrato.
Si rende difficile l'apprendimento dei modelli di linguaggio per l'intelligenza artificiale, quando nei dati di addestramento la grammatica viene a volte appiattita a causa di una lingua di genere. Inoltre, il doppio punto di genere si assicura che intere frasi in testi non vengano più riconosciute.
La lingua tedesca è, a livello mondiale, una lingua trattata con scarsa cura (vedi immagine sotto). Modelli linguistici potenti che si concentrano sull'inglese capiscono solo il tedesco perché questa lingua è stata adottata quasi per caso come prodotto di scarto in forma di proprietà emergente.
Vantaggi di modelli linguistici propri
Un modello linguistico può essere ottenuto in seguito a queste modalità:
- Creare da zero. Ciò richiede di solito centinaia di migliaia di ore di calcolo GPU (GPU = processore grafico), quindi non è fattibile per molte aziende.
- Riutilizzare modelli linguistici aperti, caratterizzati da un fine-tuning: standard via più impegnativa ma controllabile.
- Riproporre modelli linguistici aperti che ricevono solo documenti propri come contesto nel prompt.
Le prime due possibilità hanno la possibilità di accogliere una lingua di genere in modi diversi, ma il fine-tuning avrà comunque problemi che non si possono eliminare del tutto.

La terza possibilità di riutilizzare i modelli linguistici aperti è la più tecnologicamente semplice e spesso funzionale. Non riesce però a gestire in alcun modo la lingua dei generi. Questo è un'affermazione tecnica e non politica.
Un modello di lingua tedesco proprio non è solo possibile, ma ha anche molti vantaggi. Tra l'altro i vantaggi sono:
- La lingua tedesca è al primo posto. Viviamo in Germania e non in Spagna. Gli anglismi possono anche essere compresi da un modello linguistico tedesco.
- Il carico di decine di altre lingue non deve essere trasportato con sé. Buono per le esigenze di hardware (scheda grafica!) e la velocità di funzionamento.
- Contenuti di alta qualità possono essere utilizzati al posto del "rifiuto della privacy" (= materiale disponibile in generale, non selezionato).
- Sfocatura su un settore di studio (o anche più di uno).
- Guida ottimale dell'utente con sensibilizzazione per i risultati, invece di fingere che ogni risposta sia corretta (vedi ChatGPT o Bing).
- Costi ridotti o fissi: Un sistema di intelligenza artificiale aziendale si basa principalmente sul costo di acquisto o locazione di un server AI. L'uso frequente non cambia nulla. I costi rimangono sempre bassi. Al contrario, le soluzioni in cloud come ChatGPT. La consultazione di un documento diventa presto cara con l'uso frequente. Chi utilizza l'API del chatbot di OpenAI dovrebbe evitare di programmare la recursione o la loop infinita, altrimenti il budget verrà speso in pochi minuti senza alcun beneficio. Ciò non può accadere con un sistema proprio.
Il prossimo capitolo tratta dei dati di addestramento per i modelli linguistici di intelligenza artificiale tedeschi, poiché questi costituiscono la base per l'intelligenza artificiale linguistica. Da ciò si possono derivare anche diverse proposte per le autorità e altre istituzioni statali che potrebbero rendere possibile l'intelligenza artificiale in Germania.
Dati di addestramento per assistenti linguistici AI tedeschi
I dati di addestramento sono ciò che corrisponde all'educazione di un bambino da parte dei suoi genitori. Per i modelli linguistici sono necessari testi tedeschi. Da dove prendere questi testi, se non rubarli?
L'Internet offre una vasta gamma di testi in tedesco. Anche le aziende hanno nel loro Reti interne numerose documentazioni che sono adatte come fonte di conoscenza.
PDF invece di HTML
Il Corte di giustizia federale (BGH) pubblica le sue sentenze apparentemente solo in formato PDF. La piattaforma no-profit openjur prende questi PDF e estrae da essi (manualmente?) il testo. Successivamente, openjur mette a disposizione online i giudizi gratuitamente. Anche l'Ufficiale Gazzetta pubblica molti documenti solo in formato PDF.
La analogia si comporta con alcune altre importanti fonti pubbliche che possono essere interessanti per i modelli di IA. Ad esempio, molte autorità di vigilanza pubblicano solo in formato PDF i loro rapporti annuali o linee guida.

L'immagine mostra un estratto da un documento PDF ufficiale e pubblico di una autorità tedesca per la protezione dei dati personali. Non solo che due colonne rendono più complessa l'importazione del testo, ma sono inoltre separate da un'intestazione intermedia. Ciò che è facilmente leggibile per gli esseri umani rappresenta un problema per una fase precedente dell'intelligenza artificiale. Quasi tutto può essere risolto, ma a quale costo e con quale affidabilità? Perché non fornire dati di base o almeno formati che sono a una colonna sola? Esempi sono HTML o testo brutto. L'HTML può essere sviluppato come pagina web leggibile dagli esseri umani, che può anche essere letta da una macchina, il che viene chiamato "scraping".
Evitare il contrario della Lingua Leggera
Dal punto di vista logico e tecnico, il gendern è l'opposto di una lingua semplice ( "lingua facile" ). Ecco un esempio da un documento di un'autorità tedesca per la protezione dei dati:
- Lavoratori" invece di "lavoratore
In altri documenti della stessa amministrazione si trova invece:
- Dipendenti
Queste formulazioni non sono né coerenti né "leggere". Inoltre, sembra che la lingua di genere interessi solo i testi che vengono restituiti dalle ricerche o dai chatbot come risultato.
La domanda è se ogni utente possa interrogare un modello di intelligenza artificiale con linguaggio di genere o se non esista nemmeno uno. Anche l'intelligenza artificiale non può fare miracoli. E neanche ogni uomo è un genio. La maggior parte delle persone in Germania non riesce neanche a cambiare una ruota su un'auto.
La qualità dei dati è importante quindi: Un modello linguistico chiamato Zephyr ha solo un decimo dei parametri di un potente modello 70B e, a causa della qualità dei dati, è (anche) altrettanto buono.
Ciò comporta un caricamento del modello molto più veloce e una generazione di risposte notevolmente più rapida.
Non è chiaro da un punto di vista tecnico come effettuare una normalizzazione dei termini che sono stati alterati dal gendern prima della loro elaborazione con l'intelligenza artificiale. Ecco due esempi di frasi con il termine normalizzato corrispondente:
- .da dipendenti: … –> dipendenti
- attraverso dipendenti: … -> dipendente
Come si può vedere, due forme di parola vengono improvvisamente ridotte a una grazie alla grammatica che viene resa incerta dal genere. L'uomo può seguirlo in questo, perché è già una intelligenza (non sempre, ma occasionalmente). Un computer che si trova nella pre-elaborazione di testi destinati all'addestramento di un modello di linguaggio per l'intelligenza artificiale non può risolvere con affidabilità questa incertezza. In ogni caso, servono molte considerazioni individuali prima che il risultato complessivo si adatti in gran parte.
La seguente formulazione è difficile da elaborare in modo meccanico perché la grammatica qui completamente sommersa. Probabilmente anche molte persone hanno problemi a capire questa lingua.
- Cittadino/a
Chi lo vuole ancora più complesso, utilizza al posto del doppio punto di genere lo sterrettino di genere:
- Cittadino/a
I modelli AI si basano su milioni, spesso miliardi di dati. I grandi modelli linguistici consistono in un singolo elemento di dati, ovvero un frammento di testo. Poiché i modelli AI imparano da molti esempi, è necessario utilizzare una grande quantità di ulteriori esempi per la lingua dei generi. Il problema fondamentale viene quindi inutilmente complicato.
Indipendentemente, come sopra descritto, soffre la grammatica. Dalla chiarezza all'incertezza. Chi si conosce un po' di modelli di IA sa quanto siano importanti dati di input puliti. Più distinzioni e più incertezza sono in sé gestibili, ma richiedono maggiori sforzi. Lo sforzo per addestrare o fine-tune i modelli di IA è già alto e da molti non è affatto sostenibile.
I metodi classici di NLP come la lemmatizzazione e la formazione del radice della parola vengono confusi dal punto di genere.
Determinazione oggettiva e tecnica. NLP = Elaborazione del linguaggio naturale.
Una domanda interessante sarebbe se i sostenitori della lingua di genere la utilizzassero anche nei campi di ricerca delle motori di ricerca o come promemoria in modelli di intelligenza artificiale. Di conseguenza, un sostenitore della lingua di genere dovrebbe farlo. Almeno adesso sa che i motori di ricerca e i modelli di intelligenza artificiale imparano anche dalle entrate degli utenti. Se però gli utenti utilizzassero sempre una lingua tradizionale, consolidata e comune e non la versione gendrata, allora l'applicazione avrebbe purtroppo (o fortunatamente?) difficoltà a padroneggiare adeguatamente la lingua di genere.
Ecco la traduzione: "Ecco il discorso sulle argomentazioni pure, sull'abolizione del genere a favore dell'intelligenza artificiale. Tuttavia, un commento mi è stato fatto notare in anticipo, che diceva: 'La lingua appartiene al popolo' – Risoluzione del Bundestag del 26 marzo 1998". A questo proposito va notato che la maggioranza dei tedeschi è contro il linguaggio di genere. Se il decisione della maggioranza democratica viene rispettata, allora la decisione del popolo è caduta. Un altro commento diceva che una AI interrogata ha risposto che capiva il linguaggio di genere. Probabilmente era ChatGPT, un sistema che dà risposte di cortesia costanti e spesso risponde falsamente, e in generale è inadatto a fornire risultati esatti per specifiche attività aziendali.
Proposte per una migliore qualità dei dati
Le seguenti raccomandazioni si rivolgono sia alle imprese che agli enti pubblici. In particolare, questi ultimi hanno la possibilità di mettere a disposizione delle informazioni di interesse generale in un formato facilmente elaborabile digitalmente.
I documenti pubblicamente disponibili dovrebbero essere resi disponibili in un formato di testo rozzo. Di solito si utilizza una maggiore scala, cioè l'HTML. Offrire solo un PDF spesso causa problemi con la processabilità meccanica. I PDF con più colonne per il testo a flusso sono ancora più problematici. Chi vuole offrire un PDF offre idealmente un formato di documento leggermente più processabile. Anche le persone con disabilità visiva che utilizzano o devono utilizzare un lettore dello schermo si trovano meglio con semplici documenti come PDF.
Un indice dei documenti facilita la ricerca di documenti già esistenti e risparmia il crawling o lo scraping. Allo scopo del crawling, le pagine web vengono rastrellate automaticamente. Ciò rende più difficile non solo al rastrellatore, ma anche al server del rastrellato, che soffre per l'aumento di traffico inutilmente generato.
La lingua di genere è una catastrofe dal punto di vista tecnico. Non c'è altro da dire al riguardo dal punto di vista tecnico. Chi vuole fornire testi facilmente comprensibili dovrebbe rinunciare alla forma di genere. Molti persone possono avere difficoltà a comprendere alcuni formulati di genere più che la lingua comune. L'inclusione va fatta in modo diverso da quello di complicare le cose. La cosiddetta lingua leggera sembra non solo allontanarsi dal gendern, ma anche introdurre ulteriori semplificazioni.
Chi modifica, dovrebbe farlo da ora in poi con particolare conseguenza da un punto di vista logico e per il proprio interesse personale. Consequente significa utilizzare la forma grammaticale corretta in ogni frase, ma anche nelle ricerche o nei suggerimenti. Nessuno può essere costretto a farlo, ma non dovrebbe poi stupirsi se un chatbot o una motore di ricerca non risponde con la lingua del genere.
Conclusione
La tecnica di "rein" rende la lingua dei generi più contaminata per i dati di addestramento delle modelli linguistici per l'intelligenza artificiale, ovvero rende più difficile l'addestramento, perché sono necessari più dati d'ingresso. La "rein" linguisticamente complica alcuni enunciati, soprattutto quando gli articoli indeterminativi vengono anche declinati davanti al sostantivo principale. Ciò comporta l'esclusione di lettori che già hanno problemi a comprendere testi scritti su un livello inferiore alla media.
In questo punto non è gradita alcuna discussione di genere. Ecco invece considerazioni puramente funzionali.
Chi vuole fornire documenti nell'era della IA, sia per il pubblico che per sistemi di IA interna, dovrebbe astenersi tecnologicamente dall'utilizzo della lingua di genere o duplicare tutti i dati di addestramento e fornendo le copie con forme contrarie.
Chi trova divertente la lingua di genere dovrebbe usarla ovunque sul web, anche se ciò comporta più lavoro da tipografo. Altrimenti il modello linguistico per l'intelligenza artificiale alimentato dalle inserzioni continuerà a essere sempre più fine-tuned per la lingua attuale, che non utilizza i caratteri di genere.
Messaggi chiave
Creare modelli linguistici affidabili per la lingua tedesca è importante, ma presenta delle sfide, come la grammatica complessa e la scarsa rappresentanza della lingua online.
Per creare un modello linguistico di intelligenza artificiale in tedesco, sono necessari dati di addestramento in tedesco.
I dati pubblici spesso sono in formato PDF, il che rende difficile per l'intelligenza artificiale comprenderli. Sarebbe più facile per le IA se i dati fossero in formati più semplici come HTML o testo normale.
L'uso del linguaggio di genere nei modelli di intelligenza artificiale è problematico perché complica l'addestramento e potrebbe portare a risultati imprecisi.
Per una migliore comprensione dei dati da parte di sistemi intelligenti, è meglio evitare la lingua di genere e utilizzare un linguaggio semplice e chiaro.
Se ti piace la lingua di genere, usala online anche se richiede più lavoro. Altrimenti, l'intelligenza artificiale continuerà a usare la lingua attuale, senza caratteri di genere.



My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.
