S U P E R V I E

S U P E R V I E

intelligence artifiielle

La recherche récente a montré que les modèles de langage de grande taille (LLMs) ne peuvent pas être entraînés indéfiniment sans rencontrer de limites structurelles. Les travaux cités ci-dessous couvrent plusieurs axes :

  • Récursivité et collapse : comment l’entraînement sur des données générées par les modèles eux-mêmes entraîne une dégradation progressive.

  • Limites de données : analyses sur la finitude des corpus de qualité disponibles et les lois d’échelle (compute vs. data).

  • Qualité et duplication : l’importance de filtrer, dédupliquer et diversifier les données pour éviter la mémorisation et la contamination.

  • Biais et confidentialité : risques liés à la reproduction d’erreurs, à la fuite de données sensibles et à l’amplification des biais.

  • Pistes de mitigation : recours à la récupération documentaire (RAG), à la diversité des sources et à des protocoles d’évaluation rigoureux.

Cette sélection n’est pas exhaustive, mais constitue une base solide pour explorer les limites actuelles des LLMs et les solutions envisagées.

 

Sources :

  • Boucles sur données synthétiques. Réentraîner un modèle sur des sorties de modèles (“self-consumption”) mène à une perte d’information et à des distributions dégénérées s’il n’y a pas assez de données humaines fraîches/variées ni de filtrage strict. → utile avec parcimonie, en mélange contrôlé avec du “vrai” contenu et des filtres de qualité. arXiv+1

  • Limites de données & rendements décroissants. Les lois d’échelle “Chinchilla” montrent qu’il faut augmenter à la fois la taille du modèle et le nombre de tokens pour rester optimal, donc le progrès est vite data-limité ; plusieurs analyses projettent un plafonnement du web “utile”. arXiv+2arXiv+2

  • Mémorisation & contamination. Les corpus web contiennent des doublons → plus de verbatim, fuite de données privées et évaluations biaisées ; la dé-duplication réduit fortement la régurgitation. arXiv+3arXiv+3arXiv+3USENIX

  • Autres limites structurelles. L’exposure bias (décalage entre entraînement et génération auto-récursive) et la difficulté à exploiter des contextes très longs (effet “lost in the middle”) restent des freins. arXiv+2arXiv+2

Lectures-clés (sélection très courte)

  • The Curse of Recursion — preuve expérimentale que s’entraîner sur des données générées mène à l’oubli et au collapse sans garde-fous. arXiv

  • Nature (2024) – synthèse sur les risques du ré-entraînement sur données synthétiques (“model autophagy disorder”). arXiv

  • Chinchilla / Training Compute-Optimal — lois d’échelle : pour rester optimal, doubler paramètres et tokens ; sinon, sous-entraînement. arXiv+1

  • Will we run out of data? (Epoch) — analyse des plafonds de données humaines de qualité sur le web. arXiv

  • Deduplicating Training Data Makes LMs Better — la dé-dup réduit la régurgitation ×10 et améliore l’éval. arXiv+1

  • Extracting Training Data from LLMs & Scalable Extraction… — démonstrations d’extraction de données d’entraînement via requêtes. USENIXarXiv

  • Exposure Bias (Ranzato et al.) — erreurs qui se composent en génération séquentielle. arXiv

  • Lost in the Middle — les LLMs peinent à repérer l’info pertinente au milieu de longs contextes. arXiv

  • Retrieval-Augmented Generation (RAG) — mitigation : ancrer la génération sur une base documentaire externe. arXiv+1

  • Stochastic Parrots — limites sociotechniques (biais, coûts, traçabilité). Dr Alan D. Thompson – LifeArchitect.ai

 

Il ne faut pas faire comme ça..
On dirait que les possibilités de raisonnement sur ce sujet sont gravement limitées.
C'est pitoyable.


On reprend depuis le début, de quoi s'agit il ?

https://datascientest.com/nlp-word-embedding-word2vec

 

Pourtant il y'a de la matière, dans cet article. Mais bon.. On préfère rajouter des .. GPU.
Des tonnes et des tonnes de GPU.
On dirait une métaphore de l'ultra-libéralisme..

Eh oui.. Maintenant il faut une centrale nucléaire pour alimenter tous ces milliers de GPU.

Un jour, la lumière jaillira des ténèbres: chazam, et l'Intelligence Artificielle "générale" surgira de l'obsurité: les machines vont devenir conscientes.

 

Et toutes nous tuer, ah les sales.. C'est pas gentil, on sera dépassé, des millions de métiers seront supprimés..

(on peut en faire des vidéos  youtube sur ce sujet dystopique, ça fait faire des vues.. C'est tro bien.. )

 

 

Et il y'a des types pour avaler cette salade..Et évidemment ils n'ont jamais écrit une seule ligne de code de leur vie (ça sert a rien, chat gpt le fait pour moi..)

 

Bon, comme disait Chirac "Plus c'est gros, et mieux ça passe".

 

Bonne chance !



07/09/2025