Deep Learning et traitement naturel du Langage - NLP, LLM & Generative AI
Version du programme : 1
Type de formation
Formation mixteDurée de formation
21 heures (3 jours)Accessibilité
OuiDeep Learning et traitement naturel du Langage - NLP, LLM & Generative AI
Le traitement naturel du langage est un domaine à part entière de l’intelligence artificielle à l’intersection de l’informatique, des mathématiques, de la linguistique et des sciences cognitives. L’objectif est de construire des applications capables d’analyser, de modéliser, de comprendre et d’imiter le langage humain. Les transformers introduits en 2017 et intégrant des capacités d’attention ont révolutionné ce domaine en offrant une nouvelle méthode pour la compréhension du langage naturel. D’une part, nous pouvons désormais réutiliser de nombreux modèles pré-entrainés extrêmement performants et d’autre part, ils ont contribué à l’IA générative permettant de générer du contenu original à partir de données existantes. Vous connaissez les principes fondamentaux de l’apprentissage automatique et vous avez déjà mis en œuvre différentes architectures de réseaux de neurones, mais vous souhaitez en savoir plus sur les opportunités proposées par le Machine et le Deep Learning dans le domaine du traitement naturel du langage, cette formation est faite pour vous. Vous serez capables de pré-traiter des données textuelles et serez en mesure d’implémenter des modèles permettant de les valoriser en TensorFlow ou PyTorch : classification de texte, recherche d’informations, analyse de sentiments, extraction d’informations, traduction, résumé de texte, etc. Durée : 3 jours (formation possible en présentiel ou distanciel)
Objectifs de la formation
- Mettre en place un prétraitement efficace d’un jeu de données textuelles
- Maîtriser les architectures de réseaux de neurones récurrents et des transformers
- Comprendre les bases théoriques et pratiques des LLM
- Réutiliser des modèles existants avec du transfer learning
- Comprendre le principe du RAG
- Mesurer la pertinence des modèles mis en œuvre
- Mettre en œuvre des cas concrets pour chaque architecture/solution
Profil des bénéficiaires
- Data Analyst
- Data scientist
- Développeur
- Connaissance de Python
- Connaissance des librairies scientifiques (scikit-learn, pandas, numpy)
- Connaissance du Deep Learning ou avoir suivi la formation "maîtriser le deep learning" (maîtrise des concepts du machine learning et avoir mis en œuvre différentes architectures de réseaux de neurones : convolutionnels, récurrents, …)
- Connaissance d’un framework Deep Learning TensorFlow ou PyTorch
Contenu de la formation
Introduction
- Les bases de la linguistique
- Introduction au Text Mining / Fouille de texte (Data Mining pour le texte)
- Extraction d’informations
- Recherche d’informations
- Catégorisation du texte
- Résumé du texte
Text Normalisation / Normalisation du texte
- n-grams
- Tokenization
- Stop Word
- Stemming
- Part-Of-Speech (POS) tagging
- Lemmatization
Vectorisation du texte
- Analyse de la fréquence des termes (Counter, TF-IDF, Word vectors)
- Bag of word
- Word Embedding : Word2vec, GloVe, FastText, etc.
- Création d’une pipeline de préprocessing
Les réseaux de neurones récurrents
- Principes fondamentaux des RNN
- LSTM et GRU
- Les approches Encodeur-Decodeur
- Utilisation de connexions résiduelles (skip connections)
L’architecture Transformers
- Seq2Seq
- Attention is All You Need
- Architecture des transformers
- Mécanisme d’attention
- Tokens & Embeddings
Les LLM
- Les familles de modèles : encoder, decoder & encoder-decoder
- Panorama de quelques modèles
- Méthodes d’apprentissage et d’optimisation
- Closed model APIs vs OpenModel weights vs Fully open model
- Coût et empreinte écologique des LLM
- Des LLM vers les SLM
Hugging Face et Keras Hub
- HuggingFace et ses pipelines
- Keras Hub et Kaggle
RAG- Retrieval-Augmented Generation
- Fondements du Retrieval-Augmented Generation (RAG)
- Les bases vectorielles
- Premier pas avec LangChain
- Du RAG avancé vers l’Agentic AI
Équipe pédagogique
Suivi de l'exécution et évaluation des résultats
- Feuilles de présence.
- Composée à 70% de pratique, cette formation utilise des exercices illustrés et didactiques.
- Une évaluation quotidienne de l’acquisition des connaissances de la veille est effectuée.
- Une synthèse est proposée en fin de formation.
- Certificat de réalisation de l’action de formation.
Ressources techniques et pédagogiques
- Accueil des apprenants dans une salle dédiée à la formation (si présentiel).
- Présentation du support via vidéoprojecteur (ou partage visio).
- Composée à 70% de pratique, cette formation utilise des exercices illustrés et didactiques.
- Une évaluation quotidienne de l’acquisition des connaissances de la veille est effectuée.
- Une synthèse est proposée en fin de formation.
- Un support de cours sera remis à chaque participant comprenant les slides sur la théorie, les exercices.
- Un suivi et un échange avec les participants seront mis en place quelques jours après la formation.
Capacité d'accueil
Délai d'accès
Accessibilité
Pour plus d'informations sur les modalités d'accessibilité pour cette formation, vous pouvez contacter directement adeschamps@confor.tech .