ОБРАБОТКА ЯЗЫКА

NLP и языковые модели

Изучите весь стек современного NLP: от классических методов обработки текста до fine-tuning BERT и построения RAG-систем на базе LLM. 11 модулей, 72 часа практических материалов.

Модулей

Часа

Проектов

Узнать подробности

Визуализация обработки текста нейросетью: слова на разных языках связаны линиями в трехмерном пространстве на темно-синем фоне, отображая семантические связи между понятиями

Программа курса

Базовые методы обработки текста

Токенизация, стемминг, лемматизация, TF-IDF, Bag of Words, Word2Vec и GloVe-эмбеддинги.

Классификация текста

Наивный Байес, SVM для текста, работа с несбалансированными классами, multiclass classification.

Именованные сущности (NER)

Обнаружение и извлечение сущностей: организации, люди, локации. spaCy и CRF-модели.

Архитектура Transformer

Механизм внимания, Self-Attention, Multi-Head Attention, позиционное кодирование. Реализация с нуля.

BERT и его варианты

Pre-training, fine-tuning, RoBERTa, DistilBERT, ALBERT. Оптимизация для inference.

Генеративные модели (GPT)

Авторегрессионные языковые модели, GPT-2/GPT-4, temperature, sampling strategies.

Промпт-инжиниринг

Chain-of-Thought, few-shot learning, instruction tuning. Эффективные стратегии взаимодействия с LLM.

RAG-архитектуры

Retrieval-Augmented Generation: vector stores, Faiss, Pinecone, LangChain, LlamaIndex.

Записаться на программу Все программы