NLP и языковые модели
Изучите весь стек современного NLP: от классических методов обработки текста до fine-tuning BERT и построения RAG-систем на базе LLM. 11 модулей, 72 часа практических материалов.
Программа курса
Базовые методы обработки текста
Токенизация, стемминг, лемматизация, TF-IDF, Bag of Words, Word2Vec и GloVe-эмбеддинги.
Классификация текста
Наивный Байес, SVM для текста, работа с несбалансированными классами, multiclass classification.
Именованные сущности (NER)
Обнаружение и извлечение сущностей: организации, люди, локации. spaCy и CRF-модели.
Архитектура Transformer
Механизм внимания, Self-Attention, Multi-Head Attention, позиционное кодирование. Реализация с нуля.
BERT и его варианты
Pre-training, fine-tuning, RoBERTa, DistilBERT, ALBERT. Оптимизация для inference.
Генеративные модели (GPT)
Авторегрессионные языковые модели, GPT-2/GPT-4, temperature, sampling strategies.
Промпт-инжиниринг
Chain-of-Thought, few-shot learning, instruction tuning. Эффективные стратегии взаимодействия с LLM.
RAG-архитектуры
Retrieval-Augmented Generation: vector stores, Faiss, Pinecone, LangChain, LlamaIndex.