LLM Course documentation
本章简介
0. 安装
1. Transformer 模型
2. 使用 🤗 Transformers
3. 微调一个预训练模型
4. 分享你的模型和标记器
5. 🤗 Datasets库
6. 🤗 Tokenizers库
7. 主要的 NLP 任务
8. 如何寻求帮助
9. 构建并分享你的模型
课程活动
本章简介
我们在 第三章 第一次体验了🤗 Datasets 库,了解到微调模型主要有三个步骤:
- 从 Hugging Face Hub 加载数据集。
- 使用
Dataset.map()预处理数据。 - 加载和计算指标(特征)。
但这仅仅触及了🤗 Datasets 库能做的事情的冰山一角!在本章,我们将深入探索这个库。一路上,我们会找到以下问题的答案:
- 当你的数据集不在 Hub 上时,你应该怎么做?
- 你如何切分和操作数据集?(如果你非常需要使用 Pandas,该如何处理?)
- 当你的数据集非常大,会撑爆你笔记本电脑的 RAM 时,你应该怎么办?
- 什么是“内存映射”和 “Apache Arrow”?
- 如何创建自己的数据集并将其推送到中心?
你在这里学到的技术将为你在 第六章 和 第七章 中的高级 tokenization 和微调任务做好准备——所以,来杯咖啡,让我们开始吧!
Update on GitHub