分享你的“血泪史”,帮后来者避坑:
在本地部署的时候显存说炸就炸 ,当时训练的时候好好的,突然CUDA out of memory,后面才发现预处理时一定要过滤长文本
当时辛苦训练模型训练了3天,最后发现效果还不如原始模型,一堆问题:回答被截断了(结尾是“…”)、输出和输入一模一样,训练前一定先抽样检查数据质量!
我在用的时候发现模型总在奇怪的地方断句,比如:“今天天气很好” → “今天天气 很 好”
后面我才发现原因是tokenizer对中文空格处理有问题。我在预处理时把中文空格换成正常空格才终于解决掉