CollieDatasetForTraining¶
- class CollieDatasetForTraining(dataset, tokenizer=None, add_special_tokens=True, shuffle=False, seed=1024, max_length=-1)[源代码]¶
CoLLie 中的基本数据格式,可用于预训练、微调任务。 需提供的数据格式形似:
[ { "text": "这是prompt部分的文本", }, ... ]
或者:
[ { "input": "这是prompt部分的文本", "output": "这是output部分的文本" }, ... ]
或者:
[ { "tokens": [token_id_1, token_id_2, ...], "labels": [-100, token_id_2, ...] # 可选,-100 表示计算 loss 时忽略该 token }, ... ]
当使用第二种数据格式时,只有 output 部分的 token 会参与 loss计算。 当使用第二种数据格式时,labels 字段是可选的,如果不提供 labels 默认计算所有 token 的 loss