Shortcuts

CollieDatasetForTraining

class CollieDatasetForTraining(dataset, tokenizer=None, add_special_tokens=True, shuffle=False, seed=1024, max_length=-1)[源代码]

CoLLie 中的基本数据格式,可用于预训练、微调任务。 需提供的数据格式形似:

[
    {
        "text": "这是prompt部分的文本",
    },
    ...
]

或者:

[
    {
        "input": "这是prompt部分的文本",
        "output": "这是output部分的文本"
    },
    ...
]

或者:

[
    {
        "tokens": [token_id_1, token_id_2, ...],
        "labels": [-100, token_id_2, ...] # 可选,-100 表示计算 loss 时忽略该 token
    },
    ...
]

当使用第二种数据格式时,只有 output 部分的 token 会参与 loss计算。 当使用第二种数据格式时,labels 字段是可选的,如果不提供 labels 默认计算所有 token 的 loss