Shortcuts

CollieDataLoader

class CollieDataLoader(dataset, batch_size, accumulation_steps=1, shuffle=False, pin_memory=True, collate_fn=None, num_workers=None, sampler=None, drop_last=False, data_efficiency_config={})[源代码]

CoLLiE 封装的 DataLoader。

在流水线并行的情景下每次迭代取出 batch_size * accumulation_steps 个 sample。

参数:
  • dataset --

  • batch_size --

  • pin_memory (default: True) --

  • shuffle (default: False) --

  • accumulation_steps (default: 1) --

  • collate_fn (default: None) --

  • num_workers (default: None) --

  • sampler (default: None) --

  • drop_last (default: False) -- 当最后一个 batch 样本数不足时是否丢弃。在流水线情况下如果为 False,则会补齐最后一个 batch。

  • data_efficiency_config (default: {}) -- DeepSpeed 中关于 Data Effiency 部分的设置