SWIFT 2.4 TO DO LIST #1617

tastelikefeet · 2024-08-07T02:41:06Z

Dataset

Refactor the self cognition dataset to support multi-lingual QAs.

Megatron PreTrain

Support more Megatron models
Support dataset split

Fine-tuning

RAG LLM training investigation

RLHF

PPO training investigation

Multi-modal

GPTQ/AWQ quantization
vLLM inference

Inference&Deployment

PyTorch batch inference
DeepSpeed-Zero inference investigation
Output logits

WEB-UI

Video/Audio chatbot

WSC741606 · 2024-08-09T16:29:11Z

希望能支持零一万物的Yi-1.5系列的Megatron，感谢大佬~

WSC741606 · 2024-08-09T16:32:06Z

还有多机多卡的数据集训练加载问题~NFS挂载的网络波动问题导致加载不了本地的cache
我现在是修改了swift/llm/utils/utils.py的def _msdataset_ddp_load(*args, **kwargs):，改成了

    def _msdataset_ddp_load(*args, **kwargs):
        dataset=False
        while not dataset:
          try:
            with safe_ddp_context():
              dataset = _old_msdataset_load(*args, **kwargs)
            return dataset
          except:
            dataset=False

希望有更优雅的解决方法~

WSC741606 · 2024-08-09T16:37:48Z

另外数据集希望能支持在命令行中给个标签，然后分别计算各个标签的loss，比如通用数据集loss，代码数据集loss，垂域数据集loss等，然后对应到Tensorboard看看情况
看到一个参考代码思路

channel_loss = {}
for step, batch in enumerate(train_dataloader):
    batch = to_device(batch, device)
    channel = batch['channel'][0]
    
    del batch['channel']
    outputs = model(**batch)
    loss = outputs.loss

    # Update channel loss
    if channel in channel_loss:
        channel_loss[channel][0] += loss.item()
        channel_loss[channel][1] += 1
    else:
        channel_loss[channel] = [loss.item(), 1]

    all_channel_loss = [None for _ in range(world_size)]
    torch.distributed.all_gather_object(all_channel_loss, channel_loss)

    merged_channel_loss = {}
    for lst in all_channel_loss:
        for k, v in lst.items():
            if k in merged_channel_loss:
                merged_channel_loss[k][0] += v[0]
                merged_channel_loss[k][1] += v[1]
            else:
                merged_channel_loss[k] = [v[0], v[1]]

    for k,v in merged_channel_loss.items():
        avg_loss = v[0] / v[1] if v[1] != 0 else 0.0
        print_rank_0("The Channel {} loss is {}".format(k, avg_loss), args.global_rank)

        # Log channel loss to TensorBoard
        if dist.get_rank() == 0:
            writer.add_scalar(f'Loss/channel_{k}', avg_loss, epoch * num_batches + step)

    channel_loss = {}

WSC741606 · 2024-08-10T16:14:51Z

还有远古的DDP+MP的问题）另外我看日志里输出的是MP，这个有可能进化成PP吗，毕竟朴素MP的话气泡期也太长了，但我这边没跑成功过，所以不太清楚是不是已经做了优化

Jintao-Huang · 2024-08-10T16:17:14Z

还有远古的DDP+MP的问题）另外我看日志里输出的是MP，这个有可能进化成PP吗，毕竟朴素MP的话气泡期也太长了，但我这边没跑成功过，所以不太清楚是不是已经做了优化

这个device_map主要是用于节约显存的。如果要使用PP，可以使用deepspeed。如果要使用TP，估计需要等megatron了

WSC741606 · 2024-08-10T16:19:47Z

还有远古的DDP+MP的问题）另外我看日志里输出的是MP，这个有可能进化成PP吗，毕竟朴素MP的话气泡期也太长了，但我这边没跑成功过，所以不太清楚是不是已经做了优化

这个device_map主要是用于节约显存的。如果要使用PP，可以使用deepspeed。如果要使用TP，估计需要等megatron了

好嘞，感谢大佬~

beamind · 2024-08-16T03:17:10Z

希望支持训练RM(reward model)模型

WSC741606 · 2024-08-19T03:59:18Z

还有多机多卡的数据集训练加载问题~NFS挂载的网络波动问题导致加载不了本地的cache 我现在是修改了swift/llm/utils/utils.py的def _msdataset_ddp_load(*args, **kwargs):，改成了
    def _msdataset_ddp_load(*args, **kwargs):
        dataset=False
        while not dataset:
          try:
            with safe_ddp_context():
              dataset = _old_msdataset_load(*args, **kwargs)
            return dataset
          except:
            dataset=False
希望有更优雅的解决方法~

解决了

PancakeAwesome · 2024-09-10T02:44:58Z

支持 qwenvl2 internvl2 vllm 多图和视频推理，谢谢

ljqnb · 2024-09-10T07:58:13Z

Please support PPO! Thanks

tastelikefeet pinned this issue Aug 7, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

SWIFT 2.4 TO DO LIST #1617

SWIFT 2.4 TO DO LIST #1617

tastelikefeet commented Aug 7, 2024

WSC741606 commented Aug 9, 2024

WSC741606 commented Aug 9, 2024

WSC741606 commented Aug 9, 2024

WSC741606 commented Aug 10, 2024

Jintao-Huang commented Aug 10, 2024

WSC741606 commented Aug 10, 2024

beamind commented Aug 16, 2024

WSC741606 commented Aug 19, 2024

PancakeAwesome commented Sep 10, 2024

ljqnb commented Sep 10, 2024

SWIFT 2.4 TO DO LIST #1617

SWIFT 2.4 TO DO LIST #1617

Comments

tastelikefeet commented Aug 7, 2024

Dataset

Megatron PreTrain

Fine-tuning

RLHF

Multi-modal

Inference&Deployment

WEB-UI

WSC741606 commented Aug 9, 2024

WSC741606 commented Aug 9, 2024

WSC741606 commented Aug 9, 2024

WSC741606 commented Aug 10, 2024

Jintao-Huang commented Aug 10, 2024

WSC741606 commented Aug 10, 2024

beamind commented Aug 16, 2024

WSC741606 commented Aug 19, 2024

PancakeAwesome commented Sep 10, 2024

ljqnb commented Sep 10, 2024