rlhf框架_五金资讯网

TAG标签

豆包大模型团队开源RLHF框架训练吞吐量最高提升20倍

强化学习，RL，对大模型复杂推理能力提升有关键作用，但其复杂的计算流程对训练和部署也带来了巨大挑战，近日，字节跳动豆包大模型团队与香港大学联合提出HybridFlow，这是一个灵活高效的RL，RLHF...

共1页 1条