ECCV24这场Workshop开启招募啦多模态大模型自动驾驶=

作者： 2024年06月03日创投浏览

多模态，已经成为大模型最重要的发展方向之一。

从GPT-4V到GPT-4o，多模态大模型在多模态感知与理解方面的进展，正在不断惊艳世界。

然而，利用多模态大模型来应对自动驾驶中复杂场景，特别是罕见但关键的难例场景，仍然是一个未解的难题。

围绕这一挑战，现在，一场由香港科技大学、香港中文大学等研究机构发起的ECCV 2024 Workshop来了。

这场Workshop旨在研讨当前最先进的自动驾驶技术，与完全可靠的智能自动驾驶代理之间的差距，促进多模态大模型感知与理解、先进的AIGC技术在自动驾驶系统中的应用，以及端到端自动驾驶等方面的创新研究。

本次论文征稿关注自动驾驶场景多模态感知与理解、自动驾驶场景图像与视频生成、端到端自动驾驶、下一代工业级自动驾驶解决方案等主题，包括但不限于：

自动驾驶难例场景多模态理解与视频生成挑战赛

本次竞赛旨在提升多模态模型在自动驾驶中极端情况的感知与理解，并生成描绘这些极端情况的能力。

赛道一：自动驾驶难例场景感知与理解

本赛道关注多模态大模型（MLLMs）在自动驾驶难例场景的感知和理解能力，包括整体场景理解、区域理解和行驶建议等方面的能力，旨在推动更加可靠且可解释的自动驾驶代理的发展。

赛道二：自动驾驶难例场景视频生成

本赛道关注扩散模型生成多视角自动驾驶场景视频的能力。基于给定的自动驾驶场景3D几何结构，模型需要生成与之对应的自动驾驶场景视频，并保证时序一致性、多视角一致性、指定的分辨率和视频时长。

竞赛时间： 2024年6月15日至2024年8月15日

奖项设置： 冠军1000美元，亚军800美元，季军600美元（每赛道）