北大提出多模态 Situated 问题回答,三维场景中的多模态坐标推理 !
在具身的AI代理中理解和推理3D场景是至关重要的。然而,现有的针对定位理解的的数据集和基准在数据模态、多样性、规模和任务范围内存在局限性。为了应对这些局限性,作者提出了一种称为多模态情境问答(MSQA)的大规模多模态情境推理数据集,它通过
1月前240
在具身的AI代理中理解和推理3D场景是至关重要的。然而,现有的针对定位理解的的数据集和基准在数据模态、多样性、规模和任务范围内存在局限性。为了应对这些局限性,作者提出了一种称为多模态情境问答(MSQA)的大规模多模态情境推理数据集,它通过