理解一个视觉场景(visual scene)不只是要理解单独的一个个物体。物体之间的关系也能提供丰富的有关这个场景的语义信息(semantic information)。在我们这项工作中,我们使用...