开启空间智能问答新时代:Spatial-RAG框架来了

-
标题:Spatial-RAG: Spatial Retrieval Augmented Generation for Real-World Spatial Reasoning Questions -
作者:Dazhou Yu, Riyang Bao, Gengchen Mai, Liang Zhao -
机构:埃默里大学、德州大学奥斯汀分校 -
原文链接:https://arxiv.org/abs/2502.18470

-
空间约束:图 1 用户的问题涉及复杂的空间关系:“沿某条路线推荐餐厅”。传统的空间数据库可以高效处理这些空间查询,但它们无法理解用户的语义需求:“要求肉食”。 -
语义理解:LLMs 擅长理解自然语言中的语义信息,例如用户对餐厅类型、价格或评分的偏好。然而,LLMs 缺乏直接处理空间数据的能力,无法执行复杂的空间计算(例如,计算两个点之间的距离或判断一个点是否位于某个区域内)。
-
通用的 Spatial-RAG 框架:Spatial-RAG 是第一个将 RAG 扩展到空间问答的框架,能够处理广泛的空间推理任务,如地理推荐、空间约束搜索和上下文路径规划。无缝集成了空间数据库、LLMs 和基于检索的增强,使得能够在 LLMs 的熟悉操作范式内有效处理复杂的空间推理问题。 -
稀疏 - 密集空间混合检索器:提出了一种混合检索机制,结合了稀疏检索(基于 SQL 的结构化查询)和密集检索(基于 LLM 的语义匹配)。这种双重方法确保检索结果在空间和语义上与用户查询一致,显著提高了空间上下文中的检索准确性。 -
多目标引导的空间文本生成器:为了处理空间问答任务中的空间约束和文本推理,引入了一个多目标优化框架,动态平衡空间和语义相关性之间的权衡。这确保了生成的响应既几何准确又语言连贯。 -
真实世界评估:在从旅游网站收集的真实世界数据集上评估了方法,该数据集包含用户对不同空间实体的问题和评论。在该数据集上的实验揭示了处理现实世界空间推理问题的能力。


-
构建空间候选集 :系统必须精确定义空间约束,然后检索满足这些约束的空间对象。如图 2 sparse spatial retrieval(稀疏空间检索)所示,通过将输入的自然语言问题解析为空间 SQL 查询来实现这一点,该查询将在空间数据库上执行,以高效地从数据库中检索相关的空间对象。此过程在第 4.2 节中详细说明。
-
计算空间相关性 :为了在集成文本信息的同时有效计算空间相关性,研究人员提出了一种混合空间检索方案。如图 2 所示,该方法结合了来自数据库的稀疏空间相关性分数和来自文本嵌入的密集语义相似性分数。这使得系统能够根据输入问题的空间相关性对检索到的空间对象进行排序,详见第 4.3 节。
-
多目标优化生成:在给定空间和语义约束的情况下,研究人员提出了一个多目标优化问题来平衡这些因素。系统计算候选答案的 Pareto 前沿,LLM 动态在这些解决方案之间进行权衡,以生成最优响应。此步骤在第 4.4 节中详细介绍。













-
几何识别:从用户输入中识别并提取参考空间对象 和候选目标空间对象
,并提取它们的空间几何体。
-
查询函数选择:根据预期的空间关系(例如,包含、接近)确定适当的空间函数 。
-
参数估计:分配数值约束 以确保精确的空间过滤(例如,缓冲区半径)。

-
点: 。此类别包括单个点和多点,表示面积可忽略的位置。例如,停车标志、地址点和用户的当前位置。在空间数据库中,这些实体通常表示为 “点” 几何类型。
-
多段线: 。多段线(包括多段线组)表示宽度可忽略的线性一维对象。常见的例子包括街道、河流、公交路线和电力线。在空间数据库中,这些几何体抽象为 “线串” 类型。
-
多边形: 。多边形(包括多边组)表示定义封闭区域的二维对象。这些几何体对于描绘区域(如人口普查区、地块、县、社区和分区区域)至关重要。






































-
仅稀疏情况:如果 ,简化为纯基于距离的排序。
-
仅密集情况:如果 ,简化为纯基于语义的排序。
-
混合情况:如果两个权重都非零,混合排序受益于显式空间约束和隐式语义相关性,从而形成更全面的排序机制。











-
Sort-by-distance(SD):按照空间问题中的参考对象距离排序候选空间对象。 -
Text embedding(TE):基于文本描述的嵌入向量,计算目标对象与参考对象的向量距离,并选择最近的对象。 -
Spatial-text(ST):基于用户问题的嵌入向量计算与目标对象文本描述的相似度,并结合目标对象的距离得分进行加权求和后决策。 -
Naive RAG:使用向量数据库存储所有空间对象描述,并基于向量相似性检索最相关的对象。 -
GeoLLM:对空间对象进行编码,并通过添加附近对象的空间信息丰富上下文。


-
Spatial-RAG(GPT-3.5-Turbo 和 GPT-4-Turbo)在交付率上与其他基线方法存在一定差距,大约 86.1% 的问题被成功处理。 -
失败的 12.9% 的情况是由于 无法从空间数据库检索到任何空间对象(可能由于多边形识别错误或 SQL 查询指定区域内无相关对象)。 -
另 0.9% 的情况是 LLM 在重新排序(reranking)过程中未能正确排列检索结果。 -
Spatial-RAG(GPT-4-Turbo)比 GPT-3.5-Turbo 在 Spatial Dense Pass Rate 上高 7%,在 Semantic Pass Rate 上也稍有优势。 -
SD 方法由于仅基于距离返回最近的对象,其 Spatial Dense Pass Rate 较高,但其他指标表现较差。 -
GeoLLM 方法仅基于对象名称和距离,因此在 Spatial Dense Pass Rate 方面表现尚可。 -
TE 和 ST 方法考虑了语义信息,在 Semantic Pass Rate 方面表现较优。 -
Naive RAG 和 ST 共同优化了空间密集检索和用户语义检索,因此两者在这两个方面表现接近。
-
Spatial-RAG 在迈阿密数据集上的表现也较好。 -
基线方法的表现模式与纽约数据集基本一致,但由于迈阿密的数据量较小(QA 对数量仅为 133),模型表现的稳定性可能受到影响。
-
移除稀疏空间模块后,交付率显著提高,但空间得分下降。 -
移除密集语义模块后,空间密集通过率最高,但语义通过率显著降低。

