-
Notifications
You must be signed in to change notification settings - Fork 45
Closed
Description
尊敬的作者,您好:
首先,非常感谢你们开源了 LinearRAG 这样优秀的项目。将图检索与线性复杂度结合的想法非常有创新性,代码结构也很清晰。我已经成功在本地部署并跑通了自己的中文数据集。
但是,我在测试过程中发现了一个关于检索的问题,希望向您请教或反馈。
目前的检索机制高度依赖命名实体识别(NER),而 NER 通常只关注名词(人名、地名、机构名)。然而,系统倾向于忽略动词或关系关键词(如“出生”、“位于”)。
当查询针对一个“中心实体(Hub Entity)”(连接度极高的实体,如“周杰伦”)的特定属性时,系统仅提取出该中心实体作为种子。由于该实体连接了绝大多数段落,图传播算法(PageRank)默认会根据中心性/热度来排序,而不是根据与查询中“关系词”的语义相关性。
复现示例
问题 :someone的出生于那日和出生于哪里
系统行为 :
- NER 提取 :仅提取出 [someone】 。动词 [出生] 被忽略。
- 图传播 :种子 [someone] 激活了数百个相连段落。
- 排序 :系统返回了关于他的“热门歌曲”、“奖项”或“演唱会”等高 PageRank 分数的段落,完全错过了包含“出生”信息的段落。
“出生”这一语义约束在种子提取阶段就丢失了。图检索因此退化成了一个通用的“告诉我关于someone的重要信息”的查询,而不是特定的“告诉我someone的出生信息”的查询。
请问对于这种情况有什么解决方法吗
Reactions are currently unavailable
Metadata
Metadata
Assignees
Labels
No labels