Differentiable Search Index 简读
DSI(Differentiable Search Index)是生成式检索方向较早的一篇代表性论文,发表于 NeurIPS 2022。其核心做法是:将整个文档库的内容编码进一个 Transformer 的参数中,检索时直接用 seq2seq 解码出文档 ID,省去倒排索引、向量库与近邻搜索这一整套独立组件。
更早的 GENRE(De Cao et al., 2020)已用 seq2seq 自回归地解码 Wikipedia 实体页面标题,DSI 在论文中也将其作为相关工作引用。DSI 的进一步贡献在于:将解码目标从有语义的实体名扩展到任意形式的 docid(包括随机整数和层次化语义 ID),并系统比较了文档表示、ID 表示与训练策略的影响。这把检索从一个系统工程问题,重新表述成了一个端到端的机器学习问题,索引等价于训练,检索等价于推理。