RAG的核心评价指标

in AI研究 with 0 comment

围绕RAG的核心,“检索+生成”,来看RAG效果的核心指标。

一、“检索”相关的核心指标

总体来说,就是能根据问题尽量找全相关的信息,尽可能高相关,并且越精准相关的越靠前

1. 上下文召回率(Context Recall)

指标含义:检索系统检索到的相关上下文占所有相关上下文的比例。它关注的是检索系统能否找到所有相关的信息,即检索的全面性。

例子说明:

用户Query:“法国的首都是什么?”假设存在以下三个相关上下文:

  1. "巴黎是法国的首都。"

  2. "法国的首都是巴黎,位于塞纳河畔。"

  3. "法国是一个西欧国家,其首都是巴黎。"

检索系统返回了以下结果:

结果1:巴黎是法国的首都。

结果2:西班牙的首都是马德里(不相关)。

在这个例子中,检索系统只检索到了一个与Query相关的上下文,而实际上有三个相关的上下文存在。因此,上下文召回率是1/3,即33.33%。

2. 上下文相关性(Context Relevance)

指标含义:衡量检索到的上下文与用户Query的相关程度,关注的是整个检索结果集。

例子说明:

假设我们有以下检索结果列表,针对Query:“法国的首都是什么?”

结果1:巴黎是法国的首都。

结果2:法国是一个位于欧洲的国家。

结果3:西班牙的首都是马德里(不相关)。

所有结果中有两个是相关的,相关性较高,具体计算方式与相关性的标准等有关。

3. 上下文精确度(Context Precision)

指标含义:评估检索结果中排名靠前的上下文与Query的相关性。

例子说明:

同样以上面例子为例,如果我们只考虑前两个结果,上下文精确度是1/2,因为前两个结果中只有一个是精确相关的。如果我们考虑前三个结果,上下文精确度是1/3,因为三个结果中只有一个是精确相关的。

4. 平均倒数排名(MRR)

指标含义:评估检索系统快速定位到最相关文档的能力。

例子说明:用户Query“法国首都”,好的MRR表示“巴黎”这个答案在检索结果中排名第一。

二、“生成”相关的核心指标

总体来说,就是生成的答案有依据,尽量来源于搜索内容,并且最终给出的答案是能解决问题的

1. 答案真实性(Answer Faithfulness 或 Groundedness)

指标含义:评估生成的回答是否基于检索到的文档内容,没有添加不准确或不存在的信息。

例子说明:如果检索到的上下文是“巴黎是法国首都”,好的答案是“法国首都是巴黎”,而不是“法国首都是伦敦”。

2. 答案相关性(Answer Relevance)

指标含义:衡量生成的回答与用户Query的直接相关性。

例子说明:

用户Query:“法国的首都是什么?”

检索到的上下文:“法国是一个位于西欧的国家,拥有丰富的文化和历史。”

生成的回答A:“法国的首都是巴黎。”

生成的回答B:“巴黎是法国的首都,一个世界著名的文化和历史中心。”

回答A直接回答了Query,提供了所需的具体信息,因此具有高答案相关性。回答B不仅直接回答了Query,还提供了额外的信息,增加了回答的价值,同样具有高答案相关性。

三、其他指标

1. 生成答案的其他指标

  • 准确性(Accuracy):生成的回答是否正确,是否与事实相符。

  • 完整性(Completeness):回答是否提供了足够的信息,是否全面覆盖了Query的各个方面。

  • 一致性(Consistency):回答是否在逻辑上连贯,没有自相矛盾。

  • 有帮助性(Helpfulness):回答是否对用户有实际帮助,是否提供了有用的信息或解决方案。

2. RAG系统整体能力的其他指标

评估面对在面对不同挑战时的表现,例如处理不完整信息、识别和拒绝不相关或错误信息、整合多源信息等。

  • 噪声鲁棒性(Noise Robustness):评估系统处理含有噪声或不相关信息的能力。

  • 负面拒绝(Negative Rejection):评估系统在检索不到有用信息时拒绝生成回答的能力。

  • 信息集成(Information Integration):评估系统整合来自多个检索文档的信息以生成全面回答的能力。

  • 反事实鲁棒性(Counterfactual Robustness):评估系统在面对潜在错误信息时能够正确识别并纠正的能力。

参考信息来源:

1、"Benchmarking Large Language Models in Retrieval-Augmented Generation" https://arxiv.org/pdf/2309.01431.pdf

2、RAGAs指标框架 https://docs.ragas.io/

评论: