围绕RAG的核心,“检索+生成”,来看RAG效果的核心指标。
一、“检索”相关的核心指标
总体来说,就是能根据问题尽量找全相关的信息,尽可能高相关,并且越精准相关的越靠前
1. 上下文召回率(Context Recall)
指标含义:检索系统检索到的相关上下文占所有相关上下文的比例。它关注的是检索系统能否找到所有相关的信息,即检索的全面性。
例子说明:
用户Query:“法国的首都是什么?”假设存在以下三个相关上下文:
"巴黎是法国的首都。"
"法国的首都是巴黎,位于塞纳河畔。"
"法国是一个西欧国家,其首都是巴黎。"
检索系统返回了以下结果:
结果1:巴黎是法国的首都。
结果2:西班牙的首都是马德里(不相关)。
在这个例子中,检索系统只检索到了一个与Query相关的上下文,而实际上有三个相关的上下文存在。因此,上下文召回率是1/3,即33.33%。
2. 上下文相关性(Context Relevance)
指标含义:衡量检索到的上下文与用户Query的相关程度,关注的是整个检索结果集。
例子说明:
假设我们有以下检索结果列表,针对Query:“法国的首都是什么?”
结果1:巴黎是法国的首都。
结果2:法国是一个位于欧洲的国家。
结果3:西班牙的首都是马德里(不相关)。
所有结果中有两个是相关的,相关性较高,具体计算方式与相关性的标准等有关。
3. 上下文精确度(Context Precision)
指标含义:评估检索结果中排名靠前的上下文与Query的相关性。
例子说明:
同样以上面例子为例,如果我们只考虑前两个结果,上下文精确度是1/2,因为前两个结果中只有一个是精确相关的。如果我们考虑前三个结果,上下文精确度是1/3,因为三个结果中只有一个是精确相关的。
4. 平均倒数排名(MRR)
指标含义:评估检索系统快速定位到最相关文档的能力。
例子说明:用户Query“法国首都”,好的MRR表示“巴黎”这个答案在检索结果中排名第一。
二、“生成”相关的核心指标
总体来说,就是生成的答案有依据,尽量来源于搜索内容,并且最终给出的答案是能解决问题的
1. 答案真实性(Answer Faithfulness 或 Groundedness)
指标含义:评估生成的回答是否基于检索到的文档内容,没有添加不准确或不存在的信息。
例子说明:如果检索到的上下文是“巴黎是法国首都”,好的答案是“法国首都是巴黎”,而不是“法国首都是伦敦”。
2. 答案相关性(Answer Relevance)
指标含义:衡量生成的回答与用户Query的直接相关性。
例子说明:
用户Query:“法国的首都是什么?”
检索到的上下文:“法国是一个位于西欧的国家,拥有丰富的文化和历史。”
生成的回答A:“法国的首都是巴黎。”
生成的回答B:“巴黎是法国的首都,一个世界著名的文化和历史中心。”
回答A直接回答了Query,提供了所需的具体信息,因此具有高答案相关性。回答B不仅直接回答了Query,还提供了额外的信息,增加了回答的价值,同样具有高答案相关性。
三、其他指标
1. 生成答案的其他指标
准确性(Accuracy):生成的回答是否正确,是否与事实相符。
完整性(Completeness):回答是否提供了足够的信息,是否全面覆盖了Query的各个方面。
一致性(Consistency):回答是否在逻辑上连贯,没有自相矛盾。
有帮助性(Helpfulness):回答是否对用户有实际帮助,是否提供了有用的信息或解决方案。
2. RAG系统整体能力的其他指标
评估面对在面对不同挑战时的表现,例如处理不完整信息、识别和拒绝不相关或错误信息、整合多源信息等。
噪声鲁棒性(Noise Robustness):评估系统处理含有噪声或不相关信息的能力。
负面拒绝(Negative Rejection):评估系统在检索不到有用信息时拒绝生成回答的能力。
信息集成(Information Integration):评估系统整合来自多个检索文档的信息以生成全面回答的能力。
反事实鲁棒性(Counterfactual Robustness):评估系统在面对潜在错误信息时能够正确识别并纠正的能力。
参考信息来源:
1、"Benchmarking Large Language Models in Retrieval-Augmented Generation" https://arxiv.org/pdf/2309.01431.pdf
2、RAGAs指标框架 https://docs.ragas.io/
本文由
mmiannote
提供,采用 知识共享署名4.0
国际许可协议进行许可
本站文章除注明转载/出处外,均为本站原创或翻译,转载前请务必署名
最后编辑时间为:
2024年08月22日