前面我們學(xué)習(xí)了RAG的基本框架并進(jìn)行了實(shí)踐,,我們也知道使用它的目的是為了改善大模型在一些方面的不足:如訓(xùn)練數(shù)據(jù)不全,、無(wú)垂直領(lǐng)域數(shù)據(jù)、容易出現(xiàn)幻覺(jué)等,。那么如何評(píng)估RAG的效果呢,?本文我們來(lái)了解一下,。 推薦前置閱讀0. RAG效果評(píng)估的必要性
1. RAG評(píng)估方法1.1 人工評(píng)估最Low的方式是進(jìn)行人工評(píng)估:邀請(qǐng)專家或人工評(píng)估員對(duì)RAG生成的結(jié)果進(jìn)行評(píng)估,。他們可以根據(jù)預(yù)先定義的標(biāo)準(zhǔn)對(duì)生成的答案進(jìn)行質(zhì)量評(píng)估,,如準(zhǔn)確性、連貫性,、相關(guān)性等。這種評(píng)估方法可以提供高質(zhì)量的反饋,,但可能會(huì)消耗大量的時(shí)間和人力資源,。 1.2 自動(dòng)化評(píng)估自動(dòng)化評(píng)估肯定是RAG評(píng)估的主流和發(fā)展方向。 1.2.1.1 LangSmith在我的這篇文章中 【AI大模型應(yīng)用開(kāi)發(fā)】【LangSmith: 生產(chǎn)級(jí)AI應(yīng)用維護(hù)平臺(tái)】0. 一文全覽Tracing功能,,讓程序運(yùn)行過(guò)程一目了然 介紹了如何使用LangSmith平臺(tái)進(jìn)行效果評(píng)估,。
1.2.1.2 LangfuseLangfuse作為L(zhǎng)angSmith的平替,,也具有自動(dòng)化評(píng)估的功能。在我的這篇文章中 【AI大模型應(yīng)用開(kāi)發(fā)】【LangFuse: LangSmith平替】0. 快速上手 - 基本功能全面介紹與實(shí)踐(附代碼) 介紹了如何使用Langfuse平臺(tái)進(jìn)行效果評(píng)估,。
以上兩個(gè)平臺(tái)對(duì)RAG的評(píng)估,,都可以自定義自己的評(píng)估函數(shù),。當(dāng)然其也支持一些內(nèi)置的評(píng)估函數(shù)。 1.2.1.3 TrulensTruLens是一款旨在評(píng)估和改進(jìn) LLM 應(yīng)用的軟件工具,,它相對(duì)獨(dú)立,,可以集成 LangChain 或 LlamaIndex 等 LLM 開(kāi)發(fā)框架。它使用反饋功能來(lái)客觀地衡量 LLM 應(yīng)用的質(zhì)量和效果,。這包括分析相關(guān)性,、適用性和有害性等方面。TruLens 提供程序化反饋,,支持 LLM 應(yīng)用的快速迭代,,這比人工反饋更快速、更可擴(kuò)展,。
使用的步驟: (1)創(chuàng)建LLM應(yīng)用 (2)將LLM應(yīng)用與TruLens連接,,記錄日志并上傳 (3)添加 feedback functions到日志中,并評(píng)估LLM應(yīng)用的質(zhì)量 (4)在TruLens的看板中可視化查看日志,、評(píng)估結(jié)果等 (5)迭代和優(yōu)化LLM應(yīng)用,,選擇最優(yōu)的版本 其對(duì)于RAG的評(píng)估主要有三個(gè)指標(biāo):
1.2.4 RAGAS考慮標(biāo)準(zhǔn)的RAG設(shè)置,,即給定一個(gè)問(wèn)題q,,系統(tǒng)首先檢索一些上下文c(q),,然后使用檢索到的上下文生成答案as(q)。在構(gòu)建RAG系統(tǒng)時(shí),,通常無(wú)法訪問(wèn)人工標(biāo)注的數(shù)據(jù)集或參考答案,,因此該工作將重點(diǎn)放在完全獨(dú)立且無(wú)參考的度量指標(biāo)上。 四個(gè)指標(biāo),,與Trulens的評(píng)估指標(biāo)有些類似:
2. 常用評(píng)估指標(biāo)在上文評(píng)估方法中已經(jīng)介紹了幾種常用的評(píng)估指標(biāo): 2.1 Trulens 的RAG三元組指標(biāo)
2.2 RAGAS的四個(gè)指標(biāo)四個(gè)指標(biāo),,與Trulens的評(píng)估指標(biāo)有些類似:
2.3 其它指標(biāo)
(1)噪聲魯棒性(Noise Robustness) 衡量從噪聲文檔中提取有用的信息能力。在現(xiàn)實(shí)世界中,,存在大量的噪聲信息,,例如假新聞,這給語(yǔ)言模型帶來(lái)了挑戰(zhàn),。 (2)否定拒絕(Negative Rejection) 當(dāng)檢索到的文檔不足以支撐回答用戶的問(wèn)題時(shí),,模型應(yīng)拒絕回答問(wèn)題,發(fā)出"信息不足"或其他拒絕信號(hào),。 (3)信息整合(information integration) 評(píng)估模型能否回答需要整合多個(gè)文檔信息的復(fù)雜問(wèn)題,,即,當(dāng)一個(gè)問(wèn)題需要查找多個(gè)文檔,,綜合信息之后才能回答時(shí),,模型的表現(xiàn),。 (4)反事實(shí)魯棒性(CounterfactualRobustness) 模型能否識(shí)別檢索文檔中已知事實(shí)錯(cuò)誤的能力,即當(dāng)索引的文檔信息原本就是與事實(shí)相背時(shí),大模型能否識(shí)別出不對(duì),。 3. 總結(jié)本文主要總結(jié)了當(dāng)前比較流行的評(píng)估方法和指標(biāo),。當(dāng)前AI技術(shù)的快速發(fā)展,,RAG和RAG評(píng)估是當(dāng)前比較有前景的發(fā)展方向,,不斷有新的評(píng)估工具和理論被提出,讓我們持續(xù)跟進(jìn),,了解這些工具和理論,,從而在使用時(shí)知道如何選擇。 參考
|
|
來(lái)自: 小張學(xué)AI > 《待分類》