久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

【AI大模型應(yīng)用開(kāi)發(fā)】【RAG評(píng)估】0. 綜述:一文了解RAG評(píng)估方法、工具與指標(biāo)

 小張學(xué)AI 2024-03-16 發(fā)布于山東
公眾號(hào)內(nèi)文章一覽



前面我們學(xué)習(xí)了RAG的基本框架并進(jìn)行了實(shí)踐,,我們也知道使用它的目的是為了改善大模型在一些方面的不足:如訓(xùn)練數(shù)據(jù)不全,、無(wú)垂直領(lǐng)域數(shù)據(jù)、容易出現(xiàn)幻覺(jué)等,。那么如何評(píng)估RAG的效果呢,?本文我們來(lái)了解一下,。

推薦前置閱讀

0. RAG效果評(píng)估的必要性

  • 評(píng)估出RAG對(duì)大模型能力改善的程度

  • RAG優(yōu)化過(guò)程,通過(guò)評(píng)估可以知道改善的方向和參數(shù)調(diào)整的程度

1. RAG評(píng)估方法

1.1 人工評(píng)估

最Low的方式是進(jìn)行人工評(píng)估:邀請(qǐng)專家或人工評(píng)估員對(duì)RAG生成的結(jié)果進(jìn)行評(píng)估,。他們可以根據(jù)預(yù)先定義的標(biāo)準(zhǔn)對(duì)生成的答案進(jìn)行質(zhì)量評(píng)估,,如準(zhǔn)確性、連貫性,、相關(guān)性等。這種評(píng)估方法可以提供高質(zhì)量的反饋,,但可能會(huì)消耗大量的時(shí)間和人力資源,。

1.2 自動(dòng)化評(píng)估

自動(dòng)化評(píng)估肯定是RAG評(píng)估的主流和發(fā)展方向。

1.2.1.1 LangSmith

在我的這篇文章中 【AI大模型應(yīng)用開(kāi)發(fā)】【LangSmith: 生產(chǎn)級(jí)AI應(yīng)用維護(hù)平臺(tái)】0. 一文全覽Tracing功能,,讓程序運(yùn)行過(guò)程一目了然 介紹了如何使用LangSmith平臺(tái)進(jìn)行效果評(píng)估,。

  • 需要準(zhǔn)備測(cè)試數(shù)據(jù)集

  • 不僅可以評(píng)估RAG效果,對(duì)于LangChain中的Prompt模板等步驟都可進(jìn)行測(cè)試評(píng)估,。

1.2.1.2 Langfuse

Langfuse作為L(zhǎng)angSmith的平替,,也具有自動(dòng)化評(píng)估的功能。在我的這篇文章中 【AI大模型應(yīng)用開(kāi)發(fā)】【LangFuse: LangSmith平替】0. 快速上手 - 基本功能全面介紹與實(shí)踐(附代碼) 介紹了如何使用Langfuse平臺(tái)進(jìn)行效果評(píng)估,。

  • 需要準(zhǔn)備測(cè)試數(shù)據(jù)集

  • 不僅可以評(píng)估RAG效果,,對(duì)于LangChain中的Prompt模板等步驟都可進(jìn)行測(cè)試評(píng)估。


以上兩個(gè)平臺(tái)對(duì)RAG的評(píng)估,,都可以自定義自己的評(píng)估函數(shù),。當(dāng)然其也支持一些內(nèi)置的評(píng)估函數(shù)。

1.2.1.3 Trulens

TruLens是一款旨在評(píng)估和改進(jìn) LLM 應(yīng)用的軟件工具,,它相對(duì)獨(dú)立,,可以集成 LangChain 或 LlamaIndex 等 LLM 開(kāi)發(fā)框架。它使用反饋功能來(lái)客觀地衡量 LLM 應(yīng)用的質(zhì)量和效果,。這包括分析相關(guān)性,、適用性和有害性等方面。TruLens 提供程序化反饋,,支持 LLM 應(yīng)用的快速迭代,,這比人工反饋更快速、更可擴(kuò)展,。

  • 開(kāi)源鏈接:https://github.com/truera/trulens

  • 使用手冊(cè):https://www./trulens_eval/install/


使用的步驟:
(1)創(chuàng)建LLM應(yīng)用
(2)將LLM應(yīng)用與TruLens連接,,記錄日志并上傳
(3)添加 feedback functions到日志中,并評(píng)估LLM應(yīng)用的質(zhì)量
(4)在TruLens的看板中可視化查看日志,、評(píng)估結(jié)果等
(5)迭代和優(yōu)化LLM應(yīng)用,,選擇最優(yōu)的版本

其對(duì)于RAG的評(píng)估主要有三個(gè)指標(biāo):

  • 上下文相關(guān)性(context relevance):衡量用戶提問(wèn)與查詢到的參考上下文之間的相關(guān)性

  • 忠實(shí)性(groundedness ):衡量大模型生成的回復(fù)有多少是來(lái)自于參考上下文中的內(nèi)容

  • 答案相關(guān)性(answer relevance):衡量用戶提問(wèn)與大模型回復(fù)之間的相關(guān)性

其對(duì)RAG的評(píng)估不需要有提前收集的測(cè)試數(shù)據(jù)集和相應(yīng)的答案。

1.2.4 RAGAS

考慮標(biāo)準(zhǔn)的RAG設(shè)置,,即給定一個(gè)問(wèn)題q,,系統(tǒng)首先檢索一些上下文c(q),,然后使用檢索到的上下文生成答案as(q)。在構(gòu)建RAG系統(tǒng)時(shí),,通常無(wú)法訪問(wèn)人工標(biāo)注的數(shù)據(jù)集或參考答案,,因此該工作將重點(diǎn)放在完全獨(dú)立且無(wú)參考的度量指標(biāo)上

四個(gè)指標(biāo),,與Trulens的評(píng)估指標(biāo)有些類似:

  • 評(píng)估檢索質(zhì)量:

  • context_relevancy(上下文相關(guān)性,,也叫 context_precision)

  • context_recall(召回性,越高表示檢索出來(lái)的內(nèi)容與正確答案越相關(guān))

  • 評(píng)估生成質(zhì)量:

  • faithfulness(忠實(shí)性,,越高表示答案的生成使用了越多的參考文檔(檢索出來(lái)的內(nèi)容))

  • answer_relevancy(答案的相關(guān)性)

2. 常用評(píng)估指標(biāo)

在上文評(píng)估方法中已經(jīng)介紹了幾種常用的評(píng)估指標(biāo):

2.1 Trulens 的RAG三元組指標(biāo)

  • 上下文相關(guān)性(context relevance):衡量用戶提問(wèn)與查詢到的參考上下文之間的相關(guān)性

  • 忠實(shí)性(groundedness ):衡量大模型生成的回復(fù)有多少是來(lái)自于參考上下文中的內(nèi)容

  • 答案相關(guān)性(answer relevance):衡量用戶提問(wèn)與大模型回復(fù)之間的相關(guān)性

2.2 RAGAS的四個(gè)指標(biāo)

四個(gè)指標(biāo),,與Trulens的評(píng)估指標(biāo)有些類似:

  • 評(píng)估檢索質(zhì)量:

  • context_relevancy(上下文相關(guān)性,也叫 context_precision)

  • context_recall(召回性,,越高表示檢索出來(lái)的內(nèi)容與正確答案越相關(guān))

  • 評(píng)估生成質(zhì)量:

  • faithfulness(忠實(shí)性,,越高表示答案的生成使用了越多的參考文檔(檢索出來(lái)的內(nèi)容))

  • answer_relevancy(答案的相關(guān)性)

2.3 其它指標(biāo)

參考論文:https:///pdf/2309.01431.pdf

(1)噪聲魯棒性(Noise Robustness)

衡量從噪聲文檔中提取有用的信息能力。在現(xiàn)實(shí)世界中,,存在大量的噪聲信息,,例如假新聞,這給語(yǔ)言模型帶來(lái)了挑戰(zhàn),。

(2)否定拒絕(Negative Rejection)

當(dāng)檢索到的文檔不足以支撐回答用戶的問(wèn)題時(shí),,模型應(yīng)拒絕回答問(wèn)題,發(fā)出"信息不足"或其他拒絕信號(hào),。

(3)信息整合(information integration)

評(píng)估模型能否回答需要整合多個(gè)文檔信息的復(fù)雜問(wèn)題,,即,當(dāng)一個(gè)問(wèn)題需要查找多個(gè)文檔,,綜合信息之后才能回答時(shí),,模型的表現(xiàn),。

(4)反事實(shí)魯棒性(CounterfactualRobustness)

模型能否識(shí)別檢索文檔中已知事實(shí)錯(cuò)誤的能力,即當(dāng)索引的文檔信息原本就是與事實(shí)相背時(shí),大模型能否識(shí)別出不對(duì),。

3. 總結(jié)

本文主要總結(jié)了當(dāng)前比較流行的評(píng)估方法和指標(biāo),。當(dāng)前AI技術(shù)的快速發(fā)展,,RAG和RAG評(píng)估是當(dāng)前比較有前景的發(fā)展方向,,不斷有新的評(píng)估工具和理論被提出,讓我們持續(xù)跟進(jìn),,了解這些工具和理論,,從而在使用時(shí)知道如何選擇。

參考

  • https://mp.weixin.qq.com/s/Si8rb0L1uqMiwoQ1BWS0Sw

  • https://mp.weixin.qq.com/s/z18J2l_b-VsKDhOd6-nIsg

  • https://mp.weixin.qq.com/s/YFji1s2yT8MTrO3z9_aI_w

  • https://mp.weixin.qq.com/s/TrXWXkQIYTVsS1o4IZjs9w

  • https:///article/detail?fid=1816656853&efid=TVdhzg972NYV9Q1MyFBqqg

如果覺(jué)得本文對(duì)你有幫助,,麻煩點(diǎn)個(gè)贊和關(guān)注唄 ~~~


  • 大家好,,我是同學(xué)小張,日常分享AI知識(shí)和實(shí)戰(zhàn)案例

  • 歡迎 點(diǎn)贊 + 關(guān)注 ??,,持續(xù)學(xué)習(xí),,持續(xù)干貨輸出,。

公眾號(hào)內(nèi)文章一覽

    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多