久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

GPT-4,,文心一言之類的大語(yǔ)言模型適合檔案系統(tǒng)嗎,?

 細(xì)雨青衫 2023-05-19 發(fā)布于重慶

目錄

圖片

01

 大語(yǔ)言模型(LLM)掀起新一輪AI熱潮

02

 LLM帶來(lái)AI開(kāi)發(fā)新范式

03

 LLM是否適合檔案領(lǐng)域?

04

 結(jié)語(yǔ)

PART 01

 ? 

大語(yǔ)言模型(LLM)

 ? 

掀起新一輪AI熱潮

圖片

自去年11月Open AI發(fā)布ChatGPT以來(lái),,掀起了全球網(wǎng)民的狂歡浪潮,,百度也緊隨其后推出了“文心一言”新一代知識(shí)增強(qiáng)大語(yǔ)言模型(Large Language Model,LLM),,這類模型能夠與人對(duì)話互動(dòng),,回答問(wèn)題,協(xié)助創(chuàng)作,,火速成為了人們關(guān)注的焦點(diǎn),。隨后Open AI正式開(kāi)放了GPT-3.5的API,企業(yè)可以付費(fèi)接入,,成本極低,。如今,國(guó)內(nèi)各家企業(yè)/機(jī)構(gòu)的AI大模型也如同雨后春筍般紛紛問(wèn)世,。

圖片
圖片

GPT系列是Open AI為聊天機(jī)器人ChatGPT發(fā)布的大型語(yǔ)言模型,,GPT的全稱是Generative Pre-Trained Transformer,可以理解為:通過(guò)Transformer為基礎(chǔ)模型,,使用預(yù)訓(xùn)練技術(shù)得到通用的大型語(yǔ)言模型,。免費(fèi)的ChatGPT應(yīng)用了GPT-3.5,最新付費(fèi)版的ChatGPT Plus則應(yīng)用了GPT-4,。GPT-4是一個(gè)多模態(tài)模型,,具有更強(qiáng)大的泛化能力和生成能力,可以更準(zhǔn)確地解決用戶難題,。

圖片

PART 02

 ? 

大語(yǔ)言模型(LLM)

 ? 

帶來(lái)AI開(kāi)發(fā)新范式

圖片

LLM的出現(xiàn),,提供了強(qiáng)大、智能的交互方式,,ChatGPT的問(wèn)世也讓文本生成展現(xiàn)出了作為生產(chǎn)力工具的潛質(zhì),。可以說(shuō),,以ChatGPT為代表的基于Prompt范式的LLM取得了巨大的成功,,同時(shí)模型背后的指導(dǎo)訓(xùn)練方式——指示學(xué)習(xí)(Instruction Learning)和人工反饋的強(qiáng)化學(xué)習(xí)(Reinforcement Learning from Human Feedback,RLHF)也引起了廣泛的關(guān)注,。

從技術(shù)角度來(lái)看,,LLM發(fā)端于自然語(yǔ)言處理(Natural Language Processing,NLP)領(lǐng)域,,以谷歌的BERT,、OpenAI的GPT和百度文心大模型為代表,參數(shù)規(guī)模逐步提升至百億,、千億,、萬(wàn)億,,同時(shí)用于訓(xùn)練的數(shù)據(jù)量級(jí)也顯著提升,帶來(lái)了模型能力的提高,。而無(wú)論從學(xué)術(shù)研究角度看,,還是從工業(yè)應(yīng)用角度來(lái)看,LLM都代表了NLP領(lǐng)域的一個(gè)技術(shù)飛躍,,帶來(lái)了整個(gè)領(lǐng)域研究范式的轉(zhuǎn)換,,預(yù)計(jì)LLM的使用也會(huì)越來(lái)越流行。

圖片

※ 訓(xùn)練大模型“預(yù)訓(xùn)練 精調(diào)”模式(來(lái)源:IDC&百度)

圖片

PART 03

 ? 

大語(yǔ)言模型(LLM)

 ? 

是否適合檔案領(lǐng)域,?

圖片

隨著數(shù)字化轉(zhuǎn)型需求不斷增長(zhǎng),,AI技術(shù)在政府和企業(yè)中的應(yīng)用也越來(lái)越多,AI開(kāi)發(fā)門檻高,、應(yīng)用場(chǎng)景復(fù)雜多樣,、對(duì)場(chǎng)景數(shù)據(jù)標(biāo)注依賴等問(wèn)題成為AI規(guī)模化落地的挑戰(zhàn),,而LLM的出現(xiàn)則為AI帶來(lái)了新的機(jī)遇與希望,。一般認(rèn)為,LLM作為政府和企業(yè)推進(jìn)人工智能產(chǎn)業(yè)發(fā)展的重要抓手,,在識(shí)別,、理解、決策,、生成等AI任務(wù)的泛化性,、通用性、遷移性方面都表現(xiàn)出顯著優(yōu)勢(shì)和巨大潛力,。

顯而易見(jiàn),LLM對(duì)AI 檔案應(yīng)用系統(tǒng)的開(kāi)發(fā)以及檔案部門未來(lái)信息化的發(fā)展提供了一種新的思路,,或引發(fā)革命性的變化,。如果能夠?qū)LM接入檔案管理系統(tǒng),可以實(shí)現(xiàn)文件自動(dòng)分類歸檔,、關(guān)鍵詞提取,、摘要生成、文本分析挖掘或者自動(dòng)化處理優(yōu)化,,在功能上可體現(xiàn)為:文本摘要,、檔案分類、審核開(kāi)放,、智能搜索,、輔助編研、關(guān)聯(lián)推薦,、知識(shí)圖譜甚至是檔案知識(shí)問(wèn)答等AI 檔案應(yīng)用,。

但是理想很豐滿,,現(xiàn)實(shí)可能很骨感,LLM能否在檔案信息化領(lǐng)域?qū)崿F(xiàn)應(yīng)用落地才是當(dāng)下首先需要思考的問(wèn)題,。GPT-4,、文心大模型以及其他LLM當(dāng)然可以用于自然語(yǔ)言處理和文本生成任務(wù),但是它們并不是專門為檔案信息化系統(tǒng)設(shè)計(jì)的工具,,需要深入考慮檔案業(yè)務(wù)需求以及行業(yè)應(yīng)用的限制,。

a. 我們需要一個(gè)LLM來(lái)完成什么任務(wù)?

b. GPT-4或其他LLM是否能夠滿足檔案管理系統(tǒng)的需求,?

c. 信息系統(tǒng)是否能夠支持LLM的運(yùn)行,?

d. 局域網(wǎng)、政務(wù)網(wǎng)環(huán)境對(duì)LLM的限制因素有哪些,?

e. 接入LLM,,如何保證檔案信息安全?

……

圖片

事實(shí)上,,任何一個(gè)成功的AI應(yīng)用離不開(kāi)數(shù)據(jù)Data),、算法Algorithms)、算力Computing power)與場(chǎng)景Business scenario)的支持,,被稱為ABCD四要素,。這四要素不斷迭代并相互協(xié)作,在核心技術(shù)發(fā)展以及應(yīng)用落地中起著至關(guān)重要的作用,。如果將AI應(yīng)用比喻成一輛汽車的話,,數(shù)據(jù)相當(dāng)于是汽油,算法相當(dāng)于是引擎,,算力相當(dāng)于是車輪,,應(yīng)用場(chǎng)景相當(dāng)于是方向盤。

圖片
圖片

在四要素中,,大量的數(shù)據(jù)集,、優(yōu)秀的算法架構(gòu)以及強(qiáng)大的計(jì)算資源是LLM實(shí)現(xiàn)的必要條件,業(yè)務(wù)場(chǎng)景則是LLM展示功力的舞臺(tái),。而將LLM應(yīng)用到檔案信息化領(lǐng)域時(shí),,可能存在著數(shù)據(jù)量不足、計(jì)算資源有限,、應(yīng)用場(chǎng)景單一以及如何保證數(shù)據(jù)安全等問(wèn)題,。經(jīng)過(guò)對(duì)各要素進(jìn)行分析之后,筆者認(rèn)為,,現(xiàn)階段將LLM應(yīng)用到檔案信息化系統(tǒng)中仍存在較大的局限性,,分別從以下四個(gè)方面進(jìn)行分析:

1、 隱私和安全

由于LLM需要處理大量的數(shù)據(jù),,必然需要采取相應(yīng)的隱私保護(hù)和安全防護(hù)措施,,以確保檔案數(shù)據(jù)和檔案信息的安全,。采用接口調(diào)用的方式也許適合互聯(lián)網(wǎng)其他行業(yè)(能源、金融,、制造,、傳媒等)應(yīng)用LLM,然而檔案系統(tǒng)的部署和使用大都在局域網(wǎng)或者政務(wù)網(wǎng),,由于檔案數(shù)據(jù)的敏感性,,安全和合規(guī)是首要問(wèn)題,調(diào)用API的前提是信息安全要保證,、數(shù)據(jù)權(quán)責(zé)要明確,,政策制度要完善,數(shù)據(jù)使用要規(guī)范,,因此直接接入外部LLM的方式并不適合檔案系統(tǒng),。下面主要考慮自主研發(fā)部署LLM的情況

2,、 計(jì)算資源和存儲(chǔ)空間

通常LLM規(guī)模非常巨大,,需要更多的計(jì)算資源和存儲(chǔ)空間來(lái)支撐其龐大的模型數(shù)據(jù)和復(fù)雜的訓(xùn)練算法。對(duì)于檔案部門而言就需要相應(yīng)地配置大量計(jì)算資源和存儲(chǔ)設(shè)備,,但實(shí)際情況是很難滿足支撐LLM算法和算力所需的基礎(chǔ)條件?,F(xiàn)階段有能力制作或改動(dòng)LLM的機(jī)構(gòu)極少,即使目前GPT-3.5模型已經(jīng)開(kāi)源,,絕大部分檔案館(室)也無(wú)力部署這種大模型,,更別提修改模型參數(shù)。

圖片

3,、訓(xùn)練和優(yōu)化

LLM需要不斷進(jìn)行訓(xùn)練和優(yōu)化,,才能增強(qiáng)AI的通用性、泛化性,,達(dá)到模型最佳應(yīng)用效果,。這不僅要消耗密集和昂貴的算力等資源,對(duì)算法本身也提出了極高的要求,,且需要不斷地更新模型以適應(yīng)新的數(shù)據(jù)和需求,從而增加了系統(tǒng)開(kāi)發(fā)和維護(hù)的成本和復(fù)雜性,,整個(gè)過(guò)程需要耗費(fèi)大量的時(shí)間和人力成本,,顯然不是檔案部門所能承受的。檔案部門所能提供的檔案數(shù)據(jù)量也難以滿足LLM模型百億,、千億,、萬(wàn)億的參數(shù)訓(xùn)練需求,這將導(dǎo)致模型的訓(xùn)練和優(yōu)化被限制,,難以保證模型的精度和速度,。

4,、 檔案業(yè)務(wù)場(chǎng)景應(yīng)用

應(yīng)用場(chǎng)景是AI技術(shù)最終落地的地方。LLM本質(zhì)上是“All in One”這種適用于多種業(yè)務(wù)場(chǎng)景的通用型模型,。假設(shè)將LLM“殺雞用牛刀”地應(yīng)用在檔案系統(tǒng)中,,要求實(shí)現(xiàn)快速文本處理和查詢響應(yīng),那么LLM可能還不如普通的檔案檢索系統(tǒng)快,,反而會(huì)降低檔案系統(tǒng)運(yùn)行效率,。而且檔案領(lǐng)域的業(yè)務(wù)場(chǎng)景相對(duì)單一,所需的應(yīng)該是“私人訂制”模式,,而不是通用型模型,。例如要對(duì)檔案中的文本進(jìn)行自動(dòng)分類或信息提取,那么一個(gè)專門為此任務(wù)設(shè)計(jì)的模型就會(huì)更適合,,可以考慮使用自然語(yǔ)言處理庫(kù),,如NLTK和Spacy來(lái)實(shí)現(xiàn)這些功能。

圖片

PART 04

 ? 

結(jié)語(yǔ)

 ? 

圖片

GPT-4或者“文心一言”這一類的LLM無(wú)法準(zhǔn)確回答出檔案領(lǐng)域“獨(dú)有”問(wèn)題的現(xiàn)象,,可以理解為是缺乏該領(lǐng)域足夠多的專業(yè)知識(shí)以及“經(jīng)驗(yàn)”,,只要喂給LLM模型足夠多的檔案知識(shí)數(shù)據(jù),并讓它自己學(xué)習(xí)訓(xùn)練,,也許在不遠(yuǎn)的將來(lái),,GPT-4可以成為專業(yè)的檔案咨詢。況且,,LLM也不該被“某單一領(lǐng)域內(nèi)的應(yīng)用”思維所束縛,,強(qiáng)大的通用AI應(yīng)用才是LLM研究的方向。

綜上所述,,筆者認(rèn)為,,為了能更好地實(shí)現(xiàn)AI 檔案應(yīng)用可以使用開(kāi)源框架,、自建數(shù)據(jù)庫(kù),、購(gòu)買算力的方式為檔案系統(tǒng)進(jìn)行AI功能定制,在選擇更為合適的數(shù)據(jù),、模型結(jié)構(gòu),、訓(xùn)練方法的情況下,只需要更小規(guī)模的模型,,使用一些輕量級(jí)的NLP技術(shù)來(lái)實(shí)現(xiàn)更好的應(yīng)用效果,。

最后,我們來(lái)問(wèn)一下ChatGPT對(duì)于“GPT-4,,文心一言之類的大語(yǔ)言模型適合檔案系統(tǒng)嗎,?”這一問(wèn)題的看法。

圖片

關(guān)于ChatGPT的上述回答是否合理留給讀者自己來(lái)評(píng)判,歡迎在留言區(qū)評(píng)論,。

圖片

數(shù)字羅塞塔計(jì)劃公眾號(hào)致力于作為中立的第三方客觀公正地表達(dá)自己對(duì)于檔案信息化領(lǐng)域的看法和觀點(diǎn),。真理越辯越明,我們也衷心歡迎越來(lái)越多的人投身到檔案數(shù)字資源管理和保存這一領(lǐng)域的研究中來(lái)并發(fā)表真知灼見(jiàn),,共同為人類文明的傳承而努力奮斗,!

圖片

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào),。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多