前面有提到說借助大語言模型將Fluent的用戶文檔和理論文檔給機翻了一遍(見Fluent理論文檔中文版V1及Fluent UserGuide中文版),。后臺有道友問使用了哪些大模型,。基于好東西不能藏私的指導思想,,這里就來逐個介紹一下,。 1 文檔本地化第一步工作是將文檔轉化為本地markdown格式。這里有兩種方式: - 數(shù)學公式非常多的文檔,。比如Theory Guide,里面有大量的數(shù)學公式需要轉化成latex格式,,一個個的識別肯定不太現(xiàn)實,。這里使用的是
Doc2x (官網地址:https://doc2x./),不過這貨現(xiàn)在收費了,,1000頁文檔需要11塊,。公式識別效果還不錯,不過對于文本格式(如加粗,、斜體等)的識別效果不佳,。非常適合于大量公式需要處理的文檔。如果不想花錢,,開源的話也可以選擇使用Marker(地址:https://github.com/VikParuchuri/marker),、MinerU(地址:https://github.com/opendatalab/MinerU)或pymupdf4llm(官網地址:https:///project/pymupdf4llm/)等。不過開源程序在應付復雜文檔時可能會效果不佳,。 - 文本格式比較多的文檔,。如User Guide。文檔中包含有大量的格式樣式(加粗,、斜體,、縮進、列表,、表格等),。這類文檔使用上面的工具效果都很差,。一般情況下可以打開網頁版,然后直接將頁面內容拷貝到markdown編輯器(如typora,、obsidian等)中,,可以完整保留原文格式。
2 文檔翻譯及潤色現(xiàn)階段我使用的是大語言模型進行翻譯,。主要是考慮專業(yè)術語翻譯和后期的文本潤色,。目前大語言模型對專業(yè)術語的識別效果還是挺不錯的,而且可以讀取整段文本進行翻譯,,這與傳統(tǒng)的逐句翻譯模式不同,。 目前主要使用的是國產大模型qwen2.5-72B 與deepseek 。其中qwen2.5-72B主要用于翻譯,,而deepseek則主要用于潤色,,總體上來看效果還是挺不錯的。使用過程中個人感覺就翻譯效果來說千問商業(yè)大模型(包括turbo,、pro和max版)實際效果遠不如其開源的72B版本,,而deepseek的中文表達能力個人覺得相當好,很符合本人的語言表達習慣,。 qwen2.5-72B與deepseek均使用的是硅基流動(地址:https:///zh-cn/)提供的api,。 為了方便,在使用過程中還用到了一個名為Cherry Studio (地址:https:///)的前端工具,,此工具支持定義智能體,,因此只需要將智能體定義后,后續(xù)就能夠將待翻譯的markdown文件扔進去自行翻譯和潤色了,。 3 文檔校對這個目前沒有那么好的工具,,只能靠人工了。
(完)
|