【原】Fluent文檔翻譯中使用的工具

析模界 2024-11-22 發(fā)布于四川

展開全文

前面有提到說借助大語言模型將Fluent的用戶文檔和理論文檔給機翻了一遍（見Fluent理論文檔中文版V1及Fluent UserGuide中文版）,。后臺有道友問使用了哪些大模型,。基于好東西不能藏私的指導思想,，這里就來逐個介紹一下,。

1 文檔本地化

第一步工作是將文檔轉化為本地markdown格式。這里有兩種方式：

數(shù)學公式非常多的文檔,。比如Theory Guide，里面有大量的數(shù)學公式需要轉化成latex格式,，一個個的識別肯定不太現(xiàn)實,。這里使用的是Doc2x(官網地址：https://doc2x./)，不過這貨現(xiàn)在收費了,，1000頁文檔需要11塊,。公式識別效果還不錯，不過對于文本格式（如加粗,、斜體等）的識別效果不佳,。非常適合于大量公式需要處理的文檔。如果不想花錢,，開源的話也可以選擇使用Marker（地址：https://github.com/VikParuchuri/marker）,、MinerU（地址：https://github.com/opendatalab/MinerU）或pymupdf4llm（官網地址：https:///project/pymupdf4llm/）等。不過開源程序在應付復雜文檔時可能會效果不佳,。
文本格式比較多的文檔,。如User Guide。文檔中包含有大量的格式樣式（加粗,、斜體,、縮進、列表,、表格等）,。這類文檔使用上面的工具效果都很差,。一般情況下可以打開網頁版，然后直接將頁面內容拷貝到markdown編輯器（如typora,、obsidian等）中,，可以完整保留原文格式。

2 文檔翻譯及潤色

現(xiàn)階段我使用的是大語言模型進行翻譯,。主要是考慮專業(yè)術語翻譯和后期的文本潤色,。目前大語言模型對專業(yè)術語的識別效果還是挺不錯的，而且可以讀取整段文本進行翻譯,，這與傳統(tǒng)的逐句翻譯模式不同,。

目前主要使用的是國產大模型qwen2.5-72B與deepseek。其中qwen2.5-72B主要用于翻譯,，而deepseek則主要用于潤色,，總體上來看效果還是挺不錯的。使用過程中個人感覺就翻譯效果來說千問商業(yè)大模型（包括turbo,、pro和max版）實際效果遠不如其開源的72B版本,，而deepseek的中文表達能力個人覺得相當好，很符合本人的語言表達習慣,。

qwen2.5-72B與deepseek均使用的是硅基流動（地址：https:///zh-cn/）提供的api,。

為了方便，在使用過程中還用到了一個名為Cherry Studio（地址：https:///）的前端工具,，此工具支持定義智能體,，因此只需要將智能體定義后，后續(xù)就能夠將待翻譯的markdown文件扔進去自行翻譯和潤色了,。