久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

Fluent文檔翻譯中使用的工具

 析模界 2024-11-22 發(fā)布于四川

前面有提到說借助大語言模型將Fluent的用戶文檔和理論文檔給機翻了一遍(見Fluent理論文檔中文版V1Fluent UserGuide中文版),。后臺有道友問使用了哪些大模型,。基于好東西不能藏私的指導思想,,這里就來逐個介紹一下,。

1 文檔本地化

第一步工作是將文檔轉化為本地markdown格式。這里有兩種方式:

  1. 數(shù)學公式非常多的文檔,。比如Theory Guide,里面有大量的數(shù)學公式需要轉化成latex格式,,一個個的識別肯定不太現(xiàn)實,。這里使用的是Doc2x(官網地址:https://doc2x./),不過這貨現(xiàn)在收費了,,1000頁文檔需要11塊,。公式識別效果還不錯,不過對于文本格式(如加粗,、斜體等)的識別效果不佳,。非常適合于大量公式需要處理的文檔。如果不想花錢,,開源的話也可以選擇使用Marker(地址:https://github.com/VikParuchuri/marker),、MinerU(地址:https://github.com/opendatalab/MinerU)或pymupdf4llm(官網地址:https:///project/pymupdf4llm/)等。不過開源程序在應付復雜文檔時可能會效果不佳,。
  2. 文本格式比較多的文檔,。如User Guide。文檔中包含有大量的格式樣式(加粗,、斜體,、縮進、列表,、表格等),。這類文檔使用上面的工具效果都很差,。一般情況下可以打開網頁版,然后直接將頁面內容拷貝到markdown編輯器(如typora,、obsidian等)中,,可以完整保留原文格式。

2 文檔翻譯及潤色

現(xiàn)階段我使用的是大語言模型進行翻譯,。主要是考慮專業(yè)術語翻譯和后期的文本潤色,。目前大語言模型對專業(yè)術語的識別效果還是挺不錯的,而且可以讀取整段文本進行翻譯,,這與傳統(tǒng)的逐句翻譯模式不同,。

目前主要使用的是國產大模型qwen2.5-72Bdeepseek。其中qwen2.5-72B主要用于翻譯,,而deepseek則主要用于潤色,,總體上來看效果還是挺不錯的。使用過程中個人感覺就翻譯效果來說千問商業(yè)大模型(包括turbo,、pro和max版)實際效果遠不如其開源的72B版本,,而deepseek的中文表達能力個人覺得相當好,很符合本人的語言表達習慣,。

qwen2.5-72B與deepseek均使用的是硅基流動(地址:https:///zh-cn/)提供的api,。

為了方便,在使用過程中還用到了一個名為Cherry Studio(地址:https:///)的前端工具,,此工具支持定義智能體,,因此只需要將智能體定義后,后續(xù)就能夠將待翻譯的markdown文件扔進去自行翻譯和潤色了,。

Cherry Studio工作界面

3 文檔校對

這個目前沒有那么好的工具,,只能靠人工了。


(完)

    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多