開場白: 本章簡單講述如何在solr中配置著名的 IK Analyzer 分詞器,。 本章建立在 Solr學習(一) 基礎(chǔ)上進行配置,。 通過(一)的介紹,目前已經(jīng)成功部署好單實例 solr+tomcat
聲明:描述的比較籠統(tǒng)繁瑣,,有偏差的地方請大家毫不留情的拍磚
準備工作: 下載 “IK Analyzer 2012FF_hf1.zip”包,。 詳見:IK Analyzer中文分詞器創(chuàng)始人 林良益 博客
名詞解釋: IK源目錄:解壓縮“IK Analyzer 2012FF_hf1.zip”后得到的文件夾路徑。解壓縮后得到下圖結(jié)構(gòu)東東 IK三把刀:上圖被選中的3個文件(IKAnalyzer.cfg.xml,、IKAnalyzer2012FF_u1.jar,、stopword.dic) Tomcat :以下全部指 tomcat根目錄。(例:E:\\apache-tomcat-6.0.35\\),。
開始生產(chǎn)
步驟1:將 IK三把刀”放入目錄“...\Tomcat\webapps\solr\WEB-INF\lib”中,,(注意!這里此時由于項目原來啟動過一次,,webapps下的“solr.war”包已經(jīng)被成功發(fā)布部署成文“solr”文件夾了,。所以這里是在solr文件內(nèi)打開 WEB-INF\lib目錄, 不然WAR包是不允許放入文件到特定目錄)。
步驟2:開始設(shè)置IK分詞器在“schema.xml”文件中的配置(schema.xml目錄位置在 “...\Tomcat\solrapp\solr\collection1\conf”此處的 collection1 是默認的文件夾,,有些朋友在先前配置時候會去改變此文件夾名稱,,請注意自行匹配); 打開schema.xml文件(盡量使用UE打開,防止亂碼)在<types></types>中增加如下內(nèi)容
Xml代碼
這樣就OK了,。 增加了用 IK分詞算法提供的字段類型,。 (IK分詞算法的其他擴展配置請自行參考IK算法的配置說明文檔。在“IK三把刀”目錄里頭的PDF文件里有,。)
測試階段
可能一些朋友會想看看效果,,確認一下IK分詞器成功配置,接下來我們來嘗試測試一下IK分詞效果吧,。 (看到此處的朋友,,其實可以跳到看 schema.xml的具體字段說明文章去。 大概了解一下schema.xml是干嘛用的,,不過不看也無妨,,我們只是為了證明IK配置成功。)
我們在 schema.xml 文件里頭,。找到如下代碼片段,。(schema.xml文件在哪里?看步驟2 ...) Xml代碼
意思是這里有一個字段標示名字叫做name,類型text_general,,這個時候我們把類型改變成剛剛添加的IK類型text_ik; 變成:
Xml代碼
瞎扯:我想看到這里一些朋友應(yīng)該就能明白schema.xml干嘛的吧,。Schema.xml 就像一張很大很大的描述索引樣子的表。里頭有很多字段field,,然后要定義字段的類型fieldType。在在field里頭引用fieldType(有點springIOC的味道 - -..),。
啟動tomcat .. 進入solr界面 http://localhost:8080/solr
新手可能對solr的界面還不熟悉,。我這里截圖說明下。 選擇core (這里沒有默認配置,。要去選一個),;我們這里選 collection1
然后再選擇 analysis
選擇剛剛我們針對配置的 name 字段,。 然后輸入要分詞的詞語 “魔獸世界” ,點按鈕 “analyse values”; 會發(fā)現(xiàn)出現(xiàn)了分詞為 “魔獸”“世界”
這里分詞的多樣化根據(jù)分詞器來設(shè)定,。。 個人喜歡使用IK Analyzer分詞器,;而且配置SOLR比較方便,。 |
|