Solr4.2.0+IK Analyzer 2012

KILLKISS 2014-03-06

展開全文

開場白：

本章簡單講述如何在solr中配置著名的 IK Analyzer 分詞器,。

本章建立在 Solr學習(一) 基礎(chǔ)上進行配置,。

通過（一）的介紹，目前已經(jīng)成功部署好單實例 solr+tomcat

聲明：描述的比較籠統(tǒng)繁瑣,，有偏差的地方請大家毫不留情的拍磚

準備工作：

下載 “IK Analyzer 2012FF_hf1.zip”包,。詳見：IK Analyzer中文分詞器創(chuàng)始人林良益博客

名詞解釋：

IK源目錄：解壓縮“IK Analyzer 2012FF_hf1.zip”后得到的文件夾路徑。解壓縮后得到下圖結(jié)構(gòu)東東

IK三把刀：上圖被選中的3個文件（IKAnalyzer.cfg.xml,、IKAnalyzer2012FF_u1.jar,、stopword.dic）

Tomcat ：以下全部指 tomcat根目錄。（例：E:\\apache-tomcat-6.0.35\\）,。

開始生產(chǎn)

步驟1：將 IK三把刀”放入目錄“...\Tomcat\webapps\solr\WEB-INF\lib”中,，(注意！這里此時由于項目原來啟動過一次,，webapps下的“solr.war”包已經(jīng)被成功發(fā)布部署成文“solr”文件夾了,。所以這里是在solr文件內(nèi)打開 WEB-INF\lib目錄，不然WAR包是不允許放入文件到特定目錄）。

步驟2：開始設(shè)置IK分詞器在“schema.xml”文件中的配置（schema.xml目錄位置在 “...\Tomcat\solrapp\solr\collection1\conf”此處的 collection1 是默認的文件夾,，有些朋友在先前配置時候會去改變此文件夾名稱,，請注意自行匹配）;

打開schema.xml文件（盡量使用UE打開，防止亂碼）在<types></types>中增加如下內(nèi)容

Xml代碼

<span style="font-family: SimSun, 宋體, tahoma, arial, helvetica, sans-serif; font-size: 14px;"><fieldType name="text_ik" class="solr.TextField">
<analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
<analyzer type="query" isMaxWordLength="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
</fieldType></span>

這樣就OK了,。增加了用 IK分詞算法提供的字段類型,。（IK分詞算法的其他擴展配置請自行參考IK算法的配置說明文檔。在“IK三把刀”目錄里頭的PDF文件里有,。）

測試階段

可能一些朋友會想看看效果,，確認一下IK分詞器成功配置，接下來我們來嘗試測試一下IK分詞效果吧,。

（看到此處的朋友,，其實可以跳到看 schema.xml的具體字段說明文章去。大概了解一下schema.xml是干嘛用的,，不過不看也無妨,，我們只是為了證明IK配置成功。）

我們在 schema.xml 文件里頭,。找到如下代碼片段,。（schema.xml文件在哪里？看步驟2 ...）

Xml代碼

<field name="name" type="text_general" indexed="true" stored="true"/>

意思是這里有一個字段標示名字叫做name,類型text_general,，這個時候我們把類型改變成剛剛添加的IK類型text_ik; 變成：

Xml代碼

<field name="name" type="text_ik" indexed="true" stored="true"/>

瞎扯:我想看到這里一些朋友應(yīng)該就能明白schema.xml干嘛的吧,。Schema.xml 就像一張很大很大的描述索引樣子的表。里頭有很多字段field,，然后要定義字段的類型fieldType。在在field里頭引用fieldType（有點springIOC的味道 - -..）,。