久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

挖潛無極限—數(shù)據(jù)挖掘技術(shù)與應用熱點掃描

 wingate99 2008-05-20
挖潛無極限—數(shù)據(jù)挖掘技術(shù)與應用熱點掃描

新一篇: 基于WEB的數(shù)據(jù)挖掘綜述

轉(zhuǎn)自:http://bbs./blog/more.asp?name=topcio&id=16699

   “我們把世界看成數(shù)學,,并且把你也看成數(shù)學”——用這句話來說明數(shù)據(jù)挖掘技術(shù)的復合性和應用的廣泛性似乎再好不過。如今,,雖然一些行業(yè)在應用這一技術(shù)上仍然缺乏足夠的主動,,但一個不能阻擋的趨勢是:已經(jīng)有越來越多的人在快樂并有效地使用這一技術(shù),同時不由自主地成為“挖掘”的對象,。

         禽流感該如何更好地監(jiān)控,?今天你寫B(tài)log了嗎?

         你是否覺得這兩個問題連在一起問很無厘頭,?

         事實上,,美國一家公司正在試圖讓這兩個事件之間的關(guān)系日漸明了。
這家公司目前正在通過從全球的Blog網(wǎng)頁中挖掘出和禽流感相關(guān)的信息,,從而建立一個預警機制,。這一項目考慮到Blog已經(jīng)成為新聞傳播的重要途徑,先從網(wǎng)上抓取有關(guān)禽流感的網(wǎng)頁,存入到公司的數(shù)據(jù)倉庫,,再指定“國家”為關(guān)鍵目標詞,,然后利用關(guān)聯(lián)分析技術(shù),即可得到和禽流感關(guān)聯(lián)最大的國家,,由此可以判定該國的禽流感傳染可能比較嚴重,。

         就在此前,已經(jīng)有很多人在抱怨,,網(wǎng)上多如牛毛的Blog除了浪費人們數(shù)以十萬年的閱讀時間之外,,還有多少用處?如今,,數(shù)據(jù)挖掘技術(shù)正在力圖從這些爆炸式增長的Blog中“挖”出更有價值的東西,,同時它也在更多領(lǐng)域中展示其非凡的力量。

工具篇:前方是岔路口

         數(shù)據(jù)挖掘其實并非單純的IT技術(shù),,而是數(shù)學家和計算機科學家之間的合作產(chǎn)物,。在過去十年中,高等數(shù)學和計算機建模的聯(lián)姻改變了科學和工程技術(shù),,以至于有人認為這一合作已經(jīng)開創(chuàng)了一個全新的商業(yè)領(lǐng)域,。

         有關(guān)數(shù)據(jù)挖掘技術(shù)的定義有很多版本,綜其要點,,主要在于應用一系列統(tǒng)計與人工智能技術(shù)來發(fā)現(xiàn)以前并不了解的數(shù)據(jù)規(guī)律,,并解決實際業(yè)務問題。如今,,數(shù)據(jù)挖掘技術(shù)已經(jīng)從最開始的一個簡單的算法包,,發(fā)展出通用挖掘平臺和專業(yè)挖掘工具兩大種類。其中,,像IBM,、NCR、SAS,、微軟,、SPSS、StatSoft等廠商的數(shù)據(jù)挖掘產(chǎn)品(模塊)基本都是通用型工具平臺,;而像美國的 Unica 公司,、Fair Isaac 則主要專注于諸如營銷自動化、信用卡積分等細分領(lǐng)域,,屬于后一種工具,。具體來看,目前在數(shù)據(jù)挖掘領(lǐng)域聲勢頗大的大多是通用型工具平臺,。

         “現(xiàn)在IBM更側(cè)重的是平臺優(yōu)勢,。”在采訪中,,IBM軟件部中國區(qū)DB2信息管理技術(shù)經(jīng)理劉晶煒明確表示。目前,,IBM的DB2中包含Intelligent Miner for Data和Intelligent Miner for Text兩個數(shù)據(jù)挖掘模塊,,將數(shù)據(jù)挖掘和數(shù)據(jù)倉庫整合到一個平臺之上。其中,,前者主要針對結(jié)構(gòu)化信息,,分為建模、瀏覽,、Scoring Service三個部分,;后者則是針對文本的挖掘模塊,其主要功能是特征抽取,、文檔聚集,、文檔分類和檢索,。

         NCR Teradata的數(shù)據(jù)挖掘工具同樣也是與其數(shù)據(jù)倉庫整合在一起的,。具體來說,其數(shù)據(jù)挖掘工具可以按照挖掘的步驟主要分成Profiler,、ADS Generator,、Warehouse Miner和模型管理器四塊。目前Teradata最新版的數(shù)據(jù)挖掘方案是Teradata Warehouse Miner 4.1,。

         SAS 公司和SPSS公司作為兩家從傳統(tǒng)的統(tǒng)計分析技術(shù)發(fā)展而來的數(shù)據(jù)挖掘廠商,,二者在業(yè)內(nèi)的影響力可謂有目共睹。其中,,SAS 公司提供了SAS Enterprise Miner ,、SAS ETS(時間序列預測)、SAS OR(運籌學),、SAS STAT(統(tǒng)計分析),、SAS QC(質(zhì)量控制)等一系列工具;SPSS公司也提供了Clementine和AnswerTree兩項產(chǎn)品,。

         微軟的SQL Server 2005在數(shù)據(jù)挖掘方面的突破與創(chuàng)新曾被人看作是最令人驚艷的地方,。Microsoft SQL Server 2005 Data Mining 平臺的確引入了大量的數(shù)據(jù)挖掘功能,其本身就是一個開發(fā)智能應用程序的平臺,,而非一個獨立應用程序,。而且,這一平臺與所有 SQL Server 產(chǎn)品實現(xiàn)了集成,,包括 SQL Server,、SQL Server Integration Services 和 Analysis Services。據(jù)稱,,SQL Server 2005 中最重要的數(shù)據(jù)挖掘功能就是其處理大型數(shù)據(jù)集的能力,,它允許模型對整個數(shù)據(jù)集運行,從而消除了采樣方面的挑戰(zhàn)。

         總起來看,,像IBM,、NCR、Oracle,、微軟這些平臺工具廠商基本上都是以提供“整車”為己任,。一句話,只要用戶不是很挑剔,,基本上都可以在某一家那里即可買全包括數(shù)據(jù)挖掘工具在內(nèi)的全套商業(yè)智能產(chǎn)品,。而像SAS、SPSS,、StatSoft等公司雖然也宣稱提供工具平臺,,但提供“整車”的實力有限,其主要在統(tǒng)計分析和數(shù)據(jù)挖掘領(lǐng)域延伸提供盡可能多的工具組件,。

         相對于這些挖掘工具平臺,,專業(yè)挖掘工具可能在市場的聲勢并不大,但是像Fair Isaac 公司,、Unica 公司的發(fā)展卻也相當不錯,。比如像Fair Isaac 公司就已經(jīng)占據(jù)了全球信用卡積分市場70%~80%的份額,幾乎達到壟斷,。該公司的創(chuàng)始人發(fā)明了一個信用評分卡(即費寇分數(shù),,F(xiàn)ICO score),由此可以預測人的未來償付行為,,為信用卡消費提供一個有效的預測工具,。同樣,美國 Unica 公司的 Affinium Model 則是一款專注于市場營銷自動化的數(shù)據(jù)挖掘工具軟件,。

         那么,,面對這兩種工具,用戶該如何選擇,?換句話講,,哪種工具才是未來的發(fā)展方向呢?

         中國傳媒大學調(diào)查統(tǒng)計研究所副所長,、數(shù)據(jù)挖掘研究室主任沈浩認為,,平臺化肯定是將來的一個發(fā)展方向,而且,,中國的市場足夠廣闊,,也可以容得下一批這樣的平臺廠商。IBM軟件部中國區(qū)DB2信息管理技術(shù)經(jīng)理劉晶煒也表示,,正與SAS進行更多的合作,,以便進一步統(tǒng)一數(shù)據(jù)挖掘領(lǐng)域的技術(shù)標準,。

         而Teradata數(shù)據(jù)倉庫專家盛秋戩博士則認為,目前的平臺工具雖多,,但從根本上講,,都是在用橫向的數(shù)據(jù)挖掘工具解決縱向的行業(yè)業(yè)務問題。他表示,,如果從用戶出發(fā),,用戶應該更歡迎那些專業(yè)挖掘工具。

         北京瑞斯泰得數(shù)據(jù)技術(shù)開發(fā)公司蘇立民總經(jīng)理從事數(shù)據(jù)挖掘行業(yè)已有六年之久,,他在采訪中表示,,現(xiàn)在數(shù)據(jù)挖掘領(lǐng)域的確存在平臺化趨勢,但專業(yè)工具也占領(lǐng)了一些市場,。比如Unica 公司就是選出并優(yōu)化某些算法,,再加上行業(yè)經(jīng)驗,使建模過程更加優(yōu)化,。

         另據(jù)Sybase商務智能總監(jiān)廖鋼城介紹,,其實在日本,就有公司專門銷售一種類似“黑匣子”的專業(yè)工具,,銀行積累的數(shù)據(jù)在里面跑一遍,,就直接出來結(jié)果,。這種工具用得也很好,。而在另一方面,他也認為,,提供平臺的廠商會越來越少,。

         如此看來,業(yè)界對于工具的發(fā)展方向似乎并無太大異議,,即平臺工具會保持在一個適當?shù)臄?shù)量,,而專業(yè)工具顯然更得用戶的寵愛。而現(xiàn)在,,數(shù)據(jù)挖掘技術(shù)的發(fā)展剛好走到一個岔路口,一邊指向通用型,一邊指向?qū)I(yè)型,,就看企業(yè)要往哪個方向走了,。

ddd


技術(shù)篇:算法與模型
 
機關(guān)可曾“算”盡?

         之所以說數(shù)據(jù)挖掘是高等數(shù)學和計算機科學聯(lián)姻的產(chǎn)物,,其中一大原因就在于,,對各種算法的支持程度是衡量數(shù)據(jù)挖掘工具的一大標準。

         在前期采訪中,,筆者曾設想通過對比各種數(shù)據(jù)挖掘工具對算法的支持程度來分出高低,。但在采訪之后,,筆者發(fā)現(xiàn)這一對比實無必要,因為目前的算法技術(shù)已經(jīng)相當成熟,,而主流工具也基本上都提供了對主流算法的支持,。

         從算法上看,業(yè)界公認主要有決策樹,、分類,、聚類、回歸,、關(guān)聯(lián)分析等幾大主流算法,。對于這些算法,IBM,、NCR,、Oracle等主流工具基本上都已經(jīng)支持,而像微軟的Microsoft SQL Server 2005 Data Mining ,,它作為一個開發(fā)智能應用程序的平臺,,可以允許第三方添加自定義算法以支持特定的挖掘需求。

         在支持的算法種類和數(shù)量上,,SAS,、SPSS等傳統(tǒng)的統(tǒng)計分析廠商要比IBM、NCR,、微軟,、Oracle 等廠商更多一些。比如SAS Enterprise Miner就提供了決策樹,、神經(jīng)網(wǎng)絡,、自動神經(jīng)網(wǎng)絡、基于記憶的推理(MBR),、線性和對數(shù)回歸,、聚類、關(guān)聯(lián)分析等很多算法,。SPSS公司在其AnswerTree工具中就提供了CHAID,、Exhaustive CHAID、Classification & Regression Tree,、Quest等四種計算法則,。

         在采訪中,無論廠商還是業(yè)內(nèi)專家大都認為,,目前的算法技術(shù)已臻成熟,。北京瑞斯泰得數(shù)據(jù)技術(shù)開發(fā)公司蘇立民總經(jīng)理就表示,近年來統(tǒng)計學領(lǐng)域新出現(xiàn)的算法很有限,,大多是對舊算法的完善,。而對于現(xiàn)存的算法而言,,除了一些獨有的算法之外,主流算法都可以互相拷貝,,并不存在太高的技術(shù)壁壘,。(下轉(zhuǎn)42版)(上接41版)或許正是因為作為數(shù)據(jù)挖掘技術(shù)基石的算法技術(shù)已經(jīng)比較成熟,這也造成廠商開始紛紛在其他領(lǐng)域開拓新的技術(shù)亮點,。比如NCR Teradata就認為,,除了算法指標,體系架構(gòu)也非常重要,。相對于算法上的難分伯仲,, NCR更強調(diào)通過其“庫內(nèi)挖掘”的優(yōu)勢來解決數(shù)據(jù)量、效率和質(zhì)量的難題,。此外,,蘇立民總經(jīng)理認為,在算法成熟之后,,更重要的工作就是在數(shù)據(jù)準備階段,。而商智通公司咨詢總監(jiān)匡宏波則認為,雖然算法的速度業(yè)已越來越快,,但更關(guān)鍵的是怎么用,。無疑,這些都是需要業(yè)界跳出單純的算法技術(shù)并及早關(guān)注的重點,。

從模型看未來

         美國《商業(yè)周刊》在今年的一篇文章中指出,,人類將數(shù)學建模應用于現(xiàn)實生活與工作肯定將是21世紀最偉大的事件之一。事實上,,建構(gòu)模型也正是數(shù)據(jù)挖掘技術(shù)的重要內(nèi)容,,正是通過建模,,數(shù)據(jù)挖掘工具才可以準確地告訴用戶那些隱藏在數(shù)據(jù)庫深處的重要信息,,同時又對未來做出預測的。

         那么,,何為建模,?簡單來講,就是綜合運用數(shù)學思想方法和IT技術(shù)建立一個適合當前問題的模型,,用以解釋之前發(fā)生的事情并預測未來發(fā)生的事情,。

         “算法是刀,建模是刀法,,而模型就是用刀切出來的東西,。”蘇立民如此形容算法、建模和模型三者之間的關(guān)系,。簡單來講,,如果算法是“y=a+bx”,,那么模型就是“y=5+3x”。區(qū)別就在于已經(jīng)帶入了常變量,。目前,,業(yè)界探討較多的技術(shù)內(nèi)容主要有自動建模和模型轉(zhuǎn)換兩點。

         其一,,自動建模,。

         自動建模是考查數(shù)據(jù)挖掘工具是否能夠自我優(yōu)化,從而方便一般用戶使用的重要功能指標,。在這項功能的幫助下,,用戶無須深刻了解算法的優(yōu)缺點,即可利用其靈活的參數(shù)設置及其幫助,,從而增強建模的效率,。

         目前,諸多主流工具都在自動建模方面有著較好表現(xiàn),。比如NCR就尤其強調(diào)其模型的并行性,。據(jù)盛秋戩博士介紹, NCR的并行處理優(yōu)勢在于:比如用兩臺服務器(集群)來作挖掘,,可能需要1分鐘的反應時間,;而如果再加兩臺服務器,則只需要半分鐘的反應時間,。當然,,這一優(yōu)勢要基于NCR自身的硬件設備。

         SAS Enterprise Miner(EM)的自動建模主要體現(xiàn)在自導向(SEMMA)數(shù)據(jù)挖掘進程上,。SEMMA為執(zhí)行數(shù)據(jù)挖掘的核心任務提供了一個靈活的框架,,這些任務包括五個主要的步驟,亦即采樣(S),,探索(E),,修改(M),建模(M)和評估(A),。此外,,專業(yè)工具廠商美國 Unica 公司的 Affinium Model 的最大優(yōu)點也是體現(xiàn)在最大限度地將數(shù)學建模過程自動化 ,使得那些數(shù)學基礎不好的業(yè)務人員可以方便地使用這個工具,。

         需要注意的是,,雖然自動建模被人們寄予厚望,但是還遠未達到讓用戶手到擒來的地步,。之所以這樣說,,一方面是因為工具本身的技術(shù)實現(xiàn)不夠,蘇立民就認為,,在這方面,,專業(yè)型工具做得要比通用型工具相對較好,;另一方面,自動化本身并不能取代一切,。中國傳媒大學調(diào)查統(tǒng)計研究所副所長,、數(shù)據(jù)挖掘研究室主任沈浩也解釋說,做好自動建模,,同樣需要對業(yè)務有深刻的了解,,才能選擇更好的變量。比如在知道一批女孩的身高,、體重數(shù)據(jù)之后,,要分析出女孩的漂亮程度,那么,,選定“身高除以體重”來分析無疑還是要靠腦子想出來的,。

         其二,模型轉(zhuǎn)換,。

         數(shù)據(jù)挖掘工具的多樣性造成模型種類也很多,,這種情況下,不同工具生成的模型是否能夠共享或轉(zhuǎn)換就成為一大難題,。目前,,業(yè)界正通過對預測模型標記語言(Predictive Model Markup Language ,PMML)的應用來解決這一問題,。這一語言在1997年7月由DMG(Data Mining Group)發(fā)布,,它利用XML描述和存儲數(shù)據(jù)挖掘模型,已是一種被W3C組織接受的標準?,F(xiàn)在來看,,IBM、SAS和SPSS等廠商已經(jīng)在使用PMML標準導入數(shù)據(jù)挖掘模型,,但也有些廠商仍未采用此種標準,,而從標準本身看,對數(shù)據(jù)仍然具有一定的依賴性,,還未真正實現(xiàn)模型與數(shù)據(jù)的分離,。

 
熱點篇:文本挖掘與網(wǎng)絡挖掘

         算法和建模作為數(shù)據(jù)挖掘工具的核心技術(shù),從它誕生之日起就在得到不斷完善,,而在最近兩年,也有一些新的技術(shù)和應用熱點開始引起人們的關(guān)注,,比如文本挖掘,、網(wǎng)絡挖掘和可視化挖掘就是其中比較重要的三種。
“文本挖掘是個太恐怖的事情,。”中國傳媒大學調(diào)查統(tǒng)計研究所副所長,、數(shù)據(jù)挖掘研究室主任沈浩如此形容文本挖掘的威力,。

dd         文本挖掘(Text mining),顧名思義,,就是從非結(jié)構(gòu)化的文本中發(fā)現(xiàn)潛在的概念以及概念間的相互關(guān)系,。在這項技術(shù)中,最關(guān)鍵的是分詞技術(shù),,建立詞典,。只有讓計算機依據(jù)詞典完成正確斷詞之后,才可以實現(xiàn)將非結(jié)構(gòu)化信息轉(zhuǎn)化為結(jié)構(gòu)化信息,,然后就可以進一步研究文本之間的關(guān)系,。比如本文開頭提到的通過分析Blog網(wǎng)頁來建立禽流感預警機制的例子,其實既利用了文本挖掘技術(shù),,也是一個網(wǎng)絡挖掘案例,。

         到目前為止,像IBM,、微軟等主流挖掘工具以及google和SNS網(wǎng)站都已經(jīng)在使用文本挖掘技術(shù),。但遺憾的是,目前這些工具大多只支持英文,,還不支持中文挖掘,。

         如果說文本挖掘是一項技術(shù)熱點的話,那么網(wǎng)絡挖掘可以稱得上是數(shù)據(jù)挖掘領(lǐng)域中的一大應用熱點了,。

         具體來講,,網(wǎng)絡挖掘還可以細分為三種挖掘,一是前文提到的文本挖掘,,二是結(jié)構(gòu)挖掘(Structure mining),,主要解決網(wǎng)頁與網(wǎng)頁之間的鏈接關(guān)系,三是點擊挖掘(Hit mining),,是針對點擊率的挖掘分析,。總體而言,,要實現(xiàn)網(wǎng)絡挖掘,,從技術(shù)上講并沒有難度,大部分的問題都可以用成熟方法來解決,。

         在采訪中,,無論廠商、集成商還是學界都肯定了網(wǎng)絡挖掘的美好發(fā)展前景,。“我個人比較看好網(wǎng)絡挖掘,。”盛秋戩博士這樣說。他認為,網(wǎng)絡挖掘是施展數(shù)據(jù)挖掘技術(shù)很好的舞臺,,同時也會給挖掘工具廠商帶來不少商機,。沈浩同樣也認為,當電子商務發(fā)展起來之后,,網(wǎng)絡挖掘肯定大有可為,。

         但是業(yè)內(nèi)人士也指出,網(wǎng)絡挖掘目前尚存在一些瓶頸,。

         首先,,一個關(guān)鍵問題是電子商務的評估指標(e-Metrics)還沒有形成一個完整的體系。所謂指標體系就要設定幾個維度來衡量電子商務網(wǎng)站生意的好壞,。目前,,有些電子商務網(wǎng)站已經(jīng)開始定義像潛在顧客率(reach)、招攬時間(Acquisition),、潛在顧客轉(zhuǎn)化率(Conversion)等一些評估指標,,美國的一些技術(shù)會議也已經(jīng)開始做一些整合工作,但是要形成體系還需要一段時間,。

         其次,,缺錢。在采訪中,,商智通公司咨詢總監(jiān)匡宏波表示,,曾經(jīng)有一家醫(yī)藥類電子商務網(wǎng)站主動找上門,提出要求想知道平臺的某類藥品(比如盤尼西林)主要銷往哪里,。但盛秋戩博士也指出,,就電子商務領(lǐng)域的總體而言,除了像亞馬遜,、eBay等一些國外大型電子商務網(wǎng)站開始自己買工具進行挖掘之外,,國內(nèi)少數(shù)注意到數(shù)據(jù)挖掘技術(shù)的網(wǎng)站大多是自己開發(fā)做此類工作,舍得掏錢的人還不多,。

         在文本挖掘和網(wǎng)絡挖掘之外,,可視化挖掘(Visual Data Mining)因為和工具的易用性聯(lián)系在一起,因而也頗為重要,。

         簡單來講,,可視化包括了數(shù)據(jù)預處理和結(jié)果呈現(xiàn)兩個方面。比如StatSoft一直強調(diào)的完整的圖表工具庫以及高質(zhì)量的圖表呈現(xiàn)效果就是其優(yōu)勢所在,。但是總體情況來看,,可視化的內(nèi)含和標準近幾年一直沒有更新的內(nèi)容,而且,,即便工具廠商自認為做得再“可視化”,,對于用戶來說,,仍有難以理解和掌握的地方,。

         蘇立民介紹說,,雖然現(xiàn)在挖掘結(jié)果的呈現(xiàn)已經(jīng)相當易用,但是他接觸到的一些用戶依然會抱怨說,,每回總是打印出那么多表格到底有什么用,?其中的問題就在于:工具的易用性是一回事,有沒有既懂業(yè)務又懂技術(shù)的人來用卻是另一回事,。

dddddd


應用篇:瓜熟蒂不落,?

         在采訪中,筆者發(fā)現(xiàn),,無論廠商,、集成商還是學術(shù)界,基本上都認同一個觀點,,即:數(shù)據(jù)挖掘在技術(shù)上已經(jīng)趨于成熟,,現(xiàn)在更重要的就是如何拓展行業(yè)應用。 IBM軟件部中國區(qū)DB2信息管理技術(shù)經(jīng)理劉晶煒表示說,,數(shù)據(jù)挖掘技術(shù)已經(jīng)到了一個普及化的階段,,現(xiàn)在關(guān)鍵是要讓數(shù)據(jù)挖掘從神壇上走下來。商智通公司咨詢總監(jiān)匡宏波也表示,,現(xiàn)在數(shù)據(jù)挖掘領(lǐng)域的問題都不是技術(shù)問題,,也不是工具問題,而是應用問題,。那么,,現(xiàn)在,數(shù)據(jù)挖掘工具在國內(nèi)的實際應用處于什么階段呢,? 

         從行業(yè)應用來看,,目前大多數(shù)的用戶都來自電信、銀行,、保險,、稅務等領(lǐng)域,比如南京地稅,、四川移動兩個案例就做得相當成功,,應用主題則主要包含:消費者行為分析、信用評分與風險管理,、欺詐行為偵測,、購物籃分析等方面。綜合國內(nèi)外的發(fā)展趨勢,,可以看到的是,,大型連鎖商店和高科技制造產(chǎn)業(yè)也將成為應用數(shù)據(jù)挖掘技術(shù)的重要領(lǐng)域,。前者的記賬質(zhì)量之好為業(yè)內(nèi)公認,一旦開始數(shù)據(jù)挖掘方面的應用則前景不可限量,;而在后一個領(lǐng)域,,國外已經(jīng)開始陸續(xù)導入數(shù)據(jù)挖掘技術(shù),類似做法相信會很快為國內(nèi)制造業(yè)大廠所借鑒,。

         從應用層次上看,,大體可以分為三個層次,第一層次是把挖掘工具當作單獨的工具來用,,偶爾用一下出具一個報告,,不用專門建設系統(tǒng);第二層次則是把數(shù)據(jù)挖掘模塊嵌入到系統(tǒng)中,,稱為部門級應用,;第三層次是企業(yè)級應用,相當于把挖掘系統(tǒng)作為整個企業(yè)運營的CPU,。目前,,國內(nèi)的數(shù)據(jù)挖掘應用是本來數(shù)量就比較少,即便是做了的,,也有很多只是處于第一層次,,偶爾某些用戶能夠做到第二層次。

         如此一來,,問題出現(xiàn)了:既然數(shù)據(jù)挖掘技術(shù)已經(jīng)趨于成熟,,為什么在應用上卻遲遲跟不上呢?筆者在采訪了幾家主流廠商和集成商以及業(yè)內(nèi)專家后發(fā)現(xiàn),,問題主要集中在以下幾個方面,。

         其一,工具易用性強,,那么是否用戶就會運用呢,?答案是否定的。

         現(xiàn)在很多廠家都在強調(diào)工具的易用性,,但是卻忽視了一個問題,,即工具易用性強和用戶會運用完全是兩碼事。Sybase商務智能總監(jiān)廖鋼城表示,,這兩者的關(guān)系,,就像用Word寫文章一樣,即便輸入法,、界面等再友好,,但是和使用者能否寫出流暢的文章并無關(guān)系。

         “用戶總是想像使用傻瓜相機一樣使用挖掘工具,,事實上這是不可能的,。”盛秋戩博士表示說,。據(jù)他介紹,目前很多號稱已經(jīng)做完的項目,,其實大部分工作仍然還都是由廠商代替客戶操作使用,。

         其二,復合型人才一將難求,。

         要成功完成一次數(shù)據(jù)挖掘過程,,用戶首先要熟悉業(yè)務,,其次還要對算法和模型熟悉,。兩者不可偏廢,才能知道拿來的數(shù)據(jù)代表什么,,算出來的結(jié)果又代表了什么,。然而,從目前電信,、金融行業(yè)的人才結(jié)構(gòu)來看,,如今主導建設數(shù)據(jù)挖掘系統(tǒng)的大都是工科出身,不但業(yè)務不熟悉,,即便是對于數(shù)學領(lǐng)域中的統(tǒng)計學也都過于生疏,。客觀地講,,這種復合型人才的缺乏也在很大程度上造成了目前數(shù)據(jù)挖掘市場還不夠成熟,。

         那么,如何解決這個問題,?答案似乎很簡單,,沒有,那就只有培養(yǎng)了,。比如現(xiàn)在一些電信用戶就在日常培訓之外,,還高薪聘請一些乙方(數(shù)據(jù)倉庫解決方案供應商)的咨詢師和顧問,專職負責自己的數(shù)據(jù)倉庫和挖掘項目,,試圖由此培養(yǎng)一批既懂業(yè)務又懂技術(shù)的專業(yè)人才,。當然,一開始說的是培養(yǎng),,最后實在忙不過來,,用戶挖廠商墻角的事也不是沒有。

         問題是,,同樣是培養(yǎng)人才,,那到底是讓業(yè)務人員學技術(shù)好呢,還是讓技術(shù)人員學業(yè)務好呢,?蘇立民和廖鋼城都表示,,更贊成是業(yè)務人員去學習技術(shù),。因為業(yè)務人員是為了應用而學習,可以實現(xiàn)很好的結(jié)合,。目前,,像中國人民大學已經(jīng)開始招收有計算機專業(yè)背景的統(tǒng)計博士,而中國傳媒大學的數(shù)據(jù)研發(fā)中心也是文理兼收,,可以想見,,未來三四年內(nèi),人才缺乏的問題將逐步得到緩解,。

         其三,,轉(zhuǎn)變意識。與國外長期的精細化管理相比,,國內(nèi)用戶有些時候還不太習慣迅速走向精細化,。沈浩就表示,國內(nèi)零售企業(yè)的記賬是最好的,,也是被認為最值得做數(shù)據(jù)挖掘的行業(yè),,但迄今為止還沒有哪家開始做,原因就在于沒有這方面的意識,。


編看編想:從一錘子買賣到沿途下蛋

         生意人都知道,,一錘子的買賣做不得。但筆者卻發(fā)現(xiàn),,在數(shù)據(jù)挖掘領(lǐng)域里,,敲一錘子換個地方的現(xiàn)象卻似乎并不鮮見。為什么非要這樣做呢,?原因是心里太著急,。很多廠商總認為,自己懷里揣著的是好產(chǎn)品,,面前的中國又是一個大市場,。如此一想,就感覺不趕快搶下幾個大單簡直就沒天理了,。

         于是,,搞售前的著急讓用戶簽單,拿到錢后又著急從用戶那里撤退,。結(jié)果如何呢,?還真像那句俏皮話說的:有困難要上,沒有困難創(chuàng)造困難也要上,?;罨畎岩恍┖唵螁栴}復雜化。有些買完工具的用戶其實需求都沒想明白,,何談成功運用,;而那些能在忽悠中挺過來的用戶索性就不再理這個茬,。

         廠商著急,其實有些用戶也著急,。廠商著急賣產(chǎn)品,,而用戶卻在著急讓花大價錢買來的產(chǎn)品早日上線出效益。這種想法雖然也有問題,,但是可以理解,。你想,誰不擔心幾十萬的資金打了水漂兒,,誰又不想讓領(lǐng)導說這幾十萬花得值,、花得好呢?

         那么,,如何才能做到既能保證項目按周期實施,、又不讓用戶心急火燎地難受呢?上海證券交易所信息網(wǎng)絡有限公司董事長趙小平提出了一個“沿途下蛋”的理論,。簡單講,就是不要到最后才給用戶下一個大金蛋,,很可能這個大金蛋還沒下來,,用戶就已經(jīng)下了逐客令。正確的辦法就是不斷出成果,,這樣用戶才會安心等待并且積極配合,。無疑,從“一錘子的買賣”到“沿途下蛋”這條路上還需要廠商和用戶慢慢琢磨,。

    本站是提供個人知識管理的網(wǎng)絡存儲空間,,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點,。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導購買等信息,謹防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多