不知不覺(jué)變成了工作日記……確實(shí),宅在家里除了吃喝玩,,不就是工作(學(xué)習(xí)),。今天春節(jié)延期、開(kāi)工日延后,,鑒于14天的潛伏期,,至少要元宵后才能正常上班了。,。,。今天專門(mén)翻看了清華的《人工智能發(fā)展報(bào)告2019》中的信息檢索與推薦一章,整理了一些關(guān)鍵的知識(shí)點(diǎn),,分享給大家:R.Baeza-Yates 教授在《現(xiàn)代信息檢索中》中指出,,信息檢索主要研究如何為用戶訪問(wèn)他們感興趣的信息提供各種便利的手段,即:信息檢索涉及對(duì)文檔,、網(wǎng)頁(yè),、聯(lián)機(jī)目錄、結(jié)構(gòu)化和半結(jié)構(gòu)化記錄及多媒體對(duì)象等信息的表示,、存儲(chǔ),、組織和訪問(wèn),信息的表示和組織必須便于用戶訪問(wèn)他們感興趣的信息,。推薦系統(tǒng)是指信息過(guò)濾技術(shù),,從海量項(xiàng)目(項(xiàng)目是推薦系統(tǒng)所推薦內(nèi)容的統(tǒng)稱,包括商品,、新聞,、微博、音樂(lè)等產(chǎn)品及服務(wù))中找到用戶感興趣的部分并將其推薦給用戶,,這在用戶沒(méi)有明確需求或者項(xiàng)目數(shù)量過(guò)于巨大,、凌亂時(shí),,能很好地為用戶服務(wù),解決信息過(guò)載問(wèn)題。信息檢索應(yīng)用最廣泛的就是搜索引擎,,需要用戶主動(dòng)提供準(zhǔn)確的關(guān)鍵詞來(lái)尋找信息,。但是比如當(dāng)用戶無(wú)法找到準(zhǔn)確描述自己需求(興趣)的關(guān)鍵詞時(shí),,搜索引擎就無(wú)能為力了。而推薦系統(tǒng)則不需要用戶提供明確的需求,,它是通過(guò)分析用戶的歷史行為給用戶的需求(興趣)建模,,從而主動(dòng)推薦給用戶能夠滿足他們需求(興趣)的信息,。從某種意義上說(shuō),推薦系統(tǒng)和搜索引擎對(duì)于用戶來(lái)說(shuō)是兩個(gè)互補(bǔ)的工具,。搜索引擎通?;?Cranfield 評(píng)價(jià)體系,整體上是將優(yōu)質(zhì)結(jié)果盡可能排到搜索結(jié)果的最前面,,讓用戶以最少的點(diǎn)擊次數(shù),、最快的速找到內(nèi)容是評(píng)價(jià)的核心。而推薦系統(tǒng)的評(píng)價(jià)要寬泛很多,,既可以用諸如 MAP(Mean Average Precision)的常見(jiàn)量化方法評(píng)價(jià),,也可以從業(yè)務(wù)角度進(jìn)行側(cè)面評(píng)價(jià)。目前不管是搜索還是推薦,,都在往可解釋的方向發(fā)展,,具體體現(xiàn)為以下2個(gè)方面:將用戶、產(chǎn)品,、特征和觀點(diǎn)短語(yǔ)等映射到同一向量空間,,提取產(chǎn)品細(xì)粒度的個(gè)性化特征。利用結(jié)合知識(shí)庫(kù)的記憶網(wǎng)絡(luò)來(lái)增強(qiáng)推薦系統(tǒng)的特征捕獲能力與解釋性,。除了學(xué)習(xí),,我還為darksee.ai添加了400多個(gè)人工智能領(lǐng)域的tag。
分享一個(gè)段子
封城第四天了,,由于路面禁止機(jī)動(dòng)車行走,所以車更少了,。今天附近的超市也關(guān)門(mén)了…… 同樣,,今天抽空繼續(xù)完善了這個(gè)假期的第一個(gè)業(yè)余項(xiàng)目,我把Tags的數(shù)據(jù)設(shè)計(jì)得更為細(xì)致,,把上下位詞關(guān)系(借鑒語(yǔ)言學(xué))添加進(jìn)去了,,這樣,我們可以表達(dá)“知識(shí)點(diǎn)”之間的覆蓋范圍大小,,比如:上位詞的關(guān)系比較有用,,因?yàn)橐话阒挥?個(gè),下位詞就麻煩了,,有可能非常多,。所以,上位詞的關(guān)系是建議設(shè)置的,,下位詞可設(shè)可不設(shè)。 然后,,如何獲取可以作為T(mén)ags的知識(shí)點(diǎn)呢,?打算使用n-gram來(lái)從每天新增的內(nèi)容里面計(jì)算出來(lái),。
由于整個(gè)項(xiàng)目是nodejs的,所以這一塊打算使用nodejs來(lái)實(shí)現(xiàn),,n-gram有一個(gè)nodejs的包,,安裝可以直接:翻了下代碼,也沒(méi)幾行,,最關(guān)鍵的一句如下:
while (index--) { nGrams[index] = value.slice(index, index + n); }; 英偉達(dá)用RTX系列顯卡的光線追蹤技術(shù),修復(fù)了顆粒感滿滿的登月錄像……屏幕上的每個(gè)像素都是由實(shí)時(shí)光線追蹤進(jìn)入相機(jī)的路徑生成的…… 經(jīng)過(guò)n-gram之后,,然后統(tǒng)計(jì)詞頻:
可見(jiàn),,頻率越高的,越可能是知識(shí)點(diǎn)(光線追蹤) 但是有一個(gè)限制條件: 輸入文本越多,,計(jì)算結(jié)果越準(zhǔn)確可信,。 需要大量同類型的文本來(lái)計(jì)算。 今天還本來(lái)打算看下《囧媽》的,,斷斷續(xù)續(xù)看了不到10幾分鐘,,一會(huì)抽空繼續(xù)看。
全國(guó)各地都開(kāi)始加入防疫戰(zhàn)線了,,春節(jié)老老實(shí)實(shí)在家待著吧,,吃好睡好,然后可以開(kāi)始準(zhǔn)備遠(yuǎn)程工作了,。
今天我抽了點(diǎn)時(shí)間繼續(xù)研究keystoneJS,,發(fā)現(xiàn)Virtual這個(gè)fields,它可以干啥呢,? 顧名思義,,它是用來(lái)虛擬某字段的。此字段不會(huì)存儲(chǔ)在數(shù)據(jù)庫(kù)里,。
示例代碼: //可以通過(guò)resolver來(lái)組合其他字段的數(shù)據(jù),,形成virtual的字段數(shù)據(jù)。 keystone.createList('Example', { fields: { firstName: { type: Text }, lastName: { type: Text }, name: { type: Virtual, resolver: item => (`${item.firstName} ${item.lastName}`) }; }, }, });
//除此之外,,還可以請(qǐng)求api,,來(lái)達(dá)到其他數(shù)據(jù)處理的目的。 keystone.createList('Example', { fields: { movies: { type: Virtual, extendGraphQLTypes: [`type Movie { title: String, rating: Int }`], graphQLReturnType: `[Movie]`, graphQLReturnFragment: `{ title rating }`, resolver: async () => { const response = await fetch('http:///api/movies/'); const data = await response.json(); return data.map(({ title, rating }) => ({ title, rating })); }, }, }, }); 關(guān)鍵是可以在字段里發(fā)起請(qǐng)求,,利用此特性,,我新增了個(gè)List: 利用virtual里發(fā)起請(qǐng)求,可以知道api目前的運(yùn)行情況(是否正常),,實(shí)時(shí)獲取api的結(jié)果,。 跟Knowledge類似,我們可以給API打上各種tags。 今天大街上人流,、車流明顯更少,,過(guò)江隧道開(kāi)始封閉,周邊城市也陸續(xù)封城,。上海也對(duì)進(jìn)入人員進(jìn)行追蹤,、隔離。同樣是宅在家里,,哪里都沒(méi)去,,除了吃、玩之外,,我今天決定開(kāi)始工作,。調(diào)研了一下cms的開(kāi)源解決方案,cms:內(nèi)容管理系統(tǒng),,提供一個(gè)易于使用的adminUI(管理界面),,對(duì)內(nèi)容進(jìn)行增刪改查。除了UI之外,,提供了api,、有的還提供了更為好用的graphQL查詢方式。部分框架提供app的UI,,部分沒(méi)提供,。最后選定了keystoneJS,體驗(yàn)了下,,文檔齊全,,示例清晰,便于快速入門(mén)掌握,。嘗試建立了一個(gè)小項(xiàng)目除了內(nèi)容管理系統(tǒng)外,,我會(huì)陸續(xù)集成darksee.ai的功能。按照文檔指引,,我設(shè)置了3種List,,分別是Knowledge、Tag,、User,。 - Knowledge用來(lái)存儲(chǔ)內(nèi)容 - Tag表達(dá)知識(shí)點(diǎn)的關(guān)系 keystoneJS把graphQL的工具也提供了,非常方便,,我趁此快速入門(mén)了graphQL,。 這個(gè)小項(xiàng)目打算作為mixlab無(wú)界社區(qū)的一款知識(shí)內(nèi)容智能產(chǎn)品。為了更好地呈現(xiàn)知識(shí)之間的關(guān)系,,圖譜是必備的技術(shù),,但由于是人工智能垂直領(lǐng)域的,,所以暫時(shí)不需要圖數(shù)據(jù)庫(kù),只需要一些圖算法即可,。為了滿足源源不斷的知識(shí)內(nèi)容,、降低人力,需要接入搜索引擎來(lái)獲取每天的新內(nèi)容,。需要一個(gè)算法可以提取內(nèi)容里的知識(shí),并更新到圖譜里,。一步步來(lái),,此產(chǎn)品第一個(gè)版本就只有知識(shí)內(nèi)容,數(shù)據(jù)呈現(xiàn)沒(méi)有好看的UI,,只有json,。有開(kāi)源打算,召集設(shè)計(jì)師,、程序員一起玩~感興趣的社區(qū)小伙伴,,可私信跟我說(shuō)~ 來(lái)武漢之前,官方的消息稱只有十幾例確診,,而且連續(xù)好幾天沒(méi)有新增消息,。來(lái)了之后,情況就不一樣了…人生第一次遭遇封城,,接下來(lái)幾天做點(diǎn)記錄,。武漢封城第一天,天氣不好,,下著小雨,,街上沒(méi)什么人和車。快手捐了1億給武漢,,網(wǎng)易嚴(yán)選的口罩很便宜,,百度上了個(gè)發(fā)熱門(mén)診地圖,丁香醫(yī)生上了個(gè)疫情追蹤,。有人用所謂大數(shù)據(jù)分析了下武漢人口流動(dòng),,其實(shí)不用分析,武漢是全國(guó)的交通大樞紐,,輻射全國(guó)各地,。看到幾則消息,,大致意思是本地的醫(yī)院不收,,只能飛往老家求醫(yī),醫(yī)療資源肯定急缺,,人口本來(lái)就不少,。前幾天本地的一個(gè)社區(qū)還舉辦萬(wàn)人聚會(huì),,還有今天還辦了一個(gè)春節(jié)聯(lián)歡,都不知道這些人是怎么想的,?除了刷各種手機(jī)信息之外,,今天的日常主要是休息、看電視,、吃零食,、陪娃玩耍。
|