大家都知道js頁面標(biāo)記方式因?yàn)槠涫褂渺`活性,,可獲取數(shù)據(jù)的豐富度和統(tǒng)計(jì)得到指標(biāo)的相對(duì)準(zhǔn)確性已經(jīng)成為目前最為常用的一種數(shù)據(jù)獲取方式,下面深圳市博納網(wǎng)絡(luò)信息技術(shù)有限公司(https://www.)講解網(wǎng)站的日志文件和js標(biāo)記所獲取的數(shù)據(jù)具備那些信息、記錄的方式有何不同,? 其實(shí)無論是那種數(shù)據(jù)獲取方式,,最終的輸出形式都是網(wǎng)站日志,只是原始日志輸出的是既定的記錄,,而js頁面標(biāo)記輸出的是執(zhí)行過js代碼經(jīng)過處理的圖片日志請(qǐng)求記錄,,而網(wǎng)站分析之后的指標(biāo)統(tǒng)計(jì)和計(jì)算基本都來源于這些日志中記錄的信息,所以網(wǎng)站的日志記錄是網(wǎng)站分析的最原始數(shù)據(jù)(RawData),。Apache日志的標(biāo)準(zhǔn)格式,。 從上圖可以看出一些統(tǒng)計(jì)中常用的信息字段,主要包括以下幾個(gè)信息: 訪問終端IP地址 即用戶訪問網(wǎng)站時(shí)所用設(shè)備的IP地址,,這里用了“訪問終端”,,因?yàn)橐苿?dòng)設(shè)備的興起使網(wǎng)站訪問不再局限于PC,手機(jī),、平板電腦等設(shè)備同樣可以瀏覽網(wǎng)站,,同樣也有相應(yīng)的IP地址。IP地址信息對(duì)于指標(biāo)統(tǒng)計(jì)非常重要,,在最初的時(shí)候IP地址被當(dāng)成識(shí)別訪問用戶的標(biāo)志,,即使當(dāng)前還有很多網(wǎng)站把訪問IP數(shù)作為一個(gè)重要指標(biāo)來衡量網(wǎng)站的熱門程度;同時(shí),,使用IP地址可以識(shí)別訪問終端所處的地域,,用于地域省份的維度細(xì)分。但由于代理,、VPN的使用和偽IP的存在,,使得IP的統(tǒng)計(jì)存在誤差。 訪問時(shí)間戳 訪問時(shí)間戳記錄了用戶訪問的時(shí)間點(diǎn)(其實(shí)是資源被請(qǐng)求的時(shí)間點(diǎn),,幾乎可以認(rèn)為是同時(shí)發(fā)起),是統(tǒng)計(jì)中必不可少的信息,。主要包括日期,、時(shí)間、時(shí)區(qū)等信息,可以精確到毫秒級(jí)別:時(shí)間戳記錄了動(dòng)作的時(shí)間點(diǎn),,是所有統(tǒng)計(jì)中時(shí)間維度的基礎(chǔ),,有了時(shí)間戳我們可以判斷用戶頁面瀏覽的先后順序,也可以根據(jù)時(shí)間做基于小時(shí)或天等粒度的統(tǒng)計(jì)匯總,。 訪問地址路徑 日志里面記錄的訪問地址一般是相對(duì)路徑,,也就是不包含HTTP+域名信息,由于服務(wù)器自身知道指向哪個(gè)域名,,所以只要有相對(duì)路徑就能準(zhǔn)確獲取請(qǐng)求的資源,,比如圖2-4中用戶的完整訪問的URL應(yīng)該是:http:///reference-and-source/weblog-format/,,其中http://被省略。所以訪問地址路徑其實(shí)定位了訪問的具體對(duì)象,,網(wǎng)站的頁面和內(nèi)容信息就是通過訪問地址來確定的,,因?yàn)閁RL唯一地標(biāo)識(shí)了網(wǎng)站的所有資源。 在JS標(biāo)記的日志中,,訪問的資源路徑是最關(guān)鍵也是信息含量最高的一個(gè)字段,,所有由JS代碼產(chǎn)生的附帶信息都會(huì)以參數(shù)的形式附帶在圖片URL請(qǐng)求的后面,如pic.gif?a=&b=&c=…通過之后的URL解析可以得到相應(yīng)參數(shù)a,、b,、c……的值,進(jìn)而獲取統(tǒng)計(jì)需要的信息,。 訪問來源訪 問來源對(duì)于網(wǎng)站分析而言同樣是非常重要的一個(gè)信息,,它直接關(guān)系流量的來源判定和優(yōu)化,如果是JS標(biāo)記,,來源頁信息一般會(huì)以參數(shù)形式帶到URL中,,但網(wǎng)站原始日志中就會(huì)記錄相應(yīng)頁面訪問的Referral信息。 瀏覽的訪問來源就是Google搜索關(guān)鍵詞“webdataanalysis”后的結(jié)果頁,。通過這個(gè)信息可以進(jìn)一步區(qū)分來源的類型(Source),,是搜索引擎如Google、Baidu,,還是外鏈網(wǎng)站,,或者是直接訪問(Direct),當(dāng)用戶直接訪問或者由于某些特殊原因Referral丟失時(shí),,日志中該字段會(huì)顯示“-”,。 UserAgent UA中附帶了用戶終端的一些信息,包括操作系統(tǒng)OS、瀏覽器Browser的信息,,有些“訪問者”為了表明自己的身份也可以將一些身份信息寫入U(xiǎn)A中,,如正規(guī)搜索引擎的爬蟲,所以UA信息用戶可以自己定制,,如果你詳細(xì)看過瀏覽器的設(shè)置選項(xiàng),,那么就會(huì)發(fā)現(xiàn)一般都有設(shè)置UA信息的地方。 UA被用于識(shí)別用戶的身份,,統(tǒng)計(jì)用戶所使用終端設(shè)備的產(chǎn)品和版本信息,,但由于UA可以自定義,統(tǒng)計(jì)的信息也可能因此存在偏差,。 |
|