本書(shū)一共5大部分,30個(gè)小節(jié),,我將用兩到三個(gè)月的時(shí)間和大家分享,,數(shù)據(jù)科學(xué)是一個(gè)巨大的領(lǐng)域,,我們不可能通過(guò)閱讀一本書(shū)來(lái)掌握它。這本書(shū)的目的是給我們一個(gè)堅(jiān)實(shí)的基礎(chǔ),。在一個(gè)典型的數(shù)據(jù)科學(xué)項(xiàng)目中所需要的工具模型是這樣的: 就是數(shù)據(jù)導(dǎo)入-數(shù)據(jù)整理-數(shù)據(jù)轉(zhuǎn)置-建立模型-數(shù)據(jù)可視化-交流的一個(gè)過(guò)程 安裝本書(shū)所需要的工具包和數(shù)據(jù)包install.packages('tidyverse') 第二章第三講數(shù)據(jù)可視化--- “The simple graph has brought more information to the data analyst’s mind than any other device.” — John Tukey 本書(shū)中數(shù)據(jù)可視化,,主要是基于ggplot2 首先給大家提供一個(gè)ggplot2繪圖公式: ggplot(data = DATA>) + 第一部分主要是存放數(shù)據(jù),第二部分才是幾何形狀映射,,大部分情況下,,可以省略掉前面的一些參數(shù),第二個(gè)必須輸入x,,y坐標(biāo),。 ggplot(data) + geom_function(aes(x= ,y= ,color= ,shape= ,alpha= )) 仔細(xì)觀察,這兩種寫(xiě)法的區(qū)別,,區(qū)別就是第一種寫(xiě)法如果顏色變量對(duì)應(yīng)的是分類變量的話,,每一類會(huì)有不同的顏色,,形狀等,,第二種方法則是進(jìn)行了全局變量設(shè)置,是對(duì)所有變量設(shè)置同樣的顏色等,。 分面就是數(shù)據(jù)按照某一個(gè)類別分別建立不同的畫(huà)布展示 用一個(gè)變量展示的話facet_wrap() 用兩個(gè)變量展示的話,,即兩種變量的組合facet_grid() 使用facet_grid()依舊可以實(shí)現(xiàn)單個(gè)變量分面繪圖,,只需要改動(dòng)一下,第一個(gè)參數(shù)換為點(diǎn)號(hào),,代表整個(gè)數(shù)據(jù)結(jié)構(gòu)ggplot(data = mpg) + 這就和下面使用facet_wrap,一樣了,只是其不含點(diǎn)號(hào)哦 ggplot(data = mpg) + 都會(huì)得到下面的結(jié)果圖今天先到這,,希望大家批評(píng)指正,明天繼續(xù),! |
|