久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

十圖詳解TensorFlow數(shù)據(jù)讀取機制(附代碼)...

 昵稱16619343 2017-06-12

在學(xué)習(xí)TensorFlow的過程中,,有很多小伙伴反映讀取數(shù)據(jù)這一塊很難理解,。確實這一塊官方的教程比較簡略,網(wǎng)上也找不到什么合適的學(xué)習(xí)材料,。今天這篇文章就以圖片的形式,,用最簡單的語言,為大家詳細解釋一下TensorFlow的數(shù)據(jù)讀取機制,,文章的最后還會給出實戰(zhàn)代碼以供參考,。

TensorFlow讀取機制圖解

首先需要思考的一個問題是,,什么是數(shù)據(jù)讀取,?以圖像數(shù)據(jù)為例,,讀取數(shù)據(jù)的過程可以用下圖來表示:

假設(shè)我們的硬盤中有一個圖片數(shù)據(jù)集0001.jpg,0002.jpg,,0003.jpg……我們只需要把它們讀取到內(nèi)存中,,然后提供給GPU或是CPU進行計算就可以了。這聽起來很容易,,但事實遠沒有那么簡單,。事實上,我們必須要把數(shù)據(jù)先讀入后才能進行計算,,假設(shè)讀入用時0.1s,,計算用時0.9s,那么就意味著每過1s,,GPU都會有0.1s無事可做,,這就大大降低了運算的效率。

如何解決這個問題,?方法就是將讀入數(shù)據(jù)和計算分別放在兩個線程中,將數(shù)據(jù)讀入內(nèi)存的一個隊列,,如下圖所示:

讀取線程源源不斷地將文件系統(tǒng)中的圖片讀入到一個內(nèi)存的隊列中,,而負(fù)責(zé)計算的是另一個線程,計算需要數(shù)據(jù)時,,直接從內(nèi)存隊列中取就可以了,。這樣就可以解決GPU因為IO而空閑的問題!

而在TensorFlow中,,為了方便管理,,在內(nèi)存隊列前又添加了一層所謂的“文件名隊列”。

為什么要添加這一層文件名隊列,?我們首先得了解機器學(xué)習(xí)中的一個概念:epoch,。對于一個數(shù)據(jù)集來講,運行一個epoch就是將這個數(shù)據(jù)集中的圖片全部計算一遍,。如一個數(shù)據(jù)集中有三張圖片A.jpg,、B.jpg、C.jpg,,那么跑一個epoch就是指對A,、B、C三張圖片都計算了一遍,。兩個epoch就是指先對A,、B,、C各計算一遍,然后再全部計算一遍,,也就是說每張圖片都計算了兩遍,。

TensorFlow使用文件名隊列+內(nèi)存隊列雙隊列的形式讀入文件,可以很好地管理epoch,。下面我們用圖片的形式來說明這個機制的運行方式,。如下圖,還是以數(shù)據(jù)集A.jpg, B.jpg, C.jpg為例,,假定我們要跑一個epoch,,那么我們就在文件名隊列中把A、B,、C各放入一次,,并在之后標(biāo)注隊列結(jié)束。

程序運行后,,內(nèi)存隊列首先讀入A(此時A從文件名隊列中出隊):

再依次讀入B和C:

此時,,如果再嘗試讀入,系統(tǒng)由于檢測到了“結(jié)束”,,就會自動拋出一個異常(OutOfRange),。外部捕捉到這個異常后就可以結(jié)束程序了。這就是TensorFlow中讀取數(shù)據(jù)的基本機制,。如果我們要跑2個epoch而不是1個epoch,,那只要在文件名隊列中將A、B,、C依次放入兩次再標(biāo)記結(jié)束就可以了,。

TensorFlow讀取數(shù)據(jù)機制的對應(yīng)函數(shù)

如何在TensorFlow中創(chuàng)建上述的兩個隊列呢?

對于文件名隊列,,我們使用tf.train.string_input_producer函數(shù),。這個函數(shù)需要傳入一個文件名list,系統(tǒng)會自動將它轉(zhuǎn)為一個文件名隊列,。

此外tf.train.string_input_producer還有兩個重要的參數(shù),,一個是num_epochs,它就是我們上文中提到的epoch數(shù),。另外一個就是shuffle,,shuffle是指在一個epoch內(nèi)文件的順序是否被打亂。若設(shè)置shuffle=False,,如下圖,,每個epoch內(nèi),數(shù)據(jù)還是按照A,、B,、C的順序進入文件名隊列,,這個順序不會改變:

如果設(shè)置shuffle=True,那么在一個epoch內(nèi),,數(shù)據(jù)的前后順序就會被打亂,,如下圖所示:

在TensorFlow中,內(nèi)存隊列不需要我們自己建立,,我們只需要使用reader對象從文件名隊列中讀取數(shù)據(jù)就可以了,,具體實現(xiàn)可以參考下面的實戰(zhàn)代碼。

除了tf.train.string_input_producer外,,我們還要額外介紹一個函數(shù):tf.train.start_queue_runners,。初學(xué)者會經(jīng)常在代碼中看到這個函數(shù),但往往很難理解它的用處,,在這里,,有了上面的鋪墊后,我們就可以解釋這個函數(shù)的作用了,。

在我們使用tf.train.string_input_producer創(chuàng)建文件名隊列后,,整個系統(tǒng)其實還是處于“停滯狀態(tài)”的,也就是說,,我們文件名并沒有真正被加入到隊列中(如下圖所示),。此時如果我們開始計算,因為內(nèi)存隊列中什么也沒有,,計算單元就會一直等待,,導(dǎo)致整個系統(tǒng)被阻塞。

而使用tf.train.start_queue_runners之后,,才會啟動填充隊列的線程,這時系統(tǒng)就不再“停滯”,。此后計算單元就可以拿到數(shù)據(jù)并進行計算,,整個程序也就跑起來了,這就是函數(shù)tf.train.start_queue_runners的用處,。

實戰(zhàn)代碼

我們用一個具體的例子感受TensorFlow中的數(shù)據(jù)讀取,。如圖,假設(shè)我們在當(dāng)前文件夾中已經(jīng)有A.jpg,、B.jpg,、C.jpg三張圖片,我們希望讀取這三張圖片5個epoch并且把讀取的結(jié)果重新存到read文件夾中,。

對應(yīng)的代碼如下:

# 新建一個Session

with tf.Session as sess:

# 我們要讀三幅圖片A.jpg, B.jpg, C.jpg

filename = ['A.jpg', 'B.jpg', 'C.jpg']

# string_input_producer會產(chǎn)生一個文件名隊列

filename_queue = tf.train.string_input_producer(filename, shuffle=False, num_epochs=5)

# reader從文件名隊列中讀數(shù)據(jù),。對應(yīng)的方法是reader.read

reader = tf.WholeFileReader

key, value = reader.read(filename_queue)

# tf.train.string_input_producer定義了一個epoch變量,要對它進行初始化

tf.local_variables_initializer.run

# 使用start_queue_runners之后,,才會開始填充隊列

threads = tf.train.start_queue_runners(sess=sess)

i = 0

while True:

i += 1

# 獲取圖片數(shù)據(jù)并保存

image_data = sess.run(value)

with open('read/test_%d.jpg' % i, 'wb') as f:

f.write(image_data)

我們這里使用filename_queue = tf.train.string_input_producer(filename, shuffle=False, num_epochs=5)建立了一個會跑5個epoch的文件名隊列,。并使用reader讀取,,reader每次讀取一張圖片并保存。

運行代碼后,,我們得到就可以看到read文件夾中的圖片,,正好是按順序的5個epoch:

如果我們設(shè)置filename_queue = tf.train.string_input_producer(filename, shuffle=False, num_epochs=5)中的shuffle=True,那么在每個epoch內(nèi)圖像就會被打亂,,如圖所示:

我們這里只是用三張圖片舉例,,實際應(yīng)用中一個數(shù)據(jù)集肯定不止3張圖片,不過涉及到的原理都是共通的,。

總結(jié)

這篇文章主要用圖解的方式詳細介紹了TensorFlow讀取數(shù)據(jù)的機制,,最后還給出了對應(yīng)的實戰(zhàn)代碼,希望能夠給大家學(xué)習(xí)TensorFlow帶來一些實質(zhì)性的幫助,。

2017中國人工智能大會(CCAI 2017)由中國人工智能學(xué)會,、螞蟻金服主辦,CSDN承辦,,大會將于7月22日-23日在杭州隆重舉行,。

與大牛面對面,掃描下方二維碼即可報名:

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息,,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請點擊一鍵舉報,。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多