自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

在iOS平臺上使用TensorFlow教程(上)

移動開發(fā) iOS
在利用深度學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行預(yù)測性分析之前,我們首先需要對其加以訓(xùn)練。目前市面上存在著大量能夠用于神經(jīng)網(wǎng)絡(luò)訓(xùn)練的工具,但TensorFlow無疑是其中極為重要的首選方案之一。

在利用深度學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行預(yù)測性分析之前,我們首先需要對其加以訓(xùn)練。目前市面上存在著大量能夠用于神經(jīng)網(wǎng)絡(luò)訓(xùn)練的工具,但TensorFlow無疑是其中極為重要的首選方案之一。 

 

 

TensorFlow 

大家可以利用TensorFlow訓(xùn)練自己的機器學(xué)習(xí)模型,并利用這些模型完成預(yù)測性分析。訓(xùn)練通常由一臺極為強大的設(shè)備或者云端資源完成,但您可能想象不到的是,TensorFlow亦可以在iOS之上順利起效——只是存在一定局限性。

在今天的博文中,我們將共同了解TensorFlow背后的設(shè)計思路、如何利用其訓(xùn)練一套簡單的分類器,以及如何將上述成果引入您的iOS應(yīng)用。

在本示例中,我們將使用“根據(jù)語音與對話分析判斷性別”數(shù)據(jù)集以了解如何根據(jù)音頻記錄判斷語音為男聲抑或女聲。數(shù)據(jù)集地址: https://www.kaggle.com/primaryobjects/voicegender

獲取相關(guān)代碼:大家可以通過GitHub上的對應(yīng)項目獲取本示例的源代碼:https://github.com/hollance/TensorFlow-iOS-Example

TensorFlow是什么,我們?yōu)楹涡枰右允褂?

TensorFlow是一套用于構(gòu)建計算性圖形,從而實現(xiàn)機器學(xué)習(xí)的軟件資源庫。

其它一些工具往往作用于更高級別的抽象層級。以Caffe為例,大家需要將不同類型的“層”進(jìn)行彼此互連,從而設(shè)計出一套神經(jīng)網(wǎng)絡(luò)。而iOS平臺上的BNNS與MPSCNN亦可實現(xiàn)類似的功能。

在TensorFlow當(dāng)中,大家亦可處理這些層,但具體處理深度將更為深入——甚至直達(dá)您算法中的各項計算流程。

大家可以將TensorFlow視為一套用于實現(xiàn)新型機器學(xué)習(xí)算法的工具集,而其它深度學(xué)習(xí)工具則用于幫助用戶使用這些算法。

當(dāng)然,這并不是說用戶需要在TensorFlow當(dāng)中從零開始構(gòu)建一切。TensorFlow擁有一整套可復(fù)用的構(gòu)建組件,同時囊括了Keras等負(fù)責(zé)為TensorFlow用戶提供大量便捷模塊的資源庫。

因此TensorFlow在使用當(dāng)中并不強制要求大家精通相關(guān)數(shù)學(xué)專業(yè)知識,當(dāng)然如果各位愿意自行構(gòu)建,TensorFlow也能夠提供相應(yīng)的工具。

利用邏輯回歸實現(xiàn)二元分類

在今天的博文當(dāng)中,我們將利用邏輯回歸(logistic regression)算法創(chuàng)建一套分類器。沒錯,我們將從零開始進(jìn)行構(gòu)建,因此請大家做好準(zhǔn)備——這可是項有點復(fù)雜的任務(wù)。所謂分類器,其基本工作原理是獲取輸入數(shù)據(jù),而后告知用戶該數(shù)據(jù)所歸屬的類別——或者種類。在本項目當(dāng)中,我們只設(shè)定兩個種類:男聲與女聲——也就是說,我們需要構(gòu)建的是一套二元分類器(binary classifier)。

備注:二元分類器屬于最簡單的一種分類器,但其基本概念與設(shè)計思路同用于區(qū)分成百上千種不同類別的分類器完全一致。因此,盡管我們在本份教程中不會太過深入,但相信大家仍然能夠從中一窺分類器設(shè)計的門徑。

在輸入數(shù)據(jù)方面,我們將使用包含20個數(shù)字朗讀語音、囊括多種聲學(xué)特性的給定錄音。我將在后文中對此進(jìn)行詳盡解釋,包括音頻頻率及其它相關(guān)信息。

在以下示意圖當(dāng)中,大家可以看到這20個數(shù)字全部接入一個名為sum的小框。這些連接擁有不同的weights(權(quán)重),對于分類器而言代表著這20個數(shù)字各自不同的重要程度。

以下框圖展示了這套邏輯分類器的起效原理: 

 

 

分類器的起效原理 

在sum框當(dāng)中,輸入數(shù)據(jù)區(qū)間為x0到x19,且其對應(yīng)連接的權(quán)重w0到w19進(jìn)行直接相加。以下為一項常見的點積:

  1. sum = x[0]*w[0] + x[1]*w[1] + x[2]*w[2] + ... + x[19]*w[19] + b 

我們還在所謂bias(偏離)項的末尾加上了b。其僅僅代表另一個數(shù)字。

數(shù)組w中的權(quán)重與值b代表著此分類器所學(xué)習(xí)到的經(jīng)驗。對該分類器進(jìn)行訓(xùn)練的過程,實際上是為了幫助其找到與w及b正確匹配的數(shù)字。最初,我們將首先將全部w與b設(shè)置為0。在數(shù)輪訓(xùn)練之后,w與b則將包含一組數(shù)字,分類器將利用這些數(shù)字將輸入語音中的男聲與女聲區(qū)分開來。為了能夠?qū)um轉(zhuǎn)化為一條概率值——其取值在0與1之間——我們在這里使用logistic sigmoid函數(shù):

  1. y_pred = 1 / (1 + exp(-sum)) 

這條方程式看起來很可怕,但做法卻非常簡單:如果sum是一個較大正數(shù),則sigmoid函數(shù)返回1或者概率為100%; 如果sum是一個較大負(fù)數(shù),則sigmoid函數(shù)返回0。因此對于較大的正或者負(fù)數(shù),我們即可得出較為肯定的“是”或者“否”預(yù)測結(jié)論。

然而,如果sum趨近于0,則sigmoid函數(shù)會給出一個接近于50%的概率,因為其無法確定預(yù)測結(jié)果。當(dāng)我們最初對分類器進(jìn)行訓(xùn)練時,其初始預(yù)期結(jié)果會因分類器本身訓(xùn)練尚不充分而顯示為50%,即對判斷結(jié)果并無信心。但隨著訓(xùn)練工作的深入,其給出的概率開始更趨近于1及0,即分類器對于結(jié)果更為肯定。

現(xiàn)在y_pred中包含的預(yù)測結(jié)果顯示,該語音為男聲的可能性更高。如果其概率高于0.5(或者50%),則我們認(rèn)為語音為男聲; 相反則為女聲。

這即是我們這套利用邏輯回歸實現(xiàn)的二元分類器的基本設(shè)計原理。輸入至該分類器的數(shù)據(jù)為一段對20個數(shù)字進(jìn)行朗讀的音頻記錄,我們會計算出一條權(quán)重sum并應(yīng)用sigmoid函數(shù),而我們獲得的輸出概率指示朗讀者應(yīng)為男性。

然而,我們?nèi)匀恍枰⒂糜谟?xùn)練該分類器的機制,而這時就需要請出今天的主角——TensorFlow了。在TensorFlow中實現(xiàn)此分類器要在TensorFlow當(dāng)中使用此分類器,我們需要首先將其設(shè)計轉(zhuǎn)化為一套計算圖(computational graph)。一項計算圖由多個負(fù)責(zé)執(zhí)行計算的節(jié)點組成,且輸入數(shù)據(jù)會在各節(jié)點之間往來流通。

我們這套邏輯回歸算法的計算圖如下所示: 

 

回歸算法的計算圖 

看起來與之前給出的示意圖存在一定區(qū)別,但這主要是由于此處的輸入內(nèi)容x不再是20個獨立的數(shù)字,而是一個包含有20個元素的向量。在這里,權(quán)重由矩陣W表示。因此,之前得出的點積也在這里被替換成了一項矩陣乘法。

另外,本示意圖中還包含一項輸入內(nèi)容y。其用于對分類器進(jìn)行訓(xùn)練并驗證其運行效果。我們在這里使用的數(shù)據(jù)集為一套包含3168條example語音記錄的集合,其中每條示例記錄皆被明確標(biāo)記為男聲或女聲。這些已知男聲或女聲結(jié)果亦被稱為該數(shù)據(jù)集的label(標(biāo)簽),并作為我們交付至y的輸入內(nèi)容。

為了訓(xùn)練我們的分類器,這里需要將一條示例加載至x當(dāng)中并允許該計算圖進(jìn)行預(yù)測:即語音到底為男聲抑或是女聲?由于初始權(quán)重值全部為0,因此該分類器很可能給出錯誤的預(yù)測。我們需要一種方法以計算其錯誤的“具體程度”,而這一目標(biāo)需要通過loss函數(shù)實現(xiàn)。Loss函數(shù)會將預(yù)測結(jié)果y_pred與正確輸出結(jié)果y進(jìn)行比較。

在將loss函數(shù)提供給訓(xùn)練示例后,我們利用一項被稱為backpropagation(反向傳播)的技術(shù)通過該計算圖進(jìn)行回溯,旨在根據(jù)正確方向?qū)與b的權(quán)重進(jìn)行小幅調(diào)整。如果預(yù)測結(jié)果為男聲但實際結(jié)果為女聲,則權(quán)重值即會稍微進(jìn)行上調(diào)或者下調(diào),從而在下一次面對同樣的輸入內(nèi)容時增加將其判斷為“女聲”的概率。

這一訓(xùn)練規(guī)程會利用該數(shù)據(jù)集中的全部示例進(jìn)行不斷重復(fù)再重復(fù),直到計算圖本身已經(jīng)獲得了最優(yōu)權(quán)重集合。而負(fù)責(zé)衡量預(yù)測結(jié)果錯誤程度的loss函數(shù)則因此隨時間推移而變低。

反向傳播在計算圖的訓(xùn)練當(dāng)中扮演著極為重要的角色,但我們還需要加入一點數(shù)學(xué)手段讓結(jié)果更為準(zhǔn)確。而這也正是TensorFlow的專長所在:我們只要將全部“前進(jìn)”操作表達(dá)為計算圖當(dāng)中的節(jié)點,其即可自動意識到“后退”操作代表的是反向傳播——我們完全無需親自進(jìn)行任何數(shù)學(xué)運算。太棒了!

Tensorflow到底是什么?

在以上計算圖當(dāng)中,數(shù)據(jù)流向為從左至右,即代表由輸入到輸出。而這正是TensorFlow中“流(flow)”的由來。不過Tensor又是什么?

Tensor一詞本義為張量,而此計算圖中全部數(shù)據(jù)流皆以張量形式存在。所謂張量,其實際代表的就是一個n維數(shù)組。我曾經(jīng)提到W是一項權(quán)重矩陣,但從TensorFlow的角度來看,其實際上屬于一項二階張量——換言之,一個二組數(shù)組。

  • 一個標(biāo)量代表一個零階張量。
  • 一個向量代表一個一階張量。
  • 一個矩陣代表一個二階張量。
  • 一個三維數(shù)組代表一個三階張量。

之后以此類推……

這就是Tensor的全部含義。在卷積神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)方案當(dāng)中,大家會需要與四維張量打交道。但本示例中提到的邏輯分類器要更為簡單,因此我們在這里最多只涉及到二階張量——即矩陣。

我之前還提到過,x代表一個向量——或者說一個一階張量——但接下來我們同樣將其視為一個矩陣。y亦采用這樣的處理方式。如此一來,我們即可將數(shù)據(jù)庫組視為整體對其loss進(jìn)行計算。

一條簡單的示例(example)語音內(nèi)包含20個數(shù)據(jù)元素。如果大家將全部3168條示例加載至x當(dāng)中,則x會成為一個3168 x 20的矩陣。再將x與W相乘,則得出的結(jié)果y_pred為一個3168 x 1的矩陣。具體來講,y_pred代表的是為數(shù)據(jù)集中的每條語音示例提供一項預(yù)測結(jié)論。

通過將我們的計算圖以矩陣/張量的形式進(jìn)行表達(dá),我們可以一次性對多個示例進(jìn)行預(yù)測。

安裝TensorFlow

好的,以上是本次教程的理論基礎(chǔ),接下來進(jìn)入實際操作階段。

我們將通過Python使用TensorFlow。大家的Mac設(shè)備可能已經(jīng)安裝有某一Python版本,但其版本可能較為陳舊。在本教程中,我使用的是Python 3.6,因此大家最好也能安裝同一版本。

安裝Python 3.6非常簡單,大家只需要使用Homebrew軟件包管理器即可。如果大家還沒有安裝homebrew,請點擊此處參閱相關(guān)指南。

接下來打開終端并輸入以下命令,以安裝Python的最新版本:

  1. brew install python3 

Python也擁有自己的軟件包管理器,即pip,我們將利用它安裝我們所需要的其它軟件包。在終端中輸入以下命令:

  1. pip3 install numpy 
  2.  
  3. pip3 install scipy 
  4.  
  5. pip3 install scikit-learn 
  6.  
  7. pip3 install pandas 
  8.  
  9. pip3 install tensorflow  

除了TensorFlow之外,我們還需要安裝NumPy、SciPy、pandas以及scikit-learn:

NumPy是一套用于同n級數(shù)組協(xié)作的庫。聽起來耳熟嗎?NumPy并非將其稱為張量,但之前提到了數(shù)組本身就是一種張量。TensorFlow Python API就建立在NumPy基礎(chǔ)之上。

SciPy是一套用于數(shù)值計算的庫。其它一些軟件包的起效需要以之為基礎(chǔ)。

pandas負(fù)責(zé)數(shù)據(jù)集的加載與清理工作。

scikit-learn在某種意義上可以算作TensorFlow的競爭對手,因為其同樣是一套用于機器學(xué)習(xí)的庫。我們之所以在本項目中加以使用,是因為它具備多項便利的功能。由于TensorFlow與scikit-learn皆使用NumPy數(shù)組,因為二者能夠順暢實現(xiàn)協(xié)作。

實際上,大家無需pandas與scikit-learn也能夠使用TensorFlow,但二者確實能夠提供便捷功能,而且每一位數(shù)據(jù)科學(xué)家也都樂于加以使用。

如大家所知,這些軟件包將被安裝在/usr/local/lib/python3.6/site-packages當(dāng)中。如果大家需要查看部分未被公布在其官方網(wǎng)站當(dāng)中的TensorFlow源代碼,則可以在這里找到。

備注:pip應(yīng)會為您的系統(tǒng)自動安裝TensorFlow的最佳版本。如果大家希望安裝其它版本,則請點擊此處參閱官方安全指南。另外,大家也可以利用源代碼自行構(gòu)建TensorFlow,這一點我們稍后會在面向iOS構(gòu)建TensorFlow部分中進(jìn)行說明。

下面我們進(jìn)行一項快速測試,旨在確保一切要素都已經(jīng)安裝就緒。利用以下內(nèi)容創(chuàng)建一個新的tryit.py文件:

  1. import tensorflow as tf  
  2.  a = tf.constant([1, 2, 3])  
  3. b = tf.constant([4, 5, 6])  
  4. sess = tf.Session(config=tf.ConfigProto(log_device_placement=True))   
  5. print(sess.run(a + b))  

而后通過終端運行這套腳本:

  1. python3 tryit.py 

其會顯示一些與TensorFlow運行所在設(shè)備相關(guān)的調(diào)試信息(大多為CPU信息,但如果您所使用的Mac設(shè)備配備有英偉達(dá)GPU,亦可能提供GPU信息)。最終結(jié)果顯示為:

  1. [5 7 9] 

這里代表的是兩個向量a與b的加和。另外,大家可能還會看到以下信息:

  1. W tensorflow/core/platform/cpu_feature_guard.cc:45] The TensorFlow library wasn't compiled to use SSE4.1 instructions, but these are available on your machine and could speed up CPU computations. 

如果出現(xiàn)上述內(nèi)容,則代表您在系統(tǒng)當(dāng)中安裝的TensorFlow并非當(dāng)前CPU的最優(yōu)適配版本。修復(fù)方法之一是利用源代碼自行構(gòu)建TensorFlow,因為這允許大家對全部選項加以配置。但在本示例當(dāng)中,由于其不會造成什么影響,因此直接忽略即可。深入觀察訓(xùn)練數(shù)據(jù)集

要訓(xùn)練分類器,我們自然需要數(shù)據(jù)。

在本項目當(dāng)中,我們使用來自Kory Becker的“根據(jù)語音判斷性別”數(shù)據(jù)集。為了能夠讓這份教程能夠與TensorFlow指南上的MNIST數(shù)字化識別有所不同,這里我決定在Kaggle.com上尋找數(shù)據(jù)集,并最終選定了這一套。

那么我們到底該如何立足音頻實現(xiàn)性別判斷?下載該數(shù)據(jù)集并打開voice.csv文件之后,大家會看到其中包含著一排排數(shù)字: 

 

 

voice.csv文件 

我們首先需要強調(diào)這一點,這里列出的并非實際音頻數(shù)據(jù)!相反,這些數(shù)字代表著語音記錄當(dāng)中的不同聲學(xué)特征。這些屬性或者特征由一套腳本自音頻記錄中提取得出,并被轉(zhuǎn)化為這個CSV文件。具體提取方式并不屬于本篇文章希望討論的范疇,但如果大家感興趣,則可點擊此處查閱其原始R源代碼。

這套數(shù)據(jù)集中包含3168項示例(每項示例在以上表格中作為一行),且基本半數(shù)為男聲錄制、半數(shù)為女聲錄制。每一項示例中存在20項聲學(xué)特征,例如:

  • 以kHz為單位的平均頻率
  • 頻率的標(biāo)準(zhǔn)差
  • 頻譜平坦度
  • 頻譜熵
  • 峰度
  • 聲學(xué)信號中測得的最大基頻
  • 調(diào)制指數(shù)
  • 等等……

別擔(dān)心,雖然我們并不了解其中大多數(shù)條目的實際意義,但這不會影響到本次教程。我們真正需要 關(guān)心的是如何利用這些數(shù)據(jù)訓(xùn)練自己的分類器,從而立足于上述特征確保其有能力區(qū)分男性與女性的語音。

如果大家希望在一款應(yīng)用程序當(dāng)中使用此分類器,從而通過錄音或者來自麥克風(fēng)的音頻信息檢測語音性別,則首先需要從此類音頻數(shù)據(jù)中提取聲學(xué)特征。在擁有了這20個數(shù)字之后,大家即可對其分類器加以訓(xùn)練,并利用其判斷語音內(nèi)容為男聲還是女聲。

因此,我們的分類器并不會直接處理音頻記錄,而是處理從記錄中提取到的聲學(xué)特征。

備注:我們可以以此為起點了解深度學(xué)習(xí)與邏輯回歸等傳統(tǒng)算法之間的差異。我們所訓(xùn)練的分類器無法學(xué)習(xí)非常復(fù)雜的內(nèi)容,大家需要在預(yù)處理階段提取更多數(shù)據(jù)特征對其進(jìn)行幫助。在本示例的特定數(shù)據(jù)集當(dāng)中,我們只需要考慮提取音頻記錄中的音頻數(shù)據(jù)。

深度學(xué)習(xí)最酷的能力在于,大家完全可以訓(xùn)練一套神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)如何自行提取這些聲學(xué)特征。如此一來,大家不必進(jìn)行任何預(yù)處理即可利用深度學(xué)習(xí)系統(tǒng)采取原始音頻作為輸入內(nèi)容,并從中提取任何其認(rèn)為重要的聲學(xué)特征,而后加以分類。

這當(dāng)然也是一種有趣的深度學(xué)習(xí)探索方向,但并不屬于我們今天討論的范疇,因此也許日后我們將另開一篇文章單獨介紹。

建立一套訓(xùn)練集與測試集

在前文當(dāng)中,我提到過我們需要以如下步驟對分類器進(jìn)行訓(xùn)練:

  • 向其交付來自數(shù)據(jù)集的全部示例。
  • 衡量預(yù)測結(jié)果的錯誤程度。
  • 根據(jù)loss調(diào)整權(quán)重。

事實證明,我們不應(yīng)利用全部數(shù)據(jù)進(jìn)行訓(xùn)練。我們只需要其中的特定一部分?jǐn)?shù)據(jù)——即測試集——從而評估分類器的實際工作效果。因此,我們將把整體數(shù)據(jù)集拆分為兩大部分:訓(xùn)練集,用于對分類器進(jìn)行訓(xùn)練; 測試集,用于了解該分類器的預(yù)測準(zhǔn)確度。

為了將數(shù)據(jù)拆分為訓(xùn)練集與測試集,我創(chuàng)建了一套名為split_data.py的Python腳本,其內(nèi)容如下所示:

  1. import numpy as np               # 1  
  2. import pandas as pd  df = pd.read_csv("voice.csv", header=0)        #2   
  3. labels = (df["label"] == "male").values * 1    # 3  
  4. labels = labels.reshape(-1, 1)                 # 4   
  5. del df["label"]                  # 5  
  6. data = df.values   
  7.  
  8. # 6  
  9. from sklearn.model_selection import train_test_split X_train,  
  10. X_test, y_train, y_test = train_test_split(data, labels,                                          test_size=0.3, random_state=123456)  
  11. np.save("X_train.npy", X_train)  # 7  
  12. np.save("X_test.npy", X_test)  
  13. np.save("y_train.npy", y_train)  
  14. np.save("y_test.npy", y_test)  

下面我們將分步驟了解這套腳本的工作方式:

  • 首先導(dǎo)入NumPy與pandas軟件包。Pandas能夠輕松實現(xiàn)CSV文件的加載,并對數(shù)據(jù)進(jìn)行預(yù)處理。
  • 利用pandas從voice.csv加載數(shù)據(jù)集并將其作為dataframe。此對象在很大程度上類似于電子表格或者SQL表。
  • 這里的label列包含有該數(shù)據(jù)集的各項標(biāo)簽:即該示例為男聲或者女聲。在這里,我們將這些標(biāo)簽提取進(jìn)一個新的NumPy數(shù)組當(dāng)中。各原始標(biāo)簽為文本形式,但我們將其轉(zhuǎn)化為數(shù)字形式,其中1=男聲,0=女聲。(這里的數(shù)字賦值方式可任意選擇,在二元分類器中,我們通常使用1表示‘正’類,或者說我們試圖檢測的類。)
  • 這里創(chuàng)建的新labels數(shù)組是一套一維數(shù)組,但我們的TensorFlow腳本則需要一套二維張量,其中3168行中每一行皆對應(yīng)一列。因此我們需要在這里對數(shù)組進(jìn)行“重塑”,旨在將其轉(zhuǎn)化為二維形式。這不會對內(nèi)存中的數(shù)據(jù)產(chǎn)生影響,而僅變化NumPy對數(shù)據(jù)的解釋方式。
  • 在完成label列之后,我們將其從dataframe當(dāng)中移除,這樣我們就只剩下20項用于描述輸入內(nèi)容的特征。我們還將把該dataframe轉(zhuǎn)換為一套常規(guī)NumPy數(shù)組。
  • 這里,我們利用來自scikit-learn的一項helper函數(shù)將data與labels數(shù)組拆分為兩個部分。這種對數(shù)據(jù)集內(nèi)各示例進(jìn)行隨機洗牌的操作基于random_state,即一類隨機生成器。無論具體內(nèi)容為何,但只要青筋相同內(nèi)容,我們即創(chuàng)造出了一項可重復(fù)進(jìn)行的實驗。
  • 最后,將四項新的數(shù)組保存為NumPy的二進(jìn)制文件格式?,F(xiàn)在我們已經(jīng)擁有了一套訓(xùn)練集與一套測試集!

大家也可以進(jìn)行額外的一些預(yù)處理對腳本中的數(shù)據(jù)進(jìn)行調(diào)整,例如對特征進(jìn)行擴展,從而使其擁有0均值及相等的方差,但由于本次示例項目比較簡單,所以并無深入調(diào)整的必要。

利用以下命令在終端中運行這套腳本:

  1. python3 split_data.py 

這將給我們帶來4個新文件,其中包含有訓(xùn)練救命(X_train.npy)、這些示例的對應(yīng)標(biāo)簽(y_train.npy)、測試示例(X_test.npy)及其對應(yīng)標(biāo)簽(y_test.npy)。

備注:大家可能想了解為什么這些變量名稱為何有些是大寫,有些是小寫。在數(shù)學(xué)層面來看,矩陣通常以大寫表示而向量則以小寫表示。在我們的腳本中,X代表一個矩陣,y代表一個向量。這是一種慣例,大部分機器學(xué)習(xí)代碼中皆照此辦理。

建立計算圖

現(xiàn)在我們已經(jīng)對數(shù)據(jù)進(jìn)行了梳理,而后即可編寫一套腳本以利用TensorFlow對這套邏輯分類器進(jìn)行訓(xùn)練。這套腳本名為train.py。為了節(jié)省篇幅,這里就不再列出腳本的具體內(nèi)容了,大家可以點擊此處在GitHub上進(jìn)行查看。

與往常一樣,我們首先需要導(dǎo)入需要的軟件包。在此之后,我們將訓(xùn)練數(shù)據(jù)加載至兩個NumPy數(shù)組當(dāng)中,即X_train與y_train。(我們在本腳本中不會使用測試數(shù)據(jù)。)

  1. import numpy as np  
  2. import tensorflow as tf   
  3. X_train = np.load("X_train.npy")  
  4. y_train = np.load("y_train.npy"

 

現(xiàn)在我們可以建立自己的計算圖。首先,我們?yōu)槲覀兊妮斎雰?nèi)容x與y定義所謂placeholders(占位符):

  1. num_inputs = 20  
  2. num_classes = 1   
  3.  
  4. with tf.name_scope("inputs"):      
  5.     x = tf.placeholder(tf.float32, [None, num_inputs], name="x-input")      
  6.     y = tf.placeholder(tf.float32, [None, num_classes], name="y-input" 

其中tf.name_scope("...")可用于對該計算圖中的不同部分按不同范圍進(jìn)行分組,從而簡化對計算圖內(nèi)容的理解。我們將x與y添加至“inputs”范圍之內(nèi)。我們還將為其命名,分別為“x-input”與“y-input”,這樣即可在隨后輕松加以引用。

大家應(yīng)該還記得,每條輸入示例都是一個包含20項元素的向量。每條示例亦擁有一個標(biāo)簽(1代表男聲,0代表女聲)。我之前還提到過,我們可以將全部示例整合為一個矩陣,從而一次性對其進(jìn)行全面計算。正因為如此,我們這里將x與y定義為二維張量:x擁有[None, 20]維度,而y擁有[None, 1]維度。

其中的None代表第一項維度為靈活可變且目前未知。在訓(xùn)練集當(dāng)中,我們將2217條示例導(dǎo)入x與y; 而在測試集中,我們引入951條示例?,F(xiàn)在,TensorFlow已經(jīng)了解了我們的輸入內(nèi)容,接下來對分類器的parameters(參數(shù))進(jìn)行定義:

  1. with tf.name_scope("model"):      
  2.     W = tf.Variable(tf.zeros([num_inputs, num_classes]), name="W")      
  3.     b = tf.Variable(tf.zeros([num_classes]), name="b" 

其中的張量W包含有分類器將要學(xué)習(xí)的權(quán)重(這是一個20 x 1矩陣,因為其中包含20條輸入特征與1條輸出結(jié)果),而b則包含偏離值。這二者被聲明為TensorFlow變量,意味著二者可在反向傳播過程當(dāng)中實現(xiàn)更新。

在一切準(zhǔn)備就緒之后,我們可以對作為邏輯回歸分類器核心的計算流程進(jìn)行聲明了:

  1. y_pred = tf.sigmoid(tf.matmul(x, W) + b) 

這里將x與W進(jìn)行相乘,同時加上偏離值b,而后取其邏輯型成長曲線(logistic sigmoid)。如此一來,y_pred中的結(jié)果即根據(jù)x內(nèi)音頻數(shù)據(jù)的描述特性而被判斷為男聲的概率。

備注:以上代碼目前實際還不會做出任何計算——截至目前,我們還只是構(gòu)建起了必要的計算圖。這一行單純是將各節(jié)點添加至計算圖當(dāng)中以作為矩陣乘法(tf.matmul)、加法(+)以及sigmoid函數(shù)(tf.sigmoid)。在完成整體計算圖的構(gòu)建之后,我們方可創(chuàng)建TensorFlow會話并利用實際數(shù)據(jù)加以運行。

到這里任務(wù)還未完成。為了訓(xùn)練這套模型,我們需要定義一項loss函數(shù)。對于一套二元邏輯回歸分類器,我們需要使用log loss,幸運的是TensorFlow本身內(nèi)置有一項log_loss()函數(shù)可供直接使用:

  1. with tf.name_scope("loss-function"):      
  2.     loss = tf.losses.log_loss(labels=y, predictions=y_pred)      
  3.     loss += regularization * tf.nn.l2_loss(W)  

其中的log_loss計算圖節(jié)點作為輸入內(nèi)容y,我們會獲取與之相關(guān)的示例標(biāo)簽并將其與我們的預(yù)測結(jié)果y_pred進(jìn)行比較。以數(shù)字顯示的結(jié)果即為loss值。

在剛開始進(jìn)行訓(xùn)練時,所有示例的預(yù)測結(jié)果y_pred皆將為0.5(或者50%男聲),這是因為分類器本身尚不清楚如何獲得正確答案。其初始loss在經(jīng)-1n(0.5)計算后得出為0.693146。而在訓(xùn)練的推進(jìn)當(dāng)中,其loss值將變得越來越小。

第二行用于計算loss值與所謂L2 regularization(正則化)的加值。這是為了防止過度擬合阻礙分類器對訓(xùn)練數(shù)據(jù)的準(zhǔn)確記憶。這一過程比較簡單,因為我們的分類器“內(nèi)存”只包含20項權(quán)重值與偏離值。不過正則化本身是一種常見的機器學(xué)習(xí)技術(shù),因此在這里必須一提。

這里的regularization值為另一項占位符:

  1. with tf.name_scope("hyperparameters"):      
  2.     regularization = tf.placeholder(tf.float32, name="regularization")      
  3.     learning_rate = tf.placeholder(tf.float32, name="learning-rate" 

我們還將利用占位符定義我們的輸入內(nèi)容x與y,不過二者的作用是定義hyperparameters。

Hyperparameters允許大家對這套模型及其具體訓(xùn)練方式進(jìn)行配置。其之所以被稱為“超”參數(shù),是因為與常見的W與b參數(shù)不同,其并非由模型自身所學(xué)習(xí)——大家需要自行將其設(shè)置為適當(dāng)?shù)闹怠?/p>

其中的learning_rate超參數(shù)負(fù)責(zé)告知優(yōu)化器所應(yīng)采取的調(diào)整幅度。該優(yōu)化器(optimizer)負(fù)責(zé)執(zhí)行反向傳播:其會提取loss值并將其傳遞回計算圖以確定需要對權(quán)重值與偏離值進(jìn)行怎樣的調(diào)整。這里可以選擇的優(yōu)化器方案多種多樣,而我們使用的為ADAM:

  1. with tf.name_scope("train"):      
  2.     optimizer = tf.train.AdamOptimizer(learning_rate)      
  3.     train_op = optimizer.minimize(loss)  

其能夠在計算圖當(dāng)中創(chuàng)建一個名為train_op的節(jié)點。我們稍后將運行此節(jié)點以訓(xùn)練分類器。為了確定該分類器的運行效果,我們還需要在訓(xùn)練當(dāng)中偶爾捕捉快照并計算其已經(jīng)能夠在訓(xùn)練集當(dāng)中正確預(yù)測多少項示例。訓(xùn)練集的準(zhǔn)確性并非分類器運行效果的最終檢驗標(biāo)準(zhǔn),但對其進(jìn)行追蹤能夠幫助我們在一定程度上把握訓(xùn)練過程與預(yù)測準(zhǔn)確性趨勢。具體來講,如果越是訓(xùn)練結(jié)果越差,那么一定是出了什么問題!

下面我們?yōu)橐粋€計算圖節(jié)點定義計算精度:

  1. with tf.name_scope("score"):     
  2.     correct_prediction = tf.equal(tf.to_float(y_pred > 0.5), y)      
  3.     accuracy = tf.reduce_mean(tf.to_float(correct_prediction), name="accuracy" 

我們可以運行其中的accuracy節(jié)點以查看有多少個示例得到了正確預(yù)測。大家應(yīng)該還記得,y_pred中包含一項介于0到1之間的概率。通過進(jìn)行tf.to_float(y_pred > 0.5),若預(yù)測結(jié)果為女聲則返回值為0,若預(yù)測結(jié)果為男聲則返回值為1。我們可以將其與y進(jìn)行比較,y當(dāng)中包含有正確值。而精度值則代表著正確預(yù)測數(shù)量除以預(yù)測總數(shù)。

在此之后,我們將利用同樣的accuracy節(jié)點處理測試集,從而了解這套分類器的實際工作效果。

另外,我們還需要定義另外一個節(jié)點。此節(jié)點用于對我們尚無對應(yīng)標(biāo)簽的數(shù)據(jù)進(jìn)行預(yù)測:

  1. with tf.name_scope("inference"):      
  2.     inference = tf.to_float(y_pred > 0.5, name="inference" 

為了將這套分類器引入應(yīng)用,我們還需要記錄幾個語音文本詞匯,對其進(jìn)行分析以提取20項聲學(xué)特征,而后再將其交付至分類器。由于處理內(nèi)容屬于全新數(shù)據(jù),而非來自訓(xùn)練或者測試集的數(shù)據(jù),因此我們顯然不具備與之相關(guān)的標(biāo)簽。大家只能將數(shù)據(jù)直接交付至分類器,并希望其能夠給出正確的預(yù)測結(jié)果。而inference節(jié)點的作用也正在于此。

好的,我們已經(jīng)投入了大量精力來構(gòu)建這套計算圖?,F(xiàn)在我們希望利用訓(xùn)練集對其進(jìn)行實際訓(xùn)練。

訓(xùn)練分類器

訓(xùn)練通常以無限循環(huán)的方式進(jìn)行。不過對于這套簡單的邏輯分類器,這種作法顯然有點夸張——因為其不到一分鐘即可完成訓(xùn)練。但對于深層神經(jīng)網(wǎng)絡(luò),我們往往需要數(shù)小時甚至數(shù)天時間進(jìn)行腳本運行——直到其獲得令人滿意的精度或者您開始失去耐心。

以下為train.py當(dāng)中訓(xùn)練循環(huán)的第一部分:

  1. with tf.Session() as sess:      
  2.     tf.train.write_graph(sess.graph_def, checkpoint_dir, "graph.pb"False
  3.  
  4.     sess.run(init) 
  5.  
  6.     step = 0      
  7.     while True:              
  8.         # here comes the training code  

我們首先創(chuàng)建一個新的TensorFlow session(會話)對象。要運行該計算圖,大家需要建立一套會話。調(diào)用sess.run(init)會將W與b全部重設(shè)為0。

我們還需要將該計算圖寫入一個文件。我們將之前創(chuàng)建的全部節(jié)點序列至/tmp/voice/graph.pb文件當(dāng)中。我們之后需要利用此計算圖定義以立足測試集進(jìn)行分類器運行,并嘗試將該訓(xùn)練后的分類器引入iOS應(yīng)用。

在while True:循環(huán)當(dāng)中,我們使用以下內(nèi)容:

  1. perm = np.arange(len(X_train))          
  2. np.random.shuffle(perm)          
  3. X_train = X_train[perm]          
  4. y_train = y_train[perm]  

首先,我們對訓(xùn)練示例進(jìn)行隨機洗牌。這一點非常重要,因為大家當(dāng)然不希望分類器根據(jù)示例的具體順序進(jìn)行判斷——而非根據(jù)其聲學(xué)特征進(jìn)行判斷。

接下來是最重要的環(huán)節(jié):我們要求該會話運行train_op節(jié)點。其將在計算圖之上運行一次訓(xùn)練:

  1. feed = {x: X_train, y: y_train, learning_rate: 1e-2,                   
  2.                    regularization: 1e-5}          
  3.         sess.run(train_op, feed_dict=feed)  

在運行sess.run()時,大家還需要提供一套饋送詞典。其將負(fù)責(zé)告知TensorFlow當(dāng)前占位符節(jié)點的實際值。

由于這只是一套非常簡單的分類器,因此我們將始終一次性對全部訓(xùn)練集進(jìn)行訓(xùn)練,所以這里我們將X_train數(shù)組引入占位符x并將y_train數(shù)組引入占位符y。(對于規(guī)模更大的數(shù)據(jù)集,大家可以先從小批數(shù)據(jù)內(nèi)容著手,例如將示例數(shù)量設(shè)定為100到1000之間。)

到這里,我們的操作就階段性結(jié)束了。由于我們使用了無限循環(huán),因此train_op節(jié)點會反復(fù)再反復(fù)加以執(zhí)行。而在每一次迭代時,其中的反向傳播機制都會對權(quán)重值W與b作出小幅調(diào)整。隨著時間推移,這將令權(quán)重值逐步趨近于最優(yōu)值。

我們當(dāng)然有必要了解訓(xùn)練進(jìn)度,因此我們需要經(jīng)常性地輸出進(jìn)度報告(在本示例項目中,每進(jìn)行1000次訓(xùn)練即輸出一次結(jié)果):

  1. if step % print_every == 0:              
  2.     train_accuracy, loss_value = sess.run([accuracy, loss],                                         feed_dict=feed)              
  3.     print("step: %4d, loss: %.4f, training accuracy: %.4f" % \                      
  4. (step, loss_value, train_accuracy))  

這一次我們不再運行train_op節(jié)點,而是運行accuracy與loss兩個節(jié)點。我們使用同樣的饋送詞典,這樣accuracy與loss都會根據(jù)訓(xùn)練集進(jìn)行計算。正如之前所提到,訓(xùn)練集中的較高預(yù)測精度并不代表分類器能夠在處理測試集時同樣擁有良好表現(xiàn),但大家當(dāng)然希望隨著訓(xùn)練的進(jìn)行其精度值不斷提升。與此同時,loss值則應(yīng)不斷下降。

另外,我們還需要時不時保存一份checkpoint:

  1. if step % save_every == 0:              
  2.     checkpoint_file = os.path.join(checkpoint_dir, "model")              
  3.     saver.save(sess, checkpoint_file)                          
  4.     print("*** SAVED MODEL ***" 

其會獲取分類器當(dāng)前已經(jīng)學(xué)習(xí)到的W與b值,并將其保存為一個checkpoint文件。此checkpoint可供我們參閱,并判斷分類器是否已經(jīng)可以轉(zhuǎn)而處理測試集。該checkpoinit文件同樣被保存在/tmp/voice/目錄當(dāng)中。

使用以下命令在終端中運行該訓(xùn)練腳本:

  1. python3 train.py 

輸出結(jié)果應(yīng)如下所示:

  1. Training set size: (2217, 20)  
  2. Initial loss: 0.693146  
  3. step:    0, loss: 0.7432, training accuracy: 0.4754  
  4. step: 1000, loss: 0.4160, training accuracy: 0.8904  
  5. step: 2000, loss: 0.3259, training accuracy: 0.9170  
  6. step: 3000, loss: 0.2750, training accuracy: 0.9229  
  7. step: 4000, loss: 0.2408, training accuracy: 0.9337  
  8. step: 5000, loss: 0.2152, training accuracy: 0.9405  
  9. step: 6000, loss: 0.1957, training accuracy: 0.9553  
  10. step: 7000, loss: 0.1819, training accuracy: 0.9594  
  11. step: 8000, loss: 0.1717, training accuracy: 0.9635  
  12. step: 9000, loss: 0.1652, training accuracy: 0.9666  
  13. *** SAVED MODEL ***  
  14. step: 10000, loss: 0.1611, training accuracy: 0.9702  
  15. step: 11000, loss: 0.1589, training accuracy: 0.9707  
  16. . . .  

當(dāng)發(fā)現(xiàn)loss值不再下降時,就稍等一下直到看到下一條*** SAVED MODEL ***信息,這時按下Ctrl+C以停止訓(xùn)練。

在超參數(shù)設(shè)置當(dāng)中,我選擇了正規(guī)化與學(xué)習(xí)速率,大家應(yīng)該會看到其訓(xùn)練集的準(zhǔn)確率已經(jīng)達(dá)到約97%,而loss值則約為0.157。(如果大家在饋送詞典中將regularization設(shè)置為0,則loss甚至還能夠進(jìn)一步降低。)

上半部分到此結(jié)束,下半部分我們將察看訓(xùn)練的實際效果,以及如何在iOS上使用TensorFlow,最后討論一下iOS上使用TensorFlow的優(yōu)劣。

責(zé)任編輯:龐桂玉 來源: 移動開發(fā)前線
相關(guān)推薦

2012-04-25 14:12:12

JavaScala

2011-07-28 15:07:23

iOS猜數(shù)游戲

2013-08-27 10:31:05

Headless模式Java SE設(shè)計模式

2012-04-25 14:27:03

JavaScala

2011-03-25 14:41:52

MMO游戲iOS

2010-06-09 17:46:53

2012-07-10 13:17:33

iOS收入

2022-01-21 10:35:03

Windows 11微軟安卓

2010-05-19 16:53:31

MySQL代碼

2012-08-22 11:12:11

Ubuntu

2019-06-19 16:05:51

AppImageFlathubLinux

2011-08-23 09:16:19

Python

2020-02-18 09:45:44

云計算云平臺IT

2015-07-08 11:28:53

云服務(wù)平臺Docker MachDocker

2019-10-09 08:00:17

Kubernetes容器云平臺

2025-04-23 15:49:37

2018-08-30 09:36:10

編程語言Python機器學(xué)習(xí)

2016-12-26 20:52:11

2010-01-15 10:52:30

2010-01-15 14:47:45

點贊
收藏

51CTO技術(shù)棧公眾號