在iOS平臺上使用TensorFlow教程(上)
在利用深度學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行預(yù)測性分析之前,我們首先需要對其加以訓(xùn)練。目前市面上存在著大量能夠用于神經(jīng)網(wǎng)絡(luò)訓(xùn)練的工具,但TensorFlow無疑是其中極為重要的首選方案之一。
大家可以利用TensorFlow訓(xùn)練自己的機器學(xué)習(xí)模型,并利用這些模型完成預(yù)測性分析。訓(xùn)練通常由一臺極為強大的設(shè)備或者云端資源完成,但您可能想象不到的是,TensorFlow亦可以在iOS之上順利起效——只是存在一定局限性。
在今天的博文中,我們將共同了解TensorFlow背后的設(shè)計思路、如何利用其訓(xùn)練一套簡單的分類器,以及如何將上述成果引入您的iOS應(yīng)用。
在本示例中,我們將使用“根據(jù)語音與對話分析判斷性別”數(shù)據(jù)集以了解如何根據(jù)音頻記錄判斷語音為男聲抑或女聲。數(shù)據(jù)集地址: https://www.kaggle.com/primaryobjects/voicegender
獲取相關(guān)代碼:大家可以通過GitHub上的對應(yīng)項目獲取本示例的源代碼:https://github.com/hollance/TensorFlow-iOS-Example
TensorFlow是什么,我們?yōu)楹涡枰右允褂?
TensorFlow是一套用于構(gòu)建計算性圖形,從而實現(xiàn)機器學(xué)習(xí)的軟件資源庫。
其它一些工具往往作用于更高級別的抽象層級。以Caffe為例,大家需要將不同類型的“層”進(jìn)行彼此互連,從而設(shè)計出一套神經(jīng)網(wǎng)絡(luò)。而iOS平臺上的BNNS與MPSCNN亦可實現(xiàn)類似的功能。
在TensorFlow當(dāng)中,大家亦可處理這些層,但具體處理深度將更為深入——甚至直達(dá)您算法中的各項計算流程。
大家可以將TensorFlow視為一套用于實現(xiàn)新型機器學(xué)習(xí)算法的工具集,而其它深度學(xué)習(xí)工具則用于幫助用戶使用這些算法。
當(dāng)然,這并不是說用戶需要在TensorFlow當(dāng)中從零開始構(gòu)建一切。TensorFlow擁有一整套可復(fù)用的構(gòu)建組件,同時囊括了Keras等負(fù)責(zé)為TensorFlow用戶提供大量便捷模塊的資源庫。
因此TensorFlow在使用當(dāng)中并不強制要求大家精通相關(guān)數(shù)學(xué)專業(yè)知識,當(dāng)然如果各位愿意自行構(gòu)建,TensorFlow也能夠提供相應(yīng)的工具。
利用邏輯回歸實現(xiàn)二元分類
在今天的博文當(dāng)中,我們將利用邏輯回歸(logistic regression)算法創(chuàng)建一套分類器。沒錯,我們將從零開始進(jìn)行構(gòu)建,因此請大家做好準(zhǔn)備——這可是項有點復(fù)雜的任務(wù)。所謂分類器,其基本工作原理是獲取輸入數(shù)據(jù),而后告知用戶該數(shù)據(jù)所歸屬的類別——或者種類。在本項目當(dāng)中,我們只設(shè)定兩個種類:男聲與女聲——也就是說,我們需要構(gòu)建的是一套二元分類器(binary classifier)。
備注:二元分類器屬于最簡單的一種分類器,但其基本概念與設(shè)計思路同用于區(qū)分成百上千種不同類別的分類器完全一致。因此,盡管我們在本份教程中不會太過深入,但相信大家仍然能夠從中一窺分類器設(shè)計的門徑。
在輸入數(shù)據(jù)方面,我們將使用包含20個數(shù)字朗讀語音、囊括多種聲學(xué)特性的給定錄音。我將在后文中對此進(jìn)行詳盡解釋,包括音頻頻率及其它相關(guān)信息。
在以下示意圖當(dāng)中,大家可以看到這20個數(shù)字全部接入一個名為sum的小框。這些連接擁有不同的weights(權(quán)重),對于分類器而言代表著這20個數(shù)字各自不同的重要程度。
以下框圖展示了這套邏輯分類器的起效原理:
在sum框當(dāng)中,輸入數(shù)據(jù)區(qū)間為x0到x19,且其對應(yīng)連接的權(quán)重w0到w19進(jìn)行直接相加。以下為一項常見的點積:
- sum = x[0]*w[0] + x[1]*w[1] + x[2]*w[2] + ... + x[19]*w[19] + b
我們還在所謂bias(偏離)項的末尾加上了b。其僅僅代表另一個數(shù)字。
數(shù)組w中的權(quán)重與值b代表著此分類器所學(xué)習(xí)到的經(jīng)驗。對該分類器進(jìn)行訓(xùn)練的過程,實際上是為了幫助其找到與w及b正確匹配的數(shù)字。最初,我們將首先將全部w與b設(shè)置為0。在數(shù)輪訓(xùn)練之后,w與b則將包含一組數(shù)字,分類器將利用這些數(shù)字將輸入語音中的男聲與女聲區(qū)分開來。為了能夠?qū)um轉(zhuǎn)化為一條概率值——其取值在0與1之間——我們在這里使用logistic sigmoid函數(shù):
- y_pred = 1 / (1 + exp(-sum))
這條方程式看起來很可怕,但做法卻非常簡單:如果sum是一個較大正數(shù),則sigmoid函數(shù)返回1或者概率為100%; 如果sum是一個較大負(fù)數(shù),則sigmoid函數(shù)返回0。因此對于較大的正或者負(fù)數(shù),我們即可得出較為肯定的“是”或者“否”預(yù)測結(jié)論。
然而,如果sum趨近于0,則sigmoid函數(shù)會給出一個接近于50%的概率,因為其無法確定預(yù)測結(jié)果。當(dāng)我們最初對分類器進(jìn)行訓(xùn)練時,其初始預(yù)期結(jié)果會因分類器本身訓(xùn)練尚不充分而顯示為50%,即對判斷結(jié)果并無信心。但隨著訓(xùn)練工作的深入,其給出的概率開始更趨近于1及0,即分類器對于結(jié)果更為肯定。
現(xiàn)在y_pred中包含的預(yù)測結(jié)果顯示,該語音為男聲的可能性更高。如果其概率高于0.5(或者50%),則我們認(rèn)為語音為男聲; 相反則為女聲。
這即是我們這套利用邏輯回歸實現(xiàn)的二元分類器的基本設(shè)計原理。輸入至該分類器的數(shù)據(jù)為一段對20個數(shù)字進(jìn)行朗讀的音頻記錄,我們會計算出一條權(quán)重sum并應(yīng)用sigmoid函數(shù),而我們獲得的輸出概率指示朗讀者應(yīng)為男性。
然而,我們?nèi)匀恍枰⒂糜谟?xùn)練該分類器的機制,而這時就需要請出今天的主角——TensorFlow了。在TensorFlow中實現(xiàn)此分類器要在TensorFlow當(dāng)中使用此分類器,我們需要首先將其設(shè)計轉(zhuǎn)化為一套計算圖(computational graph)。一項計算圖由多個負(fù)責(zé)執(zhí)行計算的節(jié)點組成,且輸入數(shù)據(jù)會在各節(jié)點之間往來流通。
我們這套邏輯回歸算法的計算圖如下所示:
看起來與之前給出的示意圖存在一定區(qū)別,但這主要是由于此處的輸入內(nèi)容x不再是20個獨立的數(shù)字,而是一個包含有20個元素的向量。在這里,權(quán)重由矩陣W表示。因此,之前得出的點積也在這里被替換成了一項矩陣乘法。
另外,本示意圖中還包含一項輸入內(nèi)容y。其用于對分類器進(jìn)行訓(xùn)練并驗證其運行效果。我們在這里使用的數(shù)據(jù)集為一套包含3168條example語音記錄的集合,其中每條示例記錄皆被明確標(biāo)記為男聲或女聲。這些已知男聲或女聲結(jié)果亦被稱為該數(shù)據(jù)集的label(標(biāo)簽),并作為我們交付至y的輸入內(nèi)容。
為了訓(xùn)練我們的分類器,這里需要將一條示例加載至x當(dāng)中并允許該計算圖進(jìn)行預(yù)測:即語音到底為男聲抑或是女聲?由于初始權(quán)重值全部為0,因此該分類器很可能給出錯誤的預(yù)測。我們需要一種方法以計算其錯誤的“具體程度”,而這一目標(biāo)需要通過loss函數(shù)實現(xiàn)。Loss函數(shù)會將預(yù)測結(jié)果y_pred與正確輸出結(jié)果y進(jìn)行比較。
在將loss函數(shù)提供給訓(xùn)練示例后,我們利用一項被稱為backpropagation(反向傳播)的技術(shù)通過該計算圖進(jìn)行回溯,旨在根據(jù)正確方向?qū)與b的權(quán)重進(jìn)行小幅調(diào)整。如果預(yù)測結(jié)果為男聲但實際結(jié)果為女聲,則權(quán)重值即會稍微進(jìn)行上調(diào)或者下調(diào),從而在下一次面對同樣的輸入內(nèi)容時增加將其判斷為“女聲”的概率。
這一訓(xùn)練規(guī)程會利用該數(shù)據(jù)集中的全部示例進(jìn)行不斷重復(fù)再重復(fù),直到計算圖本身已經(jīng)獲得了最優(yōu)權(quán)重集合。而負(fù)責(zé)衡量預(yù)測結(jié)果錯誤程度的loss函數(shù)則因此隨時間推移而變低。
反向傳播在計算圖的訓(xùn)練當(dāng)中扮演著極為重要的角色,但我們還需要加入一點數(shù)學(xué)手段讓結(jié)果更為準(zhǔn)確。而這也正是TensorFlow的專長所在:我們只要將全部“前進(jìn)”操作表達(dá)為計算圖當(dāng)中的節(jié)點,其即可自動意識到“后退”操作代表的是反向傳播——我們完全無需親自進(jìn)行任何數(shù)學(xué)運算。太棒了!
Tensorflow到底是什么?
在以上計算圖當(dāng)中,數(shù)據(jù)流向為從左至右,即代表由輸入到輸出。而這正是TensorFlow中“流(flow)”的由來。不過Tensor又是什么?
Tensor一詞本義為張量,而此計算圖中全部數(shù)據(jù)流皆以張量形式存在。所謂張量,其實際代表的就是一個n維數(shù)組。我曾經(jīng)提到W是一項權(quán)重矩陣,但從TensorFlow的角度來看,其實際上屬于一項二階張量——換言之,一個二組數(shù)組。
- 一個標(biāo)量代表一個零階張量。
- 一個向量代表一個一階張量。
- 一個矩陣代表一個二階張量。
- 一個三維數(shù)組代表一個三階張量。
之后以此類推……
這就是Tensor的全部含義。在卷積神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)方案當(dāng)中,大家會需要與四維張量打交道。但本示例中提到的邏輯分類器要更為簡單,因此我們在這里最多只涉及到二階張量——即矩陣。
我之前還提到過,x代表一個向量——或者說一個一階張量——但接下來我們同樣將其視為一個矩陣。y亦采用這樣的處理方式。如此一來,我們即可將數(shù)據(jù)庫組視為整體對其loss進(jìn)行計算。
一條簡單的示例(example)語音內(nèi)包含20個數(shù)據(jù)元素。如果大家將全部3168條示例加載至x當(dāng)中,則x會成為一個3168 x 20的矩陣。再將x與W相乘,則得出的結(jié)果y_pred為一個3168 x 1的矩陣。具體來講,y_pred代表的是為數(shù)據(jù)集中的每條語音示例提供一項預(yù)測結(jié)論。
通過將我們的計算圖以矩陣/張量的形式進(jìn)行表達(dá),我們可以一次性對多個示例進(jìn)行預(yù)測。
安裝TensorFlow
好的,以上是本次教程的理論基礎(chǔ),接下來進(jìn)入實際操作階段。
我們將通過Python使用TensorFlow。大家的Mac設(shè)備可能已經(jīng)安裝有某一Python版本,但其版本可能較為陳舊。在本教程中,我使用的是Python 3.6,因此大家最好也能安裝同一版本。
安裝Python 3.6非常簡單,大家只需要使用Homebrew軟件包管理器即可。如果大家還沒有安裝homebrew,請點擊此處參閱相關(guān)指南。
接下來打開終端并輸入以下命令,以安裝Python的最新版本:
- brew install python3
Python也擁有自己的軟件包管理器,即pip,我們將利用它安裝我們所需要的其它軟件包。在終端中輸入以下命令:
- pip3 install numpy
- pip3 install scipy
- pip3 install scikit-learn
- pip3 install pandas
- pip3 install tensorflow
除了TensorFlow之外,我們還需要安裝NumPy、SciPy、pandas以及scikit-learn:
NumPy是一套用于同n級數(shù)組協(xié)作的庫。聽起來耳熟嗎?NumPy并非將其稱為張量,但之前提到了數(shù)組本身就是一種張量。TensorFlow Python API就建立在NumPy基礎(chǔ)之上。
SciPy是一套用于數(shù)值計算的庫。其它一些軟件包的起效需要以之為基礎(chǔ)。
pandas負(fù)責(zé)數(shù)據(jù)集的加載與清理工作。
scikit-learn在某種意義上可以算作TensorFlow的競爭對手,因為其同樣是一套用于機器學(xué)習(xí)的庫。我們之所以在本項目中加以使用,是因為它具備多項便利的功能。由于TensorFlow與scikit-learn皆使用NumPy數(shù)組,因為二者能夠順暢實現(xiàn)協(xié)作。
實際上,大家無需pandas與scikit-learn也能夠使用TensorFlow,但二者確實能夠提供便捷功能,而且每一位數(shù)據(jù)科學(xué)家也都樂于加以使用。
如大家所知,這些軟件包將被安裝在/usr/local/lib/python3.6/site-packages當(dāng)中。如果大家需要查看部分未被公布在其官方網(wǎng)站當(dāng)中的TensorFlow源代碼,則可以在這里找到。
備注:pip應(yīng)會為您的系統(tǒng)自動安裝TensorFlow的最佳版本。如果大家希望安裝其它版本,則請點擊此處參閱官方安全指南。另外,大家也可以利用源代碼自行構(gòu)建TensorFlow,這一點我們稍后會在面向iOS構(gòu)建TensorFlow部分中進(jìn)行說明。
下面我們進(jìn)行一項快速測試,旨在確保一切要素都已經(jīng)安裝就緒。利用以下內(nèi)容創(chuàng)建一個新的tryit.py文件:
- import tensorflow as tf
- a = tf.constant([1, 2, 3])
- b = tf.constant([4, 5, 6])
- sess = tf.Session(config=tf.ConfigProto(log_device_placement=True))
- print(sess.run(a + b))
而后通過終端運行這套腳本:
- python3 tryit.py
其會顯示一些與TensorFlow運行所在設(shè)備相關(guān)的調(diào)試信息(大多為CPU信息,但如果您所使用的Mac設(shè)備配備有英偉達(dá)GPU,亦可能提供GPU信息)。最終結(jié)果顯示為:
- [5 7 9]
這里代表的是兩個向量a與b的加和。另外,大家可能還會看到以下信息:
- W tensorflow/core/platform/cpu_feature_guard.cc:45] The TensorFlow library wasn't compiled to use SSE4.1 instructions, but these are available on your machine and could speed up CPU computations.
如果出現(xiàn)上述內(nèi)容,則代表您在系統(tǒng)當(dāng)中安裝的TensorFlow并非當(dāng)前CPU的最優(yōu)適配版本。修復(fù)方法之一是利用源代碼自行構(gòu)建TensorFlow,因為這允許大家對全部選項加以配置。但在本示例當(dāng)中,由于其不會造成什么影響,因此直接忽略即可。深入觀察訓(xùn)練數(shù)據(jù)集
要訓(xùn)練分類器,我們自然需要數(shù)據(jù)。
在本項目當(dāng)中,我們使用來自Kory Becker的“根據(jù)語音判斷性別”數(shù)據(jù)集。為了能夠讓這份教程能夠與TensorFlow指南上的MNIST數(shù)字化識別有所不同,這里我決定在Kaggle.com上尋找數(shù)據(jù)集,并最終選定了這一套。
那么我們到底該如何立足音頻實現(xiàn)性別判斷?下載該數(shù)據(jù)集并打開voice.csv文件之后,大家會看到其中包含著一排排數(shù)字:
我們首先需要強調(diào)這一點,這里列出的并非實際音頻數(shù)據(jù)!相反,這些數(shù)字代表著語音記錄當(dāng)中的不同聲學(xué)特征。這些屬性或者特征由一套腳本自音頻記錄中提取得出,并被轉(zhuǎn)化為這個CSV文件。具體提取方式并不屬于本篇文章希望討論的范疇,但如果大家感興趣,則可點擊此處查閱其原始R源代碼。
這套數(shù)據(jù)集中包含3168項示例(每項示例在以上表格中作為一行),且基本半數(shù)為男聲錄制、半數(shù)為女聲錄制。每一項示例中存在20項聲學(xué)特征,例如:
- 以kHz為單位的平均頻率
- 頻率的標(biāo)準(zhǔn)差
- 頻譜平坦度
- 頻譜熵
- 峰度
- 聲學(xué)信號中測得的最大基頻
- 調(diào)制指數(shù)
- 等等……
別擔(dān)心,雖然我們并不了解其中大多數(shù)條目的實際意義,但這不會影響到本次教程。我們真正需要 關(guān)心的是如何利用這些數(shù)據(jù)訓(xùn)練自己的分類器,從而立足于上述特征確保其有能力區(qū)分男性與女性的語音。
如果大家希望在一款應(yīng)用程序當(dāng)中使用此分類器,從而通過錄音或者來自麥克風(fēng)的音頻信息檢測語音性別,則首先需要從此類音頻數(shù)據(jù)中提取聲學(xué)特征。在擁有了這20個數(shù)字之后,大家即可對其分類器加以訓(xùn)練,并利用其判斷語音內(nèi)容為男聲還是女聲。
因此,我們的分類器并不會直接處理音頻記錄,而是處理從記錄中提取到的聲學(xué)特征。
備注:我們可以以此為起點了解深度學(xué)習(xí)與邏輯回歸等傳統(tǒng)算法之間的差異。我們所訓(xùn)練的分類器無法學(xué)習(xí)非常復(fù)雜的內(nèi)容,大家需要在預(yù)處理階段提取更多數(shù)據(jù)特征對其進(jìn)行幫助。在本示例的特定數(shù)據(jù)集當(dāng)中,我們只需要考慮提取音頻記錄中的音頻數(shù)據(jù)。
深度學(xué)習(xí)最酷的能力在于,大家完全可以訓(xùn)練一套神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)如何自行提取這些聲學(xué)特征。如此一來,大家不必進(jìn)行任何預(yù)處理即可利用深度學(xué)習(xí)系統(tǒng)采取原始音頻作為輸入內(nèi)容,并從中提取任何其認(rèn)為重要的聲學(xué)特征,而后加以分類。
這當(dāng)然也是一種有趣的深度學(xué)習(xí)探索方向,但并不屬于我們今天討論的范疇,因此也許日后我們將另開一篇文章單獨介紹。
建立一套訓(xùn)練集與測試集
在前文當(dāng)中,我提到過我們需要以如下步驟對分類器進(jìn)行訓(xùn)練:
- 向其交付來自數(shù)據(jù)集的全部示例。
- 衡量預(yù)測結(jié)果的錯誤程度。
- 根據(jù)loss調(diào)整權(quán)重。
事實證明,我們不應(yīng)利用全部數(shù)據(jù)進(jìn)行訓(xùn)練。我們只需要其中的特定一部分?jǐn)?shù)據(jù)——即測試集——從而評估分類器的實際工作效果。因此,我們將把整體數(shù)據(jù)集拆分為兩大部分:訓(xùn)練集,用于對分類器進(jìn)行訓(xùn)練; 測試集,用于了解該分類器的預(yù)測準(zhǔn)確度。
為了將數(shù)據(jù)拆分為訓(xùn)練集與測試集,我創(chuàng)建了一套名為split_data.py的Python腳本,其內(nèi)容如下所示:
- import numpy as np # 1
- import pandas as pd df = pd.read_csv("voice.csv", header=0) #2
- labels = (df["label"] == "male").values * 1 # 3
- labels = labels.reshape(-1, 1) # 4
- del df["label"] # 5
- data = df.values
- # 6
- from sklearn.model_selection import train_test_split X_train,
- X_test, y_train, y_test = train_test_split(data, labels, test_size=0.3, random_state=123456)
- np.save("X_train.npy", X_train) # 7
- np.save("X_test.npy", X_test)
- np.save("y_train.npy", y_train)
- np.save("y_test.npy", y_test)
下面我們將分步驟了解這套腳本的工作方式:
- 首先導(dǎo)入NumPy與pandas軟件包。Pandas能夠輕松實現(xiàn)CSV文件的加載,并對數(shù)據(jù)進(jìn)行預(yù)處理。
- 利用pandas從voice.csv加載數(shù)據(jù)集并將其作為dataframe。此對象在很大程度上類似于電子表格或者SQL表。
- 這里的label列包含有該數(shù)據(jù)集的各項標(biāo)簽:即該示例為男聲或者女聲。在這里,我們將這些標(biāo)簽提取進(jìn)一個新的NumPy數(shù)組當(dāng)中。各原始標(biāo)簽為文本形式,但我們將其轉(zhuǎn)化為數(shù)字形式,其中1=男聲,0=女聲。(這里的數(shù)字賦值方式可任意選擇,在二元分類器中,我們通常使用1表示‘正’類,或者說我們試圖檢測的類。)
- 這里創(chuàng)建的新labels數(shù)組是一套一維數(shù)組,但我們的TensorFlow腳本則需要一套二維張量,其中3168行中每一行皆對應(yīng)一列。因此我們需要在這里對數(shù)組進(jìn)行“重塑”,旨在將其轉(zhuǎn)化為二維形式。這不會對內(nèi)存中的數(shù)據(jù)產(chǎn)生影響,而僅變化NumPy對數(shù)據(jù)的解釋方式。
- 在完成label列之后,我們將其從dataframe當(dāng)中移除,這樣我們就只剩下20項用于描述輸入內(nèi)容的特征。我們還將把該dataframe轉(zhuǎn)換為一套常規(guī)NumPy數(shù)組。
- 這里,我們利用來自scikit-learn的一項helper函數(shù)將data與labels數(shù)組拆分為兩個部分。這種對數(shù)據(jù)集內(nèi)各示例進(jìn)行隨機洗牌的操作基于random_state,即一類隨機生成器。無論具體內(nèi)容為何,但只要青筋相同內(nèi)容,我們即創(chuàng)造出了一項可重復(fù)進(jìn)行的實驗。
- 最后,將四項新的數(shù)組保存為NumPy的二進(jìn)制文件格式?,F(xiàn)在我們已經(jīng)擁有了一套訓(xùn)練集與一套測試集!
大家也可以進(jìn)行額外的一些預(yù)處理對腳本中的數(shù)據(jù)進(jìn)行調(diào)整,例如對特征進(jìn)行擴展,從而使其擁有0均值及相等的方差,但由于本次示例項目比較簡單,所以并無深入調(diào)整的必要。
利用以下命令在終端中運行這套腳本:
- python3 split_data.py
這將給我們帶來4個新文件,其中包含有訓(xùn)練救命(X_train.npy)、這些示例的對應(yīng)標(biāo)簽(y_train.npy)、測試示例(X_test.npy)及其對應(yīng)標(biāo)簽(y_test.npy)。
備注:大家可能想了解為什么這些變量名稱為何有些是大寫,有些是小寫。在數(shù)學(xué)層面來看,矩陣通常以大寫表示而向量則以小寫表示。在我們的腳本中,X代表一個矩陣,y代表一個向量。這是一種慣例,大部分機器學(xué)習(xí)代碼中皆照此辦理。
建立計算圖
現(xiàn)在我們已經(jīng)對數(shù)據(jù)進(jìn)行了梳理,而后即可編寫一套腳本以利用TensorFlow對這套邏輯分類器進(jìn)行訓(xùn)練。這套腳本名為train.py。為了節(jié)省篇幅,這里就不再列出腳本的具體內(nèi)容了,大家可以點擊此處在GitHub上進(jìn)行查看。
與往常一樣,我們首先需要導(dǎo)入需要的軟件包。在此之后,我們將訓(xùn)練數(shù)據(jù)加載至兩個NumPy數(shù)組當(dāng)中,即X_train與y_train。(我們在本腳本中不會使用測試數(shù)據(jù)。)
- import numpy as np
- import tensorflow as tf
- X_train = np.load("X_train.npy")
- y_train = np.load("y_train.npy")
現(xiàn)在我們可以建立自己的計算圖。首先,我們?yōu)槲覀兊妮斎雰?nèi)容x與y定義所謂placeholders(占位符):
- num_inputs = 20
- num_classes = 1
- with tf.name_scope("inputs"):
- x = tf.placeholder(tf.float32, [None, num_inputs], name="x-input")
- y = tf.placeholder(tf.float32, [None, num_classes], name="y-input")
其中tf.name_scope("...")可用于對該計算圖中的不同部分按不同范圍進(jìn)行分組,從而簡化對計算圖內(nèi)容的理解。我們將x與y添加至“inputs”范圍之內(nèi)。我們還將為其命名,分別為“x-input”與“y-input”,這樣即可在隨后輕松加以引用。
大家應(yīng)該還記得,每條輸入示例都是一個包含20項元素的向量。每條示例亦擁有一個標(biāo)簽(1代表男聲,0代表女聲)。我之前還提到過,我們可以將全部示例整合為一個矩陣,從而一次性對其進(jìn)行全面計算。正因為如此,我們這里將x與y定義為二維張量:x擁有[None, 20]維度,而y擁有[None, 1]維度。
其中的None代表第一項維度為靈活可變且目前未知。在訓(xùn)練集當(dāng)中,我們將2217條示例導(dǎo)入x與y; 而在測試集中,我們引入951條示例?,F(xiàn)在,TensorFlow已經(jīng)了解了我們的輸入內(nèi)容,接下來對分類器的parameters(參數(shù))進(jìn)行定義:
- with tf.name_scope("model"):
- W = tf.Variable(tf.zeros([num_inputs, num_classes]), name="W")
- b = tf.Variable(tf.zeros([num_classes]), name="b")
其中的張量W包含有分類器將要學(xué)習(xí)的權(quán)重(這是一個20 x 1矩陣,因為其中包含20條輸入特征與1條輸出結(jié)果),而b則包含偏離值。這二者被聲明為TensorFlow變量,意味著二者可在反向傳播過程當(dāng)中實現(xiàn)更新。
在一切準(zhǔn)備就緒之后,我們可以對作為邏輯回歸分類器核心的計算流程進(jìn)行聲明了:
- y_pred = tf.sigmoid(tf.matmul(x, W) + b)
這里將x與W進(jìn)行相乘,同時加上偏離值b,而后取其邏輯型成長曲線(logistic sigmoid)。如此一來,y_pred中的結(jié)果即根據(jù)x內(nèi)音頻數(shù)據(jù)的描述特性而被判斷為男聲的概率。
備注:以上代碼目前實際還不會做出任何計算——截至目前,我們還只是構(gòu)建起了必要的計算圖。這一行單純是將各節(jié)點添加至計算圖當(dāng)中以作為矩陣乘法(tf.matmul)、加法(+)以及sigmoid函數(shù)(tf.sigmoid)。在完成整體計算圖的構(gòu)建之后,我們方可創(chuàng)建TensorFlow會話并利用實際數(shù)據(jù)加以運行。
到這里任務(wù)還未完成。為了訓(xùn)練這套模型,我們需要定義一項loss函數(shù)。對于一套二元邏輯回歸分類器,我們需要使用log loss,幸運的是TensorFlow本身內(nèi)置有一項log_loss()函數(shù)可供直接使用:
- with tf.name_scope("loss-function"):
- loss = tf.losses.log_loss(labels=y, predictions=y_pred)
- loss += regularization * tf.nn.l2_loss(W)
其中的log_loss計算圖節(jié)點作為輸入內(nèi)容y,我們會獲取與之相關(guān)的示例標(biāo)簽并將其與我們的預(yù)測結(jié)果y_pred進(jìn)行比較。以數(shù)字顯示的結(jié)果即為loss值。
在剛開始進(jìn)行訓(xùn)練時,所有示例的預(yù)測結(jié)果y_pred皆將為0.5(或者50%男聲),這是因為分類器本身尚不清楚如何獲得正確答案。其初始loss在經(jīng)-1n(0.5)計算后得出為0.693146。而在訓(xùn)練的推進(jìn)當(dāng)中,其loss值將變得越來越小。
第二行用于計算loss值與所謂L2 regularization(正則化)的加值。這是為了防止過度擬合阻礙分類器對訓(xùn)練數(shù)據(jù)的準(zhǔn)確記憶。這一過程比較簡單,因為我們的分類器“內(nèi)存”只包含20項權(quán)重值與偏離值。不過正則化本身是一種常見的機器學(xué)習(xí)技術(shù),因此在這里必須一提。
這里的regularization值為另一項占位符:
- with tf.name_scope("hyperparameters"):
- regularization = tf.placeholder(tf.float32, name="regularization")
- learning_rate = tf.placeholder(tf.float32, name="learning-rate")
我們還將利用占位符定義我們的輸入內(nèi)容x與y,不過二者的作用是定義hyperparameters。
Hyperparameters允許大家對這套模型及其具體訓(xùn)練方式進(jìn)行配置。其之所以被稱為“超”參數(shù),是因為與常見的W與b參數(shù)不同,其并非由模型自身所學(xué)習(xí)——大家需要自行將其設(shè)置為適當(dāng)?shù)闹怠?/p>
其中的learning_rate超參數(shù)負(fù)責(zé)告知優(yōu)化器所應(yīng)采取的調(diào)整幅度。該優(yōu)化器(optimizer)負(fù)責(zé)執(zhí)行反向傳播:其會提取loss值并將其傳遞回計算圖以確定需要對權(quán)重值與偏離值進(jìn)行怎樣的調(diào)整。這里可以選擇的優(yōu)化器方案多種多樣,而我們使用的為ADAM:
- with tf.name_scope("train"):
- optimizer = tf.train.AdamOptimizer(learning_rate)
- train_op = optimizer.minimize(loss)
其能夠在計算圖當(dāng)中創(chuàng)建一個名為train_op的節(jié)點。我們稍后將運行此節(jié)點以訓(xùn)練分類器。為了確定該分類器的運行效果,我們還需要在訓(xùn)練當(dāng)中偶爾捕捉快照并計算其已經(jīng)能夠在訓(xùn)練集當(dāng)中正確預(yù)測多少項示例。訓(xùn)練集的準(zhǔn)確性并非分類器運行效果的最終檢驗標(biāo)準(zhǔn),但對其進(jìn)行追蹤能夠幫助我們在一定程度上把握訓(xùn)練過程與預(yù)測準(zhǔn)確性趨勢。具體來講,如果越是訓(xùn)練結(jié)果越差,那么一定是出了什么問題!
下面我們?yōu)橐粋€計算圖節(jié)點定義計算精度:
- with tf.name_scope("score"):
- correct_prediction = tf.equal(tf.to_float(y_pred > 0.5), y)
- accuracy = tf.reduce_mean(tf.to_float(correct_prediction), name="accuracy")
我們可以運行其中的accuracy節(jié)點以查看有多少個示例得到了正確預(yù)測。大家應(yīng)該還記得,y_pred中包含一項介于0到1之間的概率。通過進(jìn)行tf.to_float(y_pred > 0.5),若預(yù)測結(jié)果為女聲則返回值為0,若預(yù)測結(jié)果為男聲則返回值為1。我們可以將其與y進(jìn)行比較,y當(dāng)中包含有正確值。而精度值則代表著正確預(yù)測數(shù)量除以預(yù)測總數(shù)。
在此之后,我們將利用同樣的accuracy節(jié)點處理測試集,從而了解這套分類器的實際工作效果。
另外,我們還需要定義另外一個節(jié)點。此節(jié)點用于對我們尚無對應(yīng)標(biāo)簽的數(shù)據(jù)進(jìn)行預(yù)測:
- with tf.name_scope("inference"):
- inference = tf.to_float(y_pred > 0.5, name="inference")
為了將這套分類器引入應(yīng)用,我們還需要記錄幾個語音文本詞匯,對其進(jìn)行分析以提取20項聲學(xué)特征,而后再將其交付至分類器。由于處理內(nèi)容屬于全新數(shù)據(jù),而非來自訓(xùn)練或者測試集的數(shù)據(jù),因此我們顯然不具備與之相關(guān)的標(biāo)簽。大家只能將數(shù)據(jù)直接交付至分類器,并希望其能夠給出正確的預(yù)測結(jié)果。而inference節(jié)點的作用也正在于此。
好的,我們已經(jīng)投入了大量精力來構(gòu)建這套計算圖?,F(xiàn)在我們希望利用訓(xùn)練集對其進(jìn)行實際訓(xùn)練。
訓(xùn)練分類器
訓(xùn)練通常以無限循環(huán)的方式進(jìn)行。不過對于這套簡單的邏輯分類器,這種作法顯然有點夸張——因為其不到一分鐘即可完成訓(xùn)練。但對于深層神經(jīng)網(wǎng)絡(luò),我們往往需要數(shù)小時甚至數(shù)天時間進(jìn)行腳本運行——直到其獲得令人滿意的精度或者您開始失去耐心。
以下為train.py當(dāng)中訓(xùn)練循環(huán)的第一部分:
- with tf.Session() as sess:
- tf.train.write_graph(sess.graph_def, checkpoint_dir, "graph.pb", False)
- sess.run(init)
- step = 0
- while True:
- # here comes the training code
我們首先創(chuàng)建一個新的TensorFlow session(會話)對象。要運行該計算圖,大家需要建立一套會話。調(diào)用sess.run(init)會將W與b全部重設(shè)為0。
我們還需要將該計算圖寫入一個文件。我們將之前創(chuàng)建的全部節(jié)點序列至/tmp/voice/graph.pb文件當(dāng)中。我們之后需要利用此計算圖定義以立足測試集進(jìn)行分類器運行,并嘗試將該訓(xùn)練后的分類器引入iOS應(yīng)用。
在while True:循環(huán)當(dāng)中,我們使用以下內(nèi)容:
- perm = np.arange(len(X_train))
- np.random.shuffle(perm)
- X_train = X_train[perm]
- y_train = y_train[perm]
首先,我們對訓(xùn)練示例進(jìn)行隨機洗牌。這一點非常重要,因為大家當(dāng)然不希望分類器根據(jù)示例的具體順序進(jìn)行判斷——而非根據(jù)其聲學(xué)特征進(jìn)行判斷。
接下來是最重要的環(huán)節(jié):我們要求該會話運行train_op節(jié)點。其將在計算圖之上運行一次訓(xùn)練:
- feed = {x: X_train, y: y_train, learning_rate: 1e-2,
- regularization: 1e-5}
- sess.run(train_op, feed_dict=feed)
在運行sess.run()時,大家還需要提供一套饋送詞典。其將負(fù)責(zé)告知TensorFlow當(dāng)前占位符節(jié)點的實際值。
由于這只是一套非常簡單的分類器,因此我們將始終一次性對全部訓(xùn)練集進(jìn)行訓(xùn)練,所以這里我們將X_train數(shù)組引入占位符x并將y_train數(shù)組引入占位符y。(對于規(guī)模更大的數(shù)據(jù)集,大家可以先從小批數(shù)據(jù)內(nèi)容著手,例如將示例數(shù)量設(shè)定為100到1000之間。)
到這里,我們的操作就階段性結(jié)束了。由于我們使用了無限循環(huán),因此train_op節(jié)點會反復(fù)再反復(fù)加以執(zhí)行。而在每一次迭代時,其中的反向傳播機制都會對權(quán)重值W與b作出小幅調(diào)整。隨著時間推移,這將令權(quán)重值逐步趨近于最優(yōu)值。
我們當(dāng)然有必要了解訓(xùn)練進(jìn)度,因此我們需要經(jīng)常性地輸出進(jìn)度報告(在本示例項目中,每進(jìn)行1000次訓(xùn)練即輸出一次結(jié)果):
- if step % print_every == 0:
- train_accuracy, loss_value = sess.run([accuracy, loss], feed_dict=feed)
- print("step: %4d, loss: %.4f, training accuracy: %.4f" % \
- (step, loss_value, train_accuracy))
這一次我們不再運行train_op節(jié)點,而是運行accuracy與loss兩個節(jié)點。我們使用同樣的饋送詞典,這樣accuracy與loss都會根據(jù)訓(xùn)練集進(jìn)行計算。正如之前所提到,訓(xùn)練集中的較高預(yù)測精度并不代表分類器能夠在處理測試集時同樣擁有良好表現(xiàn),但大家當(dāng)然希望隨著訓(xùn)練的進(jìn)行其精度值不斷提升。與此同時,loss值則應(yīng)不斷下降。
另外,我們還需要時不時保存一份checkpoint:
- if step % save_every == 0:
- checkpoint_file = os.path.join(checkpoint_dir, "model")
- saver.save(sess, checkpoint_file)
- print("*** SAVED MODEL ***")
其會獲取分類器當(dāng)前已經(jīng)學(xué)習(xí)到的W與b值,并將其保存為一個checkpoint文件。此checkpoint可供我們參閱,并判斷分類器是否已經(jīng)可以轉(zhuǎn)而處理測試集。該checkpoinit文件同樣被保存在/tmp/voice/目錄當(dāng)中。
使用以下命令在終端中運行該訓(xùn)練腳本:
- python3 train.py
輸出結(jié)果應(yīng)如下所示:
- Training set size: (2217, 20)
- Initial loss: 0.693146
- step: 0, loss: 0.7432, training accuracy: 0.4754
- step: 1000, loss: 0.4160, training accuracy: 0.8904
- step: 2000, loss: 0.3259, training accuracy: 0.9170
- step: 3000, loss: 0.2750, training accuracy: 0.9229
- step: 4000, loss: 0.2408, training accuracy: 0.9337
- step: 5000, loss: 0.2152, training accuracy: 0.9405
- step: 6000, loss: 0.1957, training accuracy: 0.9553
- step: 7000, loss: 0.1819, training accuracy: 0.9594
- step: 8000, loss: 0.1717, training accuracy: 0.9635
- step: 9000, loss: 0.1652, training accuracy: 0.9666
- *** SAVED MODEL ***
- step: 10000, loss: 0.1611, training accuracy: 0.9702
- step: 11000, loss: 0.1589, training accuracy: 0.9707
- . . .
當(dāng)發(fā)現(xiàn)loss值不再下降時,就稍等一下直到看到下一條*** SAVED MODEL ***信息,這時按下Ctrl+C以停止訓(xùn)練。
在超參數(shù)設(shè)置當(dāng)中,我選擇了正規(guī)化與學(xué)習(xí)速率,大家應(yīng)該會看到其訓(xùn)練集的準(zhǔn)確率已經(jīng)達(dá)到約97%,而loss值則約為0.157。(如果大家在饋送詞典中將regularization設(shè)置為0,則loss甚至還能夠進(jìn)一步降低。)
上半部分到此結(jié)束,下半部分我們將察看訓(xùn)練的實際效果,以及如何在iOS上使用TensorFlow,最后討論一下iOS上使用TensorFlow的優(yōu)劣。