自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<legend id="hhubx"><track id="hhubx"></track></legend>

<cite id="hhubx"></cite>

<legend id="hhubx"><track id="hhubx"></track></legend>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

在iOS平臺上使用TensorFlow教程（上）

作者：運和憑譯 2017-03-20 17:20:35

移動開發(fā) iOS

在利用深度學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行預(yù)測性分析之前，我們首先需要對其加以訓(xùn)練。目前市面上存在著大量能夠用于神經(jīng)網(wǎng)絡(luò)訓(xùn)練的工具，但TensorFlow無疑是其中極為重要的首選方案之一。

在利用深度學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行預(yù)測性分析之前，我們首先需要對其加以訓(xùn)練。目前市面上存在著大量能夠用于神經(jīng)網(wǎng)絡(luò)訓(xùn)練的工具，但TensorFlow無疑是其中極為重要的首選方案之一。

大家可以利用TensorFlow訓(xùn)練自己的機器學(xué)習(xí)模型，并利用這些模型完成預(yù)測性分析。訓(xùn)練通常由一臺極為強大的設(shè)備或者云端資源完成，但您可能想象不到的是，TensorFlow亦可以在iOS之上順利起效——只是存在一定局限性。

在今天的博文中，我們將共同了解TensorFlow背后的設(shè)計思路、如何利用其訓(xùn)練一套簡單的分類器，以及如何將上述成果引入您的iOS應(yīng)用。

在本示例中，我們將使用“根據(jù)語音與對話分析判斷性別”數(shù)據(jù)集以了解如何根據(jù)音頻記錄判斷語音為男聲抑或女聲。數(shù)據(jù)集地址： https://www.kaggle.com/primaryobjects/voicegender

獲取相關(guān)代碼：大家可以通過GitHub上的對應(yīng)項目獲取本示例的源代碼：https://github.com/hollance/TensorFlow-iOS-Example

TensorFlow是什么，我們?yōu)楹涡枰右允褂?

TensorFlow是一套用于構(gòu)建計算性圖形，從而實現(xiàn)機器學(xué)習(xí)的軟件資源庫。

其它一些工具往往作用于更高級別的抽象層級。以Caffe為例，大家需要將不同類型的“層”進(jìn)行彼此互連，從而設(shè)計出一套神經(jīng)網(wǎng)絡(luò)。而iOS平臺上的BNNS與MPSCNN亦可實現(xiàn)類似的功能。

在TensorFlow當(dāng)中，大家亦可處理這些層，但具體處理深度將更為深入——甚至直達(dá)您算法中的各項計算流程。

大家可以將TensorFlow視為一套用于實現(xiàn)新型機器學(xué)習(xí)算法的工具集，而其它深度學(xué)習(xí)工具則用于幫助用戶使用這些算法。

當(dāng)然，這并不是說用戶需要在TensorFlow當(dāng)中從零開始構(gòu)建一切。TensorFlow擁有一整套可復(fù)用的構(gòu)建組件，同時囊括了Keras等負(fù)責(zé)為TensorFlow用戶提供大量便捷模塊的資源庫。

因此TensorFlow在使用當(dāng)中并不強制要求大家精通相關(guān)數(shù)學(xué)專業(yè)知識，當(dāng)然如果各位愿意自行構(gòu)建，TensorFlow也能夠提供相應(yīng)的工具。

利用邏輯回歸實現(xiàn)二元分類

在今天的博文當(dāng)中，我們將利用邏輯回歸(logistic regression)算法創(chuàng)建一套分類器。沒錯，我們將從零開始進(jìn)行構(gòu)建，因此請大家做好準(zhǔn)備——這可是項有點復(fù)雜的任務(wù)。所謂分類器，其基本工作原理是獲取輸入數(shù)據(jù)，而后告知用戶該數(shù)據(jù)所歸屬的類別——或者種類。在本項目當(dāng)中，我們只設(shè)定兩個種類：男聲與女聲——也就是說，我們需要構(gòu)建的是一套二元分類器(binary classifier)。

備注：二元分類器屬于最簡單的一種分類器，但其基本概念與設(shè)計思路同用于區(qū)分成百上千種不同類別的分類器完全一致。因此，盡管我們在本份教程中不會太過深入，但相信大家仍然能夠從中一窺分類器設(shè)計的門徑。

在輸入數(shù)據(jù)方面，我們將使用包含20個數(shù)字朗讀語音、囊括多種聲學(xué)特性的給定錄音。我將在后文中對此進(jìn)行詳盡解釋，包括音頻頻率及其它相關(guān)信息。

在以下示意圖當(dāng)中，大家可以看到這20個數(shù)字全部接入一個名為sum的小框。這些連接擁有不同的weights(權(quán)重)，對于分類器而言代表著這20個數(shù)字各自不同的重要程度。

以下框圖展示了這套邏輯分類器的起效原理：

在sum框當(dāng)中，輸入數(shù)據(jù)區(qū)間為x0到x19，且其對應(yīng)連接的權(quán)重w0到w19進(jìn)行直接相加。以下為一項常見的點積：

sum = x[0]*w[0] + x[1]*w[1] + x[2]*w[2] + ... + x[19]*w[19] + b

我們還在所謂bias(偏離)項的末尾加上了b。其僅僅代表另一個數(shù)字。

數(shù)組w中的權(quán)重與值b代表著此分類器所學(xué)習(xí)到的經(jīng)驗。對該分類器進(jìn)行訓(xùn)練的過程，實際上是為了幫助其找到與w及b正確匹配的數(shù)字。最初，我們將首先將全部w與b設(shè)置為0。在數(shù)輪訓(xùn)練之后，w與b則將包含一組數(shù)字，分類器將利用這些數(shù)字將輸入語音中的男聲與女聲區(qū)分開來。為了能夠?qū)um轉(zhuǎn)化為一條概率值——其取值在0與1之間——我們在這里使用logistic sigmoid函數(shù)：

y_pred = 1 / (1 + exp(-sum))

這條方程式看起來很可怕，但做法卻非常簡單：如果sum是一個較大正數(shù)，則sigmoid函數(shù)返回1或者概率為100%; 如果sum是一個較大負(fù)數(shù)，則sigmoid函數(shù)返回0。因此對于較大的正或者負(fù)數(shù)，我們即可得出較為肯定的“是”或者“否”預(yù)測結(jié)論。

然而，如果sum趨近于0，則sigmoid函數(shù)會給出一個接近于50%的概率，因為其無法確定預(yù)測結(jié)果。當(dāng)我們最初對分類器進(jìn)行訓(xùn)練時，其初始預(yù)期結(jié)果會因分類器本身訓(xùn)練尚不充分而顯示為50%，即對判斷結(jié)果并無信心。但隨著訓(xùn)練工作的深入，其給出的概率開始更趨近于1及0，即分類器對于結(jié)果更為肯定。

現(xiàn)在y_pred中包含的預(yù)測結(jié)果顯示，該語音為男聲的可能性更高。如果其概率高于0.5(或者50%)，則我們認(rèn)為語音為男聲; 相反則為女聲。

這即是我們這套利用邏輯回歸實現(xiàn)的二元分類器的基本設(shè)計原理。輸入至該分類器的數(shù)據(jù)為一段對20個數(shù)字進(jìn)行朗讀的音頻記錄，我們會計算出一條權(quán)重sum并應(yīng)用sigmoid函數(shù)，而我們獲得的輸出概率指示朗讀者應(yīng)為男性。

然而，我們?nèi)匀恍枰⒂糜谟?xùn)練該分類器的機制，而這時就需要請出今天的主角——TensorFlow了。在TensorFlow中實現(xiàn)此分類器要在TensorFlow當(dāng)中使用此分類器，我們需要首先將其設(shè)計轉(zhuǎn)化為一套計算圖(computational graph)。一項計算圖由多個負(fù)責(zé)執(zhí)行計算的節(jié)點組成，且輸入數(shù)據(jù)會在各節(jié)點之間往來流通。

我們這套邏輯回歸算法的計算圖如下所示：

看起來與之前給出的示意圖存在一定區(qū)別，但這主要是由于此處的輸入內(nèi)容x不再是20個獨立的數(shù)字，而是一個包含有20個元素的向量。在這里，權(quán)重由矩陣W表示。因此，之前得出的點積也在這里被替換成了一項矩陣乘法。

另外，本示意圖中還包含一項輸入內(nèi)容y。其用于對分類器進(jìn)行訓(xùn)練并驗證其運行效果。我們在這里使用的數(shù)據(jù)集為一套包含3168條example語音記錄的集合，其中每條示例記錄皆被明確標(biāo)記為男聲或女聲。這些已知男聲或女聲結(jié)果亦被稱為該數(shù)據(jù)集的label(標(biāo)簽)，并作為我們交付至y的輸入內(nèi)容。

為了訓(xùn)練我們的分類器，這里需要將一條示例加載至x當(dāng)中并允許該計算圖進(jìn)行預(yù)測：即語音到底為男聲抑或是女聲?由于初始權(quán)重值全部為0，因此該分類器很可能給出錯誤的預(yù)測。我們需要一種方法以計算其錯誤的“具體程度”，而這一目標(biāo)需要通過loss函數(shù)實現(xiàn)。Loss函數(shù)會將預(yù)測結(jié)果y_pred與正確輸出結(jié)果y進(jìn)行比較。

在將loss函數(shù)提供給訓(xùn)練示例后，我們利用一項被稱為backpropagation(反向傳播)的技術(shù)通過該計算圖進(jìn)行回溯，旨在根據(jù)正確方向?qū)與b的權(quán)重進(jìn)行小幅調(diào)整。如果預(yù)測結(jié)果為男聲但實際結(jié)果為女聲，則權(quán)重值即會稍微進(jìn)行上調(diào)或者下調(diào)，從而在下一次面對同樣的輸入內(nèi)容時增加將其判斷為“女聲”的概率。

這一訓(xùn)練規(guī)程會利用該數(shù)據(jù)集中的全部示例進(jìn)行不斷重復(fù)再重復(fù)，直到計算圖本身已經(jīng)獲得了最優(yōu)權(quán)重集合。而負(fù)責(zé)衡量預(yù)測結(jié)果錯誤程度的loss函數(shù)則因此隨時間推移而變低。

反向傳播在計算圖的訓(xùn)練當(dāng)中扮演著極為重要的角色，但我們還需要加入一點數(shù)學(xué)手段讓結(jié)果更為準(zhǔn)確。而這也正是TensorFlow的專長所在：我們只要將全部“前進(jìn)”操作表達(dá)為計算圖當(dāng)中的節(jié)點，其即可自動意識到“后退”操作代表的是反向傳播——我們完全無需親自進(jìn)行任何數(shù)學(xué)運算。太棒了!

Tensorflow到底是什么?

在以上計算圖當(dāng)中，數(shù)據(jù)流向為從左至右，即代表由輸入到輸出。而這正是TensorFlow中“流(flow)”的由來。不過Tensor又是什么?

Tensor一詞本義為張量，而此計算圖中全部數(shù)據(jù)流皆以張量形式存在。所謂張量，其實際代表的就是一個n維數(shù)組。我曾經(jīng)提到W是一項權(quán)重矩陣，但從TensorFlow的角度來看，其實際上屬于一項二階張量——換言之，一個二組數(shù)組。

一個標(biāo)量代表一個零階張量。
一個向量代表一個一階張量。
一個矩陣代表一個二階張量。
一個三維數(shù)組代表一個三階張量。

之后以此類推……

這就是Tensor的全部含義。在卷積神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)方案當(dāng)中，大家會需要與四維張量打交道。但本示例中提到的邏輯分類器要更為簡單，因此我們在這里最多只涉及到二階張量——即矩陣。

我之前還提到過，x代表一個向量——或者說一個一階張量——但接下來我們同樣將其視為一個矩陣。y亦采用這樣的處理方式。如此一來，我們即可將數(shù)據(jù)庫組視為整體對其loss進(jìn)行計算。

一條簡單的示例(example)語音內(nèi)包含20個數(shù)據(jù)元素。如果大家將全部3168條示例加載至x當(dāng)中，則x會成為一個3168 x 20的矩陣。再將x與W相乘，則得出的結(jié)果y_pred為一個3168 x 1的矩陣。具體來講，y_pred代表的是為數(shù)據(jù)集中的每條語音示例提供一項預(yù)測結(jié)論。

通過將我們的計算圖以矩陣/張量的形式進(jìn)行表達(dá)，我們可以一次性對多個示例進(jìn)行預(yù)測。

安裝TensorFlow

好的，以上是本次教程的理論基礎(chǔ)，接下來進(jìn)入實際操作階段。

我們將通過Python使用TensorFlow。大家的Mac設(shè)備可能已經(jīng)安裝有某一Python版本，但其版本可能較為陳舊。在本教程中，我使用的是Python 3.6，因此大家最好也能安裝同一版本。

安裝Python 3.6非常簡單，大家只需要使用Homebrew軟件包管理器即可。如果大家還沒有安裝homebrew，請點擊此處參閱相關(guān)指南。

接下來打開終端并輸入以下命令，以安裝Python的最新版本：

brew install python3

Python也擁有自己的軟件包管理器，即pip，我們將利用它安裝我們所需要的其它軟件包。在終端中輸入以下命令：

pip3 install numpy 
 
pip3 install scipy 
 
pip3 install scikit-learn 
 
pip3 install pandas 
 
pip3 install tensorflow

除了TensorFlow之外，我們還需要安裝NumPy、SciPy、pandas以及scikit-learn：

NumPy是一套用于同n級數(shù)組協(xié)作的庫。聽起來耳熟嗎?NumPy并非將其稱為張量，但之前提到了數(shù)組本身就是一種張量。TensorFlow Python API就建立在NumPy基礎(chǔ)之上。

SciPy是一套用于數(shù)值計算的庫。其它一些軟件包的起效需要以之為基礎(chǔ)。

pandas負(fù)責(zé)數(shù)據(jù)集的加載與清理工作。

scikit-learn在某種意義上可以算作TensorFlow的競爭對手，因為其同樣是一套用于機器學(xué)習(xí)的庫。我們之所以在本項目中加以使用，是因為它具備多項便利的功能。由于TensorFlow與scikit-learn皆使用NumPy數(shù)組，因為二者能夠順暢實現(xiàn)協(xié)作。

實際上，大家無需pandas與scikit-learn也能夠使用TensorFlow，但二者確實能夠提供便捷功能，而且每一位數(shù)據(jù)科學(xué)家也都樂于加以使用。

如大家所知，這些軟件包將被安裝在/usr/local/lib/python3.6/site-packages當(dāng)中。如果大家需要查看部分未被公布在其官方網(wǎng)站當(dāng)中的TensorFlow源代碼，則可以在這里找到。

備注：pip應(yīng)會為您的系統(tǒng)自動安裝TensorFlow的最佳版本。如果大家希望安裝其它版本，則請點擊此處參閱官方安全指南。另外，大家也可以利用源代碼自行構(gòu)建TensorFlow，這一點我們稍后會在面向iOS構(gòu)建TensorFlow部分中進(jìn)行說明。

下面我們進(jìn)行一項快速測試，旨在確保一切要素都已經(jīng)安裝就緒。利用以下內(nèi)容創(chuàng)建一個新的tryit.py文件：

import tensorflow as tf  
 a = tf.constant([1, 2, 3])  
b = tf.constant([4, 5, 6])  
sess = tf.Session(config=tf.ConfigProto(log_device_placement=True))   
print(sess.run(a + b))

而后通過終端運行這套腳本：

python3 tryit.py

其會顯示一些與TensorFlow運行所在設(shè)備相關(guān)的調(diào)試信息(大多為CPU信息，但如果您所使用的Mac設(shè)備配備有英偉達(dá)GPU，亦可能提供GPU信息)。最終結(jié)果顯示為：

[5 7 9]

這里代表的是兩個向量a與b的加和。另外，大家可能還會看到以下信息：

W tensorflow/core/platform/cpu_feature_guard.cc:45] The TensorFlow library wasn't compiled to use SSE4.1 instructions, but these are available on your machine and could speed up CPU computations.

如果出現(xiàn)上述內(nèi)容，則代表您在系統(tǒng)當(dāng)中安裝的TensorFlow并非當(dāng)前CPU的最優(yōu)適配版本。修復(fù)方法之一是利用源代碼自行構(gòu)建TensorFlow，因為這允許大家對全部選項加以配置。但在本示例當(dāng)中，由于其不會造成什么影響，因此直接忽略即可。深入觀察訓(xùn)練數(shù)據(jù)集

要訓(xùn)練分類器，我們自然需要數(shù)據(jù)。

在本項目當(dāng)中，我們使用來自Kory Becker的“根據(jù)語音判斷性別”數(shù)據(jù)集。為了能夠讓這份教程能夠與TensorFlow指南上的MNIST數(shù)字化識別有所不同，這里我決定在Kaggle.com上尋找數(shù)據(jù)集，并最終選定了這一套。

那么我們到底該如何立足音頻實現(xiàn)性別判斷?下載該數(shù)據(jù)集并打開voice.csv文件之后，大家會看到其中包含著一排排數(shù)字：

我們首先需要強調(diào)這一點，這里列出的并非實際音頻數(shù)據(jù)!相反，這些數(shù)字代表著語音記錄當(dāng)中的不同聲學(xué)特征。這些屬性或者特征由一套腳本自音頻記錄中提取得出，并被轉(zhuǎn)化為這個CSV文件。具體提取方式并不屬于本篇文章希望討論的范疇，但如果大家感興趣，則可點擊此處查閱其原始R源代碼。

這套數(shù)據(jù)集中包含3168項示例(每項示例在以上表格中作為一行)，且基本半數(shù)為男聲錄制、半數(shù)為女聲錄制。每一項示例中存在20項聲學(xué)特征，例如：

以kHz為單位的平均頻率
頻率的標(biāo)準(zhǔn)差
頻譜平坦度
頻譜熵
峰度
聲學(xué)信號中測得的最大基頻
調(diào)制指數(shù)
等等……

別擔(dān)心，雖然我們并不了解其中大多數(shù)條目的實際意義，但這不會影響到本次教程。我們真正需要關(guān)心的是如何利用這些數(shù)據(jù)訓(xùn)練自己的分類器，從而立足于上述特征確保其有能力區(qū)分男性與女性的語音。

如果大家希望在一款應(yīng)用程序當(dāng)中使用此分類器，從而通過錄音或者來自麥克風(fēng)的音頻信息檢測語音性別，則首先需要從此類音頻數(shù)據(jù)中提取聲學(xué)特征。在擁有了這20個數(shù)字之后，大家即可對其分類器加以訓(xùn)練，并利用其判斷語音內(nèi)容為男聲還是女聲。

因此，我們的分類器并不會直接處理音頻記錄，而是處理從記錄中提取到的聲學(xué)特征。

備注：我們可以以此為起點了解深度學(xué)習(xí)與邏輯回歸等傳統(tǒng)算法之間的差異。我們所訓(xùn)練的分類器無法學(xué)習(xí)非常復(fù)雜的內(nèi)容，大家需要在預(yù)處理階段提取更多數(shù)據(jù)特征對其進(jìn)行幫助。在本示例的特定數(shù)據(jù)集當(dāng)中，我們只需要考慮提取音頻記錄中的音頻數(shù)據(jù)。

深度學(xué)習(xí)最酷的能力在于，大家完全可以訓(xùn)練一套神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)如何自行提取這些聲學(xué)特征。如此一來，大家不必進(jìn)行任何預(yù)處理即可利用深度學(xué)習(xí)系統(tǒng)采取原始音頻作為輸入內(nèi)容，并從中提取任何其認(rèn)為重要的聲學(xué)特征，而后加以分類。

這當(dāng)然也是一種有趣的深度學(xué)習(xí)探索方向，但并不屬于我們今天討論的范疇，因此也許日后我們將另開一篇文章單獨介紹。

建立一套訓(xùn)練集與測試集

在前文當(dāng)中，我提到過我們需要以如下步驟對分類器進(jìn)行訓(xùn)練：

向其交付來自數(shù)據(jù)集的全部示例。
衡量預(yù)測結(jié)果的錯誤程度。
根據(jù)loss調(diào)整權(quán)重。

事實證明，我們不應(yīng)利用全部數(shù)據(jù)進(jìn)行訓(xùn)練。我們只需要其中的特定一部分?jǐn)?shù)據(jù)——即測試集——從而評估分類器的實際工作效果。因此，我們將把整體數(shù)據(jù)集拆分為兩大部分：訓(xùn)練集，用于對分類器進(jìn)行訓(xùn)練; 測試集，用于了解該分類器的預(yù)測準(zhǔn)確度。

為了將數(shù)據(jù)拆分為訓(xùn)練集與測試集，我創(chuàng)建了一套名為split_data.py的Python腳本，其內(nèi)容如下所示：

import numpy as np               # 1  
import pandas as pd  df = pd.read_csv("voice.csv", header=0)        #2   
labels = (df["label"] == "male").values * 1    # 3  
labels = labels.reshape(-1, 1)                 # 4   
del df["label"]                  # 5  
data = df.values   
 
# 6  
from sklearn.model_selection import train_test_split X_train,  
X_test, y_train, y_test = train_test_split(data, labels,                                          test_size=0.3, random_state=123456)  
np.save("X_train.npy", X_train)  # 7  
np.save("X_test.npy", X_test)  
np.save("y_train.npy", y_train)  
np.save("y_test.npy", y_test)

下面我們將分步驟了解這套腳本的工作方式：

首先導(dǎo)入NumPy與pandas軟件包。Pandas能夠輕松實現(xiàn)CSV文件的加載，并對數(shù)據(jù)進(jìn)行預(yù)處理。
利用pandas從voice.csv加載數(shù)據(jù)集并將其作為dataframe。此對象在很大程度上類似于電子表格或者SQL表。
這里的label列包含有該數(shù)據(jù)集的各項標(biāo)簽：即該示例為男聲或者女聲。在這里，我們將這些標(biāo)簽提取進(jìn)一個新的NumPy數(shù)組當(dāng)中。各原始標(biāo)簽為文本形式，但我們將其轉(zhuǎn)化為數(shù)字形式，其中1=男聲，0=女聲。(這里的數(shù)字賦值方式可任意選擇，在二元分類器中，我們通常使用1表示‘正’類，或者說我們試圖檢測的類。)
這里創(chuàng)建的新labels數(shù)組是一套一維數(shù)組，但我們的TensorFlow腳本則需要一套二維張量，其中3168行中每一行皆對應(yīng)一列。因此我們需要在這里對數(shù)組進(jìn)行“重塑”，旨在將其轉(zhuǎn)化為二維形式。這不會對內(nèi)存中的數(shù)據(jù)產(chǎn)生影響，而僅變化NumPy對數(shù)據(jù)的解釋方式。
在完成label列之后，我們將其從dataframe當(dāng)中移除，這樣我們就只剩下20項用于描述輸入內(nèi)容的特征。我們還將把該dataframe轉(zhuǎn)換為一套常規(guī)NumPy數(shù)組。
這里，我們利用來自scikit-learn的一項helper函數(shù)將data與labels數(shù)組拆分為兩個部分。這種對數(shù)據(jù)集內(nèi)各示例進(jìn)行隨機洗牌的操作基于random_state，即一類隨機生成器。無論具體內(nèi)容為何，但只要青筋相同內(nèi)容，我們即創(chuàng)造出了一項可重復(fù)進(jìn)行的實驗。
最后，將四項新的數(shù)組保存為NumPy的二進(jìn)制文件格式?，F(xiàn)在我們已經(jīng)擁有了一套訓(xùn)練集與一套測試集!

大家也可以進(jìn)行額外的一些預(yù)處理對腳本中的數(shù)據(jù)進(jìn)行調(diào)整，例如對特征進(jìn)行擴展，從而使其擁有0均值及相等的方差，但由于本次示例項目比較簡單，所以并無深入調(diào)整的必要。

利用以下命令在終端中運行這套腳本：

python3 split_data.py

這將給我們帶來4個新文件，其中包含有訓(xùn)練救命(X_train.npy)、這些示例的對應(yīng)標(biāo)簽(y_train.npy)、測試示例(X_test.npy)及其對應(yīng)標(biāo)簽(y_test.npy)。

備注：大家可能想了解為什么這些變量名稱為何有些是大寫，有些是小寫。在數(shù)學(xué)層面來看，矩陣通常以大寫表示而向量則以小寫表示。在我們的腳本中，X代表一個矩陣，y代表一個向量。這是一種慣例，大部分機器學(xué)習(xí)代碼中皆照此辦理。

建立計算圖

現(xiàn)在我們已經(jīng)對數(shù)據(jù)進(jìn)行了梳理，而后即可編寫一套腳本以利用TensorFlow對這套邏輯分類器進(jìn)行訓(xùn)練。這套腳本名為train.py。為了節(jié)省篇幅，這里就不再列出腳本的具體內(nèi)容了，大家可以點擊此處在GitHub上進(jìn)行查看。

與往常一樣，我們首先需要導(dǎo)入需要的軟件包。在此之后，我們將訓(xùn)練數(shù)據(jù)加載至兩個NumPy數(shù)組當(dāng)中，即X_train與y_train。(我們在本腳本中不會使用測試數(shù)據(jù)。)

import numpy as np  
import tensorflow as tf   
X_train = np.load("X_train.npy")  
y_train = np.load("y_train.npy")

現(xiàn)在我們可以建立自己的計算圖。首先，我們?yōu)槲覀兊妮斎雰?nèi)容x與y定義所謂placeholders(占位符)：

num_inputs = 20  
num_classes = 1   
 
with tf.name_scope("inputs"):      
    x = tf.placeholder(tf.float32, [None, num_inputs], name="x-input")      
    y = tf.placeholder(tf.float32, [None, num_classes], name="y-input")

其中tf.name_scope("...")可用于對該計算圖中的不同部分按不同范圍進(jìn)行分組，從而簡化對計算圖內(nèi)容的理解。我們將x與y添加至“inputs”范圍之內(nèi)。我們還將為其命名，分別為“x-input”與“y-input”，這樣即可在隨后輕松加以引用。

大家應(yīng)該還記得，每條輸入示例都是一個包含20項元素的向量。每條示例亦擁有一個標(biāo)簽(1代表男聲，0代表女聲)。我之前還提到過，我們可以將全部示例整合為一個矩陣，從而一次性對其進(jìn)行全面計算。正因為如此，我們這里將x與y定義為二維張量：x擁有[None, 20]維度，而y擁有[None, 1]維度。

其中的None代表第一項維度為靈活可變且目前未知。在訓(xùn)練集當(dāng)中，我們將2217條示例導(dǎo)入x與y; 而在測試集中，我們引入951條示例?，F(xiàn)在，TensorFlow已經(jīng)了解了我們的輸入內(nèi)容，接下來對分類器的parameters(參數(shù))進(jìn)行定義：

with tf.name_scope("model"):      
    W = tf.Variable(tf.zeros([num_inputs, num_classes]), name="W")      
    b = tf.Variable(tf.zeros([num_classes]), name="b")

其中的張量W包含有分類器將要學(xué)習(xí)的權(quán)重(這是一個20 x 1矩陣，因為其中包含20條輸入特征與1條輸出結(jié)果)，而b則包含偏離值。這二者被聲明為TensorFlow變量，意味著二者可在反向傳播過程當(dāng)中實現(xiàn)更新。

在一切準(zhǔn)備就緒之后，我們可以對作為邏輯回歸分類器核心的計算流程進(jìn)行聲明了：

y_pred = tf.sigmoid(tf.matmul(x, W) + b)

這里將x與W進(jìn)行相乘，同時加上偏離值b，而后取其邏輯型成長曲線(logistic sigmoid)。如此一來，y_pred中的結(jié)果即根據(jù)x內(nèi)音頻數(shù)據(jù)的描述特性而被判斷為男聲的概率。

備注：以上代碼目前實際還不會做出任何計算——截至目前，我們還只是構(gòu)建起了必要的計算圖。這一行單純是將各節(jié)點添加至計算圖當(dāng)中以作為矩陣乘法(tf.matmul)、加法(+)以及sigmoid函數(shù)(tf.sigmoid)。在完成整體計算圖的構(gòu)建之后，我們方可創(chuàng)建TensorFlow會話并利用實際數(shù)據(jù)加以運行。

到這里任務(wù)還未完成。為了訓(xùn)練這套模型，我們需要定義一項loss函數(shù)。對于一套二元邏輯回歸分類器，我們需要使用log loss，幸運的是TensorFlow本身內(nèi)置有一項log_loss()函數(shù)可供直接使用：

with tf.name_scope("loss-function"):      
    loss = tf.losses.log_loss(labels=y, predictions=y_pred)      
    loss += regularization * tf.nn.l2_loss(W)

其中的log_loss計算圖節(jié)點作為輸入內(nèi)容y，我們會獲取與之相關(guān)的示例標(biāo)簽并將其與我們的預(yù)測結(jié)果y_pred進(jìn)行比較。以數(shù)字顯示的結(jié)果即為loss值。

在剛開始進(jìn)行訓(xùn)練時，所有示例的預(yù)測結(jié)果y_pred皆將為0.5(或者50%男聲)，這是因為分類器本身尚不清楚如何獲得正確答案。其初始loss在經(jīng)-1n(0.5)計算后得出為0.693146。而在訓(xùn)練的推進(jìn)當(dāng)中，其loss值將變得越來越小。

第二行用于計算loss值與所謂L2 regularization(正則化)的加值。這是為了防止過度擬合阻礙分類器對訓(xùn)練數(shù)據(jù)的準(zhǔn)確記憶。這一過程比較簡單，因為我們的分類器“內(nèi)存”只包含20項權(quán)重值與偏離值。不過正則化本身是一種常見的機器學(xué)習(xí)技術(shù)，因此在這里必須一提。

這里的regularization值為另一項占位符：

with tf.name_scope("hyperparameters"):      
    regularization = tf.placeholder(tf.float32, name="regularization")      
    learning_rate = tf.placeholder(tf.float32, name="learning-rate")

我們還將利用占位符定義我們的輸入內(nèi)容x與y，不過二者的作用是定義hyperparameters。

Hyperparameters允許大家對這套模型及其具體訓(xùn)練方式進(jìn)行配置。其之所以被稱為“超”參數(shù)，是因為與常見的W與b參數(shù)不同，其并非由模型自身所學(xué)習(xí)——大家需要自行將其設(shè)置為適當(dāng)?shù)闹怠?/p>

其中的learning_rate超參數(shù)負(fù)責(zé)告知優(yōu)化器所應(yīng)采取的調(diào)整幅度。該優(yōu)化器(optimizer)負(fù)責(zé)執(zhí)行反向傳播：其會提取loss值并將其傳遞回計算圖以確定需要對權(quán)重值與偏離值進(jìn)行怎樣的調(diào)整。這里可以選擇的優(yōu)化器方案多種多樣，而我們使用的為ADAM：

with tf.name_scope("train"):      
    optimizer = tf.train.AdamOptimizer(learning_rate)      
    train_op = optimizer.minimize(loss)

其能夠在計算圖當(dāng)中創(chuàng)建一個名為train_op的節(jié)點。我們稍后將運行此節(jié)點以訓(xùn)練分類器。為了確定該分類器的運行效果，我們還需要在訓(xùn)練當(dāng)中偶爾捕捉快照并計算其已經(jīng)能夠在訓(xùn)練集當(dāng)中正確預(yù)測多少項示例。訓(xùn)練集的準(zhǔn)確性并非分類器運行效果的最終檢驗標(biāo)準(zhǔn)，但對其進(jìn)行追蹤能夠幫助我們在一定程度上把握訓(xùn)練過程與預(yù)測準(zhǔn)確性趨勢。具體來講，如果越是訓(xùn)練結(jié)果越差，那么一定是出了什么問題!

下面我們?yōu)橐粋€計算圖節(jié)點定義計算精度：

with tf.name_scope("score"):     
    correct_prediction = tf.equal(tf.to_float(y_pred > 0.5), y)      
    accuracy = tf.reduce_mean(tf.to_float(correct_prediction), name="accuracy")

我們可以運行其中的accuracy節(jié)點以查看有多少個示例得到了正確預(yù)測。大家應(yīng)該還記得，y_pred中包含一項介于0到1之間的概率。通過進(jìn)行tf.to_float(y_pred > 0.5)，若預(yù)測結(jié)果為女聲則返回值為0，若預(yù)測結(jié)果為男聲則返回值為1。我們可以將其與y進(jìn)行比較，y當(dāng)中包含有正確值。而精度值則代表著正確預(yù)測數(shù)量除以預(yù)測總數(shù)。

在此之后，我們將利用同樣的accuracy節(jié)點處理測試集，從而了解這套分類器的實際工作效果。

另外，我們還需要定義另外一個節(jié)點。此節(jié)點用于對我們尚無對應(yīng)標(biāo)簽的數(shù)據(jù)進(jìn)行預(yù)測：

with tf.name_scope("inference"):      
    inference = tf.to_float(y_pred > 0.5, name="inference")

為了將這套分類器引入應(yīng)用，我們還需要記錄幾個語音文本詞匯，對其進(jìn)行分析以提取20項聲學(xué)特征，而后再將其交付至分類器。由于處理內(nèi)容屬于全新數(shù)據(jù)，而非來自訓(xùn)練或者測試集的數(shù)據(jù)，因此我們顯然不具備與之相關(guān)的標(biāo)簽。大家只能將數(shù)據(jù)直接交付至分類器，并希望其能夠給出正確的預(yù)測結(jié)果。而inference節(jié)點的作用也正在于此。

好的，我們已經(jīng)投入了大量精力來構(gòu)建這套計算圖?，F(xiàn)在我們希望利用訓(xùn)練集對其進(jìn)行實際訓(xùn)練。

訓(xùn)練分類器

訓(xùn)練通常以無限循環(huán)的方式進(jìn)行。不過對于這套簡單的邏輯分類器，這種作法顯然有點夸張——因為其不到一分鐘即可完成訓(xùn)練。但對于深層神經(jīng)網(wǎng)絡(luò)，我們往往需要數(shù)小時甚至數(shù)天時間進(jìn)行腳本運行——直到其獲得令人滿意的精度或者您開始失去耐心。

以下為train.py當(dāng)中訓(xùn)練循環(huán)的第一部分：

with tf.Session() as sess:      
    tf.train.write_graph(sess.graph_def, checkpoint_dir, "graph.pb", False) 
 
    sess.run(init) 
 
    step = 0      
    while True:              
        # here comes the training code

我們首先創(chuàng)建一個新的TensorFlow session(會話)對象。要運行該計算圖，大家需要建立一套會話。調(diào)用sess.run(init)會將W與b全部重設(shè)為0。

我們還需要將該計算圖寫入一個文件。我們將之前創(chuàng)建的全部節(jié)點序列至/tmp/voice/graph.pb文件當(dāng)中。我們之后需要利用此計算圖定義以立足測試集進(jìn)行分類器運行，并嘗試將該訓(xùn)練后的分類器引入iOS應(yīng)用。

在while True:循環(huán)當(dāng)中，我們使用以下內(nèi)容：

perm = np.arange(len(X_train))          
np.random.shuffle(perm)          
X_train = X_train[perm]          
y_train = y_train[perm]

首先，我們對訓(xùn)練示例進(jìn)行隨機洗牌。這一點非常重要，因為大家當(dāng)然不希望分類器根據(jù)示例的具體順序進(jìn)行判斷——而非根據(jù)其聲學(xué)特征進(jìn)行判斷。

接下來是最重要的環(huán)節(jié)：我們要求該會話運行train_op節(jié)點。其將在計算圖之上運行一次訓(xùn)練：

feed = {x: X_train, y: y_train, learning_rate: 1e-2,                   
                   regularization: 1e-5}          
        sess.run(train_op, feed_dict=feed)

在運行sess.run()時，大家還需要提供一套饋送詞典。其將負(fù)責(zé)告知TensorFlow當(dāng)前占位符節(jié)點的實際值。

由于這只是一套非常簡單的分類器，因此我們將始終一次性對全部訓(xùn)練集進(jìn)行訓(xùn)練，所以這里我們將X_train數(shù)組引入占位符x并將y_train數(shù)組引入占位符y。(對于規(guī)模更大的數(shù)據(jù)集，大家可以先從小批數(shù)據(jù)內(nèi)容著手，例如將示例數(shù)量設(shè)定為100到1000之間。)

到這里，我們的操作就階段性結(jié)束了。由于我們使用了無限循環(huán)，因此train_op節(jié)點會反復(fù)再反復(fù)加以執(zhí)行。而在每一次迭代時，其中的反向傳播機制都會對權(quán)重值W與b作出小幅調(diào)整。隨著時間推移，這將令權(quán)重值逐步趨近于最優(yōu)值。

我們當(dāng)然有必要了解訓(xùn)練進(jìn)度，因此我們需要經(jīng)常性地輸出進(jìn)度報告(在本示例項目中，每進(jìn)行1000次訓(xùn)練即輸出一次結(jié)果)：

if step % print_every == 0:              
    train_accuracy, loss_value = sess.run([accuracy, loss],                                         feed_dict=feed)              
    print("step: %4d, loss: %.4f, training accuracy: %.4f" % \                      
(step, loss_value, train_accuracy))

這一次我們不再運行train_op節(jié)點，而是運行accuracy與loss兩個節(jié)點。我們使用同樣的饋送詞典，這樣accuracy與loss都會根據(jù)訓(xùn)練集進(jìn)行計算。正如之前所提到，訓(xùn)練集中的較高預(yù)測精度并不代表分類器能夠在處理測試集時同樣擁有良好表現(xiàn)，但大家當(dāng)然希望隨著訓(xùn)練的進(jìn)行其精度值不斷提升。與此同時，loss值則應(yīng)不斷下降。

另外，我們還需要時不時保存一份checkpoint：

if step % save_every == 0:              
    checkpoint_file = os.path.join(checkpoint_dir, "model")              
    saver.save(sess, checkpoint_file)                          
    print("*** SAVED MODEL ***")

其會獲取分類器當(dāng)前已經(jīng)學(xué)習(xí)到的W與b值，并將其保存為一個checkpoint文件。此checkpoint可供我們參閱，并判斷分類器是否已經(jīng)可以轉(zhuǎn)而處理測試集。該checkpoinit文件同樣被保存在/tmp/voice/目錄當(dāng)中。

使用以下命令在終端中運行該訓(xùn)練腳本：

python3 train.py

輸出結(jié)果應(yīng)如下所示：

Training set size: (2217, 20)  
Initial loss: 0.693146  
step:    0, loss: 0.7432, training accuracy: 0.4754  
step: 1000, loss: 0.4160, training accuracy: 0.8904  
step: 2000, loss: 0.3259, training accuracy: 0.9170  
step: 3000, loss: 0.2750, training accuracy: 0.9229  
step: 4000, loss: 0.2408, training accuracy: 0.9337  
step: 5000, loss: 0.2152, training accuracy: 0.9405  
step: 6000, loss: 0.1957, training accuracy: 0.9553  
step: 7000, loss: 0.1819, training accuracy: 0.9594  
step: 8000, loss: 0.1717, training accuracy: 0.9635  
step: 9000, loss: 0.1652, training accuracy: 0.9666  
*** SAVED MODEL ***  
step: 10000, loss: 0.1611, training accuracy: 0.9702  
step: 11000, loss: 0.1589, training accuracy: 0.9707  
. . .

當(dāng)發(fā)現(xiàn)loss值不再下降時，就稍等一下直到看到下一條*** SAVED MODEL ***信息，這時按下Ctrl+C以停止訓(xùn)練。

在超參數(shù)設(shè)置當(dāng)中，我選擇了正規(guī)化與學(xué)習(xí)速率，大家應(yīng)該會看到其訓(xùn)練集的準(zhǔn)確率已經(jīng)達(dá)到約97%，而loss值則約為0.157。(如果大家在饋送詞典中將regularization設(shè)置為0，則loss甚至還能夠進(jìn)一步降低。)

上半部分到此結(jié)束，下半部分我們將察看訓(xùn)練的實際效果，以及如何在iOS上使用TensorFlow，最后討論一下iOS上使用TensorFlow的優(yōu)劣。

責(zé)任編輯：龐桂玉來源：移動開發(fā)前線

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營