微信技術(shù)團隊采訪:他們改變了微信的涵義
微信語音團隊負責(zé)人盧鯉
我們時常聽到對張小龍關(guān)于微信設(shè)計的研究,但很少注意到微信背后的技術(shù)團隊。在早期版本中,由于主打信息溝通功能,微信技術(shù)上并無亮點,直到 4.3 版本之后,語音識別、掃一掃功能陸續(xù)的加入,新技術(shù)加上傳感器的結(jié)合正在重新定義微信。
在昨天的“微信·公眾”合作伙伴大會上,微信發(fā)布了語音開放平臺,正式跳出微信范疇,與科大訊飛、云知聲等語音公司進行競爭。同時在本次大會上,微信通過展示控制冰箱、印美圖、電視等設(shè)備,凸顯其在物聯(lián)網(wǎng)中發(fā)揮樞紐作用的潛力。
微信的這些技術(shù)團隊都歸在模式識別中心團隊里,在記者之前的采訪中,詳細的剖析了這個團隊的工作領(lǐng)域、在微信迭代中扮演的角色。那次采訪我們還了解到了不少關(guān)于技術(shù)方面的信息,趁著這次“微信·公眾”合作伙伴大會召開之際發(fā)出來。
模式識別中心在應(yīng)用層上有 2 大塊,分別是語音和掃一掃,在微信團隊看來,它們是人身體的延伸,有著很高的戰(zhàn)略意義,所以必須有自主核心技術(shù)。
語音是站在了更高的起點上
微信語音識別給人突然冒出來的感覺,它的帶隊人是盧鯉,中科大博士畢業(yè),研究方向是語音識別這塊。2011 年蘋果發(fā)布 Siri 后,語音一下子被大家重視起來,這其中也包括騰訊。騰訊在 2011 年底將語音識別作為科研項目在北京研究院啟動,盧鯉進入騰訊帶隊,帶領(lǐng) 3 個人進行攻堅。
其實從技術(shù)上講,老牌的科大訊飛雖然積累了十年,但是由于相關(guān)的行業(yè)論文在技術(shù)研究上已經(jīng)大大進步,知識儲備更齊全,所以盧鯉算是站在一個更高的起點上,可以做到速度比科大訊飛快得多。
另外,按照云知聲創(chuàng)始人梁家恩的說法,語音識別是“會者不難”,懂的人做起來要容易得多。盧鯉和梁家恩也互相認識,都是中科大出身,百度、搜狗的語音負責(zé)人也都是來自同門。
當(dāng)然,做技術(shù)攻堅,其中的辛苦也是不為人知。語音識別技術(shù)從簡單,到可以用,再到好用,中間是一個漫長的過程。盧鯉把每半年算一個節(jié)點,從研發(fā)開始 到微信 5.0 發(fā)布,總共 3 個節(jié)點,每一個節(jié)點性能都有 40% 的提升,但是直到***那個半年,語音識別才有真正的質(zhì)變。
“這就相當(dāng)于一個人吃了 9 張餅沒吃飽,吃了***一張飽了。”盧鯉說道。
這期間,他們經(jīng)歷過兩次封閉開發(fā),也有過張小龍的“循循善誘”。據(jù)悉,產(chǎn)品上線后,用戶數(shù)量上升曲線都很健康,使用率很高。
在微信 5.0 的語音轉(zhuǎn)文字功能中,很多人發(fā)現(xiàn)它的表現(xiàn)不輸科大訊飛。騰訊在語音識別這塊雖然起步不早(不到 2 年),但是在實際應(yīng)用上已經(jīng)走在了前列。
以自然的方式融入產(chǎn)品
Siri 雖然發(fā)布很成功,引爆了這個市場,但是最終卻淪為用戶調(diào)侃的對象,屬于半成品。而語音該如何在微信中呈現(xiàn),避免言過于實的現(xiàn)象,不僅考驗著技術(shù),還考驗著產(chǎn)品能力。
盧鯉認為,語音是不是入口不重要,也不在乎,在乎的是語音識別能做什么事,就像從一個地方到另一個地方,最重要的是能到達,而不是中間發(fā)生了什么。
語音在微信中的呈現(xiàn)形式有三種:語音搜索通訊錄、語音鬧鐘、語音轉(zhuǎn)文字。從微信 4.3 到微信 5.0,語音的介入在一步一步深入,但同時也是受到嚴格限制,僅限于指定的功能,他們認為一旦放開使用范圍,很容易面臨華而不實的境地。
Siri 包含了語音識別、語義識別、搜索等,形成一個閉環(huán),大多數(shù)語音 App 也是如此,但問題是,Siri 等產(chǎn)品暗示著用戶可以做好任何事情,在技術(shù)還沒準備好的情況下,產(chǎn)品很容易變?yōu)殡u肋。微信的考慮是反其道行之,讓用戶明白只能做這些事情,不要制造額外的 期待。而且語音與通訊工具的結(jié)合,天然更加默契,盧鯉覺得:
“通訊錄語音搜索,這在微信里是多么的自然。”
隨著微信·公眾合作伙伴大會的召開,微信的語音終于平臺化,并加強垂直領(lǐng)域的體驗,這都為微信商業(yè)化締造了機會。他們接下來的研發(fā)目標仍然是提升精準度,完善技術(shù)細節(jié),與人腦進行“PK”。
掃一掃的新技術(shù)有很多
微信掃一掃負責(zé)人劉海龍
按照掃一掃負責(zé)人劉海龍所說,掃一掃功能可以識別圖像、文字、人臉、物體檢索,甚至是增強現(xiàn)實,目前微信只推出了文字、圖像識別,這是很多因素綜合 的結(jié)果。值得注意的是,微信掃一掃是采用視頻的方式,數(shù)據(jù)在實時進行著傳輸,不借助本地的資源,掃一掃功能雖然是來源于之前推出的 App 搜搜慧眼,但后者仍然是拍完照再上傳識別。
實時自動的檢測,讓用戶操作少了一步,就像搖一搖搜歌,結(jié)果會實時顯示歌曲播放的位置。從上傳后識別到實時識別,這并不是簡單的技術(shù)遷移,這考驗著 對流量、處理速度的要求,以及云數(shù)據(jù)庫搭建。這樣做的好處不僅提升用戶體驗,而且使得前端輕,重活交給后端,以盡量讓微信保持輕量化。
在掃一掃這塊,微信可以說儲備了一大批新潮的技術(shù),包括名片識別、人臉識別、實景識別、物品檢索、增強現(xiàn)實等?,F(xiàn)有的街景掃描中,微信是根據(jù)你的地 理位置而不是圖像匹配,但劉海龍說,實景掃描這個是可以做的,但問題是這一功能需要大量流量和高速傳輸?shù)木W(wǎng)絡(luò),目前還不適合上線。4G 的上馬將是很多新應(yīng)用的機會,目前很多的工作還在與流量較勁。
掃一掃為何要放 5 個功能,為何二維碼、條形碼沒有歸一類?這背后同樣是微信對產(chǎn)品設(shè)計的思考。劉海龍認為,5 個按鈕清晰的告訴用戶可以做什么,同時也提醒用戶,只能做這些事情。掃一掃功能的理想狀態(tài)應(yīng)該是用戶需要時出現(xiàn),不需要時不出現(xiàn)。
以后,如果流量問題解決了,掃一張電影海報不再是指向影評網(wǎng)站,而是人從畫面中走出來,自動播放預(yù)告片等。另外,物品檢索、商品掃描等,這些事以前 PC 都做不了。
掃描的未來是讓攝像頭成為人類視覺的延伸,連接現(xiàn)實與虛擬世界,由于占據(jù)了極其重要的地位,微信的掃一掃很快會變得更加強大。
可以肯定的是,很多功能內(nèi)部已經(jīng)在逐個測試,視成都度、用戶需求是否上線。據(jù)說微信一次版本更新前會制作幾十個版本,從中挑一個***的版本上線。甚至,他們還會制作一個搭載新功能的微信推送給 100 萬測試用戶,研究使用率,語音轉(zhuǎn)文字功能正是這樣測試通過的。
微信快節(jié)奏的版本迭代并沒有讓他們工作狀態(tài)太過辛苦,做前沿研究,和算法有很大關(guān)系,死憋是做不出來的,需要閑暇狀態(tài)下的靈光一現(xiàn),一旦想通了,做起來就快了。但由于有了微信,他們幾乎是 24 小時在線,隨時溝通工作。
在采訪中,他們多次提到得益于微信平臺,他們的技術(shù)才能有如此大的應(yīng)用空間。微信緊貼用戶,通過對攝像頭、麥克風(fēng)以及其他傳感器上進行應(yīng)用挖掘,已經(jīng)大大改變微信的內(nèi)涵,微信不再是通訊工具,而是個人和企業(yè)的服務(wù)助手。