搜狗輸入法的前世今生
如今,在所有的中文文字軟件當中,搜狗輸入法無疑是最成功的產(chǎn)品。搜狗輸入法究竟有多成功?一組數(shù)據(jù)可以說明:用戶量超過3 億,市場份額80%以上,80000 多款輸入法皮膚,104 項專利(其中國際專利超過10 項)。
“剛開始做輸入法的時候,我們不敢想象它會成為一款有3 億用戶規(guī)模的產(chǎn)品。應該說,目前搜狗輸入法的成績遠超當時的預期”,搜狗桌面事業(yè)部總經(jīng)理楊洪濤坦陳。那么,為什么只有搜狗做成了輸入法?
“不靠譜”的創(chuàng)意
“當時決定做搜狗輸入法的原因其實很簡單,并沒有公司高層的戰(zhàn)略規(guī)劃之類的因素。當時搜狗缺少項目,我們把這個項目報了上去,上面批了,然后就做了搜狗輸入法。”
搜狗輸入法的創(chuàng)意其實來自互聯(lián)網(wǎng)之外。2005年,本科剛畢業(yè)、在太原一家國企做機械設計的馬占凱發(fā)現(xiàn)了一種“省力”的中文輸入方法:只要在搜索框里輸入相應的拼音(比如zhoujielun),獲得搜索引擎相應的提示(“您要找的是不是:周杰倫”),復制粘貼過來即可。由此,他產(chǎn)生了一個大膽的想法:用搜索引擎做輸入法。
接下來,馬占凱給國內(nèi)做搜索引擎的公司逐一發(fā)送電子郵件,提出了“搜索+輸入法”這個創(chuàng)意,最后卻都石沉大海,只有搜狗接納了他,不過也不是因為輸入法。當時的搜狗仍然專注于搜索,而馬占凱在電子郵件中對搜狗搜索提出了很多產(chǎn)品細節(jié)的改進建議,引起了搜狗的重視。
在2005 年,誰還會想到進入輸入法領域呢?早在上世紀九十年代,微軟就相繼收購了智能ABC 并開發(fā)微軟拼音,捆綁在Windows 操作系統(tǒng)(中文版)之中。此后還有一些來自個人程序員的作品。到了此時,市場格局已定,智能ABC、紫光拼音、拼音加加和微軟拼音占據(jù)了90%的市場份額。
進入搜狗的馬占凱一開始被分到了搜索項目組,但是他并沒有忘記當初的構(gòu)想,一有機會就去游說搜狗的高層,最后說服了當時的負責人王建軍和王小川。
此前,身為搜狐研發(fā)中心的搜狗團隊雖然擁有搜狐最主要的研發(fā)力量,卻一直沒有機會在市場上證明自己的價值。作為搜索行業(yè)的后來者,搜狗想在百度、谷歌領先的情況下獲得重大突圍幾乎沒有可能。搜狗還先后做過工具條、音樂客戶端等產(chǎn)品,但都沒有成功。
輸入法對于搜索業(yè)務是否會有促進?楊洪濤透露:“當時的設想是在輸入法上放個搜索框,或者按個快捷鍵去搜索,希望通過這種方式給搜索帶來流量。”事后證明,這個設想不靠譜。不過,就是因為這個“不靠譜”的想法,搜狗輸入法項目才得以批準。
靠譜的產(chǎn)品
輸入法立項之后,一開始的想法是收購當時廣受用戶好評的紫光拼音,結(jié)果卻沒有談成。這樣一來,搜狗只能從最基礎的階段開始自主研發(fā)。如果當時收購紫光成功,如果一開始只是把輸入法當成流量來源而不是戰(zhàn)略級產(chǎn)品,也許第一件事情就是想辦法把紫光的用戶轉(zhuǎn)變成搜狗搜索的用戶。這樣,搜狗也就不可能從最基礎的階段做研發(fā),輸入法也不太可能轉(zhuǎn)變成搜狗的戰(zhàn)略級產(chǎn)品。
一開始,搜狗輸入法的研發(fā)人員并不多,第一年只有幾個人專職參與,但同時復用了搜狗搜索的技術(shù)積累。當時在清華大學人工智能實驗室讀博士的楊磊成了搜狗輸入法項目的第一批研發(fā)人員。
事實上,最開始做輸入法的時候,楊磊的心里相當沒譜——輸入法這種基礎產(chǎn)品如何才能做好?直到設計出最初的語言模型之后,他才第一次體會到了其中的妙趣。
與其他輸入法不同,搜狗輸入法是第一款為互聯(lián)網(wǎng)而生的輸入法——它通過搜索引擎技術(shù),將互聯(lián)網(wǎng)變成了一個巨大的“活”詞庫。網(wǎng)民們不僅僅只是詞庫的使用者,同時也是詞庫的生產(chǎn)者。正是由于互聯(lián)網(wǎng)的思維方式,使得搜狗輸入法得以后來居上。
“我隨意在網(wǎng)上找了一篇新聞,然后用搜狗輸入法對著敲了一遍,幾乎沒有錯別字,當時就給我一個特別震撼的感覺。”楊磊回憶道。當時正值超級女聲最火的時候,最流行的關(guān)鍵詞是“李宇春”和“張靚穎”。“以往的輸入法都打不出這些詞,我們把互聯(lián)網(wǎng)詞庫引入之后,這個問題就解決了。”
搜狗輸入法正式推出的時間是2006 年6 月5 日,過了4 天,德國世界杯就開幕了。一時間,伴隨著網(wǎng)民的熱議,羅納爾多、齊達內(nèi)、巴拉克、格羅索等足球明星的名字都進入了搜狗詞庫。這些熱點事件和熱詞進一步提升了搜狗輸入法的口碑,并在網(wǎng)民中傳播了開來。#p#
持續(xù)的改進
一個互聯(lián)網(wǎng)產(chǎn)品要取得成功,好的開始固然重要,持續(xù)的改進更為重要。當然,這個過程非常艱難。在解決了最核心的互聯(lián)網(wǎng)詞庫和中文語言模型問題之后,最令人抓狂的就是如何提升搜狗輸入法在Windows 下的兼容穩(wěn)定性。作為美國人開發(fā)的操作系統(tǒng),當時的Windows 對整個東亞語言的開發(fā)支持都不夠完善。“跟其他應用軟件不一樣,輸入法需要與很多第三方軟件打交道,如果兼容性差不僅會直接導致軟件崩潰,甚至會造成系統(tǒng)宕機。”楊洪濤說,“當時微軟開發(fā)文檔中對輸入法相關(guān)的接口描述很不清晰,也欠缺標準。我們好通過逆向工程,不斷分析、摸索和試錯,逐漸找到了過河的道路。”
另一方面,雖然互聯(lián)網(wǎng)上內(nèi)容豐富,但是卻是魚龍混雜。網(wǎng)友在發(fā)布內(nèi)容時有意無意地會寫出很多錯別字,而搜索引擎把這些內(nèi)容抓取之后,如果不加篩選地放入詞庫,就會產(chǎn)生大量的錯誤詞語,錯音錯型的尤其多。
為了解決這個問題,除了技術(shù)手段之外,很多時候只能通過人工鑒別的辦法來解決。為此,搜狗專門請了北大中文系畢業(yè)的劉媛尊帶隊整理詞庫,把幾十萬個詞條一個個進行人工審閱和校對。
這個工作從2006 年底開始,一直進行了3 個月,一本《現(xiàn)代漢語詞典》被她翻了不知道有多少遍。“基本上所有的詞條我都打了一遍,當時最大的感覺就是如果再有機會加高考,語文試卷的錯字識別我肯定輕松拿下。”劉媛尊回憶道,“記得當時我們建了一個郵件列表,每天發(fā)送錯詞更新,就像非典時期的病例報告一樣。一開始錯詞的數(shù)量每天有一百多個,到后來減少到了幾十個、十幾個、幾個。”就是憑著這股愚公移山的精神,所有的詞條都被人工過濾了一遍。直到有一天,他們發(fā)現(xiàn)郵件列表里已經(jīng)連續(xù)一個星期都沒有發(fā)現(xiàn)錯誤的時候,才知道自己竟然把這個不可能完成的任務完成了。
“幫忙”的谷歌
此時,互聯(lián)網(wǎng)巨人谷歌竟然也看上了輸入法這個極其中國化的領域,希望將其打造成谷歌本地化的一個標志性產(chǎn)品。
搜狗推出輸入法后不久,谷歌也啟動了輸入法的開發(fā)。對于一款軟件產(chǎn)品來說,這個時間差并不能構(gòu)成太大的領先優(yōu)勢,更何況對手還是谷歌這個互聯(lián)網(wǎng)巨頭。
2007 年4 月4 日,谷歌拼音輸入法正式上線。不過,搜狗很快就發(fā)現(xiàn),谷歌輸入法涉嫌盜用搜狗輸入法詞庫。隨后,搜狗公布了雙方拼音輸入法的一些詞庫重詞,不僅一些錯詞一模一樣,谷歌輸入法詞庫中竟然還出現(xiàn)了搜狗開發(fā)團隊的一些生僻名字。很快,各家媒體都對“谷歌盜用搜狗詞庫”進行口誅筆伐,網(wǎng)民更是鋪天蓋地質(zhì)疑號稱“不作惡”的谷歌;4 月9 日,谷歌不得不在官方博客上向搜狗公開道歉。
通過這次事件,搜狗輸入法一時間吸引了全社會的目光,得以聲名鵲起。而對于搜狗來說,更重要的收獲就是搜狐決策層對輸入法的重視程度比以往高出了不少,不僅投入增加了好幾倍,還將輸入法上升到了公司戰(zhàn)略級產(chǎn)品的高度。
通過這件事情,搜狗也更加重視知識產(chǎn)權(quán)的保護工作。在此之前,搜狗已經(jīng)成立了專利工作組。谷歌侵權(quán)事件之后,搜狗加強了專利的申報工作。如今,搜狗輸入法已經(jīng)向國家知識產(chǎn)權(quán)局申報了100 多項的專利,其中還有超過10 項的國際專利。這些專利已經(jīng)構(gòu)成了強大的競爭壁壘,使得競爭對手難以超越。
發(fā)現(xiàn)“量子理論”
不過,當時剛剛推出中文輸入法一年的搜狗卻發(fā)現(xiàn)自己陷入了“叫好不叫座”的困境。雖然用過搜狗輸入法的用戶都在交口稱贊,甚至還有人上門送錦旗,但是搜狗輸入法的用戶拓展卻并不理想。一年過去了,雖然動用了搜狐首頁的廣告資源,加上各種媒體的宣傳,搜狗輸入法的市場份額仍然只有可憐的2%。
這也讓搜狗研發(fā)負責人王小川(現(xiàn)任搜狗首席執(zhí)行官)感到非常疑惑:明明是一個非常好的產(chǎn)品,搜狐也在很努力地使用各種資源做推廣,為什么卻沒有用戶?整個2007 年,這件事情都給王小川帶來了非常大的困擾。“這件事的意義對于我來說就像發(fā)現(xiàn)量子理論一樣,世界的模式突然跟你想的不一樣了,顛覆你之前的價值觀。”
最終,王小川決定換一種思維方式。在得到搜狐董事長張朝陽的特批之后,王小川開始在搜狗這個“純”產(chǎn)品和研發(fā)部門組建商務團隊,而且不再選擇搜狐首頁,而是去下載站、裝機光盤和各種能想到的渠道做推廣。今天,到外面買流量,用各種方法做推廣大家會覺得很正常,但是在當時的搜狐,這么做甚至可以說是“政治”錯誤。
但是當時已經(jīng)沒了退路。本來輸入法在搜狐內(nèi)部就不是核心業(yè)務,如果再不能折騰出點動靜,這塊業(yè)務的結(jié)局可想而知。正所謂置之死地而后生,放開了手腳的搜狗僅僅用了半年的時間,就證明了這條道路是走得通的。2008 年,搜狗輸入法的市場份額從2%飆升到了40%;而到了2009 年,這個數(shù)字變成了70%!
更重要的是,搜狗顛覆了搜狐的傳統(tǒng)觀念,給搜狐普及了“渠道”的概念。通過這次事件,王小川也意識到,技術(shù)產(chǎn)品型的搜狗要在媒體屬性的搜狐內(nèi)部取得大的發(fā)展,需要突破太多有形和無形的阻礙,這也更加堅定了他的決心,從而有了2010年搜狗的獨立運營。#p#
相信未來
到了2009 年,已經(jīng)在中文輸入法占據(jù)了壓倒性優(yōu)勢的搜狗并沒有停下創(chuàng)新的腳步,又開始了新的嘗試。
對于輸入法來說,最困難的其實是語言模型,要想讓輸入法進一步提升準確率,更加智能地幫助用戶輸入成語、詩詞等生僻詞甚至長句,就必須有一個更大的詞庫和更復雜的計算。當時搜狗輸入法存儲在電腦本地的詞庫大約有45 萬個詞條,如果進一步增加詞條,就會消耗大量的本地計算和存儲資源。這個現(xiàn)實的問題也讓搜狗的技術(shù)團隊抓狂:如何在不增加太多本地資源的基礎上,進一步提高輸入法的準確率?
由此,云輸入法誕生了。大量的詞條不用再存放在本地計算機上,而是放在了云端,用戶在聯(lián)網(wǎng)的條件下可以直接調(diào)用云端詞庫,從而進一步提升準確率。這已經(jīng)很接近搜索引擎的工作原理,而且將云端服務和本地軟件的能力有效地結(jié)合了起來。
更多基于輸入法的新功能也在不斷地推出。搜狗技術(shù)團隊發(fā)現(xiàn),輸入法是電腦中與用戶交流最為頻繁的軟件之一,除了幫助用戶打字之外,它還能夠做些什么?
第一個被反復提及的功能就是皮膚。在搜狗輸入法誕生的那個年代里,各種軟件花花綠綠的皮膚一直是最受大眾用戶追捧的基本功能。搜狗開發(fā)團隊敏銳地捕捉到了這個需求,在2007 年初發(fā)布的3.0 版本中增添了便利的皮膚功能和皮膚編輯器,以超前的開放姿態(tài)建立了分享平臺,鼓勵廣大網(wǎng)友制作并分享獨特的輸入法皮膚。如今,每天超過5000 萬用戶正在使用廣大熱心網(wǎng)友制作的超過8 萬款各式各樣的皮膚,其中像楊冪等明星皮膚的使用量更是達到了數(shù)百萬。
2011 年,搜狗開發(fā)團隊又看到了新的發(fā)展方向,首次嘗試了基于Flash 的動態(tài)皮膚。與傳統(tǒng)靜態(tài)皮膚不同的是,這種基于Flash 的皮膚不僅能滿足用戶美化桌面、彰顯個性的基本需求,還能夠通過與云端服務器的交互,進一步實現(xiàn)更豐富、更具創(chuàng)造力的功能。由此,搜狗輸入法已經(jīng)超越了文字工具的概念,成為互聯(lián)網(wǎng)時代獨特的文化現(xiàn)象。
在“開放共贏”的理念之下,搜狗的Flash 皮膚為眾多第三方合作伙伴提供了一個難得的平臺。如今,搜狗輸入法已經(jīng)發(fā)展了將近200 家合作伙伴,為互聯(lián)網(wǎng)提供了琳瑯滿目、豐富多彩的應用,星座、電臺、天氣預報、背單詞,應有盡有。可以想見,憑借搜狗的創(chuàng)新技術(shù),結(jié)合語音識別、動作捕捉等前端技術(shù)的發(fā)展,未來的搜狗輸入法一定會更加耀眼。
“我特別欣賞喬布斯對于信仰的堅持。他說過,‘只有信仰讓我不會失去希望,它讓我的人生變得與眾不同’。當年我們剛開始做搜狗輸入法的時候,不敢想像會有今天的規(guī)模。”楊洪濤感嘆道,“但是,現(xiàn)在當我們回顧的時候,才發(fā)現(xiàn)正是由于搜狗重視創(chuàng)新和用戶體驗,堅持下來成果就非??捎^了。那一系列的偶然,其實都是一種必然。”
是的,只要肯堅持,成功就會成為必然。
搜狗輸入法的主要貢獻者:
馬占凱 搜狗輸入法產(chǎn)品理念的提出者
楊磊 原搜狗輸入法首位開發(fā)者,現(xiàn)任部門經(jīng)理
王建軍 原搜狐副總裁及搜狗負責人
王小川 原搜狗研發(fā)負責人,現(xiàn)任搜狗CEO
楊洪濤 原搜狗技術(shù)經(jīng)理,現(xiàn)任搜狗桌面事業(yè)部總經(jīng)理
劉媛尊 原搜狗輸入法詞庫審核負責人,現(xiàn)任運營主管
郭奇 原搜狗研究團隊主管,負責輸入法的詞庫和語言模型
感謝所有為搜狗輸入法做出了貢獻的人們!