APP到底有沒有對你錄音?
1
最近各種大促特別多,各家電商都在摩拳擦掌準(zhǔn)備好好在年底收獲一把。
各種APP的促銷推送和商品推薦也是晝夜不停,要讓大家把手留下,干干凈凈過個好年。
這么看來,最大的受害者就是老家等著要壓歲錢的熊孩子們了。
他們不僅要不到錢,可能還要被雙手空空的長輩們反向擼羊毛,小小的年紀(jì)就要承受命運(yùn)的重拳。
說到APP推送以及商品推薦,很多人都有一個恐慌性的顧慮。
那就是懷疑自己的APP在對自己錄音。
經(jīng)常出現(xiàn)一個狀況是,自己和人談?wù)撘粋€事物,然后不久后,自己在購物APP或者搜索引擎或者瀏覽器或者APP的廣告業(yè)中就看到了相關(guān)的廣告,讓人非??只牛X得有一雙神秘的眼睛在看著自己,非常害怕。
怎么說呢,我覺得大家的想象力過于豐富了,這種猜測是合理的,只不過既對也不對。
對的是,我們的生活確實(shí)是被各種精準(zhǔn)推送給占據(jù)了,各大APP也確實(shí)有一定程度上的【猜測】行為,目的也的確是讓你掏錢。
錯的是,沒人給你錄音。
實(shí)際上科技和大數(shù)據(jù)發(fā)展到現(xiàn)在這個程度,錄音屬于非常沒有效率的玩法,音速不夠快。
我們高科技鐮刀,都是光速的。
2
為什么說沒有公司用錄音來做信息采集和廣告推送呢?
不是說公司良心發(fā)現(xiàn),商業(yè)公司有良心其實(shí)本身就是一件很詭異的事情。
而是任何事情都要講一個目的,廣告推送的目的是要追求轉(zhuǎn)化率,要讓自己的利益最大化,成本最低,賣家也是要看性價比的。
從方案成本收益的角度,錄音屬于效率低,利潤低,誤差率高,成本高的沙雕方案,所以沒人做。
那些大膽嘗試錄音方案的朋克們,大部分都是投入產(chǎn)出失衡后破產(chǎn)了,所以你很少見到市面上有完整商業(yè)錄音解析方案,當(dāng)然安防另算,安防對于投入產(chǎn)出的理解和商業(yè)不同。
想想看,如果你要做錄音方案,首先你繞不過的就是APP資源占用,持續(xù)的錄音,對于一個APP而言是很大的負(fù)載,導(dǎo)致的結(jié)果就是APP運(yùn)轉(zhuǎn)效率低下,耗電發(fā)熱大幅增加,跑起來和吃了翔一樣別扭。
而且吧,錄下來的音頻你要怎么保留?本地保留?這個音頻文件會大到超乎想象,一個APP到錄音錄一天,最后錄音文件幾個G,而且有朋克的用戶,直接看你源文件夾,一旦發(fā)現(xiàn)錄音,你可以等待鐵拳打擊了。
在線傳輸?用戶的流量是要錢的,而且用戶定期看手機(jī)流量記錄的時候,發(fā)現(xiàn)就你一個APP耗流量特別大,還不是視頻類或者游戲類APP,分分鐘就暴露了。
本地直接解析?只留存文字?這倒是可行,但是最大的問題在于,你要小心競爭對手反編譯你的安裝包,一旦被人看到相關(guān)代碼和模型,底褲都沒有了。
實(shí)際上很少有互聯(lián)網(wǎng)公司把復(fù)雜模型布置在本地,因?yàn)樘菀妆粚κ种苯悠谱g;
而如果用云模型的方式做錄音解析,流量消耗和網(wǎng)絡(luò)穩(wěn)定性也會讓準(zhǔn)確度大大降低。
從技術(shù)上,錄音是不太合理的方案,不是說不能做,而是做起來成本高,破事兒多。
與道德無關(guān)。
3
錄音如果僅僅是破事兒多就算了,一個東西如果好用,破事兒多其實(shí)并不是很大的問題。
痛并快樂也是一種生活。
但錄音方案最致命的問題在于,消耗了大量資源后,準(zhǔn)確率過于辣雞。
想想看,如果你手上的APP使用了錄音監(jiān)控方案,那么面臨的第一個問題是,需要分辨到底是誰在講話?是不是手機(jī)的主人在講話?聲源就是一個大問題。
試想我走過你的身邊,大喊一聲我愛杰士邦,然后你打開手機(jī),看到了杰士邦的廣告,你覺得是不是非常沙雕?你會不會是得覺得我在性騷擾你?
當(dāng)解決了錄誰的音的問題(聲紋類方案)后,你會遇到第二個問題,需要識別語言準(zhǔn)確度問題。
我們所處的日常環(huán)境是非常嘈雜的,會有大量的雜音,而且很多人的普通話并不標(biāo)準(zhǔn),機(jī)器沒法有效識別,實(shí)際上絕大多數(shù)方言,機(jī)器都無能為力,識別出來各種沙雕。
尤其是溫州話,那是惡魔的語言,戰(zhàn)爭年代可以當(dāng)密碼用的神奇語言。
假如解決了語言準(zhǔn)確度問題,那么還有第三個問題,那就是音頻實(shí)時語義識別問題。
這個問題在當(dāng)前屬于幾乎無解的難題,所有人工智能遇到音頻實(shí)時語義識別都容易變成智障。
注意,我說的語義識別不是所謂的把你講的話翻譯成文字,那個東西難度不大,我說的是,真正理解你語言中的含義。
例如死鬼這個詞,男人跟女人說,男人跟男人說,女人跟男人說,男人跟死對頭說,都是完全不同的含義,但都是死鬼。
人類理解語意是要結(jié)合具體場景,甚至具體說話的人(同一個詞,不同人講出來都不是一個意思),這些都是現(xiàn)階段機(jī)器做不到的。
別說機(jī)器做不到,很多人都做不到,例如:彈性工作制=別想著準(zhǔn)點(diǎn)下班,這誰遭得住。
尤其是APP錄音,需要快速記錄下人們在實(shí)際生活中的快速出現(xiàn)的場景未知的對話對象未知的普通話不標(biāo)準(zhǔn)的神奇對話,還要記錄分析下來,還要精準(zhǔn)獲得含義。
要是真有哪個公司有這個本事,還做個屁推送,直接就諾貝爾獎了。
以上三問,我喜歡稱之為錄音方案靈魂三問,在三問之上,還有終極一問。
記得我前面說做錄音方案的大部分都破產(chǎn)了么,那還有小部分,那小部分去哪里了?
小部分因?yàn)槭占[私被抓進(jìn)去了,徹底財(cái)務(wù)自由了,畢竟監(jiān)獄不用花錢。
4
當(dāng)你讀到這里的時候,你肯定既恍然大悟,又迷惑。
恍然大悟的是覺得確實(shí)不會被錄音,迷惑的是那為什么出現(xiàn)了我說什么,不就之后APP就出現(xiàn)了相關(guān)推送?
我給你這么說吧,沒有公司做錄音,不代表沒有公司利用聲音來收集資料。
只不過這個收集資料的方式不是你以為的大段錄音監(jiān)控,而是通過特定關(guān)鍵詞喚醒。
舉個例子,假如你用蘋果,你會【Hi,Siri】來喚醒siri功能。
假如你用小米,你會【小愛同學(xué)】來喚醒收集。
其實(shí)很多APP的推送,是用了類似的方案的,就是說,根本不記錄你說了什么,也不去分析你說了什么,只要你說出了特定詞,那么就會被喚醒,只不過這個喚醒不是亮屏幕之類的,而是推送邏輯被喚醒給你推送相關(guān)物品。
再舉個栗子,假如是外賣類APP,這種喚醒詞庫可能包含【奶茶】,【披薩】,【烤串】,【麻辣燙】,【哈密瓜】等詞,只要你說出了類似的詞匯,那么可能就會喚醒推送。
例如OTA類APP,這種喚醒詞庫可能包含【旅游】,【泰國】,【簽證】,【酒店】,【度假】等等詞,只要你說了類似的詞,那么可能就會喚醒推送。
再例如購物類APP,喚醒詞庫可能包含【口紅】,【靴子】,【裙子】,【水果】,【筆記本】等等等等詞,只要你說了類似的詞,那么可能就會喚醒推送。
每個APP的詞庫,可能都有數(shù)千乃至數(shù)十萬的詞,基本覆蓋了你可能性的消費(fèi)場景,磨刀霍霍。
很多很神奇的功能,拆穿了也就那樣,就和魔術(shù)一樣。
一個喚醒腳本+詞庫的事情,給搞的那么神秘。
5
雖然詞庫喚醒邏輯是比較切合實(shí)際的方案,但是在實(shí)際的信息收集中,有更多更主流和有效的信息讓商家們知道你是誰,要怎么賣東西給你。
這些你忽略的東西,才是真的關(guān)鍵,我隨便提2個簡單的。
第一個是輸入法。
誰知道你的一切?當(dāng)然是輸入法了。
別總是懷疑什么APP監(jiān)控你的聊天記錄,你首先要懷疑的是,你的輸入法有沒有賣你。
只要你打字,你一定躲不過的就是輸入法,你輸入了什么內(nèi)容,在什么地方輸入(搜索引擎?社交軟件?地圖?短信?賣家討價還價?),這對于輸入法都是透明的。
而且你經(jīng)常輸入哪些詞,代表了什么意思,并不難獲得或者分析,上面說的語義分析難是真對純音頻的,純文本的語意分析可是相對成熟的技術(shù)。
另外所有輸入法都是越用越好用,越用越懂你,那么,到底是怎么懂你的?
可以思考下。
第二個是推送SDK。
什么叫SDK?你可以理解為是軟件包,嵌入APP中執(zhí)行特定功能的特定模塊。
最流行的SDK是推送類SDK,就是你手機(jī)收到的各類APP推送消息,是有專門的公司做成SDK嵌入到各大APP里,然后專門負(fù)責(zé)推送,比自己開發(fā)要好用很多,而且專業(yè)SDK往往對于各類手機(jī)和應(yīng)用的適配做的很好,所以一般APP都是外采推送SDK的。
你手機(jī)上30個APP,可能都是同一家公司提供的推送SDK,那么對這家公司而言,你的手機(jī)基本是透明的,而且很顯然會知道一臺手機(jī)到底裝了哪些APP,用戶到底常用什么APP,甚至用戶對于手機(jī)的應(yīng)用軌跡,應(yīng)用行為。
這些行為就可以被做成標(biāo)簽,然后打包交易,這個市場目前很成熟。
國內(nèi)推送SDK的巨頭,不超過5家(最大的就3家),對外出售標(biāo)簽數(shù)據(jù)都挺積極的。
你看,當(dāng)你知道輸入法和SDK的時候,你對于世界的認(rèn)知會發(fā)生變化。
當(dāng)你收到廣告的時候,你甚至可以去分析到底是哪個賣了你。
是搜索引擎還是你在搜索引擎時候用的輸入法,還是監(jiān)控你手機(jī)APP活躍度的SDK,還是你的一些語言出發(fā)了詞庫?
很多人其實(shí)被賣的時候都不知道自己是怎么被賣的。
猜誰賣你這個事情其實(shí)很有意思,只稍微有點(diǎn)黑色幽默。
6
本文只是簡單科普一下錄音的謠言以及最基礎(chǔ)的信息收集渠道,很多更隱蔽甚至更有想象力通過邏輯勾稽來做用戶畫像的方法還沒有說,主要是真的說起來可以寫本書了,書名叫《作者已被各大公司吊起來打》。
數(shù)據(jù)收集,畫像制作以及廣告推送的技術(shù)以及產(chǎn)品邏輯,這些東西其實(shí)也不是什么秘密,甚至有專門探討廣告推送邏輯原理乃至策略的技術(shù)書籍。
我認(rèn)可技術(shù)無罪,但是我同時也認(rèn)為技術(shù)需要約束,或者說技術(shù)背后的人,需要被約束。
在這個人人都近乎透明的年代,我們其實(shí)需要對所謂大數(shù)據(jù)加以警惕,也需要法律約束。
因?yàn)閿?shù)據(jù)可以讓生活變得更方便的同時,失控后也會造成災(zāi)難。
當(dāng)我知道你的一切數(shù)據(jù)的時候,某種程度上,我比你還了解你,我就是你。
所以需要約束人的行為,所以需要增加作惡的成本。
畢竟人,是復(fù)雜的;人性,是自私的。
我不希望有一天,我們成為大數(shù)據(jù)下的棋子。
被設(shè)計(jì)好的世界,恐怕也不再有趣。