「他抓得住你」:數據時代操控與捕捉的角色遊戲

「他抓得住你」:數據時代操控與捕捉的角色遊戲

距離上一篇引言文到現在,差不多整整三個月。雖然上一篇文章〈假時尚,真出糗──讓跨國市場顧問抓狂的「科技行銷」新趨勢〉的寫作動機,是為這個「說文解字專欄」做引言,不過內容上談到的「一點點」大數據分析,意外在家母的主婦社交圈引發回響。

得到任何批評指教,對文章作者來說都是件開心的事,不過在這裡要小小澄清一下:如果您反應的對象是作者的媽,您大概只會得到沒什麼建設性的抱歉,畢竟在家母心中她女兒不太適合與人類溝通、最適合的居住地約莫是木柵動物園的猛獸園區。

家母的抱歉有沒有精神上的意義我不太確定,畢竟意義的詮釋因人而異,但是我非常確定這種抱歉沒有任何實質的建設性:您的問題不會因此得到解決,而妖言惑眾的作者依然橫行無阻。所以下次,有任何問題或想法希望能交流、討論,請直接寫信或留言給作者吧:)

好吧,現在我們進入正題,開始本專欄第一篇解說大數據的文章。

以「漁船拖網捕魚」為例,搞懂「使用者數據」是什麼、從哪裡來

所有可以被記錄下來的痕跡,都可以符號化為數據。跟金錢流向有關的是財務數據、跟銷售有關的叫做銷售數據、AI 與 AI 間互相對話的言語紀錄,也是種數據。由此可知,雖然斯斯只有三種,但只要用數據的來源或者搜集範圍來分類或者定義,那數據就會有千千百百種。

開始講數據前,先請問各位鄉親同胞是否看過捕魚用的拖網,或者台南七股一帶虱目魚魚塭用的圍網?先撇除生態爭議,大家都知道拖網捕魚的「厲害」之處,就是在該漁網介面拖行經過的海域內,盡量做到「一網打盡」所有的海洋生物吧?

從拖網捕魚的例子,我們可以推論影響這艘捕魚船收穫的三項變因:「漁網介面可拖行經過的海域有多廣」、「漁網多大張」、「漁網有多細」。

怎麼說呢?如果今天某漁船拖了一張網,但從頭到尾都沒開進漁場內、只是在港口附近「喇一喇」(台語),那收網時可能很難發現垃圾以外的收穫;反之,如果這艘船儲備資源無限供應、又無視經濟海域的限制,橫掃各大漁場,自然比停在港口撒網的那位有經濟效益。

但是,即便這艘船很有 sense 地在黑潮季節開船進漁場準備大肆捕撈,但漁網卻小如夜市撈金魚的團紙,那也是徒勞;再者,就算準備了張大網,但是網孔大如燈籠,那除非遇上猛虎過江,否則收穫同樣堪憂。

其實互聯網企業取得使用者數據的過程,與漁船拖網捕魚的邏輯如出一轍。

透過捕魚的例子,我們可以把「漁網」視為互聯網。圖/NOAA、文字/張中宜


一個生活在現代社會的人類,每天至少會使用三到四個平台介面:用 google 來找資料、開 Gmail 收信、滑 Facebook 跟進朋友生活、用 LINE 傳訊息,隨個人興趣,有些人會把上 IG、Tinder,或逛淘寶當興趣。

我們每一個使用者在各種互聯網頁面的活動行為,都可以被數位化成為「數據」。所謂的大數據分析,正是這些互聯網企業透過分析使用者在網頁介面上的活動紀錄,企圖破解使用者腦內的思考方式,再活用數據分析結果以優化服務內容,或開發新功能。

透過捕魚的例子,我們可以把「漁網」視為互聯網(或者國內科技代工業紛紛投以關愛眼神的物聯網(註一))平台、漁船船主則是互聯網企業、人類生活的行動範圍是廣闊的大海、大海中不同的生物(魚、蝦、海藻)代表不同類型的使用族群、一隻隻的魚則是一個個細微的使用者行為。

互聯網企業如 Google、阿里、Amazon 就像遠洋漁船一般,想盡辦法藉由滿足某塊用戶群的集體需求,讓自己的服務介面成為用戶每天生活的一部分。當大批用戶光顧這個服務介面成為生活必須、甚至養成依賴性時,就代表互聯網企業這艘遠洋漁船突破第一回合關卡:叮咚,恭喜您找到數據漁場,可以進行下一回合撒網捕數據了。

漁網的規模與精緻程度,決定網羅到的「主要漁獲」

這裡要小小開個外掛:難道互聯網漁船非進入漁場不可嗎?

的確,大與小是個相對概念、也並非所有互聯網/物聯網企業都把眼光鎖定在大眾市場。特別是新創公司,剛開始的商業模型通常是瞄準某個相對小眾的市場、甚至 b2b market,就像有的漁船公司專門海釣黑鮪魚一樣。

可是時間拉長後,當這個新創進入成長停滯期時,面對來自股東的壓力,企業要麼想辦法深化耕耘小眾市場、對同一群人提供更多元的服務(把網子變大張);要麼開個外掛,想辦法擁抱大眾(買條船,開到漁場)。

回頭來談捕捉數據。

取得用戶數據的目標是透過捕捉用戶的「行為」、藉此企圖重構用戶腦中的思維。但是網路平台畢竟只是現代人生活的一部分,無論黏著度再怎麼高,用戶視窗一關、轉身出門重回 3D 人生,任互聯網商就算使出數據捕捉的洪荒之力,也無可奈何。

互聯網商為了強化用戶黏著度、避免數據捕捉上的盲點,於是衍伸出第二回合的議題:把漁網做大。

若我們維持上文的類比,互聯網商是漁船、互聯網介面是漁網的話,互聯網商為了更能「一網捕盡」用戶全方位的生活行為,會逐步增加服務範圍、將觸角伸向用戶(甚至非用戶)生活中的其他面向。例如騰訊集團從山寨通訊商品 QQ 起家,接著把觸角伸往遊戲、2010 年代起開發出 WeChat、投資滴滴(內地版的 Uber,還真的在 2016 年吃下 Uber China)、策略投資特斯拉。

從騰訊的例子,我們可以清楚地看到這間互聯網企業用十年的時間擴大服務漁網,從 2D 世界走入互聯網介面難以捕捉的 3D 生活行為。

舉例來說:

吳敵是位居住於深圳的白骨精,上班時間用 WeChat 傳輸檔案、聯絡客戶,下班前隔壁同時傳來一條微信,打開是間餐館的大眾點評頁面,顯示七點訂四位,吳小姐於是預約滴滴專車六點半來寫字樓接人。酒足飯飽後,用微信錢包買單,連同打車的車資算下來,一個人 55 元,於是打開群組收款,向同事討債。在等滴滴來接回家的時候,隨手預約週末去看電影,吳小姐隨後又看著理財通,心想:「這個月開支真驚人,千萬不能讓家裡老媽知道。」

噢,吳小姐不想讓老媽知道的事,騰訊都知道。

為什麼?因為騰訊的漁網夠大,抓得到用戶生活各種面向的活動紀錄。

可是抓得住是一回事,數據的掌握能夠多精緻則是另一回事。

就像是漁船開到了漁場,也拉了張大網撒下。時間到了收網一看,漁獲量還遠遠不如於場外做海釣生意的。原來,這張大網的網眼大如燈籠,自然無法捕捉到較幼嫩的小魚。同理,即便互聯網企業切入市場需求、服務多元,上下線整合良好,若在數據監測上精緻度不足,那照樣分析材料不足、無法導引出 key findings。

一間有效追蹤使用者資訊的互聯網公司,究竟可以記錄使用者行為到何種細緻度?以上面吳敵小姐的生活方式為例,甚至吳小姐自己早已忘記的事,例如禮拜一早上八點時,用手機在京東商城比較了一下三家商店的北美櫻桃價格,這個活動被老闆發了條改會議室的微信活生生給打斷。諸如此類的生活細節,你不記得,騰訊卻通通知道。

那麼搜集這些芝麻蒜皮的數據,意義何在呢?

人類與機器在思維上最大的分別之一,在於觸類旁通,其實也就是「分心」。機器的思維是指令導向,因此執行單一任務如海量分析圍棋棋譜、學習程式語言等動作時,既不會分心也不需要休息,可見得效率會比人類高;但分心的特性,卻也賦予人類思維擁有交集、連集與再詮釋的特性。

例如著名的禪話「見山是山、見山不是山、見山又是山」中,山就是山,這是個事實;被「觀山」這個行為所觸發,衍伸出其他的想像與共鳴,因此「見山不是山」;藉由歸納共鳴、再詮釋而產生的了悟,於是「見山又是山」。

這個禪語不但流芳百世,更完美詮釋了「分心的力量」,甚至進一步開示出大數據的第三回合挑戰:漁網是否夠細。分心,其實就是人類會被情境觸發、觸類旁通地連結到生活中其他不相關的面相,之後透過再詮釋、再創造產生新的意義。

「該搜集怎樣的數據」、「該用什麼服務流程、內建系統來搜集數據」,用捕魚的譬喻來說,這就是個魚網網縫大小的問題。

在系統設計上,愈能綿密地追蹤使用者的行為模式,包括分心觸媒、投入時間、退出機制等,理論上愈能同理使用者的思維邏輯,最後應該愈能有效導引出 key findings。

數據的運用:從選手村、淘汰賽到決戰

最經典的例子諸如一個甜點吃貨的臉書頁面,會不斷被各種糕餅粉絲頁洗版,或者臉書會不斷推薦吃貨去某甜點的粉絲頁按讚;在熱門網頁例如日劇網、韓劇網瀏覽時,Google 會不斷輪播燕麥片的廣告、長條蛋糕的廣告等。

用「競賽」的概念而言,我們或可把數據運用分為「選手村等級」、「淘汰賽等級」和「決戰」。

而以上例子就是選手村級的大數據分析結果運用,僅僅如此,就已經打趴了一票傳統媒體代理商。畢竟,誰能比 Google 更清楚作者在一個月內搜尋過多少次「chocolate brownie」、「Napoleon pie」?

這個市值 6000 億美元以上(註二)的產業,說穿了,整個過程中沒有任何新的技術、甚至價值被生產出來,充其量僅是「提供消費者『比較』有效的資訊」。

而到了「淘汰賽等級」,則是從設計擷取數據的服務流程,到運用被擷取的數據創造新價值,理應體現一個完整的商業模型、能兼容並蓄地兼顧流程中各方角色。

大型互聯網公司的案例如亞馬遜,從使用者到供應商的資訊整合得滴水不漏,最厲害的是,連同集團資源都可以商品化,拆售給供應商(如 AWS)。新創界的案例則好比最近專訪的 Snapask,為了產出怎樣的價值、因此必須搜集消費者的何種數據,又該如何回饋數據發現、創造新價值給既有產業生態,可謂步步為營、彈無虛發。

最後,就來到了運用 AI 的「決戰」。

數據搜集的能力必須提高到計較「漁網有多細」,是達到這個級數的前提。當然,用機器人手臂來處理生產線的良率問題,不在這裡的討論範圍內,嚴格說來,機器手臂應該是工業自動化的問題,而不是人工智慧問題,不能因為出現關鍵字「手臂」,就自主認定跟人類有關係。如此,如果監視器改叫「機器眼球」,是否保全公司也該畫入 AI 的討論範圍內(雖然以人工智慧的發展史來說,監視系統的發展的確有高度相關性)?

現在的主流 AI 技術可粗分(非常粗的粗分)兩類:一類是讓機器透過大量分析資料來「學習」,再透過各種邏輯演算法來「產出」,成果如閱景無數的自動駕駛,以及勤快分析棋譜的 AlphaGo;另一類則是透過人類輸入指令,讓人工智慧具備情境判斷能力,最簡單的運用案例如銀行的自動化櫃員──未來,相關技術甚至有待運用在法律、醫學上。

無論任何一種人工智慧,不變的是掌握越多個體數據,就越能精確控制變因。因此,阿里雲之父王堅先生才會說:「人工智能一定要數據」

不應為數據而數據,失去對「人」的想像力

王堅先生在說了「人工智能一定要數據」後,補了下句「但不是數據不是你的,就不能做事。」用此反擊李開復先生不看好台灣發展 AI 的言論。

如果草民斗膽解讀王先生的話,簡化「三否定造句」,那約莫變成:「可以用別人的數據做事。」

這番話醍醐灌頂,讓小的回想起一個「夢境」:

曾經遇過台灣某大代工廠開設的電商平台,透過大老闆的關係牽線,想找內地電商龍頭要求「分享」對方的用戶數據。內地電商龍頭的大數據團隊問:「請問貴公司想要哪種數據呀?」台灣電商平台就用「小二你們店裡有什麼菜通通給我上一盤」的方式回答:「你們有什麼數據通通給我來一份。」

理由很簡單,因為該台灣電商平台,連對方如何捕捉數據、會有什麼數據都不知道,想當然爾,自然什麼數據也要不到,枉費了大老闆居中牽線的苦心。

的確,「絕對龐大」的數據未必是 AI 的充要條件,而要看發展的是哪種功能的人工智慧。例如上面講的自動銀行員的例子,所需的數據量就未必需要龐大,但須嚴求精準與確實;若是經驗型的數據,例如 Snapask 透過累積學生問問題的問題庫做 data sourcing、產出有效率的學習檢測方式,那 data 的數量只要到達某個「不大」的程度,準確度就會很明顯了。

重點是:一個互聯網/物聯網企業是否有對「價值產出、服務設計、資料取得」這一個鎖鏈,做出全盤性的設計與規劃?

更露骨一點地說,所有數據的搜集,最終必須回應是否能真正解決現實世界人類的問題、是否能真正創造價值。誠如阿里巴巴數據委員會會長車品覺先生所言:「很多企業陷入數據迷思,為了數據而數據,而忽略了更快更精確的方法。」

所有「數據」所記錄下來的行為,都是已經發生的歷史。這裡,我十分認同車先生的說法──數據不是絕對。

我也認為,問題不是出在數據有沒有效率,而是出在對數據功能賦予的定位是否合理。把數據分析結果當成行動方針固然乏善可陳、內地許多投資重金為了數據而數據的互聯網事業更是愚不可及,但其實數據有其長期被忽視的人文意義。

理想化的數據分析,應該是能夠從數據中解析出人性的本質與共同性。正是因為數據的歷史性特質(記錄下來的是真實發生過的歷史行為,比太史公的筆還可靠),賦予數據在分析人性上不可取代的地位。

反過來說,任何一間互聯網企業的數據擷取後台,如果無法徹底理解人性,是無法真正對數據取得的過程有充分的想像能力的。

人類的問題以及替人類解決問題的人工「智慧」,其實有非常人文與細膩的一面。人性的理解,則來自深厚的人文素養,以及格物致知的精神。

重溫剛剛的夢境,這間台灣電商平台的老闆是出了名地熱情、努力、賣力擁抱電商與大數據,但他旗下的事業群,卻也是出了名的製造導向、機械化地招工、抹滅人性。如果一間企業看不到「人」的價值與精神,又怎能期待員工對「人」的行為具有同理心、對數據背後的人性擁有想像力?

或許科技與人文間,會在人工智慧上達成美妙的平衡;而數據,則是還在摸索節點的我們的小糾結。

註一:物聯網:又稱IoT,是英文Internet of things的中譯,意指透過雲端網絡連結智能設備,舉凡居家用品、個人移動交通工具都有發展潛力。典型例子為亞馬遜推出內建語音助理Alexa的智能音響Echo與近期剛剛被漢堡王惡搞的Google Home。
註二:〈
Alphabet 第一季財報:Google 仍是網路廣告王者,市值突破 6000 億美元〉,《科技報橘》,2017/04/28

《關聯閱讀》
無聲的煙硝──解讀川希對壘的數據大戰
好奇心引發的意外──從一個微博帳號,到中國最大的B2B Fashion Showroom

《作品推薦》
美國老大哥 v.s. 北韓金正恩,誰的英雄?誰的魔鬼?──你所謂的「國際觀」,是否具備起碼的公平?
【新創個案】一家成立兩年多的「教育新創」Snapask,為何能上遍國際財經媒體,吸引跨國大腕投資?



執行編輯:鄧紹妤
核稿編輯:林欣蘋

Photo Credit:Daniel Krason@Shutterstock

出發,改變人生的一次旅行