本篇是在Data Processing Process in Artificial Intelligence系列文章幾乎完成後才催生出來的,除了希望確保整個系列的完整性,更是因為我發現許多人對於「要怎麼開始」有著萬事起頭難的困惑。因此,在概念建立之餘,本篇內容會以實際的步驟為主幹,輔以實務上應注意的細節,盡可能覆蓋建立「數據策略」時的方方面面。
Step 1. 需求定義
以終為始:確定要煮的菜色,再來討論得買哪些材料
史蒂芬·柯維(Stephen R. Covey)在《高效人士的七個習慣》(The 7 habits of Highly Effective People)中提到的第二個習慣是「以終為始」(Begin with the end in mind)。意思是先構思想要的結果作為明確的目標,再來決定現在要做哪些事。也可避免組織無邊無盡地什麼數據都想收集,進而將資源集中火力。具體執行步驟有以下幾點:
聚焦需求/ 收斂問題
這是個多方brain storming的階段,盡可能問出「對」的問題,它們可能是與企業存續最為相關的,也可能是近期在決策上做錯的關鍵項目。最後再將這些問題收斂,找到模型要聚焦的問題,即「先做加法,再做減法」,最終的需求可以只是簡單的一句話,但一定要切中核心。提問的基準可基於:
- 眼前最大的三個困難是什麼?
- 哪些決策只能依賴經驗法則,並且時常犯錯?
- 未來一年、五年、十年等的重點項目是什麼?
- 這個問題需要依賴大數據/ AI嗎?其他方式會不會就可以處理了?
描繪場景
那麼,能解決這個問題的AI場景是什麼?場景就像是一個使用者故事一樣,它必須清晰立體,且富含細節,因為「唯有在這個情境下,模型是可行的」,同時,能幫助我們了解並時時謹記數據的內在意義與模型的目標,進而在建立模型時,與實際狀況對齊。有時情境很直觀,例如目標是垃圾分類,作法就是利用CV技術(Computer Vision)進行辨識、分類;有時則需找到AI技術能落地的情境才能達成原先的目標,這就是為何要注意AI不一定適用在你的問題上。目前,AI技術在每個領域仍在各自發展落地的情境,每一次的突破,更是讓一般人真正感受到——AI就在你我身旁。
數據清單
掌握場景後,需要哪些數據就相當一目瞭然了。這個階段可以邀請更多數據專才的夥伴加入,協助確認整體規劃——目標和材料是否一致,畢竟這就是燒錢養數據的開端。在茫茫數據海中,哪些又是關鍵數據及其指標,也都要在此時定義出來,同時能協助我們釐清是否對於自己需要什麼有足夠的理解。
模型選擇
基於想解決的問題屬於分類或回歸問題,在此階段已可初步的選擇模型,當然這必須對於各種模型的優劣和適用場景有一定程度的認識,可能更屬於AI engineer的知識範疇,將不在此篇分享。總地來說,如何選擇演算法並沒有一定的方法論,但一定要和AI engineer多溝通,確定各種技術的可行性、具體需求和所需時程。
Step 2. 現狀調研
盤點現有數據:別太樂觀,過去的數據不一定能解決現在和未來的問題
有了數據清單後,首先必須檢視目前已有的是什麼。早在大數據比AI這個詞還夯時,部分企業就已經進行了第一波的數據盤點,但因數據的破碎性、時效性、無限延伸的特性等等,整理起來並不容易,更別說這些未經清理的數據中可能含有的噪音,於是就在看似什麼數據都有的情況下,實際能用的卻是寥寥無幾。
盤點數據時,除非與未來模型密切相關,否則不要陷入太細節之處。另外,除了清單上的項目外,更須著眼以下幾點:
正確性/ 是否錯誤
首先,不用太糾結於量,假設過去的數據雜亂錯誤不堪,量大也無法帶來實益,累積正確的資料才有意義,尤其在目前人工智慧的領域,模型針對較小的數據也有其處理方式,當然這不是我們最期待的狀況,但錯誤的數據可是難以回天,從小而正確的數據開始才是第一步。
時間性/ 是否失效
數據是有生命週期的,例如一筆於一站式育兒平台搜尋孕婦裝的用戶數據,我們可以假設將在十個月後失效(當然也許更早),應轉而推薦該用戶的是可愛的嬰兒服。換句話說,在該用戶搜尋孕婦裝後,隨著日子的推移,該用戶將越來越不需要孕婦裝了,於是這筆數據的邊際效益開始遞減,直到十個月後完全失效。當然,接下來如果要證實任何對於數據的猜想,必須藉由用戶互動來確定對於數據的側寫是否正確,例如以EDM發送關於寶寶的活動邀請就是一個不錯的方式,還能進一步收集寶寶的生日資訊等,讓數據更完整。故時間性帶來的不僅是失效的數據,也能讓我們看見一個流動的樣貌。
獨特性/ 是否獨一無二
珍稀數據早已成為企業眼中的金礦,不少企業收購案為的不是產品本身,而是背後累積的數據,例如以服飾為主的搭配網站Polyvore被時尚電商SSENSE收購,其目標就是背後的搭配大數據,Polyvore原先的服務則已完全消失。在盤點時,如能像這樣挖掘到獨一無二的戰略數據,絕對是一大收穫,此時再仔細觀察競爭對手,或許一個在未來能與對方產生最大差異化的策略就這樣誕生了。
Step 3. 長遠佈局
三大面向總結數據策略——數據佈局、組織佈局、實務難點
數據佈局
掌握現況後,接下來便要兵分二路,落實在數據佈局上——已經有的數據,如果組織仍有人力的餘裕,可進入預處理階段,好處是可先行探索數據、發掘問題,但產品經理仍需專注在數據策略的彙整上;缺乏的數據則需要佈局,經由一系列設計在產品或業務活動中紀錄下來,這也是實務上一系列困難的開端,因應不同需求,可能需要軟體導入、增設UI、舉辦行銷活動、員工教育、業務流程重整……各種直接或間接相關的專案都將應運而生。
組織佈局
A. 數據治理Data Governance
有價值的大數據一定是完整、有序、取用容易,且定義明確的,如果各部門各有其處理數據的步驟和工具,或是發生權限爭議後再來協調,絕對不是一個聰明有效率的方法。而數據治理就是我們期待能解決這些問題的管理概念。它是一個由上而下的過程,是規範的層層建立,是整個數據策略的原則。不少文章將其主要功能歸於兩點:解決資料斷點和權限爭議,我認為的確很好地點出目前數據治理的重點。
具體來說,實現數據治理大致倚賴三個區塊,第一是原則建立,目標是制定一套組織內人人皆要遵守的規約,並確保全體達成共識,因此需要上層的授權;其次是建立「大數據平台」——有一個能彙整所有數據的平台架構是關鍵,依其本身需求,架構可能非常繁複,也可能使用單一工具即可解決,在此又牽涉到工具與技術選用的問題,故在建立平台時,需要對於管理與數據科學都有相當認識的團隊一同努力;第三則是對於數據治理中各個角色的管理及教育,誰對數據負責、誰能取用哪些類別的數據、任務分工的銜接細節等等,其中最關鍵的則是人員數據素養的教育。以上三大區塊如能做到彼此對齊,才有可能為數據治理踏出成長的一步。
B. 數據素養Data Literacy
養數據不只是為了AI模型、工程師部門或是數據分析師,在data driven的時代,組織任一成員都應該從自身的角度思考「數據賦能」——在自己的工作情境中,有哪些數據能夠提供建議,甚至更適合用來作為本身業務的關鍵指標。尤其,某些數據在處理數據的人眼中可能只是需要清洗的極端值,僅有執行者深知它們是值得探討的特殊情境,因此「權力下放」是非常關鍵的,唯有如此,才能清洗出接近事實的數據。
實務難點
在以上成堆的規劃與需求誕生後,實務上面臨的問題也最好先在此時釐清,以利後續進行的流暢度,以下列舉三項,每一項都是不小的課題。
A. 人力需求
從這個階段直到完成數據標注,人力需求是必須重視的一環。無論採取外包、自有團隊,還是使用兼職人力,都是在此時便須爭取及規劃的,以免在日後因人力不足造成專案進度落後。
B. 內部阻力
許多傳統作業方式中,只能看到最後產出的成果,過程裡的細節並沒有被記錄下來。在此情況下,必須導入一套軟體以達到數據搜集的目的,但這代表著執行人員得開始學習並使用一套全新的東西,也許還會大幅改變現有流程,可以想見內部的反彈將難以避免。此時,有三個重要的推動關鍵:於外在是建構「數據治理」,於內在是發展「數據素養」,最後則是於改革中提供Benefit。
C. 合法與合乎倫理規範
這兩者無需多做解釋,但要注意的是,跨國的事務都得合乎當地法律規範,許多看似不同層面的數據,組合起來也能形成機密數據或侵犯隱私,人臉、醫療等敏感數據更是從收集、管理到存儲都需要妥善處理。另外,數據因具有互相關聯的特性,在使用上要注意權屬問題。
「舊數據價值有限、即時數據(real time data)才有價值,數據要避免折舊太快而沒有價值,必須把數據轉變成知識,也就是數據要經過處理後變成熟資料、或資訊,然後結合專門領域的know how,轉化成為有用的知識。」——台大經濟系教授陳添枝
剛好看到這段話,有些感觸。也許面對數據,我們總是談論太多的戰略與技術,但在核心上,我們期待的不就只是希望透過那些外顯的戰略與技術,獲取它內在的知識嗎?並且,作為一位好的數據分析人員,對於本身領域的know how有多深刻的理解,才是能否順利將數據轉化為知識的關鍵,我認為能將自己的領域說成一口好故事的人,才有可能看到數據想告訴我們的故事。
--------------------
本文劃重點
從需求定義(以終為始)、現狀調研(盤點數據),到長遠佈局(數據佈局、組織佈局),了解數據策略中每個階段的細節。
數據佈局將直接帶出下一章的重點:數據採集。
數據治理是一門極大的課題,尤其需關注原則的建立、大數據平台的構建、人員數據素養的教育。
數據素養是組織中每個人都應該具備的能力,不僅是數據團隊的責任。
進階思考
養數據是一個長久的佈局,對於數據關聯的想像將隨著數據的長大而無限延伸,每個人對於數據關聯的邏輯也大不相同,許多細節難以完整記錄下來進行交接。因此,負責人的來來去去會是一個關鍵問題嗎?如果是,可能的處理方式是?
Comments