導讀:通過上一系列《10分鐘帶你瞭解數據庫、數據倉庫、數據湖、數據中臺的區別與聯系》,我們瞭解瞭目前較為流行的幾種發生在企業業務活動中數據存儲方式的區別與聯系。有瞭“鍋碗瓢盆”,想要做出色香味俱全的“大餐”,食材也是不可或缺的,所以我們就需要進行數據采集。一、數據采集的必要性數據采集是數據分析挖掘的根基:數據分析與挖掘過程中比較基礎且重要的一個環節是數據采集,再好的特征選取,建模算法,沒有瞭優質的元數據,也會“巧婦難為無米之炊”。采集的數據決定瞭數據分析挖掘的上限:經驗告訴我們怎樣從歷史數據的展現和分析過程中得到有用知識,不管你是通過報表或多維分析得到企業各領域指標相關性,還是通過挖掘模型的實施來根據歷史數據預測企業未來發展,這一切都是基於企業歷史數據的。沒有數據質量基礎的保證,展現得多華麗的走勢圖表都是垃圾。如下圖所示,garbage in , garbage out(垃圾進,垃圾出),指如果將錯誤的、無意義的數據輸入計算機系統,計算機自然也一定會輸出錯誤、無意義的結果。(該諺語在數據分析領域也同樣適用)garbage in garbage out(垃圾進垃圾出)二、數據采集方式數據采集方式按照線上采集,線下采集兩大類進行分類,下面對於每種采集方式及相關技術進行簡單的介紹。1. 線上采集1)開放數據開放數據指的是互聯網中面向所有人公開的數據,其中包括面向特定行業公開的數據,各級政府公開的數據以及網頁中相關的內容數據,例如下圖所示為北京市公共數據開放平臺。獲取開放類數據,我們可以使用爬蟲技術,這裡簡單介紹一下爬蟲技術。爬蟲技術是一種可以使開發人員自動化,系統化收集互聯網上相關數據的技術,爬蟲不是內容的生產者,而是內容的搬運者。關於爬蟲技術的各類學習資料在網上可以說是“汗牛充棟”,筆者在這裡就不展開說瞭,但是這裡關於爬蟲要講的就是爬蟲的安全問題,一定要遵守相關法律,切記不要觸碰紅線。a. 個人信息,商業秘密與國傢秘密是數據爬取的紅線。b. 遵守職業道德,控制爬蟲訪問頻次,不要幹擾被爬方的正常業務活動。c. 遵守robots協議,做到什麼能爬,什麼不能爬。2)第三方平臺數據比如說開發者想獲取相關各類金融數據,除瞭可以利用爬蟲技術外,我們可以通過某第三方平臺提供的API接口來調取相關數據,例如下圖所示為Toshare大數據開放平臺,開發者可以獲取各類金融數據。筆者曾接到過這樣一個任務,獲取某市所有的禁止機動車左轉,禁止機動車右轉,禁止機動車掉頭的路段,在沒有條件獲取準確的數據時,我們可以通過高德或百度的地圖開放平臺的API接口,分別在路口處設置起訖點,通過對比機動車與步行的路徑規劃距離來分析該路口是否禁左,禁右,禁掉頭,如下圖所示為百度開放平臺,我們可以在這裡通過API接口,完成各類數據采集。對應的功能有相應的服務文檔講解如何使用,大傢有興趣可以打開網址進行嘗試。3)物理數據物理數據指的是用戶在物理世界產生的數據,例如用戶使用手機時手機的各類傳感器(指紋傳感器:記錄用戶指紋用於解鎖手機或支付等行為,陀螺儀:通過角動量守恒原理記錄角速度用於手機導航等行為)相較於日常應用,物理數據大量存在於傳統制造業中,一般有如下幾類數據采集方式:各類傳感器:正如上面提到的手機中各類傳感器,傳統制造業中的傳感器品類繁多,涵蓋光敏,氣敏,力敏,磁敏,聲敏等不同類別的工業傳感器,這部分的數據盡管單條數據內容很少,但是頻率非常高。RFID技術:RFID(Radio Frequency Identification,射頻識別)技術是一種非接觸式的自動識別技術,通過射頻信號自動識別目標對象並獲取相關的數據信息。利用射頻方式進行非接觸雙向通信,達到識別目的並交換數據。RFID技術可識別高速運動物體並可同時識別多個標簽,操作快捷方便。如下圖所示,我們用手機的NFC讀取的電子標簽數據,可以看到ISO/IEC 14443-3(Type A),這個是當前電子標簽的協議,目前大部分公交卡,一卡通,門禁卡等都是基於ISO 14443 Type A協議的,下方則是該電子標簽的詳細信息,如果配合專業的讀寫器及特定的軟件可讀性會更好,在這裡隻是為大傢展示一下。由於各類設備品牌類型繁多,廠傢和數據接口各異,有可能一套生產線的設備來自於好幾個國傢,數據采集一直是傳統制造業的痛點。4)APP數據我們日常生活中,在各類App,Web端應用,小程序上的操作行為稱為事件,例如打開某個電商App→瀏覽某個商品→查看商品信息,評論→放入購物車→下單→支付→查看物流信息→確認收貨→對商品進行評價。當事件被觸發時,我們想進行監控,那麼隻需要研發為事件植入監控代碼,這樣每當事件觸發時,後臺就可以采集該事件的相關信息,上傳到服務器。關於數據埋點,是互聯網業務中比較重要的一部分,由於篇幅所限,這裡簡單的介紹一下,這裡筆者現挖個坑,後續會專門出一個系列,詳細與讀者對數據埋點進行探討與交流。一般來說,埋點類型分為Web埋點和App埋點,其中主要的埋點技術又分為有埋點技術,無埋點技術,可視化埋點等。有埋點技術:開發手動在程序中寫代碼實現埋點,通過用戶觸發某個行為後,程序自動發送數據;無埋點技術:前端自動采集全部事件,當事件觸發時就會調用相關接口上報數據,流量與采集數量教育龐大。可視化埋點:近年主流的埋點趨勢,以前端可視化的方式,通過可視化的界面拖拽配置實現,由於活動控件元素都帶有唯一標識。通過埋點配置後臺,將元素與要采集事件關聯起來,可以自動生成埋點代碼嵌入到頁面中。2. 線下采集關於線下采集數據,筆者認為更傾向於主觀性數據的采集,因為定量,客觀的數據公共場所面對面的線下采集,易使被采集者產生戒備感,非常容易造成數據采集準確程度非常差,影響數據質量,比如:筆者讀書時參與過線下的數據采集,某市交通規劃部門在火車站,地鐵換乘站等交通樞紐隨訪乘客去填寫出行調查問卷,盡管問卷設計的如何規范與精良,在填寫完成後進行獎勵等方法,乘客填寫接受程度依舊很低。所以後期此種采集方式也在調整改革,例如:定量,客觀數據采用線上收集,通過與三大運營商合作,利用手機信令與基站的關系精確獲得乘客們的出行記錄。另外,同學們經常在商場,超市看到各類銀行宣傳辦信用卡的活動點,在現場填寫資料,辦理信用卡都可以獲得禮品獎勵,但是盡管如此通過觀察行人接受程度較差,筆者的學校/公司食堂也舉辦過類似的活動,但對比之下填寫調查問卷的意願更為強烈。線下采集數據的方式有很多種,例如:問卷調查,用戶訪談,實地調研,焦點小組,用戶反饋等等,接下來選取幾個常用的方式進行介紹。1)問卷調查問卷調查是目前廣泛采用的調查形式,根據調研目的設計問卷,並采用抽樣方式確定調查樣本,完成調查。問卷調查的步驟一般為:確定用戶及樣本量(根據調查目標選擇符合特征的用戶,盡可能多的涵蓋符合目標的各類人群)——設計調查問卷框架——發放問卷(試調研/正式調研)——匯總數據,撰寫報告2)用戶訪談用戶訪談是用戶研究中非常常用的一種方式,運用有目的,有計劃,有方法的口頭交談向用戶瞭解事實的方法。一般用戶訪談的步驟為:確定調研的目標與內容——確定用戶和樣本——確定訪談與提綱——進行訪談——匯總報告三、采集數據類別當我們通過上述方式采集數據後,獲取的數據一般有三種類型,即結構化數據,非結構化數據,半結構化數據。關於結構化與非結構化數據,我們在上文《10分鐘帶你瞭解數據庫、數據倉庫、數據湖、數據中臺的區別與聯系(二)》提過,大傢有興趣可以點擊查看。那麼何為半結構化數據呢?半結構化數據,顧名思義就是介於結構化數據(關系型數據庫)和非結構化數據(聲音,視頻)之間的數據。半結構化數據是結構化數據的一種形式,它並不符合關系型數據庫或其他數據表的形式關聯起來的數據模型結構,但包含相關標記,用來分隔語義元素以及對記錄和字段進行分層。下圖所示就是JSON簡單實例,我們可以觀察發現其存儲這某些書籍信息,一般日志文件,XML文檔,JSON文檔等就是半結構化數據。四、小結本文帶領大傢快速瞭解各類數據采集方式,各類采集技術固然重要,但要結合所在行業,所在企業規模情況進行選取,減少“殺雞焉用牛刀”的情況出現。隨著國傢安全重要性及居民個人隱私觀念的提升,在保證數據采集的精確性的同時,更應註意數據采集中如何保護用戶隱私問題的情況以及涉及到國傢關鍵基礎設施相關數據的安全性。筆者在寫這篇文章時,朋友正好像我推送微信公眾號的一片關於Flightradar24涉及信息安全違規下架的文章,筆者與朋友對無線電以及AIS系統較為感興趣,深知此類數據的重要性。本篇文章就寫到這裡,關於數據分析,數據產品相關的知識筆者會繼續與大傢分享交流,文中不準確的地方歡迎並希望大傢批評指正。本文由 @快樂的給予 原創發佈於人人都是產品經理,未經許可,禁止轉載題圖來自 Pexels,基於 CC0 協議
本文出自快速备案,转载时请注明出处及相应链接。