1. 首頁
  2. 科普知識

資料統計與分析方法

資料統計與分析方法

導語:今天很高興能夠與大家做一次針對資料分析的分享。我以資料分析人員的身份,曾參加過數次的資料分析專案,在這些專案中也間接地參與了大資料系統的搭建,今天也是希望能夠跟大家聊一聊我對資料分析的一些想法。

一、以往的資料分析

在今天的各型別企業中,資料分析崗位已經基本得到普及和認可,這個崗位的核心任務往往是支撐運營和營銷,將企業內部的資料,客戶的資料進行分析和總結,形成以往工作情況的量化表現,以及客戶的行為趨勢或特徵等。

如果從更宏觀的角度來認識資料分析崗位的話,每一個數據分析人員都明白,其實資料分析崗位要達到的目標就是希望透過資料來發現潛在的規律,進而幫助預測未來,這一點同資料探勘的目標一致。那麼為什麼在大多數公司都已經具備的資料分析崗位基礎上,今天卻還是在反覆提到資料探勘這個概念,我們就需要來看看資料分析都有哪些是沒有做到的內容。

1、資料分散

多數資料分析崗位在公司中的崗位設定是隸屬在單一業務部門中作為一個支撐崗,只有少數的公司是將資料分析作為一個獨立的部門。其差異性在於,前者的資料分析所能分析的內容僅限於自身部門所輸出的指標,比如投訴部門只看投訴處理過程中的資料,銷售部門只看銷售過程中的資料,一旦涉及到需要將各類指標彙總分析的情況,這種組織架構就會帶來極大的負面影響,由於不同部門具備自己部門指標匯出的許可權,且與其他部門的配合並不影響績效任務,所以這種跨部門採集資料的過程往往效率奇低。而資料分析最關鍵的就在於彙集更多的資料和更多的維度來發現規律,所以以往的資料分析多是做最基礎的對比分析以及帕累託分析,少有使用演算法來對資料進行挖掘的動作,因為越少的指標以及越少的維度將會使得演算法發揮的效果越差。

2、指標維度少

在以往的企業中,數字化管理更多的體現在日常運維工作中,對於客戶端的資料採集雖然從很早以前就已經開展,CRM系統的誕生已經有很久的時間了,但是一直以來客戶端的資料維度卻十分缺失,其原因在於上述這些途徑所獲得的資料多為客戶與企業產生互動之後到互動結束之間的資料,但是這段時間只是這個客戶日常生活中很少的一部分內容,客戶在微博,微信上的行為特點,關注的領域或是品牌,自身的性格特點等,可以說一個客戶真正的特點,習慣,僅透過與企業的互動是無從知曉的,因此難以挖掘出有效的'結論。

3、少使用演算法

在上述制約條件下,可想而知資料分析人員對於演算法的使用必然是較少的,因為資料分析依賴於大量的指標、維度以及資料量,沒有這三個條件是難以發揮演算法的價值的,而在排除掉演算法後,資料分析人員更多的只能是針對有限的資料做最為簡單的分析方法,得出淺顯易懂的分析結論,為企業帶來的價值則可以想象。

4、資料分析系統較弱

目前的資料分析多采用excel,部分資料分析人員能夠使用到R或SPSS等軟體,但當資料量達到TB或PB單位級別時,這些軟體在運算時將會消耗大量時間,同時原始的資料庫系統在匯出資料時所花費的時間也是相當長的,因此對大資料量的分析工作,常規的系統支撐難以到達要求。

二、技術革命與資料探勘

得益於網際網路對於人們生活的影響逐漸增大,我們發現數據正在瘋狂的增長。今天一個人一天的時間中有將近一半是在網際網路中度過的,一方面這些使用網際網路的互動都是能夠被捕捉記錄的,一方面由於碎片化時間的使用,客戶與企業互動的機會也變的越來越頻繁,進一步保障了客戶資料的豐富。同時在大資料技術的支撐下,今天的系統能夠允許對這些大規模的資料量進行高效的分析。

因此資料分析人員也能夠開始使用一些較為抽象的演算法來對資料做更為豐富的分析。所以資料分析正式進入到了資料分析2.0的時代,也就是資料探勘的時代了。

三、資料處理流程

資料分析也即是資料處理的過程,這個過程是由三個關鍵環節所組成:資料採集,資料分析方法選取,資料分析主題選擇。這三個關鍵環節呈現金字塔形,其中資料採集是最底層,而資料分析主題選擇是最上層。

四、資料採集

資料採集即是如何將資料記錄下來的環節。在這個環節中需要著重說明的是兩個原則,即全量而非抽樣,以及多維而非單維。今天的技術革命和資料分析2.0主要就是體現在這個兩個層面上。

1、全量而非抽樣

由於系統分析速度以及資料匯出速度的制約,在非大資料系統支撐的公司中,做資料分析的人員也是很少能夠做到完全全量的對資料進行收集和分析。在未來這將不再成為問題。

2、多維而非單維

另一方面則在於資料的維度上,這在前邊同樣提及。總之針對客戶行為實現5W1H的全面細化,將互動過程的什麼時間、什麼地點、什麼人、因為什麼原因、做了什麼事情全面記錄下來,並將每一個板塊進行細化,時間可以從起始時間、結束時間、中斷時間、週期間隔時間等細分;地點可以從地市、小區、氣候等地理特徵、渠道等細分;人可以從多渠道註冊賬號、家庭成員、薪資、個人成長階段等細分;原因可以從愛好、人生大事、需求層級等細分;事情可以從主題、步驟、質量、效率等細分。透過這些細分維度,增加分析的多樣性,從而挖掘規律。