1. 首頁
  2. 其他

正態分佈圖在資料分析中的應用例子

正態分佈圖在資料分析中的應用例子

當我們面對一堆龐大的資料,且需要從中尋找某種規律時,往往不知如何下手。最近我在處理油耗資料時,就碰到了這樣的難題,偶然間記得機率統計中存在一種比較特殊的資料分佈方式,即所謂的正態分佈

從維基百科中搜到的結果是“正態分佈是自然科學與行為科學中的定量現象的一個方便模型。各種各樣的心理學測試分數和物理現象比如光子 計數都被發現近似地服從常態分佈。儘管這些現象的根本原因經常是未知的, 理論上可以證明如果把許多小作用加起來看做一個變數,那麼這個變數服從正態分佈”,如

圖1

既然這樣,那我何不驗證一下呢?進一步閱讀相關文章後,對機率統計方法的.相關要求和步驟有了初步的瞭解,為便於瞭解,用圖2來表示推斷過程

在總體資料量不大的情況下,我傾向於用總體做為分析依據,以減少樣本抽取的誤差

在上圖所示四步中,用統計工具進行分析的過程是最需引起重視的,大概有兩點:

1.對總體(或樣本)資料的分組。由於油耗屬於連續型變數,不同變數之間的變化非常小,我採用較多陣列的組距分組方式

2.求平均值。資料分佈不同,平均值的計算方法也有不同,最常用的是算術平均值,在呈正態分佈的資料中,它與中位數(Median)和眾數(Mode)的計算結果基本一致,且機率密度函式(Normdist)也是預設算術平均值的計算方式

實際操作一遍:

1.準備統計資料

2.求中間引數值

3.求頻率(Frequency)和機率(Normdist)

4.用第3步的函式計算結果分別作柱形圖和折線圖

5.客觀推論最後得下圖

推論之一:上圖資料分佈的趨勢比較明顯,油耗值趨向於柱形最高的區域集中,且波動範圍較小,說明對應車輛的油耗比較穩定