1. 首頁
  2. 其他

入門級大資料分析:Google BigQuery

入門級大資料分析:Google BigQuery

大資料專案挺嚇人的,尤其是如果包含了設定和管理Hadoop叢集。如果你更習慣於SQL,而不是MapReduce,但是發現關係型資料庫不符合分析需求,Google BigQuery值得一看。Google BigQuery提供了大資料分析入門級方法。

BigQuery減少了分析大型資料集面臨的一些實現挑戰。價格模型促進了統計分析技能的發掘,因此可以從資料樣品中匯出有用的資訊,而不是針對全部資料集進行蠻力分析。

有時,要用大資料工作意味著處理速度的精確。比如,如果想要確定操作同一網站的兩個不同的客戶群組是否不同,應該分析網站上與所有這些客戶活動相關每一個登入日誌。或者,可以取出一部分客戶子集樣例,分析這些樣例之間的不同。基礎統計提供了工具,可以幫助理解這種型別分析的錯誤率,只要錯誤在可接受範圍內,結果對於決策制定就是有效的。

在TOP功能中可以看到這種交換,透過grouping和sorting操作返回頂行發現。可能返回近似的結果,但是這個函式通常比使用“group by”、“order by”和“"limit”的組合語句更快速。

Google BigQuery操作特性

BigQuery旨在分析數十億行近似的資料,使用類SQL語法。它並不是完全符合SQL資料庫的替代,並不適用於交易處理應用。BigQuery支援分析互動風格。使用SELECT命令構建查詢,對於任何SQL開發者都應該很熟悉。

查詢語言包括支援標準操作,比如joining、sorting和grouping,以及內嵌資料結構。正如我們所期望的大資料分析服務,可以支援統計函式,比如count、sum、average、variance和standard deviation(標準偏差)。Grouping函式和描述性統計的結合相當直接的在兩個總體中比較平均數和變異數。

入門級大資料分析:Google BigQuery

聯接是標準化資料模型必要的操作,但是計算昂貴。BigQuery函式中的JOIN運算子類似於SQL join,但是在聯接兩個表時,其中一個表必須是8MB或者壓縮到更小。這種型別的限制可以進行更加有效的聯接操作,因為更小的'表可以有效快取記憶體,聯接到更大的表。如果必須聯接兩個大型表,可以使用JOIN EACH操作,但是效能就會更慢。

可以使用簡單的瀏覽器介面同BigQuery進行互動操作。瀏覽器工具保留查詢歷史,提供了構造查詢的工作局域。這是一種基本的工具;並不具備SQL開發者工具中全面的功能,比如MySQL Workbench和DBVisualizer。也可以透過命令列介面工作。

Google BigQuery的價格模型

透過訪問Google的雲資源,你可能想知道為什麼你要為查詢樣例或者近似結果操心,畢竟,你可以在這個問題上投入更多的硬體不是嗎?對,你可以,但是BigQuery基於你分析了多少資料來收費。

Google的價格模型基於儲存和分析的資料總量。儲存費用是每月0.12GB美元。互動查詢為每處理1GB 0.035美元,包查詢費用為0.02美元/GB。為了限制處理的資料量,可以限制分析的行數,包括你實際需要結果的列。BigQuery使用柱狀資料儲存,因此並不是所有的行資料,在一個或者更多列查詢時回覆。

資料存入BigQuery,使用負載工作,可以同Google Cloud Storage的資料工作,或者使用POST請求本地檔案系統中的資料。檔案可以格式化成為CSV或者JSON格式。壓縮檔案限制到1GB,但是非壓縮檔案能到1TB。負載工作包括多達一萬個檔案,但是所有檔案的大小總和不能超過1TB。由於每天每個表可以擁有多達1000個負載工作,這些定額對於大多數專案不見得有實際的影響。

[入門級大資料分析:Google BigQuery]相關文章:

1.入門級大資料分析:Google BigQuery