可以高效簡潔自助處理數(shù)據(jù)的Smartbi
smartbi輕量級etl功能,它是可視化流程配置,簡單易用,業(yè)務人員都能參與。無需單獨部署,能夠與smartbi無縫連接,允許將數(shù)據(jù)準備的結果,以數(shù)據(jù)表方式直接提供給bi使用。它還采用分布式計算架構,單節(jié)點支持多線程,能夠處理海量數(shù)量,提高數(shù)據(jù)處理的性能。
這塊強大數(shù)據(jù)處理功能不僅支持異構數(shù)據(jù),還內(nèi)置排序、去重、映射、行列合并、行列轉換聚合、去空值等等數(shù)據(jù)預處理功能,滿足客戶日常數(shù)據(jù)處理的需要。下面我們就舉例介紹幾種數(shù)據(jù)預處理功能。
過濾和映射
過濾和映射是指根據(jù)用戶需求,通過寫sql語句(片段)的方式,對數(shù)據(jù)集中指定字段進行條件篩選過濾。
如下圖,原先示例數(shù)據(jù)源的輸出結果有150條數(shù)據(jù),對其進行過濾與映射,設置過濾器的表達式:[species]='versicolor' ,即只輸出species為versicolor的數(shù)據(jù)。
我們通過可視化流程操作,拖拽過濾器映射對象,通過設置過濾器條件來實現(xiàn)
去除重復值
去除重復值是用于刪除數(shù)據(jù)集中的重復行(假如有兩行相同,保留其中一行)。也是數(shù)據(jù)處理中比較常見的要求。
如下示例,原先關系數(shù)據(jù)源的輸出結果有9條數(shù)據(jù),對其進行去除重復值,在選擇列彈框中選擇所有的列。
我們通過可視化流程操作,拖拽去除重復值對象,對其參數(shù)進行選擇列設置來實現(xiàn)
空值處理
空值處理節(jié)點是將空值替換為均值、大頻數(shù)或者用戶自定義的值等,實現(xiàn)空值的填充或者過濾??罩锰幚淼奶鎿Q值包括大值、最小值、平均值、中位數(shù)、按空值百分比刪除列、出現(xiàn)頻率最多替換、指定值、過濾整行,用于滿足不同的用戶需求。
我們來看一個示例:我們將空值處理為該列出現(xiàn)頻率最多的值,例如number出現(xiàn)頻率最多的值為“4”,則空值經(jīng)過處理后變成“4”;count出現(xiàn)頻率最多的值為“100”,則空值經(jīng)過處理后變成“100”。
我們通過可視化操作拖拽空值處理對象對原先數(shù)據(jù)源進行空值處理,設置如下圖,存在空值,對其進行空值處理,選擇列:number、count ,空值處理為“出現(xiàn)頻率最多替換”。
行轉列/列轉行
行轉列是用于實現(xiàn)將數(shù)據(jù)結果的行轉換成列。列轉行是用于實現(xiàn)將數(shù)據(jù)結果的列轉換成行。
下面我們舉一個行轉列的例子。如下圖,原先數(shù)據(jù)集有4條數(shù)據(jù),對其進行行轉列。
我們通過可視化操作拖拽行轉列對象對原先數(shù)據(jù)源進行空值處理,設置如下圖,設置選擇要透視的列為“科目”,請選擇值列為“分數(shù)”,聚合方式為“大值”。
除了以上功能,smartbi數(shù)據(jù)預處理功能還有采樣、拆分、join、排序、合并列/合并行、增加序號列、聚合、派生列等,有興趣的小伙伴可以到我們wiki上學習使用哦!
使用這些預處理功能處理完成的數(shù)據(jù),我們就可以輸出到目標源中了。這樣不僅可以提高數(shù)據(jù)的質(zhì)量,也能讓數(shù)據(jù)更好地進行數(shù)據(jù)分析和數(shù)據(jù)挖掘!