2018年4月18日 星期三

mice::md.pattern() 缺值型態解讀

數據規模龐大時,對於缺值的認識就很重要。R有多個套件檢視缺值狀態,如VIM和mice。VIM將缺值型態視覺化,mice的函數 md.pattern()可以呈現一個比較清楚的表,md.pattern()也是GUI rattle 所採用,如下圖解釋如下:




1.      裡面的0=缺值,1=有值
2.      最右邊的直欄從0-4,則是缺值個數。例如,0就是8個變數同時都無缺值的型態,1就是8個變數只缺1個的例子。但是,缺哪一個則不詳。
3.      最左邊的直欄,代表上述型態有多少列。例如,1575代表有1575列的資料是圓滿的,88代表雙缺Occupation Employment這兩個,有88(Rows)。詳細見下面第4點括弧。
4.      內列(row) {0,1} 代表了缺值出現在哪個:例如,第1列無缺,故8個變數都是1。第2列代表單缺Age(承上,有39);第3列代表單缺Employment(承上,有40);第9列代表單缺Deduction(承上,有34) ;第11列代表雙缺Occupation Employment (承上,有88)
5.      末列代表行(Column)變數總缺值。例如,圈圈42=Age這個變數的紀錄中,有42個缺值。
6.      右下角560代表整體資料的區缺值個數。

VIM的視覺化,則可以呈現對比的比較
更多: http://rstudio-pubs-static.s3.amazonaws.com/4625_fa990d611f024ea69e7e2b10dd228fe7.html

沒有留言:

張貼留言