由KNIME工作流批量生成疫情空間分布熱力圖,并由另外的工作流將所有圖
片合成GIF動(dòng)圖,疫情隨日期如何發(fā)展到被控制的整個(gè)過程,規(guī)律躍然紙上。
KNIME,即 KoNstanz Information MinEr 就提供了一個(gè)這樣的數(shù)據(jù)流構(gòu)建環(huán)境。圖2-2 是在 KNIME 中實(shí)現(xiàn)一個(gè)小型數(shù)據(jù)分析流的截圖。在圖的中間部分,數(shù)據(jù)流從兩個(gè)數(shù)據(jù)源讀取數(shù)據(jù),然后在預(yù)處理、建模、可視化等若干個(gè)分析流或節(jié)點(diǎn)中并行地處理。在圖的左邊是節(jié)點(diǎn)庫,從這些種類繁多的節(jié)點(diǎn)中,我們可以選擇數(shù)據(jù)來源、數(shù)據(jù)預(yù)處理實(shí)施、建模的算法,以及可視化工具等節(jié)點(diǎn),然后把他們拖拽到中間的編輯區(qū)內(nèi),在這里對(duì)節(jié)點(diǎn)之間進(jìn)行連接。軟件系統(tǒng)的圖形化、可交互式查看視圖、標(biāo)記數(shù)據(jù)的能力(即可視化刷:visual brushing), 使得用戶能夠隨時(shí)隨地探索分析數(shù)據(jù)集合。KNIME 是用Java語言寫的,它的圖形化的工作流編輯器是以Eclipse插件形式實(shí)現(xiàn)的。通過開放的API 借口和已有的數(shù)據(jù)抽象的框架,軟件擴(kuò)展變得十分容易,也讓開發(fā)者能夠以一個(gè)十分規(guī)范良好的方式,更有效率地為軟件添加新的節(jié)點(diǎn)。
在 KNIME 中,用戶可以構(gòu)建工作流1,其中包括處理數(shù)據(jù)的節(jié)點(diǎn),以及承載在節(jié)點(diǎn)之間流通數(shù)據(jù)的管線。數(shù)據(jù)流通常是從一個(gè)讀取數(shù)據(jù)的節(jié)點(diǎn)開始,該節(jié)點(diǎn)從某數(shù)據(jù)源讀取數(shù)據(jù)。數(shù)據(jù)源一般都是文本文件,但某些特殊節(jié)點(diǎn),也支持查詢數(shù)據(jù)庫來獲取數(shù)據(jù)。導(dǎo)入的數(shù)據(jù)存儲(chǔ)在內(nèi)部的一個(gè)基于表的結(jié)構(gòu)中,該結(jié)構(gòu)包含一定的(但可擴(kuò)展)數(shù)據(jù)類型(如:整數(shù)、字符串、圖像、分子結(jié)構(gòu)等),此外還含有一定數(shù)量的符合列屬性行的數(shù)據(jù)。這些數(shù)據(jù)表通過管線傳送給其他的節(jié) 點(diǎn),以便進(jìn)一步執(zhí)行修改、變換、建;蚴强梢暬奶幚怼P薷目梢园ㄌ幚砣笔У臄(shù)據(jù)、篩選指定的列或是行、過度取樣、將數(shù)據(jù)表分割為訓(xùn)練數(shù)據(jù)和測試數(shù)工作流:workflow,
綜上所述,KNIME提供了一個(gè)模塊化的軟件框架,為可視化組件和交互執(zhí)行數(shù)據(jù)流程提供了一個(gè)圖形化的工作平臺(tái)。它具有一個(gè)強(qiáng)大而直觀的用戶界面,易于和新模塊或節(jié)點(diǎn)集成,而且用戶可以交互式探查分析結(jié)果或是訓(xùn)練后的模型。通過與一些諸如Weka機(jī)器學(xué)習(xí)和R統(tǒng)計(jì)軟件等強(qiáng)大的庫進(jìn)行集成,它形成了一個(gè)可以應(yīng)對(duì)各種數(shù)據(jù)分析任務(wù)、功能強(qiáng)大豐富的平臺(tái)。
KNIME 2.0 新版本中的新特性,特別是對(duì)循環(huán)的支持、數(shù)據(jù)庫連接操作以及PMML 進(jìn)一步增強(qiáng)了 KNIME 的能力,使其成為一個(gè)強(qiáng)大的數(shù)據(jù)探索和分析的環(huán)境,同時(shí)它也具有優(yōu)良的集成擴(kuò)展能力,可以輕松地訪問很多其他的數(shù)據(jù)處理與分析包。