出品公眾號(hào):“SELF格致論道講壇”(ID:SELFtalks),作者:?jiǎn)喂鹑A,中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心研究員
“這里有四組數(shù)據(jù),每組數(shù)據(jù)都不一樣,當(dāng)我們用通常的統(tǒng)計(jì)方法來(lái)看這些數(shù)據(jù)的時(shí)候,它們的方差、相關(guān)性系統(tǒng)值都完全一樣,看不出任何差別。但是,當(dāng)我們用可視化方法把這些數(shù)據(jù)畫(huà)出來(lái)時(shí),就能一眼發(fā)現(xiàn)它們的不同,特別是第四組數(shù)據(jù),它其實(shí)是一只可愛(ài)的小恐龍。”
可視化是什么?其實(shí)可視化離我們很近,比如堪稱(chēng)年度恐怖大片的支付寶賬單,年年刷爆朋友圈,大家可能都被嚇到過(guò)。這是因?yàn)榭梢暬庇^了,它們把數(shù)據(jù)轉(zhuǎn)化為形象的圖表,讓人們一目了然、快速地獲取信息,可以追蹤自己的飲食和消費(fèi)習(xí)慣,于是人們看完就想剁手。
各國(guó)GDP數(shù)據(jù)
當(dāng)然還可以復(fù)雜一些。這是大家熟悉的excel數(shù)據(jù)表,它記錄的是世界銀行統(tǒng)計(jì)的各國(guó)GDP的歷史數(shù)據(jù)。密密麻麻的幾頁(yè),給我們一天的時(shí)間也很難發(fā)現(xiàn)里面有什么規(guī)律。那我們把它可視化出來(lái)看看。
可以看到各個(gè)國(guó)家不同年度的GDP值和排序變化,美國(guó)遙遙領(lǐng)先。總體來(lái)說(shuō),各個(gè)國(guó)家的GDP值都在增長(zhǎng),增長(zhǎng)的快慢決定其排名的變化。中國(guó)上下徘徊幾次后,從1990年開(kāi)始就義無(wú)反顧往上竄,勢(shì)頭很猛,直到2010年穩(wěn)定在第二。
我們還可以跟這個(gè)圖進(jìn)行交互,如果很想看看法國(guó)和中國(guó),我們就可以選中它們,重點(diǎn)看它們的變化和相互關(guān)系,可以看到中國(guó)在哪一年超越了法國(guó)。
這就是可視化,把隱藏在數(shù)據(jù)中的規(guī)律化作直觀的圖像,讓數(shù)據(jù)開(kāi)口講故事。這里用到的是最簡(jiǎn)單的可視化元素——柱狀圖。
數(shù)據(jù)的表現(xiàn)形式——統(tǒng)計(jì)圖
說(shuō)到柱狀圖,我們不得不提一個(gè)重要的人物——威廉·普萊費(fèi)爾,他是蘇格蘭一位非常有名的政治經(jīng)濟(jì)學(xué)家,兩百多年前他就意識(shí)到一個(gè)現(xiàn)象:那些身居高位、業(yè)務(wù)繁忙的商人只需要關(guān)注一些統(tǒng)計(jì)結(jié)果,根本不需要大費(fèi)周折去研究具體細(xì)節(jié)。
于是他設(shè)計(jì)出世界上第一個(gè)柱狀圖。世界上第一臺(tái)計(jì)算機(jī)是1946年才問(wèn)世,所以這個(gè)柱狀圖是純手工繪制。
各國(guó)進(jìn)出口貿(mào)易額
上圖展示了蘇格蘭與其它各國(guó)的進(jìn)出口貿(mào)易額。17年后,他又再接再厲,創(chuàng)造了世界第一個(gè)餅圖,曲線圖。
土耳其帝國(guó)在各州土地面積
這個(gè)餅圖展示了土耳其帝國(guó)當(dāng)時(shí)在非洲、歐洲、亞洲所占領(lǐng)的土地面積。
英國(guó)與北美進(jìn)出口貿(mào)易差
這個(gè)曲線圖展示的是英國(guó)與北美的進(jìn)出口貿(mào)易差。雖然這些是200年前繪制的圖表,但這些表現(xiàn)形式我們到現(xiàn)在還經(jīng)常使用,可見(jiàn)這位普萊費(fèi)爾的偉大。
玫瑰圖
這張圖很像盛開(kāi)的玫瑰,它有一個(gè)美麗的名字——玫瑰圖。
故事發(fā)生在1855年,克里米亞戰(zhàn)爭(zhēng)期間,英軍傷亡慘重,當(dāng)時(shí)一個(gè)叫南丁格爾的戰(zhàn)地護(hù)士,她通過(guò)搜集數(shù)據(jù),發(fā)現(xiàn)很大部分死亡原因其實(shí)并非是“戰(zhàn)死沙場(chǎng)”,而是因?yàn)樵趹?zhàn)場(chǎng)外感染了疾病,或是在戰(zhàn)場(chǎng)上受傷,卻沒(méi)有得到適當(dāng)?shù)淖o(hù)理。于是她設(shè)計(jì)了這個(gè)玫瑰圖。
南丁格爾圖/玫瑰圖:戰(zhàn)爭(zhēng)死亡統(tǒng)計(jì)圖
把圓分成12分,代表十二個(gè)月。藍(lán)色面積表示死于感染的士兵,紅色表示死于戰(zhàn)場(chǎng)的重傷,灰色表示其它原因。很明顯,藍(lán)色區(qū)域的面積明顯遠(yuǎn)大于其他區(qū)域,這張圖一目了然地揭示了戰(zhàn)士死亡的真正原因。
南丁格爾把這份結(jié)果呈現(xiàn)給軍隊(duì)和伊麗莎白女王,促成了世界第一座戰(zhàn)地醫(yī)院的建立。也正因?yàn)橛辛藨?zhàn)地醫(yī)院及時(shí)的醫(yī)治與護(hù)理,死亡率從42%減低到2.2%,可以說(shuō)這張圖挽救了很多戰(zhàn)士的生命,這也足以證明可視化對(duì)信息傳遞的重要性。
無(wú)論是柱狀圖餅圖還是曲線圖玫瑰圖,從本質(zhì)上來(lái)說(shuō),都是統(tǒng)計(jì)結(jié)果的可視化。統(tǒng)計(jì)對(duì)分析當(dāng)然很重要,但是光有統(tǒng)計(jì)是不夠的。
圖中有四組數(shù)據(jù),每組數(shù)據(jù)都不一樣。當(dāng)我們用通常的統(tǒng)計(jì)方法來(lái)看這個(gè)數(shù)據(jù)的時(shí)候發(fā)現(xiàn),它x軸的均值y軸均值,方差、相關(guān)性系統(tǒng)值都完全一樣,看不出任何差別,很多特征信息都丟失了??磥?lái)統(tǒng)計(jì)方法是不行了,那我們用更高級(jí)的可視化方法試一下。
我們把這些數(shù)據(jù)畫(huà)出來(lái),就能一眼發(fā)現(xiàn)它們的不同,有九個(gè)點(diǎn)狀的、有X形的、有五角星形狀的,特別是第四組是一只可愛(ài)的恐龍。
很有意思,可視化通過(guò)圖像迅速吸收、消化數(shù)據(jù)并把特征信息形象的傳遞給我們??墒钱?dāng)數(shù)據(jù)越來(lái)越大,故事越來(lái)越復(fù)雜,怎么畫(huà)數(shù)據(jù)就是一個(gè)難題了。
如果我們像剛才畫(huà)恐龍那樣把數(shù)據(jù)直接畫(huà)出來(lái),問(wèn)題又來(lái)了,什么也看不見(jiàn),所以我們需要研究新的可視化算法。“體繪制技術(shù)”可以幫我們穿透這團(tuán)迷霧。通過(guò)這種方法可以清晰地看到它是一只手,還可以透過(guò)皮膚,看到血管與骨骼。
可視化的實(shí)際應(yīng)用
宇宙演化模擬數(shù)據(jù)
這是一個(gè)天文學(xué)家給我們的140億年宇宙演化的模擬數(shù)據(jù),大概有90TB的數(shù)據(jù)量,我們翻一年也翻不完。
這么大的數(shù)據(jù),這么復(fù)雜的故事,需要用到超級(jí)計(jì)算機(jī)和各種復(fù)雜的可視化算法,才能把它里面隱藏的特征信息形象的表達(dá)出來(lái)。天文學(xué)家只能把它們畫(huà)成簡(jiǎn)單能量譜的曲線。
當(dāng)我們把它可視化出來(lái)的時(shí)候,跟我們合作的天文學(xué)家震驚了,這是他們第一次可以直觀地看到自己模擬的整個(gè)宇宙及其動(dòng)態(tài)演化。
宇宙結(jié)構(gòu)模擬
上圖是這個(gè)數(shù)據(jù)的可視化結(jié)果,就是我們現(xiàn)在宇宙的樣子。這些星系經(jīng)歷了140億年的穿行,形成現(xiàn)在的各種星系團(tuán)結(jié)構(gòu),這些星團(tuán)之間有一些絲狀結(jié)構(gòu)的連接在一起,也許左下角飛過(guò)的小亮點(diǎn)就是我們的地球。
這個(gè)是最大的星系團(tuán),是我們銀河系的一萬(wàn)倍,我們可以清晰地看到它的內(nèi)部層次,它通過(guò)140億年不斷吞噬合并其它星系而形成了現(xiàn)在這樣一個(gè)龐大的天體結(jié)構(gòu)。
星系演化模擬圖
天文學(xué)家還想看看這些大星系團(tuán)是怎么一步一步演化而來(lái)的。于是我們可以挑出天文學(xué)家感興趣的局部的區(qū)域。
可以看到,一開(kāi)始粒子均勻分布,后來(lái)在引力的作用下,逐漸成各種不同的小團(tuán),大團(tuán)直接吞噬小團(tuán),兩個(gè)相當(dāng)?shù)拇髨F(tuán)相互碰撞,合并最終形成一個(gè)超大的星系團(tuán)。
星系演化模擬圖
天文學(xué)家還需要進(jìn)一步分析其中的一個(gè)小的星系團(tuán),想看看它們?cè)谶@場(chǎng)大的演化運(yùn)動(dòng)中,怎么由小小的幾個(gè)星系團(tuán)合并。
我們可以看到,剛開(kāi)始,慢慢形成幾個(gè)小團(tuán),然后合并,之后幾度險(xiǎn)些被沖散,最終有驚無(wú)險(xiǎn)頑強(qiáng)地合并在一起。
有了可視化,天文學(xué)家不費(fèi)吹灰之力,就有了一臺(tái)指哪打哪的望遠(yuǎn)鏡,而且還可以穿越歷史。當(dāng)然要實(shí)現(xiàn)這些,我們突破了一系列關(guān)鍵技術(shù),從數(shù)據(jù)組織與壓縮、并行與GPU加速繪制、色調(diào)映射、所見(jiàn)即所得的時(shí)序分析及特征結(jié)構(gòu)挖掘等一系列算法來(lái)做支撐。
黑洞吸積盤(pán)流場(chǎng)可視化
黑洞也是天文學(xué)家特別關(guān)心的問(wèn)題。我們都知道黑洞無(wú)限制吞噬吸收周?chē)奈镔|(zhì),實(shí)際上在這個(gè)過(guò)程中也會(huì)產(chǎn)生高速的噴流。
2013年歐洲XMM牛頓太空望遠(yuǎn)鏡發(fā)現(xiàn)了黑洞會(huì)噴射重金屬流的現(xiàn)象。這些現(xiàn)象的背后的具體機(jī)制是個(gè)不解之謎,也是天文界的重大科學(xué)問(wèn)題。
如果想要研究這個(gè)問(wèn)題,首先需要用計(jì)算機(jī)來(lái)模擬這個(gè)現(xiàn)象。中科院上海天文臺(tái)的科學(xué)家們想要進(jìn)一步研究它的機(jī)理。但是模擬的結(jié)果對(duì)不對(duì),模型算法合不合理,沒(méi)有標(biāo)準(zhǔn)去驗(yàn)證。
同時(shí),對(duì)于粒子是怎么進(jìn)入黑洞,他們內(nèi)部也有不同的看法。所以他們找到我們,問(wèn)我們有沒(méi)有什么辦法讓他們直觀看看數(shù)據(jù),來(lái)驗(yàn)證他們的方法。
我們?yōu)樗麄兌ㄖ屏诉@樣一個(gè)可視化的工具,幫助他們直觀地分析數(shù)據(jù),看看物質(zhì)是怎么進(jìn)入黑洞,以什么樣的軌跡進(jìn)入黑洞,有沒(méi)有物質(zhì)噴射出來(lái),如何噴射出來(lái)。
采用軌跡線的方法,手動(dòng)在他們感興趣的區(qū)域撒點(diǎn),就像我們?cè)诤永锶鲆恍┡菽杂^察河流的緩急。我們可以清楚到看到粒子是怎么運(yùn)動(dòng)的,在哪兒開(kāi)始被吞噬,正如科學(xué)家期待的那樣,這里確實(shí)有物質(zhì)噴出。
洋流可視化
我們都知道洋流對(duì)海洋航運(yùn),氣候、地理環(huán)境都有很重要的影響??墒敲鎸?duì)茫茫的大海,觀測(cè)資料很少,科學(xué)家迫切需要清楚地看到整個(gè)海洋的洋流情況。直到有了衛(wèi)星,有了超級(jí)計(jì)算機(jī)之后,我們才得到了更準(zhǔn)確高精度的模擬數(shù)據(jù)。
將這些數(shù)據(jù)可視化可以讓科學(xué)家直觀地看到上圖的畫(huà)面,這對(duì)科學(xué)家來(lái)說(shuō)是非常關(guān)鍵的,因?yàn)樗麄兡芮宄乜吹窖罅鞯乃俣?、方向、溫度變化情況。比如說(shuō)圖中這些渦和流,它們的相互作用但對(duì)科學(xué)家來(lái)說(shuō)意義重大。通過(guò)可視化我們甚至還可以觀測(cè)海洋污染,比如石油泄漏,潛水艇可以更加安全地航行。
中國(guó)局部地形圖
我們經(jīng)常遇到霧霾天,可能你們沒(méi)有從這個(gè)角度來(lái)看過(guò)霧霾。這是中國(guó)局部地形圖,紅色代表北京,黃色代表武漢,中間就是霧霾,不同的顏色代表不同濃度,底層像河流一樣的代表大氣的風(fēng)場(chǎng)。
通過(guò)這樣的可視化,科學(xué)家從這里可以看到霧霾是怎么在風(fēng)場(chǎng)和地理環(huán)境的影響下,從北京傳輸?shù)轿錆h的。這對(duì)他們理解霧霾的傳輸過(guò)程很重要,可以更好地揭示不同地區(qū)間霧霾發(fā)生的相互關(guān)系。
我們不僅幫助大氣學(xué)家來(lái)尋找霧霾來(lái)源,也在輔助物理學(xué)家去尋找清潔能源。核能就是一種清潔能源,但是核廢料卻對(duì)環(huán)境有污染,處理核廢料,國(guó)際上最有效的方法,就是利用ADS嬗變系統(tǒng)。它可以用核廢料發(fā)電,還能解決核輻射問(wèn)題。
中科院近代物理所牽頭研究這一技術(shù),以上是他們委托我們做的嬗變系統(tǒng)的可視化。
這些粒子正在直接加速器上沖刺,下方條狀圖顯示,一開(kāi)始,粒子團(tuán)變化巨大,在加速過(guò)程中慢慢趨向穩(wěn)定。管道中,紅色和藍(lán)色的椎體是不同的磁極,這些磁極的強(qiáng)度與分布,還有粒子的初始速度,都是可以調(diào)節(jié)的。
科學(xué)家可以直觀地看到這些數(shù)值調(diào)節(jié)以后的效果。目前,該研究工作已成功結(jié)題,正轉(zhuǎn)化為國(guó)家大科學(xué)裝置,準(zhǔn)備開(kāi)工建設(shè)。
高鐵可視化
最后說(shuō)說(shuō)大家都熟悉的高鐵。
其實(shí),高鐵投入生產(chǎn)之前,科學(xué)家需要做很多工作。比如,為了以最少能量獲取最高的速度,我們需要讓尾部的渦旋盡可能地小,這樣行駛過(guò)程中的阻力更小。
我們要從高鐵尾部產(chǎn)生的海量流線里,幫助科學(xué)家找到最感興趣的尾部渦旋,也就是大家看到視頻當(dāng)中運(yùn)動(dòng)的曲線。在這個(gè)過(guò)程中,科學(xué)家通過(guò)可視化,可以看到不同參數(shù)情況下渦旋的大小變化,就可以輔助高鐵的設(shè)計(jì)優(yōu)化。
未來(lái)的可視化會(huì)是什么樣子呢?可視化也許會(huì)脫離屏幕的限制,真正走到我們面前,或許你一個(gè)動(dòng)作,一個(gè)眼神,就可以進(jìn)行可視化的互動(dòng),就跟現(xiàn)在科幻電影里的場(chǎng)景一樣,我相信,這一天很快就會(huì)到來(lái)。
本文出品自“SELF格致論道講壇”公眾號(hào)(SELFtalks),轉(zhuǎn)載請(qǐng)注明公眾號(hào)出處,未經(jīng)授權(quán)不得轉(zhuǎn)載。