Posts for the month of November 2010

GPUクラスターによるLinpackベンチマークの結果について

2010年11月に発表されたtop500からGPUクラスターによる結果を抜粋。ハイライトによるとtop500にはNVIDIAのGPUを使ったクラスターが10システム、AMDのGPUを使ったクラスターが1システムあるとのこと。であるが、全部を見つけることはできなかったので、以下ではそのうちの上位のシステムのみを抽出した。Fermiを使ったシステムが4システム、Radeon(Cypress)を使ったシステムが1システムである。

順位ノード数総コア数CPUコア数GPUコア数メモリ(TB)RmaxRpeakRmax/Rpeak? (%) CPU GPU
1 7168 186368 12 14 103.6 2566000 4701000 54.5 X5670 2.93GHz M2050
3 4640 120640 12 14 44.5 1271000 2984300 42.5 X5650 2.66GHz C2050
4 1357 73278 12 42 49.6 1192000 2287630 52.1 X5670 2.93GHz M2050
22 549 24156 24 20 29.9 285200 409200 69.7 Opteron 6172 2.1 GHz Radeon 5870
145 256 4608 16 56 3.5 52550 14330 36.6 E5462 2.8GHz S2050

CPUコア数とGPUコア数はいずれもノードあたり。総コア数はノード数×(CPUコア数+GPUコア数)と等しいはずなので、ノード数が公表されていない場合は、総コア数を信じてノード数を計算した。メモリは公表されているNmaxの値から逆算した値で、システムの総メモリ量ではない。22位のシステムは、top500で公表されている情報がSC10の会場で配られていた資料と異なるので、配られていた資料の数字を載せた。ただしノード数はRpeakから逆算した数(少し変?)。

ノードあたりのCPU,GPUの性能とGPUの性能の割合、そしてノードあたりのメモリ量は以下のとおりになる。

順位CPU性能GPU性能GPU割合(%)メモリ(GB)
1140.64 515 78.514.5
3127.68 515 80.19.6
4140.64 1545 91.636.6
22201.6 544 72.938.9
145179.2 2060 91.913.7

おおまかに言えば、4位145位のシステムはGPUヘビーであるのに対して22位のシステムはCPUヘビーであり、1位3位のシステムはその中間程度になっている。定性的には、Linpackベンチマークは1ノードあたりのCPUの演算性能の割合が多いほど、そしてノードあたりのメモリが多いほど、Rmax/Rpeak値はよくなる。その意味では145位のシステムは相当バランスを欠いており、メモリが少ないために、ノード数が少ないにもかかわらずRmax/Rpeak値が低い。3位のシステムも同様である。数字上ほどよくバランスが取れているのは1位と22位のシステムである。4位のシステムはメモリがもっと多く使えるのならより高効率になっただろう。ただし、Linpackベンチマークの観点でバランスを欠いているからといって、そのシステムが使いものにならないということはない。GPUクラスターにはある種の特化した目的があるはずなので、その目的が達成できるように設計されているのなら、ノードあたりのメモリが少なくとも問題はない。

FermiのDGEMM性能はそもそも1 GPUあたりのRmax/Rpeak値が60%しかないため、システムがGPUヘビーであるならば、全体のRmax/Rpeak値が60%を超えることは困難である。それに対してCypressでは最大では87%の効率であり(我々の実績値)、22位のシステムはCPUヘビーでもあるので、Rmax/Rpeak値が高くなるのは当然であろう。とはいえFermiのシステムと比べて、Linpackでの効率がよいのは明らかであり、Cypressアーキテクチャの優位性を示す。

22位のシステムについては、会場で配られていた資料によると、1ノードでのLinpack性能は563.2 GFLOPS(75.5%)を達成していて、現時点では1 GPUのシステムで最速であろう。ただしLU分解ではCPUも活用するため、異なるCPUやコア数のシステムを単純に比較することはできないことに注意。CypressでのDGEMMルーチンは我々のものではなく、彼らが独自で実装したものであると、議論をしたヨハン・ヴォルフガング・ゲーテ大学フランクフルト・アム・マインの研究者ら(なんとPh.D students!)は言っていた。

単位電力あたりの性能のランキングであるgreen500の結果もほぼ同時に公表されているが、消費電力測定のプロなどというものがいるかどうかは別としても、素人考えでも異なるサイトにおける全く異なるシステムの消費電力の測定を、意味のある形で科学的に比較することは単純ではない。よって、現時点でgrenn500の結果に意味があるかは大きな疑問符がつく。できるだけ科学的に比較できるような仕組みを真剣に議論する必要がある。