GPUクラスターによるLinpackベンチマークの結果について
2010年11月に発表されたtop500からGPUクラスターによる結果を抜粋。ハイライトによるとtop500にはNVIDIAのGPUを使ったクラスターが10システム、AMDのGPUを使ったクラスターが1システムあるとのこと。であるが、全部を見つけることはできなかったので、以下ではそのうちの上位のシステムのみを抽出した。Fermiを使ったシステムが4システム、Radeon(Cypress)を使ったシステムが1システムである。
順位 | ノード数 | 総コア数 | CPUコア数 | GPUコア数 | メモリ(TB) | Rmax | Rpeak | Rmax/Rpeak? (%) | CPU | GPU |
1 | 7168 | 186368 | 12 | 14 | 103.6 | 2566000 | 4701000 | 54.5 | X5670 2.93GHz | M2050 |
3 | 4640 | 120640 | 12 | 14 | 44.5 | 1271000 | 2984300 | 42.5 | X5650 2.66GHz | C2050 |
4 | 1357 | 73278 | 12 | 42 | 49.6 | 1192000 | 2287630 | 52.1 | X5670 2.93GHz | M2050 |
22 | 549 | 24156 | 24 | 20 | 29.9 | 285200 | 409200 | 69.7 | Opteron 6172 2.1 GHz | Radeon 5870 |
145 | 256 | 4608 | 16 | 56 | 3.5 | 52550 | 14330 | 36.6 | E5462 2.8GHz | S2050 |
CPUコア数とGPUコア数はいずれもノードあたり。総コア数はノード数×(CPUコア数+GPUコア数)と等しいはずなので、ノード数が公表されていない場合は、総コア数を信じてノード数を計算した。メモリは公表されているNmaxの値から逆算した値で、システムの総メモリ量ではない。22位のシステムは、top500で公表されている情報がSC10の会場で配られていた資料と異なるので、配られていた資料の数字を載せた。ただしノード数はRpeakから逆算した数(少し変?)。
ノードあたりのCPU,GPUの性能とGPUの性能の割合、そしてノードあたりのメモリ量は以下のとおりになる。
順位 | CPU性能 | GPU性能 | GPU割合(%) | メモリ(GB) |
1 | 140.64 | 515 | 78.5 | 14.5 |
3 | 127.68 | 515 | 80.1 | 9.6 |
4 | 140.64 | 1545 | 91.6 | 36.6 |
22 | 201.6 | 544 | 72.9 | 38.9 |
145 | 179.2 | 2060 | 91.9 | 13.7 |
おおまかに言えば、4位145位のシステムはGPUヘビーであるのに対して22位のシステムはCPUヘビーであり、1位3位のシステムはその中間程度になっている。定性的には、Linpackベンチマークは1ノードあたりのCPUの演算性能の割合が多いほど、そしてノードあたりのメモリが多いほど、Rmax/Rpeak値はよくなる。その意味では145位のシステムは相当バランスを欠いており、メモリが少ないために、ノード数が少ないにもかかわらずRmax/Rpeak値が低い。3位のシステムも同様である。数字上ほどよくバランスが取れているのは1位と22位のシステムである。4位のシステムはメモリがもっと多く使えるのならより高効率になっただろう。ただし、Linpackベンチマークの観点でバランスを欠いているからといって、そのシステムが使いものにならないということはない。GPUクラスターにはある種の特化した目的があるはずなので、その目的が達成できるように設計されているのなら、ノードあたりのメモリが少なくとも問題はない。
FermiのDGEMM性能はそもそも1 GPUあたりのRmax/Rpeak値が60%しかないため、システムがGPUヘビーであるならば、全体のRmax/Rpeak値が60%を超えることは困難である。それに対してCypressでは最大では87%の効率であり(我々の実績値)、22位のシステムはCPUヘビーでもあるので、Rmax/Rpeak値が高くなるのは当然であろう。とはいえFermiのシステムと比べて、Linpackでの効率がよいのは明らかであり、Cypressアーキテクチャの優位性を示す。
22位のシステムについては、会場で配られていた資料によると、1ノードでのLinpack性能は563.2 GFLOPS(75.5%)を達成していて、現時点では1 GPUのシステムで最速であろう。ただしLU分解ではCPUも活用するため、異なるCPUやコア数のシステムを単純に比較することはできないことに注意。CypressでのDGEMMルーチンは我々のものではなく、彼らが独自で実装したものであると、議論をしたヨハン・ヴォルフガング・ゲーテ大学フランクフルト・アム・マインの研究者ら(なんとPh.D students!)は言っていた。
単位電力あたりの性能のランキングであるgreen500の結果もほぼ同時に公表されているが、消費電力測定のプロなどというものがいるかどうかは別としても、素人考えでも異なるサイトにおける全く異なるシステムの消費電力の測定を、意味のある形で科学的に比較することは単純ではない。よって、現時点でgrenn500の結果に意味があるかは大きな疑問符がつく。できるだけ科学的に比較できるような仕組みを真剣に議論する必要がある。
Comments
No comments.