| 10 | |
| 11 | == 結果 == |
| 12 | === 演算性能 === |
| 13 | || || N=256 || N=512 || N=1024 || N=2048|| note || |
| 14 | ||Core i7 || 63.6 || 63.7 || 63.7 || || 2670MHz 1 core || |
| 15 | ||GRAPE-DR|| 2234 || 3106 || 3840 || 4365 || 380MHz 512 core|| |
| 16 | ||RV770 || 5220 || 5694 || 5977 || 6058 || 850MHz 160 core|| |
| 17 | ||Cypress || 9395 || 12958 || 15497 || 16938 || 850MHz 320 core|| |
| 18 | ||Cypress FMA|| || || 23981 || 27270 || 850MHz 320 core|| |
| 19 | |
| 20 | 性能はMFLOPS。28N^3^演算として評価した。Cypressでは、FMA命令を使うことでDD乗算が2.5倍ほど高速化するため非常に効率がよい。 |
| 21 | 1 coreのCPUと比べると400倍以上高速となった。 |
| 22 | |
| 23 | === 単位電力あたり === |
| 24 | || || MFLOPS || MFLOPS/W || W (nominal) || |
| 25 | ||Core i7 || 63.7 || 2.12 || 30W || |
| 26 | ||GRAPE-DR|| 4365 || 87.3 || 50W || |
| 27 | ||RV770 || 6058 || 37.9 || 160W || |
| 28 | ||Cypress FMA|| 27270 || 145.1 || 188W || |
| 29 | |
| 30 | |
| 31 | == 行列乗算のテスト実装 == |
| 32 | 四倍精度での行列乗算をGPUでテスト的に実装してみた。単精度倍精度の結果を含めて[wiki:MatrixMultiply]を参照のこと |
25 | | |
26 | | == 結果 == |
27 | | || || N=256 || N=512 || N=1024 || N=2048|| note || |
28 | | ||Core i7 || 63.6 || 63.7 || 63.7 || || 2670MHz 1 core || |
29 | | ||GRAPE-DR|| 2234 || 3106 || 3840 || 4365 || 380MHz 512 core|| |
30 | | ||RV770 || 5220 || 5694 || 5977 || 6058 || 850MHz 160 core|| |
31 | | ||Cypress || 9395 || 12958 || 15497 || 16938 || 850MHz 320 core|| |
32 | | ||Cypress FMA|| || || 23981 || 27270 || 850MHz 320 core|| |
33 | | |
34 | | 性能はMFLOPS。28N^3^演算として評価した。Cypressでは、FMA命令を使うことでDD乗算が2.5倍ほど高速化するため非常に効率がよい。 |
35 | | 1 coreのCPUと比べると400倍以上高速となった。 |
36 | | |
37 | | == 行列乗算のテスト実装 == |
38 | | 四倍精度での行列乗算をGPUでテスト的に実装してみた。単精度倍精度の結果を含めて[wiki:MatrixMultiply]を参照のこと |