Changes between Version 10 and Version 11 of DDemulation


Ignore:
Timestamp:
Jul 7, 2010 9:07:20 PM (14 years ago)
Author:
nakasato
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • DDemulation

    v10 v11  
    11= DDエミュレーション手法の性能について = 
    22いわゆるdouble-doubleエミュレーション手法により、四倍精度演算を利用して、ファインマンループの数値積分を計算した場合の演算性能について。 
    3 ACAT2010での発表と論文の時点から、CypressアーキテクチャGPUでの演算性能がさらに向上したので、結果をまとめる。 
     3SWoPP2009での発表から、さらにACAT2010での発表と論文の時点から、CypressアーキテクチャGPUでの演算性能が向上したので結果をまとめる。 
    44 
    5 = SWoPP2009 = 
     5== SWoPP2009 == 
    66 [attachment:wiki:WikiStart:Swopp2009.pdf Swopp2009発表の研究報告] 
    77 
    8 = ACAT2010論文 = 
     8== ACAT2010論文 == 
    99 [attachment:ACAT2010_Nakasato.pdf] : ACAT2010の発表論文 preliminary version 
     10 
     11== 結果 == 
     12=== 演算性能 === 
     13|| || N=256 || N=512 || N=1024 || N=2048|| note || 
     14||Core i7 || 63.6 || 63.7 || 63.7   ||       || 2670MHz 1 core || 
     15||GRAPE-DR|| 2234 || 3106 || 3840   || 4365  || 380MHz 512 core|| 
     16||RV770   || 5220 || 5694 || 5977 || 6058    || 850MHz 160 core|| 
     17||Cypress || 9395 || 12958 || 15497 || 16938 || 850MHz 320 core|| 
     18||Cypress FMA||   ||       || 23981 || 27270 || 850MHz 320 core|| 
     19 
     20性能はMFLOPS。28N^3^演算として評価した。Cypressでは、FMA命令を使うことでDD乗算が2.5倍ほど高速化するため非常に効率がよい。 
     211 coreのCPUと比べると400倍以上高速となった。 
     22 
     23=== 単位電力あたり === 
     24||        ||  MFLOPS || MFLOPS/W || W (nominal) || 
     25||Core i7 || 63.7    || 2.12     || 30W || 
     26||GRAPE-DR|| 4365    || 87.3     || 50W || 
     27||RV770   || 6058    || 37.9     || 160W || 
     28||Cypress FMA|| 27270 || 145.1   || 188W || 
     29 
     30 
     31== 行列乗算のテスト実装 == 
     32四倍精度での行列乗算をGPUでテスト的に実装してみた。単精度倍精度の結果を含めて[wiki:MatrixMultiply]を参照のこと 
    1033 
    1134== ソースコード == 
     
    2346res += gw30/d**2; 
    2447}}} 
    25  
    26 == 結果 == 
    27 || || N=256 || N=512 || N=1024 || N=2048|| note || 
    28 ||Core i7 || 63.6 || 63.7 || 63.7   ||       || 2670MHz 1 core || 
    29 ||GRAPE-DR|| 2234 || 3106 || 3840   || 4365  || 380MHz 512 core|| 
    30 ||RV770   || 5220 || 5694 || 5977 || 6058    || 850MHz 160 core|| 
    31 ||Cypress || 9395 || 12958 || 15497 || 16938 || 850MHz 320 core|| 
    32 ||Cypress FMA||   ||       || 23981 || 27270 || 850MHz 320 core|| 
    33  
    34 性能はMFLOPS。28N^3^演算として評価した。Cypressでは、FMA命令を使うことでDD乗算が2.5倍ほど高速化するため非常に効率がよい。 
    35 1 coreのCPUと比べると400倍以上高速となった。 
    36  
    37 == 行列乗算のテスト実装 == 
    38 四倍精度での行列乗算をGPUでテスト的に実装してみた。単精度倍精度の結果を含めて[wiki:MatrixMultiply]を参照のこと