Changes between Version 49 and Version 50 of CALによるGPUプログラミング


Ignore:
Timestamp:
May 26, 2009 11:14:32 AM (16 years ago)
Author:
nakasato
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • CALによるGPUプログラミング

    v49 v50  
    1111 
    1212 * 性能まとめ表 
    13 || board  || arch  || clock || memory || SPの数 || 単精度性能 || 倍精度加算性能 || 倍精度乗算性能 || 
    14 || HD4850 || RV770 || 625 MHz || DDR3 || 800 || 1040 GFLOPS || 208 GFLOPS || 104 GFLOPS || 
    15 || HD4870 || RV770 || 750 MHz || DDR5 || 800 || 1200 GFLOPS || 240 GFLOPS || 120 GFLOPS || 
    16 || HD4890 || RV770 || 850 MHz || DDR5 || 800 || 1360 GFLOPS || 272 GFLOPS || 136 GFLOPS || 
     13|| board  || arch  || clock   || memory仕様 || SPの数 || 単精度性能 || 倍精度加算性能 || 倍精度乗算性能 || バンド幅 || 
     14|| HD4850 || RV770 || 625 MHz || DDR3 662 MHz 256bit || 800 || 1040 GFLOPS || 208 GFLOPS || 104 GFLOPS || 63.6 GB/sec || 
     15|| HD4870 || RV770 || 750 MHz || DDR5 900 MHz 256bit || 800 || 1200 GFLOPS || 240 GFLOPS || 120 GFLOPS || 115.2 GB/sec || 
     16|| HD4890 || RV770 || 850 MHz || DDR5 975 MHz 256bit || 800 || 1360 GFLOPS || 272 GFLOPS || 136 GFLOPS || 124.8 GB/sec || 
     17|| HD4770 || RV770 || 750 MHz || DDR3 800 MHz 128bit || 800 || 1200 GFLOPS || 240 GFLOPS || 120 GFLOPS || 51.2 GB/sec || 
     18 
    1719 x2のボードは単純に2倍の性能 
    1820  
     
    3739   * 除算は単精度の初期値をつかってどうにか 
    3840 のように実行されるようだ。単精度での理論性能は全ての命令がmultiply-addの時に達成されるものであるため、結果的に倍精度加算は単精度性能の2/5の半分で1/5の性能となり、乗算はさらにその半分の1/10の性能になる。 
     41 
    3942 * 内積演算に使える倍精度Multiply-Addは、SCを4個を使って2演算なので加算の性能と同じになる。 
     43 
     44 * ボード上のメモリはGDDR3のものとGDDR5のものがあり、それぞれのバンド幅の計算式は: 
     45{{{ 
     46 バンド幅 = (Memory clock) * 3 * (bus width) = X GB/sec (GDDR3の場合) 
     47 バンド幅 = (Memory clock) * 4 * (bus width) = X GB/sec (GDDR5の場合) 
     48}}} 
     49 
    4050 
    4151= Linuxにおける利用方法 =