Changes between Version 12 and Version 13 of CALによるGPUプログラミング


Ignore:
Timestamp:
Mar 16, 2009 8:08:45 PM (16 years ago)
Author:
nakasato
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • CALによるGPUプログラミング

    v12 v13  
    1111 * 二つのボードの違いは、動作クロックとメモリインターフェイス 
    1212 
    13  * Shader Processorが800個搭載されており、それぞれが単精度演算でMultiply-Addが可能なprocessorである。実際には、単純に単精度演算ができるprocessor(Stream Core)が4個と関数演算用のprocessor(T-Stream Core)が一緒になって、128 bitレジスタをもつ5 wayのVLIW processor(Thread Processor)になっていると思われる。さらに、このTPが、X個づつまとまって、メモリを共有している(shared buffer)と思われる。 
     13 * Shader Processorが800個搭載されており、それぞれが単精度でMultiply-Addが可能なprocessorである。実際には、単純に単精度演算ができるprocessor(Stream Core)が4個と関数演算用のprocessor(T-Stream Core)が一緒になって、128 bitレジスタをもつ5 wayのVLIW processor(Thread Processor)になっているらしい。さらに、このTPが、X個づつまとまって、メモリを共有している(shared buffer)と思われる。 
     14  
     15 * 以上のことから単精度での理論性能は以下の式で計算される: 
     16{{{ 
     17 単精度性能 = (Number of SP) * 5 (ways) * 2 (FP ops) * clock (MHz) = X MFLOPS 
     18}}} 
     19 
     20 * 倍精度については、生成されたR770のアセンブラソースを見ると: 
     21   * 加算はStream Coreを2個利用 
     22   * 乗算はStream Coreを4個利用 
     23   * 除算は単精度の初期値とニュートン法 
     24 のようである。結果的に倍精度加算の性能は単精度性能の1/5となり、乗算は1/10になる。 
    1425 
    1526 * 性能まとめ表