Context Navigation

Changes between Version 12 and Version 13 of CALによるGPUプログラミング

Timestamp:: Mar 16, 2009 8:08:45 PM (17 years ago)
Author:: nakasato
Comment:: --

Legend:

: Unmodified
: Added
: Removed
: Modified

CALによるGPUプログラミング

-                      v12
+                      v13
  * 二つのボードの違いは、動作クロックとメモリインターフェイス
+ * Shader Processorが800個搭載されており、それぞれが単精度演算でMultiply-Addが可能なprocessorである。実際には、単純に単精度演算ができるprocessor(Stream Core)が4個と関数演算用のprocessor(T-Stream Core)が一緒になって、128 bitレジスタをもつ5 wayのVLIW processor(Thread Processor)になっていると思われる。さらに、このTPが、X個づつまとまって、メモリを共有している(shared buffer)と思われる。
+ * Shader Processorが800個搭載されており、それぞれが単精度でMultiply-Addが可能なprocessorである。実際には、単純に単精度演算ができるprocessor(Stream Core)が4個と関数演算用のprocessor(T-Stream Core)が一緒になって、128 bitレジスタをもつ5 wayのVLIW processor(Thread Processor)になっているらしい。さらに、このTPが、X個づつまとまって、メモリを共有している(shared buffer)と思われる。
+ * 以上のことから単精度での理論性能は以下の式で計算される：
+{{{
+ 単精度性能 = (Number of SP) * 5 (ways) * 2 (FP ops) * clock (MHz) = X MFLOPS
+}}}
+ * 倍精度については、生成されたR770のアセンブラソースを見ると：
+   * 加算はStream Coreを2個利用
+   * 乗算はStream Coreを4個利用
+   * 除算は単精度の初期値とニュートン法
+ のようである。結果的に倍精度加算の性能は単精度性能の1/5となり、乗算は1/10になる。
  * 性能まとめ表