PowerPC750CX

info medical NeXT Mac Mail Search bar NERV

about Macintosh

Top > Macintosh > PowerPC > PowerPC 750CX(2)

PowerPC

MacOSにおけるPowerPC G4のアドバンテージ
G4の5-state MERSI coherency protocolとMAXバスの必要性
Dual PowerPC G4とMPXバスについての考察
PowerPC 750CX,SOI,SiLKについて
Macintoshの行き先とPowerPC 750CX
PPC 7440のパイプラインとレイテンシ
iBook 16VRAMの750FXとPowerBook G4 DVIの7455の比較

17/Jun

PPC750CX (2)

035_IBM PPC750CX

CPUダイにL2キャッシュを256Kバイト搭載し、バックサイドキャッシュ用端子が省かれたため、ピン数が減っている。また、CPUダイは裏側に装備され、発生した熱はチップ表面全体をしめる銅製のHeat Spreaderに伝えられる。

この画像はIBM Microelectronics のWeb Contents Ownerの許諾を得て掲載するものです。

36_Load Fold Queue

L1 Dataキャッシュは256bitごとに管理されている。Bus Interface Unitとの結線が64bitであるため、キャッシュキャストの時などデータ転送は4回に分けられる。G4に新設されたLFQが無い場合、隣接するデータにアクセスすると無駄な待ち時間が増えてしまう。

037_Die Size

0.22μmルール、6層銅配線によるPowerPC 750Lはチップ面積が40平方mmであった。まだ750CXのチップ写真は公開されていないので、この図は想像によるイラストである。面積は42.7平方mmだ。もしも512KバイトのL2キャッシュを装備したら、半分の面積はL2キャッシュがしめることになり、面積も56.8平方mmになる。性能は約1.1倍になるという試算があるが、コストは1.4倍になるという。

037_Die Size

IBMが新しく発表したPPC750CXの詳細が徐々に判ってきました。この新しいPPCには二面性が有るようです。ひとつは低コスト化の側面、そしてもう一つは高性能化へ向けてのアプローチです。

低コストに向けてのアプローチとしてパッケージの接点数を削減することが上げられます。G3の特徴であるバックサイドキャッシュは専用のL2 cache Busですが、750CXはL2キャッシュをチップ内に内蔵することで、これを省きました。接点が少なくなると、配線が単純になり、ノイズ対策もとりやすく、より低下価格になります。具体的にはPowerPC 750の場合に360ピンのうちで258本が信号線として使用されていたのに対し、PowerPC 750CXでは256ピンに減り、その中の139本が信号線で、残りはGNDやVdd,OVddです。削減されたのは、L2キャッシュ関連の98本、アドレス・データバスのパリティ信号の12本、デバッグやマルチプロセッサ関連、オプション信号の9本です。

他にも、L2キャッシュに冗長部分を持たせ、コントローラー側にエラー訂正機能を加えることで、チップの歩留まりを向上させ、生産性を上げることや、信号線のPull-up抵抗を省略可能にしたことなども低コストへのアプローチといえるでしょう。

ただし、現在のリビジョンでDaynamic Power managementが機能していませんが、これは将来復活の予定で、機能が省略されているわけではないようです。

高機能化については、何カ所か重要な部分が改変されています。最も目に付くのはL1キャッシュとBus interface unit(BIU)の結線が64bitから4倍の256bitになったことでしょう。

L1 Data キャッシュはとても頻繁にアクセスされるCPUの要とも言える部分です。CPUの心臓部の一つであるLoad/Store unit(LSU)と、外部との仲立ちをするBIUの両方から取り合いになるL1 Dataキャッシュは256bit単位で管理されています。

このキャッシュラインをキャストアウトするときBIUが4サイクルの間、キャッシュを占有していました。モトローラが設計したG4ではこの占有時間を解消するために37_Load Fold Queueが新設されています。しかし、LFQでは根本的解消が出来ない判断したかどうかは判りませんが、L2キャッシュの動作速度がコアクロックと同じになった7500CXでは、性能を発揮するために、この部分の巾が4倍の256bitに広げられました。

また、浮動小数点演算の処理ユニットの数は同じですが、小数点演算命令の予約数が一つから二つに増えています。これは一度にたくさんの浮動小数点演算命令が要求された場合に発生する、パイプラインストールを予防するもので、浮動小数点演算が連続する特殊な状況下では、いままでよりも約10%性能が上昇するそうです。*1

Altivecを搭載したG4が、一度に多くの浮動小数点演算を行えるように巨大な回路を用意したことに比べると、小手先の変更にも思えますが、要所は押さえているという感じです。

興味深いのは浮動小数点演算のうちで、1/Xと1/sqr Xの二つの演算結果の精度をそれぞれ1桁（4bit)と2桁（7bit）向上させているということでしょう。単精度の性能向上は、それほど精度を要求しない場面での速度向上に繋がるでしょう。

搭載キャッシュ容量での性能差は一概に評価しにくい部分です。しかし、キャッシュ容量はそのまま半導体量に比例し、チップ面積が増えれば生産コストも急激に上昇してしまいます。例えば512KバイトのL2を搭載したとしたら、037_Die Sizeの様に面積は1.33倍、生産コストは1.4倍になるそうです。

そのことと比較すると、性能向上は1.1倍程度だとしています*2。ただし、この計算は64KバイトのL1キャッシュをミスしてしまう確率を処理全体の2%、さらにL2をもミスする確率を256Kで0.4%、512Kで0.2%と仮定した場合の数値です。この仮定に基づき作成したのが038_CPIです。On-die L2 cacheの方が同じキャッシュ容量で有ればより小さなCPI（1つの命令を処理するのに要するクロック数、小さい方が優秀）を実現できます。これを見ると判るのですがG3に外部1Mbyteのキャッシュを装備するのと

同等の性能を得るには、750CXに384Kbyte以上のL2 cacheを搭載する必要があります。

CPUにL2 cacheが取りこまれ、今後さらに周辺回路、例えばEther netインターフェースやPCIなどのペリフェラルバスが集積されていく方向で進んで行くでしょう。例えば高速DRAMをもDieに入れるという発表すらあります。

今回の発表も順調にロードマップに従い製造技術が向上し、けして逸脱したスペックとして発表されていません。消費電力の小ささがそれを表しています。おそらく予定通り今年の末には700MHzのPowerPC 750CXeが登場し、Cu11の技術を取り入れたその次も控えているでしょう。

その陰に、マルチプロセッサインターフェースの破棄や、Altivecの非搭載などAppleの思惑とややずれる感があります。ただし、本年2月にアップルのハードウェア担当上級副社長のJon Rubinstein氏が、私たちの「（マルチプロセッサ機などの）サーバー用途機は今後出てくるの

か」という問いに「現状のハードウェアを適切に組み合わすことで、十分対応出来る」と答え、MP機の存在をはぐらかす以上に言いよどんだことが思い起こされます。

Macintoshは、誰と、何処へ向かっているのでしょうか。

038_CPI

*1PowerPC 750CX Supplement to the PowerPC 750 RISC Microprocessor User Manual (PDF)

*2PowerPC 750CX Processor: High Performance with Integrated Multilevel Caching (PDF)

謝辞

IBM Internet Support GroupのM. Trench氏と、日本IBM広報部より、画像の提供、Web内データ及び画像の使用の許諾を頂きました。この場を借り、御礼申し上げます。

Written/Edited by Y.Yamamoto M.D.

Privacy and Security Policy

ご自由にリンクして下さい。トップページへのリンクも併記して頂けるとありがたいです。