### 卒業論文

題目

## 階層タイル形式格納キャッシュメモリの シミュレータによる性能評価

指導教員

近藤利夫

2016年

三重大学 工学部 情報工学科 コンピュータアーキテクチャ研究室

小池 竜馬 (409826)

## 内容梗概

科学技術計算や画像処理の高速化には,高効率の2次元データ処理が必要 不可欠である.しかし, ラスター走査順に割り当てられた2次元配列データ に対し,ライン単位でアクセスする既存のキャッシュメモリでは,2次元の空 間的な局所性を活かせないことから、アクセス効率の低下を来し、それが高 速化のボトルネックとなっている.これに対し2次元の局所性を最大限に活 かすことを目指した格納方式のZ順配置[1][2]が提案されていた.しかし,こ の方式では列方向のアクセスは効率化されるものの, 行方向のアクセス効率 が逆に低下してしまう問題がある.そこで,当研究室ではZ順配置ベースの3 レベル階層タイル形式にスキュード配列形式を組み合わせることで,従来のラ イン単位アクセスとタイル単位アクセスを両立するライン・タイル両アクセス 対応の新構成キャッシュメモリを提案している.本研究ではこのキャッシュメ モリのシミュレータの実装,評価を行った.シミュレータはSimpleScalar[3] を改造することで実装した.ただし,卒研の範囲内で改造が終えられるよう, 実装機能は3レベルの階層タイル形式に限定した.最上位のタイルの形状と して縦長の長方形と正方形の2種類試した結果,正方形の形状でヒット率を 行列乗算で2%, ボックスフィルタで0.6%, それぞれ改善する理想的なZ順 配置と同等のアクセス性能が得られることを明らかにできた.

## Abstract

High-speed scientific computing and image processing need efficient twodimensional data processing. However, a conventional cache memory based on Raster order unit line access cannot utilize 2-D spatial locality so that, it has poor 2-D access efficiency and causes bottleneck to accelerate twodimensional data processing. In order to solve this problem, Z-Morton order layout that can maximize the utilization of 2-D spatially locality had been proposed in recent years. Though this method can improve the data access speed in the vertical direction the performance of data access in the horizontal direction decreased. In this paper, we proposed a new cache memory with both unit line and unit tile accessibility based on 3 level Z-order tiling data layout and multi-bank memory structure supporting skewed array store scheme. We developed a cache simulator based on Simplescalar and evaluated the performance of proposed cache in this study. We only implemented the 3 level Z-order tiling data layout into the cache simulator. Simulation result shows that the proposed 3 level Z-order tiling data layout provide less cache miss ratio compared with raster scan order at matrix multiplication (2%), convolution filtering (0.6%) and it also has similar performance to the Z-Morton order.

# 目 次

| まえがき                          | 1                                                                                                                                                                                                                                                                                 |
|-------------------------------|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 1.1 背景                        | 1                                                                                                                                                                                                                                                                                 |
| 1.2 研究目的                      | 1                                                                                                                                                                                                                                                                                 |
| 先行研究                          | 3                                                                                                                                                                                                                                                                                 |
| 2.1 <b>キャッシュブロッキング</b>        | 3                                                                                                                                                                                                                                                                                 |
| 2.2 Z-order                   | 4                                                                                                                                                                                                                                                                                 |
| 2.3 ライン・タイル両アクセス対応キャッシュメモリ    | 5                                                                                                                                                                                                                                                                                 |
| シミュレータの実装上の問題点とその解決法          | 7                                                                                                                                                                                                                                                                                 |
| 3.1 SimpleScalar              | 8                                                                                                                                                                                                                                                                                 |
| 3.2 ライン・タイル両アクセス対応キャッシュメモリの実装 | 8                                                                                                                                                                                                                                                                                 |
| 3.3 実装上の問題点と解決法               | 10                                                                                                                                                                                                                                                                                |
| 実装・評価方法                       | 12                                                                                                                                                                                                                                                                                |
| 4.1 シミュレータの実装                 | 12                                                                                                                                                                                                                                                                                |
| 4.2 評価用プログラム                  | 13                                                                                                                                                                                                                                                                                |
| 4.2.1 行列積                     | 15                                                                                                                                                                                                                                                                                |
| 4.2.2 <b>畳み込み</b> 演算          | 15                                                                                                                                                                                                                                                                                |
| 性能評価                          | 16                                                                                                                                                                                                                                                                                |
| 5.1 評価                        | 16                                                                                                                                                                                                                                                                                |
| 5.2 考察                        | 17                                                                                                                                                                                                                                                                                |
| あとがき                          | 20                                                                                                                                                                                                                                                                                |
| 辞                             | 21                                                                                                                                                                                                                                                                                |
| 考文献                           | 22                                                                                                                                                                                                                                                                                |
|                               |                                                                                                                                                                                                                                                                                   |
| プログラムリスト                      | 23                                                                                                                                                                                                                                                                                |
|                               | まえがき   1.1 背景   1.2 研究目的   1.2 研究目的   2.1 キャッシュブロッキング   2.2 Z-order   2.3 ライン・タイル両アクセス対応キャッシュメモリ   シミュレータの実装上の問題点とその解決法   3.1 SimpleScalar   3.2 ライン・タイル両アクセス対応キャッシュメモリの実装   3.3 実装上の問題点と解決法   ま装・評価方法   4.1 シミュレータの実装   4.2 評価用プログラム   4.2.1 行列積   4.2.2 畳み込み演算   あとがき   辞   考究献 |

# 図目次

| 2.1  | (a) <b>ブロック無しの行列</b> 積 (b) <b>ブロッキングされる行列積</b> | 4  |
|------|------------------------------------------------|----|
| 2.2  | ラスター順のアドレス付け.................                  | 5  |
| 2.3  | Z-order のアドレス付け                                | 5  |
| 2.4  | 新構成キャッシュメモリの構成...............                  | 7  |
| 2.5  | アドレス割り当て........................               | 7  |
| 2.6  | データのキャッシュメモリへの格納方法                             | 8  |
| 3.7  | (a)SimpleScalar の構成 (b) 改造後の構成                 | 9  |
| 4.8  | アドレス変換1                                        | 13 |
| 4.9  | アドレス変換 2                                       | 13 |
| 4.10 | (a) アドレス変換 1 のラージタイル (b) アドレス変換 2 の            |    |
|      | ラージタイル                                         | 14 |
| 4.11 | 2次元配列の領域確保                                     | 14 |
| 5.12 | 行列積 (配列サイズ平均)                                  | 17 |
| 5.13 | 行列積 (ブロックサイズ平均)                                | 17 |
| 5.14 | ボックスフィルタ (配列サイズ平均)                             | 18 |
| 5.15 | ボックスフィルタ (ブロックサイズ平均)                           | 18 |
| 5.16 | ボックスフィルタ (フィルタサイズ平均)                           | 18 |

# 表目次

| 4.1 | 行列積の配列サイズ                         | 15 |
|-----|-----------------------------------|----|
| 4.2 | 行列積のブロックサイズ...................... | 15 |
| 4.3 | ボックスフィルタの配列サイズ                    | 16 |
| 4.4 | ボックスフィルタのブロックサイズ.........         | 16 |
| 4.5 | ボックスフィルタのフィルタサイズ..........        | 17 |

#### 1 まえがき

#### 1.1 背景

近年,コンピュータの性能が著しく向上しているにも関わらず,科学技術 計算や画像処理に代表される2次元データ処理の高速化の要求が高まってい る.しかし,2次元データ処理でのキャッシュメモリへのアクセスは,既存 のライン単位でのアクセスするキャッシュメモリでは,プロック単位のアク セスがボトルネックとなり非効率である.さらに,プロック単位のアクセス アドレスが不規則になる場合には,アドレス計算の複雑化や,プロック単位 データがキャッシュラインに収まりきらないために並列アクセスが不能にな り,キャッシュプロッキングがうまく機能しなくなってしまう.これらに対処 すべくプロック単位アクセスに特化した Z-order と呼ばれる格納方式が提案 されているが,列方向への高効率なアクセスとの両立はできていない.その ため,2次元的な局所性を活かし,行・列両方向に効率的にアクセス可能な 新構成キャッシュメモリの開発が求められている.

1.2 研究目的

当研究室では,行・列方向へ効率的にアクセスすることを目指したライン・ タイル両アクセス対応の新構成キャッシュメモリが提案されている.しかし, 実装の複雑さから性能評価を行えていない.本研究では,既存のシミュレー タを改造することで,新構成キャッシュメモリの性能を評価し,新構成キャッ シュメモリの問題点を明らかにすると共に,その原因を明らかにする.そして,その明らかにした原因を基に改善法を示す.また,新たに2種類のアドレス変換によるアドレス割り当てを提案・比較評価し,提案キャッシュメモリに最適なアドレス割り当てを明らかにする.

### 2 先行研究

2.3 節に挙げる研究は 2.1 節の手法や 2.2 節の格納方式を基に当研究室にお いて行われているものである.

#### 2.1 キャッシュブロッキング

キャッシュブロッキング法 (cache blocking) は,多くのアプリケーションに おいてメモリ帯域幅のボトルネックを回避できる一般的な最適化手法である [4].具体例として,大きな行列サイズの行列積をあげる.大きな行列積計算 を小さなブロックサイズの行列積に分割することで,キャッシュに収まるデー タの再利用性が高まり,データの参照局所性が向上し,メモリー帯域幅への 負担を減らすことができる.を図 2.1(a) に通常の行列積の処理,2.1(b) に簡 略したキャッシュブロッキング法に基づく行列積の処理法を示す.2.1(a) では N が大きくなると,処理するブロックサイズがキャッシュメモリサイズの限 界を超えるため,配列 Z,Y,X についてデータ局 6 所性が無くなり,キャッ シュ容量性ミスと競合性ミスが頻発し,データアクセス速度の低下が起きる. プロッキング法を利用する 2.1(b) では,行列積がプロック幅 B の領域 ( $B \times B$ ) ごとになされており,配列 Z,Y,X のデータアクセスがプロックで局所 化されている.この  $B \times B$  のプロック単位をキャッシュに収めることができ れば,データアクセスの速度向上が期待できる.



図 2.1: (a) ブロック無しの行列積 (b) ブロッキングされる行列積

#### 2.2 Z-order

Z-order とは、2次元の局所性を最大限に活かすことを目指した格納方式で ある.図2.2にラスター順のアドレス付け、図2.3にZ-orderのアドレス付け を示す.通常のキャッシュメモリは図2.2に示すように、ラスター順のアドレ ス付けでデータを格納するのに対し、Z-order では N × N の正方形にデー タを格納する.図2.3に示すように、メモリアドレスをタイル形式でデータ アクセスできるように変換することで、通常のキャッシュメモリに比べて列 方向のアクセスを効率的に行える.しかし、従来キャッシュメモリと比較し て行方向アクセスが非効率になる問題を抱えている.この問題の改善のため に、任意の2のべき乗サイズの2次元配列のラスター順アドレスを Z-order のアドレス付けに変換するアドレス変換法が提案されており、これまでのラ スター順のアドレス付けをそのまま変換できるものの、ハードウェア規模が 大幅に増える上に, ロードレイテンシ増大の要因となる欠点があった.



図 2.2: ラスター順のアドレス付け



図 2.3: Z-order のアドレス付け

2.3 ライン・タイル両アクセス対応キャッシュメモリ

行・列方向の高アクセス効率を実現するため,当研究室では新構成のキャッシュメモリを提案している [5].図 2.4 に簡単なハードウェア構成を示す.図 2.4 中のアドレス変換器により,プロセッサから出されたラスター順のメモリ アドレスをタイル形式のアドレスへ変換し,非整列アクセスする場合アドレ

ス変換器からはアドレスタグ・アドレスインデックスを並列に生成する.こ のとき変換されるアドレス割り当てを 2.5 に示す.このアドレス割り当ては, 図 2.5 に示すように Z-order を改良した 3 レベルの階層タイル形式格納を採 用しており,最上位階層のタイルを横幅を 64KB に固定している.最下層の タイルをスモールタイルと呼び、その1つ上の階層のタイルをラージタイル と呼ぶ.スモールタイルは通常のキャッシュラインの 32Bvte と同サイズに, ラージタイルはキャッシュメモリと同サイズの 4KB に設定している.アクセ ス順としては各タイル内をラスター順にアクセスする.また,図2.4に示す 通りキャッシュメモリのタグメモリ・データメモリを4バンクに分け,キャッ シュメモリへの格納方法を工夫することよりライン・タイル両アクセスを可能 にしている.図2.6にキャッシュメモリへのデータの格納方法を示す.図2.6 に示すとおりメインメモリにデータをタイル形式に格納し,キャッシュメモリ にロードする際スモールタイル内のデータを各バンク内にずらして格納する. 各バンクからデータをロードする際に1サイクルしかかからないのでライン データもタイルデータも1サイクルでのロードが可能になる.タグデータに 関しても各バンク内のタグデータを入れ替えることで列方向への非整列アク セスを可能にしている.アドレス変換可能なラスター順領域の横幅を 64KB に固定することで,アドレス変換のハードウェア規模低減とロードレイテン シの増加を抑えている.しかし,実装上の複雑さから性能評価が行えていな い問題がある.

 $\mathbf{6}$ 



図 2.4: 新構成キャッシュメモリの構成



図 2.5: アドレス割り当て

### 3 シミュレータの実装上の問題点とその解決法

シミュレータを作製する際 SimpleScalar をベースに実装した.前述の Zmorton を用いたキャッシュメモリの性能評価を行う上で, SimpleScalar が採 用されていたため先行研究に則り本研究においても採用した.この章ではシ ミュレータの基にした SimpleScalar, 及び実装に際して生じた問題点とその



図 2.6: データのキャッシュメモリへの格納方法

解決法について述べ,実装内容の詳細は4.1節で述べることとする.

#### 3.1 SimpleScalar

SimpleScalar とはオープンソースで提供されいているマイクロプロセッサ の命令セットアーキテクチャをシミュレートするプログラムであり,キャッ シュメモリやプロセッサなどの各機能の性能を評価することも可能である[3].

3.2 ライン・タイル両アクセス対応キャッシュメモリの実装

本研究に関連する SimpleScalar の構成を図 3.7(a),改造後の構成を図 3.7(b) に示す.構成の中で主に改造する箇所としては L1 キャッシュとメインメモリ の機能であり,通常アドレスを 3 レベル階層タイル形式のアドレスへ変換す るためにプロセッサと TLB・L1 キャッシュの間にアドレス変換器の機能を 追加する.機能として SimpleScalar にライン・タイル両アクセス対応キャッ

シュメモリを実装する上で変更・追加が必要な内容は以下の通りである。

- アドレス変換機構の追加
- ヒットミス判定機構の改造
- タグメモリ・データメモリのバンク化
- SimpleScalar · 新構成キャッシュメモリ · Z-order のモード切り替え機

能の追加

モード切替機能は効率的な評価のために必要となるもので新構成キャッシュ

メモリの性能に関わりのないものである.



図 3.7: (a)SimpleScalar の構成 (b) 改造後の構成

#### 3.3 実装上の問題点と解決法

前述の内容を実装する際に問題点が4点発覚した.この節では発覚した問題点とその解決法,または妥協点を述べることとする.

- 新構成キャッシュメモリのライン・タイルアクセスの切り替え方法が確 立されていない点、並列アクセスは諦め、3レベル Z-order 格納の効果 検証に絞り、ラスター順の従来の格納法と理想的な Z-order 格納法とを 比較し評価する.これにより、リプレイスを8×4サイズのタイル単 位で行うことで非整列アクセスによる使用しないサブラインをアクセ スするために発生する余分なリプレイスが含まれないため新構成キャッ シュメモリに比べミス率は低めになるという差異が発生する.
- 評価項目としてキャッシュコンフリクトミス率のみではなく、キャッシュ メモリに対するアクセスサイクル数を加えると改造にかかる時間が大 幅に増加してしまい評価・考察に対する時間確保が難しくなる点、本研 究において重視されているのは、キャッシュコンフリクトミス率の比較 なのでアクセスサイクル数の評価は諦める。
- SimpleScalar のデータアクセスが 4Byte 単位で行われるため非整列ア クセスが発生しない点、タイル格納の評価に絞るためこの項目も本研 究では見送る、
- タイル形式に格納する機能,もしくは命令の追加が困難である点.シ

ミュレータの機能としての追加は諦め,評価用のプログラムを工夫する

ことによって実現,解決する.解決法については4.2節にて述べる.

### 4 実装・評価方法

本研究においてのシミュレータの具体的な実装内容を 4.1 節で述べる . 3.3 節で述べたタイル形式格納においての問題点の解決法を 4.2 節で述べる .

4.1 シミュレータの実装

実装しなければならない機能については 3.2 節で述べたが,3.3 節で述べた とおり変更点がいくつか出たため,実際に実装したものについてこの節では 述べることとする.まず,タイルアクセスするためのアドレス変換機構を追 加した.本研究においてはアドレス変換を 2 種類使用し,そのミス率の違い を検証する.アドレス変換の変換パターンを図 4.8,4.9 に示す.2 種類のアド レス変換の違いはラージタイル (タグ領域)の形である.図 4.10(a) はアドレ ス変換 1 によりラージタイル (タグ領域)の形である.図 4.10(b) はアドレス変換 2 によりラージタイルを正方形に変換したものを示している.このアドレス変 換器はプロセッサから出たアドレスを L1 キャッシュとメインメモリへ送る前 に通すよう実装した.次にキャッシュメモリ内のタグメモリとデータメモリ をそれぞれ 4 パンク構成とし,各パンクでタグデータが管理できるようにミ ス・ヒット判定の機構も改造した.さらに,一つのシミュレータで複数のア ドレスパターンをシミュレートできるように,アドレス変換 1・アドレス変 換2・SimpleScalar・Z-order へのモードを切替えられる機構も追加した.



4.2 評価用プログラム

3.3 節で述べたタイル形式格納については評価用プログラム内で対応する. 図 4.11 に 2 次元配列変数の定義方法を示す.図 4.11 に示す 2 次元配列 A の ように malloc 関数を用いてキャッシュメモリの横幅 64KB に合わせた領域を 確保し,確保した領域内のアドレスを 2 次元配列 B, C の各行の先頭アドレ スが 64K ずつずれるように与えることで,擬似的にタイル形式に格納する. このように格納した配列を用いた評価用プログラムでタイルアクセスキャッ シュメモリの評価を行う.ただし,ラスター順格納したものとタイル格納し たものの比較をするために,改造を施していない SimpleScalar を用いて実行 する際は通常格納の 2 次元配列を用いた.なお性能評価は以下の 2 つのプロ



図 4.10: (a) アドレス変換 1 のラージタイル (b) アドレス変換 2 のラージタ イル

グラムで実行した.



図 4.11:2次元配列の領域確保

4.2.1 行列積

一般的な行列積を計算するプログラムであり,キャッシュブロッキング手 法を用いるか否かが切り替えられ,配列サイズ・ブロックサイズともに行・ 列両サイズ指定可能である.転置を行わずに行方向・列方向に連続にアクセ スするのが特徴である.使用した2次元配列のサイズ表4.1,ブロッキング手 法使用時のブロックサイズを表4.2に示す.

| X×Y               |                   |                    |  |
|-------------------|-------------------|--------------------|--|
| 128×128           | $256{\times}256$  | $512 \times 512$   |  |
| $1024 \times 128$ | $128 \times 1024$ | $1024 \times 1024$ |  |
| $2048 \times 128$ | $128 \times 2048$ | $2048 \times 2048$ |  |
| $5120 \times 128$ | $128 \times 5120$ | -                  |  |

表 4.1: 行列積の配列サイズ

| X×Y          |              |              |      |               |
|--------------|--------------|--------------|------|---------------|
| 0×0          | $2 \times 2$ | $4 \times 4$ | 8×8  | $2 \times 4$  |
| $4 \times 2$ | $4 \times 8$ | $8 \times 4$ | 8×16 | $16 \times 8$ |

表 4.2: 行列積のブロックサイズ

4.2.2 畳み込み演算

画像処理などで使用されているフィルタリングの一種で,フィルタリングす る注目画素の近傍画素の平均値を求める畳み込み演算である.こちらもキャッ シュブロッキング手法を用いるか否かを指定可能.使用する配列のサイズは 近年動画像で主流である16:9のものを使用し,ブロックサイズ,フィルター サイズを組み合わせる.それぞれのサイズを表4.3,表4.4,表4.5に示す.

| X×Y              |                   |                   |                    |
|------------------|-------------------|-------------------|--------------------|
| $512 \times 288$ | $1024 \times 576$ | $1280 \times 720$ | $2560 \times 1440$ |

表 4.3: ボックスフィルタの配列サイズ

| X×Y          |              |              |
|--------------|--------------|--------------|
| $0 \times 0$ | $4 \times 2$ | $8 \times 4$ |

表 4.4: ボックスフィルタのブロックサイズ

5 性能評価

5.1 評価

評価をするにあたり提案アドレス 1,提案アドレス 2, Z-order, SimpleScalar の 4 つを比較した.提案アドレス 1,提案アドレス 2 はそれぞれ 4.1 節で示したアドレス変換 1,アドレス変換 2 を指し,Z-order はタイル形式格 納の代表として,SimpleScalar はラスター順格納の代表として用いた.評価 結果を以下の図に示す.図 5.12,図 5.13 は行列積のプログラムを実行したと きのミス率を示しており,図 5.12 は配列サイズ毎に,図 5.13 はプロックサイ ズ毎に,それぞれ平均をとった.図 5.14,図 5.15,図 5.16 はボックスフィ ルタのプログラムを実行したときのミス率の値を示しており,図 5.14 は配列 サイズ毎に,図 5.15 はプロックサイズ毎に,図 5.16 はフィルタサイズ毎に, それぞれ平均をとった.

| 注目画素からの |   |   |    |
|---------|---|---|----|
| 距離      |   |   |    |
| 5       | 7 | 9 | 17 |

表 4.5: ボックスフィルタのフィルタサイズ



びんび 2x2 4x4 0x6 2x4 4x2 4x6 0x4 0x40 10x ブロックサイズ(X x Y) □提案アドレス1 ■E提案アドレス2 ⊡Z-order ■SimpleScalar

図 5.13: 行列積 (ブロックサイズ平均)

#### 5.2 考察

提案アドレス2はZ-orderと同程度のミス率に抑えることができた.スモー ルタイルの形状の違いにより多少の差が出てはいるが,やはりタグ領域が同



0×0 4×2 0×4 ブロックサイズ(X x Y) □提案アドレス1 ■提案アドレス2 □Z-order ■SimpleScalar

図 5.15: ボックスフィルタ (ブロックサイズ平均)



図 5.16: ボックスフィルタ (フィルタサイズ平均)

じ形状のため大きく差が出ることはなかった.しかし,列方向に大きいタグ 領域を持っている提案アドレス1では、行方向のアクセスに対応できずミス 率が増加してしまった.行列積の結果に注目すると配列サイズが大きくなる か,列方向へのサイズが大きいものに関して提案アドレス1,2ともにミス率 が低くなっているのがわかる、ブロックサイズに注目すると全てにおいて提 案アドレス2はSimpleScalarよりミス率が低いことがわかる.このことから 通常格納のものより提案アドレスのものの方がキャッシュブロッキング手法が 有効だということがわかる.ボックスフィルタの結果に注目すると全てにお いて提案アドレス 2 及び Z-order が SimpleScalar よりミス率が低いことがわ かるが,大きな差は見られない.この原因としてボックスフィルタはフィル タサイズ内をラスター順にアクセスするためタイル形式格納のアドレスでは うまく対応できないこと,さらにラスター順アドレスではフィルタサイズ内 の列方向へのアクセスにうまく対応できないことが挙げられる.つまり,フィ ルタサイズ内の一度のアクセス内にタイル形式格納、ラスター順格納に不得 手なアクセスが含まれるためそれぞれに大きな差がなかったのだと考えられ る.しかし,その不得手なアクセスも頻発しているわけではないので全体と してミス率が上昇にはつながらなかった.

#### 6 あとがき

本研究はタイルアクセスキャッシュメモリのシミュレータを実装し、評価 した・シミュレータの実装は、新構成キャッシュメモリの問題点,具体的には タイル格納とライン・タイル間のアクセス切り替えへの対応が卒研の範囲内 では困難であることから,タイル形式格納の有用性の確認に的を絞た構成で 行った.その結果,新構成キャッシュメモリのタイルアクセスにより理想的 な 2 順アクセスと同等の性能が得られることを明らかにできた.具体的には, タグ領域のタイルの形状として縦長の長方形と正方形の2種類試し,正方形 の形状でヒット率を行列乗算で2%,ボックスフィルタで0.6%,それぞれ改 善する結果となった.ただし,2次元データの格納方法としてはキャッシュの 機能ではなく評価用プログラムを工夫し実現したため,今後シミュレータへ の機能実装が必要である.また,今回使用したプログラムは至って単純なプ ログラムのみになってしまったため,様々なアクセスパターンを持つプログ ラムについても検証を進めて行く必要がある.

## 謝辞

本研究を進めるに当たり,終始熱心な御指導,御助言を頂きました近藤利 夫教授,佐々木敬泰助教,深澤祐樹さんに感謝いたします.また,研究に協力 して頂いた王宝康さん,水野篤さん,ならびにコンピュータアーキテクチャ 研究室の皆さんに感謝します.

## 参考文献

- Chatterjee S., Lebeck A.R., Patnala P.K., Thottehodi M. "Recursive Array Layouts and Fast Parallel Martix Multiplication." IEEE Transactions on Parallel and Distributed Systems(IEEE TPDS) 13(11), 1105-1123(2002).
- [2] Thiyagalingam J., "Alternative Array Storage Layouts for Regular Scientific Programs." PhD thesis, Department of Computing, Imperial College, London, U.K.(2005).
- [3] SimpleScalar LLC, http://www.simplescalar.com/terms.html, [2016年 3月4日アクセス].
- [4] Lam Monica D., Edward E. Rothberg, Michael E. Wolf. "The cache performance and optimizations of blocked algorithms." ACM-SIGARCH Computer Architecture News. Vol. 19. No. 2. ACM, 1991.
- [5] 王宝康, "タイル・ライン両アクセス機能を備えた新構成キャッシュメモリの提案", 三重大学大学院修士論文, 2015年3月.

- A プログラムリスト
- B 評価用データ