当前位置: 开发笔记 > 后端 > 正文

CSAPP之CacheLab详解

作者：梁义鹏e | 来源：互联网 | 2023-08-10 18:54

前言本篇博客将会介绍CSAPP之CacheLab的解题过程，分为PartA和PartB两个部分，其中PartA要求使用代码模拟一个高速缓存存储器，PartB要求优化矩阵的转置运算。

前言
本篇博客将会介绍 CSAPP 之 CacheLab 的解题过程，分为 Part A 和 Part B 两个部分，其中 Part A 要求使用代码模拟一个高速缓存存储器，Part B 要求优化矩阵的转置运算。

解题过程

Part A

题目要求

Part A 给出了一些后缀名为 trace 的文件，文件中的内容如下图所示，其中每一行代表一次对缓存的操作，格式为 [空格] 操作地址,数据大小，其中操作的类型有以下几种：

I：取指令操作

L：读数据操作

S：写数据操作

M：修改数据操作，比如先读一次数据再写一次数据

只有 I 操作没有带前置空格，其他操作都有一个前置空格。地址为 64 位，数据大小以字节为单位。

trace 文件内容

Part A 要求实现的缓存存储器的行为和 csim-ref 一致，使用 LRU 算法进行替换操作。CSAPP 中指出高速缓存存储器可以用四元组 \((S, E, B,m)\) 来描述，其中 \(S=2^s\) 为组数，\(E\) 为行数，\(B=2^b\) 为块的大小，\(m\) 为地址的位数，具体结构如下图所示：

高速缓存存储器的结构

对于模拟的高速缓存，至少需要接受 4 个参数：

-s：组索引的位数

-E：行数

-b：块大小 \(B=2^b\) 中的 \(b\)

-t：trace 文件的路径

根据给定的 trace 文件，模拟的高速缓存 csim 需要给出命中次数、未命中次数和替换次数，只有和 csim-ref 的次数一样才能拿到分数。

代码

我们首先定义一个结构，用来代表高速缓存中的行，由于题目没要求存储数据，所以结构中并没有包含代表缓存块的数组，同时题目要求使用 LRU 替换算法，所以包含一个 time 代表与上次访问相隔多久：

typedef struct { int valid; int tag; int time; } CacheLine, *CacheSet, **Cache;

接着完成入口函数，进行命令行参数解析和模拟工作：

#include #include #include #include #include #include #include "cachelab.h" int hit, miss, evict; int s, S, E, b; char filePath[100]; Cache cache; int main(int argc, char* argv[]) { int opt; while ((opt = getopt(argc, argv, "s:E:b:t:")) != -1) { switch (opt) { case 's': s = atoi(optarg); S = 1 < break; case 'E': E = atoi(optarg); break; case 'b': b = atoi(optarg); break; case 't': strcpy(filePath, optarg); break; } } mallocCache(); simulate(); freeCache(); printSummary(hit, miss, evict); return 0; }

由于 \(s\)、\(E\) 和 \(b\) 会变，所以需要使用 malloc 函数来在堆上分配空间，使用结束之后还得将这部分空间释放掉：

/* 动态分配缓存空间 */ void mallocCache() { cache = (Cache)malloc(S * sizeof(CacheSet)); assert(cache); for (int i = 0; i cache[i] = (CacheSet)malloc(E * sizeof(CacheLine)); assert(cache[i]); } } /* 释放缓存空间 */ void freeCache() { for (int i = 0; i free(cache[i]); } free(cache); }

根据 trace 文件进行模拟的函数如下所示，其中 I 和 S 只需访问缓存一次，而 M 需要两次，且每进行一次操作，就得更新一次时间戳：

/* 模拟缓存读写操作*/ void simulate() { FILE* file = fopen(filePath, "r"); assert(file); char op; uint64_t address; int size; while (fscanf(file, " %c %lx,%d", &op, &address, &size) > 0) { switch (op) { case 'M': accessCache(address); case 'L': case 'S': accessCache(address); break; } lruUpdate(); } fclose(file); } /* 更新访问时间 */ void lruUpdate() { for (int i = 0; i for (int j = 0; j if (cache[i][j].valid) { cache[i][j].time++; } } } }

访问缓存的代码如下所示，首先根据组索引选出组，接着行匹配，只有有效位为 1 且 tag 与地址中的 \(t\) 位标记相同才说明缓冲击中，不然就是未击中。在未击中的情况下，需要将数据写入空行中，如果没有空行就要运行 LRU 算法进行替换。

/* 访问缓存 */ void accessCache(uint64_t address) { int tag = address >> (b + s); uint64_t mask = ((1ULL <<63) - 1) >> (63 - s); CacheSet cacheSet = cache[(address >> b) & mask]; // 缓存击中 for (int i = 0; i if (cacheSet[i].valid && cacheSet[i].tag == tag) { hit++; cacheSet[i].time = 0; return; } } miss++; // 有空位，直接写入 for (int i = 0; i if (!cacheSet[i].valid) { cacheSet[i].valid = 1; cacheSet[i].tag = tag; cacheSet[i].time = 0; return; } } // 没有空位，只能使用 LRU 算法进行替换 evict++; int evictIndex = 0; int maxTime = 0; for (int i = 0; i if (cacheSet[i].time > maxTime) { maxTime = cacheSet[i].time; evictIndex = i; } } cacheSet[evictIndex].tag = tag; cacheSet[evictIndex].time = 0; }

最终运行结果如下，发现模拟结果和参考答案一致：

Part A 完成

Part B

Part B 给出了最原始的转置操作代码：

void trans(int M, int N, int A[N][M], int B[M][N]) { int i, j, tmp; for (i = 0; i for (j = 0; j tmp = A[i][j]; B[j][i] = tmp; } } }

题目要求针对 \(32\times 32\)、\(64\times 64\) 和 \(61\times 67\) 这三种维度的矩阵进行优化，同时给出了以下两点友情提示：

使用分块技术进行优化

对角线上的元素会引发冲突未击中

由于高速缓存的 \(S=2^s=32\)、\(E=1\)、\(B=2^b=32\)，且矩阵中的元素为 int 类型，缓存的每行可以装入 8 个整数，所以对于 \(32\times 32\) 的矩阵，分块大小取为 8，代码如下所示：

for (int i = 0; i for (int j = 0; j for (int ii = i; ii for (int jj=j; jj B[jj][ii] = A[ii][jj];

测试效果如下图所示，发现未命中次数为 343 次，而满分要求未命中小于 300 次：

根据友情提示，我们应该避免对角线上元素原地转置引发的冲突未命中问题，所以使用循环展开直接访问行中的 8 个元素并赋值给 \(B\)，将代码修改如下：

int a, b, c, d, e, f, g, h; for (int i = 0; i for (int j = 0; j for (int ii = i; ii a = A[ii][j]; b = A[ii][j + 1]; c = A[ii][j + 2]; d = A[ii][j + 3]; e = A[ii][j + 4]; f = A[ii][j + 5]; g = A[ii][j + 6]; h = A[ii][j + 7]; B[j][ii] = a; B[j + 1][ii] = b; B[j + 2][ii] = c; B[j + 3][ii] = d; B[j + 4][ii] = e; B[j + 5][ii] = f; B[j + 6][ii] = g; B[j + 7][ii] = h; } } }

再次测试，未命中次数为 287 次：

对于 \(64\times 64\) 大小的矩阵，如果同样使用 \(8\times 8\) 的分块，会发现命中次数和未分块情况下一模一样，为 4723 次左右。所以这里把分块换成 \(4\times 4\) 的，代码如下所示：

int a, b, c, d; for (int i = 0; i for (int j = 0; j for (int ii = i; ii a = A[ii][j]; b = A[ii][j + 1]; c = A[ii][j + 2]; d = A[ii][j + 3]; B[j][ii] = a; B[j + 1][ii] = b; B[j + 2][ii] = c; B[j + 3][ii] = d; } } }

测试结果如下图所示，未命中次数为 1699 次，虽然没有达到低于 1300 次的满分要求（~~但是至少拿了一点分数~~）：

最后是 \(61\times 67\) 维度的矩阵，因为这个维度不能被 8 整除，所以先使用分块处理一部分元素，对剩下的元素再单独处理：

int a, b, c, d, e, f, g, h; int n = 8 * (N / 8); int m = 8 * (M / 8); for (int i = 0; i for (int j = 0; j for (int ii = i; ii a = A[ii][j]; b = A[ii][j + 1]; c = A[ii][j + 2]; d = A[ii][j + 3]; e = A[ii][j + 4]; f = A[ii][j + 5]; g = A[ii][j + 6]; h = A[ii][j + 7]; B[j][ii] = a; B[j + 1][ii] = b; B[j + 2][ii] = c; B[j + 3][ii] = d; B[j + 4][ii] = e; B[j + 5][ii] = f; B[j + 6][ii] = g; B[j + 7][ii] = h; } } } // 处理剩余部分 for (int i = 0; i for (int j = m; j B[j][i] = A[i][j]; } } for (int i = n; i for (int j = 0; j B[j][i] = A[i][j]; } }

测试结果如下图所示，未命中次数为 2093，接近满分 2000：

总结
通过这次实验，可以加深对存储器层次结构和高速缓存工作原理的理解，为后续学习打下铺垫（~~经典实验报告总结~~）。以上~~

cache

缓存

写下你的评论吧 !

吐个槽吧,看都看了

会员登录 | 用户注册

推荐阅读

spring
解决DataTables警告：表ID为dt tableAjax错误的方法

通过调整Spring Boot版本，从2.0.6降级到2.0.4解决了DataTables的错误问题。然而，再次升级到2.0.6后，错误消失，可能是由于ehcache缓存的影响。 ... [详细]

蜡笔小新   2024-11-16 13:07:30

队列
兆芯X86 CPU架构的演进与现状（国产CPU系列）

本文详细介绍了兆芯X86 CPU架构的发展历程，从公司成立背景到关键技术授权，再到具体芯片架构的演进，全面解析了兆芯在国产CPU领域的贡献与挑战。 ... [详细]

蜡笔小新   2024-11-14 15:04:34

http
Native与HTML5交互基础教程

本文将介绍如何在混合开发（Hybrid）应用中实现Native与HTML5的交互，包括基本概念、学习目标以及具体的实现步骤。 ... [详细]

蜡笔小新   2024-11-14 12:33:11

server
HTTP header 介绍

HTTP(HyperTextTransferProtocol)是超文本传输协议的缩写，它用于传送www方式的数据。HTTP协议采用了请求响应模型。客服端向服务器发送一 ... [详细]

蜡笔小新   2024-11-14 09:13:00

ci
浅析python实现布隆过滤器及Redis中的缓存穿透原理_python

本文带你了解了位图的实现，布隆过滤器的原理及Python中的使用，以及布隆过滤器如何应对Redis中的缓存穿透，相信你对布隆过滤 ... [详细]

蜡笔小新   2024-11-13 16:43:07

队列
探讨Redis的最佳应用场景

本文将深入探讨Redis在不同场景下的最佳应用，包括其优势和适用范围。 ... [详细]

蜡笔小新   2024-11-13 12:35:53

server
网站访问全流程解析

本文详细介绍了从用户在浏览器中输入一个域名（如www.yy.com）到页面完全展示的整个过程，包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]

蜡笔小新   2024-11-12 18:13:16

server
阿里面试题解析：分库分表后的无限扩容瓶颈与解决方案

本文探讨了在分布式系统中，分库分表后的无限扩容问题及其解决方案。通过分析不同阶段的服务架构演变，提出了单元化作为解决数据库连接数过多的有效方法。 ... [详细]

蜡笔小新   2024-11-15 18:36:50

asp.net
阿里云 Aliplayer高级功能介绍(八)：安全播放

如何保障视频内容的安全，不被盗链、非法下载和传播，阿里云视频点播已经有一套完善的机 ... [详细]

蜡笔小新   2024-11-15 18:04:15

asp.net
OpenGLPBO

PBO(PixelBufferObject),将像素数据存储在显存中。优点：1、快速的像素数据传递，它采用了一种叫DMA（DirectM ... [详细]

蜡笔小新   2024-11-15 14:56:34

asp.net
解决KindEditor上传本地图片时服务器异常的问题

近期遇到了一个系统中在线文本编辑器上传本地图片时报服务器异常的问题。经过初步调试和排查，最终找到了解决方案。 ... [详细]

蜡笔小新   2024-11-15 14:08:24

爬虫
Bootstrap 插件使用指南

本文详细介绍了如何在 Web 前端开发中使用 Bootstrap 插件，包括自动触发插件的方法、插件的引用方式以及具体的实例。 ... [详细]

蜡笔小新   2024-11-15 12:24:25

session
小程序的授权和登陆

小程序的授权和登陆 ... [详细]

蜡笔小新   2024-11-14 19:07:05

asp.net
Framework7：构建跨平台移动应用的高效框架

Framework7 是一个开源免费的框架，适用于开发混合移动应用（原生与HTML混合）或iOS&Android风格的Web应用。此外，它还可以作为原型开发工具，帮助开发者快速创建应用原型。 ... [详细]

蜡笔小新   2024-11-12 14:47:56

队列
开发中遇到的一些常见问题及解决方案

本文总结了一些开发中常见的问题及其解决方案，包括特性过滤器的使用、NuGet程序集版本冲突、线程存储、溢出检查、ThreadPool的最大线程数设置、Redis使用中的问题以及Task.Result和Task.GetAwaiter().GetResult()的区别。 ... [详细]

蜡笔小新   2024-11-12 08:20:05

梁义鹏e

这个家伙很懒，什么也没留下！

Tags | 热门标签

cache

varnish

gzip

http

php绘图

struct

pdo

webhooks

crash

sockets

django

asp.net

grpc

server

session

爬虫

ci

service

uuid

ffmpeg

curl

web3

node.js

swoole

interface

protocol-buffers

base64

spring

vb

队列

RankList | 热门文章

1Android 曲线图的绘制示例代码

2Android Studio多工程引用同一个library项目配置的解决方法

3Android实现ViewPage轮播图效果

4Android仿QQ空间顶部条背景变化效果

5Android BitmapUtils工具类使用详解

6Android LinearLayout实现自动换行效果

7使用反射机制控制Toast的显示时间

8Android实现自动轮播图效果

9Android EditText长按菜单中分享功能的隐藏方法

10Android在多种设计下实现懒加载机制的方法

11基于Android studio3.6的JNI教程之ncnn人脸检测mtcnn功能

12Android自定义ViewGroup实现流式布局

13Android使用Walle实现多渠道打包功能的实现示例

14消息持续发送的完整例子

15PHP_Cooikes不同页面无法传递的解决方法

CSAPP之CacheLab详解

前言本篇博客将会介绍 CSAPP 之 CacheLab 的解题过程，分为 Part A 和 Part B 两个部分，其中 Part A 要求使用代码模拟一个高速缓存存储器，Part B 要求优化矩阵的转置运算。

解题过程

Part A

题目要求

代码

Part B

总结通过这次实验，可以加深对存储器层次结构和高速缓存工作原理的理解，为后续学习打下铺垫（经典实验报告总结）。以上~~ var cpro_id = "u6885494";

前言
本篇博客将会介绍 CSAPP 之 CacheLab 的解题过程，分为 Part A 和 Part B 两个部分，其中 Part A 要求使用代码模拟一个高速缓存存储器，Part B 要求优化矩阵的转置运算。

总结
通过这次实验，可以加深对存储器层次结构和高速缓存工作原理的理解，为后续学习打下铺垫（经典实验报告总结）。以上~~