当前位置: 开发笔记 > 编程语言 > 正文

【HNU分布式与云计算系统】MPI实现矩阵乘矩阵运算

作者：mobiledu2502869423 | 来源：互联网 | 2023-08-08 13:30

MPI实现矩阵乘矩阵运算实验环境操作系统：Ubuntu20.04编程语言：C实验原理什么是MPIMPI是一个跨语言的通讯协议，

MPI实现矩阵乘矩阵运算

实验环境

操作系统&＃xff1a;Ubuntu 20.04

编程语言&＃xff1a;C&＃43;&＃43;

实验原理

什么是MPI

MPI是一个跨语言的通讯协议&＃xff0c;用于编写并行计算机。支持点对点和广播。MPI是一个信息传递应用程序接口&＃xff0c;包括协议和和语义说明&＃xff0c;他们指明其如何在各种实现中发挥其特性。MPI的目标是高性能&＃xff0c;大规模性&＃xff0c;和可移植性。MPI在今天仍为高性能计算的主要模型。

尽管MPI属于OSI参考模型的第五层或者更高&＃xff0c;他的实现可能通过传输层的sockets和Transmission Control Protocol (TCP)覆盖大部分的层。大部分的MPI实现由一些指定惯例集&＃xff08;API&＃xff09;组成&＃xff0c;可由C,C&＃43;&＃43;,Fortran,或者有此类库的语言比如C#, Java or Python直接调用。MPI优于老式信息传递库是因为他的可移植性和速度。

MPI并行运算的思想

并行编程模式

对等模式—程序的各个部分地位相同,功能和代码基本一致,只是处理的数据或对象不同&＃xff1b;主从模式—程序通信进程之间的一种主从或依赖关系。

点对点通信模式

阻塞—发送完成的数据已经拷贝出发送缓冲区,即发送缓冲区可以重新分配使用,阻塞接受的完成意味着接收数据已经拷贝到接收缓冲区,即接收方已可以使用。非阻塞—在必要的硬件支持下,可以实现计算和通信的重叠。4种通信模式&＃xff1a;标准通信模式、缓存通信模式、同步通信模式、就绪通信模式。

组通信

一个特定组内所有进程都参加全局的数据处理和通信操作。

功能&＃xff1a;通信—组内数据的传输&＃xff1b;同步—所有进程在特定的点上取得一致&＃xff1b;计算—对给定的数据完成一定的操作。

类型&＃xff1a;1&＃xff09;数据移动&＃xff1a;广播&＃xff08;mpi bcast&＃xff09; 收集&＃xff08;mpi gather&＃xff09; 散射&＃xff08;mpi scater&＃xff09;组收集&＃xff08;mpi all gather&＃xff09;全交换&＃xff08;all to all&＃xff09;&＃xff1b;2&＃xff09;聚集&＃xff1a;规约&＃xff08;mpi reduce&＃xff09;将组内所有的进程输入缓冲区中的数据按&＃xff0c;定操作OP进行运算,并将起始结果返回到root进程的接收缓冲区扫描&＃xff08;mpi scan&＃xff09;要求每一个进程对排在它前面的进程进行规约操作,结果存入自身的输出缓冲区&＃xff1b;3&＃xff09;同步&＃xff1a;路障&＃xff08;mpi barrier&＃xff09;实现通信域内所有进程互相同步,它们将处于等待状态,直到所有进程执行它们各自的MPI-BARRIER调用。

MPI调用接口

1.mpi init&＃xff08;&＃xff09;初始化MPI执行环境&＃xff0c;建立多个MPI进程之间的联系&＃xff0c;为后续通信做准备&＃xff1b;

2.mpi finalize 结束MPI执行环境&＃xff1b;

3.mpi comm rank用来标识各个MPI进程的&＃xff0c;给出调用该函数的进程的进程号,返回整型的错误值。两个参数&＃xff1a;MPI_Comm类型的通信域&＃xff0c;标识参与计算的MPI进程组&＃xff1b; &rank返回调用进程中的标识号&＃xff1b;

4.mpi comm size用来标识相应进程组中有多少个进程&＃xff1b;

5.mpi send(buf,counter,datatype,dest,tag,comm)&＃xff1a; buf&＃xff1a;发送缓冲区的起始地址&＃xff0c;可以是数组或结构指针&＃xff1b;count&＃xff1a;非负整数&＃xff0c;发送的数据个数&＃xff1b;datatype&＃xff1a;发送数据的数据类型&＃xff1b;dest&＃xff1a;整型&＃xff0c;目的的进程号&＃xff1b;tag&＃xff1a;整型&＃xff0c;消息标志&＃xff1b;comm&＃xff1a;MPI进程组所在的通信域&＃xff1b;

含义:向通信域中的dest进程发送数据&＃xff0c;数据存放在buf中&＃xff0c;类型是datatype&＃xff0c;个数是count&＃xff0c;这个消息的标志是tag&＃xff0c;用以和本进程向同一目的进程发送的其它消息区别开来 [1] 。

6.mpi recv(buf,count,datatype,source,tag,comm,status)&＃xff1a; source:整型&＃xff0c;接收数据的来源&＃xff0c;即发送数据进程的进程号&＃xff1b; status&＃xff1a;MPI_Status结构指针&＃xff0c;返回状态信息。

实验设计

问题描述与分析

设有L×M矩阵A和M*N矩阵B相乘&＃xff0c;得到结果为LxN的矩阵C。记矩阵A、B、C的第i行第j列的元素为Aij (i&＃61;0…L. j&＃61;0…M) ,Bij ( i&＃61;0…M&＃xff0c; j&＃61;O…N) ,Cij (i&＃61;0…L., j&＃61;0 …N)。则:

在这里插入图片描述

可见Cij只与A和B的第i行相关&＃xff0c;而与其他行无关&＃xff0c;所以具有并行计算的可行性。

假设有n个进程并行计算&＃xff0c;则把矩阵A按行分成n个M/n行的小矩阵&＃xff0c;每个小矩阵与B进行矩阵乘法&＃xff0c;得到n个MIn行&＃xff0c;N列的矩阵&＃xff0c;将这些矩阵合并到—起就得到最终的结果。

算法思想

假设开启np个进程

(1). 首先将矩阵A和C按行分为np块&＃xff1b;

(2). 进程号为 id 的进程读取A的第 id 个分块和B&＃xff1b;

(3). 进程号为 id 的进程求解相应的C的第 id 个分块。

算法实现

#include #include #include #includevoid initMatrixWithRV(float *A, int rows, int cols); void matMultiplyWithSingleThread(float *A, float *B, float *matResult, int m, int p, int n);int main(int argc, char** argv) {int m &＃61; atoi(argv[1]);//A矩阵的行int p &＃61; atoi(argv[2]);//A矩阵的列及B矩阵的行int n &＃61; atoi(argv[3]);//B矩阵的列float *A, *B, *C;float *bA, *bC; double beginTime, endTime;//时间int myrank, numprocs;MPI_Status status;MPI_Init(&argc, &argv); // 并行开始MPI_Comm_size(MPI_COMM_WORLD, &numprocs); //并行线程数MPI_Comm_rank(MPI_COMM_WORLD, &myrank); //执行顺序int bm &＃61; m / numprocs; //矩阵A按行分块bA &＃61; new float[bm * p];B &＃61; new float[p * n];bC &＃61; new float[bm * n];if(myrank &＃61;&＃61; 0){//生成矩阵A &＃61; new float[m * p];C &＃61; new float[m * n];initMatrixWithRV(A, m, p);initMatrixWithRV(B, p, n);}//开始计时beginTime &＃61; MPI_Wtime();//阻塞其他进程强制等待MPI_Barrier(MPI_COMM_WORLD);//数据分配MPI_Scatter(A, bm * p, MPI_FLOAT, bA, bm *p, MPI_FLOAT, 0, MPI_COMM_WORLD);MPI_Bcast(B, p * n, MPI_FLOAT, 0, MPI_COMM_WORLD);//并行计算matMultiplyWithSingleThread(bA, B, bC, bm, p, n);MPI_Barrier(MPI_COMM_WORLD);//聚合通信&＃xff0c;汇总结果MPI_Gather(bC, bm * n, MPI_FLOAT, C, bm * n, MPI_FLOAT, 0, MPI_COMM_WORLD);//计算多余分块int remainRowsStartId &＃61; bm * numprocs;if(myrank &＃61;&＃61; 0 && remainRowsStartId } //初始化矩阵随机生成 void initMatrixWithRV(float *A, int rows, int cols) {srand((unsigned)time(NULL));for(int i &＃61; 0; i } //矩阵乘法计算 void matMultiplyWithSingleThread(float *A, float *B, float *matResult, int m, int p, int n) {for(int i&＃61;0; i}

实验结果

编译前先安装相关指令&＃xff1a;sudo apt install mpich

编译指令&＃xff1a;mpicxx mpimatrix.cc -o mpimatrix&＃xff08;c程序为mpicc&＃xff09;

执行指令&＃xff1a;mpirun -np 4 ./mpimatrix 300 200 400&＃xff0c;其中4表示4个进程并行执行&＃xff0c;300&＃xff0c;200&＃xff0c;400分别对应矩阵的相关参数。

执行结果截图&＃xff1a;

在这里插入图片描述

实验结论

从上图的实验结果图中能直观看到随着矩阵的增大运行时间明显增大&＃xff0c;因为计算也越来越复杂。同时并行计算的进程数越多时间越快。深刻体会到并行算法的效率和强大。

现实世界中许多现象都表现出并行性,众多问题的求解过程都有并行的可能性,但由于人们习惯用SISD计算模型上的思维,使得编写并行机执行程序变得不合常规,其实&＃xff0c;底意识的并行才更接近问题.MPI程序的SPMD编程模式给人们进行并行思维以很好的训练,MPI的通信机制为人们在连网工作站上编写并实现并行程序提供了舞台,使得问题求解变得更加自然.

计算的进程数越多时间越快。深刻体会到并行算法的效率和强大。

多核处理器的普及与并行计算机的发展极大地促进了并行程序设计的发展,越来越多的领域尤其是高性能计算与进程通信等领域都使用了并行计算的实现方法。本文使用并行编程的一种重要工具MP I实现了一种矩阵相乘的并行算法。通过对原问题进行建模分析,找出其计算的并行性,从而使用并行计算的方法解决。并行计算充分利用了处理器资源,能够完成串行计算无法胜任的工作,是未来计算的趋势。

参考博文&＃xff1a;https://www.cnblogs.com/fengfu-chris/p/4364142.html

推荐阅读

js
[c++基础]STL

cppfig15_10.cppincludeincludeusingnamespacestd;templatevoidprintVector(constvector&integer ... [详细]

蜡笔小新 2024-11-13 13:22:43
select
Java DAO模式详解与代码示例

DAO（Data Access Object）模式是一种用于抽象和封装所有对数据库或其他持久化机制访问的方法，它通过提供一个统一的接口来隐藏底层数据访问的复杂性。 ... [详细]

蜡笔小新 2024-11-13 12:25:33
select
Java 并发编程：深入解析 AtomicInteger 和 CAS 无锁算法

在多线程并发环境中，普通变量的操作往往是线程不安全的。本文通过一个简单的例子，展示了如何使用 AtomicInteger 类及其核心的 CAS 无锁算法来保证线程安全。 ... [详细]

蜡笔小新 2024-11-12 16:40:04
rsa
PHP 对象生命周期与内存管理

本文详细介绍了 PHP 中对象的生命周期、内存管理和魔术方法的使用，包括对象的自动销毁、析构函数的作用以及各种魔术方法的具体应用场景。 ... [详细]

蜡笔小新 2024-11-12 13:35:26
rsa
poj 3352 Road Construction

poj 3352 Road Construction ... [详细]

蜡笔小新 2024-11-12 11:24:39
dll
开机自启动的几种方式

0x01快速自启动目录快速启动目录自启动方式源于Windows中的一个目录，这个目录一般叫启动或者Startup。位于该目录下的PE文件会在开机后进行自启动 ... [详细]

蜡笔小新 2024-11-12 11:16:30
dll
Codeforces竞赛解析：Educational Round 84（Div. 2评级），题目A：奇数和问题

Codeforces竞赛解析：Educational Round 84（Div. 2评级），题目A：奇数和问题 ... [详细]

蜡笔小新 2024-11-11 14:02:18
dll
单片微机原理P3：80C51外部拓展系统

　　外部拓展其实是个相对来说很好玩的章节，可以真正开始用单片机写程序了，比较重要的是外部存储器拓展，81C55拓展，矩阵键盘，动态显示，DAC和ADC。0.IO接口电路概念与存 ... [详细]

蜡笔小新 2024-11-12 19:51:29
dll
统计输入整数中的正数和负数个数

本文提供了一个C++程序，用于读取一系列整数并统计其中正整数和负整数的个数。当输入为0时，程序结束。 ... [详细]

蜡笔小新 2024-11-12 19:30:01
dll
多线程基础概览

本文探讨了多线程的起源及其在现代编程中的重要性。线程的引入是为了增强进程的稳定性，确保一个进程的崩溃不会影响其他进程。而进程的存在则是为了保障操作系统的稳定运行，防止单一应用程序的错误导致整个系统的崩溃。线程作为进程的逻辑单元，多个线程共享同一CPU，需要合理调度以避免资源竞争。 ... [详细]

蜡笔小新 2024-11-12 16:45:51
dll
c/c++常用代码doc,ppt,xls文件格式转PDF格式[转]

[转]doc,ppt,xls文件格式转PDF格式http:blog.csdn.netlee353086articledetails7920355确实好用。需要注意的是#import ... [详细]

蜡笔小新 2024-11-12 16:19:40
spring
杜甫《喜晴》的两种英译比较

本文对比了杜甫《喜晴》的两种英文翻译版本：a. Pleased with Sunny Weather 和 b. Rejoicing in Clearing Weather。a 版由 alexcwlin 翻译并经 Adam Lam 编辑，b 版则由哈佛大学的宇文所安教授 (Prof. Stephen Owen) 翻译。 ... [详细]

蜡笔小新 2024-11-12 15:02:28
request
大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式

大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式 ... [详细]

蜡笔小新 2024-11-11 19:05:59
header
Xcode 多项目联合调试技巧与实践

在软件开发过程中，经常需要将多个项目或模块进行集成和调试，尤其是当项目依赖于第三方开源库（如Cordova、CocoaPods）时。本文介绍了如何在Xcode中高效地进行多项目联合调试，分享了一些实用的技巧和最佳实践，帮助开发者解决常见的调试难题，提高开发效率。 ... [详细]

蜡笔小新 2024-11-11 18:24:27
request
Java并发编程指南：深入理解信号量机制

本文是Java并发编程系列的开篇之作，将详细解析Java 1.5及以上版本中提供的并发工具。文章假设读者已经具备同步和易失性关键字的基本知识，重点介绍信号量机制的内部工作原理及其在实际开发中的应用。 ... [详细]

蜡笔小新 2024-11-11 15:49:02

mobiledu2502869423

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章