【神经网络与深度学习】【C/C++】比较OpenBLAS，IntelMKL和Eigen的矩阵相乘性能

对于机器学习的很多问题来说，计算的瓶颈往往在于大规模以及频繁的矩阵运算，主要在于以下两方面：

如何使机器学习算法运行更高效摆在我们面前，很多人都会在代码中直接采用一个比较成熟的矩阵运算数学库，面对繁多的数学库，选择一个合适的库往往会令人头疼，这既跟你的运算环境有关，也跟你的运算需求有关，不是每个库都能完胜的。

这篇文章的主要目的就是比较几个常见的BLAS库的矩阵运算性能，分别是

EIGEN: 是一个线性算术的C++模板库。功能强大、快速、优雅以及支持多平台，可以使用该库来方便处理一些矩阵的操作，达到类似matlab那样的快捷。需要定义 EIGEN_NO_DEBUG 阻止运行时assertion。编译单线程版本需要开启 -DEIGEN_DONT_PARALLELIZE. 在试验中，我们采用 EIGEN 原生 BLAS 实现。
Intel MKL: 英特尔数学核心函数库是一套经过高度优化和广泛线程化的数学例程，专为需要极致性能的科学、工程及金融等领域的应用而设计。它可以为当前及下一代英特尔处理器提供性能优化，包括更出色地与 Microsoft Visual Studio、Eclipse和XCode相集成。英特尔 MKL 支持完全集成英特尔兼容性 OpenMP 运行时库，以实现更出色的 Windows/Linux 跨平台兼容性。在试验中的多线程版本需要链接到 mkl_gnu_thread，而不是 mkl_intel_thread，单线程版本需要链接到 mkl_sequential_thread。
OpenBLAS: 是一个高性能多核 BLAS 库，是 GotoBLAS2 1.13 BSD 版本的衍生版。OpenBLAS 的编译依赖系统环境，并且没有原生单线程版本，在实验这哦那个，通过设置 OMP_NUM_THREADS=1 来模拟单线程版本，可能会带来一点点的性能下降。

每个测试程序的编译都采用 “-O4 -msse2 -msse3 -msse4” 优化，通过设置 OMP_NUM_THREADS 来控制使用的线程数量. 除了 OpenBLAS，其他两个库的测试程序都分别有单线程和多线程的编译版本。

如果MKL编译出现问题，建议参考Intel Math Kernel Library Link Line Advisor

我在实验中进行了一系列的非稀疏矩阵相乘运算，矩阵规模也逐渐增大，单线程的运行时间如下表所示，其中采用的测试轮数为5轮，其中红色表示性能最好的一组实验结果。

【神经网络与深度学习】【C/C++】比较OpenBLAS，Intel MKL和Eigen的矩阵相乘性能

从图中可以看出，OpenBLAS的性能最好，MKL的表现也很不错，而EIGEN的表现却很糟糕。

在多线程的测试中，我们采用多个CPU核心来做矩阵乘法运算，所有的结果也同样采用5轮训练，我们采用的CPU核数分别是8，16，32，48。

【神经网络与深度学习】【C/C++】比较OpenBLAS，Intel MKL和Eigen的矩阵相乘性能

【神经网络与深度学习】【C/C++】比较OpenBLAS，Intel MKL和Eigen的矩阵相乘性能

【神经网络与深度学习】【C/C++】比较OpenBLAS，Intel MKL和Eigen的矩阵相乘性能

【神经网络与深度学习】【C/C++】比较OpenBLAS，Intel MKL和Eigen的矩阵相乘性能