使用TPCH对Pig测试

2019独角兽企业重金招聘Python工程师标准>>>

在做完Running TPC-H on Hive后&＃xff0c;又紧接着使用TPC-H对Pig进行了测试。有了对Hive测试的基础&＃xff0c;在Pig上进行测试就相对简单多了&＃xff0c;基本上都是“拿来主义”&＃xff0c;都是现成的。需要使用的8个测试表以及测试数据都已经在Hive测试中生成过了&＃xff0c;所以在Pig上就跑一遍测试程序看看结果就可以啦。下面&＃xff0c;就来说说TPC-H在Pig上测试的具体步骤。

系统环境&＃xff1a;

6个结点&＃xff0c;ubuntu01为master结点&＃xff0c;ubuntu02-ubuntu06为slave结点

Ubuntu 12.04 LTS

Hadoop-1.2.1

Hive-0.13.1

tpch_2_14_3

一、安装配置

1、下载TPC-H源码tpch_2_14_3.zip&＃xff0c;用来生成测试数据

网址&＃xff1a;http://www.tpc.org/tpch/default.asp

2、将TPC-H压缩包解压&＃xff0c;本文中解压目录为&＃xff1a;/opt/

命令&＃xff1a;ubuntu&＃64;ubuntu01:~$ unzip tpch_2_14_3.zip -C /opt/

3、进入tpch目录下的dbgen子目录下&＃xff0c;将makefile.suite文件拷贝为makefile&＃xff0c;并对makefile进行修改

命令&＃xff1a;ubuntu&＃64;ubuntu01:/opt/dbgen$ cp makefile.suite makefile

命令&＃xff1a;ubuntu&＃64;ubuntu01:/opt/dbgen$ gedit makefile

在makefile文件中的相应行进行如下修改&＃xff1a;CC &＃61; gcc

# Current values for DATABASE are: INFORMIX, DB2, TDAT (Teradata)

# SQLSERVER, SYBASE

# Current values for MACHINE are: ATT, DOS, HP, IBM, ICL, MVS,

# SGI, SUN, U2200, VMS, LINUX, WIN32

# Current values for WORKLOAD are: TPCH

DATABASE&＃61; SQLSERVER

MACHINE &＃61; LINUX

WORKLOAD &＃61; TPCH

4、修改dbgen文件夹下的tpcd.h文件

修改其中的SQLSERVER段&＃xff1a;

     #ifdef  SQLSERVER
     #define GEN_QUERY_PLAN "EXPLAIN;"
    #define START_TRAN "START TRANSACTION;\n"
     #define END_TRAN "COMMIT;\n"
     #define SET_OUTPUT ""
    #define SET_ROWCOUNT "limit %d;\n"
     #define SET_DBASE "use %s;\n"
     #endif

5、执行makefile

命令&＃xff1a;ubuntu&＃64;ubuntu01:/opt/dbgen$ make

6、生成需要用的数据

命令&＃xff1a;ubuntu&＃64;ubuntu01:/opt/dbgen$ ./dbgen -s 1

说明&＃xff1a;-s 代表数据规模因子&＃xff0c;1 代表产生1G的数据量

在当前文件夹下生成的8个.tbl文件就是我们所需要的数据。

7、建立表&＃xff0c;以及向表中加载数据

在TPC-H_on_Hive/data目录下有个tpch_prepare_data.sh文件&＃xff0c;通过查看这个文件中的语句可知&＃xff0c;运行这个命令可以在HDFS上建立我们所需要的8个数据表&＃xff0c;并且将本地产生的数据文件拷贝到HDFS中。

命令&＃xff1a;ubuntu&＃64;ubuntu01:/opt/TPC-H_on_Hive/data$ ./tpch_prepare_data.sh

--------------------------------分割线-------------------------------------

如果已经进行过Hive测试的话&＃xff0c;上边7个步骤都是可以省略的&＃xff0c;就像我一开始说的&＃xff0c;Pig上边的这套和Hive很大程度上是通用的 ( 不了解的可以看我的上一篇博客 )。从这开始&＃xff0c;就要进入Pig测试正题了。

二、Pig测试

8、下载TPC-H_on_Pig

网址&＃xff1a;https://issues.apache.org/jira/browse/PIG-2397

下载之后&＃xff0c;同样解压到/opt/目录下&＃xff0c;将之前生成的8个表拷贝到TPC-H_on_Pig文件夹中。

9、测试

Pig测试命令&＃xff1a;ubuntu&＃64;ubuntu01:/opt/TPC_H_on_Pig/$ ./run_tpch.sh hdfs://ubuntu01:9000/tpch/ hdfs://ubuntu01:9000/user/ 5

逐个解释一下每个参数的含义&＃xff1a;

第一个&＃xff1a;./run_tpch.sh&＃xff0c;这个就不多说了&＃xff1b;

第二个&＃xff1a;hdfs://ubuntu01:9000/tpch/ 这是输入数据的路径&＃xff0c;但要注意的是这个路径是HDFS上的路径&＃xff1b;

第三个&＃xff1a;hdfs://ubuntu01:9000/user/ 这是输出数据的路径&＃xff0c;同样也是HDFS上的文件路径&＃xff1b;

第四个&＃xff1a;5 这个参数表示的是reducers的个数&＃xff0c;可以根据自己系统环境的情况来决定

运行这个命令就万事大吉了&＃xff0c;但由于测试时间可能会达到3个小时左右&＃xff0c;所以最好将terminal中打印的信息输入到一个文本文件&＃xff0c;这样可以方便查看。实现这种输出其实很简单&＃xff0c;只需要使用tee命令就可以&＃xff0c;在这里我们采用追加的方式向文本文件输出&＃xff0c;命令如下&＃xff1a;

命令&＃xff1a;ubuntu&＃64;ubuntu01:/opt/TPC_H_on_Pig/$ ./run_tpch.sh hdfs://ubuntu01:9000/tpch/ hdfs://ubuntu01:9000/user/ 5 | tee -a q1~q22_Pig.txt

其中&＃xff0c;q1~q22_Pig.txt 代表输出文本文件名。

三、总结

由于之前对Pig也是十分不了解&＃xff0c;所以就跑去看README。对README里边的命令解释真心无语。原文中对于单个SQL脚本文件的给出的运行命令是

${PIG_HOME}/bin/pig $hadoop_opts -param input&＃61; -param output&＃61; -param reducers&＃61; -f queries/

其他参数都好理解&＃xff0c;唯独-param这个参数我是真不明白啥意思。看了一天都毫无进展&＃xff0c;实在不了解它到底代表什么。就在准备撒手不干的时候&＃xff0c;抱着试一试的心态就直接使用了 &＃39;-param&＃39;&＃xff0c;结果还真是这样&＃xff0c;直接用&＃xff0c;当场就一脸黑线啊有木有&＃xff0c;可怜我一整天的时间啊&＃xff0c;都浪费在这上面了。以后就吸取教训了&＃xff0c;管他知不知道&＃xff0c;都试试&＃xff0c;没准就碰上了呢。