Pig哲学之一——Pigs Eat Anything。Pig能够从不同数据源加载数据,能够处理不同式的数据。Pig使用Loader/Store进行数据加载和存储,可选地使用Schema指定数据列名称和类型。如果加载数据时不指定Schema,数据列未命名,类型默认是字节数组(bytearray),在后
Pig哲学之一——Pigs Eat Anything。Pig能够从不同数据源加载数据,能够处理不同格式的数据。Pig使用Loader/Store进行数据加载和存储,可选地使用Schema指定数据列名称和类型。如果加载数据时不指定Schema,数据列未命名,类型默认是字节数组(bytearray),在后续操作中,Pig可以通过位置参数引用数据列,会根据在数据列上进行的操作进行自动类型转化。从性能和可读性考虑,最好在加载数据时指定Schema。
Loader体系Loader的基类是org.apache.pig.LoadFunc,规定了Loader需要实现的接口,并提供了一些默认实现。下图是Loader的继承体系,针对不同数据源,Pig实现了大量Loader,包括HBaseStorage和ParquestLoader等,能够处理列式存储。默认的Loader是PigStorage。
org.apache.pig.LoadFunc中的三个基本的方法决定了Where/What/How:
public abstractvoidsetLocation(String location, Job job) throws IOException public abstractInputFormat getInputFormat() throws IOException public LoadCaster getLoadCaster() throws IOException { return new Utf8StorageConverter(); }
1) 处理压缩格式,通过加载文件后缀加载不同的InputFormat:
@Override public InputFormat getInputFormat() { if(loadLocation.endsWith(".bz2") || loadLocation.endsWith(".bz")) { return newBzip2TextInputFormat(); } else { return newPigTextInputFormat(); } }2) 读取数据:读取数据之前先代用prepareToRead方法设置InputFormat对应的RecordReader,通过RecordReader读取每行数据,根据用户指定的分隔符处理每行文本,最终转换成元组。
public void prepareToRead(RecordReader reader,PigSplit split) @Override public Tuple getNext() throws IOException
通过实现其他一些接口,Loader能提供一些附加功能
在使用RCFile等基于列格式文件时,如果每次都加载所有列对性能影响较大。如果实现了LoadPushDown接口,优化器会将所需要用到的字段传递给pushProjection方法。
自定义字节数组到Schema中数据类型的转换,通过一系列方法能够自定义字节数组到到Pig的标量和复杂数据类型的转化。默认实现为Utf8StorageConverter,其中的复杂数据类型格式固定,比如元组格式为(),map格式为[],bag为{}。
Store体系与org.apache.pig.LoadFunc对应,Pig中也存在org.apache.pig.StoreFunc抽象类。由于不少Loader(比如默认的PigStorage)同样实现了store功能,受Java单继承的限制,Pig提供了StoreFuncInterface接口。
Store的实现与Loader对应,将实际输出操作委托给OutputFormat。值得注意的是,与LoadMetadata对应,Pig也提供了StoreMetadata接口用于处理元数据的存储。.
Schema结构Schema描述了一个数据集合每一行的列名称和数据类型,其中每一个列信息用FieldSchema表示。FieldSchema通常包括列名称、数据类型,如果列本身是bag的话,FieldSchema还会拥有自己的Schema。