我们使用Spark 2.0.2(PySpark)对数十亿个事件进行分区和排序以进行下游处理.事件由用户划分,并在按时间戳排序的分区内.事件以Avro格式存储.下游处理是Spark(PySpark)应用程序,应该从这种分区和排序中受益.
我想知道下游应用程序如何告诉Spark它正在加载的数据(RDD/Dataframe)已经被分区并在分区内排序.我可以在分区内指定重新分区和排序,我假设Spark会随机排序并排序,因为它不知道数据的布局.这可能很昂贵,因为我们正在谈论数十亿的事件.我想避免这种情况.我怎样才能做到这一点?
谢谢 - Rupesh