我有一个要尝试抓取和编目的目录的s3存储桶。格式是这样的,这里的SQL文件是DDL查询(CREATE TABLE
匹配不同的数据文件的模式,它的语句),即data1
,data2
等等)
s3://my-bucket/somedata/20180101/data1/stuff.txt.gz s3://my-bucket/somedata/20180101/data2/stuff.txt.gz s3://my-bucket/somedata/20180101/data1.sql s3://my-bucket/somedata/20180101/data2.sql s3://my-bucket/somedata/20180102/data1/stuff.txt.gz s3://my-bucket/somedata/20180102/data2/stuff.txt.gz ...
我只想编目data1
,所以我试图在Glue Crawler中使用排除模式 -见下文-即*.sql
和data2/*
。
不幸的是,搜寻器仍在对的根路径内的所有内容进行分类s3://my-bucket/somedata/
。我可以忍受data2
编目;我最担心/讨厌这些sql
文件。
任何人都具有排除模式的经验或能够指出这里出了什么问题?
该*
在排除模式不交叉的目录,但**
整个目录确实跨度。
要排除所有.sql
文件,可以使用:**.sql
您data2/*
排除的完整路径为s3://my-bucket/somedata/data2/*
,但缺少日期分区文件夹。通过*
在前面添加a可以解决此问题。
要排除data2/
目录,请使用:*/data2/*