热门标签 | HotTags
当前位置:  开发笔记 > 数据库 > 正文

胶履带排除模式

如何解决《胶履带排除模式》经验,为你挑选了1个好方法。

我有一个要尝试抓取和编目的目录的s3存储桶。格式是这样的,这里的SQL文件是DDL查询(CREATE TABLE匹配不同的数据文件的模式,它的语句),即data1data2等等)

s3://my-bucket/somedata/20180101/data1/stuff.txt.gz
s3://my-bucket/somedata/20180101/data2/stuff.txt.gz
s3://my-bucket/somedata/20180101/data1.sql
s3://my-bucket/somedata/20180101/data2.sql  
s3://my-bucket/somedata/20180102/data1/stuff.txt.gz
s3://my-bucket/somedata/20180102/data2/stuff.txt.gz
...

我只想编目data1,所以我试图在Glue Crawler中使用排除模式 -见下文-即*.sqldata2/*

不幸的是,搜寻器仍在对的根路径内的所有内容进行分类s3://my-bucket/somedata/。我可以忍受data2编目;我最担心/讨厌这些sql文件。

任何人都具有排除模式的经验或能够指出这里出了什么问题?



1> 小智..:

*在排除模式不交叉的目录,但**整个目录确实跨度。

要排除所有.sql文件,可以使用:**.sql

data2/*排除的完整路径为s3://my-bucket/somedata/data2/*,但缺少日期分区文件夹。通过*在前面添加a可以解决此问题。

要排除data2/目录,请使用:*/data2/*


推荐阅读
author-avatar
manly213
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有