作者:lan1998_789 | 来源:互联网 | 2023-09-01 11:16
想自动抓取一个每天都会更新的网站,因为资料有立即性,所以前一天抓取的旧资料可以完全清除,目前已完成抓取方面的程序,但不知道要如何才能清除先前在results内所留下的资料,
想自动抓取一个每天都会更新的网站, 因为资料有立即性, 所以前一天抓取的旧资料可以完全清除,
目前已完成抓取方面的程序, 但不知道要如何才能清除先前在results内所留下的资料, 有办法可以达成吗?
那你就不要存嘛,直接消息队列给你自己的程序。
自问自答:
目前试出了一个可以删除results的方法
在on_start内去删除资料库的table, 用drop似乎会有问题, 所以改用_delete
resultdb = connect_database("sqlite+resultdb:///data/result.db")
resultdb._delete(resultdb._tablename(self.project_name), '1=1')