1.开发环境配置
1.1Python3的安装
在写博客之前,楼主使用的是目前为止最新版本的Python 3.9.1。但由于在安装tesserocr时,没有对应版本的wheel文件。因此,将Python的版本降到了3.7.9。具体的影响因为刚开始学习暂时未知,先用3.7.9的版本。
- 官方网站:http://python.org
- 下载地址:https://www.python.org/downloads
1.2请求库的安装
爬虫可以简单的分为几步:抓取页面、分析页面、存储数据。
1.3解析库的安装
-
抓取网页代码之后,下一步就是从网页中提取信息。方式多种多样,可以使用正则来提取,但是写起来相对繁琐。
验证安装:`tesseract image.png result -l eng && cat result.txt`(**Note**:cat result.txt是Linux下的命令)Windows应该直接输出:`tesseract image.png stdout -l eng`
1.4数据库的安装
数据库可以分为关系型数据库和非关系型数据库。关系型数据库如SQLite、MySQL、Oracle、SQL Server、DB2等,其数据库是以表的形式存储;非关系型数据库如MongoDB、Redis,它们的存储形式是键值对,存储形式更加灵活。
1.5存储库的安装
数据库提供了存储服务,但如果想要和Python交互的话,还需要安装一些Python存储库,如MySQL需要安装 PyMySQL,MongoDB需要安装PyMongo等。
-
PyMySQL:
pip安装:pip install pymysql
验证安装:
import pymysql
pymysql.VERSION
-
PyMongo:
pip安装:pip install pymongo
验证安装:
import pymongo
pymongo.version
-
redis-py:
pip安装:pip install redis
验证安装:
import redis
redis.VERSION
结束语:库的安装暂时到这里,如有需要再次添加完善。