作者:手机用户2502855477 | 来源:互联网 | 2024-12-26 10:42
根据最新发布的《互联网人才趋势报告》,尽管大量IT从业者已转向Python开发,但随着人工智能和大数据领域的迅猛发展,仍存在巨大的人才缺口。本文将详细介绍如何使用Python编写一个简单的爬虫程序,并提供完整的代码示例。
在当今数字化时代,掌握Python编程技能变得越来越重要。特别是对于数据获取与分析领域,Python爬虫技术尤为关键。以下是构建一个基本的Python爬虫所需步骤及代码实现。
### 准备工作
确保您的计算机上已安装MySQL数据库,并创建好相应的表结构(具体可参考下图)。
![MySQL 表结构](https://example.com/mysql_structure.png)
#### 安装依赖库
为了提高下载速度,建议使用阿里云镜像源来安装所需的Python包:
```bash
pip install -i https://mirrors.aliyun.com/pypi/simple --trusted-host mirrors.aliyun.com requests re pymysql time beautifulsoup4
```
### 编写爬虫代码
1. 创建一个新的Python项目,并在其中添加一个Python文件。
2. 将以下代码复制到该文件中:
```python
import requests
from bs4 import BeautifulSoup
import re
import pymysql
import time
# 数据库连接配置
cOnn= pymysql.connect(
user='root',
password='your_password', # 替换为您的MySQL密码
port=3306,
host='127.0.0.1',
db='your_database', # 替换为您的数据库名称
charset='utf8'
)
cursor = conn.cursor()
cursor.execute('SET NAMES utf8')
cursor.execute('SET autocommit=1')
start_id = 2039
end_id = 2059
for i in range(start_id, end_id + 1):
print(f'正在采集ID={i}的文章')
try:
url = f'http://yyjcw.com/html/News/{i}.html'
respOnse= requests.get(url)
response.encoding = 'utf-8'
soup = BeautifulSoup(response.content, 'html.parser')
html_str = str(soup)
title_pattern = re.compile(r'
\s(.*).* | ')
title_match = re.search(title_pattern, html_str)
info_pattern = re.compile(r'
\s(.*) 来源:(.*) 日期:(.*)\s* | ')
info_match = re.search(info_pattern, html_str)
content_pattern = re.compile(r'
\s*(.*)\s* | ')
content_match = re.search(content_pattern, html_str)
if title_match and info_match and content_match:
ititle = title_match.group(1).strip()
iauthor = info_match.group(1).strip()
isource = info_match.group(2).strip()
icreatetime = info_match.group(3).strip()
icOntent= content_match.group(1).strip()
sql = """INSERT INTO tbnews (title, author, source, createtime, details) VALUES ('{}', '{}', '{}', '{}', '{}')""".format(
ititle, iauthor, isource, icreatetime, icontent
)
cursor.execute(sql)
conn.commit()
print('数据插入成功!')
else:
print('未找到匹配内容')
time.sleep(5)
except Exception as e:
print(f'发生错误: {e}')
continue
cursor.close()
conn.close()
```
### 运行程序
保存文件后,在命令行工具中运行此Python脚本即可开始批量抓取文章信息。
### 学习资源
如果您希望进一步深入学习Python爬虫技术,可以参考配套的视频教程。这些教程不仅涵盖了环境搭建、基础语法等内容,还详细介绍了如何利用`requests`、`BeautifulSoup`等模块进行网页解析和数据处理。
![视频教程封面](https://example.com/tutorial_cover.png)