4/23学习总结

作者：落梓- | 来源：互联网 | 2023-10-11 10:58

今天学会了爬虫，昨天只能得到一行一列，今天可以得到所有分页的内容遇到的困难：今天想做一个轮播图，还没研究明白importbs4importpymysqlimportrequests

今天学会了爬虫，昨天只能得到一行一列，今天可以得到所有分页的内容

遇到的困难：今天想做一个轮播图，还没研究明白

import bs4
import pymysql
import requests
from bs4 import BeautifulSoup
import pandas as pd

def download_all_htmls():
    htmls=[];
    for idx in range(2):
     url=f"https://yz.chsi.com.cn/sch/?start={idx*20}"
     print("craw html",url)
     r=requests.get(url)
     if r.status_code!=200:
        raise Exception("error")
     htmls.append(r.text)
    return htmls
htmls=download_all_htmls()

def parse_single_html(html):
    name1=[];
    soup=BeautifulSoup(html,‘html.parser‘)

    tbody=soup.find(‘tbody‘)
    print("1")

    if isinstance(tbody, bs4.element.Tag):
      for tr in tbody.find_all("tr"):
            a=tr.find("td").find("a")
            name1.append(a.getText().replace(‘ ‘, ‘‘))
      print(name1)
      return name1
    ‘‘‘
for idex in range(2):
        name2 = parse_single_html(htmls[idex])
       
         name=tbody.find(‘tr‘).find(‘td‘).find(‘a‘)
        ‘‘‘

conn = pymysql.connect(
        host=‘localhost‘,  # 我的IP地址
        port=3306,  # 不是字符串不需要加引号。
        user=‘root‘,
        password=‘******‘,
        db=‘yanhu‘,
        charset=‘utf8‘
    )
cursor = conn.cursor()  # 获取一个光标
for idex in range(2):
  name = parse_single_html(htmls[idex])
  for a in range(20):
   sql = ‘insert into school (name,fenshu,bili) values (%s,%s,%s);‘
   name3=name[a]
   print(name3)
   fenshu=420
   bili=0.2
   cursor.execute(sql, [name3,fenshu,bili])
print()

conn.commit()

cursor.close()
conn.close()

4/23学习总结

推荐阅读

编程
网络爬虫的规范与限制

本文探讨了网络爬虫引发的问题及其解决方案，重点介绍了Robots协议的作用和使用方法，旨在为网络爬虫的合理使用提供指导。 ... [详细]

蜡笔小新 2024-11-13 15:45:41
const
[c++基础]STL

cppfig15_10.cppincludeincludeusingnamespacestd;templatevoidprintVector(constvector&integer ... [详细]

蜡笔小新 2024-11-13 13:22:43
const
微软推出Windows Terminal Preview v0.10

微软近期发布了Windows Terminal Preview v0.10，用户可以在微软商店或GitHub上获取这一更新。该版本在2月份发布的v0.9基础上，新增了鼠标输入和复制Pane等功能。 ... [详细]

蜡笔小新 2024-11-12 16:15:56
sum
解决Bootstrap DataTable Ajax请求重复问题

在最近的一个项目中，我们使用了JQuery DataTable进行数据展示，虽然使用起来非常方便，但在测试过程中发现了一个问题：当查询条件改变时，有时查询结果的数据不正确。通过FireBug调试发现，点击搜索按钮时，会发送两次Ajax请求，一次是原条件的请求，一次是新条件的请求。 ... [详细]

蜡笔小新 2024-11-12 13:59:27
sum
第二十五天接口、多态

1.java是面向对象的语言。设计模式：接口接口类是从java里衍生出来的，不是python原生支持的主要用于继承里多继承抽象类是python原生支持的主要用于继承里的单继承但是接 ... [详细]

蜡笔小新 2024-11-12 06:43:20
cmd
CMD 批处理脚本示例

本文介绍了如何使用 CMD 批处理脚本进行文件操作，包括将指定目录下的 PHP 文件重命名为 HTML 文件，并将这些文件复制到另一个目录。 ... [详细]

蜡笔小新 2024-11-12 14:26:04
string
rewrite nginx

两个条件，组合控制#if($query_string~*modviewthread&t(&extra(.*)))?$)#{#set$itid$1;#rewrite^ ... [详细]

蜡笔小新 2024-11-12 13:55:01
string
DMA控制器与外设请求映射表详解

本文详细介绍了DMA控制器如何通过映射表处理来自外设的请求，包括映射表的设计和实现方法。 ... [详细]

蜡笔小新 2024-11-12 13:51:55
string
解决Win10下MySQL连接问题：Navicat 2003无法连接到本地MySQL服务器（10061）

本文介绍如何在Windows 10环境下解决Navicat 2003无法连接到本地MySQL服务器的问题，包括启动MySQL服务和检查配置文件的方法。 ... [详细]

蜡笔小新 2024-11-12 13:10:39
string
使用Duilib实现窗体动画效果

本文详细介绍了如何利用Duilib界面库开发窗体动画效果，包括基本思路和技术细节。这些方法不仅适用于Duilib，还可以扩展到其他类似的界面开发工具。 ... [详细]

蜡笔小新 2024-11-12 09:41:11
string
Spark中使用map或flatMap将DataSet[A]转换为DataSet[B]时Schema变为Binary的问题及解决方案

本文探讨了在使用Spark的map或flatMap算子将一个数据集转换为另一个数据集时，遇到的Schema变为Binary的问题，并提供了详细的解决方案。 ... [详细]

蜡笔小新 2024-11-12 08:06:20
string
解决Parallels Desktop错误15265的方法

本文详细介绍了在使用Parallels Desktop时遇到错误15265的多种解决方案，包括检查网络连接、关闭代理服务器和修改主机文件等步骤。 ... [详细]

蜡笔小新 2024-11-12 05:14:12
string
解决 Windows Server 2016 网络连接问题

本文详细介绍了如何解决 Windows Server 2016 在使用无线网络 (WLAN) 和有线网络 (以太网) 时遇到的连接问题。包括添加必要的功能和安装正确的驱动程序。 ... [详细]

蜡笔小新 2024-11-12 00:01:44
string
使用Jsoup解析并遍历HTML文档结构

使用Jsoup解析并遍历HTML文档时，该库能够高效地生成一个清晰、规范的解析树，即使源HTML文档存在格式问题。Jsoup具备强大的容错能力，能够处理多种异常情况，如未闭合的标签等，确保解析结果的准确性和完整性。 ... [详细]

蜡笔小新 2024-11-11 21:30:03
config
CentOS 7 中 iptables 过滤表实例与 NAT 表应用详解

在 CentOS 7 系统中，iptables 的过滤表和 NAT 表具有重要的应用价值。本文通过具体实例详细介绍了如何配置 iptables 的过滤表，包括编写脚本文件 `/usr/local/sbin/iptables.sh`，并使用 `iptables -F` 清空现有规则。此外，还深入探讨了 NAT 表的配置方法，帮助读者更好地理解和应用这些网络防火墙技术。 ... [详细]

蜡笔小新 2024-11-11 18:33:22

落梓-

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章