热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

PaddleHub百度飞桨【Python小白逆袭大神】七天打卡营心得

第一次接触百度的paddlehub,之前有参加过CV疫情的打卡营,但是没坚持把作业做下来。这次参加打卡营吧几次作业都跟下来了。因为作者本人是做计算机视觉

       第一次接触百度的paddlehub,之前有参加过CV疫情的打卡营,但是没坚持把作业做下来。这次参加打卡营吧几次作业都跟下来了。因为作者本人是做计算机视觉方向的,python之前使用的多为OpeanCV,pytorch框架。这次七日打卡营主要以爬虫为主,之前没有接触过爬虫,通过本次学习,对爬虫有了一些了解。

以下是搜集的一些关于爬虫的知识。

1.python的基本语法知识

2.如何抓取HTML页面:

         HTTP请求的处理,urllib、urllib2、requests

         处理后的请求可以模拟浏览器发送请求,获取服务器响应的文件。

3.解析服务器响应的内容

       re、xpath、BeautifulSoup4(bs4)、jsonpath、pyquery等

       使用某种描述性一样来给我们需要提取的数据定义一个匹配规则,符合这个规则的数据就会被匹配。

4.如何采集动态HTML、验证码的处理

         通用的动态页面采集:Selenium(自动化测试工具)+PhantomJS(无界面浏览器):模拟真实浏览器加载js、ajax等非静态页面数据。

         Tesseract:机器学习库,机器图像识别系统,可以处理简单的验证码,复杂的验证码可以通过手动输入或者专门的打码平台。

5.Scrapy框架:(Scrapy,Pyspider)

        高定制性高性能(异步网络框架 twisted),所以数据下载速度非常快,提供了数据存储、数据下载、提取规则等组建。

 6.分布式策略scrapy-redis:

       scrapy-redis,以Scrapy的基础上添加了一套以Redis数据库为核心的一套组件。

      让Scrapy框架支持分布式的功能,主要在Redis里做请求指纹去重、请求分配、数据临时储存。

7.爬虫-反爬虫-反反爬虫之间的斗争:

     其实爬虫做到最后,最头疼的不是复杂的页面,也不是晦涩的数据,而是网站另一边的反爬虫人员。

     User-Agent、代理、验证码、动态数据加载、加密数据。

     数据价值   是否值得去费劲做反爬虫。

              a.机器成本+人力成本  >数据价值,就不反了,一般做到封IP就结束了。

              b.面子的战争

      爬虫和反爬虫之间的斗争,最后一定是爬虫获胜!

      为什么?只要是真实用户可以浏览的网页数据,爬虫就一定能爬下来!

分享以下第五次大作业的一些内容

在stopwordslist这个函数里面,我们需要一个中文停用词表,需要通过在网上找,找到后

stopwords= [line.strip() for line in open(file_path,encoding='GBK').readline()] 要在encoding改为GBK,不然会显示错误。

以下分享以下搜集来的中文停用次表


哎呀
哎哟


俺们

按照

吧哒

罢了


本着

比方
比如
鄙人

彼此


别的
别说

并且
不比
不成
不单
不但
不独
不管
不光
不过
不仅
不拘
不论
不怕
不然
不如
不特
不惟
不问
不只

朝着

趁着



除此之外
除非
除了

此间
此外

从而



但是

当着



的话

等等


叮咚

对于

多少

而况
而且
而是
而外
而言
而已
尔后
反过来
反过来说
反之
非但
非徒
否则

嘎登




各个
各位
各种
各自

根据


故此
固然
关于


果然
果真


哈哈



何处
何况
何时


哼唷
呼哧


还是
还有
换句话说
换言之

或是
或者
极了

及其
及至

即便
即或
即令
即若
即使

几时


既然
既是
继而
加之
假如
假若
假使
鉴于


较之

接着
结果

紧接着
进而

尽管

经过

就是
就是说

具体地说
具体说来
开始
开外



可见
可是
可以
况且


来着

例如


连同
两者



另外
另一方面



慢说
漫说



每当

莫若

某个
某些


哪边
哪儿
哪个
哪里
哪年
哪怕
哪天
哪些
哪样

那边
那儿
那个
那会儿
那里
那么
那么些
那么样
那时
那些
那样

乃至



你们


宁可
宁肯
宁愿


啪达
旁人


凭借

其次
其二
其他
其它
其一
其余
其中

起见
岂但
恰恰相反
前后
前者

然而
然后
然则

人家

任何
任凭

如此
如果
如何
如其
如若
如上所述

若非
若是

上下
尚且
设若
设使
甚而
甚么
甚至
省得
时候
什么
什么样
使得

是的
首先

谁知

顺着
似的

虽然
虽说
虽则

随着

所以

他们
他人

它们

她们

倘或
倘然
倘若
倘使


通过

同时

万一



为何
为了
为什么
为着

嗡嗡

我们

呜呼
乌乎
无论
无宁
毋宁


相对而言


向着



沿
沿着

要不
要不然
要不是
要么
要是

也罢
也好

一般
一旦
一方面
一来
一切
一样
一则

依照


以便
以及
以免
以至
以至于
以致
抑或

因此
因而
因为



由此可见
由于

有的
有关
有些


于是
于是乎

与此同时
与否
与其
越是
云云

再说
再者

在下

咱们


怎么
怎么办
怎么样
怎样


照着


这边
这儿
这个
这会儿
这就是说
这里
这么
这么点儿
这么些
这么样
这时
这些
这样
正如


之类
之所以
之一
只是
只限
只要
只有

至于
诸位

着呢

自从
自个儿
自各儿
自己
自家
自身
综上所述
总的来看
总的来说
总的说来
总而言之
总之

纵令
纵然
纵使
遵照
作为







喔唷



啊哈
啊呀
啊哟
挨次
挨个
挨家挨户
挨门挨户
挨门逐户
挨着
按理
按期
按时
按说
暗地里
暗中
暗自
昂然
八成
白白


保管
保险

背地里
背靠背
倍感
倍加
本人
本身

比起
比如说
比照
毕竟

必定
必将
必须
便
别人
并非
并肩
并没
并没有
并排
并无
勃然

不必
不常
不大
不得
不得不
不得了
不得已
不迭
不定
不对
不妨
不管怎样
不会
不仅仅
不仅仅是
不经意
不可开交
不可抗拒
不力
不了
不料
不满
不免
不能不
不起
不巧
不然的话
不日
不少
不胜
不时
不是
不同
不能
不要
不外
不外乎
不下
不限
不消
不已
不亦乐乎
不由得
不再
不择手段
不怎么
不曾
不知不觉
不止
不止一次
不至于

才能
策略地
差不多
差一点

常常
常言道
常言说
常言说得好
长此下去
长话短说
长期以来
长线
敞开儿
彻夜
陈年
趁便
趁机
趁热
趁势
趁早
成年
成年累月
成心
乘机
乘胜
乘势
乘隙
乘虚
诚然
迟早
充分
充其极
充其量
抽冷子



出来
出去
除此
除此而外
除此以外
除开
除去
除却
除外
处处
川流不息

传说
传闻
串行

纯粹
此后
此中
次第
匆匆
从不
从此
从此以后
从古到今
从古至今
从今以后
从宽
从来
从轻
从速
从头
从未
从无到有
从小
从新
从严
从优
从早到晚
从中
从重
凑巧

存心
达旦
打从
打开天窗说亮话

大不了
大大
大抵
大都
大多
大凡
大概
大家
大举
大略
大面儿上
大事
大体
大体上
大约
大张旗鼓
大致
呆呆地


待到

单纯
单单
但愿
弹指之间
当场
当儿
当即
当口儿
当然
当庭
当头
当下
当真
当中
倒不如
倒不如说
倒是
到处
到底
到了儿
到目前为止
到头
到头来
得起
得天独厚
的确
等到
叮当
顶多

动不动
动辄
陡然


独自
断然
顿时
多次
多多
多多少少
多多益善
多亏
多年来
多年前
而后
而论
而又
尔等
二话不说
二话没说
反倒
反倒是
反而
反手
反之亦然
反之则

方才
方能
放量
非常
非得
分期
分期分批
分头
奋勇
愤然
风雨无阻



嘎嘎
该当

赶快
赶早不赶晚

敢情
敢于

刚才
刚好
刚巧
高低
格外
隔日
隔夜
个人
各式

更加
更进一步
更为
公然

共总
够瞧的
姑且
古来
故而
故意


怪不得
惯常

光是
归根到底
归根结底
过于
毫不
毫无
毫无保留地
毫无例外
好在
何必
何尝
何妨
何苦
何乐而不为
何须
何止

很多
很少
轰然
后来
呼啦
忽地
忽然

互相
哗啦
话说

恍然

豁然

伙同
或多或少
或许
基本
基本上
基于

极大
极度
极端
极力
极其
极为
急匆匆
即将
即刻
即是说
几度
几番
几乎
几经
既…又
继之
加上
加以
间或
简而言之
简言之
简直

将才
将近
将要
交口
较比
较为
接连不断
接下来
皆可
截然
截至
藉以
借此
借以
届时

仅仅

进来
进去

近几年来
近来
近年来
尽管如此
尽可能
尽快
尽量
尽然
尽如人意
尽心竭力
尽心尽力
尽早
精光
经常

竟然
究竟
就此
就地
就算
居然
局外
举凡
据称
据此
据实
据说
据我所知
据悉
具体来说
决不
决非

绝不
绝顶
绝对
绝非



看来
看起来
看上去
看样子
可好
可能
恐怕

快要
来不及
来得及
来讲
来看
拦腰
牢牢

老大
老老实实
老是
累次
累年
理当
理该
理应


立地
立刻
立马
立时
联袂
连连
连日
连日来
连声
连袂
临到
另方面
另行
另一个
路经

屡次
屡次三番
屡屡
缕缕
率尔
率然

略加
略微
略为
论说
马上



没有
每逢
每每
每时每刻
猛然
猛然间

莫不
莫非
莫如
默默地
默然

那末

难道
难得
难怪
难说

年复一年
凝神
偶而
偶尔


碰巧
譬如
偏偏

平素

迫于
扑通
其后
其实


起初
起来
起首
起头
起先

岂非
岂止

恰逢
恰好
恰恰
恰巧
恰如
恰似


千万
千万千万

切不可
切莫
切切
切勿

亲口
亲身
亲手
亲眼
亲自

顷刻
顷刻间
顷刻之间
请勿
穷年累月
取道

权时
全都
全力
全年
全然
全身心

人人

仍旧
仍然
日复一日
日见
日渐
日益
日臻
如常
如此等等
如次
如今
如期
如前所述
如上
如下

三番两次
三番五次
三天两头
瑟瑟
沙沙

上来
上去
一.
一一
一下
一个
一些
一何
一则通过
一天
一定
一时
一次
一片
一番
一直
一致
一起
一转眼
一边
一面
上升
上述
上面

下列
下去
下来
下面
不一
不久
不变
不可
不够
不尽
不尽然
不敢
不断
不若
不足
与其说
专门
且不说
且说
严格
严重
个别
中小
中间
丰富
为主
为什麽
为止
为此
主张
主要
举行
乃至于
之前
之后
之後
也就是说
也是
了解
争取
二来
云尔


产生

人们
什麽

今后
今天
今年
今後
介于
从事
他是
他的
代替
以上
以下
以为
以前
以后
以外
以後
以故
以期
以来
任务
企图
伟大
似乎
但凡
何以
余外
你是
你的
使
使用
依据
依靠
便于
促进
保持
做到
傥然

允许
元/吨
先不先
先后
先後
先生
全体
全部
全面
共同
具体
具有
兼之

再其次
再则
再有
再次
再者说
决定
准备

凡是
出于
出现
分别
则甚
别处
别是
别管
前此
前进
前面
加入
加强
十分
即如

却不
原来
又及
及时
双方
反应
反映
取得
受到
变成
另悉

只当
只怕
只消
叫做
召开
各人
各地
各级
合理
同一
同样

后者
后面
向使
周围
呵呵

唯有
啷当


嘿嘿
因了
因着
在于
坚决
坚持
处在
处理
复杂
多么
多数
大力
大多数
大批
大量
失去
她是
她的

好的
好象
如同
如是
始而
存在
孰料
孰知
它们的
它是
它的
安全
完全
完成
实现
实际
宣布
容易
密切
对应
对待
对方
对比

少数

尔尔
尤其
就是了
就要
属于
左右
巨大
巩固

已矣
已经

巴巴
帮助
并不
并不是
广大
广泛
应当
应用
应该
庶乎
庶几
开展
引起
强烈
强调
归齐
当前
当地
当时
形成
彻底
彼时
往往
後来
後面
得了
得出
得到
心里
必然
必要
怎奈
怎麽
总是
总结
您们
您是
惟其
意思
愿意
成为
我是
我的
或则
或曰
战斗
所在
所幸
所有
所谓
扩大
掌握
接著
数/
整个
方便
方面

无法
既往
明显
明确
是不是
是以
是否
显然
显著
普通
普遍

曾经
替代

最后
最大
最好
最後
最近
最高
有利
有力
有及
有所
有效
有时
有点
有的是
有着
有著
末##末
本地
来自
来说
构成
某某
根本
欢迎

正值
正在
正巧
正常
正是
此地
此处
此时
此次
每个
每天
每年
比及
比较
没奈何
注意
深入
清楚
满足
然後
特别是
特殊
特点
犹且
犹自
现代
现在
甚且
甚或
甚至于
用来
由是
由此
目前
直到
直接
相似
相信
相反
相同
相对
相应
相当
相等
看出
看到
看看
看见
真是
真正
眨眼
矣乎
矣哉
知道
确定

积极
移动
突出
突然
立即
竟而
第二
类如
练习
组成
结合
继后
继续
维持
考虑
联系
能否
能够
自后
自打
至今
至若

般的
良好
若夫
若果
范围
莫不然
获得
行为
行动
表明
表示
要求
规定
觉得
譬喻
认为
认真
认识
许多
设或
诚如
说明
说来
说说

诸如
谁人
谁料
贼死
赖以

转动
转变
转贴
达到
迅速
过去
过来
运用
还要
这一来
这次
这点
这种
这般
这麽
进入
进步
进行
适应
适当
适用
逐步
逐渐
通常
造成
遇到
遭到
遵循
避免
那般
那麽
部分
采取
里面
重大
重新
重要
针对
问题
防止
附近
限制
随后
随时
随著
难道说
集中
需要
非特
非独
高兴
若果


推荐阅读
  • PHP中元素的计量单位是什么? ... [详细]
  • HTML5大文件传输技术深度解析与实践分享
    本文深入探讨了HTML5在Web前端开发中实现大文件上传的技术细节与实践方法。通过实例分析,详细讲解了如何利用HTML5的相关特性高效、稳定地处理大文件传输问题,并提供了可供参考的代码示例和解决方案。此外,文章还讨论了常见的技术挑战及优化策略,旨在帮助开发者更好地理解和应用HTML5大文件上传技术。 ... [详细]
  • Django框架进阶教程:掌握Ajax请求的基础知识与应用技巧
    本教程深入探讨了Django框架中Ajax请求的核心概念与实用技巧,帮助开发者掌握异步数据交互的方法,提升Web应用的响应速度和用户体验。通过实例解析,详细介绍了如何在Django项目中高效实现Ajax请求,涵盖从基础配置到复杂场景的应用。 ... [详细]
  • 本文详细解析了JSONP(JSON with Padding)的跨域机制及其工作原理。JSONP是一种通过动态创建``标签来实现跨域请求的技术,其核心在于利用了浏览器对``标签的宽松同源策略。文章不仅介绍了JSONP的产生背景,还深入探讨了其具体实现过程,包括如何构造请求、服务器端如何响应以及客户端如何处理返回的数据。此外,还分析了JSONP的优势和局限性,帮助读者全面理解这一技术在现代Web开发中的应用。 ... [详细]
  • Spring Security 认证模块的项目构建与初始化
    本文详细介绍了如何构建和初始化Spring Security认证模块的项目。首先,通过创建一个分布式Maven聚合工程,该工程包含四个模块,分别为core、browser(用于演示)、app等,以构成完整的SeehopeSecurity项目。在项目构建过程中,还涉及日志生成机制,确保能够输出关键信息,便于调试和监控。 ... [详细]
  • 本文深入探讨了 Vue.js 中异步组件的应用与优化策略。首先,文章介绍了异步组件的基本概念及其在现代前端开发中的重要性。为了确保最佳实践,建议使用 Webpack 作为模块打包工具,因为 Browserify 默认不支持异步组件的加载。接着,详细解释了异步组件的使用方法,并提供了官方文档的相关链接以供参考。此外,文章还讨论了多种优化技巧,包括代码分割、懒加载和性能调优,以提升应用的整体性能和用户体验。 ... [详细]
  • Python学习:环境配置与安装指南
    Python作为一种跨平台的编程语言,适用于Windows、Linux和macOS等多种操作系统。为了确保本地已成功安装Python,用户可以通过终端或命令行界面输入`python`或`python3`命令进行验证。此外,建议使用虚拟环境管理工具如`venv`或`conda`,以便更好地隔离不同项目依赖,提高开发效率。 ... [详细]
  • Python网络爬虫入门:利用urllib库进行数据抓取
    Python网络爬虫入门:利用urllib库进行数据抓取在数据科学和Web开发领域,Python凭借其简洁高效的特性成为首选语言。本文主要介绍了如何在Windows环境下使用Python的urllib库进行基本的网络数据抓取。考虑到命令行操作的不便,作者选择了Jupyter Notebook作为开发环境,不仅简化了配置过程,还提供了直观的数据处理和可视化功能。通过实例演示,读者可以轻松掌握urllib的基本用法,为深入学习网络爬虫技术打下坚实基础。 ... [详细]
  • 本课程详细介绍了如何使用Python Flask框架从零开始构建鱼书应用,涵盖高级编程技巧和实战项目。通过视频教学,学员将学习到Flask的高效用法,包括数据库事务处理和书籍交易模型的实现。特别感谢AI资源网提供的课程下载支持。 ... [详细]
  • MVVM架构~mvc,mvp,mvvm大话开篇
    返回目录百度百科的定义:MVP是从经典的模式MVC演变而来,它们的基本思想有相通的地方:ControllerPresenter负责逻辑的处理,Model提供数据,View负责显示。作为一种新的模 ... [详细]
  • 探索JavaScript倒计时功能的三种高效实现方法及代码示例 ... [详细]
  • Gear 月度进展报告:2023年7月最新动态与技术升级
    Gear 月度进展报告:2023年7月最新动态与技术升级 ... [详细]
  • 初次接触AJAX是在去年,当时主要是通过手动编写客户端代码来实现,还需处理被请求的页面,过程相当繁琐。尽管之前就听说过AJAX.NET,但一直没有机会深入了解。本文将作为初学者的指南,详细介绍AJAX.NET的基本概念、核心功能及其在实际项目中的应用技巧,帮助读者快速上手并掌握这一强大的开发工具。 ... [详细]
  • 基于Node.js的高性能实时消息推送系统通过集成Socket.IO和Express框架,实现了高效的高并发消息转发功能。该系统能够支持大量用户同时在线,并确保消息的实时性和可靠性,适用于需要即时通信的应用场景。 ... [详细]
  • 在探讨如何高效处理大规模数据报表的分页展示之前,首先需要明确导致报表加载缓慢的主要原因。通常情况下,这主要是由于两个方面:一是查询条件过于宽泛,使得数据库返回的结果集包含数百万甚至更多的记录;二是前端渲染性能不足,无法高效处理大量数据。为了优化这一过程,可以从以下几个方面入手:优化查询条件,减少不必要的数据返回;采用分页查询技术,每次仅加载所需的数据;利用缓存机制,减少对数据库的频繁访问;提升前端渲染效率,使用虚拟滚动等技术提高用户体验。 ... [详细]
author-avatar
hja2045905
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有