作者:yun悠然_434 | 来源:互联网 | 2023-08-10 16:58
通常我们学习到的 爬虫 都是 抓取页面内容 ,并不需要重新镜像一个同样的内容呈现,
而今天看到一个 类似爬虫的 镜像一个网站的技术实现 链接
这像是镜像了一个网站,然后又不是 到像是 ifarme 进来一个网页一样,可以跟原网站一样任意操作,
可发现又不像 因为链接地址都变了, 会出现类似
1
| 68747470733a2f2f7777772e616d617a6f6e2e636f2e6a702f |
这样的字符串, 是把链接地址加密了吗?
如果仅仅只是 代理 资源加载又是如何实现呢, 查看网页源码 发现并不是本分的 代理, 里面加入了 很多自定义的内容,比如自己的头部和浮动 底部内容, 难道是 使用 爬虫, 然后再修改 写入到数据库吗,然后如果想支持许多网站,是不是需要很庞大的数据库存储支持呢?
然而如果需要时时跟进 代理网站的 内容 ,该如何爬取,如果是 实时爬取得话,是否会很慢。
大数据爬虫该如何实现内容的跟进.
求个大神指导一下 技术分析实现.