当前位置: 开发笔记 > 编程语言 > 正文

c语言有些字符已用unicode替换字符替换,UnicodeWarning:某些字符无法解码，已替换为替换字符...

作者： | 来源：互联网 | 2023-09-23 21:37

我在代码中使用的是pythonbs4pyside，请看下面部分代码：entercodehere#coding:gb2312importurllib2im

我在代码中使用的是python&＃43;bs4&＃43;pyside&＃xff0c;请看下面部分代码&＃xff1a;enter code here

#coding:gb2312

import urllib2

import sys

import urllib

import urlparse

import random

import time

from datetime import datetime, timedelta

import socket

from bs4 import BeautifulSoup

import lxml.html

from PySide.QtGui import *

from PySide.QtCore import *

from PySide.QtWebKit import *

def download(self, url, headers, proxy, num_retries, data&＃61;None):

print &＃39;Downloading:&＃39;, url

request &＃61; urllib2.Request(url, data, headers or {})

opener &＃61; self.opener or urllib2.build_opener()

if proxy:

proxy_params &＃61; {urlparse.urlparse(url).scheme: proxy}

opener.add_handler(urllib2.ProxyHandler(proxy_params))

try:

response &＃61; opener.open(request)

html &＃61; response.read()

code &＃61; response.code

except Exception as e:

print &＃39;Download error:&＃39;, str(e)

html &＃61; &＃39;&＃39;

if hasattr(e, &＃39;code&＃39;):

code &＃61; e.code

if num_retries > 0 and 500 <&＃61; code <600:

# retry 5XX HTTP errors

return self._get(url, headers, proxy, num_retries-1, data)

else:

code &＃61; None

return {&＃39;html&＃39;: html, &＃39;code&＃39;: code}

def crawling_hdf(openfile):

filename &＃61; open(openfile,&＃39;r&＃39;)

namelist &＃61; filename.readlines()

app &＃61; QApplication(sys.argv)

for name in namelist:

url &＃61; "http://so.haodf.com/index/search?type&＃61;doctor&kw&＃61;"&＃43; urllib.quote(name)

#get doctor&＃39;s home page

D &＃61; Downloader(delay&＃61;DEFAULT_DELAY, user_agent&＃61;DEFAULT_AGENT, proxies&＃61;None, num_retries&＃61;DEFAULT_RETRIES, cache&＃61;None)

html &＃61; D(url)

soup &＃61; BeautifulSoup(html)

tr &＃61; soup.find(attrs&＃61;{&＃39;class&＃39;:&＃39;docInfo&＃39;})

td &＃61; tr.find(attrs&＃61;{&＃39;class&＃39;:&＃39;docName font_16&＃39;}).get(&＃39;href&＃39;)

print td

#get doctor&＃39;s detail information page

loadPage_bs4(td)

filename.close()

if __name__ &＃61;&＃61; &＃39;__main__&＃39;:

crawling_hdf("name_list.txt")

运行程序后&＃xff0c;会显示警告信息&＃xff1a;

警告(来自警告模块)&＃xff1a;

文件“C:\Python27\lib\site packages\bs4\该死的.py“&＃xff0c;第231行

无法解码某些字符&＃xff0c;并且

UnicodeWarning:某些字符无法解码&＃xff0c;已替换为替换字符。

我用过print str(html)发现所有标签中的中文都是乱码。在

我尝试过使用“解码或编码”和“gzip”解决方案&＃xff0c;这是在这个网站上搜索&＃xff0c;但它不适用于我的情况。在

非常感谢你的帮助

推荐阅读

object
fleaframedb使用之JPA封装介绍

flea,frame,db,使用,之 ... [详细]

蜡笔小新 2024-11-20 12:00:16
join
Spring AOP学习笔记Advice执行顺序

一、Advice执行顺序二、Advice在同一个Aspect中三、Advice在不同的Aspect中一、Advice执行顺序如果多个Advice和同一个JointPoint连接& ... [详细]

蜡笔小新 2024-11-21 15:28:36
substring
web: _show -> _info 造轮子编程

问题场景用Java进行web开发过程当中，当遇到很多很多个字段的实体时，最苦恼的莫过于编辑字段的查看和修改界面，发现2个页面存在很多重复信息，能不能写一遍？有没有轮子用都不如自己造。解决方式笔者根据自 ... [详细]

蜡笔小新 2024-11-21 10:21:24
metadata
spring boot使用jetty无法启动

spring boot使用jetty无法启动 ... [详细]

蜡笔小新 2024-11-21 10:15:52
client
深入解析 Bootstrap Table 的使用技巧

本文详细介绍了如何利用 Bootstrap Table 实现数据展示与操作，包括数据加载、表格配置及前后端交互等关键步骤。 ... [详细]

蜡笔小新 2024-11-20 17:21:26
random
将图像平移到画布中心python_python – Tkinter画布缩放移动/平移

高级缩放示例.就像谷歌地图一样.它仅缩放图块,但不缩放整个图像.因此,缩放的瓷砖占据了恒定的记忆,并且不会为大型缩放图像调整大小的图像.对于简化的缩放示例lookhere.在Win ... [详细]

蜡笔小新 2024-11-20 15:47:04
js
解决PHP及Web开发中的UTF-8乱码问题

本文详细探讨了在Web开发中常见的UTF-8编码问题及其解决方案，包括HTML页面、PHP脚本、MySQL数据库以及JavaScript和Flash应用中的乱码问题。 ... [详细]

蜡笔小新 2024-11-20 10:58:03
object
Spring与Quartz结合实现周期性任务调度

本文介绍了一个使用Spring框架和Quartz调度器实现每周定时调用Web服务获取数据的小项目。通过详细配置Spring XML文件，展示了如何设置定时任务以及解决可能遇到的自动注入问题。 ... [详细]

蜡笔小新 2024-11-19 19:14:50
object
深入解析 Java 中 org.w3c.dom.Node.isEqualNode() 方法及其应用实例

本文详细介绍了 Java 中 org.w3c.dom.Node 类的 isEqualNode() 方法的功能、参数及返回值，并通过多个实际代码示例来展示其具体应用。此方法用于检测两个节点是否相等，而不仅仅是判断它们是否为同一个对象。 ... [详细]

蜡笔小新 2024-11-19 18:11:10
java
解决Tomcat启动时出现org.apache.catalina.LifecycleException异常的方法

在尝试启动Java应用服务器Tomcat时，遇到了org.apache.catalina.LifecycleException异常。本文详细记录了异常的具体表现形式，并提供了有效的解决方案。 ... [详细]

蜡笔小新 2024-11-19 11:46:52
python
spring(22)JdbcTemplate

2019独角兽企业重金招聘Python工程师标准###1.导入jar包，必须jar包：c3p0、mysql-connector、beans、con ... [详细]

蜡笔小新 2024-11-18 19:49:32
join
Python多进程高效读取超大文件的技巧

本文详细介绍了如何使用Python的多进程技术来高效地分块读取超大文件，并将其输出为多个文件。通过这种方式，可以显著提高读取速度和处理效率。 ... [详细]

蜡笔小新 2024-11-14 10:59:08
join
[OReilly_Learning_Perl_5th_Edition]_Chap06_Exercises

3.[15]Writeaprogramtolistallofthekeysandvaluesin%ENV.PrinttheresultsintwocolumnsinASCIIbet ... [详细]

蜡笔小新 2024-11-20 18:28:56
js
深入理解Java SE 8新特性：Lambda表达式与函数式编程

本文作为‘Java SE 8新特性概览’系列的一部分，将详细探讨Lambda表达式。通过多种示例，我们将展示Lambda表达式的不同应用场景，并解释编译器如何处理这些表达式。 ... [详细]

蜡笔小新 2024-11-20 14:19:27
callback
Android AndEngine 游戏启动画面中移除广告

本文探讨了如何在游戏启动画面中移除广告，特别是在游戏数据加载期间（大约5-6秒）广告会短暂显示的问题。通过调整XML布局和代码逻辑，可以实现广告的延迟加载或完全移除。 ... [详细]

蜡笔小新 2024-11-18 14:28:27

Tags | 热门标签

RankList | 热门文章