Python爬虫实现取名字的代码实例

作者：wwwmanbj_796_897 | 来源：互联网 | 2017-05-14 02:44

每个人一生中都会遇到一件事情，在事情出现之前不会关心，但是事情一旦来临就发现它极其重要，并且需要在很短的时间内做出重大决定，那就是给自己的新生宝宝起个名字。下面这篇文章主要介绍了如何利用Python爬虫给孩子起个好名字，需要的朋友可以参考下。

前言

相信每位家长都有所体会，因为要在孩子出生后两周内起个名字（需要办理出生证明了），估计很多人都像我一样，刚开始是很慌乱的，虽然感觉汉字非常的多随便找个字做名字都行，后来才发现真不是随便的事情，怎么想都发现不合适，于是到处翻词典、网上搜、翻唐诗宋词、诗经、甚至武侠小说，然而想了很久得到的名字，往往却受到家属的意见和反对，比如不顺口、和亲戚重名重音等问题，这样就陷入了重复寻找和否定的循环，越来越混乱。

于是我们再次回到网上各种搜索，找到很多网上给出的“男宝宝好听的名字大全”之类的文章，这些文章一下子给出几百上千个名字，看的眼花缭乱没法使用。而有不少的测名字的网站或者APP，输入名字能给出八字或者五格的评分，这样的功能感觉还挺好的能给个参考，然而要么我们需要一个个名字的输入进行测试、要么这些网站或者APP自身的名字很少、要么不能满足我们的需求比如限定字、要么就开始收费，到最后也找不到一个好用的。

于是我想做这么一个程序：

主要的功能，是给出批量名字提供参考，这些名字是结合宝宝的生辰八字算出来的；
自己可以扩充名字库，比如网上发现了一批诗经里的好名字，想看看怎么样，添加进去就能用；
可以限定名字的使用字，比如有的家族谱有限定，当前是“国”字辈，名字中必须有“国”字；
名字列表可以给出评分，这样倒排后就可以从高分往低分来看名字；

通过这种方式可以得到一份符合自己孩子生辰八字、自己的家谱限制、以及自己喜好的名字列表，并且该列表已经给出了分数用于参考，以此为基准我们可以挨个琢磨找出心仪的名字。当然如果有新的想法，随时可以把新的名字添加到词库里面，进行重新计算。

程序的代码结构

程序的配置入口

程序的配置如下：

# coding:GB18030
 
"""
在这里写好配置
"""
 
setting = {}
 
# 限定字，如果配置了该值，则会取用单字字典，否则取用多字字典
setting["limit_world"] = "国"
# 姓
setting["name_prefix"] = "李"
# 性别，取值为 男 或者 女
setting["sex"] = "男"
# 省份
setting["area_province"] = "北京"
# 城市
setting["area_region"] = "海淀"
# 出生的公历年份
setting[&＃39;year&＃39;] = "2017"
# 出生的公历月份
setting[&＃39;month&＃39;] = "1"
# 出生的公历日子
setting[&＃39;day&＃39;] = "11"
# 出生的公历小时
setting[&＃39;hour&＃39;] = "11"
# 出生的公历分钟
setting[&＃39;minute&＃39;] = "11"
# 结果产出文件名称
setting[&＃39;output_fname&＃39;] = "names_girls_source_xxx.txt"

根据配置项setting[“limit_world”] ，系统自动来决定选用单字词典还是多字词典：

如果设置了该项，比如等于“国”，那么程序会组合所有的单字为名字用于计算，比如国浩和浩国两个名字都会计算；
如果不设置该项，保持空字符串，则程序只会读取*_double.txt的双字词典

程序的原理

这是一个简单的爬虫。大家可以打开life.httpcn.com/xingming.asp网站查看，这是一个POST表单，填写需要的参数，点提交，就会打开一个结果页面，结果页面的最下方包含了八字分数和五格分数。

如果想得到分数，就需要做两件事情，一是爬虫自动提交表单，获取结果页面；二是从结果页面提取分数；

对于第一件事情，很简单，urllib2即可实现（代码在/chinese-name-score/main/get_name_score.py）：

 post_data = urllib.urlencode(params)
 req = urllib2.urlopen(sys_config.REQUEST_URL, post_data)
 cOntent= req.read()

这里的params是个参数dict，使用这种方式，就进行了POST带数据的提交，然后从content得到了结果数据。

params的参数设定如下：

 params = {}
 
 # 日期类型，0表示公历，1表示农历
 params[&＃39;data_type&＃39;] = "0"
 params[&＃39;year&＃39;] = "%s" % str(user_config.setting["year"])
 params[&＃39;month&＃39;] = "%s" % str(user_config.setting["month"])
 params[&＃39;day&＃39;] = "%s" % str(user_config.setting["day"])
 params[&＃39;hour&＃39;] = "%s" % str(user_config.setting["hour"])
 params[&＃39;minute&＃39;] = "%s" % str(user_config.setting["minute"])
 params[&＃39;pid&＃39;] = "%s" % str(user_config.setting["area_province"])
 params[&＃39;cid&＃39;] = "%s" % str(user_config.setting["area_region"])
 # 喜用五行，0表示自动分析，1表示自定喜用神
 params[&＃39;wxxy&＃39;] = "0"
 params[&＃39;xing&＃39;] = "%s" % (user_config.setting["name_prefix"])
 params[&＃39;ming&＃39;] = name_postfix
 # 表示女，1表示男
 if user_config.setting["sex"] == "男":
  params[&＃39;sex&＃39;] = "1"
 else:
  params[&＃39;sex&＃39;] = "0"
  
 params[&＃39;act&＃39;] = "submit"
 params[&＃39;isbz&＃39;] = "1"

第二件事情，就是从网页中提取需要的分数，我们可以使用BeautifulSoup4来实现，其语法也很简单：

 soup = BeautifulSoup(content, &＃39;html.parser&＃39;, from_encoding="GB18030")
 full_name = get_full_name(name_postfix)
 
 # print soup.find(string=re.compile(u"姓名五格评分"))
 for node in soup.find_all("p", class_="chaxun_b"):
  node_cOnt= node.get_text()
  if u&＃39;姓名五格评分&＃39; in node_cont:
   name_wuge = node.find(string=re.compile(u"姓名五格评分"))
   result_data[&＃39;wuge_score&＃39;] = name_wuge.next_sibling.b.get_text()
  
  if u&＃39;姓名八字评分&＃39; in node_cont:
   name_wuge = node.find(string=re.compile(u"姓名八字评分"))
   result_data[&＃39;bazi_score&＃39;] = name_wuge.next_sibling.b.get_text()

通过该方法，就能对HTML解析，提取八字和五格的分数。

运行结果事例

1/1287 李国锦 姓名八字评分=61.5 姓名五格评分=78.6 总分=140.1
2/1287 李国铁 姓名八字评分=61 姓名五格评分=89.7 总分=150.7
3/1287 李国晶 姓名八字评分=21 姓名五格评分=81.6 总分=102.6
4/1287 李鸣国 姓名八字评分=21 姓名五格评分=90.3 总分=111.3
5/1287 李柔国 姓名八字评分=64 姓名五格评分=78.3 总分=142.3
6/1287 李国经 姓名八字评分=21 姓名五格评分=89.8 总分=110.8
7/1287 李国蒂 姓名八字评分=22 姓名五格评分=87.2 总分=109.2
8/1287 李国登 姓名八字评分=21 姓名五格评分=81.6 总分=102.6
9/1287 李略国 姓名八字评分=21 姓名五格评分=83.7 总分=104.7
10/1287 李国添 姓名八字评分=21 姓名五格评分=81.6 总分=102.6
11/1287 李国天 姓名八字评分=22 姓名五格评分=83.7 总分=105.7
12/1287 李国田 姓名八字评分=22 姓名五格评分=93.7 总分=115.7

有了这些分数，我们就可以进行排序，是一个很实用的参考资料。

友情提示

分数跟很多因素有关，比如出生时刻、已经限定的字、限定字的笔画等因素，这些条件决定了有些名字不会分数高，不要受此影响，找出相对分数高的就可以了；
目前程序只能抓取一个网站的内容，地址是http://life.httpcn.com/xingming.asp
本列表仅供参考，看过一些文章，历史上很多名人伟人，姓名八字评分都非常低但是都建功立业，名字确实会有些影响但有时候朗朗上口就是最好的；
从本列表中选取名字之后，可以在百度、人人网等地方查查，以防有些负面的人重名、或者起这个名字的人太多了烂大街；
八字分数是中国传承，五格分数是日本人近代发明的，有时候也可以试试西方的星座起名法，并且奇怪的是八字和五个分数不同网站打分相差很大，更说明了这东西只供参考；

本文的代码已上传到github

总结

推荐阅读

git
Python爬虫实战：豆瓣电影Top250数据抓取

本文详细介绍了如何使用Python编写爬虫程序，从豆瓣电影Top250页面抓取电影信息。文章涵盖了从基础的网页请求到处理反爬虫机制，再到多页数据抓取的全过程，并提供了完整的代码示例。 ... [详细]

蜡笔小新 2024-12-27 16:55:07
utf-8
Python 爬虫基础教程及代码实例

根据最新发布的《互联网人才趋势报告》，尽管大量IT从业者已转向Python开发，但随着人工智能和大数据领域的迅猛发展，仍存在巨大的人才缺口。本文将详细介绍如何使用Python编写一个简单的爬虫程序，并提供完整的代码示例。 ... [详细]

蜡笔小新 2024-12-26 10:42:40
int
Python自动化处理：从Word文档提取内容并生成带水印的PDF

本文介绍如何利用Python实现从特定网站下载Word文档，去除水印并添加自定义水印，最终将文档转换为PDF格式。该方法适用于批量处理和自动化需求。 ... [详细]

蜡笔小新 2024-12-27 13:10:20
int
Git 分布式版本控制系统：远程仓库的深入探讨

本文详细介绍了Git分布式版本控制系统中远程仓库的概念和操作方法。通过具体案例，帮助读者更好地理解和掌握如何高效管理代码库。 ... [详细]

蜡笔小新 2024-12-25 18:30:21
nodejs
PHP Eloquent ORM 中的关联查询扩展

本文探讨了如何在 PHP 的 Eloquent ORM 中实现数据表之间的关联查询，并通过具体示例详细解释了如何将关联数据嵌入到查询结果中。这不仅提高了数据查询的效率，还简化了代码逻辑。 ... [详细]

蜡笔小新 2024-12-25 18:14:14
nodejs
Python入门指南：从零开始的全面学习路线

本文详细介绍了Python编程语言的学习路径，涵盖基础语法、常用组件、开发工具、数据库管理、Web服务开发、大数据分析、人工智能、爬虫开发及办公自动化等多个方向。通过系统化的学习计划，帮助初学者快速掌握Python的核心技能。 ... [详细]

蜡笔小新 2024-12-25 12:54:33
int
自己用过的一些比较有用的css3新属性【HTML】

web前端|html教程自己用过的一些比较用的css3新属性web前端-html教程css3刚推出不久，虽然大多数的css3属性在很多流行的浏览器中不支持，但我个人觉得还是要尽量开 ... [详细]

蜡笔小新 2024-12-24 19:26:54
int
使用Python urllib模块实现POST请求并爬取百度翻译结果

本文详细解析了如何使用Python的urllib模块发起POST请求，并通过实例展示如何爬取百度翻译的翻译结果。 ... [详细]

蜡笔小新 2024-12-24 18:49:24
int
PHP编程语言及其在股市中的应用

本文将深入探讨PHP编程语言的基本概念，并解释PHP概念股的含义。通过详细解析，帮助读者理解PHP在Web开发和股票市场中的重要性。 ... [详细]

蜡笔小新 2024-12-25 15:02:45
include
2016年10月25日数学考试：斐波那契数列与矩阵快速幂的应用

本次考试于2016年10月25日上午7:50至11:15举行，主要涉及数学专题，特别是斐波那契数列的性质及其在编程中的应用。本文将详细解析考试中的题目，并提供解题思路和代码实现。 ... [详细]

蜡笔小新 2024-12-25 13:08:21
int
脑机接口：连接未来的桥梁

脑机接口（BCI）技术正逐步将科幻变为现实，从帮助听障人士恢复听力到使瘫痪者重新站立，甚至可能将多年的学习过程压缩至瞬间。本文探讨了这一前沿技术的现状、挑战及其未来前景。 ... [详细]

蜡笔小新 2024-12-24 23:49:49
int
Python入门：第一天准备与安装

本文详细介绍了Python编程语言的基础知识和安装步骤，帮助初学者快速上手。涵盖Python的特点、应用场景以及Windows环境下Python和PyCharm的安装方法。 ... [详细]

蜡笔小新 2024-12-24 20:39:14
int
云计算的优势与应用场景

本文详细探讨了云计算为企业和个人带来的多种优势，包括成本节约、安全性提升、灵活性增强等。同时介绍了云计算的五大核心特点，并结合实际案例进行分析。 ... [详细]

蜡笔小新 2024-12-23 13:54:13
数组
JavaScript 中创建对象的多种方法

本文详细介绍了 JavaScript 中创建对象的几种常见方式，包括对象字面量、构造函数和 Object.create 方法，并提供了示例代码和属性描述符的解释。 ... [详细]

蜡笔小新 2024-12-22 16:40:51
utf-8
JSON 解析失败问题排查

在PHP后端开发中遇到一个难题：通过第三方类文件发送短信功能返回的JSON字符串无法解析。本文将探讨可能的原因并提供解决方案。 ... [详细]

蜡笔小新 2024-12-21 18:39:23

wwwmanbj_796_897

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章