热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

python统计一句话单词个数_python统计单词个数

标签:根据一篇英文文章统计其中单词出现最多的10个单词。#-*-coding:utf-8-*-importurllib2importrefromcollections

标签:

根据一篇英文文章统计其中单词出现最多的10个单词。

# -*- coding: utf-8 -*-

import urllib2

import re

from collections import Counter

‘‘‘

007之雷霆谷 You Only Live Twice‘,可以从http://novel.tingroom.com/jingdian/1584/47084.html这个地址获取,

列出其中使用最频繁的10个单词,并给出它们的出现次数

Python2.7上测试通过

‘‘‘

‘‘‘根据URL网址读取数据‘‘‘

def Get_Data(url):

data = urllib2.urlopen(url).read()

return data

‘‘‘统计单词及个数,text是要统计的文章字符串,n是统计次数最多的前几个‘‘‘

def PrintWordsCount(text,n=1):

‘‘‘调用Counter用正则进行拆分‘‘‘

wordCountList = Counter(re.split(r‘\W+‘, text, flags=re.M|re.I)).most_common(n)

print ‘单词\t次数‘

print ‘\n‘.join([w+‘\t‘+str(c) for w,c in wordCountList])

#测试代码

def test():

url =‘http://novel.tingroom.com/jingdian/1584/47084.html‘

data = Get_Data(url)

PrintWordsCount(data,10)

test()

标签:



推荐阅读
author-avatar
年少不轻易谈情
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有