当前位置: 开发笔记 > 编程语言 > 正文

python自然语言处理答案_《用Python进行自然语言处理》第一章练习题答案

作者：笑竹舞 | 来源：互联网 | 2023-08-30 16:13

尝试使用Python解释器作为一个计算器，输入表达式，如12(41)。12(41)2.426个字母可以组成26的10次方或者26**10个10字母

尝试使用Python解释器作为一个计算器&＃xff0c;输入表达式&＃xff0c;如12/(4&＃43;1)。

>>> 12 / (4 &＃43; 1)

2.4

26 个字母可以组成 26 的 10 次方或者 26**10个 10 字母长的字符串。也就是 141167095653376L(结尾处的 L 只是表示这是 Python 长数字格式)。100 个字母长度的字符串可能有多少个?

>>> 26 ** 100

31429306415829388301743577885016264272826699887624752563741731753989959084

201040234654325990697022893309640750816117197835869803511992549376

Python乘法运算可应用于链表。当你输入[‘Monty’, ‘Python’] * 20 或者 3 * sent1会发生什么&＃xff1f;

>>> [&＃39;Monty&＃39;, &＃39;Python&＃39;] * 20

[&＃39;Monty&＃39;, &＃39;Python&＃39;, &＃39;Monty&＃39;, &＃39;Python&＃39;, &＃39;Monty&＃39;, &＃39;Python&＃39;, &＃39;Monty&＃39;, &＃39;Python&＃39;, &＃39;Monty&＃39;, &＃39;Python&＃39;, &＃39;Monty&＃39;, &＃39;Python&＃39;, &＃39;Monty&＃39;,

&＃39;Python&＃39;, &＃39;Monty&＃39;, &＃39;Python&＃39;, &＃39;Monty&＃39;, &＃39;Python&＃39;, &＃39;Monty&＃39;, &＃39;Python&＃39;, &＃39;Monty&＃39;, &＃39;Python&＃39;, &＃39;Monty&＃39;, &＃39;Python&＃39;, &＃39;Monty&＃39;, &＃39;Python&＃39;,

&＃39;Monty&＃39;, &＃39;Python&＃39;, &＃39;Monty&＃39;, &＃39;Python&＃39;, &＃39;Monty&＃39;, &＃39;Python&＃39;, &＃39;Monty&＃39;, &＃39;Python&＃39;, &＃39;Monty&＃39;, &＃39;Python&＃39;, &＃39;Monty&＃39;, &＃39;Python&＃39;, &＃39;Monty&＃39;, &＃39;Python&＃39;]

复习1.1节关于语言计算的内容。在text2中有多少个词&＃xff1f;有多少个不同的词&＃xff1f;

>>> len(text2)

141576

>>> len(set(text2))

6833

比较表格1-1中幽默和言情小说的词汇多样性得分&＃xff0c;哪一个文体中词汇更丰富&＃xff1f;

言情小说

制作《理智与情感》中四个主角:Elinor、Marianne、Edward 和 Willoughby 的分布图。在这部小说中关于男性和女性所扮演的不同角色&＃xff0c;你能观察到什么&＃xff1f;你能找出一对夫妻吗&＃xff1f;

>>> text2.dispersion_plot([&＃39;Elinor&＃39;, &＃39;Edward&＃39;, &＃39;Willoughby&＃39;, &＃39;Marianne&＃39;])

Elinor和Edward是夫妻&＃xff0c;原因不明。。。

题6图

查找text5中的搭配

>>> text5.collocations()

wanna chat; PART JOIN; MODE #14-19teens; JOIN PART; PART PART;

cute.-ass MP3; MP3 player; JOIN JOIN; times .. .; ACTION watches; guys

wanna; song lasts; last night; ACTION sits; -...)...- S.M.R.; Lime

Player; Player 12%; dont know; lez gurls; long time

思考下面的Python表达式&＃xff1a;len(set(text4))。说明这个表达式的用途&＃xff0c;并且描述在执行此计算中设计的两个步骤。

1.text4中不重复单词的数量。

2.步骤一&＃xff1a;将text4中的所有单词加入set中去重

步骤二&＃xff1a;求该set的大小

复习1-2节关于链表和字符串的内容。

定义一个字符串&＃xff0c;并且将它分配给一个变量&＃xff0c;如&＃xff1a;my_string &＃61; ‘My String’ (在字符串中放一些更有趣的东西)。用两种方法输出这个变量的内容&＃xff0c;一种是通过简单地输入变量的名称&＃xff0c;然后按回车&＃xff1b;另一种是通过使用print语句。

>>> my_string &＃61; &＃39;Hello NLP&＃39;

>>> my_string

&＃39;Hello NLP&＃39;

>>> print(my_string)

Hello NLP

尝试使用 my_string &＃43; my_string 或者用它乘以一个数将字符串添加到它自身&＃xff0c;例如&＃xff1a; my_string*3。请注意&＃xff0c;连接在一起的字符串之间没有空格。怎样才能解决这个问题&＃xff1f;

>>> my_string * 3

&＃39;Hello NLPHello NLPHello NLP&＃39;

>>> (my_string &＃43; &＃39; &＃39;) * 3

&＃39;Hello NLP Hello NLP Hello NLP &＃39;

使用语法 my_sent &＃61; [“My”, “sent”]&＃xff0c;定义一个词链表变量 my_sent(用自己喜欢的词或喜欢的话)。

使用”.join(my_sent)将其转换成一个字符串。

>>> my_sent &＃61; [&＃39;July&＃39;, &＃39;Treee&＃39;]

>>> &＃39; &＃39;.join(my_sent)

&＃39;July Treee&＃39;

使用split()在你指定的地方将字符串分割回链表。

>>> &＃39;July Treee&＃39;.split(&＃39; &＃39;)

[&＃39;July&＃39;, &＃39;Treee&＃39;]

定义几个包含词链表的变量&＃xff0c;例如&＃xff1a;phrase1、phrase2 等。将它们连接在一起组成不同的组合(使用加法运算符)&＃xff0c;最终形成完整的句子。len(phrase1 &＃43; phrase2) 与 len(phrase1) &＃43; len(phrase2)之间的关系是什么&＃xff1f;

>>> phrase1 &＃61; [&＃39;Good&＃39;, &＃39;morning&＃39;]

>>> phrase2 &＃61; [&＃39;July&＃39;, &＃39;Treee&＃39;]

>>> phrase1 &＃43; phrase2

[&＃39;Good&＃39;, &＃39;morning&＃39;, &＃39;July&＃39;, &＃39;Treee&＃39;]

>>> len(phrase1 &＃43; phrase2)

4>>> sorted(set(sent1 &＃43; sent2 &＃43; sent3 &＃43; sent4 &＃43; sent5 &＃43; sent6 &＃43; sent7 &＃43; sent8))

[&＃39;!&＃39;, &＃39;,&＃39;, &＃39;-&＃39;, &＃39;.&＃39;, &＃39;1&＃39;, &＃39;25&＃39;, &＃39;29&＃39;, &＃39;61&＃39;, &＃39;:&＃39;, &＃39;ARTHUR&＃39;, &＃39;Call&＃39;, &＃39;Citizens&＃39;, &＃39;Dashwood&＃39;, &＃39;Fellow&＃39;, &＃39;God&＃39;, &＃39;House&＃39;, &＃39;I&＃39;, &＃39;In&＃39;, &＃39;Ishmael&＃39;, &＃39;JOIN&＃39;, &＃39;KING&＃39;, &＃39;MALE&＃39;, &＃39;Nov.&＃39;, &＃39;PMing&＃39;, &＃39;Pierre&＃39;, &＃39;Representatives&＃39;, &＃39;SCENE&＃39;, &＃39;SEXY&＃39;, &＃39;Senate&＃39;, &＃39;Sussex&＃39;, &＃39;The&＃39;, &＃39;Vinken&＃39;, &＃39;Whoa&＃39;, &＃39;[&＃39;, &＃39;]&＃39;, &＃39;a&＃39;, &＃39;and&＃39;, &＃39;as&＃39;, &＃39;attrac&＃39;, &＃39;been&＃39;, &＃39;beginning&＃39;, &＃39;board&＃39;, &＃39;clop&＃39;, &＃39;created&＃39;, &＃39;director&＃39;, &＃39;discreet&＃39;, &＃39;earth&＃39;, &＃39;encounters&＃39;, &＃39;family&＃39;, &＃39;for&＃39;, &＃39;had&＃39;, &＃39;have&＃39;, &＃39;heaven&＃39;, &＃39;in&＃39;, &＃39;join&＃39;, &＃39;lady&＃39;, &＃39;lol&＃39;, &＃39;long&＃39;, &＃39;me&＃39;, &＃39;nonexecutive&＃39;, &＃39;of&＃39;, &＃39;old&＃39;, &＃39;older&＃39;, &＃39;people&＃39;, &＃39;problem&＃39;, &＃39;seeks&＃39;, &＃39;settled&＃39;, &＃39;single&＃39;, &＃39;the&＃39;, &＃39;there&＃39;, &＃39;to&＃39;, &＃39;will&＃39;, &＃39;wind&＃39;, &＃39;with&＃39;, &＃39;years&＃39;]

>>> len(phrase1) &＃43; len(phrase2)

# len(phrase1 &＃43; phrase2) equals to len(phrase1) &＃43; len(phrase2)

考虑下面两个具有相同值的表达式。哪一个在NLP中更常用&＃xff1f;为什么&＃xff1f;

“Monty Python”[6:12]

[“Monty”, “Python”][1]

第二种&＃xff0c;因为NLP的操作是基于词汇的。

我们已经学习啦如何用词链表表示一个句子&＃xff0c;其中每个词是一个字符序列。sent1[2][2]代表什么意思&＃xff1f;为什么&＃xff1f;并尝试其他的索引值。

sent1中的第三个单词的第三个字母。

在变量sent3中保存的是text3的第一句话。在sent3中the的索引值是1,因为sent3[1]的值是“the”。sent3中“the”的其他两种出现的索引值是多少&＃xff1f;

>>> for i in range(len(sent3)):

... if sent3[i] &＃61;&＃61; &＃39;the&＃39;:

... print(i)

...

复习1.4节讨论的条件语句。在聊天语料库(text5)中查找所有以字母b开头的词。按字母顺序显示出来。

>>> sorted([w for w in set(text5) if w.startswith(&＃39;b&＃39;)])

[&＃39;b&＃39;, &＃39;b-day&＃39;, &＃39;b/c&＃39;, &＃39;b4&＃39;, &＃39;babay&＃39;, &＃39;babble&＃39;, &＃39;babblein&＃39;, &＃39;babe&＃39;, &＃39;babes&＃39;, &＃39;babi&＃39;, &＃39;babies&＃39;, &＃39;babiess&＃39;, &＃39;baby&＃39;, &＃39;babycakeses&＃39;, &＃39;bachelorette&＃39;, &＃39;back&＃39;, &＃39;backatchya&＃39;, &＃39;backfrontsidewaysandallaroundtheworld&＃39;, &＃39;backroom&＃39;, &＃39;backup&＃39;, &＃39;bacl&＃39;, &＃39;bad&＃39;, &＃39;bag&＃39;, &＃39;bagel&＃39;, &＃39;bagels&＃39;, &＃39;bahahahaa&＃39;, &＃39;bak&＃39;, &＃39;baked&＃39;, &＃39;balad&＃39;, &＃39;balance&＃39;, &＃39;balck&＃39;, &＃39;ball&＃39;, &＃39;ballin&＃39;, &＃39;balls&＃39;, &＃39;ban&＃39;, &＃39;band&＃39;, &＃39;bandito&＃39;, &＃39;bandsaw&＃39;, &＃39;banjoes&＃39;, &＃39;banned&＃39;, &＃39;baord&＃39;, &＃39;bar&＃39;, &＃39;barbie&＃39;, &＃39;bare&＃39;, &＃39;barely&＃39;, &＃39;bares&＃39;, &＃39;barfights&＃39;, &＃39;barks&＃39;, &＃39;barn&＃39;, &＃39;barrel&＃39;, &＃39;base&＃39;, &＃39;bases&＃39;, &＃39;basically&＃39;, &＃39;basket&＃39;, &＃39;battery&＃39;, &＃39;bay&＃39;, &＃39;bbbbbyyyyyyyeeeeeeeee&＃39;, &＃39;bbiam&＃39;, &＃39;bbl&＃39;, &＃39;bbs&＃39;, &＃39;bc&＃39;, &＃39;be&＃39;, &＃39;beach&＃39;, &＃39;beachhhh&＃39;, &＃39;beam&＃39;, &＃39;beams&＃39;, &＃39;beanbag&＃39;, &＃39;beans&＃39;, &＃39;bear&＃39;, &＃39;bears&＃39;, &＃39;beat&＃39;, &＃39;beaten&＃39;, &＃39;beatles&＃39;, &＃39;beats&＃39;, &＃39;beattles&＃39;, &＃39;beautiful&＃39;, &＃39;because&＃39;, &＃39;beckley&＃39;, &＃39;become&＃39;, &＃39;bed&＃39;, &＃39;bedford&＃39;, &＃39;bedroom&＃39;, &＃39;beeeeehave&＃39;, &＃39;beeehave&＃39;, &＃39;been&＃39;, &＃39;beer&＃39;, &＃39;before&＃39;, &＃39;beg&＃39;, &＃39;begin&＃39;, &＃39;behave&＃39;, &＃39;behind&＃39;, &＃39;bein&＃39;, &＃39;being&＃39;, &＃39;beleive&＃39;, &＃39;believe&＃39;, &＃39;belive&＃39;, &＃39;bell&＃39;, &＃39;belly&＃39;, &＃39;belong&＃39;, &＃39;belongings&＃39;, &＃39;ben&＃39;, &＃39;bend&＃39;, &＃39;benz&＃39;, &＃39;bes&＃39;, &＃39;beside&＃39;, &＃39;besides&＃39;, &＃39;best&＃39;, &＃39;bet&＃39;, &＃39;betrayal&＃39;, &＃39;betta&＃39;, &＃39;better&＃39;, &＃39;between&＃39;, &＃39;beuty&＃39;, &＃39;bf&＃39;, &＃39;bi&＃39;, &＃39;biatch&＃39;, &＃39;bible&＃39;, &＃39;biebsa&＃39;, &＃39;bied&＃39;, &＃39;big&＃39;, &＃39;bigest&＃39;, &＃39;biggest&＃39;, &＃39;biiiatch&＃39;, &＃39;bike&＃39;, &＃39;bikes&＃39;, &＃39;bikini&＃39;, &＃39;bio&＃39;, &＃39;bird&＃39;, &＃39;birfday&＃39;, &＃39;birthday&＃39;, &＃39;bisexual&＃39;, &＃39;bishes&＃39;, &＃39;bit&＃39;, &＃39;bitch&＃39;, &＃39;bitches&＃39;, &＃39;bitdh&＃39;, &＃39;bite&＃39;, &＃39;bites&＃39;, &＃39;biyatch&＃39;, &＃39;biz&＃39;, &＃39;bj&＃39;, &＃39;black&＃39;, &＃39;blade&＃39;, &＃39;blah&＃39;, &＃39;blank&＃39;, &＃39;blankie&＃39;, &＃39;blazed&＃39;, &＃39;bleach&＃39;, &＃39;blech&＃39;, &＃39;bless&＃39;, &＃39;blessings&＃39;, &＃39;blew&＃39;, &＃39;blind&＃39;, &＃39;blinks&＃39;, &＃39;bliss&＃39;, &＃39;blocking&＃39;, &＃39;bloe&＃39;, &＃39;blood&＃39;, &＃39;blooded&＃39;, &＃39;bloody&＃39;, &＃39;blow&＃39;, &＃39;blowing&＃39;, &＃39;blowjob&＃39;, &＃39;blowup&＃39;, &＃39;blue&＃39;, &＃39;blueberry&＃39;, &＃39;bluer&＃39;, &＃39;blues&＃39;, &＃39;blunt&＃39;, &＃39;board&＃39;, &＃39;bob&＃39;, &＃39;bodies&＃39;, &＃39;body&＃39;, &＃39;boed&＃39;, &＃39;boght&＃39;, &＃39;boi&＃39;, &＃39;boing&＃39;, &＃39;boinked&＃39;, &＃39;bois&＃39;, &＃39;bomb&＃39;, &＃39;bone&＃39;, &＃39;boned&＃39;, &＃39;bones&＃39;, &＃39;bong&＃39;, &＃39;boning&＃39;, &＃39;bonus&＃39;, &＃39;boo&＃39;, &＃39;booboo&＃39;, &＃39;boobs&＃39;, &＃39;book&＃39;, &＃39;boom&＃39;, &＃39;boooooooooooglyyyyyy&＃39;, &＃39;boost&＃39;, &＃39;boot&＃39;, &＃39;bootay&＃39;, &＃39;booted&＃39;, &＃39;boots&＃39;, &＃39;booty&＃39;, &＃39;border&＃39;, &＃39;borderline&＃39;, &＃39;bored&＃39;, &＃39;boredom&＃39;, &＃39;boring&＃39;, &＃39;born&＃39;, &＃39;born-again&＃39;, &＃39;bosom&＃39;, &＃39;boss&＃39;, &＃39;bossy&＃39;, &＃39;bot&＃39;, &＃39;both&＃39;, &＃39;bother&＃39;, &＃39;bothering&＃39;, &＃39;bottle&＃39;, &＃39;bought&＃39;, &＃39;bounced&＃39;, &＃39;bouncer&＃39;, &＃39;bouncers&＃39;, &＃39;bound&＃39;, &＃39;bout&＃39;, &＃39;bouts&＃39;, &＃39;bow&＃39;, &＃39;bowl&＃39;, &＃39;box&＃39;, &＃39;boy&＃39;, &＃39;boyfriend&＃39;, &＃39;boys&＃39;, &＃39;bra&＃39;, &＃39;brad&＃39;, &＃39;brady&＃39;, &＃39;brain&＃39;, &＃39;brakes&＃39;, &＃39;brass&＃39;, &＃39;brat&＃39;, &＃39;brb&＃39;, &＃39;brbbb&＃39;, &＃39;bread&＃39;, &＃39;break&＃39;, &＃39;breaks&＃39;, &＃39;breath&＃39;, &＃39;breathe&＃39;, &＃39;bred&＃39;, &＃39;breeding&＃39;, &＃39;bright&＃39;, &＃39;brightened&＃39;, &＃39;bring&＃39;, &＃39;brings&＃39;, &＃39;bro&＃39;, &＃39;broke&＃39;, &＃39;brooklyn&＃39;, &＃39;brother&＃39;, &＃39;brothers&＃39;, &＃39;brought&＃39;, &＃39;brown&＃39;, &＃39;brrrrrrr&＃39;, &＃39;bruises&＃39;, &＃39;brunswick&＃39;, &＃39;brwn&＃39;, &＃39;btw&＃39;, &＃39;bucks&＃39;, &＃39;buddyyyyyy&＃39;, &＃39;buff&＃39;, &＃39;buffalo&＃39;, &＃39;bug&＃39;, &＃39;bugs&＃39;, &＃39;buh&＃39;, &＃39;build&＃39;, &＃39;builds&＃39;, &＃39;built&＃39;, &＃39;bull&＃39;, &＃39;bulls&＃39;, &＃39;bum&＃39;, &＃39;bumber&＃39;, &＃39;bummer&＃39;, &＃39;bumped&＃39;, &＃39;bumper&＃39;, &＃39;bunch&＃39;, &＃39;bunny&＃39;, &＃39;burger&＃39;, &＃39;burito&＃39;, &＃39;burned&＃39;, &＃39;burns&＃39;, &＃39;burp&＃39;, &＃39;burpin&＃39;, &＃39;burps&＃39;, &＃39;burried&＃39;, &＃39;burryed&＃39;, &＃39;bus&＃39;, &＃39;buses&＃39;, &＃39;bust&＃39;, &＃39;busted&＃39;, &＃39;busy&＃39;, &＃39;but&＃39;, &＃39;butt&＃39;, &＃39;butter&＃39;, &＃39;butterscotch&＃39;, &＃39;button&＃39;, &＃39;buttons&＃39;, &＃39;buy&＃39;, &＃39;buying&＃39;, &＃39;bwahahahahahahahahahaha&＃39;, &＃39;by&＃39;, &＃39;byb&＃39;, &＃39;bye&＃39;, &＃39;byeee&＃39;, &＃39;byeeee&＃39;, &＃39;byeeeeeeee&＃39;, &＃39;byeeeeeeeeeeeee&＃39;, &＃39;byes&＃39;]

在Python解释器提示符下输入表达式range(10)。再尝试range(10, 20)&＃xff0c;range(10, 20, 2)和range(10, 20, -2)。在后续章节中我们将看到遮盖内置函数的多种用途。

>>> for i in range(10, 20, 2):

... print(i)

...

>>> for i in range(20, 10, -2):

... print(i)

...

使用text9.index()查找词sunset的索引值。你需要将这个词作为一个参数插入到圆括号之间。在尝试和出错的过程中&＃xff0c;在完整的句子中找到包含这个词的切片。

>>> text9.index(&＃39;sunset&＃39;)

629

使用链表加法、set和sorted操作&＃xff0c;计算句子sent1…sent8的词汇表。

>>> sorted(set(sent1 &＃43; sent2 &＃43; sent3 &＃43; sent4 &＃43; sent5 &＃43; sent6 &＃43; sent7 &＃43; sent8))

下面两行之间的差异是什么&＃xff1f;哪一个的值比较大&＃xff1f;其他文本也是同样情况吗&＃xff1f;

sorted(set([w.lower() for w in text1]))

sorted([w.lower() for w in set(text1)])

>>> len(sorted(set([w.lower() for w in text1])))

17231

>>> len(sorted([w.lower() for w in set(text1)]))

19317

# 第二个更大&＃xff0c;第二个的值应大于等于第一个的值&＃xff0c;因为在第二个中大小写不同的单词都会被保存下来。

w.isupper()和 not w.islower()这两个测试之间的差异是什么&＃xff1f;

w.isupper()返回的是w是否为全大写的字母

not w.islower()返回的是w是否全不是小写字母(可能包含数字等)

编写一个切片表达式提取text2中的最后两个词。

>>> text2[-2:]

[&＃39;THE&＃39;, &＃39;END&＃39;]

找出聊天语聊库(text5)中所有4个字母的词。使用频率分布函数(FreqDist)&＃xff0c;以频率从高到低显示这些词。

>>> FreqDist([w for w in text5 if len(w) &＃61;&＃61; 4])

FreqDist({&＃39;JOIN&＃39;: 1021, &＃39;PART&＃39;: 1016, &＃39;that&＃39;: 274, &＃39;what&＃39;: 183, &＃39;here&＃39;: 181, &＃39;....&＃39;: 170, &＃39;have&＃39;: 164, &＃39;like&＃39;: 156, &＃39;with&＃39;: 152, &＃39;chat&＃39;: 142, ...})

复习1.4中的条件循环。使用for和if语句组合循环遍历电影剧本《巨蟒和圣杯》(text6)中的词&＃xff0c;输出所有的大写词&＃xff0c;每行输出一个。

>>> for w in text6:

... if w.isupper():

... print(w)

...

SCENE

KING

ARTHUR

SOLDIER

ARTHUR

...

编写表达式并找出text6中所有符合下列条件的词。结果应该以词链表形式表示&＃xff1a;[‘word1’, ‘word2’…]。

以ize结尾。

>>> [w for w in text6 if w.endswith(&＃39;ize&＃39;)]

[]

包含字母z。

>>> [w for w in text6 if &＃39;z&＃39; in w]

[&＃39;zone&＃39;, &＃39;amazes&＃39;, &＃39;Fetchez&＃39;, &＃39;Fetchez&＃39;, &＃39;zoop&＃39;, &＃39;zoo&＃39;, &＃39;zhiv&＃39;, &＃39;frozen&＃39;, &＃39;zoosh&＃39;]

包含字母序列pt。

>>> [w for w in text6 if &＃39;pt&＃39; in w]

[&＃39;empty&＃39;, &＃39;aptly&＃39;, &＃39;Thpppppt&＃39;, &＃39;Thppt&＃39;, &＃39;Thppt&＃39;, &＃39;empty&＃39;, &＃39;Thppppt&＃39;, &＃39;temptress&＃39;, &＃39;temptation&＃39;, &＃39;ptoo&＃39;, &＃39;Chapter&＃39;, &＃39;excepting&＃39;, &＃39;Thpppt&＃39;]

除了首字母外是全部小写字母的词(即titlecase)。

>>> [w for w in text6 if w.istitle()]

[&＃39;Whoa&＃39;, &＃39;Halt&＃39;, &＃39;Who&＃39;, &＃39;It&＃39;, &＃39;I&＃39;, &＃39;Arthur&＃39;, &＃39;Uther&＃39;, &＃39;Pendragon&＃39;, &＃39;Camelot&＃39;, &＃39;King&＃39;, &＃39;Britons&＃39;, &＃39;Saxons&＃39;, &＃39;England&＃39;, &＃39;Pull&＃39;, &＃39;I&＃39;, &＃39;Patsy&＃39;, &＃39;We&＃39;, &＃39;Camelot&＃39;, &＃39;I&＃39;, &＃39;What&＃39;, &＃39;Ridden&＃39;, &＃39;Yes&＃39;...

定义sent为词链表[‘she’, ‘sells’, ‘sea’, ‘shells’, ‘by’, ‘the’, ‘sea’, ‘shore’]。编写代码执行以下任务。

输出所有sh开头的单词。

>>> [w for w in sent if w.startswith(&＃39;sh&＃39;)]

[&＃39;she&＃39;, &＃39;shells&＃39;, &＃39;shore&＃39;]

输出所有长度超过4个字符的词

>>> [w for w in sent if len(w) >&＃61; 4]

[&＃39;sells&＃39;, &＃39;shells&＃39;, &＃39;shore&＃39;]

下面的Python代码是做什么的&＃xff1f;sum([len(w) for w in text1])&＃xff0c;你可以用它来算出一个文本的平均字长吗&＃xff1f;

# 计算text1文本中所有单词的总长度

>>> sum([len(w) for w in text1]) / len(text1)

3.830411128023649

定义一个名为vocab_size(text)的函数&＃xff0c;以文本作为唯一的参数&＃xff0c;返回文本的词汇量。

>>> def vocab_size(text):

... return len(text)

...

>>> vocab_size(text1)

260819

定义一个函数percent(word, text),计算一个给定的词在文本中出现的频率&＃xff0c;结果以百分比表示。

>>> def percent(word, text):

... lst_len &＃61; len([w for w in text if w &＃61;&＃61; word])

... return &＃39;%.2f%%&＃39; % (lst_len / len(text))

...

>>> percent(&＃39;the&＃39;, text1)

&＃39;0.05%&＃39;

>>> percent(&＃39;and&＃39;, text1)

&＃39;0.02%&＃39;

我们一直在使用集合存储词汇表。试试下面的Python表达式&＃xff1a;set(sent3)

>>> set(sent3)

True

# sent3中的每一个元素是否都在text1中

# 可用于判断一个集合是否为另一个集合的子集

推荐阅读

select
在范围[0..n-1]中产生m个不同的随机数 - Generating m distinct random numbers in the range [0..n-1]

Ihavetwomethodsofgeneratingmdistinctrandomnumbersintherange[0..n-1]我有两种方法在范围[0.n-1]中生 ... [详细]

蜡笔小新 2024-11-13 09:49:14
future
如何更有效地提升对支持部门的协助与支撑？ - Enhancing Support for the Support Department: Strategies and Best Practices

尽管我们尽最大努力，任何软件开发过程中都难免会出现缺陷。为了更有效地提升对支持部门的协助与支撑，本文探讨了多种策略和最佳实践，旨在通过改进沟通、增强培训和支持流程来减少这些缺陷的影响，并提高整体服务质量和客户满意度。 ... [详细]

蜡笔小新 2024-11-07 06:55:33
select
在Android 4.4中从相册选择图片并获取其路径的方法详解

在Android 4.4系统中，通过使用 `Intent` 对象并设置动作 `ACTION_GET_CONTENT` 或 `ACTION_OPEN_DOCUMENT`，可以从相册中选择图片并获取其路径。具体实现时，需要为 `Intent` 添加相应的类别，并处理返回的 Uri 以提取图片的文件路径。此方法适用于需要从用户相册中选择图片的应用场景，能够确保兼容性和用户体验。 ... [详细]

蜡笔小新 2024-11-06 11:02:36
less
杜甫《喜晴》的两种英译比较

本文对比了杜甫《喜晴》的两种英文翻译版本：a. Pleased with Sunny Weather 和 b. Rejoicing in Clearing Weather。a 版由 alexcwlin 翻译并经 Adam Lam 编辑，b 版则由哈佛大学的宇文所安教授 (Prof. Stephen Owen) 翻译。 ... [详细]

蜡笔小新 2024-11-12 15:02:28
const
FFMpeg学习进阶：音频处理基础理论与重采样技术详解

在Android平台中，播放音频的采样率通常固定为44.1kHz，而录音的采样率则固定为8kHz。为了确保音频设备的正常工作，底层驱动必须预先设定这些固定的采样率。当上层应用提供的采样率与这些预设值不匹配时，需要通过重采样（resample）技术来调整采样率，以保证音频数据的正确处理和传输。本文将详细探讨FFMpeg在音频处理中的基础理论及重采样技术的应用。 ... [详细]

蜡笔小新 2024-11-09 13:46:55
match
计算机视觉领域介绍 | 自然语言驱动的跨模态行人重识别前沿技术综述（上篇）

本文介绍了计算机视觉领域的最新进展，特别是自然语言驱动的跨模态行人重识别技术。上篇内容详细探讨了该领域的基础理论、关键技术及当前的研究热点，为读者提供了全面的概述。 ... [详细]

蜡笔小新 2024-11-07 12:41:08
bit
使用JavaScript生成Java兼容的UUID代码实现与优化技巧

本文介绍了UUID（通用唯一标识符）的概念及其在JavaScript中生成Java兼容UUID的代码实现与优化技巧。UUID是一个128位的唯一标识符，广泛应用于分布式系统中以确保唯一性。文章详细探讨了如何利用JavaScript生成符合Java标准的UUID，并提供了多种优化方法，以提高生成效率和兼容性。 ... [详细]

蜡笔小新 2024-11-05 18:19:54
express
深入解析 Kubernetes 亲和性调度机制及其优化策略

在 Kubernetes 中，Pod 的调度通常由集群的自动调度策略决定，这些策略主要关注资源充足性和负载均衡。然而，在某些场景下，用户可能需要更精细地控制 Pod 的调度行为，例如将特定的服务（如 GitLab）部署到特定节点上，以提高性能或满足特定需求。本文深入解析了 Kubernetes 的亲和性调度机制，并探讨了多种优化策略，帮助用户实现更高效、更灵活的资源管理。 ... [详细]

蜡笔小新 2024-11-05 17:27:07
copy
CentOS 7 中配置开机自动挂载 NFS 的解决方案

本文详细介绍了在 CentOS 7 系统中配置 fstab 文件以实现开机自动挂载 NFS 共享目录的方法，并解决了常见的配置失败问题。 ... [详细]

蜡笔小新 2024-11-13 12:05:24
const
poj 3352 Road Construction

poj 3352 Road Construction ... [详细]

蜡笔小新 2024-11-12 11:24:39
php
WordPress Duplicator 0.4.4 版本存在跨站脚本攻击漏洞分析

在对WordPress Duplicator插件0.4.4版本的安全评估中，发现其存在跨站脚本（XSS）攻击漏洞。此漏洞可能被利用进行恶意操作，建议用户及时更新至最新版本以确保系统安全。测试方法仅限于安全研究和教学目的，使用时需自行承担风险。漏洞编号：HTB23162。 ... [详细]

蜡笔小新 2024-11-10 13:16:43
php
优化后的标题：深入探讨网关安全：将微服务升级为OAuth2资源服务器的最佳实践

本文深入探讨了如何将微服务升级为OAuth2资源服务器，以订单服务为例，详细介绍了在POM文件中添加 `spring-cloud-starter-oauth2` 依赖，并配置Spring Security以实现对微服务的保护。通过这一过程，不仅增强了系统的安全性，还提高了资源访问的可控性和灵活性。文章还讨论了最佳实践，包括如何配置OAuth2客户端和资源服务器，以及如何处理常见的安全问题和错误。 ... [详细]

蜡笔小新 2024-11-09 16:13:27
byte
Linux网络配置详解：Firewalld与Netfilter机制解析及iptables应用

在Linux系统中，网络配置是至关重要的任务之一。本文详细解析了Firewalld和Netfilter机制，并探讨了iptables的应用。通过使用`ip addr show`命令来查看网卡IP地址（需要安装`iproute`包），当网卡未分配IP地址或处于关闭状态时，可以通过`ip link set`命令进行配置和激活。此外，文章还介绍了如何利用Firewalld和iptables实现网络流量控制和安全策略管理，为系统管理员提供了实用的操作指南。 ... [详细]

蜡笔小新 2024-11-09 12:37:55
less
在Ubuntu系统中安装Android SDK的详细步骤及解决“Failed to fetch URL https://dlssl.google.com/”错误的方法

在Ubuntu 11.10 x64系统中安装Android SDK的详细步骤，包括配置环境变量和解决“Failed to fetch URL https://dlssl.google.com/”错误的方法。本文详细介绍了如何在该系统上顺利安装并配置Android SDK，确保开发环境的稳定性和高效性。此外，还提供了解决网络连接问题的实用技巧，帮助用户克服常见的安装障碍。 ... [详细]

蜡笔小新 2024-11-09 03:04:54
php
Insufficient Memory Allocation: Unable to Reserve 1572864KB for Object Heap

该问题可能由守护进程配置不当引起，例如未识别的JVM选项或内存分配不足。建议检查并调整JVM参数，确保为对象堆预留足够的内存空间（至少1572864KB）。此外，还可以优化应用程序的内存使用，减少不必要的内存消耗。 ... [详细]

蜡笔小新 2024-11-08 20:06:16

笑竹舞

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章