python汉译英调用Google翻译

作者：0度的浪漫神探 | 来源：互联网 | 2023-10-14 18:39

一：使用正则表达式提取翻译结果#-*-coding:utf-8-*-__author__zlingh__date__Date:20140128importre

一：使用正则表达式提取翻译结果

# -*- coding: utf-8 -*-
__author__ = "zlingh"
__date__ = "Date: 2014/01/28"
import re
import urllib,urllib2
#urllib:
#urllib2: The urllib2 module defines functions and classes which help in opening
#URLs (mostly HTTP) in a complex world — basic and digest authentication,
#redirections, COOKIEs and more.
def translate(text): ‘‘‘模拟浏览器的行为，向Google Translate的主页发送数据，然后抓取翻译结果 ‘‘‘ #text 输入要翻译的英文句子
text_1=text
#values={‘hl‘:‘zh-CN‘,‘ie‘:‘UTF-8‘,‘text‘:text_1,‘langpair‘:"‘en‘|‘zh-CN‘"}
#‘langpair‘:‘en‘|‘zh-CN‘从简体中文英语
values={‘hl‘:‘en‘,‘ie‘:‘UTF-8‘,‘text‘:text_1,‘langpair‘:"‘zh-CN‘|‘en‘"}
url=‘http://translate.google.cn/translate_t‘
data = urllib.urlencode(values)
req = urllib2.Request(url,data)
#模拟一个浏览器
browser=‘Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 2.0.50727)‘
req.add_header(‘User-Agent‘,browser)
#向谷歌翻译发送请求
respOnse= urllib2.urlopen(req)
#读取返回页面
html=response.read()
#从返回页面中过滤出翻译后的文本
#使用正则表达式匹配
#翻译后的文本是‘TRANSLATED_TEXT=‘等号后面的内容
#.*? non-greedy or minimal fashion
#(?<=...)Matches if the current position in the string is preceded
#by a match for ... that ends at the current position
p=re.compile(r"(?<=TRANSLATED_TEXT=).*?;")
m=p.search(html)
text_2=m.group(0).strip(‘;‘)
#open(‘tmpp.txt‘,‘w‘).write(html)
return text_2
if __name__ == "__main__":
#text_1 从文件的读取
#text_1=open(‘c:\\text.txt‘,‘r‘).read()
text_1=‘北京天安门‘+‘,‘+‘故宫‘+‘,‘+‘长城‘+‘,‘+‘社会主义‘
#text_1=‘速度‘
print(‘%s‘ % text_1.decode(‘utf8‘))
text_2=translate(text_1).strip("‘")
print(‘%s‘ % text_2.decode(‘utf8‘))

二：利用xpath提取

在批量抓取网页内容时，我经常采用的做法是：1、得到目标内容在网页中的位置，即xpath路径；2、批量下载网页，然后利用xpath，取出每个网页中所需要的内容。

在这里，我们利用python模块lxml。

以谷歌翻译为例，我要批量抓取翻译内容，那么首先我要知道译文的xpath，代码如下：

[python] view
plaincopy

import urllib,urllib2
import lxml
import lxml.html as HTML
import lxml.etree as etree
#设置url参数
lin = ‘en‘
lout = ‘zh-CN‘
text = ‘my apple 123‘
values = {‘hl‘:‘zh-CN‘, ‘ie‘:‘UTF-8‘, ‘text‘:text, ‘sl‘:lin, ‘tl‘:lout}
url = ‘http://translate.google.cn/translate_t‘
data = urllib.urlencode(values)
req = urllib2.Request(url, data)
req.add_header(‘User-Agent‘, "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 2.0.50727)")
response = urllib2.urlopen(req, timeout = 10)
shtml = response.read()
response.close()
hdoc = HTML.fromstring(shtml)
htree = etree.ElementTree(hdoc)
#依次打印出hdoc每个元素的文本内容和xpath路径
for t in hdoc.iter():
print htree.getpath(t)
print t.text_content()
raw_input()

运行这段代码，发现译文“我的苹果123”的xpath为“/html/body/div[2]/div[2]/div[2]/div/div/div[2]/div”。

现在可以利用xpath取出译文内容。以下方法接受英文原文，然后调用google translate，返回中文译文。代码如下：

[python] view
plaincopy

# -*- coding:utf-8 -*-
import urllib,urllib2
import lxml
import lxml.html as HTML
import lxml.etree as etree
def g_trans(str_text):
lin = ‘en‘
lout = ‘zh-CN‘
values = {‘hl‘:‘zh-CN‘, ‘ie‘:‘UTF-8‘, ‘text‘:str_text, ‘sl‘:lin, ‘tl‘:lout}
url = ‘http://translate.google.cn/translate_t‘
data = urllib.urlencode(values)
req = urllib2.Request(url, data)
req.add_header(‘User-Agent‘, "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 2.0.50727)")
response = urllib2.urlopen(req, timeout = 10)
htree = HTML.parse(response)
response.close()
#注意，此处返回的是一个list
emts = htree.xpath(‘/html/body/div[2]/div[2]/div[2]/div/div/div[2]/div‘)
return emts[0].text_content()

三：解析div标签提取结果

import urllib,urllib2
import time
from sgmllib import SGMLParser
class URLLister(SGMLParser):
def __init__(self, result):
SGMLParser.__init__(self)
self.result = result
self.open = False
def start_div(self, attrs):
id = [v for k, v in attrs if k==‘id‘]
if ‘tts_button‘ in id:
self.open = True
def handle_data(self, text):
if self.open:
self.result.append(text)
self.open = False
def Translate(text, f, t):
MySentence = []
values = {‘hl‘:‘%s‘%t,‘ie‘:‘UTF-8‘,‘text‘:text,‘langpair‘:"%s|%s"%(f, t)}
url = ‘http://translate.google.cn/translate_t‘
data = urllib.urlencode(values)
req = urllib2.Request(url, data)
req.add_header(‘User-Agent‘, "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 2.0.50727)")
respOnse= urllib2.urlopen(req)
parser = URLLister(MySentence)
parser.feed(response.read())
parser.close()
return MySentencedef TranlateForIgnorException(text):
excpCnt = 0
while 1:
try:
arStr = Translate(langStr, "en", "zh-CN")[0]
break
except:
excpCnt = excpCnt + 1
if excpCnt > 10:
break
time.sleep(2)
return arStr
if __name__ == "__main__":
#ArStr = TranlateForIgnorException("This")
b=‘你好‘
c=‘hello‘
a=Translate(c,‘en‘,‘zh-CN‘)
print a[0].decode(‘utf8‘)

另外：上面提取网页不好发现的话，通过：http://translate.google.cn/?hl=en#zh-CN/en/饼干，网页来提取也可以。

下面是网上一个个很牛的项目，很方便，但是中文翻译成英文好像有点问题，我没有调试出来：

Goslate 免费谷歌翻译
http://zhuoqiang.me/goslate-free-google-translate-api.html

推荐阅读

shell
Linux 系统启动故障排除指南：MBR 和 GRUB 问题

本文详细介绍了 Linux 系统启动过程中常见的 MBR 扇区和 GRUB 引导程序故障及其解决方案，涵盖从备份、模拟故障到恢复的具体步骤。 ... [详细]

蜡笔小新 2024-12-27 20:40:29
js
深入理解 Oracle 存储函数：计算员工年收入

本文介绍如何使用 Oracle 存储函数查询特定员工的年收入。我们将详细解释存储函数的创建过程，并提供完整的代码示例。 ... [详细]

蜡笔小新 2024-12-28 09:49:42
js
2018回顾与2019展望

本文总结了2018年的关键成就，包括职业变动、购车、考取驾照等重要事件，并分享了读书、工作、家庭和朋友方面的感悟。同时，展望2019年，制定了健康、软实力提升和技术学习的具体目标。 ... [详细]

蜡笔小新 2024-12-28 09:10:26
js
四载相伴，与51CTO学院共成长

在计算机技术的学习道路上，51CTO学院以其专业性和专注度给我留下了深刻印象。从2012年接触计算机到2014年开始系统学习网络技术和安全领域，51CTO学院始终是我信赖的学习平台。 ... [详细]

蜡笔小新 2024-12-28 08:20:07
js
CSS 布局：液态三栏混合宽度布局

本文介绍了如何使用 CSS 实现液态的三栏布局，其中各栏具有不同的宽度设置。通过调整容器和内容区域的属性，可以实现灵活且响应式的网页设计。 ... [详细]

蜡笔小新 2024-12-28 02:40:28
js
通过类型和标签选择元素

本文介绍了如何使用jQuery根据元素的类型（如复选框）和标签名（如段落）来获取DOM对象。这有助于更高效地操作网页中的特定元素。 ... [详细]

蜡笔小新 2024-12-27 19:44:14
js
Xcode 中多行代码缩进技巧

本文介绍如何在 Xcode 中使用快捷键和菜单命令对多行代码进行缩进，包括右缩进和左缩进的具体操作方法。 ... [详细]

蜡笔小新 2024-12-27 17:52:34
ip
在Linux系统中配置并启动ActiveMQ

本文详细介绍了如何在Linux环境中安装和配置ActiveMQ，包括端口开放及防火墙设置。通过本文，您可以掌握完整的ActiveMQ部署流程，确保其在网络环境中正常运行。 ... [详细]

蜡笔小新 2024-12-27 14:38:54
js
深入理解OAuth认证机制

本文介绍了OAuth认证协议的核心概念及其工作原理。OAuth是一种开放标准，旨在为第三方应用提供安全的用户资源访问授权，同时确保用户的账户信息（如用户名和密码）不会暴露给第三方。 ... [详细]

蜡笔小新 2024-12-28 12:07:46
js
国内BI工具迎战国际巨头Tableau，稳步崛起

尽管商业智能（BI）工具在中国的普及程度尚不及国际市场，但近年来，随着本土企业的持续创新和市场推广，国内主流BI工具正逐渐崭露头角。面对国际品牌如Tableau的强大竞争，国内BI工具通过不断优化产品和技术，赢得了越来越多用户的认可。 ... [详细]

蜡笔小新 2024-12-28 11:12:44
js
深入理解Cookie与Session会话管理

本文详细介绍了如何通过HTTP响应和请求处理浏览器的Cookie信息，以及如何创建、设置和管理Cookie。同时探讨了会话跟踪技术中的Session机制，解释其原理及应用场景。 ... [详细]

蜡笔小新 2024-12-27 18:20:43
shell
Linux 自动化安装脚本详解

本文介绍了一款用于自动化部署 Linux 服务的 Bash 脚本。该脚本不仅涵盖了基本的文件复制和目录创建，还处理了系统服务的配置和启动，确保在多种 Linux 发行版上都能顺利运行。 ... [详细]

蜡笔小新 2024-12-27 16:33:32
js
如何在WPS Office for Mac中调整Word文档的文字排列方向

本文将详细介绍如何使用最新版WPS Office for Mac调整Word文档中的文字排列方向。通过这些步骤，用户可以轻松更改文本的水平或垂直排列方式，以满足不同的排版需求。 ... [详细]

蜡笔小新 2024-12-27 12:34:14
js
存储器层次结构、随机访问存储器与数据存取机制

理解存储器的层次结构有助于程序员优化程序性能，通过合理安排数据在不同层级的存储位置，提升CPU的数据访问速度。本文详细探讨了静态随机访问存储器（SRAM）和动态随机访问存储器（DRAM）的工作原理及其应用场景，并介绍了存储器模块中的数据存取过程及局部性原理。 ... [详细]

蜡笔小新 2024-12-27 12:06:47
js
几何画板展示电场线与等势面的交互关系

几何画板是一款功能强大的物理教学软件，具备丰富的绘图和度量工具。它不仅能够模拟物理实验过程，还能通过定量分析揭示物理现象背后的规律，尤其适用于难以在实际实验中展示的内容。本文将介绍如何使用几何画板演示电场线与等势面之间的关系。 ... [详细]

蜡笔小新 2024-12-27 10:46:07

0度的浪漫神探

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章