热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

python汉译英调用Google翻译

一:使用正则表达式提取翻译结果#-*-coding:utf-8-*-__author__zlingh__date__Date:20140128importre

一:使用正则表达式提取翻译结果


# -*- coding: utf-8 -*-
__author__ = "zlingh"
__date__ = "Date: 2014/01/28"
import re
import urllib,urllib2
#urllib:
#urllib2: The urllib2 module defines functions and classes which help in opening
#URLs (mostly HTTP) in a complex world — basic and digest authentication,
#redirections, COOKIEs and more.
def translate(text): ‘‘‘模拟浏览器的行为,向Google Translate的主页发送数据,然后抓取翻译结果 ‘‘‘ #text 输入要翻译的英文句子
text_1=text
#values={‘hl‘:‘zh-CN‘,‘ie‘:‘UTF-8‘,‘text‘:text_1,‘langpair‘:"‘en‘|‘zh-CN‘"}
#‘langpair‘:‘en‘|‘zh-CN‘从简体中文英语
values={‘hl‘:‘en‘,‘ie‘:‘UTF-8‘,‘text‘:text_1,‘langpair‘:"‘zh-CN‘|‘en‘"}
url=‘http://translate.google.cn/translate_t‘
data = urllib.urlencode(values)
req = urllib2.Request(url,data)
#模拟一个浏览器
browser=‘Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 2.0.50727)‘
req.add_header(‘User-Agent‘,browser)
#向谷歌翻译发送请求
respOnse= urllib2.urlopen(req)
#读取返回页面
html=response.read()
#从返回页面中过滤出翻译后的文本
#使用正则表达式匹配
#翻译后的文本是‘TRANSLATED_TEXT=‘等号后面的内容
#.*? non-greedy or minimal fashion
#(?<=...)Matches if the current position in the string is preceded
#by a match for ... that ends at the current position
p=re.compile(r"(?<=TRANSLATED_TEXT=).*?;")
m=p.search(html)
text_2=m.group(0).strip(‘;‘)
#open(‘tmpp.txt‘,‘w‘).write(html)
return text_2
if __name__ == "__main__":
#text_1 从文件的读取
#text_1=open(‘c:\\text.txt‘,‘r‘).read()
text_1=‘北京天安门‘+‘,‘+‘故宫‘+‘,‘+‘长城‘+‘,‘+‘社会主义‘
#text_1=‘速度‘
print(‘%s‘ % text_1.decode(‘utf8‘))
text_2=translate(text_1).strip("‘")
print(‘%s‘ % text_2.decode(‘utf8‘))

二:利用xpath提取


在批量抓取网页内容时,我经常采用的做法是:1、得到目标内容在网页中的位置,即xpath路径;2、批量下载网页,然后利用xpath,取出每个网页中所需要的内容。

     在这里,我们利用python模块lxml。

     以谷歌翻译为例,我要批量抓取翻译内容,那么首先我要知道译文的xpath,代码如下:

    




[python] view
plaincopy






  1. import urllib,urllib2  

  2. import lxml  

  3. import lxml.html as HTML  

  4. import lxml.etree as etree  

  5.   

  6. #设置url参数  

  7. lin = ‘en‘  

  8. lout = ‘zh-CN‘  

  9. text = ‘my apple 123‘  

  10. values = {‘hl‘:‘zh-CN‘‘ie‘:‘UTF-8‘‘text‘:text, ‘sl‘:lin, ‘tl‘:lout}  

  11. url = ‘http://translate.google.cn/translate_t‘  

  12. data = urllib.urlencode(values)  

  13. req = urllib2.Request(url, data)  

  14. req.add_header(‘User-Agent‘"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 2.0.50727)")  

  15. response = urllib2.urlopen(req, timeout = 10)  

  16. shtml = response.read()  

  17. response.close()  

  18.   

  19. hdoc = HTML.fromstring(shtml)  

  20. htree = etree.ElementTree(hdoc)  

  21.   

  22. #依次打印出hdoc每个元素的文本内容和xpath路径  

  23. for t in hdoc.iter():  

  24.     print htree.getpath(t)  

  25.     print t.text_content()  

  26.     raw_input()  

 

     运行这段代码,发现译文“我的苹果123”的xpath为“/html/body/div[2]/div[2]/div[2]/div/div/div[2]/div”。

     现在可以利用xpath取出译文内容。以下方法接受英文原文,然后调用google translate,返回中文译文。代码如下:

   




[python] view
plaincopy






  1. # -*- coding:utf-8 -*-  

  2.   

  3. import urllib,urllib2  

  4. import lxml  

  5. import lxml.html as HTML  

  6. import lxml.etree as etree  

  7.   

  8. def g_trans(str_text):  

  9.     lin = ‘en‘  

  10.     lout = ‘zh-CN‘  

  11.     values = {‘hl‘:‘zh-CN‘‘ie‘:‘UTF-8‘‘text‘:str_text, ‘sl‘:lin, ‘tl‘:lout}  

  12.     url = ‘http://translate.google.cn/translate_t‘  

  13.     data = urllib.urlencode(values)  

  14.     req = urllib2.Request(url, data)  

  15.     req.add_header(‘User-Agent‘"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 2.0.50727)")  

  16.     response = urllib2.urlopen(req, timeout = 10)  

  17.     htree = HTML.parse(response)  

  18.     response.close()  

  19.     #注意,此处返回的是一个list  

  20.     emts = htree.xpath(‘/html/body/div[2]/div[2]/div[2]/div/div/div[2]/div‘)  

  21.     return emts[0].text_content()  


三:解析div标签提取结果

import urllib,urllib2
import time
from sgmllib import SGMLParser
class URLLister(SGMLParser):
def __init__(self, result):
SGMLParser.__init__(self)
self.result = result
self.open = False
def start_div(self, attrs):
id = [v for k, v in attrs if k==‘id‘]
if ‘tts_button‘ in id:
self.open = True
def handle_data(self, text):
if self.open:
self.result.append(text)
self.open = False
def Translate(text, f, t):
MySentence = []
values = {‘hl‘:‘%s‘%t,‘ie‘:‘UTF-8‘,‘text‘:text,‘langpair‘:"%s|%s"%(f, t)}
url = ‘http://translate.google.cn/translate_t‘
data = urllib.urlencode(values)
req = urllib2.Request(url, data)
req.add_header(‘User-Agent‘, "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 2.0.50727)")
respOnse= urllib2.urlopen(req)
parser = URLLister(MySentence)
parser.feed(response.read())
parser.close()
return MySentencedef TranlateForIgnorException(text):
excpCnt = 0
while 1:
try:
arStr = Translate(langStr, "en", "zh-CN")[0]
break
except:
excpCnt = excpCnt + 1
if excpCnt > 10:
break
time.sleep(2)
return arStr
if __name__ == "__main__":
#ArStr = TranlateForIgnorException("This")
b=‘你好‘
c=‘hello‘
a=Translate(c,‘en‘,‘zh-CN‘)
print a[0].decode(‘utf8‘)

另外:上面提取网页不好发现的话,通过:http://translate.google.cn/?hl=en#zh-CN/en/饼干,网页来提取也可以。

下面是网上一个个很牛的项目,很方便,但是中文翻译成英文好像有点问题,我没有调试出来:

Goslate 免费谷歌翻译
http://zhuoqiang.me/goslate-free-google-translate-api.html



推荐阅读
  • Linux 系统启动故障排除指南:MBR 和 GRUB 问题
    本文详细介绍了 Linux 系统启动过程中常见的 MBR 扇区和 GRUB 引导程序故障及其解决方案,涵盖从备份、模拟故障到恢复的具体步骤。 ... [详细]
  • 深入理解 Oracle 存储函数:计算员工年收入
    本文介绍如何使用 Oracle 存储函数查询特定员工的年收入。我们将详细解释存储函数的创建过程,并提供完整的代码示例。 ... [详细]
  • 本文总结了2018年的关键成就,包括职业变动、购车、考取驾照等重要事件,并分享了读书、工作、家庭和朋友方面的感悟。同时,展望2019年,制定了健康、软实力提升和技术学习的具体目标。 ... [详细]
  • 在计算机技术的学习道路上,51CTO学院以其专业性和专注度给我留下了深刻印象。从2012年接触计算机到2014年开始系统学习网络技术和安全领域,51CTO学院始终是我信赖的学习平台。 ... [详细]
  • CSS 布局:液态三栏混合宽度布局
    本文介绍了如何使用 CSS 实现液态的三栏布局,其中各栏具有不同的宽度设置。通过调整容器和内容区域的属性,可以实现灵活且响应式的网页设计。 ... [详细]
  • 本文介绍了如何使用jQuery根据元素的类型(如复选框)和标签名(如段落)来获取DOM对象。这有助于更高效地操作网页中的特定元素。 ... [详细]
  • 本文介绍如何在 Xcode 中使用快捷键和菜单命令对多行代码进行缩进,包括右缩进和左缩进的具体操作方法。 ... [详细]
  • 在Linux系统中配置并启动ActiveMQ
    本文详细介绍了如何在Linux环境中安装和配置ActiveMQ,包括端口开放及防火墙设置。通过本文,您可以掌握完整的ActiveMQ部署流程,确保其在网络环境中正常运行。 ... [详细]
  • 深入理解OAuth认证机制
    本文介绍了OAuth认证协议的核心概念及其工作原理。OAuth是一种开放标准,旨在为第三方应用提供安全的用户资源访问授权,同时确保用户的账户信息(如用户名和密码)不会暴露给第三方。 ... [详细]
  • 国内BI工具迎战国际巨头Tableau,稳步崛起
    尽管商业智能(BI)工具在中国的普及程度尚不及国际市场,但近年来,随着本土企业的持续创新和市场推广,国内主流BI工具正逐渐崭露头角。面对国际品牌如Tableau的强大竞争,国内BI工具通过不断优化产品和技术,赢得了越来越多用户的认可。 ... [详细]
  • 深入理解Cookie与Session会话管理
    本文详细介绍了如何通过HTTP响应和请求处理浏览器的Cookie信息,以及如何创建、设置和管理Cookie。同时探讨了会话跟踪技术中的Session机制,解释其原理及应用场景。 ... [详细]
  • 本文介绍了一款用于自动化部署 Linux 服务的 Bash 脚本。该脚本不仅涵盖了基本的文件复制和目录创建,还处理了系统服务的配置和启动,确保在多种 Linux 发行版上都能顺利运行。 ... [详细]
  • 如何在WPS Office for Mac中调整Word文档的文字排列方向
    本文将详细介绍如何使用最新版WPS Office for Mac调整Word文档中的文字排列方向。通过这些步骤,用户可以轻松更改文本的水平或垂直排列方式,以满足不同的排版需求。 ... [详细]
  • 理解存储器的层次结构有助于程序员优化程序性能,通过合理安排数据在不同层级的存储位置,提升CPU的数据访问速度。本文详细探讨了静态随机访问存储器(SRAM)和动态随机访问存储器(DRAM)的工作原理及其应用场景,并介绍了存储器模块中的数据存取过程及局部性原理。 ... [详细]
  • 几何画板展示电场线与等势面的交互关系
    几何画板是一款功能强大的物理教学软件,具备丰富的绘图和度量工具。它不仅能够模拟物理实验过程,还能通过定量分析揭示物理现象背后的规律,尤其适用于难以在实际实验中展示的内容。本文将介绍如何使用几何画板演示电场线与等势面之间的关系。 ... [详细]
author-avatar
0度的浪漫神探
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有