热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

使用python操作solr

Python:2.7solr:5.1使用Java的同学可以使用solrj操作solr,但是python就没有太好的操作solr的模块了。虽然也能找到几个,例如solrpy,但是由于年久失修,基本不能使
Python:2.7

solr:5.1


使用Java的同学可以使用solrj操作solr,但是python就没有太好的操作solr的模块了。虽然也能找到几个,例如solrpy,但是由于年久失修,基本不能使用。

如果是对solr进行查询操作,其实非常简单,只需要完成一次get请求就可以了,最初接触python时,就是在浏览器里进行查询操作。

既然没有太好用的模块,就自己摸索着写一个吧,只需能完成工作中的特定工作内容就可以了。

对solr索引的添加,删除,可以发送post请求。post的内容呢,是xml格式的。例如4  将这段内容post到

solr服务器,服务器那边就会进行新增处理了,但是这个时候你还无法搜索到,因为还缺少一个,把这个也post过去后,服务器才会让之前的更新生效,delete也一样的简单,看源码就了解了。

你的core的地址如果是这样的:http://localhost:8080:/solr/user  那么我们最终访问的网址是http://localhost:8080:/solr/user/update/ 

我这里调用addDoc时,是每三万条提交一次,如果每个doc都提交,那么每次都需要进行http连接,很浪费性能的,但是呢,这里也有一个隐患,那就是tomcat服务器一次最大能够处理的post请求如果小于我们实际提交的请求,就会出错。这里说的能处理的最大请求不是指doc的数量,而是post到服务器的数据的大小。这和浏览器对url的长度有限制一样,其实服务器对post请求的实际传输数据的大小也是有限制的。具体的限制可以进行配置,不过我没有在自己的tomcat配置里找到,希望它永远不会超过那个默认配置。。。。。

[python] view plain copy
  1. #coding=utf-8  
  2. ''''' 
  3. Created on 2015-10-9 
  4. Solr5.1亲测可行 
  5. @author: kwsy2015 
  6. '''  
  7. import urllib2  
  8. from xml.sax.saxutils import escape, quoteattr  
  9. class MySolrPy():  
  10.     def __init__(self,solrurl):  
  11.         self.solrurl = solrurl+'/update/'  
  12.         print self.solrurl  
  13.         self.docs = []  
  14.         self.size = 0  
  15.     #添加新的文档      
  16.     def add(self,doc):  
  17.         self.docs.append(doc)  
  18.         self.size += 1  
  19.         if self.size>=30000:  
  20.             print self.size  
  21.             self.commit()       
  22.             self.docs = []  
  23.             self.size = 0  
  24.     #提交数据          
  25.     def _commit(self,data):  
  26.         requestAdd = urllib2.Request(  
  27.                           url=self.solrurl,  
  28.                           headers={'Content-type':'text/xml; charset=utf-8'},  
  29.                           )  
  30.         requestCommit = urllib2.Request(  
  31.                           url=self.solrurl,  
  32.                           headers={'Content-type':'text/xml'},  
  33.                           )  
  34.            
  35.           
  36.         opener = urllib2.build_opener(urllib2.HTTPCOOKIEProcessor())  
  37.         responseAdd = opener.open(requestAdd,data)  
  38.           
  39.         responseCommit = opener.open(requestCommit,'')  
  40.           
  41.     #根据指定的id删除索引    
  42.     def delDoc(self,id):  
  43.         lst = [u'']  
  44.         lst.append('%s' % (escape(unicode(id))))  
  45.         lst.append(u'')  
  46.         data = ''.join(lst)  
  47.         self._commit(data)  
  48.     #删除所有数据     
  49.     def delAll(self):  
  50.         delCommond = '*:*'  
  51.         self._commit(delCommond)  
  52.     #用于新增索引时提交数据     
  53.     def commit(self):  
  54.         lst = [u'']  
  55.           
  56.         for doc in self.docs:  
  57.             newdoc = self.packagingDoc(lst, doc)  
  58.         lst.append(u'')  
  59.         data = ''.join(lst).encode('utf-8')  
  60.         self._commit(data)  
  61.     #包装数据  
  62.     def packagingDoc(self,lst, doc):  
  63.           
  64.         lst.append(u'')  
  65.         for k,v in doc.items():      
  66.             lst.append('%s' % (  
  67.                     (quoteattr(k),  
  68.                     escape(unicode(v)))))  
  69.         lst.append('')  

使用的例子

[python] view plain copy
  1. #coding=utf-8  
  2. ''''' 
  3. Created on 2015-10-9 
  4.  
  5. @author: kwsy2015 
  6. '''  
  7. import pymongo  
  8. from bson import ObjectId  
  9. from pymongo import MongoClient  
  10. from WebUser.MySolrPy import MySolrPy  
  11. #连接数据库  
  12. client = MongoClient('localhost'27017)  
  13. #获得一个database  
  14. db = client.webuser  
  15. #获得一个collection  
  16. coll = db.userinfo  
  17. count = 0  
  18. docs = coll.find()  
  19. msp =  MySolrPy('http://localhost:8080/solr/emailSolr')  
  20. msp.delDoc(3)  
  21. for doc in docs:  
  22.     count += 1  
  23.     bean = {  
  24.             'id':count,  
  25.             'email_ik':doc['emailLink'],  
  26.             'email_s':doc['email'],  
  27.             'namen_s':doc['name'],  
  28.             'passwordn_s':doc['password'],  
  29.             'webnamen_s':doc['webname']            
  30.             }  
  31.     msp.add(bean)  
  32.       
  33.     if count>100000:  
  34.         break  
  35. msp.commit()  
  36. print 'ok'

推荐阅读
  • 在Linux环境下编译安装Heartbeat时,常遇到依赖库缺失的问题。为确保顺利安装,建议预先通过yum安装必要的开发库,如glib2-devel、libtool-ltdl-devel、net-snmp-devel、bzip2-devel和ncurses-devel等。这些库是编译过程中不可或缺的组件,能够有效避免编译错误,确保Heartbeat的稳定运行。 ... [详细]
  • 进程(Process)是指计算机中程序对特定数据集的一次运行活动,是系统资源分配与调度的核心单元,构成了操作系统架构的基础。在早期以进程为中心的计算机体系结构中,进程被视为程序的执行实例,其状态和控制信息通过任务描述符(task_struct)进行管理和维护。本文将深入探讨进程的概念及其关键数据结构task_struct,解析其在操作系统中的作用和实现机制。 ... [详细]
  • 本课程详细介绍了如何使用Python Flask框架从零开始构建鱼书应用,涵盖高级编程技巧和实战项目。通过视频教学,学员将学习到Flask的高效用法,包括数据库事务处理和书籍交易模型的实现。特别感谢AI资源网提供的课程下载支持。 ... [详细]
  • 探讨 `org.openide.windows.TopComponent.componentOpened()` 方法的应用及其代码实例分析 ... [详细]
  • 成功实现Asp.Net MVC3网站与MongoDB数据库的高效集成
    我们成功地构建了一个基于Asp.NET MVC3框架的网站,并实现了与MongoDB数据库的高效集成。此次更新不仅完善了基本的创建和显示功能,还全面实现了数据的增删改查操作。在创建功能方面,我们修复了之前代码中的错误,确保每个属性都能正确生成。此外,我们还对数据模型进行了优化,以提高系统的性能和稳定性。 ... [详细]
  • HTTP协议作为互联网通信的基础,其重要性不言而喻。相比JDK自带的URLConnection,HttpClient不仅提升了易用性和灵活性,还在性能、稳定性和安全性方面进行了显著优化。本文将深入解析HttpClient的使用方法与技巧,帮助开发者更好地掌握这一强大的工具。 ... [详细]
  • 深入解析零拷贝技术(Zerocopy)及其应用优势
    零拷贝技术(Zero-copy)是Netty框架中的一个关键特性,其核心在于减少数据在操作系统内核与用户空间之间的传输次数。通过避免不必要的内存复制操作,零拷贝显著提高了数据传输的效率和性能。本文将深入探讨零拷贝的工作原理及其在实际应用中的优势,包括降低CPU负载、减少内存带宽消耗以及提高系统吞吐量等方面。 ... [详细]
  • 本文深入探讨了IO复用技术的原理与实现,重点分析了其在解决C10K问题中的关键作用。IO复用技术允许单个进程同时管理多个IO对象,如文件、套接字和管道等,通过系统调用如`select`、`poll`和`epoll`,高效地处理大量并发连接。文章详细介绍了这些技术的工作机制,并结合实际案例,展示了它们在高并发场景下的应用效果。 ... [详细]
  • Android ListView 自定义 CheckBox 实现列表项多选功能详解
    本文详细介绍了在Android开发中如何在ListView的每一行添加CheckBox,以实现列表项的多选功能。用户不仅可以通过点击复选框来选择项目,还可以通过点击列表的任意一行来完成选中操作,提升了用户体验和操作便捷性。同时,文章还探讨了相关的事件处理机制和布局优化技巧,帮助开发者更好地实现这一功能。 ... [详细]
  • 在Unity中进行3D建模的全面指南,详细介绍了市场上三种主要的3D建模工具:Blender 3D、Maya和3ds Max。每种工具的特点、优势及其在Unity开发中的应用将被深入探讨,帮助开发者选择最适合自己的建模软件。 ... [详细]
  • Android 图像色彩处理技术详解
    本文详细探讨了 Android 平台上的图像色彩处理技术,重点介绍了如何通过模仿美图秀秀的交互方式,利用 SeekBar 实现对图片颜色的精细调整。文章展示了具体的布局设计和代码实现,帮助开发者更好地理解和应用图像处理技术。 ... [详细]
  • 结语 | 《探索二进制世界:软件安全与逆向分析》读书笔记:深入理解二进制代码的逆向工程方法
    结语 | 《探索二进制世界:软件安全与逆向分析》读书笔记:深入理解二进制代码的逆向工程方法 ... [详细]
  • Spring框架入门指南:专为新手打造的详细学习笔记
    Spring框架是Java Web开发中广泛应用的轻量级应用框架,以其卓越的功能和出色的性能赢得了广大开发者的青睐。本文为初学者提供了详尽的学习指南,涵盖基础概念、核心组件及实际应用案例,帮助新手快速掌握Spring框架的核心技术与实践技巧。 ... [详细]
  • 如何在Java中高效构建WebService
    本文介绍了如何利用XFire框架在Java中高效构建WebService。XFire是一个轻量级、高性能的Java SOAP框架,能够简化WebService的开发流程。通过结合MyEclipse集成开发环境,开发者可以更便捷地进行项目配置和代码编写,从而提高开发效率。此外,文章还详细探讨了XFire的关键特性和最佳实践,为读者提供了实用的参考。 ... [详细]
  • 如何构建基于Spring MVC框架的Java Web应用项目
    在构建基于Spring MVC框架的Java Web应用项目时,首先应创建一个新的动态Web项目。接着,需将必要的JAR包导入至WebContent/WEB-INF/lib目录下,确保包括Spring核心库及相关依赖。如遇缺失的JAR包,可向社区求助或通过Maven等工具自动下载。正确配置后,即可开始搭建应用结构与功能模块。 ... [详细]
author-avatar
kingwign009
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有