热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Solr6.6.0用SimplePostTool索引文件的启示

本文主要是介绍通过SimplePostTool工具索引文件的结果进行确认,针对不同的文件,索引的结果不同。1、创建core首先启动solr,建立名称为data的core,Simpl

  本文主要是介绍通过SimplePostTool工具索引文件的结果进行确认,针对不同的文件,索引的结果不同。

  1、创建core

    首先启动solr,建立名称为data的core,SimplePostTool工具使用参照:http://www.cnblogs.com/shaosks/p/7390523.html

    由于导入文件的过程需要用到post.jar这个包,所以先把solr-6.6.0\example\exampledocs文件夹下的post.jar拷贝到solr-6.6.0\bin文件夹下。

    solr start;  solr create -c data

    Solr6.6.0 用 SimplePostTool索引文件的启示

 

  2、导入文件

    和solr-6.6.0\bin文件夹同级目录下Import文件夹,下面有以下有8个文件:

    Solr6.6.0 用 SimplePostTool索引文件的启示

 

    其中前三个文件都是结构化的,有对应的字段。后面的文件就是非结构化的文件。现在导入

 

    2.12017-07-07_info.csv文件

    内容如下,需要注意的是csv文件由于包含中文,所以必须以utf-8格式保存,否则导入后,中文是乱码

    Solr6.6.0 用 SimplePostTool索引文件的启示

 

    2.2、books.json文件

    内容如下,需要注意的是books.json格式不能保存为utf-8的格式,否则导入时报错。

    Solr6.6.0 用 SimplePostTool索引文件的启示

   2.3、xml文件

    内容如下,需要注意的是xml文件由于包含中文,所以必须以utf-8格式保存,否则导入后,中文是乱码

    Solr6.6.0 用 SimplePostTool索引文件的启示

    Solr6.6.0 用 SimplePostTool索引文件的启示

    导入命令:  java -Dauto=yes -Dc=mycore -jar post.jar ..\Import\*.*

    Solr6.6.0 用 SimplePostTool索引文件的启示

 

 

  3、配置文件

   注意data\conf下的配置文件managed-schema,注意里面的内容在导入前和导入后的变化,在导入后,对于上面的csv,json和json这三个结构化文档中涉及的字段,都会自动增加到managed-schema文档中

   下面这些字段都是导入过程自动增加的

    Solr6.6.0 用 SimplePostTool索引文件的启示

 

   

  4、导入结果查询

    1、2017-07-07_info.csv索引结果

     奇怪的是原来csv文件中title字段,变为了_title,前面增加了一个下划线,经过多次测试,都第一个字段,增加一个下划线。

    Solr6.6.0 用 SimplePostTool索引文件的启示

      把文件中的title字段改为scheme,

      Solr6.6.0 用 SimplePostTool索引文件的启示

      重新导入,查询结果:scheme字段前面又增加了一个下划线

      Solr6.6.0 用 SimplePostTool索引文件的启示

      在CSV文件增加一列blank_title,该列都是空值

       Solr6.6.0 用 SimplePostTool索引文件的启示

      重新导入,结果正常,而且blank_title也不会索引

      Solr6.6.0 用 SimplePostTool索引文件的启示

 

 

 

 

    2、books.json索引结果

      Solr6.6.0 用 SimplePostTool索引文件的启示

    3、mem.xml索引结果

       Solr6.6.0 用 SimplePostTool索引文件的启示

    4、十九大报告全文.docx索引结果

    Solr6.6.0 用 SimplePostTool索引文件的启示

    同样doc, pdf和txt格式的文件索引结果都是类似的,因此对这样的文件索引要用其它方式。

       

 

   总结:SimplePostTool工具适合索引csv/json/xml这种结构化文档,像doc, pdf和txt这种非结构化,索引数据后无法搜索相关的信息

 


推荐阅读
  • 本文介绍了如何在Spring框架中使用AspectJ实现AOP编程,重点讲解了通过注解配置切面的方法,包括方法执行前和方法执行后的增强处理。阅读本文前,请确保已安装并配置好AspectJ。 ... [详细]
  • Spring – Bean Life Cycle
    Spring – Bean Life Cycle ... [详细]
  • 本文深入探讨了如何利用Maven高效管理项目中的外部依赖库。通过介绍Maven的官方依赖搜索地址(),详细讲解了依赖库的添加、版本管理和冲突解决等关键操作。此外,还提供了实用的配置示例和最佳实践,帮助开发者优化项目构建流程,提高开发效率。 ... [详细]
  • 本文介绍了如何使用Postman构建和发送HTTP请求,包括四个主要部分:方法(Method)、URL、头部(Headers)和主体(Body)。特别强调了Body部分的重要性,并详细说明了不同类型的请求体。 ... [详细]
  • 本文主要介绍如何使用标签来优化Android应用的UI布局,通过减少不必要的视图层次,提高应用性能。 ... [详细]
  • 本文整理了一份基础的嵌入式Linux工程师笔试题,涵盖填空题、编程题和简答题,旨在帮助考生更好地准备考试。 ... [详细]
  • 本文介绍了如何查看PHP网站及其源码的方法,包括环境搭建、本地测试、源码查看和在线查找等步骤。 ... [详细]
  • Cookie学习小结
    Cookie学习小结 ... [详细]
  • Spring Data JdbcTemplate 入门指南
    本文将介绍如何使用 Spring JdbcTemplate 进行数据库操作,包括查询和插入数据。我们将通过一个学生表的示例来演示具体步骤。 ... [详细]
  • 本文介绍如何在 Android 中自定义加载对话框 CustomProgressDialog,包括自定义 View 类和 XML 布局文件的详细步骤。 ... [详细]
  • 在Java Web服务开发中,Apache CXF 和 Axis2 是两个广泛使用的框架。CXF 由于其与 Spring 框架的无缝集成能力,以及更简便的部署方式,成为了许多开发者的首选。本文将详细介绍如何使用 CXF 框架进行 Web 服务的开发,包括环境搭建、服务发布和客户端调用等关键步骤,为开发者提供一个全面的实践指南。 ... [详细]
  • C++ 开发实战:实用技巧与经验分享
    C++ 开发实战:实用技巧与经验分享 ... [详细]
  • Presto:高效即席查询引擎的深度解析与应用
    本文深入解析了Presto这一高效的即席查询引擎,详细探讨了其架构设计及其优缺点。Presto通过内存到内存的数据处理方式,显著提升了查询性能,相比传统的MapReduce查询,不仅减少了数据传输的延迟,还提高了查询的准确性和效率。然而,Presto在大规模数据处理和容错机制方面仍存在一定的局限性。本文还介绍了Presto在实际应用中的多种场景,展示了其在大数据分析领域的强大潜力。 ... [详细]
  • 在探讨Hibernate框架的高级特性时,缓存机制和懒加载策略是提升数据操作效率的关键要素。缓存策略能够显著减少数据库访问次数,从而提高应用性能,特别是在处理频繁访问的数据时。Hibernate提供了多层次的缓存支持,包括一级缓存和二级缓存,以满足不同场景下的需求。懒加载策略则通过按需加载关联对象,进一步优化了资源利用和响应时间。本文将深入分析这些机制的实现原理及其最佳实践。 ... [详细]
  • 在本文中,我们将为 HelloWorld 项目添加视图组件,以确保控制器返回的视图路径能够正确映射到指定页面。这一步骤将为后续的测试和开发奠定基础。首先,我们将介绍如何配置视图解析器,以便 SpringMVC 能够识别并渲染相应的视图文件。 ... [详细]
author-avatar
那年磕长头
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有