快速索引solr上的大型数据集-Indexquicklyalargedatasetonsolr

作者：朱劭文_850 | 来源：互联网 | 2023-05-19 16:32

IhavefewmillionsofrecordsandIneedthemtobeindexedinSolr.Oncetheyreindexed,theyre

I have few millions of records and I need them to be indexed in Solr. Once they're indexed, they're not going to be changed and the collections are used only for "read". I am following the pattern by posting the xml docs to the REST api and it works fine ... even though it takes some time (configs are optimized for read and cache);

我有几百万条记录，我需要它们在Solr中编入索引。一旦它们被索引，它们就不会被改变，并且集合仅用于“读取”。我通过将xml文档发布到REST API来遵循该模式，并且它工作正常......即使它需要一些时间（配置针对读取和缓存进行了优化）;

But I was wondering ... is there a better/faster approach - maybe avoiding the HTTP/network layer? Something like working locally to build the collection, copy it to solr server and then add/swap the collection?

但我想知道......是否有更好/更快的方法 - 可能避免HTTP /网络层？在本地工作以构建集合，将其复制到solr服务器然后添加/交换集合？

One choice could be a custom DIH for a second/backup core and swap when done - but this would mean I would have to "eat" the memory used on solr for caching slowing down searches.

一个选择可能是第二个/备份核心的自定义DIH和完成时交换 - 但这意味着我必须“吃掉”solr上用于缓存的内存减慢搜索速度。

I am searching/hoping for a disconnected solution - like a command line tool, running on a different machine with the configuration optimized for writing, then copy the core on production swapping the old with the new one.

我正在寻找/希望找到一个断开连接的解决方案 - 比如一个命令行工具，在不同的机器上运行，并且配置已针对写入进行了优化，然后将生产中的核心复制到新的生产中。

Any ideas?

有任何想法吗？

1 个解决方案

#1

Few million records should not be an issue.

几百万条记录不应成为问题。

Check how often you do commit and maybe disable soft commit or make it much higher.

检查您提交的频率，并可能禁用软提交或使其更高。

You can also send documents to one Solr instance from multiple clients and get some multi-threading benefits.

您还可以从多个客户端向一个Solr实例发送文档，并获得一些多线程优势。

And you can certainly write a small SolrJ client to index into a local/embedded core and then swap that core into production.

您当然可以编写一个小型SolrJ客户端来索引本地/嵌入式核心，然后将该核心交换到生产中。

推荐阅读

jsp
为什么多数程序员难以成为架构师？

探讨80%的程序员为何难以晋升为架构师，涉及技术深度、经验积累和综合能力等方面。本文将详细解析Tomcat的配置和服务组件，帮助读者理解其内部机制。 ... [详细]

蜡笔小新 2024-11-14 03:39:46
php
Web服务器与MySQL服务器分离配置疑问

在将Web服务器和MySQL服务器分离的情况下，是否需要在Web服务器上安装MySQL？如果安装了MySQL，如何解决PHP连接MySQL服务器时出现的连接失败问题？ ... [详细]

蜡笔小新 2024-11-13 23:06:58
install
Linux 环境下 Java 及相关软件的安装指南

本文详细介绍了如何在 Linux 系统上安装 JDK 1.8、MySQL 和 Redis，并提供了相应的环境配置和验证步骤。 ... [详细]

蜡笔小新 2024-11-13 18:10:16
go
使用ArcGIS for Java和Flex浏览自定义ArcGIS Server 9.3地图

本文介绍了如何在Flex应用程序中实现浏览自定义ArcGIS Server 9.3发布的地图。这是一个基本的入门示例，适用于初学者。 ... [详细]

蜡笔小新 2024-11-13 14:40:13
go
用阿里云的免费 SSL 证书让网站从 HTTP 换成 HTTPS

HTTP协议是不加密传输数据的，也就是用户跟你的网站之间传递数据有可能在途中被截获，破解传递的真实内容，所以使用不加密的HTTP的网站是不 ... [详细]

蜡笔小新 2024-11-13 14:02:50
install
基于Vue和Nuxt的服务端渲染，Node.js全栈项目的博客系统搭建

大家好，我是李白。本文将分享一个从零开始的全栈项目，涵盖了设计、前端、后端和服务端的全面学习过程。通过这个项目，我希望能够帮助初学者更好地理解和掌握全栈开发的技术栈。 ... [详细]

蜡笔小新 2024-11-12 17:27:19
go
解决Bootstrap DataTable Ajax请求重复问题

在最近的一个项目中，我们使用了JQuery DataTable进行数据展示，虽然使用起来非常方便，但在测试过程中发现了一个问题：当查询条件改变时，有时查询结果的数据不正确。通过FireBug调试发现，点击搜索按钮时，会发送两次Ajax请求，一次是原条件的请求，一次是新条件的请求。 ... [详细]

蜡笔小新 2024-11-12 13:59:27
install
InfluxDB、collectd与Grafana的详细安装与配置指南

本文详细介绍了 InfluxDB、collectd 和 Grafana 的安装与配置流程。首先，按照启动顺序依次安装并配置 InfluxDB、collectd 和 Grafana。InfluxDB 作为时序数据库，用于存储时间序列数据；collectd 负责数据的采集与传输；Grafana 则用于数据的可视化展示。文中提供了 collectd 的官方文档链接，便于用户参考和进一步了解其配置选项。通过本指南，读者可以轻松搭建一个高效的数据监控系统。 ... [详细]

蜡笔小新 2024-11-11 19:54:24
install
专家观点：技术不应局限于自我娱乐，需融入市场思维

短暂的人生中，IT和技术只是其中的一部分。无论换工作还是换行业，最终的目标是成功、荣誉和收获。本文探讨了技术人员如何跳出纯技术的局限，实现更大的职业发展。 ... [详细]

蜡笔小新 2024-11-14 10:24:10
email
HTTP header 介绍

HTTP(HyperTextTransferProtocol)是超文本传输协议的缩写，它用于传送www方式的数据。HTTP协议采用了请求响应模型。客服端向服务器发送一 ... [详细]

蜡笔小新 2024-11-14 09:13:00
go
LDAP服务器配置与管理

本文介绍如何通过安装和配置SSSD服务来统一管理用户账户信息，并实现其他系统的登录调用。通过图形化交互界面配置LDAP服务器，确保用户账户信息的集中管理和安全访问。 ... [详细]

蜡笔小新 2024-11-13 18:19:52
install
CentOS 6.4 安装 QT5 时无法找到 GLIBCXX_3.4.15 的解决方案

在 CentOS 6.4 上安装 QT5 并启动 Qt Creator 时，可能会遇到缺少 GLIBCXX_3.4.15 的问题。这是由于系统中的 libstdc++.so.6 版本过低。本文将详细介绍如何通过更新 GCC 版本来解决这一问题。 ... [详细]

蜡笔小新 2024-11-13 16:52:41
install
基于iSCSI的SQL Server 2012群集测试(一)SQL群集安装

一、测试需求介绍与准备公司计划服务器迁移过程计划同时上线SQLServer2012，引入SQLServer2012群集提高高可用性，需要对SQLServ ... [详细]

蜡笔小新 2024-11-13 15:49:49
install
解决 Ubuntu 环境下 Hadoop 集群 SSH 密钥认证问题

本文详细介绍了在 Ubuntu 系统上搭建 Hadoop 集群时遇到的 SSH 密钥认证问题及其解决方案。通过本文，读者可以了解如何在多台虚拟机之间实现无密码 SSH 登录，从而顺利启动 Hadoop 集群。 ... [详细]

蜡笔小新 2024-11-13 09:14:02
install
Linux CentOS 7 安装PostgreSQL 9.5.17 （源码编译）

近日需要将PostgreSQL数据库从Windows中迁移到Linux中，LinuxCentOS7安装PostgreSQL9.5.17安装过程特此记录。安装环境&#x ... [详细]

蜡笔小新 2024-11-12 22:05:03

朱劭文_850

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章