法务咨询自动问答

作者：xin新的 | 来源：互联网 | 2023-02-11 17:21

今天成功运行了法务咨询自动问答的模块。报错过程就不叙述了要想成功运行法务咨询自动问答需要安装elasticsearch数据库，这样才不会报目标计算机积极拒绝，无法连接的错误要安装7

今天成功运行了法务咨询自动问答的模块。

报错过程就不叙述了

要想成功运行法务咨询自动问答需要安装

elasticsearch数据库，这样才不会报目标计算机积极拒绝，无法连接的错误
要安装7.0之前的版本的

elasticsearch数据库，原因我就不说了，好奇的可以运行一下然后通过报错来查询为啥要用7.0版本之前的
下面是代码部分，只要运行一下代码就可以了
首先运行bulid部分：

#!/usr/bin/env python3
# coding: utf-8
# File: insert_es.py
# Author: lhy
# Date: 18-10-10
import os
import time
import json
from elasticsearch import Elasticsearch
from elasticsearch.helpers import bulk
#import pymongo
class ProcessIntoES:
def __init__(self):
self._index = "crime_data"
self.es = Elasticsearch([{"host": "127.0.0.1", "port": 9200}])
self.doc_type = "crime"
cur = '/'.join(os.path.abspath(__file__).split('/')[:-1])
self.music_file = os.path.join(cur, 'data/qa_corpus.json')
'''创建ES索引，确定分词类型'''
def create_mapping(self):
node_mappings = {
"mappings": {
self.doc_type: { # type
"properties": {
"question": { # field: 问题
"type": "text", # lxw NOTE: cannot be string
#"analyzer": "ik_max_word",
#"search_analyzer": "ik_smart",
"index": "true" # The index option controls whether field values are indexed.
},
"answers": { # field: 问题
"type": "text", # lxw NOTE: cannot be string
#"analyzer": "ik_max_word",
#"search_analyzer": "ik_smart",
"index": "true" # The index option controls whether field values are indexed.
},
}
}
}
}
if not self.es.indices.exists(index=self._index):
self.es.indices.create(index=self._index, body=node_mappings)
print("Create {} mapping successfully.".format(self._index))
else:
print("index({}) already exists.".format(self._index))
'''批量插入数据'''
def insert_data_bulk(self, action_list):
success, _ = bulk(self.es, action_list, index=self._index, raise_on_error=True)
print("Performed {0} actions. _: {1}".format(success, _))
'''初始化ES，将数据插入到ES数据库当中'''
def init_ES():
pie = ProcessIntoES()
# 创建ES的index
pie.create_mapping()
start_time = time.time()
index = 0
count = 0
action_list = []
BULK_COUNT = 1000 # 每BULK_COUNT个句子一起插入到ES中
for line in open(pie.music_file,encoding='utf-8'):
if not line:
continue
item = json.loads(line)
index += 1
action = {
"_index": pie._index,
"_type": pie.doc_type,
"_source": {
"question": item['question'],
"answers": '\n'.join(item['answers']),
}
}
action_list.append(action)
if index > BULK_COUNT:
pie.insert_data_bulk(action_list=action_list)
index = 0
count += 1
print(count)
action_list = []
end_time = time.time()
print("Time Cost:{0}".format(end_time - start_time))
if __name__ == "__main__":
# 将数据库插入到elasticsearch当中
init_ES()
# 按照标题进行查询
question = '我老公要起诉离婚我不想离婚怎么办'
再运行主代码：

#!/usr/bin/env python3
# coding: utf-8
# File: crime_qa_server.py
# Author: lhy
# Date: 18-11-10
import os
import time
import json
from elasticsearch import Elasticsearch
import numpy as np
import jieba.posseg as pseg
class CrimeQA:
def __init__(self):
self._index = "crime_data"
self.es = Elasticsearch([{"host": "127.0.0.1", "port": 9200}])
self.doc_type = "crime"
cur = '/'.join(os.path.abspath(__file__).split('/')[:-1])
self.embedding_path = os.path.join(cur, 'embedding/word_vec_300.bin')
self.embdding_dict = self.load_embedding(self.embedding_path)
self.embedding_size = 300
self.min_score = 0.4
self.min_sim = 0.8
'''根据question进行事件的匹配查询'''
def search_specific(self, value, key="question"):
query_body = {
"query": {
"match": {
key: value,
}
}
}
searched = self.es.search(index=self._index, doc_type=self.doc_type, body=query_body, size=20)
# 输出查询到的结果
return searched["hits"]["hits"]
'''基于ES的问题查询'''
def search_es(self, question):
answers = []
res = self.search_specific(question)
for hit in res:
answer_dict = {}
answer_dict['score'] = hit['_score']
answer_dict['sim_question'] = hit['_source']['question']
answer_dict['answers'] = hit['_source']['answers'].split('\n')
answers.append(answer_dict)
return answers
'''加载词向量'''
def load_embedding(self, embedding_path):
embedding_dict = {}
count = 0
for line in open(embedding_path,encoding='utf-8'):
line = line.strip().split(' ')
if len(line) <300:
continue
wd = line[0]
vector = np.array([float(i) for i in line[1:]])
embedding_dict[wd] = vector
count += 1
if count%10000 == 0:
print(count, 'loaded')
print('loaded %s word embedding, finished'%count, )
return embedding_dict
'''对文本进行分词处理'''
def seg_sent(self, s):
wds = [i.word for i in pseg.cut(s) if i.flag[0] not in ['x', 'u', 'c', 'p', 'm', 't']]
return wds
'''基于wordvector，通过lookup table的方式找到句子的wordvector的表示'''
def rep_sentencevector(self, sentence, flag='seg'):
if flag == 'seg':
word_list = [i for i in sentence.split(' ') if i]
else:
word_list = self.seg_sent(sentence)
embedding = np.zeros(self.embedding_size)
sent_len = 0
for index, wd in enumerate(word_list):
if wd in self.embdding_dict:
embedding += self.embdding_dict.get(wd)
sent_len += 1
else:
continue
return embedding/sent_len
'''计算问句与库中问句的相似度,对候选结果加以二次筛选'''
def similarity_cosine(self, vector1, vector2):
cos1 = np.sum(vector1*vector2)
cos21 = np.sqrt(sum(vector1**2))
cos22 = np.sqrt(sum(vector2**2))
similarity = cos1/float(cos21*cos22)
if similarity == 'nan':
return 0
else:
return similarity
'''问答主函数'''
def search_main(self, question):
candi_answers = self.search_es(question)
question_vector = self.rep_sentencevector(question,flag='noseg')
answer_dict = {}
for indx, candi in enumerate(candi_answers):
candi_question = candi['sim_question']
score = candi['score']/100
candi_vector = self.rep_sentencevector(candi_question, flag='noseg')
sim = self.similarity_cosine(question_vector, candi_vector)
if sim continue
final_score = (score + sim)/2
if final_score continue
answer_dict[indx] = final_score
if answer_dict:
answer_dict = sorted(answer_dict.items(), key=lambda asd:asd[1], reverse=True)
final_answer = candi_answers[answer_dict[0][0]]['answers']
else:
final_answer = '您好,对于此类问题,您可以咨询公安部门'
#
# for i in answer_dict:
# answer_indx = i[0]
# score = i[1]
# print(i, score, candi_answers[answer_indx])
# print('******'*6)
return final_answer
if __name__ == "__main__":
handler = CrimeQA()
while(1):
question = input('question:')
final_answer = handler.search_main(question)
print('answers:', final_answer)

最后展示一下成果

推荐阅读

input
如何在Android应用中设计和实现专业的启动欢迎界面（Splash Screen）

在Android应用开发中，设计与实现一个专业的启动欢迎界面（Splash Screen）至关重要。尽管Android设计指南对使用Splash Screen的态度存在争议，但一个精心设计的启动界面不仅能提升用户体验，还能增强品牌识别度。本文将探讨如何在遵循最佳实践的同时，通过技术手段实现既美观又高效的启动欢迎界面，包括加载动画、过渡效果以及性能优化等方面。 ... [详细]

蜡笔小新 2024-10-28 19:45:09
list
MongoDB Aggregates.group() 方法详解与编程实例

MongoDB Aggregates.group() 方法详解与编程实例 ... [详细]

蜡笔小新 2024-10-30 14:23:34
java
深入解析JWT的实现与应用

本文深入探讨了JSON Web Token (JWT) 的实现机制及其应用场景。JWT 是一种基于 RFC 7519 标准的开放性认证协议，用于在各方之间安全地传输信息。文章详细分析了 JWT 的结构、生成和验证过程，并讨论了其在现代 Web 应用中的实际应用案例，为开发者提供了全面的理解和实践指导。 ... [详细]

蜡笔小新 2024-10-31 20:06:46
schema
Android 图像色彩处理技术详解

本文详细探讨了 Android 平台上的图像色彩处理技术，重点介绍了如何通过模仿美图秀秀的交互方式，利用 SeekBar 实现对图片颜色的精细调整。文章展示了具体的布局设计和代码实现，帮助开发者更好地理解和应用图像处理技术。 ... [详细]

蜡笔小新 2024-10-31 18:45:41
js
掌握 IScroll 技巧：实现流畅的上拉加载与下拉刷新功能

本文介绍了如何通过掌握 IScroll 技巧来实现流畅的上拉加载和下拉刷新功能。首先，需要按正确的顺序引入相关文件：1. Zepto；2. iScroll.js；3. scroll-probe.js。此外，还提供了完整的代码示例，可在 GitHub 仓库中查看。通过这些步骤，开发者可以轻松实现高效、流畅的滚动效果，提升用户体验。 ... [详细]

蜡笔小新 2024-10-31 17:28:44
input
深入解析 MXOTDLL.dll 在 C# 中的应用与优化策略

本文深入探讨了 MXOTDLL.dll 在 C# 环境中的应用与优化策略。针对近期公司从某生物技术供应商采购的指纹识别设备，该设备提供的 DLL 文件是用 C 语言编写的。为了更好地集成到现有的 C# 系统中，我们对原生的 C 语言 DLL 进行了封装，并利用 C# 的互操作性功能实现了高效调用。此外，文章还详细分析了在实际应用中可能遇到的性能瓶颈，并提出了一系列优化措施，以确保系统的稳定性和高效运行。 ... [详细]

蜡笔小新 2024-10-31 17:21:11
数组
深入解析Gradle中的Project核心组件

在Gradle构建系统中，`Project` 是一个核心组件，扮演着至关重要的角色。通过使用 `./gradlew projects` 命令，可以清晰地列出当前项目结构中包含的所有子项目，这有助于开发者更好地理解和管理复杂的多模块项目。此外，`Project` 对象还提供了丰富的配置选项和生命周期管理功能，使得构建过程更加灵活高效。 ... [详细]

蜡笔小新 2024-10-31 09:53:03
select
2019年后蚂蚁集团与拼多多面试经验详述与深度剖析

2019年后蚂蚁集团与拼多多面试经验详述与深度剖析 ... [详细]

蜡笔小新 2024-10-30 17:30:06
select
技术日志：深入探讨Spark Streaming与Spark SQL的融合应用

技术日志：深入探讨Spark Streaming与Spark SQL的融合应用 ... [详细]

蜡笔小新 2024-10-30 14:20:53
select
Android ListView 自定义 CheckBox 实现列表项多选功能详解

本文详细介绍了在Android开发中如何在ListView的每一行添加CheckBox，以实现列表项的多选功能。用户不仅可以通过点击复选框来选择项目，还可以通过点击列表的任意一行来完成选中操作，提升了用户体验和操作便捷性。同时，文章还探讨了相关的事件处理机制和布局优化技巧，帮助开发者更好地实现这一功能。 ... [详细]

蜡笔小新 2024-10-29 13:56:06
select
在单个图表中实现饼图与条形图的精准对齐

在单个图表中实现饼图与条形图的精准对齐 ... [详细]

蜡笔小新 2024-10-29 13:42:17
list
使用cpphttplib构建HTTP服务器以处理带有查询参数的URL请求

使用cpphttplib构建HTTP服务器以处理带有查询参数的URL请求 ... [详细]

蜡笔小新 2024-11-01 00:01:06
schema
深入解析Spring框架：简易版AOP实现方法探讨

本文作为“实现简易版Spring系列”的第五篇，继前文深入探讨了Spring框架的核心技术之一——控制反转（IoC）之后，将重点转向另一个关键技术——面向切面编程（AOP）。对于使用Spring框架进行开发的开发者来说，AOP是一个不可或缺的概念。了解AOP的背景及其基本原理，对于掌握这一技术至关重要。本文将通过具体示例，详细解析AOP的实现机制，帮助读者更好地理解和应用这一技术。 ... [详细]

蜡笔小新 2024-10-31 19:58:14
eval
Spring事务管理与自定义多线程开发中的潜在风险分析

在Spring与Ibatis集成的环境中，通过Spring AOP配置事务管理至服务层。当在一个服务方法中引入自定义多线程时，发现事务管理功能失效。若不使用多线程，事务管理则能正常工作。本文深入分析了这一现象背后的潜在风险，并探讨了可能的解决方案，以确保事务一致性和线程安全。 ... [详细]

蜡笔小新 2024-10-31 15:26:13
schema
C#编程指南：实现列表与WPF数据网格的高效绑定方法

C#编程指南：实现列表与WPF数据网格的高效绑定方法 ... [详细]

蜡笔小新 2024-10-31 10:46:47

xin新的

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章