现在的市场环境下,企业正面临着竞争逐渐加剧、人力成本增加、人员流动率加快等挑战。而随着企业经历了信息化的成熟阶段,沉淀了大量的数据,大型的企业都开始了数字化转型,它们利用前沿的技术、海量的外部数据以及内部积累的业务数据上下游的关联客户,将数据转化为专家的经验知识,从而提高工作效率和产品销量,并增强产品的用户体验。而知识图谱,则在企业的数字化转型中扮演了重要的作用。
近日,在雷锋网 AI 研习社第 3 期职播间上,北京知识图谱科技有限公司 CEO 进行了招聘宣讲,并分享了如何利用知识图谱产品赋能企业数字化转型。公开课回放视频网址:http://www.mooc.ai/open/course/554?=aitechtalkwugang
吴刚:中科院软件所硕士,师从软件所总工戴国忠研究员,主要研究方向为人机交互与智能信息处理,曾在汤森路透担任中国区首席顾问。现任北京知识图谱科技有限公司 CEO、中文信息学会语言与知识计算专委会委员、开放知识图谱联盟成员。
分享主题:知识图谱赋能企业数字化转型
分享提纲:
1、公司介绍与职位介绍
2、知识图谱技术概述
3、企业机遇与挑战
4、知识图谱赋能企业数字化转型
5、知识图谱落地挑战与趋势
雷锋网 AI 研习社将其分享内容整理如下:
我是知识图谱科技有限公司的 CEO 吴刚,很荣幸能来这里与大家进行分享。首先做个自我介绍,我毕业于中国科学院的中科院软件所,学的是人机交互与智能信息处理。毕业后在汤森路透工作了几年,做面向金融、科技行业的咨询顾问,之后在 2017 年,我们成立了北京知识图谱科技,面向医疗、军工、金融等领域提供知识图谱解决方案。
今天我们分享内容包括:公司介绍&招聘,知识图谱概述 &企业机遇挑战,知识图谱赋能企业数字化转型,知识图谱落地挑战与趋势四个方面。
其实我们首席科学家在 2015 年就开始做知识图谱的相关业务了,在 2017 年成立了北京知识图谱科技有限公司。公司的研发中心在江苏省南京市江宁区秣周东路(地铁三号线旁边),未来科技城里面。我们整个公司是技术驱动型的,技术氛围很浓,经常会组织技术分享会,包括请外面的专家过来作报告、让员工去参加知名的技术会议等。我们公司现在主要是面向行业构建行业知识图谱,赋能企业数字化、智能化转型。
我们公司在研发方面的实力较强。我们的领军人物是东南大学漆桂林教授,他是知识图谱领域顶级专家,在知识图谱和人工智能领域非常知名,大家去百度搜索一下就知道了。我们的研发团队也是由中国科学院、东南大学硕博士以及阿里巴巴高级技术人才组成的全职专业研发团队,并且依托东南大学认知智能研究所强大的技术储备和人才资源,实现产学研的结合。在技术方面,我们已有 10 余年知识图谱领域的技术积累,拥有 10 多项从数据采集清洗、智能语义处理、知识图谱建模到运维、智能决策等全技术链 的核心自主知识产权。
我们公司的优势可以从两方面来说:
一是技术方面:我们公司专注于知识图谱、智能问答应用领域多年,通过多年面向企业和政府的大型项目经验将知识图谱技术工具化、平台化,可基于用户场景快速开发人工智能应用。
二是经验方面:我们拥有大量知识图谱智能应用的典型客户案例,服务了多个世界 500 强、国内上市公司、 顶级科研机构以及政府(军工集团及院所)和多行业企业客户,有专业丰富的领域服务经验。
这是我们公司的工作环境,未来科技城这边的绿化环境很好,还有湖,非常适合散步和跑步,下地铁走几分钟就可以到。同时,未来科技城里面也有很多科技公司,像华为、中软都在这边。
我们公司现在全职员工为 20 人工作,以技术人员为主。大概介绍一下我们公司招聘的职位,因为我们主要做知识图谱,所以主要招聘开发知识图谱、人工智能平台及行业应用产品的工程师,但我们并不要求必须有知识图谱经验的工程师,只要求有工程应用开发经验的工程师即可。职位主要有:
资深 Java 工程师:我们的知识图谱平台主要是 Java 的平台,因此我们主要招聘资深 Java 工程师,要求 3-5 年工作经验,本科及以上学历 。
nlp 工程师 :做知识图谱也涉及到很多非结构、半结构的数据处理,将处理后的数据融合到知识图谱中,是我们这个平台在做的事情,另外我们在医疗、军工等行业的应用的文档数据也需要这类工程师进行处理。这个职位要求 3-5 年工作经验,本科及以上学历 。
测试工程师:这个岗位主要做平台的测试,要求 1-3 年工作经验,本科及以上学历。
我们公司在南京,因此这些职位都是在南京进行招聘。
接下来讲一下现在企业所面临的挑战。其实知识图谱这两年才比较热门,前几年人工智能从技术上来说也才相对比较成熟,落地应用场景还是偏感知智能,如科大讯飞、商汤科技这些做语音识别、人工智能的公司,利用深度学习对海量数据进行训练,应用到语音识别、人脸识别这样一些应用场景中。
而我们现在在做的事情是认知智能,如果说科大讯飞、商汤这些公司做的是眼睛、耳朵,那我们做的是大脑——大脑就需要处理各种各样的数据,尤其行业数据很多都是非结构和半结构化数据,涉及到智能语音处理和知识图谱本身的一些技术,如知识推理、智能问答和可视化等,类似于 IBM Watson 、Palantir 利用这些技术去做智能情报分析或行业的专家系统一样,知识图谱可以应用于医疗癌症智能诊断、金融智能投研、法律类案推荐等场景。
知识图谱是实现强人工智能必须要攻克的难点,但它本身的技术栈也比较长,暂时无法像图像识别、语音识别那样被快速推进,只能在一个个小的场景中落地。
知识图谱技术可能有的人没怎么听说过,但百度、Google 在 2012 年 就开始做这个。比如你在百度上搜「人民的名义」,它知道这是一个电影,而搜索页面的右边,就是通过知识图谱推荐的关联知识,比如电影有哪些演员、导演,导演导过什么电影,编剧是哪些人等等。
所以什么叫知识图谱呢?其实现在没有一个官方的定义,但是从我的角度来看,可以从两个角度来看:
从数据角度来看:知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系,其基本组成单位是「实体—属性—关系」,构成网状的知识结构,融合碎片化的信息,建立领域知识模型,挖掘隐藏的关联关系和传递影响,辅助智能决策。
例如一个医疗大健康领域,像这个图一样,包括食谱、食材、问答、人群、营养素和疾病保健几个部分,彼此间的关联包括什么样的疾病不能吃什么营养素的食材等等,这就是一个知识图谱。
从技术角度来看:它是一套工程技术,包括知识抽取、知识表示、知识存储、知识推理、知识检索、知识问答等 一系列技术。
上图是我对技术栈的一个总结。知识图谱其实是人工智能领域的一个分支,可能现在行业内的一些工程师认为他们做的 nlp、数据库、可视化就是知识图谱,但是我认为知识图谱是一套工程体系,不是做一个 nlp、数据库、可视化就能实现,而是要能在场景中解决问题。
因此做一个智能的语义搜索,你需要利用自然语音处理去抽取文本信息,抽取后要去表示、融合知识,并基于这个知识做推理。上面几个(知识提取、知识表示、知识融合、知识存储、知识推理)是构建知识图谱的过程,下面(知识问答、知识检索、知识推荐、可视化关联)是有了数据知识图谱后的几种比较典型的运用。
所以知识图谱是一种交叉的技术体系,与深度学习、自然语言处理都有交叉,包括问答在内的知识图谱在做语义理解时,都要用到深度学习的技术,因此我们做的这个平台也是基于很多技术的,比较具有挑战性。这也对我们工程师提出了更高的要求,不过这样工程师也能得到更快速的成长,因为接触到的东西不再仅是深度学习的算法,知识图谱跟行业的结合是非常紧密的,工程师也会接触到一些行业知识。
这是知识图谱大概的架构:
数据层:指内外部的各种结构化、半结构化、非结构化数据,包括 ERP、CPM、产品说明书、书籍指南、FAQ、EXCEL、专家录入数据以及采集的数据等。
平台层:基于数据层去做数据智能采集的清洗、智能语义的提取、行业知识图谱动态模型的构建以及知识推理。
知识层:基于数据层和平台层,我们就能构建企业级的知识图谱、用户知识图谱以及知识规则引擎。
应用层:使用知识图谱,可以去做可视化关联分析、智能知识问答、智能知识推荐、智能语义检索等方面的应用。
用户:我们的知识图谱面向的用户,主要是知识密集型的行业,例如金融、法律、医疗、企业等。
构建一次性图谱可能不是那么复杂,但是怎样让知识图谱持续地迭代更新,并让专家参与其中来做运维,这是比较难的问题。而右边的这个知识图谱运维管理平台,则能让我们低成本地去运维这个图谱,这是我们的产品现在在做的事情,我们的工程师在做整套的算法、管理运维平台并将应用层结合到用户场景中,这些都需要进行很多开发的工作。
我们讲一下这两年企业开始使用知识图谱的原因:
一是(金融、医疗等领域)市场监管的加强,如果没有这个驱动因素,企业可能没有那么大的动力去做这方面的技术创新;
二是人力成本增加、 人员流动率大。随着竞争加剧,知识密集型行业的人力成本逐渐提高。同时,人员流动率的增大也会导致企业流失掉员工的经验,培训成本也随之增大,所以我们的客户也希望用知识图谱技术去沉淀经验,培训和赋能员工。
三是业务向长尾发展,专家资源有限。一线城市、大医院的医疗业务基本达到饱和状态,我们的知识图谱可以推动分级诊疗这些机制在这些城市的进展;而随着市场的增大,专家资源就变得相对有限,这就需要我们这样的技术帮助企业去满足并持续扩展市场。
四是整个市场竞争加剧,业务变化和知识更新加快。像金融这些行业需要最新技术来进行创新,减少成本,提高效率。当然业务本身的变化也在加快,如果不用更好的技术去响应业务的变化,这种业务就很难生存下去了。
当然对企业来说,之前也有传统 BI、知识库,那为什么还要用知识图谱?知识图谱与它们有什么区别?
传统 BI 可以进行数据统计或报表,更多是处理知识结构化的数据,而知识图谱则更多地应用了 AI 技术,除了结构化的数据,它还能处理非结构化或者半结构化的数据。知识库更多地是把信息汇集在一起提供查询,但信息中那些经验性知识没有被提取出来,或者还需要耗费较大的人力去查找信息,这也是我们知识图谱面临的挑战——怎样提高效率,更快地找到我们想要的信息。
不仅如此,知识图谱是针对应用场景,去帮助客户解决问题的。现在客户也有这方面的要求,比如连接起他们生态中的用户,而连接过程需要整个行业的知识赋能,然后通过问答去触达这些用户。由于现在移动互联网的发展也为用户连接、场景落地应用提供了很好的条件,这也是我觉得企业有动力去使用这种方法来提高效率、积淀经验、增强用户体验,以及通过企业转型连接生态,与用户互动起来的重要原因。
当然,除了需要企业有较强的使用意愿,知识图谱也需要技术层面的支撑。这也是为什么此前的专家系统都没有做起来的重要原因——因为条件还不具备。这些专家系统往往都是人工在做相关的工作,成本很高,难以落地应用场景。而现在我们的知识图谱能做起来,主要有 4 个方面的原因:
第一,在线海量数据。现在海量数据在线可公开获取,而企业内部信息化阶段也有大量数据沉淀。
第二,数据采集种类增加。随着移动互联网、物联网、可穿戴设备等技术的发展,数据采集的种类及采集途径大大增加。比如要做一个面向病人的护理产品,不采集海量的信息,就很难推动。
第三,对海量数据进行计算和存储的成本大大降低。以前成本很高,难以持续投入,而现在成本的降低,能让我们快速启动应用。
第四,知识图谱本身的知识建模、处理技术如 nlp、深度学习、动态本体知识表示、图数据库、知识推理、智能对话、众包等技术的发展。
除了业务和技术方面,那做知识图谱还存在哪些挑战呢?
第一是数据源。很多数据都是半结构化、非结构化的,如专业书籍和专利、产品说明书、FAQ、报告、新闻等,这些数据的整体质量不高。
第二是数据融合。输入数据量越来越大是个好事,但是带来的负面影响就是需要对不同数据源进行融合。而怎样将从多源异构数据中抽取的数据和业务模型进行关联融合,则是一个较大的难点。
第三是业务建模。垂直行业专业化程度很高,知识体系复杂庞大,且知识具有模糊性。就比如帮病人诊病,每个医生的知识和诊断方式都不一样。此外,业务具有动态变化性,经验规则复杂,如何建立可灵活扩展的模型比较关键。
第四是用户体验,因为垂直行业产品面临的是对技术不熟练的个人、销售代表、业务繁忙的专家等,他们需要简单易用,用户体验智能化的产品。
接下来我们就讲一下知识图谱怎样赋能企业数字化转型。针对刚刚提到的 4 个挑战,我们有以下需要做的事情:
第一,可以采用智能爬虫、自然语言处理、众包、机器学习和行业词库等方式去处理数据源;
第二,利用 ETL、知识融合和知识存储去进行数据融合和存储;
第三,采用动态知识模型、实体知识图谱构建、知识推理引擎等方式去进行业务建模;
第四,用户体验方面,采用智能问答、语义检索、智能推荐和可视化分析这四种方式去触及用户。
企业智能问答应用场景主要有以下 4 种:
智能客服:现在一般企业还是使用 chatbot 作为智能客服,知识图谱可以赋能客服知识培训,帮助 chatbot 更加智能化。
智能呼叫:有的企业会使用机器人进行电话营销(如房产、保险行业等)、催债(如金融行业等),知识图谱能使帮助机器人解决这些场景中遇到的问题。
智能专家:这也是知识图谱的一个典型场景的运用,知识图谱能应用到医疗、法律、金融等专业领域知识问答。
业务决策:集成企业内外部数据构建的企业知识图谱,可使用户通过问答、搜索方式更快获取知识信息,知识图谱让这些问答、搜索更加快速、智能,类似于企业智能助手。
这是我们知识图谱业务的一个架构,知识图谱本身可以跟问答分隔开来,我们可以构建企业图谱或者行业图谱,直接让企业通过搜索问答方式去使用,当然也可以用在第三方如智能客服、智能助手上,让它们去回答现在难以回答和理解的问题。
这是一个更细的架构,更多面向复杂知识问答的场景。简答的知识问答比如问天气、订机票则不太适合用这个知识图谱。
举个例子,构建产品说明书的知识图谱,也有不少难点,每个产品说明书表格不太一样,描述也不一样,例如「加热不停」跟「加热无法停止」二者的描述就有差异,需要进行知识的处理。
比如构建一个家电维修的图谱提供给用户,当他们说到某个故障的时候,知识图谱需要告诉他们该怎样去维修,以及什么原因。
这是一个简单的例子,大家可以在图上看到各种故障,故障有各种原因,在问答的时候我们可以通过这个图谱进行图上的查询及交互。
当然还有很多客户他们的应用场景,需要导入各种业务相关的 FAQ、知识文档、语料等,怎样构建一个更加智能化的图谱去进行问答呢?
基于此,我们打造了这样一个平台,做全流程的知识图谱。
我们会根据用户的反馈去做运维:通过数据采集以及系统自动报警,包括自动侦测以及让专家去抽样检查,接着使用我们这个平台做问答运维,以逐步优化知识图谱的质量。
我对智能问答技术进行了比较:
FAQ:针对常见简单问题进行问答,适用于闲聊和客户场景。
深度学习:辅助 FAQ 深度语义解析、问答泛化、多轮对话,需要大量语料,不可解释。
而知识图谱则有以下几个方面的优势:
1. 带语义的结构化知识,可扩展衍生应用;
2. 适用于复杂专业知识问答、精准知识推荐、知识点关联;
3. 可与 FAQ 和深度学习结合,使 chatbot 更智能;
4. 可基于少量语料冷启动,无需大量语料和配置相同问法;
5. 具有可解释性。
我们的知识图谱业务主要是这么一个流程:
第一步,梳理业务需求:根据业务战略梳理业务需求及业务优先级和数据源。
第二步,技术评估:根据业务需求和数据源进行技术可行性评估;根据场景确定是否需要智能问答?是否必须要多轮对话?(不是每个场景都需要多轮对话,多轮对话的实现也有较大难度);对技术方案、数据质量、需要参与的人员以及技术要求进行评估;对业务需求的工作量和难易程度进行评估。
第三步,方案确定:从工作量和效益产出综合评估进行优先级排列;分期实施、快速迭代。
第四步,知识图谱构建:包括数据清洗、本体知识模型构建、数据集成导入、知识图谱建模等环节。我们这个平台将整套技术融合在一起,形成全周期性的技术平台,让用户不需要熟练掌握技术就能使用这个平台。
第五步,智能问答应用开发:从小做起;闭环反馈,逐步实现自学习。
第六步,运维:实现本体、知识图谱半自动运维,根据数据和用户反馈持续迭代优化。
知识图谱的构建流程大概是这样:通过对半结构化、非结构化数据进行自动提取,构建结构化语义模型,形成一个个小的知识图谱,再进行知识融合,这个过程中,人工也会参与进来,包括专家会录入数据,做知识的校正,形成一个业务层级的知识图谱,再通过智能应用反馈回来,逐步迭代,最终形成全量业务知识图谱。
做知识图谱应用落地还面临着一些挑战:
一是数据层面。现在知识图谱行业面临部门数据壁垒高,高质量知识获取困难,结构化数据少,这意味着非结构化数据比较多,知识处理就会变难。另外 nlp 现在还没有到达到非常高的质量,需要不少人工的标注。
二是平台工具层面。知识图谱的技术栈比较长,图谱构建和运维成本高,可复制性不强。
三是专业知识层面。知识图谱的知识专业性强,和行业结合十分紧密,因而需要与行业专家技术团队合作,来建立知识模型,在这个过程中,双方的磨合也是一个挑战。
四是闭环系统层面。我们必须将知识图谱做成一个半自动化学习、人机互动,可持续低成本迭代优化的平台,才能让用户实现低成本的运营。
最后介绍一下知识图谱的趋势:
第一,知识图谱与深度学习、语音识别、图像识别等技术深度结合。比如通过深度学习去识别一个片子,如果有知识图谱作为背景支撑,能实现效果更佳的识别,还能增强可解释性。
第二,其也内外部数据打通,企业从数字化到智能化的转型,企业知识图谱应用场景模式交叉融合,来逐步沉淀高质量行业知识图谱。
第三,全生命周期知识图谱开放平台化,构建与运维成本大大降低人机结合,闭环反馈迭代,集成领域知识模型,自学习。
分享结束后,嘉宾还对同学们提出的问题进行了回答,大家可以移步社区(http://www.gair.link/page/blogDetail/8626)进行详细了解。
以上就是本期嘉宾的全部分享内容。更多公开课视频请到雷锋网(公众号:雷锋网) AI 研习社社区(https://club.leiphone.com/)观看。关注微信公众号:AI 研习社(okweiwu),可获取最新公开课直播时间预告。
1. 是否和咨询行业有 overlap?
我认为是有 overlap 的,我们做的一些知识图谱会替代咨询行业的某些工作。实际上,咨询行业本身也意识到了这个问题,像麦肯锡这样的公司也会使用知识图谱自动化、智能化的一些产品。此外,我们遇到的一些客户如 IBM、微软这些技术型的公司也在逐步利用知识图谱技术去做一些职能化的运用,给客户一套解决方案。当然,我们现在在做的知识图谱本质上相当于专家系统,能帮助咨询行业去沉淀咨询经验。
2. 知识图谱和客户画像的关系?
因为知识图谱本身的定义也不是很清晰,我们有时候也可将用户视为客户画像,知识图谱会比传统画像更加立体。传统的画像相对比较平面化,包括用户的基本属性,年龄,购买类别等等,但是知识图谱能做到非常深层的关联,比如可以对企业的上下层关系,挖掘出一个很长的链条;对个人,则会涉及到他是哪个公司的高管,参与了其他哪些公司,从哪个学校毕业的以及发表了什么专利论文(跟谁一起发表的),相比较而言,知识图谱所呈现出来的客户画像会更加全面,更注重深层关系的挖掘和关联,而不仅仅是个人属性。
3. 知识图谱目前和区块链这类分布式技术有结合吗?
就我来看,二者目前没什么结合。区块链的技术我不是太熟悉,但目前结合场景比较少。而区块链本身落地场景的探索现在也还不是很清晰,不过知识图谱现在的落地场景比较明确,技术实现也比较难,很难进行复制。
。