当前位置: 开发笔记 > 后端 > 正文

一个前端开发工程师的天猫精灵评测报告

作者：小孩的内心世界 | 来源：互联网 | 2023-06-06 10:34

虽然从普通用户眼中，使用语音向天猫精灵发起指令，然后收到后者的语音回复，这个流程似乎很简单，但背后实际上有着人工智能中ASR（语音识别）、NLP（自然语言处理）、TTS（语音合成）

虽然从普通用户眼中，使用语音向天猫精灵发起指令，然后收到后者的语音回复，这个流程似乎很简单，但背后实际上有着人工智能中 ASR（语音识别）、NLP（自然语言处理）、TTS（语音合成）等自然语言处理技术的参与和整合。

我们先来看一个典型的用户通过语音同天猫精灵交互的流程图。

用户用语音唤醒天猫精灵，后者接收到用户语音，上传到智能应用平台。

平台使用 ASR（音频转文字）和 NLP（自然语言处理）技术，智能解析出用户发出语音包含的意图(通俗的说，即用户当前期望天猫精灵完成什么样的操作)。平台会自动将当前用户指令，匹配到开发人员创建的对应的技能和意图去。具体的匹配过程，就是将平台所有解析到的参数信息，通过 HTTPS 请求访问开发者提供的服务接口。

开发者负责实现的服务(托管在自己的应用服务器或者阿里云 Serverless 环境)，接收到平台发送的请求参数，执行业务逻辑(比如天气预报查询，智力题，语音游戏等)，并组装回复结果。

智能应用平台收到开发者服务执行完业务逻辑返回的响应数据后，使用 TTS（文字转音频）合成音频，并将音频推送回天猫精灵。

天猫精灵将收到的音频通过麦克风播报出来，本轮同用户的交互就完成了。

分析这个交互场景，不难发现，需要开发人员动手操作的流程包含以下两个方面：

在 AliGenie 技能应用平台上创建新的技能和意图，用于接收用户通过语音发送过来的请求。

应用开发人员自己选择在应用服务器还是 Serveless 运行环境里实现新的技能需要完成的业务逻辑编写。

新技能的创建和意图的定义
登录 AliGenie 技能应用平台，点击 `创建新技能`，通过向导创建一个新技能。
下面是天猫精灵技能创建页面。这个页面的 url：
https://iap.aligenie.com/console/newskill/89247/basic?id=2022042968002&childType=skill
其中 skill id 为 `89247`，id 为 `2022042968002` ，取的是技能创建时间。

从开发流程状态迁移图能看出，一个新的语音技能，从创建后，依次要经过下列的步骤，最后才能正式发布给用户使用：

定义语音交互模型

构建后端服务逻辑

添加屏显页面(可选步骤，可跳过)

测试：可以用真机测试或者网页上测试

在技能属性维护的明细页面，我们可以观察到下列信息：
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XI038Jh9-1652060198031)(https://upload-images.jianshu.io/upload_images/2085791-4d8866c75e1302ca.png?imageMogr2/auto-orient/strip|imageView2/2/w/1240)]
技能最重要的属性是维护技能调用词，当用户向天猫精灵发出的语音指令，包含技能调用词时，天猫精灵才会进行相应的技能处理状态。
在我的评测里，我选用的技能调用词为 `汪子熙是谁`，因为该调用词不能和平台已有的调用词相冲突。
一个语音技能可以包含多个意图。意图代表用户同天猫精灵进行交互对话的目的。比如我的自定义技能，包含了三个意图：体重，天气查询和欢迎意图。意图标识即意图 ID，需要在技能开发人员编写的代码实现里使用到。
我们在上图选择一个意图打开，比如 `天气查询` 意图，打开其编辑页面，能看到一个 `单轮对话表达` 的维护界面。因为之前已经说过，一个语音技能可以对应多个意图，所以如果用户向天猫精灵发起的语音指令，同单轮对话表达里维护的语句相同或相似时，就被判定为命中了对应的意图。
比如用户向天猫精灵发起的对话，同下列类型的语句相似时：

杭州今天天气怎么样

今天天气怎么样

杭州天气怎么样

智能应用平台就会将这些请求参数，比如 `今天`，`杭州`，以及判定出的意图 id，`weather`，传入应用程序业务接口。在我们自己编写的程序里，拿到 `weather` id，就知道当前用户期望 `查询` `杭州` 这个城市 `今天` 的天气情况，此时就可以调用天气查询的 Restful API 完成业务逻辑了。

单轮对话表达式的参数定义
我们观察到了在意图的单轮对话表达式维护界面里，`杭州` 和 `今天` 这两个词都通过特殊的颜色进行高亮。这代表它们是对话表达式里的`参数`。显然，天气预报业务要针对具体的城市和日期才有意义，因此这些参数也需要被发送到应用开发人员编写的服务接口中去。
下图是 `weather`，天气预报意图的参数列表页面，其中 `城市` 的 id 为 `city`，我们可以在应用接口的代表中使用该 id，获取用户语音请求中包含的 `城市` 名称。

上图 `参数名称` 右边的一列，叫做 `关联实体`。实体（Entity）是自然语言处理领域里中表示一类短语的集合，包含了应用所在领域的关键词和术语。
比如天气预报领域，关键词为时间，地点，天气状况。在智能应用平台的处理流程里，实体负责告诉平台，当从用户语音请求中解析出参数时，这些参数的可能取值范围。语音技能支持自定义实体或者引用平台提供的公共实体。
上图定义的参数，都有一个一一对应的实体，界面如下：
如果用户发起的请求里，并没有显式说明想知道哪一个城市的天气状况，此时我们可以使用 `精灵追问` 功能，向用户发起一个新的提问，比如：`你问的是哪一个城市`？从而获取 city 参数的值。
意图编辑页面里的多轮对话编辑也是一个很有用的功能：
上图的例子是，如果用户当前的请求已经位于 `weather` 意图的处理上下文，在这个情况下用户再次追问：`那北京呢`？此时智能平台会判断出，这一轮的对话仍旧属于天气预报的意图，因此会将 `city = 北京` 这个参数串，发送给用户定义的业务实现接口。

技能后端编码
技能的后端编码是天猫精灵自定义技能开发的重头戏。点击 `代码编辑` 面板，可以为该技能针对的业务接口实现，选择对应的服务部署方式。
在线开发模式同阿里云云原生开发即 FAAS，这两种方式均无需搭建自己的应用服务器，区别在于前者作为一款免费的云服务资源和在线开发环境，资源额度有限，更适合快速体验天猫精灵技能应用的开发流程，而不适合用于技能的生产模式下部署。
因而我选择了阿里云的 Serverless 产品 FAAS，可以直接在浏览器里进行技能后端服务的开发，调试，部署和运行。
依次开通 API 网关，日志服务，函数计算，对象存储四个资源后，基于 Java Spring Boot 应用模板，快速创建一个服务实现：
访问 FAAS 环境的控制台 url：
这个后台服务接口的 Java 实现代码，托管在 `codeup` 代码仓库上：
在开发部署页面，我们可以查看部署日志，对 FAAS 实例的硬件参数进行调整等操作：
API 网关和 FC 计算服务的关系如下图所示：

点击 `前往开发`，就可以在浏览器里使用 CloudIDE 进行 Java 开发了：
对于天天用 Visual Studio Code 进行 Angular 开发的笔者，对于这个浏览器里使用的 Cloud IDE 的外观再熟悉不过了：https://workbench.aliyun.com/intersys/2022042901718897/develop?orgId=626bfb21cfea268afc21ab8d

在 Cloud IDE 里能完成绝大多数常规的开发操作，比如代码编辑，git 代码仓库提交，Maven 构建，一键部署等等：
该 Cloud IDE 提供的更多功能，可以通过 `视图`-> `命令面板` 里查看：
接下来，就可以在 Cloud IDE 基于模板生成的项目里，通过实现 GenieEntry 的 execute 方法，来编写自定义技能的业务逻辑了：

推荐阅读

go
图像标签与以图搜图技术的应用与实践

本文探讨了图像标签的多种分类场景及其在以图搜图技术中的应用，涵盖了从基础理论到实际项目实施的全面解析。 ... [详细]

蜡笔小新 2024-12-07 14:28:06
go
python image stiching_Python自然语言处理，词云图生成

自然语言处理本节介绍如何使用Python中的库，生成词云图，涉及自然语言处理的相关问题，自然语言处理是计算机科学领域与人工智能领域中的一个 ... [详细]

蜡笔小新 2024-12-02 18:34:55
go
使用snownlp进行微博情感分析的学习实践

本文介绍了如何利用snownlp库对微博内容进行情感分析，包括安装、基本使用以及如何自定义训练模型以提高分析准确性。 ... [详细]

蜡笔小新 2024-11-27 15:01:46
go
全面解析自然语言处理NLP及其学习资源

本文将深入浅出地介绍自然语言处理的基本概念、发展历程及未来趋势，并提供丰富的学习资料。 ... [详细]

蜡笔小新 2024-11-16 18:11:23
ci
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
ci
步入人工智能新时代，这些关键知识点不容错过

步入人工智能新时代，掌握这些关键知识点至关重要。AI技术将成为人类的重要辅助工具，不仅能够扩展和增强人类的智能，还能帮助我们实现更加卓越的成就。新一代人工智能技术的发展将为各行各业带来深远的影响，推动社会进步与创新。 ... [详细]

蜡笔小新 2024-10-29 20:04:07
ci
京东AI创新之路：周伯文解析京东AI战略的独特之处

2018年4月15日，京东在北京举办了人工智能创新峰会，会上首次公开了京东AI的整体布局和发展方向。此次峰会不仅展示了京东在AI领域的最新成果，还标志着京东AI团队的首次集体亮相。本文将深入探讨京东AI的发展策略及其与BAT等公司的不同之处。 ... [详细]

蜡笔小新 2024-12-06 22:57:11
ci
探索语音处理新领域：pzh-speech工具的开发历程

本文由技术爱好者痞子衡撰写，详细介绍了一款名为pzh-speech的语音处理工具的开发背景与核心技术。该工具旨在简化语音处理流程，为开发者提供一个强大的开源解决方案。 ... [详细]

蜡笔小新 2024-11-26 16:27:12
ci
英特尔推出第三代至强可扩展处理器及傲腾持久内存，AI性能显著提升

英特尔在数据创新峰会上发布了第三代至强可扩展处理器和第二代傲腾持久内存，全面增强AI能力和系统性能。 ... [详细]

蜡笔小新 2024-11-17 13:07:14
go
自然语言处理(NLP)——LDA模型:对电商购物评论进行情感分析

目录一、2020数学建模美赛C题简介需求评价内容提供数据二、解题思路三、LDA简介四、代码实现1.数据预处理1.1剔除无用信息1.1.1剔除掉不需要的列1.1.2找出无效评论并剔除 ... [详细]

蜡笔小新 2024-11-14 18:21:21
go
飞桨助力产业智能化：百度自研AI硬件深度融合

在2019中国国际智能产业博览会上，百度董事长兼CEO李彦宏强调，人工智能应务实推进其在各行业的应用。随后，在“ABC SUMMIT 2019百度云智峰会”上，百度展示了通过“云+AI”推动AI工业化和产业智能化的最新成果。 ... [详细]

蜡笔小新 2024-11-12 00:45:20
ci
AI TIME联合2021世界人工智能大会，共探图神经网络与认知智能前沿话题

AI TIME携手2021世界人工智能大会，共同探讨图神经网络与认知智能的最新进展。自2018年在上海首次举办以来，WAIC已成为全球AI领域的年度盛会，吸引了众多专家学者和行业领袖参与。本次大会将聚焦图神经网络在复杂系统建模、知识图谱构建及认知智能应用等方面的技术突破和未来趋势。 ... [详细]

蜡笔小新 2024-10-29 11:34:09
transform
2019年斯坦福大学CS224n课程笔记：深度学习在自然语言处理中的应用——Word2Vec与GloVe模型解析

本文详细解析了2019年斯坦福大学CS224n课程中关于深度学习在自然语言处理（NLP）领域的应用，重点探讨了Word2Vec和GloVe两种词嵌入模型的原理与实现方法。通过具体案例分析，深入阐述了这两种模型在提升NLP任务性能方面的优势与应用场景。 ... [详细]

蜡笔小新 2024-10-29 10:37:07
transform
2018年热门趋势：轻松几步构建高效智能聊天机器人

2018年，构建高效智能聊天机器人的简易步骤成为行业焦点。作为AI领域的关键应用，聊天机器人不仅被视为企业市场智能化转型的重要工具，也是技术变现的主要途径之一。随着自然语言处理技术的不断进步，越来越多的企业开始重视并投资于这一领域，以期通过聊天机器人提升客户服务体验和运营效率。 ... [详细]

蜡笔小新 2024-10-28 12:59:49
transform
斯坦福CS520课程笔记：初探知识图谱的概念与应用

随着知识图谱在人工智能领域的广泛应用，这一技术正逐渐成为研究者关注的焦点，并被视为推动AI向认知智能发展的关键工具。本文基于斯坦福大学CS520课程笔记，初步探讨了知识图谱的基本概念及其在不同应用场景中的潜力和价值。 ... [详细]

蜡笔小新 2024-10-26 15:07:21

小孩的内心世界

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章