python使用tensorflow开发_[AI开发]Python+Tensorflow打造自己的计算机视觉API服务

作者：php枫羲 | 来源：互联网 | 2023-09-17 17:19

与其停留在概念理论层面，不如动手去实现一个简单demo。——鲁迅前言目前提供AI开发相关API接口的公司有很多，国外如微软、谷歌，国内

"与其停留在概念理论层面&＃xff0c;不如动手去实现一个简单demo 。" ——鲁迅

前言

目前提供AI开发相关API接口的公司有很多&＃xff0c;国外如微软、谷歌&＃xff0c;国内的百度、腾讯等都有开放API接口。开发者只需要调用相关接口&＃xff0c;几步就能开发出一个“智能APP”。通常情况AI接口有以下几类&＃xff1a;

计算机视觉

图像分类、图像目标检测以及视频检测跟踪等等。这类API主要用于处理图像和视频&＃xff0c;能够给图像打tag&＃xff0c;并分析视频图片中的物体及其对应坐标轨迹等。

语言

包括自然语言处理&＃xff0c;分析自然语言含义&＃xff0c;评估情绪等&＃xff0c;例如机器翻译等。

语音

将语言音频转换为文本&＃xff0c;使用声音进行验证&＃xff0c;或向应用添加说话人识别。

知识

通过映射复杂信息和数据来解决任务&＃xff0c;例如智能建议和语义搜索。

基于Web Service的智能API接口让我们不需要了解复杂的机器学习以及数学知识就能轻松开发出智能APP。但是&＃xff0c;本文将介绍如何完全自己动手去实现一个智能API接口服务&＃xff0c;由于涉及到的东西非常多&＃xff0c;本文仅以我比较熟悉的“计算机视觉”为例&＃xff0c;包含“图像分类(image classification)”和“目标检测(target detect)”&＃xff0c;之后如果有机会&＃xff0c;我会介绍“视频轨迹跟踪”相关的东西&＃xff0c;大概就是图像处理的升级版。在开始正文之前&＃xff0c;先解释几个名词。AI的概念近一两年尤其火热&＃xff0c;“机器学习”以及“深度学习”的技术介绍到处都是&＃xff0c;这里再简单介绍一下我对它们的理解&＃xff1a;

人工智能&＃xff1a;

又名AI&＃xff0c;概念出现得特别早&＃xff0c;上世纪五六十年代就有。人工智能大概可以分为两大类&＃xff0c;一类“强人工智能”&＃xff0c;你可以理解为完全具备跟人类一样的思维和意识的计算机程序&＃xff1b;第二类“弱人工智能”&＃xff0c;大概就是指计算机能够完成大部分相对较高级的行为&＃xff0c;比如前面提到的理解图片含义&＃xff0c;理解语言含义以及理解语音等等。我们日常提到的人工智能通常指第二类&＃xff0c;常见的有计算机视觉、语音识别、机器翻译、推荐系统、搜索引擎甚至一些智能美图的APP&＃xff0c;这些都可以说使用了人工智能技术&＃xff0c;因为它们内部都使用了相关机器学习或者深度学习的算法。

机器学习&＃xff1a;

这个概念也出现得很早&＃xff0c;大概上世界八九十年代(&＃xff1f;)。以前的概念中&＃xff0c;计算机必须按照人编写的程序去执行任务&＃xff0c;对于程序中没有的逻辑&＃xff0c;计算机是不可能去做的。机器学习出现后&＃xff0c;计算机具备人类“掌握经验”的能力&＃xff0c;在通过大量学习/总结规律之后&＃xff0c;计算机能够预测它之前并没有见过的事物。

深度学习&＃xff1a;

深度学习的概念近几年才出现&＃xff0c;你可以理解为它是机器学习的升级。之所以近几年突然流行&＃xff0c;是因为一些传统机器学习算法(比如神经网络)要想取得非常好的性能&＃xff0c;神经网络必须足够复杂&＃xff0c;同时需要大量的学习数据&＃xff0c;这时计算能力遇到了瓶颈。而近几年随着硬件性能普遍提升&＃xff0c;再加上互联网时代爆炸式的数据存储&＃xff0c;训练出足够复杂的模型已经不再是遥不可及。因此&＃xff0c;可以将深度学习理解为更复杂的机器学习方式。

好了&＃xff0c;基本概念理清楚之后&＃xff0c;开始进入正题了。这次我需要实现计算机视觉中的两大智能API接口&＃xff1a;图片分类和目标检测。

技术和开发环境

下面是用到的技术和环境&＃xff1a;

1)Python 3.5.2 (PIL、numpy、opencv、matplotlib等一些常见的库)

2)Tensorflow 1.8.0(GPU版本)

3)Keras 2.2.0 (backend是tensorflow)

4)Yolo v3(目标检测算法)

5)Windows 10 &＃43; Navida GTX 1080 显卡(需要安装cuda 和 cudnn)

6)VS Code 1.19.3

关于以上技术的介绍以及初次使用时的安装步骤&＃xff0c;我这里不再多说了&＃xff0c;网上教程很多&＃xff0c;提示一下&＃xff0c;初次安装环境&＃xff0c;会有很多坑。一定要使用gpu版本的tensorflow&＃xff0c;如果仅仅是自己搞着练练手&＃xff0c;熟悉熟悉流程&＃xff0c;安装cpu版本也行。

接口定义

好了&＃xff0c;技术环境介绍完了之后&＃xff0c;再把接口确定下来&＃xff1a;

名称

接口

参数

在线图片检测

/detect/online

Method&＃61;POST

online_image_url&＃61;url[string]

{

“image”:”result_url”,

“results”:[

{

“box”:[left, top, right, bottom],

“score”:score,

“class”:class

{

“box”:[left, top, right, bottom],

“score”:score,

“class”:class

}

...

“time”:create_time,

“type”:”online”

}

本地图片检测

/detect/local

Method&＃61;POST

local_image&＃61;file data[byte]

multipart/form-data

{

“image”:”result_url”,

“results”:[

{

“box”:[left, top, right, bottom],

“score”:score,

“class”:class

{

“box”:[left, top, right, bottom],

“score”:score,

“class”:class

}

...

“time”:create_time,

“type”:”local”

}

在线图片分类

/classification/online

Method&＃61;POST

online_image_url&＃61;url[string]

还没完成

本地图片分类

/classification/local

Method&＃61;POST

local_image&＃61;file_data[byte]

multipart/form_data

还没完成

写这篇博客的时候&＃xff0c;图片分类的模型还没有训练好&＃xff0c;所以暂时放一下&＃xff0c;下次更新。以上四个接口分两类&＃xff0c;一类是提交在线图片的url即可&＃xff0c;二类是提交本地图片文件(表单上传)。两类都需要POST方式提交&＃xff0c;返回结果是json格式&＃xff0c;里面包含了处理之后的图片url(所有的结果已经绘制在上面了)&＃xff0c;还有处理的raw_data&＃xff0c;客户端收到这些raw_data后可以自己用作其他地方。

目标检测

目标检测算法使用的是YOLO V3&＃xff0c;这里是C语言实现的版本&＃xff1a;http://pjreddie.com/darknet/ 。由于我比较熟悉Python&＃xff0c;所以我用的是另外一个Python版本的实现(基于Keras)&＃xff0c;这里是Keras版本的实现&＃xff1a;https://github.com/qqwweee/keras-yolo3。如果想要训练更好的模型&＃xff0c;需要自己准备数据集&＃xff0c;源码中有一个我写的开源工具&＃xff0c;专门用来标记这个框架所用的数据集(这个工具需要.net 4.0&＃43;)。

训练数据集使用的是微软的COCO数据集(https://github.com/cocodataset/cocoapi)&＃xff0c;这个也是C语言版本的默认数据集&＃xff0c;你可以直接从官网上下载训练好的模型使用。

图片分类

待更新...

Web服务器

由于是Web API&＃xff0c;那么你首先必须得有一个自己的Web Server。因为这是一个demo程序&＃xff0c;所以没必要使用类似Django 、Flask这样的框架&＃xff0c;于是索性就自己写一个吧。功能很简单&＃xff0c;提供静态文件访问、以及可以处理我的API接口就行&＃xff0c;写完核心代码大约200行(包含API接口处理的逻辑)。整个Web程序用到的模块大概有&＃xff1a;http.server、PIL、urllib、io、uuid、time、json、os以及cgi。可以看到并不复杂。

整个Web Server的代码&＃xff1a;

处理逻辑

从调用API接口到返回处理结果的流程相当简单&＃xff0c;跟普通的HTTP请求一样&＃xff0c;客户端发送HTTP请求&＃xff0c;携带对象参数&＃xff0c;Web Server在接收到数据后&＃xff0c;开始调用计算模块&＃xff0c;并将计算结果转换成json格式返回给客户端&＃xff1a;

图中橙色部分为关键部分&＃xff0c;详细实现请参见源码中的vision模块。

Demo效果

Demo中写好了一个静态html页面&＃xff0c;运行python server.py后&＃xff0c;在浏览中访问&＃xff1a;http://localhost:8080/web-app/index.html即可看见测试页面。左边为处理之后的图片&＃xff0c;右边为返回的json结果。

检测在线图片&＃xff0c;在文本框中copy图片url&＃xff0c;点击提交。

上传本地图片&＃xff0c;点击提交。

与此同时&＃xff0c;在控制台(或我自己的VS Code集成终端)中可以看到如下输出&＃xff1a;

最开始是检测花费的时间&＃xff0c;接着就是检测到的目标物体以及对应的坐标、分数等等。后面是转换之后的json字符串&＃xff0c;最后客户端根据json中的url加载处理之后的图片。

视频目标跟踪

这里稍微说一下跟视频有关的处理。对于视频来讲&＃xff0c;它跟图片一样&＃xff0c;由一张张图片组成&＃xff0c;唯一的区别就是它具备时间的维度。我们不仅要检测每帧中的目标&＃xff0c;还要判断前后帧之间各个目标之间的联系。然后利用目标物体的位移差来分析物体行为&＃xff0c;对于路上车辆来讲&＃xff0c;可以分析“异常停车”、“压线”、“逆行掉头”、“车速”、“流量统计”、“抛洒物”等数据。

关于机器学习

AI开发离不开机器学习(深度学习)&＃xff0c;而机器学习涉及到的知识相对来讲非常广泛&＃xff0c;不仅仅要求开发者掌握好编程技能&＃xff0c;还对数学知识有较高的要求。

我认为作为普通程序员&＃xff0c;如果要学习AI开发&＃xff0c;请用一种Top Down的方式&＃xff0c;抛开晦涩难懂的数学理论&＃xff0c;先找个适合自己的机器学习框架(比如tensorflow或者基于它的keras)&＃xff0c;学会如何准备训练数据集(比如本文中如何去标记图片&＃xff1f;)&＃xff0c;如何训练自己的模型&＃xff0c;然后用训练得到的模型去解决一些小问题(比如本文中的图像目标检测)。等自己对机器学习有一种具体的认识之后&＃xff0c;经过一段时间的摸索&＃xff0c;会自然而然地引导我们去了解底层的数学原理&＃xff0c;这个时候再去搞清楚这些原理是什么。

个人认为&＃xff0c;不要先上来就要搞懂什么是梯度下降优化法、什么是目标函数、什么是激活函数&＃xff0c;什么是学习率...&＃xff0c;这些概念确实需要掌握&＃xff0c;但是不是你学习机器学习最开始的时候。另外学习机器学习&＃xff0c;请使用Python。

计划下一篇介绍基于图片识别的视频自动分类&＃xff0c;比如自动鉴黄等软件。

推荐阅读

format
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
tags
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
format
移动 UI 设计基础：打造简洁高效的用户界面

本章将深入探讨移动 UI 设计的核心原则，帮助开发者构建简洁、高效且用户友好的界面。通过学习设计规则和用户体验优化技巧，您将能够创建出既美观又实用的移动应用。 ... [详细]

蜡笔小新 2024-12-27 08:43:40
php
PHP 5.5.0rc1 发布：深入解析 Zend OPcache

2013年5月9日，PHP官方发布了PHP 5.5.0rc1和PHP 5.4.15正式版，这两个版本均支持64位环境。本文将详细介绍Zend OPcache的功能及其在Windows环境下的配置与测试。 ... [详细]

蜡笔小新 2024-12-26 12:56:20
php
PHP 5.2.5 安装与配置指南

本文详细介绍了 PHP 5.2.5 的安装和配置步骤，帮助开发者解决常见的环境配置问题，特别是上传图片时遇到的错误。通过本教程，您可以顺利搭建并优化 PHP 运行环境。 ... [详细]

蜡笔小新 2024-12-27 19:05:41
php
c# – UWP：BrightnessOverride StartOverride逻辑

c# – UWP：BrightnessOverride StartOverride逻辑 ... [详细]

蜡笔小新 2024-12-27 16:56:40
php
如何在窗口右下角添加调整大小的手柄

本文探讨了如何在传统MFC/Win32 API编程中实现类似C# WinForms中的SizeGrip功能，即在窗口的右下角显示一个用于调整窗口大小的手柄。我们将介绍具体的实现方法和相关API。 ... [详细]

蜡笔小新 2024-12-27 11:17:27
byte
深入理解Python的os和sys模块

本文详细解析了Python中的os和sys模块，介绍了它们的功能、常用方法及其在实际编程中的应用。 ... [详细]

蜡笔小新 2024-12-26 22:04:19
format
如何高效创建和使用字体图标

在Web和移动开发中，为什么选择字体图标？主要原因是其卓越的性能，可以显著减少HTTP请求并优化页面加载速度。本文详细介绍了从设计到应用的字体图标制作流程，并提供了专业建议。 ... [详细]

蜡笔小新 2024-12-26 20:48:44
format
如何验证Windows 7系统中U盘启动盘的制作是否成功

本文将详细介绍在Windows 7环境下，检查U盘启动盘是否制作成功的多种方法，包括通过BIOS设置和使用模拟启动工具。 ... [详细]

蜡笔小新 2024-12-26 19:40:06
fetch
优化Kafka流状态存储查询的最佳实践

本文探讨了如何优化和正确配置Kafka Streams应用程序以确保准确的状态存储查询。通过调整配置参数和代码逻辑，可以有效解决数据不一致的问题。 ... [详细]

蜡笔小新 2024-12-26 18:17:14
php
macOS系统及其关键功能解析

本文详细介绍了macOS系统的核心组件，包括如何管理其安全特性——系统完整性保护（SIP），并探讨了不同版本的更新亮点。对于使用macOS系统的用户来说，了解这些信息有助于更好地管理和优化系统性能。 ... [详细]

蜡笔小新 2024-12-26 18:05:04
tree
2023年京东Android面试真题解析与经验分享

本文由一位拥有6年Android开发经验的工程师撰写，详细解析了京东面试中常见的技术问题。涵盖引用传递、Handler机制、ListView优化、多线程控制及ANR处理等核心知识点。 ... [详细]

蜡笔小新 2024-12-26 17:45:48
const
使用JPA Criteria API构建动态查询条件

本文介绍如何使用JPA Criteria API创建带有多个可选参数的动态查询方法。当某些参数为空时，这些参数不会影响最终查询结果。 ... [详细]

蜡笔小新 2024-12-26 09:26:16
php
MicroATX与MATX：主板规格详解

本文详细介绍了MicroATX（也称Mini ATX）和MATX主板规格，探讨了它们的结构特点、应用场景及对电脑系统成本和性能的影响。同时，文章还涵盖了相关操作系统的实用技巧，如蓝牙设备图标删除、磁盘管理等。 ... [详细]

蜡笔小新 2024-12-25 18:53:29

php枫羲

寂寞是一个人的修身养性

Tags | 热门标签

RankList | 热门文章