当前位置: 开发笔记 > 编程语言 > 正文

CV算法复现（分类算法2/6）：AlexNet（2012年Hinton组）

作者：mobiledu2502859163 | 来源：互联网 | 2023-09-17 18:58

致谢：霹雳吧啦Wz：https:space.bilibili.com18161609目录致谢：霹雳吧啦Wz：https:

致谢&＃xff1a;霹雳吧啦Wz&＃xff1a;https://space.bilibili.com/18161609

1 本次要点

1.1 深度学习理论

1.2 pytorch框架语法

2 网络简介

2.1 历史意义

2.2 网络亮点

2.3 网络架构

3 代码结构

3.1 model.py

3.2 train.py

3.3 predict.py

3.4 split_data.py

1 本次要点

1.1 深度学习理论

经过一次卷积操作后&＃xff0c;图像新尺寸计算公式&＃xff1a;&＃xff08;如果padding [p1, p2]中p1,p2不相等&＃xff0c;那么公式中2P就变为P1&＃43;P2&＃xff09;&＃xff08;如果结果值不是整数&＃xff0c;pytorch中会自动忽略最后一行以及最后一列&＃xff0c;以保证N为整数。&＃xff09;

1.2 pytorch框架语法

pytorch可以自定义网络权重的初始化方法&＃xff08;见model.py&＃xff09;。
pata &＃61; list(net.parameters()) #查看模型参数

2 网络简介

2.1 历史意义

2012年ImageNet图像分类冠军网络&＃xff0c;分类准确率由传统的 70%&＃43;直接提升到 80%&＃43;。在那年之后&＃xff0c;深
度学习开始迅速发展。

2.2 网络亮点

首次利用 GPU 进行网络加速训练。
使用了 ReLU 激活函数&＃xff0c;而不是传统的 Sigmoid 激活函数以及 Tanh 激活函数。
在前两层的全连接层中使用了 Dropout 随机失活神经元操作&＃xff0c;以减少过拟合。

2.3 网络架构

备注&＃xff1a;padding: [1, 2]即图像最左边缘加1列0&＃xff0c;最右边缘加2列0。图像最上边缘加1行0&＃xff0c;图像最下边缘加2行0。

3 代码结构

model.py
train.py
predict.py
split_data.py&＃xff08;数据集划分&＃xff09;

3.1 model.py

import torch.nn as nn import torch""" 本AlexNet复现相比原论文&＃xff0c;每层的卷积核个数减半。 """ class AlexNet(nn.Module):def __init__(self, num_classes&＃61;1000, init_weights&＃61;False):super(AlexNet, self).__init__()# nn.Sequential():将一系列层结构进行打包。省去每一层都用一个变量去表示。self.features &＃61; nn.Sequential(nn.Conv2d(3, 48, kernel_size&＃61;11, stride&＃61;4, padding&＃61;2), # input[3, 224, 224] output[48, 55, 55]nn.ReLU(inplace&＃61;True), #inplace&＃xff1a;通过增加计算量来降低内存使用&＃xff0c;从而可以载入更大模型&＃xff08;默认False&＃xff09;。nn.MaxPool2d(kernel_size&＃61;3, stride&＃61;2), # output[48, 27, 27]nn.Conv2d(48, 128, kernel_size&＃61;5, padding&＃61;2), # output[128, 27, 27]nn.ReLU(inplace&＃61;True),nn.MaxPool2d(kernel_size&＃61;3, stride&＃61;2), # output[128, 13, 13]nn.Conv2d(128, 192, kernel_size&＃61;3, padding&＃61;1), # output[192, 13, 13]nn.ReLU(inplace&＃61;True),nn.Conv2d(192, 192, kernel_size&＃61;3, padding&＃61;1), # output[192, 13, 13]nn.ReLU(inplace&＃61;True),nn.Conv2d(192, 128, kernel_size&＃61;3, padding&＃61;1), # output[128, 13, 13]nn.ReLU(inplace&＃61;True),nn.MaxPool2d(kernel_size&＃61;3, stride&＃61;2), # output[128, 6, 6])self.classifier &＃61; nn.Sequential(nn.Dropout(p&＃61;0.5),nn.Linear(128 * 6 * 6, 2048), # 输入&＃xff1a;128通道*6*6&＃xff08;特征图大小&＃xff09;&＃xff08;到此之前会拉成1维&＃xff09;nn.ReLU(inplace&＃61;True),nn.Dropout(p&＃61;0.5),nn.Linear(2048, 2048),nn.ReLU(inplace&＃61;True),nn.Linear(2048, num_classes),)if init_weights:self._initialize_weights()def forward(self, x):x &＃61; self.features(x)x &＃61; torch.flatten(x, start_dim&＃61;1) # torch中顺序[B,C,H,W]&＃xff0c;start_dim&＃61;1就是将C维度拉平。x &＃61; self.classifier(x)return x# 初始化权重方式&＃xff08;框架有默认&＃xff0c;如果要自定义可如下方式写&＃xff09;def _initialize_weights(self):for m in self.modules():if isinstance(m, nn.Conv2d):nn.init.kaiming_normal_(m.weight, mode&＃61;&＃39;fan_out&＃39;, nonlinearity&＃61;&＃39;relu&＃39;)if m.bias is not None:nn.init.constant_(m.bias, 0)elif isinstance(m, nn.Linear):nn.init.normal_(m.weight, 0, 0.01)nn.init.constant_(m.bias, 0)

3.2 train.py

import torch import torch.nn as nn from torchvision import transforms, datasets, utils import matplotlib.pyplot as plt import numpy as np import torch.optim as optim from model import AlexNet import os import json import time""" 数据集&＃xff1a;花分类&＃xff08;5类&＃xff09; """def main():device &＃61; torch.device("cuda:0" if torch.cuda.is_available() else "cpu")print("using {} device.".format(device))data_transform &＃61; {"train": transforms.Compose([transforms.RandomResizedCrop(224),transforms.RandomHorizontalFlip(),#水平随机翻转transforms.ToTensor(),transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))]),"val": transforms.Compose([transforms.Resize((224, 224)), # cannot 224, must (224, 224)transforms.ToTensor(),transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])}data_root &＃61; os.path.abspath(os.path.join(os.getcwd(), "../..")) #os.getcwd()&＃xff1a;获取当前绝对路径。"../.."返回到上上层路径。image_path &＃61; os.path.join(data_root, "data_set", "flower_data") # flower data set pathassert os.path.exists(image_path), "{} path does not exist.".format(image_path)train_dataset &＃61; datasets.ImageFolder(root&＃61;os.path.join(image_path, "train"),transform&＃61;data_transform["train"])train_num &＃61; len(train_dataset)# {&＃39;daisy&＃39;:0, &＃39;dandelion&＃39;:1, &＃39;roses&＃39;:2, &＃39;sunflower&＃39;:3, &＃39;tulips&＃39;:4}flower_list &＃61; train_dataset.class_to_idxcla_dict &＃61; dict((val, key) for key, val in flower_list.items())#将键和值顺序反过来。目的是让模型预测的结果索引&＃xff0c;可直接找到对应的类型。# write dict into json filejson_str &＃61; json.dumps(cla_dict, indent&＃61;4)#编码成json格式with open(&＃39;class_indices.json&＃39;, &＃39;w&＃39;) as json_file:#新建json文件并写入内容json_file.write(json_str)batch_size &＃61; 32nw &＃61; min([os.cpu_count(), batch_size if batch_size > 1 else 0, 8]) # number of workersprint(&＃39;Using {} dataloader workers every process&＃39;.format(nw))train_loader &＃61; torch.utils.data.DataLoader(train_dataset,batch_size&＃61;batch_size, shuffle&＃61;True,num_workers&＃61;nw)validate_dataset &＃61; datasets.ImageFolder(root&＃61;os.path.join(image_path, "val"),transform&＃61;data_transform["val"])val_num &＃61; len(validate_dataset)validate_loader &＃61; torch.utils.data.DataLoader(validate_dataset,batch_size&＃61;4, shuffle&＃61;False,num_workers&＃61;nw)print("using {} images for training, {} images fot validation.".format(train_num,# 查看数据集代码 val_num))# test_data_iter &＃61; iter(validate_loader)# test_image, test_label &＃61; test_data_iter.next()## def imshow(img):# img &＃61; img / 2 &＃43; 0.5 # unnormalize# npimg &＃61; img.numpy()# plt.imshow(np.transpose(npimg, (1, 2, 0)))# plt.show()## print(&＃39; &＃39;.join(&＃39;%5s&＃39; % cla_dict[test_label[j].item()] for j in range(4)))# imshow(utils.make_grid(test_image))net &＃61; AlexNet(num_classes&＃61;5, init_weights&＃61;True)net.to(device)loss_function &＃61; nn.CrossEntropyLoss()# pata &＃61; list(net.parameters()) #查看模型参数&＃xff08;调试用&＃xff09;optimizer &＃61; optim.Adam(net.parameters(), lr&＃61;0.0002)save_path &＃61; &＃39;./AlexNet.pth&＃39;best_acc &＃61; 0.0for epoch in range(10):# 训练阶段net.train() #自动判定dropout或BN层是否应该启用。running_loss &＃61; 0.0t1 &＃61; time.perf_counter()for step, data in enumerate(train_loader, start&＃61;0):images, labels &＃61; dataoptimizer.zero_grad()outputs &＃61; net(images.to(device))loss &＃61; loss_function(outputs, labels.to(device))loss.backward()#反向传播optimizer.step()#更新每个节点参数# print statisticsrunning_loss &＃43;&＃61; loss.item()# print train process 打印训练信息rate &＃61; (step &＃43; 1) / len(train_loader)a &＃61; "*" * int(rate * 50)b &＃61; "." * int((1 - rate) * 50)print("\rtrain loss: {:^3.0f}%[{}->{}]{:.3f}".format(int(rate * 100), a, b, loss), end&＃61;"")print()print(time.perf_counter()-t1)# 验证阶段net.eval() #自动判定dropout或BN层是否应该启用。acc &＃61; 0.0 # accumulate accurate number / epochwith torch.no_grad():#不去计算损失梯度for val_data in validate_loader:val_images, val_labels &＃61; val_dataoutputs &＃61; net(val_images.to(device))predict_y &＃61; torch.max(outputs, dim&＃61;1)[1]acc &＃43;&＃61; (predict_y &＃61;&＃61; val_labels.to(device)).sum().item()val_accurate &＃61; acc / val_numif val_accurate > best_acc: best_acc &＃61; val_accuratetorch.save(net.state_dict(), save_path)print(&＃39;[epoch %d] train_loss: %.3f test_accuracy: %.3f&＃39; %(epoch &＃43; 1, running_loss / step, val_accurate))print(&＃39;Finished Training&＃39;)if __name__ &＃61;&＃61; &＃39;__main__&＃39;:main()

训练结果&＃xff1a;

3.3 predict.py

import torch from model import AlexNet from PIL import Image from torchvision import transforms import matplotlib.pyplot as plt import jsondata_transform &＃61; transforms.Compose([transforms.Resize((224, 224)),transforms.ToTensor(),transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])# load image img &＃61; Image.open("../tulip.jpg") plt.imshow(img) # [N, C, H, W] img &＃61; data_transform(img) # expand batch dimension img &＃61; torch.unsqueeze(img, dim&＃61;0)# read class_indict try:json_file &＃61; open(&＃39;./class_indices.json&＃39;, &＃39;r&＃39;)class_indict &＃61; json.load(json_file) except Exception as e:print(e)exit(-1)# create model model &＃61; AlexNet(num_classes&＃61;5) # load model weights model_weight_path &＃61; "./AlexNet.pth" model.load_state_dict(torch.load(model_weight_path)) model.eval() with torch.no_grad():#不去计算损失梯度# predict classoutput &＃61; torch.squeeze(model(img))#torch.squeeze()&＃xff1a;对数据的维度进行压缩&＃xff0c;去掉维数为1的的维度predict &＃61; torch.softmax(output, dim&＃61;0)#将预测结果值转换为概率分布形式。predict_cla &＃61; torch.argmax(predict).numpy() print(class_indict[str(predict_cla)], predict[predict_cla].item()) plt.show()

输出&＃xff1a;

3.4 split_data.py

import os from shutil import copy, rmtree import random""" 使用步骤如下&＃xff1a; &＃xff08;1&＃xff09;在data_set文件夹下创建新文件夹"flower_data" &＃xff08;2&＃xff09;点击链接下载花分类数据集 http://download.tensorflow.org/example_images/flower_photos.tgz &＃xff08;3&＃xff09;解压数据集到flower_data文件夹下 &＃xff08;4&＃xff09;执行"split_data.py"脚本自动将数据集划分成训练集train和验证集val├── flower_data ├── flower_photos&＃xff08;解压的数据集文件夹&＃xff0c;3670个样本&＃xff09; ├── train&＃xff08;生成的训练集&＃xff0c;3306个样本&＃xff09; └── val&＃xff08;生成的验证集&＃xff0c;364个样本&＃xff09; """def mk_file(file_path: str):if os.path.exists(file_path):# 如果文件夹存在&＃xff0c;则先删除原文件夹在重新创建rmtree(file_path)os.makedirs(file_path)def main():# 保证随机可复现random.seed(0)# 将数据集中10%的数据划分到验证集中split_rate &＃61; 0.1# 指向你解压后的flower_photos文件夹cwd &＃61; os.getcwd()data_root &＃61; os.path.join(cwd, "flower_data")origin_flower_path &＃61; os.path.join(data_root, "flower_photos")assert os.path.exists(origin_flower_path)flower_class &＃61; [cla for cla in os.listdir(origin_flower_path)if os.path.isdir(os.path.join(origin_flower_path, cla))]# 建立保存训练集的文件夹train_root &＃61; os.path.join(data_root, "train")mk_file(train_root)for cla in flower_class:# 建立每个类别对应的文件夹mk_file(os.path.join(train_root, cla))# 建立保存验证集的文件夹val_root &＃61; os.path.join(data_root, "val")mk_file(val_root)for cla in flower_class:# 建立每个类别对应的文件夹mk_file(os.path.join(val_root, cla))for cla in flower_class:cla_path &＃61; os.path.join(origin_flower_path, cla)images &＃61; os.listdir(cla_path)num &＃61; len(images)# 随机采样验证集的索引eval_index &＃61; random.sample(images, k&＃61;int(num*split_rate))for index, image in enumerate(images):if image in eval_index:# 将分配至验证集中的文件复制到相应目录image_path &＃61; os.path.join(cla_path, image)new_path &＃61; os.path.join(val_root, cla)copy(image_path, new_path)else:# 将分配至训练集中的文件复制到相应目录image_path &＃61; os.path.join(cla_path, image)new_path &＃61; os.path.join(train_root, cla)copy(image_path, new_path)print("\r[{}] processing [{}/{}]".format(cla, index&＃43;1, num), end&＃61;"") # processing barprint()print("processing done!")if __name__ &＃61;&＃61; &＃39;__main__&＃39;:main()

输出&＃xff1a;

推荐阅读

usb
Delphi XE2 之 FireMonkey 入门(19) - TFmxObject 的子类们(表)

td{border:1pxsolid#808080;}参考:和FMX相关的类(表)TFmxObjectIFreeNotification ... [详细]

蜡笔小新 2024-11-21 22:35:24
jsp
深入解析Unity3D游戏开发中的音频播放技术

在游戏开发中，音频播放是提升玩家沉浸感的关键因素之一。本文将探讨如何在Unity3D中高效地管理和播放不同类型的游戏音频，包括背景音乐和效果音效，并介绍实现这些功能的具体步骤。 ... [详细]

蜡笔小新 2024-11-22 21:05:22
bit
服务器虚拟化存储设计,完美规划储存与资源，部署高性能虚拟化桌面

规划部署虚拟桌面环境前，必须先估算目前所使用实体桌面环境的工作负载与IOPS性能，并慎选储存设备。唯有谨慎估算贴近实际的IOPS性能，才能 ... [详细]

蜡笔小新 2024-11-22 19:12:09
request
基于SSM框架的在线考试系统：随机组卷功能详解

本文深入探讨了基于SSM（Spring, Spring MVC, MyBatis）框架构建的在线考试系统中，随机组卷功能的设计与实现方法。 ... [详细]

蜡笔小新 2024-11-22 19:00:26
request
Python3爬虫入门：pyspider的基本使用[python爬虫入门]

Python学习网有大量免费的Python入门教程，欢迎大家来学习。本文主要通过爬取去哪儿网的旅游攻略来给大家介绍pyspid ... [详细]

蜡笔小新 2024-11-22 18:00:41
request
配置 Apache 虚拟主机详解

本文详细介绍如何在 Apache 中设置虚拟主机，包括基本配置和高级设置，帮助用户更好地理解和使用虚拟主机功能。 ... [详细]

蜡笔小新 2024-11-22 15:04:59
runtime
为何 TypeScript 如此流行而 Python 类型注解却鲜少使用？

本文探讨了Python类型注解使用率低下的原因，主要归结于历史背景和投资回报率（ROI）的考量。文章不仅分析了类型注解的实际效用，还回顾了Python类型注解的发展历程。 ... [详细]

蜡笔小新 2024-11-22 14:02:28
runtime
提升Mac上IntelliJ IDEA内存限制的方法

本文详细介绍了如何在Mac操作系统中为IntelliJ IDEA配置更高的内存限制，以提高开发效率和性能。 ... [详细]

蜡笔小新 2024-11-22 05:02:38
utf-8
深入理解函数式编程中的函子

函子（Functor）是函数式编程中的一个重要概念，它不仅是一个特殊的容器，还提供了一种优雅的方式来处理值和函数。本文将详细介绍函子的基本概念及其在函数式编程中的应用，包括如何通过函子控制副作用、处理异常以及进行异步操作。 ... [详细]

蜡笔小新 2024-11-21 20:29:15
utf-8
解决iOS应用推送通知错误：未找到有效aps-environment权限

在尝试加载支持推送通知的iOS应用程序的Ad Hoc构建时，遇到了‘no valid aps-environment entitlement found for application’的错误提示。本文将探讨此错误的原因及多种可能的解决方案。 ... [详细]

蜡笔小新 2024-11-21 19:26:31
utf-8
Spring 事件监听机制详解与应用

本文详细介绍了如何在Spring框架中设置事件发布器、定义事件监听器及响应事件的具体步骤。通过实现ApplicationEventPublisherAware接口来创建事件发布器，利用ApplicationEvent类定义自定义事件，并通过ApplicationListener接口来处理这些事件。 ... [详细]

蜡笔小新 2024-11-21 19:17:55
bit
Oracle 11g 创建表空间与基础配置

本文详细介绍了Oracle 11g中的创建表空间的方法，以及如何设置客户端和服务端的基本配置，包括用户管理、环境变量配置等。 ... [详细]

蜡笔小新 2024-11-21 18:54:39
foreach
如何使用 org.apache.tinkerpop.gremlin.structure.VertexProperty 的 key 方法

本文详细介绍了 `org.apache.tinkerpop.gremlin.structure.VertexProperty` 类中的 `key()` 方法，并提供了多个实际应用的代码示例。通过这些示例，读者可以更好地理解该方法在图数据库操作中的具体用途。 ... [详细]

蜡笔小新 2024-11-21 17:38:10
sum
如何高效解决Android应用ANR问题？

本文介绍了ANR（应用程序无响应）的基本概念、常见原因及其解决方案，并提供了实用的工具和技巧帮助开发者快速定位和解决ANR问题，提高应用的用户体验。 ... [详细]

蜡笔小新 2024-11-19 19:31:48
split
pytorch(一)：torch构建数据集并训练一个神经网络

目录预备知识导包构建数据集神经网络结构训练测试精度可视化计算模型精度损失可视化输出网络结构信息训练神经网络定义参数载入数据载入神经网络结构、损失及优化训练及测试损失、精度可视化qu ... [详细]

蜡笔小新 2024-11-14 13:06:38

mobiledu2502859163

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章