【深度学习系列】关于PaddlePaddle的一些避“坑”技巧,【深度学习系列】PaddlePaddle之数据预处理

作者：手机用户2602929123 | 来源：互联网 | 2023-09-03 12:54

最近除了工作以外，业余在参加Paddle的AI比赛，在用Paddle训练的过程中遇到了一些问题，并找到了解决方法，跟大家分享一下：PaddlePaddle的Anaconda的兼

　　最近除了工作以外，业余在参加Paddle的AI比赛，在用Paddle训练的过程中遇到了一些问题，并找到了解决方法，跟大家分享一下：

PaddlePaddle的Anaconda的兼容问题

　　之前我是在服务器上安装的PaddlePaddle的gpu版本，我想把BROAD数据拷贝到服务器上面，结果发现我们服务器的22端口没开，不能用scp传上去，非常郁闷，只能在本地训练。本机mac的显卡是A卡，所以只能装cpu版本的，安装完以后，我发现运行一下程序的时候报错了：

1 import paddle.v2 as paddle
2 paddle.init(use_gpu=False,trainer_count=1)

　　报错：

1 Fatal Python error: PyThreadState_Get: no current thread
2 Abort trap: 6

　　这让我非常郁闷，因为之前我直接在服务器上装没有问题，但是我的数据不能传上去，所以只能在本机装一个，直接pip install paddlepaddle，初始化报错。后来我发现我本机装了anaconda，用anaconda的python运行paddle会有一些小问题，不过可以使用otool 和 install_name_tool对_swig_paddle.so进行修改就可以,参考了下github的issue：

　　1.运行otool，可以看到pip安装之后的_swig_paddle.so依赖/usr/local/opt/python/Frameworks/Python.framework/Versions/2.7/Python，但实际系统中不存在该路径

1 otool -L /anaconda/lib/python2.7/site-packages/py_paddle/_swig_paddle.so
2 /anaconda/lib/python2.7/site-packages/py_paddle/_swig_paddle.so:
3 /System/Library/Frameworks/CoreFoundation.framework/Versions/A/CoreFoundation (compatibility version 150.0.0, current version 1445.12.0)
4 /System/Library/Frameworks/Security.framework/Versions/A/Security (compatibility version 1.0.0, current version 58286.20.16)
5 /usr/local/opt/python/Frameworks/Python.framework/Versions/2.7/Python (compatibility version 2.7.0, current version 2.7.0)
6 /usr/lib/libc++.1.dylib (compatibility version 1.0.0, current version 400.9.0)
7 /usr/lib/libSystem.B.dylib (compatibility version 1.0.0, current version 1252.0.0)

　　2.利用install_name_tool来替换依赖

1 install_name_tool -change /usr/local/opt/python/Frameworks/Python.framework/Versions/2.7/Python ~/anaconda/lib/libpython2.7.dylib ~/anaconda/lib/python2.7/site-packages/py_paddle/_swig_paddle.so

　　3.替换成功后，可以看到第五条已经成功的换成anaconda下的路径了

1 otool -L /anaconda/lib/python2.7/site-packages/py_paddle/_swig_paddle.so
2 /anaconda/lib/python2.7/site-packages/py_paddle/_swig_paddle.so:
3 /System/Library/Frameworks/CoreFoundation.framework/Versions/A/CoreFoundation (compatibility version 150.0.0, current version 1445.12.0)
4 /System/Library/Frameworks/Security.framework/Versions/A/Security (compatibility version 1.0.0, current version 58286.20.16)
5 /anaconda/lib/libpython2.7.dylib (compatibility version 2.7.0, current version 2.7.0)
6 /usr/lib/libc++.1.dylib (compatibility version 1.0.0, current version 400.9.0)
7 /usr/lib/libSystem.B.dylib (compatibility version 1.0.0, current version 1252.0.0)

　　现在再运行paddle.init就不会有问题了

　不过要注意一点的是：在第二步中，anaconda的路径要写绝对路径。不能直接进去到anacona的上层目录后直接写/anaconda/lib&＃8230;，如果这样做，那么你换一个路径再执行paddle.init还是会有问题，因为找不到你的anaconda的路径。

PaddlePaddle数据类型与数据读取

　　我在这篇文章“【深度学习系列】PaddlePaddle之数据预处理”中写过PaddlePaddle的基本数据类型与如何用自己的数据集进行训练，但是还有很多同学给我发邮件问我这方面的问题，说在处理自己数据集的时候遇到了很多问题。下面我总结一下几个被问到的问题：

　　1.不明白什么时候用sequence数据

　　我们知道paddle有四种数据类型：dense_vector、sparse_binary_vector、sparse_float_vector和integer，但是还有三种序列格式，对于dense_vector的话，它的序列格式是dense_vector_sequence，但是什么时候用dense_vector_sequence呢？

　　如果你的数据是x = [1.0,2.0,3.0,4.0]这样的，那么就应该用dense_vector，维度即为输入数据的维度（这里我们假设是4），那么应该设置为：

　　x = paddle.layer.data(name=&＃8217;x&＃8217;, type=paddle.data_type.dense_vector(4))

　　如果你的数据是x = [ [1.0,2.0], [2.0,3.0], [3.0,4.0]]，那么我们可以看到这个数据有三个时间步长，每个时间步的向量维度是2，应该设置为：

　　x = paddle.layer.data(name=&＃8217;x&＃8217;, type=paddle.data_type.dense_vector_sequence(2))

　　同理，interger_value和interger_value_sequence也是同样的处理方法，只不过向量里的元素由dense_vector中的float换成了int。

　　2.不知道如何创建reader

　　在数据预处理那篇文章中举了两个例子来说明如何创建自己的数据集，包括三种方式：reader、reader_creator和reader_decorator，针对于这个比赛，我们将数据解析后，转换成data和label的形式，那么我们应该如何创建reader呢？其实有很多种方式，写一个最简单的方式。我们来创建一个reader creator：

1 def reader_creator(data,label):
2 def reader():
3 for i in xrange(len(data)):
4 yield data[i,:],int(label[i])
5 return reader

　　在这里可以看到，使用了yield生成器来生成数据，分别生成同一个sample的data和label，返回的是一个reader函数，方便我们后面train的时候灌入数据。

　　当然也有其他的方式可以创建，大家可以自行发挥。

　　3.不知道怎么用创建好的reader训练

　　大家可能会觉得很奇怪，为什么我们创建了reader creator后要返回一个reader函数呢，其实我们是为了方便在训练的时候调用，下面创建一个train_reader

train_reader = paddle.batch(paddle.reader.shuffle(
reader_creator(data,label),buf_size=200),
batch_size=16)

　　我们上一步创建好的reader返回的数据放到paddle.reader.shuffle里进行数据混洗，就是把数据打散，buf_size表示我一次性把多少条数据放进来进行shuffle，可以自行设置，混洗好的数据放到paddle.batch里进行，以batch_size的量级批量灌倒模型里去训练，注意如果使用sgd的话，batch_size不能设置的太大，会崩溃，亲测 = =！

　　同理，我们也可以创建val_reader，test_reader。

　　创建完后，就可以放到trainer里训练了

trainer.train(reader=train_reader,num_passes=20,event_handler=event_handler)

　　还有一些关于模型训练的参数设置技巧大家可以多尝试，如果有很多相同的问题话，我会再总结了发出来。

推荐阅读

install
Dockerfile 编写与 Docker 网络配置详解

本文详细介绍了 Dockerfile 的编写方法及其在网络配置中的应用，涵盖基础指令、镜像构建与发布流程，并深入探讨了 Docker 的默认网络、容器互联及自定义网络的实现。 ... [详细]

蜡笔小新 2024-12-27 17:31:41
process
yikesnews第11期：微软Office两个0day和一个提权0day

点击阅读原文可点击链接根据法国大选被黑客干扰，发送了带漏洞的文档Trumps_Attack_on_Syria_English.docx而此漏洞与ESET&FireEy ... [详细]

蜡笔小新 2024-12-21 16:24:32
js
探索WebGL与Three.js构建多元3D场景的技术路径

本文深入探讨了WebGL与Three.js在构建多样化3D场景中的应用，详细解析了两者如何协同工作以实现高性能的3D渲染，并提供了实践指南。 ... [详细]

蜡笔小新 2024-12-17 12:54:15
get
前文|功能型_品读鸿蒙HDF架构

前文|功能型_品读鸿蒙HDF架构 ... [详细]

蜡笔小新 2024-12-15 11:21:42
get
图像分类算法的优化策略与实践

本文探讨了《Bag of Tricks for Image Classification with Convolutional Neural Networks》论文中的多项技术，旨在通过具体实例和实验验证，提高卷积神经网络在图像分类任务中的性能。文章详细介绍了从模型训练加速、网络结构调整到训练参数优化等多个方面的改进方法。 ... [详细]

蜡笔小新 2024-12-09 16:01:40
get
在Android模拟器上部署TaintDroid的详细步骤

本文详细介绍如何在Android模拟器上安装TaintDroid的过程，包括解决源代码链接失效及服务器文件变动等问题，旨在帮助后续用户避免不必要的麻烦。 ... [详细]

蜡笔小新 2024-12-01 10:41:11
js
资源推荐 | TensorFlow官方中文教程助力英语非母语者学习

来源：机器之心。本文详细介绍了TensorFlow官方提供的中文版教程和指南，帮助开发者更好地理解和应用这一强大的开源机器学习平台。 ... [详细]

蜡笔小新 2024-12-28 09:00:51
get
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
python
python的交互模式怎么输出名文汉字[python常见问题]

在命令行模式下敲命令python，就看到类似如下的一堆文本输出，然后就进入到Python交互模式，它的提示符是>>>，此时我们可以使用print() ... [详细]

蜡笔小新 2024-12-27 21:32:05
get
网络链路质量监控：Smokeping部署与配置

本文详细介绍了如何在Linux系统上安装和配置Smokeping，以实现对网络链路质量的实时监控。通过详细的步骤和必要的依赖包安装，确保用户能够顺利完成部署并优化其网络性能监控。 ... [详细]

蜡笔小新 2024-12-27 19:31:05
command
深入理解设计模式与七大原则

本文详细探讨了Java中的24种设计模式及其应用，并介绍了七大面向对象设计原则。通过创建型、结构型和行为型模式的分类，帮助开发者更好地理解和应用这些模式，提升代码质量和可维护性。 ... [详细]

蜡笔小新 2024-12-27 19:10:10
get
深入理解 SQL 视图、存储过程与事务

本文详细介绍了SQL中的视图、存储过程和事务的概念及应用。视图为用户提供了一种灵活的数据查询方式，存储过程则封装了复杂的SQL逻辑，而事务确保了数据库操作的完整性和一致性。 ... [详细]

蜡笔小新 2024-12-27 17:40:42
get
三星Galaxy S8/S8+即将登场，全面解析新旗舰

3月29日晚11点，备受瞩目的三星Galaxy S8/S8+将正式发布。作为三星在Note 7爆炸事件后的重磅产品，S8/S8+不仅承载着恢复消费者信心的重任，其创新的设计和技术也备受期待。 ... [详细]

蜡笔小新 2024-12-18 10:21:02
format
Android 8.1 启动动画 ZIP 包详解

本文详细解析了 Android 8.1 系统启动动画的 ZIP 包结构，包括其组成文件及配置方法，特别是对 `desc.txt` 文件格式进行了深入说明。 ... [详细]

蜡笔小新 2024-12-06 16:02:12
install
解决C++代码在R中加载时出现的‘符号未找到’错误

本文探讨了一个在Mac Mavericks系统上使用Clang++成功编译但通过R CMD SHLIB构建并在R中加载时遇到‘符号未找到’错误的C++程序问题。文章详细分析了错误原因，并提供了有效的解决方案。 ... [详细]

蜡笔小新 2024-12-01 09:58:14

手机用户2602929123

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章