当前位置: 开发笔记 > 编程语言 > 正文

零基础教程教你使用phpml机器学习预测泰坦尼克号生还率案例

作者：宝贝小妖精芳_555 | 来源：互联网 | 2023-05-29 19:59

关于php-ml与php随着人工智能的发展，越来越多的新技术涌现出来，无论是深度学习还是传统机器学习的出现，让整个技术可以实现更多的可能本

关于php-ml与php

随着人工智能的发展，越来越多的新技术涌现出来，无论是深度学习还是传统机器学习的出现，让整个技术可以实现更多的可能

本文作为启蒙科普文章，简单介绍机器学习基本技法，如果你是一个phper，看了这篇文章，对机器学习产生了极大的兴趣，那么文章最后面会给出指引学习路线，帮助更多的人去入门，去学习解决生活中更多的问题

学习目标

使用php-ml库的随机森林算法训练一个基本分类模型，预测泰坦尼克号上面

乘客的生存率

然后在kaggle（模型比拼网站）提交你的训练模型结果

wow！这很酷！一共8000人参与了这次算法比赛，我使用php库训练的算法拿

到了2784名！你不准备动手试试？

php-ml库简介

这个库我最早是在2017年初看到的，当时在github上star只有寥寥几百颗

经过半年的迭代更新，这个库拥有了更多的star，但是我发现中文教程却是极

少，几乎没有什么中国文档（可能是中国phper都忙着赚钱了，手动滑稽）

php作为我的入门语言，我是非常感谢他的简单，实用主义，为我的人生带来

了很多不一样的精彩，虽然他使用场景比较单一，虽然我后来学习了更多

更有意思的语言，但是我依然忘不了那个夏天，用php在屏幕上打出hello world

那个时候激动的感觉，所以我这次选择了php来进行现在流行的机器学习，我

个人比较看好php未来的发展，swoole的诞生，让php拥有了新的不一样的

思路，再加上这次的php-ml，这更酷了！

我在文章最后简单的翻译一下文档列表，有兴趣的初学同学可以根据我翻译的中文

搜索更多的相关的内容，我收集了官方文档。翻译如果不准确，请指出修正

感谢！

数据准备与工具

数据data下载链接

php>=7.0

php-ml库

数据分析

在github上的数据包里面，我们可以看到有几个不同的csv文件

其中for_php_train.csv/for_php_test.csv是我已经处理好的数据

建议大家直接使用，在这篇科普启蒙文章里，我就不多说关于数据分析的内

容了，那些知识比较琐碎繁杂，我们这次着重关注机器学习

安装

composer require php-ai/php-ml

代码编写

引入php-ml

require_once &＃39;vendor/autoload.php&＃39;;

使用库中的两个类

use Phpml\Dataset\CsvDataset; use Phpml\Classification\Ensemble\RandomForest;

引入数据

$dataset = new CsvDataset(&＃39;./data/for_php_train.csv&＃39;,5,true); $testset = new CsvDataset(&＃39;./data/for_php_test.csv&＃39;,5,true);

分析数据列(可选)

$dataset->getColumns()

提取数据中的特征与训练目标值

$sample = $dataset->getSamples(); $label = $dataset->getTargets();

训练模型(随机森林算法)

$RandomForest = new RandomForest(); $RandomForest->train($sample,$label);

使用测试数据预测结果

$result = $RandomForest->predict($testset->getSamples());

组装结果，导出csv文件

$csv=[]; $csv[0][&＃39;PassengerId&＃39;]=&＃39;PassengerId&＃39;; $csv[0][&＃39;Survived&＃39;]=&＃39;Survived&＃39;; foreach ($result as $k=>$value){$csv[$k+1][&＃39;PassengerId&＃39;]=$k+892;$csv[$k+1][&＃39;Survived&＃39;]=$value; } var_dump($csv); $file = fopen(&＃39;write.csv&＃39;,&＃39;a+b&＃39;); $data = $csv; foreach ($data as $value){fputcsv($file,$value); } fclose( $file);

查看结果并提交

wow！我们做到了，我们训练了第一个模型，并得到了结果！

让我们把他提交上去kaggle并获得你自己的分数吧！

总结

经过这次最最最基础的教程，恭喜你！你已经从机器学习的婴儿，迈出了婴

儿的第一步，接下来就是我们知识的补充与学习，如果你想在机器学习上

有所斩获的话，你还需要更多的知识来填充你的思路与想法！

下面是我写的另一篇文章，里面有关于机器学习的路线，come on！

学习路线文章

翻译php-ml列表目录

Association rule learning 关联规则算法
- Apriori–这是十大经典挖掘算法之一
Classification 分类算法
- SVC–SVM的分类形式
- k-Nearest Neighbors–knn算法，机器学习上，地位等同于于web经典的hello world
- Naive Bayes–朴素贝叶斯算法，P(A/B)=P(B/A)*P(A)/P(B),由贝叶斯公式变形的一种算法
- Decision Tree (CART)–决策树算法
- Ensemble Algorithms–集成算法
  - Bagging (Bootstrap Aggregating)–自助法
  - Random Forest–随机森林算法，后现代SVM
  - AdaBoost–自适应迭代上升算法
- Linear–线性分类器
  - Adaline–学习机
  - Decision Stump–决策桩
  - Perceptron–感知器
  - LogisticRegression–逻辑回归，初学者必备算法
Regression–回归算法
- Least Squares–最小平方法
- SVR–SVM的回归形式
Clustering–聚类算法
- k-Means–经典聚类算法，常问：与knn区别？
- DBSCAN–基于密度聚类算法
- Fuzzy C-Means–模糊聚类算法，很有意思的算法
Metric–度量方式（校验模型是否收敛较好的方法）
- Accuracy–准确率，关联信息，F1得分与召回率和查准率
- Confusion Matrix–混淆矩阵
- Classification Report–分类报告
Workflow–工作流
- Pipeline–管道
Neural Network–神经网络，近几年非常强大算法之一
- Multilayer Perceptron Classifier–多层感知器
Cross Validation–交叉验证，必学的train／test／cv
- Random Split–随机分割
- Stratified Random Split–分层随机分割
Preprocessing–数据预处理（数据清洗）
- Normalization–标准化
- Imputation missing values–补充缺失值，很好用
Feature Extraction–特征提取
- Token Count Vectorizer–文本处理方式之一
- Tf-idf Transformer–文本方式处理方式之一，目的上解决减少频繁单词权重，增加冷门有决定因素单词权重
Dimensionality Reduction–降低维度
- PCA (Principal Component Analysis)–降低维度高效方法
- Kernel PCA–套核的PCA
- LDA (Linear Discriminant Analysis)
Datasets–数据结构
- Array
- CSV
- Files
- Ready to use:–官方准备的测试数据
  - Iris
  - Wine
  - Glass
Models management–模型惯例方法
- Persistency–持久性
Math–数学结构与类型
- Distance
- Matrix
- Set
- Statistic
- Linear Algebra

推荐阅读

import
利用OpenCV和线性SVM实现人脸识别

本文介绍如何使用OpenCV和线性支持向量机（SVM）模型来开发一个简单的人脸识别系统，特别关注在只有一个用户数据集时的处理方法。 ... [详细]

蜡笔小新 2024-11-13 14:50:37
web
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
import
利用CIFAR10数据集快速掌握Mixup数据增强技术，显著提高图像分类精度

通过使用CIFAR-10数据集，本文详细介绍了如何快速掌握Mixup数据增强技术，并展示了该方法在图像分类任务中的显著效果。实验结果表明，Mixup能够有效提高模型的泛化能力和分类精度，为图像识别领域的研究提供了有价值的参考。 ... [详细]

蜡笔小新 2024-11-05 14:24:36
uml
在范围[0..n-1]中产生m个不同的随机数 - Generating m distinct random numbers in the range [0..n-1]

Ihavetwomethodsofgeneratingmdistinctrandomnumbersintherange[0..n-1]我有两种方法在范围[0.n-1]中生 ... [详细]

蜡笔小新 2024-11-13 09:49:14
web
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
char
HTML 页面中调用 JavaScript 函数生成随机数值并自动展示

在HTML页面中，通过调用JavaScript函数生成随机数值，并将其自动展示在页面上。具体实现包括构建HTML页面结构，定义JavaScript函数以生成随机数，以及在页面加载时自动调用该函数并将结果呈现给用户。 ... [详细]

蜡笔小新 2024-11-06 12:20:41
timestamp
使用JavaScript生成Java兼容的UUID代码实现与优化技巧

本文介绍了UUID（通用唯一标识符）的概念及其在JavaScript中生成Java兼容UUID的代码实现与优化技巧。UUID是一个128位的唯一标识符，广泛应用于分布式系统中以确保唯一性。文章详细探讨了如何利用JavaScript生成符合Java标准的UUID，并提供了多种优化方法，以提高生成效率和兼容性。 ... [详细]

蜡笔小新 2024-11-05 18:19:54
web
投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元

投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元 ... [详细]

蜡笔小新 2024-11-05 04:56:42
install
解决 Ubuntu 环境下 Hadoop 集群 SSH 密钥认证问题

本文详细介绍了在 Ubuntu 系统上搭建 Hadoop 集群时遇到的 SSH 密钥认证问题及其解决方案。通过本文，读者可以了解如何在多台虚拟机之间实现无密码 SSH 登录，从而顺利启动 Hadoop 集群。 ... [详细]

蜡笔小新 2024-11-13 09:14:02
char
网站访问全流程解析

本文详细介绍了从用户在浏览器中输入一个域名（如www.yy.com）到页面完全展示的整个过程，包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]

蜡笔小新 2024-11-12 18:13:16
install
HarmonyOS 2.0 源码获取与编译指南

本文将详细介绍如何注册码云账号、配置SSH公钥、安装必要的开发工具，并逐步讲解如何下载、编译 HarmonyOS 2.0 源码。通过本文，您将能够顺利完成 HarmonyOS 2.0 的环境搭建和源码编译。 ... [详细]

蜡笔小新 2024-11-12 11:55:04
import
python解决CSF布料模拟滤波的批处理问题（解决获取多个点云数据las数据）

解决问题：1、批量读取点云las数据2、点云数据读与写出3、csf滤波分类参考：https:github.comsuyunzzzCSF论文题目ÿ ... [详细]

蜡笔小新 2024-11-12 11:32:15
char
利用 Node.js 和 Express（4.x 及以上版本）构建高效文件上传功能

本文介绍了如何使用 Node.js 和 Express（4.x 及以上版本）构建高效的文件上传功能。通过引入 `multer` 中间件，可以轻松实现文件上传。首先，需要通过 `npm install multer` 安装该中间件。接着，在 Express 应用中配置 `multer`，以处理多部分表单数据。本文详细讲解了 `multer` 的基本用法和高级配置，帮助开发者快速搭建稳定可靠的文件上传服务。 ... [详细]

蜡笔小新 2024-11-11 18:02:17
char
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
web
PHP网站日志深度解析与数据洞察分析

通过对PHP网站日志进行深入解析与数据洞察分析，可以有效提升网站性能和用户体验。由于网站日志数据量庞大，通常需要借助专业的日志分析工具来处理。常用的工具包括光年日志分析工具和WebLog Expert等，这些工具能够帮助技术人员快速识别并解决网站运行中的各种问题，从而优化SEO效果和提升整体运营效率。 ... [详细]

蜡笔小新 2024-11-06 13:33:02

宝贝小妖精芳_555

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章