热门标签 | HotTags
当前位置:  开发笔记 > 运维 > 正文

从Spark数据框中删除多列的异常值

如何解决《从Spark数据框中删除多列的异常值》经验,请问有什么解决方案?

我有一个大约10个整数特征的数据集,我希望从每个特征的数据集中删除离群值。我过去所做的是计算每个特征的平均值和标准偏差,并对数据集进行传递,并丢弃符合异常值的行。在每一列/每个要素上执行此操作,可以帮助我摆脱具有至少一个异常要素的行。

由于多次分析数据集不是最佳方法,因此我一直在寻找以高效计算的方式执行此操作的方法。有人可以提出一种更好的方法,以便对数据集进行一次解析,并且可以摆脱所有异常行吗?


推荐阅读
author-avatar
奎奎201277
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有