热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

低成本的高级数据分析项目

深度的数据分析项目通常花费不菲。不过,如果善于创新,CIO们能够以较小成本顺利完成项目。对此,NielNickolaisen进行了说明。目

深度的数据分析项目通常花费不菲。不过,如果善于创新,CIO们能够以较小成本顺利完成项目。对此,NielNickolaisen进行了说明。

目前,IT领袖及其团队正面临巨大的机遇,改变企业对自身的价值定位。IT团队有着现成的资源来实现巨大的业务价值,而成本却可以非常低。对,没听错,非常低的成本。在进入正题之前,首先声明,我要谈的东西可能与直观感觉不符,甚至违返企业传统文化。许多年来,我们都被反复地告知,如果想要交付高价值服务,就不得不付出高昂成本。对,高价值服务背后往往意味着较高的成本,但这并非金科玉律。

下面,我们进入正题。以较小成本实现高价值服务的场景之一,就是高级数据分析项目。我之所以能做出这个结论,是因为我有过类似经历(成本确实很低)。我曾经是某大学的CIO。当时,该大学的管理团队有一个最为主要的工作目标,即提升毕业率。不管在什么场合,团队都会就此展开讨论。

在某次会议上,我曾经这么表态过:“如果能确保我认识所有的学生,我能保证毕业率达到100%的水平。”当时,所有与会者都很无语,转而讨论课程设置、学生辅导和教学模式等方面的话题。会后,我继续就毕业率的问题进行了思考。我们有一个录取模型,由教育领域的专家开发,用于决定我们接收学生的标准。

其中,有三个因素是最重要的:英语、写作和数据能力的测试分数。所有报考的学生都必须进行这三门考试,而我们择优录取。为此,我开始怀疑我们的数据是否真正支撑了这种录取模型。我们已经有大量与报名学生、正式入学的学生以及最终毕业的学生相关的数据。如果对这些数据进行分析,进行形成对录取模型的优化,将是极具吸引力的工作。

但是,该如何启动项目呢?我的团队中没有真正的数据科学家,也没有支撑这项高级数据分析工作的工具和环境。不过,最终结果证明,其实我并不真正需要这些人力物力。至少,在开始阶段不需要。我的做法是,在一个数据挑战网站把问题和数据(进行了脱敏处理,去掉了学生们的个人识别信息)公布出去,让全世界的数据科学家、分析师和统计学家来为我构建新的录取模型。整个工作最终花费了两个礼拜的时间,得到了一个超出我预期的更好的模型(以现有数据集来看)。我选定了得到最佳模型的优胜者,并发布了奖励3500美元(不是3万5千美元,也不是35万美元,更不是350万美元)。

如果这个模型最终被证明为失败,我的损失就是3500美元而已,就我当时所掌控的预算来说,这点钱不是问题。那么,这个新模型的实际价值如何呢?新模型揭示了现有人为定制模型的问题所在。根据数据分析的结果,我们之前认为的最重要的因素,其实在重要性上仅排名第六而已,而之前第二重要的因素实际应该在第九位。我们进一步了解到,其实很多待录取的学生没有必要进行英文、写作和数据能力测试——如果这些学生在真正重要的指标上合格了,他们根本没必要进行测试。就这样,仅仅花了3500美元,我们就改变了学校运营的模式,并进入了以数据推动决策的阶段。

我们更新了学校的宣传和录取策略(现在,我们已经知道哪些学生能够顺利毕业,就没有必要在其他人身上多费力气了)。基于促成学生成功的真正因素,我们开始在相关领域开始发力。比如,之前缺少科学、技术、工程或数据方面作业的学生不予录取。这也意味着,在这些方面较弱的学生需要我们的特别关注和协助,以此提升其成功毕业的机率。

在这个项目之后,我们启动了一个有关学生辅导模型的数据分析项目。该项目意在识别出那些面临困境的学生,而我们则可以根据分析结果将更多的资源投入到这些学生身上,以此帮助其获得学业上的成功。这一切成绩的背后,起到主导作用的就是IT团队。数据分析项目:如何启动如果你对此感兴趣,下面就介绍该如何启动一个数据分析项目。

首先,定位一些长期困扰企业的、较为含混不清的问题,比如用户流失、需求预测、精准营销等等。然后,审视下手头现有的、与这些问题相关的数据。是否拥有所需的数据?这些数据的存在形式?还缺少哪些数据,以及该如何解决?之后的事情,就是找到模型开发团队。比如,数据竞赛网站、寻找学生项目的本地大学、具备相应能力的本地大数据/数据科学家用户组。

有件事需要特别注意:在大学里推动高级数据分析项目时,我们从不在任何大数据基础架构或环境上进行过多的投入。比如,对于上面提到的识别处于困境的学生的模型,由于只需要每两周运行一次,我们是通过云租用的模式获取计算资源的。每个月,我们支付3000美元来让模型跑一次,对覆盖约5万学生的2000个数据元素进行计算。退一万步说,即便模型所产生的价值很低,这种成本也是极为低廉的。就我们的这个模型来说,这简直太划算了–把学生退学率降低了10%,节省了数百万美元的成本。这一切,你也可以做到。

原文发布时间为:2016年3月11日
本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。



推荐阅读
  • 深入解析 Apache Shiro 安全框架架构
    本文详细介绍了 Apache Shiro,一个强大且灵活的开源安全框架。Shiro 专注于简化身份验证、授权、会话管理和加密等复杂的安全操作,使开发者能够更轻松地保护应用程序。其核心目标是提供易于使用和理解的API,同时确保高度的安全性和灵活性。 ... [详细]
  • 本文探讨了如何在日常工作中通过优化效率和深入研究核心技术,将技术和知识转化为实际收益。文章结合个人经验,分享了提高工作效率、掌握高价值技能以及选择合适工作环境的方法,帮助读者更好地实现技术变现。 ... [详细]
  • FinOps 与 Serverless 的结合:破解云成本难题
    本文探讨了如何通过 FinOps 实践优化 Serverless 应用的成本管理,提出了首个 Serverless 函数总成本估计模型,并分享了多种有效的成本优化策略。 ... [详细]
  • 本文作者分享了在阿里巴巴获得实习offer的经历,包括五轮面试的详细内容和经验总结。其中四轮为技术面试,一轮为HR面试,涵盖了大量的Java技术和项目实践经验。 ... [详细]
  • Netflix利用Druid实现高效实时数据分析
    本文探讨了全球领先的在线娱乐公司Netflix如何通过采用Apache Druid,实现了高效的数据采集、处理和实时分析,从而显著提升了用户体验和业务决策的准确性。文章详细介绍了Netflix在系统架构、数据摄取、管理和查询方面的实践,并展示了Druid在大规模数据处理中的卓越性能。 ... [详细]
  • 福克斯新闻数据库配置失误导致1300万条敏感记录泄露
    由于数据库配置错误,福克斯新闻暴露了一个58GB的未受保护数据库,其中包含约1300万条网络内容管理记录。任何互联网用户都可以访问这些数据,引发了严重的安全风险。 ... [详细]
  • 由中科院自动化所、中科院大学及南昌大学联合研究提出了一种新颖的双路径生成对抗网络(TP-GAN),该技术能通过单一侧面照片生成逼真的正面人脸图像,显著提升了不同姿态下的人脸识别效果。 ... [详细]
  • 创邻科技成功举办Graph+X生态合作伙伴大会,30余家行业领军企业共聚杭州
    9月22日,创邻科技在杭州举办“Graph+X”生态合作伙伴大会,汇聚了超过30家行业头部企业的50多位企业家和技术领袖,共同探讨图技术的前沿应用与发展前景。 ... [详细]
  • Codeforces Round #566 (Div. 2) A~F个人题解
    Dashboard-CodeforcesRound#566(Div.2)-CodeforcesA.FillingShapes题意:给你一个的表格,你 ... [详细]
  • 本文探讨了MariaDB在当前数据库市场中的地位和挑战,分析其可能面临的困境,并提出了对未来发展的几点看法。 ... [详细]
  • vivo Y5s配备了联发科Helio P65八核处理器,这款处理器采用12纳米工艺制造,具备两颗高性能Cortex-A75核心和六颗高效能Cortex-A55核心。此外,它还集成了先进的图像处理单元和语音唤醒功能,为用户提供卓越的性能体验。 ... [详细]
  • 探讨ChatGPT在法律和版权方面的潜在风险及影响,分析其作为内容创造工具的合法性和合规性。 ... [详细]
  • 程序员如何优雅应对35岁职业转型?这里有深度解析
    本文探讨了程序员在职业生涯中如何通过不断学习和技能提升,优雅地应对35岁左右的职业转型挑战。我们将深入分析当前热门技术趋势,并提供实用的学习路径。 ... [详细]
  • 江苏启动鲲鹏生态产业园首批应用孵化项目
    2019年9月19日,在华为全联接大会上,江苏鲲鹏生态产业园正式启动了首批鲲鹏应用孵化项目。南京市委常委、江北新区党工委专职副书记罗群等多位嘉宾出席并见证了这一重要时刻。 ... [详细]
  • Jenkins 是持续集成和持续交付(CI/CD)领域中的领先平台,在全球范围内拥有广泛的用户基础。本文将介绍 Jenkins 在中国市场的最新举措,以及为促进中文用户社区发展所采取的具体行动。 ... [详细]
author-avatar
Ericke2702932972
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有