热门标签 | HotTags
当前位置:  开发笔记 > 数据库 > 正文

星图数据:大数据的想象空间

文章讲的是星图数据:大数据的想象空间,云计算从提出到进化出完善的PaaS、IaaS和SaaS架构,再到被市场广泛接受,用掉了将近十年。而大
文章讲的是星图数据:大数据的想象空间,云计算从提出到进化出完善的PaaS、IaaS和SaaS架构,再到被市场广泛接受,用掉了将近十年。而大数据概念从知名学者舍恩伯格提出到现在,刚刚不到三年,最常见的用途不过是为碎片化的营销渠道提供参考坐标。大数据的潜力和商业能量显然还没被充分挖掘出来。

星图数据:大数据的想象空间

  记者就大数据的应用场景和未来的发展趋势,采访了星图数据(Syntun)的创始人谷熠。

  产品经理出身的谷熠曾在 SaaS 企业级软件行业工作十多年,主要为企业客户开发数据类和信息类产品;他的合伙人之一,也是星图数据的首席数据官(CDO)曾在市场研究行业做调研类工作。随着从业年限的逐渐增加,两个人慢慢发现了传统数据收集方法的落后和不全面。

  由于经由人工获取的有效数据本身就非常有限,在后续进行数据处理时,就不得不采用样本推总的思路。而事实上,建立在这个逻辑上的统计处理很可能会因为样本不够全面而导致比较大的误差。在大数据的帮助下,这些误差和不可控因素的势力范围有可能进一步缩小,从而为更加明智的决策和及时深度的洞察创造条件。

  谷熠眼中的大数据(Big Data)更像是Mass Data。星图团队自主搭建了独立的服务器,并开发了一套大数据供应链系统。从数据的采集、解析、存储、清洗到后期的数据标准化、建模和自学习,整个流程只需很短的时间就能跑完。公开网络环境下的电商交易数量、成交金额、客户评价等数据,星图都可以通过自己的采集系统收录进来;紧接着是对源数据进行分门别类,即解析。解析完成后,这些初步处理过的数据会被快速清洗,那些有潜在使用价值的数据会被长久保存下来。而标准化、建模和自学习才是星图真正擅长的重头戏——他们根据数据的种类和行业区别开发了一系列分析算法来对已有的数据进行多方位和多角度的解读,这也是输出最终结果的最后步骤。

  以星图目前的计算能力,每天大约有5TB容量的数据进入星图的自有数据库,每分钟可以完成六千条左右的数据处理。与那些互联网巨头相比,这个速度还基本构不成威胁。而数据的价值并不能简单地从容量这个维度上来看。数据内部的精巧结构、关联关系和广度、时效性等指标都能反映自身的价值。用电商行业来举例,这里的数据可以分为相对稳定的用户数据和随时发生变化的时序数据。对于网上零售行业的从业者而言,这两类数据的重要意义不言而喻。前者能告诉你顾客是谁,有哪些特点,后者则会告诉你和同行相比到底卖得怎么样。于是,中小卖家就有了审时度势的机会,依托于大数据的市场反馈能迅速做出决策和响应,免于因信息闭塞而决策失误。

  从另一个角度看,电商行业的用户和交易数据被阿里、京东等平台型巨头持有,这些数据是相互独立、互不开放的。其实割据在互联网的很多细分领域都已经稀松见惯,而星图却打算用这样一套数据供应链系统打破数据层面的割据,通过对全网数据的挖掘,反映真实的电商运行情况。媒体和电商分析师们又多了一个客观的视角。

  在零售以外的领域,大数据的魔力并没有减弱。比如,在占据国民经济主体地位的制造业,利用大数据的用户和市场研究结果,产品设计人员可以及时了解消费者对功能和外观的喜好,获知他们在使用中的具体困惑,反过来影响产品设计之初的具体方案。这就避免了采购浪费和供应链临时调整的麻烦,产品方案一旦确定即可大规模投入生产。在谷熠看来,欧美等发达工业国家的先进之处在于供应量的柔性管理能力——市场反应不达预期,可以迅速停止生产或改用备选方案,非常机动灵活。有了大数据的支撑,中国的制造业脉搏能更加有条不紊,逐渐改变过去低水平重复建设的生产模式。

  谈到大数据,另一个无法回避的永恒话题是用户隐私。

  在采访中,创始人谷熠并没有对此顾左右而言他。星图在数据积累早期就在内部建立了一个用户信息分级机制,能够有效预防隐私泄露情况的发生。

  事实上,互联网的使用者几乎一定会在网络上留下些许痕迹,隐私本质上是一个度的概念。如果不贡献任何数据,这个商业世界的很多美好事物将永远不会出现。大数据的想象空间正是在对用户数据的合理使用基础上建立起来,随之而来的便利、智能和自动化也应该让大数据的参与创造者尽快享用到。

  到那时,数据反哺农业、制造业乃至服务业的愿景才会一步步实现。


作者: 崔月

来源:IT168

原文链接:星图数据:大数据的想象空间



推荐阅读
  • 在拉斯维加斯举行的Interop 2011大会上,Bitcurrent的Alistair Croll发表了一场主题为“如何以云计算的视角进行思考”的演讲。该演讲深入探讨了传统IT思维与云计算思维之间的差异,并提出了在云计算环境下应具备的新思维方式。Croll强调了灵活性、可扩展性和成本效益等关键要素,以及如何通过这些要素来优化企业IT架构和运营。 ... [详细]
  • 2012年9月12日优酷土豆校园招聘笔试题目解析与备考指南
    2012年9月12日,优酷土豆校园招聘笔试题目解析与备考指南。在选择题部分,有一道题目涉及中国人的血型分布情况,具体为A型30%、B型20%、O型40%、AB型10%。若需确保在随机选取的样本中,至少有一人为B型血的概率不低于90%,则需要选取的最少人数是多少?该问题不仅考察了概率统计的基本知识,还要求考生具备一定的逻辑推理能力。 ... [详细]
  • 当前物联网领域十大核心技术解析:涵盖哪些关键技术?
    经过近十年的技术革新,物联网已悄然渗透到日常生活中,对社会产生了深远影响。本文将详细解析当前物联网领域的十大核心关键技术,包括但不限于:1. 军事物联网技术,该技术通过先进的感知设备实现战场环境的实时监测与数据传输,提升作战效能和决策效率。其他关键技术还包括传感器网络、边缘计算、大数据分析等,这些技术共同推动了物联网的快速发展和广泛应用。 ... [详细]
  • 业务团队与独立团队在数据分析领域的效能对比:谁更胜一筹?
    业务团队与独立团队在数据分析领域的效能对比:谁更胜一筹? ... [详细]
  • 双因子安全机制与WiFi万能钥匙的较量:解析其背后的对抗策略
    几乎所有智能手机用户都熟悉类似“WiFi万能钥匙”的应用程序。这款应用凭借庞大的下载量,不仅在各大应用商店中占据显著位置,还长期稳居下载排行榜前列。然而,随着双因子认证等高级安全机制的普及,这类应用面临着前所未有的挑战。本文将深入探讨双因子安全机制与WiFi万能钥匙之间的对抗策略,分析其背后的技术原理和安全风险。 ... [详细]
  • Spring框架的核心组件与架构解析 ... [详细]
  • Jeecg开源社区正式启动第12届架构技术培训班,现已开放报名。本次培训采用师徒制模式,深入探讨Java架构技术。类似于大学导师指导研究生的方式,特别适合在职人员。导师将为学员布置课题,提供丰富的视频资料,并进行一对一指导,帮助学员高效学习和完成任务。我们的教学方法注重实践与理论结合,旨在培养学员的综合技术能力。 ... [详细]
  • 深入解析GBASE系列中的列存储分析型数据库GBase 8a
    市场定位方面,GBase 8a 是 GBASE 系列中的一款高性能列存储分析型数据库,专为大规模数据仓库和实时分析场景设计。该数据库采用先进的列式存储技术,能够显著提升查询性能和数据压缩效率,适用于金融、电信、互联网等行业的大数据分析需求。此外,GBase 8a 还支持分布式部署,具备高可用性和可扩展性,能够满足企业级应用的严苛要求。 ... [详细]
  • 基于Java和SSM框架的志愿者管理平台源代码分析与实现
    本研究针对基于Java和SSM框架的志愿者管理平台进行了详细的源代码分析与实现。该平台属于Java Web项目,采用Java EE技术栈,并结合了Spring、Spring MVC和MyBatis三大核心框架(非开源)。项目名称为“基于SSM的志愿者管理系统”,旨在提升志愿者管理的效率和规范性。通过对系统架构、模块设计及关键代码的深入解析,本文为开发者提供了全面的技术参考和实践指导。 ... [详细]
  • 隐藏的威胁:你的供应链是否真正安全?
    在网络环境日益复杂的当下,诸如网络钓鱼、DNS欺骗、勒索软件和中间人(MITM)攻击等威胁手段已司空见惯。这些攻击手段无孔不入,对供应链的安全构成了严重挑战。企业必须加强安全意识,采取多层次的防护措施,以确保供应链的每一个环节都得到有效保护。 ... [详细]
  • 能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察
    本周科技前沿报道了多项重要进展,包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果,以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是,一款能够感知用户情绪状态的智能机器人即将问世,为未来的人机交互带来了全新的可能性。 ... [详细]
  • 美团优选推荐系统架构师 L7/L8:算法与工程深度融合 ... [详细]
  • MySQL数据库安装图文教程
    本文详细介绍了MySQL数据库的安装步骤。首先,用户需要打开已下载的MySQL安装文件,例如 `mysql-5.5.40-win32.msi`,并双击运行。接下来,在安装向导中选择安装类型,通常推荐选择“典型”安装选项,以确保大多数常用功能都能被正确安装。此外,文章还提供了详细的图文说明,帮助用户顺利完成整个安装过程,确保数据库系统能够稳定运行。 ... [详细]
  • #30 序列压缩算法优化与实现
    本文探讨了序列压缩算法的优化与实现,旨在提高数据存储效率和处理速度。通过对现有算法的深入分析,提出了一种新的优化方法,该方法在保持高压缩比的同时,显著降低了计算复杂度。实验结果表明,新方法在多种数据集上均表现出色,具有广泛的应用前景。 ... [详细]
  • 本文深入探讨了二叉树路径和问题的算法优化方法。具体而言,给定一棵二叉树,需要找出所有从根节点到叶节点的路径,其中各节点值的总和等于指定的目标值。通过详细分析和优化,提出了一种高效的解决方案,并通过多个样例验证了其有效性和性能。 ... [详细]
author-avatar
Vivian329306
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有