机器智商已达四岁:亲,是时候考虑你的饭碗了一文引起了大家的广泛关注,好多读者发表了一些很科幻的评论,很有创意可以去写篇科幻小说了。也有很多读者在评论中说真正的人工智能距离我们还很遥远,估计我们这些人的有生之年是看不到像我们这么聪明的机器了。但是作为人工智能的一个分支——机器学习已经了实现商业化,比如推荐引擎技术,最常见的应用就是我们浏览网页时各种为你”量身定做“的小广告。
目前机器学习已经成为大数据的典型使用案例,通过收购机器学习创业公司Myrrix,Cloudera又朝着其大数据一站式服务点的目标迈进了一步。Myrrix创始人Sean Owen, 7月16日上午在博客中正式宣布了这一收购,Sean Owen目前已担任Cloudera位于伦敦的数据科学部总监。
Cloudera在Hadoop生态系统中,算得上是规模最大、知名度最高的公司之一。Cloudera创建于2008年,致力于为数据驱动型企业提供基于Apache Hadoop的软件、支持、服务和培训。纽约时报曾这样报道Cloudera的成立:Cloudera的成立是一个典型的硅谷故事——来自Google(Christophe Bisciglia)、Facebook(Jeff Hammerbacher)和Yahoo!(Amr Awadallah)的顶级工程师联合Oracle前高管(Mike Olson)共同解决快速分析大规模数据的相关问题。
2012年,Owen创办了Myrrix,Myrrix是一个实时的、可扩展的集群和推荐系统,从 Apache Mahout项目演变而来。
应客户的需求,Cloudera需要在应用层面取得更大发展,目前还很难判断这项收购对Cloudera的意义。正如Owen在文章中提到的:
机器学习已经是一个有几十年历史的领域了,为什么大家现在这么热衷于这项技术?Hadoop和便宜的硬件使得大数据分析更加容易了。随着硬盘和CPU越来越便宜,以及开源数据库和计算框架的成熟,创业公司甚至个人都可以进行TB级以上的复杂计算。对于机器学习来说这是千载难逢的好机会。因为更多的数据可以使机器学习算法表现得更好。如果收集和分析数据的成本变低,而学习的价值提高的话,机器学习的应用场景也会呈爆炸式的增长。
Cloudera的高管们多年来一直坚称, 该公司会一直提供平台服务,不会进入应用领域。但是该公司最近的一些动作,比如 Impala引擎和 Cloudera搜索,表明他至少已经意识到自己不应该只做MapReduce作业的平台。
Owen在忙于将Myrrix技术与Cloudera的CDH(Cloudera’s Distribution Including Apache Hadoop)做有效的结合,机器学习新技术还有多久才能落实到Cloudera的应用层面还有待观察。但是Owen相信与Cloudera的合作肯定能够实现其称为“Big Learning”的目标:
没有可用的上层应用程序,便宜的基础设施也于事无补。而且,机器学习大多数研究假设所有数据都在一台机器上进行计算,所以机器学习算法运用到数据并行计算的Hadoop中需要一些巧妙的改造。这在Mahout项目中体现得最为明显,很多算法都在Hadoop中实现了并行化。
将机器学习与Hadoop相结合还有很多工作要做,早期Hadooop也只是一个爱冒险的专家才会积极尝试的源代码包。但是,Cloudera通过扩展、打包和提供支持,将Hadoop推向了一个更大的平台。同样的事情也会发生在Myrrix这种“Big Learning”的应用程序上,这一直也都是Myrrix的愿景,现在我们在与Cloudera合作朝着这个愿景努力。
无独有偶,另一家机器学习的创业公司Ayasdi,也在7月16日宣布获得了3060万美元的B轮融资。Gunnar Carlsson和Gurjeet Singh共同创立了Ayasdi公司,该公司使用一项称为拓扑数据分析的技术,创建有视觉震撼力的视图,帮助客户为产品进行分类。
许多人对机器学习的印象可能都是实验室中大量晦涩难懂的理论和数据分析,然而已经有很多创业公司将其商业化,以下是五家试图将机器学习简单化的创业公司:
Alpine data Labs:Greenplum的子公司(EMC是其投资者之一),主要研究方向是预测分析,其软件可以嵌入到公司内部的数据存储中(无论是Hadoop还是其它任意流行的数据库)。通过绘制流程图,用户可以对数据进行分析。
图:Alpine Data的用户界面
Context Relevant:Context Relevant通过一个预先包装好的算法库,可以在数秒内为用户数据建立预测模型,主要用于欺诈检测、客户流失以及其它的经典预测分析用例。其创始人兼CEO Stephen Purpura说:“只要会用Excel,就能很好的使用我们的产品”。
Datameer:几年前,Datameer为Hadoop分析开发了一个电子表格界面,目前,这个电子表格中已添加了数百个功能。在3.0版本中,通过预置的机器学习算法,用户只需点击几次鼠标就可以建立集群和列依赖。
图:Datameer生产的列依赖图表
Skytree:Skytree的主要产品是一些大型的企业级机器学习软件,但是它们也推出了一个针对小型用户的产品Adviser,目前还是测试版。它是一个桌面应用程序,可以方便地连接到网络、本地或数据源,用户可以选择算法库以及输出样式。界面的设计还不太完善,但是你可以免费的在客户端分析10万行的数据,并得到交互式的报告结果还有什么可抱怨的!
图:关于UFO目击者的Skytree Adviser生成报告
Wise.io:Wise.io的计划是将其创始人作为天文学研究人员的经验应用到商业领域。Wise.io的产品是一个直观、易于使用的机器学习平台,几个简单的点击就可以建立和部署模型,而且很快。联合创始人Joshua Bloom曾说某客户在使用其产品后,分析TB级大小的传感数据所用时间从300个小时减少到了20分钟。(编译/周小璐 审校/仲浩)
相关链接:
Myrrix Joins Cloudera to Bring "Big Learning" to Hadoop
Cloudera buys machine learning startup Myrrix
Meet the startups making machine learning an elementary affair
Cloud Edge:2013年国际“云先锋”系列报道 |
序号 | 公司名称 | 成立时间 | CEO/CTO | 风险投资 | 公司产品/方向 |
---|
1. | HStreaming | 2011年 | Jana Uhlig | $ 1M (B) | 实时Hadoop系统 |
2. | CitusData | 2012年 | Matt Ocko | | CitusDB |
3. | Backblaze | 2009年 | Gleb Budman | | 开源存储硬件 |
4. | Kickboard | 2009年 | Jennifer Medberry | $2.8M(A) | Kickboard(数据分析) |
5. | Elasticsearch | 2012年 | Shay Banon | $24 M(B) | 开源搜索引擎 |
6. | Appcore | 2008年 | Jeff Tegethoff | $6M (B) | 企业内部部署IaaS平台 |
7. | Pertino | 2011年 | Craig Elliott | $20 M(B) | 软件定义网络(SDN) |
8. | SwiftStack | 2011年 | Joe Arnold | $6.1M(A) | 软件定义存储 |
9. | Spiral Genetics | 2009年 | Adina Mangubat | $3M(A) | DNA序列数据分析平台 |
10. | DNNResearch | 2012年 | Geoffrey Hinton | | 深度学习 |
11. | AppNeta | 2011年 | Jim Melvin | $16M(C) | 应用性能管理(APM) |
12. | Concurrent | 2008年 | Chris K. Wensel | $4M(A) | Java大数据框架 |
13. | AirWatch | 2003年 | John Marshall | $200M(A) | 移动设备管理 |
14. | Pluribus | 2012年 | Robert Drost | $44M(C) | 虚拟化网络 |
15. | Bina Technology | 2006年 | Narges Bani Asadi | $6.5M(B) | 基因测序平台 |
16. | Sociocast | 2010年 | Albert Azout | $1M(B) | 数据预测分析 |
17. | ParElastic | 2010年 | Ken Rugg | $5.7M(A) | 数据库虚拟化引擎 |
18. | Optimizely | 2009年 | Dan Siroker | $28M(A) | A/B 测试服务 |
19. | Instart Logic | 2010年 | Manav Mital | $17M(B) | 网络性能 |
20. | CloudFlare | 2010年 | Matthew Prince | $20M(B) | 云安全、网络性能 |
21. | Ionic Security | 2012年 | Ted Schlein | $9.4M(A) | 云安全 |
22. | MemSQL | 2011年 | Eric Frenkiel | $5M(A) | MemSQL |
23. | Qubole | 2012年 | Ashish Thusoo | $7M(A) | AWS平台Hive服务 |
24. | Clustrix | 2005年 | Robin Purohit | $16.5M(C) | Clustrix Sierra |
25. | Cloudant | 2008年 | Derek Schoettle | $12M(B) | DBaaS |
26. | DataTorrent | 2012年 | Phu Hoang | $8M(B) | 实时数据分析 |
27. | WibiData | 2010年 | Christophe Bisciglia | $15M(B) | Hadoop商用套件 |
28. | Dataminr | 2009年 | Ted Bailey | $30M(C) | 实时数据分析 |
29. | PlumGrid | 2011年 | Awais Nemat | $10.7M(A) | 软件定义网络(SDN) |
30. | Meldium | 2012年 | Anton Vaynshtok | $1 M(A) | 商业密码管理 |
31. | Myrrix | 2012年 | Sean Owen | | 大数据,机器学习 |
32. | Alpine data Labs | 2010年 | Joe Otto | $7.5 M(A) | 大数据预测分析 |
33. | Context Relevant | 2012年 | Stephen Purpura | $7 M(A) | 大数据预测分析 |
34. | Datameer | 2009年 | Stefan Groschupf | $9.2M(B) | 大数据预测分析 |
35. | Skytree | 2012年 | Alexander Gray | | 机器学习 |
36. | Wise.io | 2012年 | Joshua Bloom | | 机器学习 |