热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

陈钢:生物信息行业发展得比IT互联网还惊人

二十一世纪将迎来生物技术的时代,但是没有谁能准确预测这一行业何时迎来爆发。在云计算、大数据等IT技术的支撑,生物技术得到快速发展。InfoQ专访了华大科

二十一世纪将迎来生物技术的时代,但是没有谁能准确预测这一行业何时迎来爆发。在云计算、大数据等IT技术的支撑,生物技术得到快速发展。InfoQ专访了华大科技云平台副总监陈钢,同时作为QCon北京2014大会《大数据处理与大数据应用》专题的讲师,陈钢将会分享数据分析技术如何在医疗健康领域发挥巨大作用。以下为专访全文:

\u0026#xD;\n

InfoQ:陈钢你好,向InfoQ的读者和QCon的听众介绍下自己吧。

\u0026#xD;\n

陈钢:大家好,我是陈钢。2012年毕业于中南大学计算机系。之后一直深圳华大基因工作,主要从事生物数据分析和相关技术平台搭建相关的工作。

\u0026#xD;\n

InfoQ:你是什么时候开始学习编程的,自己写的第一个程序是什么?

\u0026#xD;\n

陈钢:最早是读初中的时候写过很简单的Basic程序,后来高中的时候学习过Visual Basic和文曲星上的编程。系统学习编程知识是在国防科大读大学的时候了。

\u0026#xD;\n

InfoQ:你在国防科技大学读的专业是光电工程,这似乎与你现在的研究方向毫无关系。有趣的是,本科毕业后,你选择了中南大学计算机专业。读硕士期间,你还在清华大学生物信息学暑期学校学习。本科毕业后为什么选择计算机和生物信息专业?

\u0026#xD;\n

陈钢:众所周知,国防科大的计算机专业非常强,其实光学工程和电子通讯方面的专业也很强,对学生要求很高。学到高年级的时候,我发现我学习相关的专业课程非常费力了,但当时对计算机方面的东西很感兴趣。本科阶段主要的计算机课程我都是课代表,大四的时候偶尔跑去计算机专业蹭课。稍作纠结后就选择继续攻读计算机专业了。为了提高考研的成功率,我选择了相对比较好考的中南大学计算机系。中南大学计算机系的整体实力跟国防科大相比有些差距,但我很幸运地遇到了几位很好的导师。

\u0026#xD;\n

我最早遇到的导师是陈建二老师,他当时在中南大学有参数计算和生物信息两个研究组。他给我介绍了两个研究方向的基本情况,我其实听得似懂非懂。但觉着生物信息是个跨学科的方向,觉着比较有意思,就选择了这个方向。陈建二老师同时也把中南大学的王建新老师介绍给我。陈建二老师不在国内的时候,就是王建新老师指导我的工作。

\u0026#xD;\n

那个时候对生物信息学不懂,于是就找各种机会学习。清华大学的这个生物信息暑期班是教育部和国家自然科学基金委资助的,当时在全国选了100多个研究生参加。现在这个暑期班上的同学还有很多工作在国内外的生物信息领域,非常活跃。除了清华的这个暑期班,我还参加过巴斯德研究院和香港大学在香港举办的一个EMBO资助的培训班,获益很多。去年在EMBO的资助下,华大基因在深圳也举办了大陆第一个这样的培训班。因为感激EMBO曾给予的资助,所以我很积极的参与了组织和教学工作。

\u0026#xD;\n

读了两年硕士,导师就建议直接转读博士学位了。后来潘毅老师也到中南大学指导我们的工作,他在生物信息领域的经验进一步拓展了我对这个领域的认识。

\u0026#xD;\n

InfoQ:在加入华大基因前,你在思博奥科、中南大学和德克萨斯大学医学部Andrzej的实验室工作过,谈谈这段经历。

\u0026#xD;\n

陈钢:思博奥科是之前提到清华大学暑期班的一个同学创办的生物信息公司。研究生读到高年级后,一方面是经济原因,一方面也是想了解产业界生物信息的状况,所以兼职做了一些生物信息的项目。

\u0026#xD;\n

中南大学的工作主要是管理学院的一个小型的HP集群,这为我熟悉科学计算服务器的运维积累了一些经验。

\u0026#xD;\n

去到美国学习则是得益于国家留学基金委的资助。这个申请经历很有意思。在通过基本的审批后,我就到Linkedin上相关的group去发消息,说我得到了一些资助,要去美国访问一年,有没有这方面的PI(Principal Investigator,科研项目负责人)需要人?Andrzej发了邮件给我,还主动提供了一些资助。于是我就去了。那一年在美国涨了很多见识,也做了一些很有意思的工作。

\u0026#xD;\n

InfoQ:你在博客上说:“每一个跟我接触过的猎头都建议我不要来华大,但我还是来了。对错我不知道,但至少现在觉得这里是个符合我性格和喜好的地方”。现在看来,选择华大基因是多么有远见的,但当时还是很纠结的吧?

\u0026#xD;\n

陈钢:哈哈,我依然不能确定这是不是一个很有远见的选择。这个领域发展得比IT和互联网还惊人,我觉得任何人都很难做到有远见。

\u0026#xD;\n

当时猎头的建议倒不是我纠结的地方,导师和家人建议我争取留校当老师倒让我很纠结。要知道,国内高校的博士生,所谓土博,要直接进入重点大学任教是很不容易的。当时张饶学院士到中南大学任校长,让人对中南大学的计算机学科抱以很高的期望。确实纠结了很久,最终在我夫人的支持下,还是觉得到外面去看看,在学校呆得太久了。

\u0026#xD;\n

当然,当时华大基因研究院的副院长,现在华大科技的CEO李英睿同学的热情忽悠也是重要原因。

\u0026#xD;\n

InfoQ:你折腾过各种开发工具和语言,做技术书籍翻译,还在Github上贡献,你怎么做到精力如此旺盛?

\u0026#xD;\n

陈钢:我精力不旺盛,我总是处于睡不够的状态。最早做技术书籍翻译是为了在读书时自己养活自己,后来这变成了我的学习手段之一。Github上贡献非常不上档次,就不说了。

\u0026#xD;\n

InfoQ:你的博客上列出了一些R语言和Linux大牛。包括他们在内,谁对你的影响最大?

\u0026#xD;\n

陈钢:还是家人对我的影响大一些。如果说科研方面的话,读研期间的几位导师在研究方法和态度上对我产生了很大的影响。

\u0026#xD;\n

InfoQ:你在设计软件架构时,有自己一套方法或原则吗?

\u0026#xD;\n

陈钢:我并没有大型软件的架构设计经验,方法和原则就谈不上了。平时干活,坚持得比较多的原则是不重新发明轮子,仅此而已。

\u0026#xD;\n

InfoQ:你在《程序员》杂志的文章《生命科学中的大数据》解释了为什么生命科学越来越成为大数据驱动的科学,在华大基因测序仪每天新增数十PB数据。仅仅搭建满足这一规模的基础设施平台就是很大的挑战。你认为在建立满足生命科学研究的基础设施与大数据平台,面临哪些难点?

\u0026#xD;\n

陈钢:这个数字有问题,华大基因大概是一年产生数十PB的数据。个人觉得,跟常见的电商、社交、地质勘探等数据相比,生命科学的数据有些特点:

\u0026#xD;\n
  1. 产生成本很高:一个人的全基因组测序的价格要数千美金,表观组、蛋白质组、代谢组等其它组学数据的价格都很高;\u0026#xD;\n
  2. 数据可靠性低:以测序仪为代表的高通量生物实验技术产生的原始数据都是有系统性错误的,这很麻烦。\u0026#xD;\n
  3. 数据不完整:生物的转录组、代谢组等数据都是不断变换的,受制于技术和成本,不可能获得完整的数据。甚至基因组也会发生变化,这是肿瘤的病因。但我们也很难检测到每个细胞的基因组。不完整的低分辨率的数据,得到的结果往往是错误的。\u0026#xD;\n
  4. 数据的相关性高且不确定:从实验中得到的诸如基因组、转录组等不同类型的数据之间是有很复杂的关系的,但到底是什么关系,我们不知道。甚至是只研究基因组,不同的基因或基因组上不同的位点之间也有很复杂的关系,但我们也不知道到底是什么关系。\u0026#xD;\n

生命科学数据的这些特点,都会给面向生命科学研究和应用的IT基础设施带来诸多挑战。

\u0026#xD;\n

InfoQ:R语言、Hadoop、Spark、AWS、Google的GCE,类似Docker的虚拟化技术,包括这些技术在内,哪些技术将给生命科学研究更大的推力?

\u0026#xD;\n

陈钢:不知道。国外的生物信息领域吸收和利用最新IT技术的速度要比国内快很多,国内更多的还在竞争仪器设备,而不是IT技术和数据分析。

\u0026#xD;\n

InfoQ:说说你将在QCon北京2014大会上的分享吧。

\u0026#xD;\n

陈钢:讲点生命科学的研究和应用,讲讲背后的基本算法和所利用的IT设施,希望能忽悠一些高手投身这个行业,加速这个行业的发展。

\u0026#xD;\n

InfoQ:你觉得生物信息行业的机会来了吗?学计算的同学不用一股脑往互联网巨头那里扎堆了?

\u0026#xD;\n

陈钢:机会是来了。年初,Google给DNANexus做了1500万美元的C轮投资,Seven Bridges的首轮融资应该也快了,这是两家纯粹的生物信息公司。国内的生物信息公司还没有看到非常突出的,但我相信很快就会有了。

\u0026#xD;\n

不过,很早就有人说“21世纪是生物学的世纪”。这个行业什么时候爆发,谁也不知道。

\u0026#xD;\n

InfoQ:你曾说,生命科学的发展正在从一个实验科学走向以数据驱动为主,实验为辅的理论科学。用不了3年在国内就很火。这个市场到底有多大?

\u0026#xD;\n

陈钢:算不清。如果说是基于先进生物技术的医学健康市场,按照华大基因研究院院长汪建的估计,这是一个万亿级的市场。

\u0026#xD;\n

具体到生物信息。前面提到的Google投资的DNANexus的主要业务方向之一是医学诊断。随着实验技术的标准化,各种医学健康的筛查和诊断会演变成数据分析的方法和基础设施的竞争,这个市场的想象空间是无穷的。2月27日,测序仪的国际巨头Illumina在北京大学附近开了一个第二代测序技术创新开发者大会,吸引了很多这个行业的创业者和感兴趣的投资人。

\u0026#xD;\n

此专题详细信息,请见专题页面。关于此次QCon北京其他专题的详细信息,请移步至大会官网。

\u0026#xD;\n

需要特别注明的是,每年QCon大会门票都会在开幕前售罄,及早预定可提前确保席位,并享受更低折扣。3月26日前报名参加可享受9折优惠。团体购票(5人及以上)将享有更多优惠。详请咨询qcon【at】cn.infoq.com,或直接致电010-64738142。报名请点击报名页面。


推荐阅读
  • GPT-3发布,动动手指就能自动生成代码的神器来了!
    近日,OpenAI发布了最新的NLP模型GPT-3,该模型在GitHub趋势榜上名列前茅。GPT-3使用的数据集容量达到45TB,参数个数高达1750亿,训练好的模型需要700G的硬盘空间来存储。一位开发者根据GPT-3模型上线了一个名为debuid的网站,用户只需用英语描述需求,前端代码就能自动生成。这个神奇的功能让许多程序员感到惊讶。去年,OpenAI在与世界冠军OG战队的表演赛中展示了他们的强化学习模型,在限定条件下以2:0完胜人类冠军。 ... [详细]
  • svnWebUI:一款现代化的svn服务端管理软件
    svnWebUI是一款图形化管理服务端Subversion的配置工具,适用于非程序员使用。它解决了svn用户和权限配置繁琐且不便的问题,提供了现代化的web界面,让svn服务端管理变得轻松。演示地址:http://svn.nginxwebui.cn:6060。 ... [详细]
  • 云原生边缘计算之KubeEdge简介及功能特点
    本文介绍了云原生边缘计算中的KubeEdge系统,该系统是一个开源系统,用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建,并为网络应用程序提供基础架构支持。同时,KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外,KubeEdge还支持跨平台工作,在私有、公共和混合云中都可以运行。同时,KubeEdge还提供数据管理和数据分析管道引擎的支持。最后,本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]
  • Android中高级面试必知必会,积累总结
    本文介绍了Android中高级面试的必知必会内容,并总结了相关经验。文章指出,如今的Android市场对开发人员的要求更高,需要更专业的人才。同时,文章还给出了针对Android岗位的职责和要求,并提供了简历突出的建议。 ... [详细]
  • 关于我们EMQ是一家全球领先的开源物联网基础设施软件供应商,服务新产业周期的IoT&5G、边缘计算与云计算市场,交付全球领先的开源物联网消息服务器和流处理数据 ... [详细]
  • sklearn数据集库中的常用数据集类型介绍
    本文介绍了sklearn数据集库中常用的数据集类型,包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集,包含了波士顿506处房屋的13种不同特征以及房屋价格,适用于回归任务。 ... [详细]
  • 如何在服务器主机上实现文件共享的方法和工具
    本文介绍了在服务器主机上实现文件共享的方法和工具,包括Linux主机和Windows主机的文件传输方式,Web运维和FTP/SFTP客户端运维两种方式,以及使用WinSCP工具将文件上传至Linux云服务器的操作方法。此外,还介绍了在迁移过程中需要安装迁移Agent并输入目的端服务器所在华为云的AK/SK,以及主机迁移服务会收集的源端服务器信息。 ... [详细]
  • 深度学习中的Vision Transformer (ViT)详解
    本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理,包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明,对于CV任务,直接应用纯Transformer架构于图像块序列是可行的,无需依赖于卷积网络。 ... [详细]
  • 如何利用 Myflash 解析 binlog ?
    本文主要介绍了对Myflash的测试,从准备测试环境到利用Myflash解析binl ... [详细]
  • SpringBoot整合SpringSecurity+JWT实现单点登录
    SpringBoot整合SpringSecurity+JWT实现单点登录,Go语言社区,Golang程序员人脉社 ... [详细]
  • 云原生应用最佳开发实践之十二原则(12factor)
    目录简介一、基准代码二、依赖三、配置四、后端配置五、构建、发布、运行六、进程七、端口绑定八、并发九、易处理十、开发与线上环境等价十一、日志十二、进程管理当 ... [详细]
  • 学习SLAM的女生,很酷
    本文介绍了学习SLAM的女生的故事,她们选择SLAM作为研究方向,面临各种学习挑战,但坚持不懈,最终获得成功。文章鼓励未来想走科研道路的女生勇敢追求自己的梦想,同时提到了一位正在英国攻读硕士学位的女生与SLAM结缘的经历。 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 本文介绍了设计师伊振华受邀参与沈阳市智慧城市运行管理中心项目的整体设计,并以数字赋能和创新驱动高质量发展的理念,建设了集成、智慧、高效的一体化城市综合管理平台,促进了城市的数字化转型。该中心被称为当代城市的智能心脏,为沈阳市的智慧城市建设做出了重要贡献。 ... [详细]
  • 解决VS写C#项目导入MySQL数据源报错“You have a usable connection already”问题的正确方法
    本文介绍了在VS写C#项目导入MySQL数据源时出现报错“You have a usable connection already”的问题,并给出了正确的解决方法。详细描述了问题的出现情况和报错信息,并提供了解决该问题的步骤和注意事项。 ... [详细]
author-avatar
再生Solo_868
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有