解码生命 守护健康

雷鸣对话王俊:人工智能与基因技术能否打开医疗的“大黑盒子”?

2017-05-19 13:03:26Xtecher

 


编辑整理|Xtecher
 

网址|www.xtecher.com

微信公众号ID|Xtecher


 

 

雷鸣:我也是听得全神贯注,在座的我想大部分都是计算机、数学,比较偏计算学科的,对于这种生命科学的东西,包括我也真的是小白来上课,学到了太多太多的东西。刚才我觉得讲的特别精彩,说实话也是我第一次去这么深入的理解生命本身的复杂性,以及我们说从穿透这种表面去看生命一些根本的东西,包括基因蛋白,包括很多生命的基础特征。我刚才感觉的话,王俊讲这些东西,包括基因、蛋白,我有一个理解,以前我们的医疗,更多是检验性的。比如说有这个病,中医会通过各种尝试来治疗。现在感觉有了基因技术、蛋白检测等这一系列东西之后,觉得在因果中间加了一层数字的特征描述,使得我们可以更精准的去了解这个事情。比如我做了这个事情影响了这些因素,所以这些因素会导致这个病可能就不得了。我们感觉相当于结满了生命的体系,而不是以前感觉一个大黑盒子,就像神农尝百草,“乱试”的感觉,我不知道理解的是不是对。


王俊:我其实觉得人工智能系统可能未来还是个黑盒子,或者是一个黑白相间的盒子,有一些已有的知识可以帮助你做很多决策,然后它会同时也是个黑盒子,因为它是个学习系统,本身也确实它要尝百草,才能知道结果。所以其实我倒这个事情的关键不在这儿,现在很多生命科学学习过程,它没有真正理论化,生命科学有三个阶段,第一个阶段叫“观测科学”。生命科学很长一段时间是观察科学,通过不断观察,提出一些理论。


后来从观察科学到做实验,创立各种假说,再利用实验去验证。再往下一步我认为一定是理论充实,我们开始用计算机,用数学来描述生物学。那个时候的预测将会特别准确。比如说我当时做七个神经元的神经网络去模拟瓢虫吃蚜虫这个过程,我其实不知道它最后进化出来什么意思,但它弄出来那个博士之后,我再去研究的时候发现,它其中有三个神经元进化成了记忆神经元。它记住了前一步和前两步准备吃的蚜虫,我吃着了,所以我就决定我下一步接着转圈,我没吃到我就接着随机走。所以像这种东西是我通过它最后形成的那个,再反过去再学习他的生物学,再找到它的解释。所以就更精确。我觉得未来可能会有这样的一种研究方式,就是它不是我的一个come from nowhere 的理论,可能现在是一种数据导向。数据导向的意思是说我也不知道哪个基因跟糖尿病有关系。我能做的一件事情就是把一千个糖尿病人的基因测了,再测试一千个正常人。然后我比较,看到底哪个基因不一样,对吧?这是数据导向。我认为未来的生命科学再往前走,可能是人工智能的模型导向。就是说数据导向已经不够了,数据会在不断的训练模型,科学家会去研究那个模型为什么会这样。


雷鸣:我们今天讲的是一个生命科学,包括跟AI之间的关系,现在我们最近就是讲的AI,AI为什么最近特别火,特别爆发,包括阿法狗,一般我们归结为海量数据,对吧,比如说动辄几十万,几百万的运算能力,GPO把人定型等等,再加上这个深度神经网络算法,当然这个算法并不是最近才出来的,而是最近才被海量数据给激活的。刚才其实我们在分析这个事情的时候聊到很多的东西,第一个你讲到在以色列八百人的实验课题,控制血糖,还包括您讲到了您这几个创始人一起做实验,基本上是几个人。这个跟我们现在理解的人工智能,因为有一点点的不同,也就是这一波,我们感到人工智能更多的是海量数据,而今天讲的感觉就是数据量并不是海量,当然也不是完全单个。就这两者之间我们开放地探讨一下,为什么说少量的数据也能学到非常显著的一些东西。


王俊:这取决于问题不同,比如说对单界面的研究只需要一个家系就行了。什么叫家系呢,就是一个family哪个遗传并怎么过来的家系,几个人他的基因我就可以把单基因发掘出来。但是对身高、智商这样的东西,可能要上百万人。也就是说你研究问题的情况不一样,它需要的数据点和维度是不一样的,这是第一个。第二个你看不同信息量的时候不一样,比如说我看基因,人跟人之间的基因差异是千分之一,这个差异已经很小了。


雷鸣:对,非常小。


王俊:所以呢你需要很大的样本量才能找到真正的有符合生物学意义的差异。很多时候能查到微生物的差异就没那么小,比如说我的里边有一千种微生物,你的体内有一千种微生物,这个差异就非常大了。所以我们去发现肠道维生素跟糖尿病之间的关系, 400人就可以了。所以你看它这种层面不同数据的时候它又不一样,你把它全部综合起来它要多少数据点够,取决于算法本身和取决于研究的问题的复杂性本身。有的可能就是容易,像我七天不吃饭我对几个人,因为非常短的一个时间之内非常剧烈的一个变化,所以我的身体状况,我体内的那种酶上和下是非常剧烈的,你想想七天没有吃饭了,体内是一个非常大的变化。你只有几个人都是这样变的,可能不需要那么多人,但是你要研究细一点就不同了。如果我想做一个能用的学习系统,我认为需要一百万人,就是如果我们有一百万人的完整的数据,可能我们能做出一个能用的人工智能模型。


雷鸣:我觉得这个你讲得特别好,我把它翻译成计算语言再理解的这个问题。比如说像刚才血糖也好,其实现在我们很多的生物医学的研究,我们叫“显著性相关”,刚才提到了糖尿病能控制到90%。现在其实感觉上在生命医学里边,很多它背后的这种严格的治病逻辑这些东西,还搞得不是太清楚。所以其实我们这么理解,比如人脸识别,因为这个人脸识别是个高度复杂的,就是我们人在把自己培养到三四十岁的时候我们才到刚才说的一个比较正常的水平。其实需要海量的数据,因为它的复杂度很高。假如说我们做一个视频叫男女识别,这个时候可能需要的数据量就不需要很多了了。我的理解刚才讲了,我们在生命科学里边,很多的事情,刚才像糖尿病控制这个事情,因为以前我们并没有针对很多人花很多的精力去非常深入地研究,我们刚才讲的起点上的话呢它并不是说有很多你做了很久了,我们要去超越它,而是说把这个事情从一定的程度上先找到显著性,先用一个简单模型。其实刚才讲数据量对应的叫复杂模型,我们说阿法狗下棋,这个是个高度复杂的,因为它从前往后要走一百多步,这样就需要很多参数,因而需要海量数据。刚才我们理解到比如像单基因,它可能最后就是要确定的一个参数,所以这样的话它的数据量可能就不需要那么大,因而这个显著性只要找准了,就很快能把它找出来,当然你要是找的数据是错的,那可能也找不出来了。所以我觉得理解生命科学的话,相对来说我觉得很多对于它追根溯源的研究其实还在早期阶段,很多的显著相关性,包括这些控制的话,因此我们可能是一个过程,我们从局部一些对人类特别重要的解决问题开始做起,其实数据量并不是特别大,慢慢地走向,刚才像王俊讲的,一百万人甚至是几百万人,我们把那个人的综合的复杂系统给它再建立起来。


王俊:其实生命是一个极其复杂的系统,之所以没有那么多数据的一个核心原因也是因为每项技术都很贵,如果那个时候做一个人的基因一亿美金,你怎么可能有一百万人的数据,不可能的。我刚才讲就一千美金你也不可能,一千美金一百万的数据十亿美金,是非常大的一个东西,可能十美金的时候那是一个挺合适的。所以很多的跟这个还不太一样,我们拍照片,那些数据基本没有什么成本。


雷鸣以前胶片的时候还挺贵的。


王俊:现在很多可以做,我们现在收集生命数据,程序复杂、价格昂贵,而且后续对数据的很多分析也是一件非常复杂的事,你拿到可用的都很难,你还得判断很多的东西。所以对我们来讲也想摘一点容易的桃子,所以你会去define一些容易的question,那我不需要那么多太大的样本量,我能够先做点东西能够有用,所以很多时候是处于状态下的存在。


雷鸣:这个事情使我想起了一个是刚才咱们提到基因测序的成本立刻脑子里一想就是说关于我们提到的摩尔定律,就说所谓的计算成本大概是以每两年,同成本的计算能力每1.5到两年翻一翻,其实也就是说同计算能力的成本每一到两年会跌一半。咱们那个基因测序的成本下降每年在过去的话,大概每年能降多少?


王俊:这个他们的说法叫超摩尔定律,这是两年超过十倍。但是现在已经开始放缓了,降得非常快,但是现在在做这件事情的时候,已经发现其他的成本,就是测序这件事情,测序本身的成本已经只占到总成本的20%。


雷鸣:那其他的成本一般指的是什么呢?


王俊:前面的数理成本,你从血液拿出来就要的。最后到什么地步呢,很多无创从唾液里边采DNA,我那个唾液十美金,你可能那个测试比如说我最后就可以搞得很便宜,我几十美金我就可以测一个人的基金,运费多少钱,计算机处理要多少钱,人工要多少钱。


雷鸣:我听起来这个事情有一个很有意思的想法,干脆既然这么便宜就在我们说的7-11超市的出口处就放一个基因测序序列。


王俊:一定会有的。


雷鸣:2C产品。


王俊:现在美国已经开始在做这个事情,我们现在也在找渠道,而且我们现在做基因检测全都免费,就是所有人都不需要钱。


雷鸣:大家能给你报个名吗?所以我觉得刚才讲到这个事情是我想到说,其实咱们说这次的人工智能的爆发的话,刚才讲的因为各种摩尔定律,我们叫计算能力的摩尔定律加上数据增长,数据增长基本上也是全球的数据,大概以每年50%的速度在复利增长,所以的话在这个增长过程中它将达到一个临界点,这个临界点的出现是一个量变到质变的工程。所以我们觉得根据刚才咱们分析生命科学,会不会也会有一个点在未来不远的时间会导致生命科学相关的数据出现爆发,进而引爆生命科学?


王俊:我自己个人觉得虽然我做这个行业,我自己没有那么乐观,从人类基因的计划开始,在九十年代末的时候开始做,到今天2017年,基因检测这件事才真正成为一门生意,就它才真正开始逐步推广。而只是在几个方向上推广,比如说医院里边才开始推广开对孕妇的检测,肿瘤检测都没有推广开。我自己去做了20年的打算,我未来20年会做这件事,我希望我能够在5年之内有一两个应用能够走向老百姓,但这个过程它一定不是眨眼间就做成的事,它可能比任何我们知道的一些下围棋,语音识别,图像识别这样的项目都要复杂和长远。它还涉及到很多的问题,比如隐私问题,伦理问题,监管问题,等各种各样的东西,因为你毕竟在做的是一个医疗项目,说实话你语音识别听错一句话没事儿,你现在做的事是数据生命健康的东西,你搞错了一个,人家没癌症的你给搞成癌症了,这个事情是很大的事,所以它很多的要求不是那么简单的。


雷鸣:我觉得其实还好,因为我对医疗也了解一些,医疗基本上误诊率都是很高的,最好的医院基本上也有20%。


王俊:应该这么讲,人犯错可以,机器犯错不行。无人驾驶汽车是典型的案例,人去开车出错或许没事儿,如果一个无人驾驶汽车出去开车出车祸,那是个大事。


雷鸣:这块我们大体上有一个这种感觉,它这块还没有具体量化,你觉得以人的话,因为人这个变化尤其跟生命相关,它非常谨慎。所以基本上我们感觉的话叫量级定律,比如说刚才说的这个自动驾驶,如果它跟人相比,就是百万英里它出事儿跟人一样的概率,这个自动驾驶肯定是不让开的。但如果说它能降低到人类的十分之一的时候,基本上这个时候大家就会慢慢地接受,就跟那个复印机一样,其实它都会失势的。


王俊:再有一点跟自动驾驶有很多相像之处,自动驾驶本身有一个长尾效应,所谓长尾效应的意思就是你可以把99%的情况都可以预测到,但是就是那个1%复杂,而且就那个1%千奇百怪,你也不知道什么东西出问题。在生命科学里面有一个最出名的话,叫在生物学里面唯一不例外的就是永远有例外。因为生命科学本身我们就是一个例外,我们当年那个猴子变人的时候,当然不是所有的猴子突然间站起来变成人了,而就是那一只猴子站起来变成人了,然后我们就是成人了。所以人本身就是一个试错产物,因为它本身就是个例外,所以它的所有生命科学里面几乎没有一样东西是没有例外的,因为进化的基础,就在于是生命演化的基础就在于不断试错,容错,进化,演化的过程,所以它一定有例外。所以你说我做一个模型百分百的能够怎么着,你很难听到,包括在医学里边就诊断说我可以有一个东西百分百的诊断,这个话几乎没有人说的,因为说了肯定是错的。


雷鸣:这肯定的,因为我们都有经验,我也经历很多朋友的,他们得了病之后在北京各大名医院,然后看一圈之后发现各个医生的观点还不一样,所以最后很痛苦,当然这个呢我们说很多的东西都值得再进一步的研究和探讨。回到刚才讲到这种所谓风险的东西,因为我们看到因为基因的技术现在进展得很快,我们可以去编辑甚至生成基因。那这里边的话我们明确看到第一就是转基因食品这个事情,就是对于我们吃的这些的话,我们做一些基因基础如何让它高产,抗病毒,甚至说增加营养这一块。这一块的话其实有很对立的两派观点,一派可能就觉得说我们就不能吃转基因的,一派说转基因在一定的严格测试还是可以接受的。这块我不知道您大概会怎么看这个事情?


王俊:转基因是一种基因技术,首先它是基因技术,就跟基因编辑,合成生物学是一样的,转基因是把一段外源基因转到这个物种里边去,基因编辑是把一个基因的成分改掉,合作生物学是重新合成一个东西,这个从本质上来讲都是基因技术。所以对于一个基因技术去反对有点没有意义,就是对于一种技术去反对是没有意义。但事实上大家说转基因的时候不是在说技术,在说转是什么东西。你想象一下如果转基因水稻转的是另外一个基因的,另外一个水稻的基因就不存在安全性问题。但是你想象一下如果把一个SARS病毒的基因转到水稻里,那不管怎么说你们都不会吃,心理都挺别扭的。你比如说那个时候的所谓转基因抗虫棉,那是个什么东西呢?那是苏云金杆菌里边的一个毒蛋白转到了棉花里边,棉花有了这个蛋白之后它就抗虫,因为虫子吃这个蛋白就会死掉,对虫子来讲是一个神经毒素。那它接下来的问题是它对虫子有毒,那对人有害没有?


科学家来验证一个东西对人是不是比较安全,我们做的事情只有几个,第一呢做细胞学实验,看它是不是有问题,把人的细胞放到那儿。第二做老鼠实验,再不行做猴子实验,你最不可能就是做人的实验,你不可能说我把一群人分在这儿做我们的转基因,这群人都别转基因了,然后看看你这儿有什么变化,这个事情它不好做,也不能做。


即使做了也没有用,为什么呢,因为公众对这件事情的认知不是说你这边转基因弄完了,明天看你有什么反应,就完了,不是。那是得50年以后,这50年你要是谁得癌症,这个东西是不是你当时是转基因的问题。可能这个也不够,因为如果我生个孩子,这个孩子未来得癌症证明有没有关系。所以就出现了标准不统一的问题,就是科学家去评价一个东西是不是安全,老百姓认知它是不是安全,这个有个差。有个差之后政府就出来了,政府会说那它必须有标准,什么叫安全什么叫不安全,你政府有制定一条标准,一种做法就是说我全面不做转基因了,我也不想弄点麻烦,夹在两头中间我不做了就完了,欧洲很多国家也不做了,俄罗斯也不做了。OK,你要是觉得你能够解决粮食问题,饮食问题都没问题,欧洲不做可以不做,美国是没办法不做的,因为它那么多农民,包括除草剂什么的,它没有那么多人工去天天除草,不可能的,很多的必须做。做了政府就会出一道规则出来,FTA就有一套规则,你有规则我就简单了,就跟吃药一样,有的药是吃死人的,各种副作用的,但是你EFDA有一个标准出来,我得按照这个标准,我过了这个标准就是政府可以上市。


我自己个人认为有一件事情很重要,这个是每个人可以自己选择,比如说政府定了一个标准,假设在美国,中国也一样,这个食品通过的这个标准,在超市里边卖。我觉得不应该是现在这样标一个非转基因食品,而是你到底哪个是,哪个不是,你可以自己选择。这是你自己的选择,你用户或者是每一个老百姓有知情权,你可以有你自己做决策的权利,我可以选择我信科学家的方式,我可以信政府的公信力,我也可以选择。有的人说我不想吃别的,我就想弄点有机食品,别的地方的鸡我都不想吃,因为抗生素太多了,猪的身上抗生素太多了,水稻现在含铬的东西太多了,你看中国有多少水是没有重金属污染的,吃到稻米里边是什么样的。中国现在吃的鸡,猪,牛,有多少是抗生素,这种抗生素会怎么样,它会有这种东西,然后你自己选择。


雷鸣:行,那我们的对话部分就到这里,下面我们还有一个开放的观众提问环节,包括网上直播,微信群的观众们。第一个问题我跟你读一下,作为我们的天才男神,你是如何做到这些成就,这个成就指的是说别人发一些,没事儿就高兴蹦到天上,你说哎呀已经不想出了,几十还是几百的这个。问题是说你是怎么做出这么多有价值的论文,又同时不耽误其他的工作生活呢?


王俊:我刚才想吹个牛,说完了以后很开心,我跟雷老师是差不多,我比他大一届,你看我比他显得年轻。


雷鸣:因为我没研究生命科学,你看他天天的研究什么,当然晒伤的脸六天还是五天。


王俊:我就是想说这个问题,我们天天研究这个玩意儿的,还不把自己可以这个多做一点,那个多弄一点,保持一个状态。雷老师不一样,天天对着计算机,很枯燥。


雷鸣:以后我得多向你学习。还没有回答问题呢,作为男神你是怎么平衡的,你不能光攻击我。


王俊:其实也没有,其实谁都年轻过,在年轻的时候都拼命过,每天工作多少个小时不睡觉,我觉得每个人都有,在座的各位肯定都一样。等你岁数大了,管的人多了,权也多了,钱也多了,那你就可以用资源。你就不一定要像雷老师十个学生,一个学生给他卖命,每个学生只能出一篇文章,有一百个学生你就可能一百篇文章,你看他能动用多大的资源来做多少事,雷老师动用的资源头发少一点。开玩笑归开玩笑,我认为生命科学这个领域,我刚才讲的这个领域它是一个大科学,所谓大科学的意思就是它会有很多人一起在一个平台上做很多事。所以它具备很多规模化的特征,所以它实际上做的东西是很不一样的,当你掌握了一个技术之后,我刚才讲了,可能发表的东西都是通量化的东西。


雷鸣:流水化工作。


王俊:你不能讲流水线。但它很多的东西确实具备某种技术突破以后研究对象不同所带来的福利。


雷鸣:说法换了一下。


王俊:你研究基因和糖尿病的关系,研究基因和高血压的关系,研究基因和肿瘤的关系,肿瘤里边又分了很多癌症,肺癌,这显而易见。不仅仅是基因测序这个行当,很多的行当都是一样,你能看到你有一个技术突破之后,但这个东西它是一波一波的,你过完这一波,该做的做完了,就这么多癌症,下来之后你可以找新的技术方法手段,再把一个东西推到一个新的层次和高度,你只能是做这样的事情。最难的实际上是理论性的东西,比如说进化论,进化论出来所有的人到现在都在谈进化论是怎么回事。就是像这样的东西就不是说我发多少篇论文,其实根本就不算是。你会想到你能不能有可能有一些理论性的这些东西,而这些东西本身能够带来更深远的一些影响,就不仅仅是在技术突破所带来的很多科学发现,很多时候能够有一些新的指导科学发展进程的一些理论,我觉得这种东西,我个人对这个东西是最感兴趣的。


实际上我那个时候自己在做肠道微生物和各种疾病关系的时候,我就会觉得那样的发现就很重要,就是你能做到肠道维生素本身跟糖尿病有什么大关系,以前不知道,现在知道了,这个问题是挺好的东西。这个概念是通的,所以你就会觉得这是一个挺好的东西,这就比你用同样的测序技术,测完基因,再测植物,再测熊猫要好一点,你会觉得这个是一个更加有意义的东西。


雷鸣:其实你讲得也特别好,我最近讲深度学习也是到这儿弄一下,到那儿弄一下,反正这个技术突破之后它的各个应用场景上确实也能发出一些不错的论文,但是相对技术本身的突破它可能是最根本性的。


下面有一个同学问了,现在你这边的研究方向是基因,我们叫digital life研究基金,包括实际的东西影响数字化的生活。现在看到另外一个方向,现在最近也挺火的,包括谷歌等等的也有很大的投入做智慧医疗。这两个方向将来它会有一种什么样的方法,它们会交汇在一起吗,还是说它们两个会竞争的往前走,怎么去影响人类的生命或者是健康这一块?


王俊:你是指我现在做的这个东西和IBMWatson的区别,还是指IBM Watson和谷歌之间的区别?


雷鸣:问得好,那边大体上那条思路是基于经验主义,基于大数据里边分析挖掘基因诊断的关键特征什么的,像IBM Watson它可能看了小孩的病例,十分钟说这个就是某个什么病,就赶快治就行了。它那边更多病不是说所谓更深层次的理解人的这种,像你做的这种东西,理解未知的世界。而更多更像是说把这个大量的经验给它集成起来,进而能够创造出一个比老医生还老医生的医生出来。大概就是这两套路我们想知道可能在未来的演进过程中,它们会怎么去互相做。


王俊:雷老师已经回答得很好,基本上就是这个意思,IBMWatson用到的数据一般是医院的大数据,医院里边的病历数据。一般来说从结果去manage结果只会是诊断,会做得更好一点。因为它其实都是结果,都是医院各种各样的检测结果,结果做结果,就是诊断的做得更好。但是对于生命更本源的一些东西的理解,很多不是现在有医疗的那些大数据,更多的是从原因的角度来做的。比如说糖尿病,在医院里边你去能拿到糖尿病的更多是检测,用药,诊断的这些数据,但是我们现在做得更多的基因,肠道微生物,饮食,运动,这些数据它能够更好地从源头管控糖尿病,最好是不让他进医院,不要产生IBM Watson用的数据。最好是能作为这样,实在不行进去了,也得用占有基因,蛋白和各种各样的,从它的成因出发来寻找更好的解决方案。所以我认为它是更根本的一个东西,或者说它的解决和这个数据模型的搭建能够让人更好地去管理它的数据成品,而不仅仅是诊断它的疾病,这是一个很关键的东西。


雷鸣:我觉得这点的话王俊其实说得我觉得比我问问题的时候清晰得多了。现在总结一下,其实现在我们看到的所谓的智能医疗,智能医疗它做得再好,把所有的小医生都变成老医生,然后都变成专家,这个当然有好的地方。我们其实现在的基层医疗它的水平其实不高的,尤其是第三世界国家不高,智能医疗能让他们都变成全世界最优秀的医疗生水平。但是最优秀的医生他还有解决不了问题,他还有不理解的事情,那这个事情的话王俊正在研究。他其实研究的话是一些我们还未知的领域,一些背后的逻辑这些。


王俊:但我自己其实觉得,甚至包括疾病状态,我自己觉得就IBM Watson,包括我们现在做的一套系统都是属于西医,有些过于碎片化,中医里边有两个东西很值得做的,第一是系统化,第二是个性化,中医是非常系统地去观测一个人,也是非常个性化地去做这个。我觉得就从疾病诊断来讲,我认为现在比如说对糖尿病还是IBM Watson给你现在的数据做一个更好,可能也不足够,你应该从它的个体的基因,各种各样的所有大数据基础之上,可能能够出来一个更好的,即使是诊断都是更好的。因为它是更系统化的去描述这个人的数字生命状态,这比用一个单一的诊断指标去判断一个疾病一定也好很多,只不过以前没有这样的数据。


雷鸣:这个完全认同,这个事情我们回过来再讲的话,其实这跟我们说工业革命之后的分工,不断细化有关系,其实现在医生的话,过去我们中医基本上就一个人什么病都看,现在西医他越来越专业化,导致在专业方向上进展非常快,进而丧失了一个人能有全科的诊断能力了。就是说所谓的真正专家就在一块钻得很深,包括我们的学校也是一样的,过去还有所谓的大哲学家,我们回去看达芬奇这种人,牛顿这种人,基本上很多家都在他身上背着,但现在的话我们很难看到我们基本上跨领域的专家了。刚才讲我们人类其实也是有极限的,我们的知识,包括我们学习能力的话,一旦伸进去之后,如果说把很多深度的东西全部都这个人学,他学不会,就一万个小时以内,想成一个专家花一万个小时,一万个小时就一个专家,不可能成为多项专家最后再整合起来。或许我觉得这是人类的极限,将来的话有你这个东西的话,数字化之后,你的运算能力没有极限,会导致的话,包括我们对智慧医疗,刚才讲,它如果往后走的话,很有可能。因为智力没有极限的话,会导致说它重新会把多个分开的科室重新再综合起来,然后去做诊断的时候。前一段就是通过演的这个底模去判断糖尿病几期,这个好像就是一个有点跨一点科学的东西。


王俊:我自己其实觉得这种人类极限的说法我不是很认可的,因为你现在的人工智能做的就是让人类上另外一个集成化。因为你很多的这些,以前你花很多的功夫去做的,你现在不一定会花很多的功夫去做,也没有必要花很多的功夫去做。你可以让他们帮你去做,以前还要看看地图很费劲,现在不用,GPS直接帮你规划了。所以我觉得这个归到另外一个阶段,但假设哪一天我们做出来的人工智能超越了人本身的智能,我自己认为人类应该非常骄傲。因为人类就像猴子变成人一样,猴子是不知道人是什么样的,我觉得如果有一天真做出来了,人类应该非常骄傲,因为人类是第一个主动地创造出比自己的智慧更高一级物种的物种,这是很伟大的一件事。


雷鸣:这个所谓的我们叫强人工智能之争,这个在学术界也是有一些探讨,大部分人认为全人类在可见的短期不大会发生,最后可能我们院长洪小文博士,可能在最后,应该是倒数第二次调一下课,可能会谈到这方面的东西,我待会儿会跟他做一个交流。我们再说一个问题,有本书叫《未来简史》,提到人工智能和人机之间有某种配合。但恰巧的话,我想就是今天应该是,刷屏的ElonMusk又做了一个很神奇的事情,然后把后面脑子和机械之间要做的对接。就是你对这种进展,刚才我们讲纯粹从人的本体去讲,我们人通过科学,我们可以更健康,更长寿,更聪明。但现在的话对于这种应,我们更往前,更科幻感的,比如说人和机器的某种意义的一体化,而这种一体化简直都进入到生物层面的一体化,这个方面你有一些什么样的想法和观点?


王俊:我现在做的这套learning system,其实做的就是打穿这个硅碳两界,因为如果我们是碳基因,那个是硅基因,我们身体这个疲劳是一个精准计算的机器,从我们这么想而已,我今天喝完这瓶水身体什么反应,这是很精准的反映,它不是一个随机过程。我今天喝完水,我此时此刻身体就是这样反映,它不可能是一个随机的一个东西。而这样的东西随着它越来越深入地了解,而且很多的不管是纳米技术,还是生物技术,各种各样的发展。这个疲劳是可以换的,这个疲劳所有的东西都是可以换的。唯一没有搞明白的就是意识的形成和意识产生的基础和它用什么样的方式能够去替代,因为涉及到很多我们这个领域经常讲的问题了,记忆的上传,意识的上传,很多这种问题。碳云未来20年不研究这个事,碳云未来年会研究它疲劳的事,就是这个身体本身,血糖怎么弄的,血压怎么回事,心脏怎么运作,很多是做这种疲劳本身。但我们会开始涉及很多认知疾病,比如说老年痴呆,帕金森,自闭症,很多这些东西它是有很强的物质基础,就我们知道它这里边。比如说自闭症的东西,我们曾经做过一点点的研究,自闭症很有意思,我们每一代生孩子,这个孩子跟我们有60到100个基因突变,你每一代除了父母一家以外还有跟你有60到100个基因突变。我们以前认为这个基因就会在基因组成随机分布,因为我有31字母,这60个字母肯定是随机组合。最后发现所有这些数据其实是有集团分布的趋势的,你去看这些集团分布的地方,都是大脑发育基因。再有一个信息就所有的像我们生孩子的年龄,也就是说你岁数越大,孩子的得自闭症的风险就越高。


雷鸣:OK,没有说晚生就越聪明的。


王俊:但有时候自闭和聪明其实也说不清楚,所以很多这种东西它是有很多的数据基础。所以通过对这些东西的研究,很可能会构筑未来研究脑科学意识层面东西的一个更有意思的一些基础,我觉得未来20年还是储备期,20年以后在这个事情上我认为会像今年开始我们讲digital life一样,在20年以后的那个时候我们会讲digial mind,计算机能不能像人一样思考?在那个时候会有比较突破性的进展。


雷鸣:现在包括国家,欧洲会有大脑对话,中国政府现在也是花了很多钱在尝试去理解大脑,我觉得对大脑的理解可能也会加速。这插播一个挺有意思的,我在数年前当时很感兴趣脑科学,大家觉得脑科学应该在哪个系?生物系,是吧,心理系。在心理系,我以为在生物系,生物系早早发现他的DNA解剖,然后就找医学,医学天天研究脑子生各种病,都不是我想要的,最后发现在心理系。因为现在的心理系的话,我觉得有点从社会科学向自然科学的转变,就是这种从归纳领域变成真正研究的科学领域在做。那我觉得时间原因,特别感谢王俊老师。


王俊:我再多说一句,碳云现在在招人。


雷鸣:对,一定的,欢迎大家踊跃报名,实习什么都行。


王俊:实行留下来工作,做研究干什么,是很好的机会,你们可以在网上查得到十大创新的公司,前九个都是腾讯,阿里这些的,还有就是碳云太耘,所以这是个很酷的公司,如果你们对这个东西感兴趣,会很好的,会很有意义在做一件不一样的事,全世界没有人做过,挺好。


雷鸣:行,我们以热烈的掌声感谢王俊老师的分享。



 

━━━━━

封面来源:网络  排版:陈光  校对:伍小仙

━━━━━

北京大学“人工智能前沿与产业趋势”第六讲由碳云智能创始人兼CEO、原华大基因CEO王俊老师亲临现场,与北大人工智能创新中心主任、百度七剑客之一、酷我音乐创始人雷鸣老师就生命科学相关问题展开了宣讲和讨论。本文为您带来王俊与雷鸣的精彩对话。