在两年前加入位于波茨坦的SAP创新中心之前,我花了五年时间在哈佛医学院从事微生物学研究——培养土壤细菌,模拟它们的生态,比较它们的基因组。在一个局外人看来,我搬到一家软件公司,可能会永远离开生物学的世界。但事实上,我在SAP的第一个项目集中在一个重大的生物医学挑战:改善癌症治疗。
癌症不仅是一种毁灭性的疾病,也是一种非常复杂的疾病。虽然它总是由单个细胞的DNA变化(突变)引起,但基因修饰的确切模式因病例而异,甚至随着疾病的进展而改变。因此,即使是同一类型的肿瘤也可能有根本的不同,因此,最好的治疗方法也是如此。
这使得癌症成为个性化医疗的关键目标,即考虑到个别患者的特征和他们疾病的具体形式的治疗方法。但是,如果每一种癌症都是独一无二的,那么将一个人的治疗经验建立在假定相似病人的基础上,可能意味着医生可能会忽略关键的差异。那么,我们怎样才能真正实现癌症治疗的个性化呢?
SAP虚拟患者平台的概念验证截图,展示了虚拟患者模型如何与其他医学信息集成。
柏林马克斯普朗克分子遗传研究所的Hans Lehrach教授和他的研究小组提出了这个问题的一个根本答案,与生物技术初创公司Alacris theranotics一起:用一组虚拟病人替换可能相似的病人。这些虚拟病人是计算机模型,描述了一个具体的真实病人的确切癌症,网建站,因此他们可以用来为他或她寻找最佳的治疗方法。
使用计算机模拟来取代困难或昂贵的程序的想法并不新鲜-工程师们用计算机来模拟车祸然而,从20世纪80年代开始,理解(并因此模拟)金属的弯曲比理解人类生物学要容易得多。我们身体中的每一个细胞都是一个复杂的复制实体,由人类基因组中储存的大量信息引导(直到2003年才完全绘制出来)。
但是几十年的艰苦研究已经完成帮助科学家建立了基因、蛋白质和其他分子在细胞内如何相互作用的图像。在过去的十年里,生物学家与系统生物学领域的计算机科学家、数学家和物理学家联手,加深了他们对所有这些片段如何结合形成活细胞的理解。这一努力的一个结果是不断改进健康细胞和癌细胞功能的数学模型。这些模型还不能提供牛顿力学定律的预测能力,但它们确实使在计算机上模拟癌症成为可能,因此虚拟的癌症患者成为可能
这就是Alacris进入的地方。他们利用从病人身上获取的分子数据(例如肿瘤细胞的突变)来调整他们精心构建的细胞数学模型,以便准确地捕捉到肿瘤的行为。然后,他们使用该模型来模拟大量可用药物治疗的有效性,从而帮助医生为这个确切的个体确定最佳治疗方案。
但是现在一个重大的生物学挑战突然变成了一个重大的IT挑战,需要对每个患者进行密集的数字运算并产生千兆字节的数据。Alacris建立的数学模型包含数千个代表不同基因和蛋白质的变量,同样需要大量的参数值来捕捉单个肿瘤的细节。为了确保可靠的结果,这个巨大的模型还必须对我们想要测试的每种药物的每一剂量进行成百上千次的求解。幸运的是,这类问题非常适合我们在SAP创新中心使用SAP HANA和其他技术来应对新的大数据挑战(另外,我们距离Alacris在柏林的办公室只有很短的火车路程)。2012年,我们加入了一个概念验证项目,spark大数据,我也有机会加入这个项目。
使大规模使用虚拟患者成为可能给我们带来了几个非常不同的it挑战:我们如何让模拟更快?我们如何处理大量的输出数据?医生在幕后与复杂的模型互动的直观方式是什么?
幸运的是,我的同事瓦伦丁·弗伦克特(Valentin Flunkert)在攻读博士学位期间,解决了与Alacris使用的数学模型相似的问题。利用这一经验,他制作了一个方程求解器,将模拟速度提高了大约5000倍。突然间,原本需要数周时间的模拟现在可以在数小时内运行了!但是更快的模拟当然意味着每天产生更多的数据。因此,对于我们的概念验证系统,我们直接将仿真结果加载到HANA中,以便进行即时分析,如查看相关输出的平均值和不确定性。最后,我们制作了一个基于web的用户界面来展示医生的界面可能是什么样子(见图),这是一个有趣的挑战,因为我们必须用正常的医学概念来表示底层的抽象数学,并以一种仍然允许医生在评估结果时引入自己的专业知识的方式来呈现结果。基于这项工作,Alacris最近决定购买SAP HANA.