资料图片
大数据是继实验、理论推演、计算机模拟之后,人类获取知识的“第四范式”,中国也是科研数据产出的大国,但是面对科研大数据,我们真的准备好了吗?在日前举行的2020 浦江创新论坛科技创新资源分论坛上,专家表示要提高科研数据的“炼金”能力,加快建设高量级的数据服务体系,为创新资源增彩,为科技发展赋能。
科学家看好大数据
要把“采矿”和“炼金”的关系说清楚,先得弄清大数据和科研正在如何碰撞。
上海市科委副主任傅国庆表示,伴随以互联网、云计算和大数据为代表的数字经济的迅速发展,科学数据已经成为传播速度最快、影响面最广,开发应用前列最大科技资源,科技创新进入了数据驱动的“第四范式”时代。
近年来随着越来越多的科学建设和重大科学实验开展,国内的科学研究也进入到了前所未有的大数据时代,以脑科学为例,用电子显微镜重构大脑突触网络,一立方毫米大脑的图象数据就能产生一两个PB(2的50次方,1000TB)的数据。“一个国家科学研究水平将直接取决于在科学数据优势以及将数据转化为知识能力。”傅国庆说。
“我是科研数据的生产者。”中科院上海巴斯德研究所“发育与健康微生物研究中心”首席科学家菲利普说。2010年当他第一次对人类肠道微生物基因组采样时,可以看到50亿个短序列。随着技术地发展,可以观察到的微生物数量已千万倍的速度增长。
会议照片。主办方提供
中国科学院院士、分子微生物专家赵国屏说:“有了基因组工程以后,我们确实在科研里面出现了一个新的数量级——TB级数据量。2020年以后由于合成生物学提出,进一步物理学信息科学化学各方面的学科汇聚以后,现在数据达到10个18次方,这是大数据的门槛,天文学、物理学当初早就达到TB级,生命科学也达到了,也是进入第四范式。”
谁来提供处理方法?
在科研数据的产出上,中国已成为大国,但是我们的科研人员仍然要为保存、处理数据而烦恼。以生命科学为例,在美国国家生物技术信息中心(NCBI)、欧洲生物信息中心(EBI)、日本DNA数据库(DDBJ),科学家不仅可无偿使用存储在这些数据库的数据,且有大批计算机专家和生物学家维护着数据库,免去了科研人员后顾之忧。这使得许多科学家到中国做了研究,数据却拿到国外分析。赵国屏认为,这种“花了力气却不知道怎么用”的局面不应该持续,否则就会错失难得的机遇。
当下越来越多的科学项目与数据密不可分。中国科学院院士、上海国际人类表型组研究院院长金力表示,人类表型组计划就要一群人能够对所有的能够测的表型全部测一遍,包括体质、分子、免疫、菌群、功能表型、临床表型等等,看他们之间的关系。
我们必须自己掌握“数据炼金术”。会上,上海科技创新资源数据中心发布《上海科技创新资源数据中心三年行动计划 (2021-2023)》,明确提出打造支撑“1+1+N+X”科学数据生态体系的技术载体。上海科技创新资源数据中心首席执行官朱悦介绍,“1+1+N+X”科学数据体系为1 个科学数据管理中心、1 个科学数据运营中心、N 个专业科学数据分中心,与 X 个科学数据产业应用构建的科学数据生态体系。中心希望借此打通不同数据库间的条块分割,实现异地存储和跨云管理,实现高水平的科研数据服务。