让FAST更FAST!张江算力为大国重器保驾护航!-LMLPHP

图说:祝永新在FAST(胶片翻拍) 来源/采访对象提供

走进位于上海张江的办公室,打开手机,“中国天眼FAST向全世界开放”的消息瞬间刷屏。中国科学院上海高等研究院感知与计算实验室研究员祝永新告诉记者,“中国天眼”的日常运行,也有上海科研人员的贡献:“我们的工作就是让FAST的数据传输得更快,计算得更高效,让它在发现科学目标时能更fast(快)!”

海量数据 高效处理

贵州省黔南州平塘县大窝凼,天然喀斯特洼坑,群山环绕,被称为“中国天眼”的500米口径球面射电望远镜静卧其中。当中国天眼凝望深空时,每秒产生的数据量达38GB,塞满目前最大容量512G手机,仅需不到14秒。FAST一个机时至少是观测2小时,由此产生的数据之大可想而知。要开展研究,第一步就是对海量数据的有效预处理。

“如果越堆越多的数据得不到及时处理,就不得不将装置停下来处理,下一个观测任务就需要漫长的等待。”祝永新解释。他领衔的中科院上海高研院课题组与英国皇家工程院院士陆永青教授所在的帝国理工大学紧密合作,在定制计算的软硬件协同设计、科学大数据流处理框架等方面取得了不少突破。

利用这些技术,通过对天眼获取的毫秒级脉冲星数据的有效预处理,能将数据无损压缩到三分之一,有效地减缓了从FAST天线向数据中心的数据传输和存储的压力。“压缩掉那三分之二的数据并不是任性而为。”祝永新告诉记者,“在不影响科学目标的前提下,针对实际需求位宽予以折叠。比如某一数据是16位宽,但8位或更小的位宽就能满足科学家的需求,这时就会对数据折叠。”

传输效率提高后,课题组紧接着把目光瞄向了FAST的计算速度。“我们使用异构加速部件,针对感知的数据进行定制化计算,使得部分关键算法的效率提高了5到10倍。”祝永新表示。

防止丢包 技术保障

过去,FAST天文学家每天需要看近万张图谱,寻找可能的脉冲星等天文目标。上海科研人员在基于深度神经网络的恒星/星系识别方法的基础上,与FAST研究人员开发新的脉冲星等天文目标的机器学习方法,自动筛选掉无效的FAST图谱,让天文学家们每天只需要关注百余张有效图谱。他特别提到,自己领衔的课题组更偏工程应用,不少技术迭代的想法,是和天文学家的头脑风暴后出现的,显示出1+1大于2的效果。

说到这,或许有人会将这项工作和人工智能帮影像科医生读片做类比。在祝永新看来,两者有相似也有不同。“都用到人工智能等方法来过滤筛选,提高工作效率;不过医院要识别的是图像,而在FAST的应用里是识别图谱。”

在数据“快递”过程中,遇到丢包怎么办?或许每百万个“快递”中,丢包仅仅1个,但或许那一个,却是对科学发现不可或缺的。为此,课题组初步完成了单脉冲星相干消色散原型机的设计,“防丢包能力”有望提升两个数量级。

定制计算 大有可为

“所谓定制计算,就是针对不同的应用场景,从软件算法到硬件运行的定制化协同优化,以此提升不同场景下数据处理的能力和效率。”祝永新介绍,“又例如对于国家电网的关键设备,以及无人值守的输电线路和变压器,也都可以通过定制计算的方法快速分析传感器的数据,来预测今后会出现的问题,从而提前对设备予以检修或更换。”

张江国家自主创新示范区已经十岁了,在这片创新沃土上,祝永新和同事们也有着新期待。他们希望借“中国天眼”积累的经验,赶超英国、意大利、荷兰等“先行者”,达到国际领先水平。

特派记者 郜阳 通讯员 陈思宁

03-31 08:32