“文化基因图谱”或可预测人文未来

2015-09-17信息快讯网

“人类基因组的信息量只相当于一首有30亿个英文字母的诗篇。500万本书籍中的5000亿个单词连接起来，长度是人类基因组的1000倍。如果把它们连续写出来，其长度相当于在地月之间往返10次以上，这还仅是人类文化基因组的小小一段。”

先别急着惊讶。如果读书是向文明致敬的最好方法，在这个坐标里，Y轴是全世界一亿二千九百多万本书，极其高（还仅是谷歌公司在2010年所做的“不完全统计”），但偏偏还存在X轴——人类有限的生命，除了喟叹“吾生也有涯，而知也无涯”外，单单将这些书籍全部数字化就是一项浩瀚的工程。

但是，“魔术师”来了。席卷全球的“大数据”浪潮正努力冲破人文研究发展的局限。由湛卢文化策划的《可视化未来：数据透视下的人文大趋势》中文版近日面世，是两位80后世界顶尖数字人文学家研究发现的重磅之作，他们通过对500多万本电子书的建模研究，追踪了几个世纪里英语语法、词典学、集体记忆、科技使用、名望传播、历史流行病学等一系列文化现象的发展，试图寻找人文在几个世纪来的演进规律。

“大数据在研究历史文化、人类语言、群体记忆等方面的重要作用，其对社会科学的变革意义，与伽利略首次将望远镜指向太空对天文学的意义一样重大。”中国工程院院士李国杰如是形容。

复旦大学历史系教授周兵，正在海外考察数字人文在历史学领域的应用前景，该书英文版早已引起他的重视。“英文版标题为Uncharted，意为‘未知、具有无限可能’，我认为，这个题目也许更能反映数字人文研究的未来，‘可视化’只是其中的一种可能而已。这片领域有着太多的未知之处，等待着去发现、去探索、去开发。”在接受本报记者专访时，周兵这样说道。

一张图浓缩五千亿个单词

建立“人类文化基因组”，这个大胆的想法正来自于本书作者之一、曾获得“美国总统青年科技奖”的科学家艾略兹·埃顿，而他本身的履历也足够说明他的传奇。埃顿本科就读于普林斯顿大学，主修数学、物理学和哲学专业。2007年，身为哈佛大学数学系博士的艾略兹·埃顿，尝试用数学的方法研究基因组学。他说：“我希望证明，利用数据分析解决人文学科问题是可能的。”他将这种方法称作是“文化组学”。文化组学，是一个由“文化”和“基因组学”单词合成的合并词，指的是利用数学方法分析海量文本数据，从而得出人类文化的发展和演变。

埃顿和另一位作者、数据科学公司量化实验室的创始人让-巴蒂斯特·米歇尔，通过与“谷歌图书”项目的合作，有机会“亲近”了500多万本电子书，而成果是一个科学工具——n元词组词频查看器，被称作Ngram。通过这一工具，人们能逐字逐句去追踪、记录各个词的出现频率和常见组合方式，提供给人们一个理解世界的过去、现在和未来可能性的新视角。

为了向世人展示成果，两位“神奇小子”还特意在一次TED演讲上现身，证明该项研究的重大意义——了解人类历史、文化、政治，社会演进的方方面面，就像吃一包薯条那样轻松。

“现在要给你们一些职业发展的建议。”针对书籍中出现的著名政界、学界和演艺界人士的定量研究，米歇尔调侃道，“如果你想早点成名，你就应该当演员。你能等一等，不那么着急，你就能当个作家，像马克·吐温那样成为文坛巨星。如果你想举世闻名，你就不能安于现状，成为一个政治家，需要到60岁左右才能成为现实，并且一直扬名下去。科学家？他们总是在年纪一大把的时候才出名，当然啦，生物学家和物理学家的名声，通常能跟演员的名声媲美。但有一个错误千万不要犯，那就是成为一名数学家。”台下顿时哄笑声一片。

两人还量化分析了“个人对文化历史”的影响，比如对奥地利精神分析学家“西格蒙德·弗洛伊德”和英国生物学家“查尔斯·达尔文”出现频率的分析，揭示出文化智力持续演变的趋势：到2005年，弗洛伊德已经失去阵地，达尔文最终超越了他。除此之外，两人还回答了像“语法的变化速度到底有多快？哪些作家被纳粹审查得最彻底？甜甜圈什么时候改换的拼写？”这些问题。

18世纪热词beft是啥意思

n元词组词频查看器第一次使用在谷歌图书项目中，谷歌公司的几位工程师显得异常兴奋：“这太有意思了，我们得让所有人用上它。”他们编了一个面向公众的NgramViewer版本。人们可以输入任何感兴趣的单词或词组，查看它的“N字格”并阅览所有书籍里出现“N字格”的例句。想不到第一天就被人们使用超过了100万次，统计显示，最高频的搜索词竟然是“Best”（中文意为“最佳、最好”）。

事实上，18世纪的英国人对“best”这种书写形式并不感冒，他们会把其中的“s”写得像“f”，但计算机在做模型运算时并没有注意到这个被排除在外的错词。让-巴蒂斯特·米歇尔说，“这实际上只是一个小提示，尽管很有趣，但你在解读这些图表时仍需非常谨慎，你必须遵循基本的科学准则。”

尽管对数据保存非常有效，但Ngram在解决人文学科问题的研究时还是存在局限性。复旦大学历史学系朱联壁研究员告诉记者，“主要是这个系统对排除干扰的能力较弱，对词的语境是无法呈现的。尤其是，如果扩展到中文书籍，中文的‘词’和英文单词的概念不一样，且一个单字在不同语境下呈现多样、完全不一样的涵义，还有中国文化中非常特殊的文言文。在这么多样性的情况下，设计不可能是一劳永逸的。目前Ngram也仅限于英语研究，但未来可以不断改进，并且均衡语言的收入。”

“基于大数据的研究分析只是数字人文的诸多形式之一，有许多数字人文的研究实践并不需要非常精深的计算机能力，依靠常用的应用程序、网站工具、App、网络平台、电子数据库等也可以实现，有大量的领域还有待于去拓展，许多新的方法可以去尝试。”周兵认为，任何研究当然都有其缺陷，但学术研究本身需要不断地创新和开拓，新的技术革命也要求我们能够适应时代和社会的发展，作为人文领域的研究者应该积极投身和推动人文研究的“数字转向”。

文汇报记者童薇菁

鲍蕾晒贝儿拉大提琴靓照网友：未来的音乐家

“头上长草”风靡申城没文化？萌文化？

上海预计未来两年拥堵持续恶化每年增40万辆新车

波音公司预测中国未来需增20万飞行员及维修技师

盘点那些国产电视剧中的“妆文化”

上海援藏力量守护藏文化传统助推日喀则藏文化瑰宝绽放

他是一位关爱学生的“父亲” ——记上师大人文与传播学院院长苏智良教授