第148期文汇讲堂以在线和在场同步进行的方式举办
【导读】人工智能在论文抄袭方面是否能起到作用?以各地健康码收集不同数据为例,如何评判有无过度收集?怎样面对“贴标签”后造成的数据歧视问题?7月8日,在由季卫东教授主讲,金耀辉教授对话的第148期文汇讲堂《AI的权利和义务,人类说了算?》上,线上线下听友踊跃提问,角度各异,量质齐具。本场讲座由上海市法学会东方法学讲堂和文汇讲堂共同举办,以在线和在场同步的方式进行。此篇分享现场与线上的互动问答。
承认机器有人格的条件?能像人一样思考观察,有自我意识
上海市五十四中学物理教师李世新:什么情况下机器人或者说人工智能算有“机器人格”了?算法完全由人也就是工程师制定的就不能有“机器人格”?人工智能经过深度学习之后,有了不为工程师所掌握的所谓算法规章制度,能否说他就有了机器意识?能否展望一下人工智能整体超越人类后的法律问题,所谓强人工智能时代,法律会怎样规范机器人?
季卫东:这是个有趣也很有意义的问题。承认机器人有人格的条件是什么?一般来说有两个。第一,机器人要能具有像人一样有观察、思考、判断、行动的能力,甚至是超过了人的思考能力。因此思考是人的本质特征,所以会思考的系统也应该具有人格。第二,机器人还要有自我意识和能动性,而不是仅仅被动地执行人发出的指令。人工智能经过深度学习后似乎有了自己独特的判断,甚至自我认知。就像刚才讲的YouTube的人工智能系统去年8月自动删除机器人互相残杀的视频,似乎出现了机器觉醒。这时候,可以考虑给予机器人或人工智能以人格。当然他还不是人,还要受到人的控制,这是设计机器人的基本原则。
在这个过程中,从以人为本的角度来看,我刚才提到了机器人格正当化的理由,第一点,机器人到处被应用难免引发事故,这些是深度学习、自主操作的结果,不应由人来负责;如果让人为人工智能所带来的所有负面结果负无限连带责任,我想金老师就要改行了。因此设计者、制造者、使用者的责任是有限的,为此就要赋予机器人格。第二点,智能合约的违约责任也需要人工智能系统来负责。第三点,人工智能制衡人工智能也需要承认机器人格。
金耀辉:目前要到达强人工智能还有很长的一段距离。现在除了我们看到的图像识别或语音识别外,人工智能在做学习和推理这两件事。比如在做司法机构做的一些工作,是在一个很垂直、很窄的领域里做的学习,远没有达到强人工智能所需要的能力。目前,我们在设计过程中,要攻关的是把机器人的非确定性勾画出来。如果超过了人所设定的范围,但机器又去做了,这是要追究写程序的人的责任的,但如果结果是在可预料范围内,那么这是机器人的自主权。
不能全靠人工智能来判断论文抄袭否,人参与其中辨别特殊性
退休企业人员张建平:现在论文抄袭比较普遍,人工智能在这方面的维护是否能起到作用?人工智能怎么来根据这些数据做出正确判断?
季卫东:这是一个比较具有法律性质的问题,根据我的理解,可以分为两个层面。第一个层面涉及到数据本身的可靠性,用这种存在瑕疵的数据来学习会带来什么后果?如果数据的质量本身有问题,它可能会带来糟糕的结果。因此人工智能用以预测的大数据,必须是高质量的,规格要符合要求。
第二个层面是人工智能对数据是否可以作出真伪判断?现在学生提交的学位论文,大学都要求去查重。查重就是用大数据和人工智能对抄袭与否进行检测的一种方式。由于法学论文要引用条文和案例,文字内容的重复率往往高些,需要适当考虑其特殊性。
另外,仅靠人工智能进行检测也是有问题。我听说有的同事写的论文被别人抄袭了,没有加注引用,利用用人工智能查重的结果是重复率很高。这时需要人来进行比较分析,防止误判。因此,欧盟通用数据保护条例规定人们有权拒绝完全由人工智能做出的决定,需要有人对人工智能的运作进行介入和监控。
知识产权的核心还是你是否有创意,鼓励多元思维
你的问题还涉及乐机器在学习的过程中,比如他学习的模式,数据的处理模式的知识产权,或者是该不该给他知识产权。让他学的数据本身是别人的创作作品,这个也有知识产权。你学了这些东西赚了那么多钱,这就涉及数据的经济价值怎么实现?如何达到分配正义的问题。所以知识产权问题非常重要,我们也要考虑在大数据中的知识产权问题。这涉及学习模式的知识产权问题,算法设计的知识产权问题,从经济的角度来看,大数据面对的另外一一个极端就非常重要。
金耀辉:其实这个问题的核心还是人工智能技术。大数据技术怎么防范抄袭剽窃?第一,如果是简单的抄袭文字,很容易解决。第二,其实模仿的是什么?是这个创意到底是不是一样?因为他完全可以用不同的词汇去描述同一件事情。但目前是一件很难的事情。我们和法学院合作时,需要找相似案件,法律判决文书里很多内容结构是完全相似的。如果用常用的词频算法分析,几乎所有都是抄袭,此时需要的是用另外的方法去把文章背后内容一一解析出来,而语义如何界定相似的意思,这就是人工智能要做的事情。目前为止,技术在这方面的突破已经跨了一大步了。
各地健康码的不同由于当时的临时需要,长久需求时就会统一
上海展览公司王郏:上月月初去青岛出差,那里的健康码是以登记身份证、姓名、手机号,比上海要求的信息更多。这让我产生一个疑问,同样一个健康码,它的最终效果是一样的,为何每个地方需要的数据不同?如何来评判有无过度收集数据?
金耀辉:问题很好。工信部4月底紧急出台了一个国家指导性规范,介绍了一个完整的标准此前确实各地有各地的办法。明天就是人工智能大会了,我们也在讨论北京来的嘉宾的课程该怎么做。在开始大家确实有可能意见不同,因为毕竟要在我所承担的风险以及我过度使用两者间做平衡,我相信就是这个过程,我们学习不可能一次到位,如果用机器的思维去理解,我是逐渐去学习去推理,最后收敛的。收敛的最后结果一定是大家,包括我们可能跟国外也是要一致起来。这只是个时间的问题。
最初是各地为了服务地方需求开发出一个系统,但疫情拉长了,就会逐步追求统一,我记得随申码打开时有一行小字“记录一生服务一生”,以后就可能长期化了。
第二,看它的应用场景,原来只是防病毒、测温、体检等所用,现在应用场景很多了。深圳广州上地铁、公交车都可以用了,在上海场景应用更多了,这倒也给了我们一个启示。
以健康码为基础,创建一个可以有信息保护的多功能身份证系统
季卫东:第一,健康码不断追加应用场景,不断调整统计指标,还有长期化的倾向,引起了不同意见。这种情况说明我们法律制度还不完备,是谁按照什么程序、根据什么标准来设定和运行这个系统,是不明确的,所以大家感觉到不安。
第二,这样一种能够进行认证、具有多功能而且数字化的身份证系统确实很方便、很有效率。公民要开证明、查询服务,基本通过一个随申码在手机上都能落实。原东欧的爱沙尼亚,是世界上最早推行数字化身份证系统的国家,它的功能就非常多,涉及方方面面,包括交税、投票,在海外办理国内投资业务,等等,全部都用一个数字化身份证系统来搞定。
中国因这次疫情防控正好产生了这么一个数字化身份认证系统,可以考虑在这个基础上发展出一个覆盖全国的数字化身份证系统。但这样做的前提条件是要严格依法办事,加强数据安全保障,防止对隐私和自由的侵害。例如其中包括什么个人信息,数据主体自己应该很清楚,这就是所谓知情同意。另外,通过加密技术防止别人随便查阅个人信息,有关职能部门的查阅也要全程留痕。类似这样一些安全保障措施如果具备的话,相信大家都会欢迎这个身份证系统的。
在线听友在zoom会议室聊天区踊跃提问
数据与隐私保护的矛盾是AI技术面临的新挑战
南农大本科生邵昱宁:人工智能的立法问题之一就是技术与隐私间的矛盾,人工智能有种模型叫做对抗生成神经网络,它可以通过输入小量数据生成大量符合真实分布的数据。这种方法貌似避免了数据和隐私的矛盾,请问金老师怎么看待这个方向?
金耀辉:的确,法律也给人工智能提出了许多新的技术问题。在人工智能领域有两个重要的学科方向,一是小样本学习,另一个是联邦学习。正如季老师刚才说的,并不是单纯的把名字、身份证号等信息隐藏掉,就能把个人信息完全隐藏起来。其实只要有一些其他的信息,就很容易攻击到个人。这方面我们做过很多实验。
“贴标签”会造成数据歧视,如何设立公正的技术规格是关键
中国政法大学研究生:尽管“贴标签”面向的并非个体,但对于个体来说,经常会造到大数据歧视等问题,如何面对“贴标签”后所造成的数据歧视问题?
季卫东:关于大数据中基于个人行为数据而导致的“贴标签”现象,确实是我们在大数据时代面临的一个非常重要的问题。特别是在数字化的情况下,个人行为都会留下踪迹。中国有8亿网民,淘宝网上有5亿常驻用户不断购物,根据这些数据流,网络企业大致就能掌握用户的爱好情况,给他们贴上标签,然后根据分类,甚至与其他部门的数据进行关联。
上海交通大学文科资深教授季卫东
研究者和舆论界也经常提出类似的问题。如黑人常常与犯罪的标签联系在一起、亚洲人往往因重视教育而付出更多的教育费用,这些都是人工智能分析大数据带来的系统性偏误,结果容易造成刑侦歧视、教育价格歧视等等。
那么个人信息不在大数据中反映出来是不是就没有这些问题呢?也不是。智能手机留下行踪信息、消费信息固然是贴标签的根据,可能造成类型化歧视,但不使用智能手机、不进行网购的人群却会被忽视,他们的利益诉求难以在决策中反映出来。比如一个城市要建设福利设施或者防灾据点,就需要考虑人口分布、经济状况等各方面因素。假如某些区域、某些人群使用智能手机比较少,我们就无法知晓那里的实际情况,导致我们以为福利设施、防灾据点没有必要建立在这些地区。因此,个人信息造成的标签包括歧视与福利这两个方面,利弊兼有。
如果要预防歧视,对个人信息进行匿名化处理非常重要。当然,即使进行了匿名化处理,也可能恢复对特定个人的认定。我们如何真正做到个人信息的匿名化、无害化处理,防止公司又把个人信息的指名性恢复了?这可能涉及一系列的技术问题。在法律层面上,我们当然可以设置一些制度框架以规范数据利用方面的问题。但另一方面,在大数据和人工智能时代,技术规格的确会影响法律的效力、影响个人的行为方式。所以,从这个意义上来说,我们特别希望算法师能够提出一个公正的技术规格来防止歧视现象。
金耀辉:的确我们和上海交通大学法学院正在合作这方面的研究。比如计算机辅助定罪量型的研究,我们不仅要设计算法来根据犯罪情节计算是否定罪,以及建议刑期。这个过程必须透明,要告诉法官,计算机为什么给出这样的建议?这叫算法的可解释性。同时,我们还要保证算法的公平性,国外比较关注的是种族问题,比如研究发现,著名的Compass系统对黑人的量裁建议就存在种族偏见,尽管黑人犯罪率确实可能比白人高,但这不能构成有罪假设。在中国,我们会关注城乡差距以及性别歧视,这叫算法公平性的研究。
上海交通大学电信学院长聘教授金耀辉
人工智能的背后是情报分析,用担保网络反欺诈是有益应用
学生:人工智能与情报分析的融合目前有没有什么具体举措?特别是在国家安全情报分析这一块,有没有什么融合的可行性?
金耀辉:美国在这方面的成果远超其他国家。美国有家公司叫做Palantir,被称为“数字时代的锦衣卫”。中国有许多同样从事大数据研发的底层技术公司,其中很多公司都想做中国的Palantir,但很困难。Palantir现在的市值已经达到400亿美元,同样是做大数据技术的公司,Cloudera市值只有40亿美元。所以,人工智能的背后其实还是情报分析,最重要的是在垂直领域中,如何形成自己的知识。当然,在这其中也有有用的部分,比方银行现在正在使用担保网络来反欺诈。中国在这方面也已经做了很多研究。
人工智能出现知识产权集群,进口端限制还是出口端再分配亟需思考
交大研究生王心怡:如何划分AI产生的作品的知识产权归属?如果是利用了机器学习(即学习了很多既有作品之后提取特征后形成的作品)),那被机器学习了的这些作品的作者是否也享有部分机器产生的作品的权利?
季卫东:这是一个很有意思的问题。我们知道,人工智能可以通过一些照片进行学习,例如通过学习梵高、蒙克、莫奈等著名画家的画作,人工智能就能模仿他们的作品,形成类似的风格。当然,这些画家的作品风格要素非常清晰,但显然,我们要考虑AI在多大程度上产生了创新,这涉及到知识产权中的著作权的公平应用、适当应用的问题。
美国的经济发展过程中,其科技的发展曾借助了许多欧洲的著作权,所以特别强调商业化方面的独创性,也就是强调既有著作权的适当而公平的应用。这种应用当然存在一些判断标准,但欧洲为了维护原有创作者的知识产权,往往更强调其人格权。在这方面,各个国家的制度设计都有所不同。当大数据出现的时候,在AI模仿风格特别清楚的场合,就比较容易判断。但若是AI通过大数据深度学习提炼之后,我们无法看出明确的梵高、蒙克,还是莫奈的风格,此时该怎么办?我们可以考虑为网络世界建立一个知识产权的大水池,当你把各种各样的知识产权放进池子中去,是否应当设置一定的门槛,以及建立适当的利益分配机制?
对人工智能时代的知识产权要重新提出判断标准
这一问题导致我们对人工智能时代的知识产权要重新提出判断标准。以往,知识产权的创造者是谁,权利归谁,相对比较清楚。人工智能时代出现的知识产权是一个群体,大量的各种各样的知识产权混杂在一起,在此基础上形成知识产权集群。所以,对该问题的处理非常复杂。我们应当在输入的阶段进行限制,还是在输出的地方寻求一个再分配的机制?这是人工智能时代未来制度创新方面应当考虑的一个非常重要的问题。
对待人工智能初期的知识产权界定应该宽容,反之无法发展
金耀辉:这个问题非常重要。我觉得就如同医生看病一样,我们大量的实习医生看病的样本,是不是应该向医生支付学习费用?在目前阶段,我认为大家还是需要宽容一些,因为写这些程序代码需要耗费我们工程师很多的精力。倘若严格按照规定支付使用费,那人工智能几乎就无法发展了。
相关链接:
季卫东:代码与法律双行,AI 社会呼唤制度创新 |148期主讲
季卫东/金耀辉:AI数据给人“贴标签”,利还是弊?|148期对话