大数据时代征信业的变化与被遗忘权

翟宏堃

伴随着信息技术的发展，特别是互联网的完善和云计算的兴起，“大数据”一词逐渐走入人们的视野。大数据带来的，不仅仅是简单的技术变革，也不仅仅是一场“计算革命”，而是一种全新的生活方式——大数据正在悄然改变我们的生活，征信业也不例外。伴随着大数据的兴起，人与人之间信用的建立方式也在发生着变化，从过去的熟人社会到现在陌生人社会，互联网在陌生人之间架起一座座桥梁，大数据提供了解决陌生人之间信赖关系建立难题的新思路，但是也带来了另外的一个问题：哪些信息可以纳入“帮助建立信赖关系”的范畴之内？本文从大数据时代征信业的变化入手，通过对大数据时代的征信业和被遗忘权的相关分析，最终探讨在征信业内给予人们适当被遗忘权的必要性以及该权利的范围。

一、大数据时代征信业的变化

征信产生于信用经济，现代社会中，只有少部分的交易是通过货币即时完成的，更多的交易，则是买卖双方通过建立某种特定的债权债务关系来实现商品交换或货币转移。从某种意义上甚至可以说金融体系的根本即信用。无论是银行业、证券业还是保险业，其核心都离不开信赖关系。而随着熟人社会迈入陌生人社会，信赖关系的建立基础则从人对人的信赖转移到人对征信系统的信赖。征信机构按照一定的标准对交易者的信用资料进行收集、维护、管理、处理，并形成一套符合征信业技术标准的报告，交易者基于对征信机构和征信业技术标准的信赖，完成与陌生人之间信赖关系的建立。从这个角度来看，征信的本质实际上是一套完善的测量方法，通过这套测量方法，人们可以衡量出交易者的信用水平。征信是陌生人之间信赖关系建立的重要途径，因此，拥有一套完善的征信业技术标准至关重要。伴随着大数据时代的到来，征信业的技术标准也发生着巨大的变化。

大数据，系指以人力在合理时间内无法完成采集、维护、管理和处理工作的大量信息。[1]大数据带来的实际上只是更加庞大的信息以及基于这些信息人们可以得到的更接近真实的知识，而非得到知识方法的变化。[2]在传统的研究方法论与统计学领域，有偏样本和抽样误差的存在使得人们认为，大样本情况下得到的平均观测结果往往要比小样本情况下取得的更加优质。套用数学语言来说，就是“随着样本规模的增大，抽样分布的标准差（标准误）会不断减小，样本均值与总体均值之间的差异会越来越小”。大数据带来的另一个变革则是，大数据提供的多方面信息降低了范围之外的数据带来的推断风险：随着数据量的增加，不在范围内的数据越来越少，也就是说，人们可以愈发减少那些观测不到的信息引发的风险。

大数据带来的征信业变革则主要有以下四点。首先，是常模的变革。由于计算能力和存储能力的提升，越来越多的数据可以用于建立信用评测的常模，人们能够愈发精确地概括出某一类人的具体特征，而常模样本量的提高也能够使得常模本身的偏误尽可能地降低。其次，大数据时代数据管理能力的变化使得基础数据库的建立成为可能，基础数据库的建立会大大降低单一借款人在多家银行借款时的隐瞒风险。再次，由于数据采集能力的变化，个体信息能够全方位进入数据库进行分析研究，可以更精确地描述出个体在群体中的位置。最后，由于分布式计算的兴起，许多新型的多元统计方法在计算上成为可能，更大程度地提高了征信报告的可信度。

在这其中，最重要的当属资料采集能力的变化，诚如前段所述，大数据时代核心的变化并不在于大数据改变了人们得到知识的方式，而是通过多层次、周延的信息使得人们“看到了很多之前看不到的东西”。举个例子：很久之前，银行对贷款客户的调查主要基于人与人之间的交流，或者通过表格调查的方式完成，这种模式下，人们在推断违约可能的时候基于的样本量较小，误差较大。而如今，征信机构可以对交易者平时的交易习惯、交易量、结算方式、结算周期、交易速度、违约情况等数据进行采集，并将这些信息制成模型，将新收集到的数据与之比较，从而得出某交易者的违约可能[3]，这便是大数据带来的生活变革。也正因为如此，个体信息的处理直接关系到模型的建立和对个人的评估，从而显得意义重大。

二、“被遗忘权”的产生与本质

在大数据时代，信息采集方面几乎可以收集到人们在互联网上产生的所有数据，而存储介质的发展使得这些数据可以被永远留存。最早注意到这个问题的是维克托?迈尔—舍恩伯格，他在《删除》一书中提到了被遗忘的权利。他认为“对于人类而言，遗忘一直是常态，而记忆才是例外。然而，由于数字技术与全球网络的发展，这种平衡已经被打破了。如今，过去正像刺青一样被刻在我们的数字皮肤上，遗忘已经变成了例外，而记忆却成了常态”。[4]而解决方式则是给数据设置有效期限，重新引入遗忘的概念，将数据存储默认状态从永久保存调整到可以在一段时间之后删除。维克托提出的这个观点，受到了西方学者的广泛关注和讨论。虽然目前各家学说对“被遗忘权”的解读不尽相同，但也存在一些共同点。有学者将“被遗忘权”定义为信息主体对信息控制者收集、存储和利用的个人信息，在出现法定或约定的理由时，请求信息控制者删除个人信息并停止传播的权利。[5]本文对“被遗忘权”的解读基本采纳这个定义。

早在20世纪90年代，欧盟、德国、英国以及中国台湾等地区，就在相关立法中对信息主体在一定条件下有权要求信息控制者删除其个人信息进行了规定，这可以被看做是“被遗忘权”的雏形。被遗忘权真正在实践中得以确立始于欧洲法院。2011年，一名西班牙男子在谷歌上搜寻自己的名字时，发现一篇1998年有关他因断供而被迫拍卖物业的新闻报道，他认为其隐私被侵犯，于是将报社及谷歌公司告上法院，要求报社删除该篇报道，同时也要求谷歌公司删除这篇报道的搜索链接。2012年，西班牙法院以该篇新闻报道的内容属于新闻自由的范畴驳回了其对报社的诉求，却判决支持了其对谷歌公司的诉求。谷歌公司提出上诉，该案最终打到了欧洲法院。2014年5月13日欧洲法院作出最终裁定认为[6]，一般人应该享有“被遗忘权”，即在某些信息属于“不足够、无关系或已过时”的情况下，该西班牙男子有权要求谷歌从搜寻结果中移除有关个人资料的相关链接。[7]

该案中，法院在推导“被遗忘权”的时候采取的主要理由是隐私权保护。法院认为，网络搜索引擎实际上控制了公民个人的隐私数据，因而在一定情况下负有删除相关公民个人隐私数据的责任。法院的上述观点，也是目前学界对被遗忘权产生依据的主流解释，即认为在某种程度上，被遗忘权可以视做是传统隐私权的一个延伸。[8]这种观点也得到了立法者的支持，欧盟对被遗忘权的规定载于《关于涉及个人数据处理的个人保护以及此类数据自由流动的第2012/72、73号草案》，该草案系对《关于涉及个人数据处理的个人保护以及此类数据自由流动的第95/46/EC号指令》的修订[9]，其看似与隐私无关，然而实际上，该指令属于欧洲隐私权保护诸多立法的一部分。美国则更直接一些，将被遗忘权规定纳入《消费者隐私权法案》[10]，从名称上直接揭示了被遗忘权与隐私权的关系。

那么，被遗忘权的本质是什么呢？诚然，被遗忘权脱胎于隐私权，然而实质上，被遗忘权是一种个体控制其信息选择暴露的权利，即个体控制哪些个人信息可以被用做形成对该个体评价的权利，这种权利并不完全等同于隐私权。隐私权的相关概念最早可见于1890年Warren 和Brandeisy在《哈佛法学评论》上发表的文章，他们主张“不受干扰的权利”（right to be let alone）。而在隐私权逐渐被我国接纳的过程中，我国学者也提出可以将隐私一词定义为“独处”[11]。在互联网并没有普及的时代，这种定义可以较好地完成对人们的保护。然而随着互联网的发展，问题随之产生：隐私权旨在保护个人“独处”，那么当个体自己将一些信息开放到网络上时，是否意味着个体已经放弃了“独处”，尤其是在个体已经完成隐私设定的情况下？这个时候这些开放的信息还能否被认定为“隐私”？从隐私权的角度出发，上述问题的答案应当是否定的。因此，作为脱胎于互联网时代的一项权利，将被遗忘权定义为个体控制其信息选择暴露的权利更加恰当。被遗忘权概念的提出者维克托在其《删除》一书中曾举过“喝醉的海盗[12]”和“致幻剂阴影[13]”两个例子以说明被遗忘权的必要性，但仔细考察，不难发现，这两个事件的本质实际上都是因为有偏的负面信息使得当事人没有获得合理的评价。

人们需要被遗忘权的原因并不难理解，每个人都有在别人心目中建立自己形象的权利，人们之所以需要被遗忘权，实际上正是因为希望自己的负面信息随着时间的流逝而被社会所淡忘，避免这些信息被不熟悉的人得知后对自己产生误解。另外，从某种角度来说，隐私权本身也包含有“信息选择暴露”的成分在内。隐私脱胎于人类的羞耻感，而从心理学的角度来看，羞耻的典型观念是“如果你了解了某些信息，你就不会再喜欢我”。也就是说，隐私权实际上源于个人信息暴露后个体对其在群体中所受待遇的不安感，而如果能够阻断这种不安，人们便不会有隐私受到侵犯的感觉。而这种需要能否上升成为一种权利？笔者认为，在传统的社会交往场合下，个体可以充分控制自己暴露何种信息而给他人留下何种印象，即使这种暴露不满意，由于人类的记忆系统，这种印象也不会是长久持续的。也就是说，对自己暴露信息的控制是人的一项自然权利，只是在网络时代，由于其信息传播广度和存储时间已经超出人们的控制范围，此时单纯凭借个体已经无法完成对个人信息的控制，因此才需要赋予人们被遗忘权来解决这一问题。

三、征信业内的被遗忘权[14]

在征信领域，也存在类似上述被遗忘权的权利。2013年1月21日，我国首部征信法规《征信业管理条例》正式公布，该条例第十六条规定：“征信机构对个人不良信息的保存期限，自不良行为或者事件终止之日起为5年；超过5年的，应当予以删除。在不良信息保存期限内，信息主体可以对不良信息作出说明，征信机构应当予以记载。”不难看出，该权利实际上便是征信领域内的被遗忘权。在该条例公布之后，有记者采访了中央银行相关负责人，该负责人表示，规定不良信用信息保存期限的目的，在于促使个人改正并保持良好的信用记录。[15]在当前征信业还未因大数据而发生根本性变革的情况下，上述条例已经可以很好地完成对此方面的规制。然而考虑到大数据时代由于全方位信息收集、分析带来的诸多变化，笔者认为，上述权利本身及其理论基础还需要进一步发展。

（一）大数据时代征信业内被遗忘权的理论基础

笔者认为，征信业内被遗忘权的理论基础可以分为三个方面。

首先，被遗忘权是个人信息保护和征信系统发展的需要。

为了解释这个问题，我们可以尝试建立一个信息传播的模型来进行分析。我们日常生活的所有行为，都可以视做向所处空间的所有潜在关注个体散布个人信息，为了方便区分，我们将其称为“初次信息暴露”，而此后该信息的所有流转过程，包括取得原个体留存于存储介质的信息，初次信息暴露时处于原个体所在空间的人进行的信息传播过程，以及这之后的信息传播过程，我们将其称为“二次信息暴露”（如图1）。

个体之所以愿意完成信息暴露，基于的是以下一种期待，即个体的初次信息暴露是基本可控的，这种期待在旧时代是完全没有问题的，物理空间内只能容纳有限的个体，存储介质的流转性和可被查询性的不足给予人们一种合理期待——个体可以承担信息暴露带来的一切后果。然而在大数据时代，虚拟空间拉近了人们的距离，但也使得初次暴露时的被暴露对象个数增加；而存储介质流转性的加强、存储年限

（图略）

图1个人信息暴露流程图

的提高、数据库技术的发展带来的可被查询性的增加，使人们对初次信息暴露的控制力下降。被遗忘权的建立能够比较好地阻断信息在进人存储介质后不受限制流转的情况，在一定程度上控制了存储介质导致的不受控制的二次暴露，从而使得个人信息得到保护。

而如果没有被遗忘权，那么二次信息暴露便势必处于一个“不受个体控制”的情况。这会造成个体对征信体系的信息安全丧失信心，不愿再完成充分的初次信息暴露，而基于大数据的征信系统由于缺乏足够的个体信息暴露，最终可能崩溃。因此，被遗忘权也是大数据时代征信系统发展的基础。

其次，被遗忘权能够提高个体信用报告的可靠度。

前文说到，征信的本质即测量，既然征信是一种测量手段，就要求测量的结果尽可能接近真实值。征信需要测量的变量实际上是某个体当时的偿还意愿和偿还能力，这里就存在一个问题：过时的不良征信记录如果被纳入测量，会对结果产生何种影响？为了具体讨论这一问题，我们不妨假设如下的情况：我们有一批记录30年信用相关信息的数据库，在第2年的征信记录中，某个体A有严重不良记录，现在，我们要求根据此数据库对A当前信用等级进行评估。那么现在的问题是：第二年的不良记录能否纳入对A当年的信用等级进行评估的变量范围？答案应当是否定的。一方面，偿还能力本身具有一定的时效性，一个30年前的百万富翁很可能到今天变成了穷光蛋，而一个30年前的乞丐经历了时光的磨炼，未必不能成为富翁。另一方面，偿还意思作为一个心理因素，其影响是多方面的，诚然这其中有人格这种稳定性因素的干预，但其依然是受很多具体因素变化的影响，而并不具有时间稳定性。如果这类信息进入到个体信用报告中，报告的可靠程度势必会受到影响。

最后，被遗忘权能够鼓励守信并促使信用重建。

这一点也是业内人士解读的《征信业管理条例》中规定不良征信记录删除权的理论基础所在，即以此规定作为一种激励机制，防止失信个体持续失信，并给予其重新建立自己信用的机会。由于被遗忘权，人们对信用重建能够有一种合理期待，避免“破罐破摔”，并且可以让一些此前并不守信或者并不注意自己信用等级的人有一个改过自新的机会。

（二）大数据时代征信业内被遗忘权的范围

最后需要讨论的一个问题则是被遗忘权的范围问题。所有权利均有界限，被遗忘权也不例外。被遗忘权产生于人们控制个人信息暴露的需求，但也并不意味着在人们可以完全控制所有个人信息的暴露程度。笔者认为，应当从被遗忘的内容和遗忘方式两方面人手，讨论被遗忘权的范围，进而平衡个人对于信息的控制需求和共同体对于个人信息收集的需求。

1.允许被遗忘的内容。大数据时代带来的征信业变革，尤其是全方位的信息采集，使得不良征信记录的范畴已不能满足人们的需要。在大数据时代，由于一个人的所有信息都可能被收录并用于个人征信的相关分析，因此并不会只有不良征信记录会对个人当前信用评价产生影响。在这种情况下，如果还单纯地将被遗忘的内容限于不良征信记录，势必使被遗忘权不能完全发挥作用。笔者认为，从“控制个人信息暴露”的角度出发，应当将被遗忘的内容扩大到“一切可能对征信个体产生负面影响的信息”，而如果从征信结果可靠性的角度出发，被遗忘的内容则可以进一步扩大到“一切过时的个人信息”。另外，也并不是所有的信息都允许被遗忘。如果人们能够随心所欲地删除他们所有的负面信息，那么征信系统就会陷入崩溃的境地。

那么究竟应当如何确定允许被遗忘的内容？笔者认为，还是应当回到被遗忘权本身进行考虑。如前所述，被遗忘权的创立实际上是为了使得人们免于受到“本应被遗忘”的信息的影响。自然，在界定被遗忘的内容时，应当以“过时”为限——这些信息已经不被人们所记得，自然不必在存储系统中出现。而“是否属于对征信个体产生负面影响的信息”的标准由于存在大量的主观因素影响，并不适宜作为界定标准。因此，还是采取“一切过时的个人信息”均可以被删除为佳。

当然，目前我国第一个个人信息保护国家标准——《信息安全技术公共及商用服务信息系统个人信息保护指南》[16]中已经有对被遗忘的内容的规定，该标准于2013年2月1日起实施，这对我们界定征信业内被遗忘权中允许被遗忘的内容方面也具有重要的参考价值。

2.遗忘的方式。另一个值得讨论的问题是不良征信记录的处理模式，即如何被遗忘。在一个共同体中，单独个体有被遗忘权，但共同体有搜集个体信用的权力，共同体中的其他个体则有搜集和使用某一个体信用信息的权利。

这个问题实际上可以转化为知情权与隐私权的冲突与协调问题。所谓“共同体中的其他个体则有搜集和使用某一个体信用信息的权利”即属于广义的知情权，而被遗忘权，如前所述，虽然与隐私权有一定的不同之处，但毕竟脱胎于隐私权，与隐私有相当的联系。因此，被遗忘权与社会共同体中其他个体搜集使用某一个体信息权利之间的冲突问题，可以参照知情权与隐私权的冲突问题来进行解决。

在知情权与隐私权的协调上，美国联邦最高法院在希尔案的判决中建立了如下规则：“新闻事业在报道与公共利益或公众兴趣有关事物时，必须证明此项报道有故意或轻率的错误，才成立对个人隐私权的侵害”。也有学者提出，在处理隐私权和知情权的关系上，可以遵循三个原则：第一，个人隐私原则上受到法律保护，但如果涉及社会政治利益以及公众利益，则要区别情况加以对待；第二，隐私权与知情权发生冲突时，应当进行某种协调，而避免大范围公布隐私给当事人带来侵害；第三，在行使知情权的过程中，可以涉及他人隐私，但必须要以不伤害他人人格尊严为限。[17]

因此笔者认为，考虑到社会利益和当事人的隐私，在遗忘时未必需要彻底删除该不良记录。征信领域与日常生活不同，征信终究是一个测量系统，其一方面要进行测量，另一方面也要完成自我学习和常模修正的功能，而且征信系统本身信息泄露的几率不大。因此，比起单纯地删除，“去姓名化”的处理方式或许更加值得推广。即不论何种理由，都不彻底删除所有的数据记录，而是确保切断其与该个体的联系后，将所涉及的内容编码为案例号进入基础数据库，作为常模建立的依据、比对的标准和征信系统学习的材料。这样做既保证了个人信息的安全，也平衡了公众利益和研究的需要，并且即使发生泄露，也能够保证那些“令人不快”的信息不会对个体产生困扰。

【注释】

[1]参见维基百科“Big Data”词条，资料来源：http://en.wikipedia.org/wiki/Big_data, 2014年8月9日访问。

[2]关于此点，笔者在这里需要特别说明的是，舍恩伯格在他的《大数据时代》一书中提出了大数据带来的思维模式的三点变革，即“样本=全体”、“考虑混杂数据”、“相关代替因果”，但笔者认为其中的1、3两点在方法论和统计哲学的层面能否成立有待进一步讨论，第2点则是技术变革而非思维方式变革——原来无法分析的事件通过技术的革新变得可以分析了。参见维克托?迈尔—舍恩伯格：《大数据时代》，15页，浙江人民出版社，2012。

[3] 于跃：《大数据冲击银行业》，载《新理财》，2013（7）。

[4]维克托?迈尔—舍恩伯格：《删除：大数据取舍之道》，3页，浙江人民出版社，2013。

[5]彭支援：《被遗忘权初探》，载《中北大学学报（社会科学版）》，2014（1）。

[6]Google Spain SL and Google Inc.v Agencia Espanola de Proteccion de Datos （AEPD）and Mario CostejaGonz6lez. Case number=c-131/12，资料来源：http://curia.europa.eu/juris/liste.jsf?pro=&lgrec=en&nat=or&oqp=&dates=&lg=&language=en&jur=C%2CT%2CF&cit=none%252CC%252CCJ%252CR%252C2008E%252C%252C%252C%252C%252C%252C%252C%252C%252C%252Ctrue%252Cfalse%252Cfalse&num=c-131%252F12&td=%3BALL&pcs=0or& avg=&page=1&mat=or&jge=&for=&cid=221409，2014年9月10日访问。

[7]北京日报：《评论：“被遗忘权”背后的法律博弈》，资料来源：http://www.chinanews.com/fz/2014/05-21/6194587.shtml, 2014年5月27日访问。

[8]伍艳：《论网络信息时代的“被遗忘权”——以欧盟个人数据保护改革为视角》，载《图书馆理论与实践》，2013（11）。该作者在文中详细举例说明了被遗忘权的意义在于保护隐私，并且从历史角度分析了欧盟为何要保护个人数据隐私。

[9]Proposal for a Regulation of the european parliament and of the COUNCIL on the protection of individuals with regard to the processing of personal data and on the free movement of such data （General Data Protection Regulation），资料来源：http://eurlex.europa.eu/legal-content/en/Aliy; ELX_SESSIONID=HmphJQtHlJWPSLLLdBMMrqlL3NpsNJvpLxPGlh0yKGZpkhTd20qy!2135095376?uri=CELEX:52012PC0011，2014年9月10日访问。

[10]2012年2月13日，美国政府公布了《互联网世界消费者数据隐私：全球数字经济隐私保护与促进革新框架书》，其中包括《消费者隐私权法案》。该法案中规定了和被遗忘权相类似的权利。

[11] 王利明教授认为，“每一个人都希望在愈来愈复杂的社会网络中为自己保留一块相对平静的、既无损于他人也无害于社会的、独处的环境。对于这种普遍存在的社会公众心理，我们称为人类的隐私意识。”参见王利明主编：《人格权法新论》，469页，吉林人民出版社，1994。

[12]史黛西想成为一名教师，但是因为她在其个人网页上上传了一张她头戴海盗帽，举着杯子轻轻啜饮的照片，并取名为“喝醉的海盗”，而被取消了当教师的资格。因为这张照片被校方发现，校方认为其行为与教师职业不相称。参见维克托?迈尔一舍恩伯格：《删除：大数据取舍之道》，8～9页，浙江人民出版社，2013。

[13]费尔德玛因为在一篇文章中提到他在20世纪60年代曾服用过致幻剂LSD，结果在2006年的一天他打算穿过美国与加拿大的边境时，边境士兵用互联网搜索引擎查询到了这一信息，他因此被扣留并采了指纹，而且不准再进入美国境内。参见维克托?迈尔—舍恩伯格：《删除：大数据取舍之道》，5-6页，浙江人民出版社，2013。

[14]为了行文方便，在该部分的正文内容中，征信业内的被遗忘权简称为被遗忘权。

[15]刘振冬：《〈条例〉：个人不良信息保存期限不超5年》，资料来源：http://dz.jjckb.cn/www/pages/webpage2009/html/2013-01/31/content_70719.htm? div=-1，2014年8月9日访问。

[16]该标准第5.5条规定了被遗忘权的具体行使条件和相关限制。

[17]王利明主编：《中国民法案例与学理研究（总则篇）》，144～145页，法律出版社，2003。