熊文聪:论数据产权即著作权 | 中法评 · 思想
2024-12-31    来源:中国法律评论     作者:中央民族大学法学院副教授 熊文聪

   既有观点认为,海量数据的收集者不能主张排他性财产权,数据选择、编排及组合本身也难以达到“独创性”高度,故无法作为“汇编作品”受到保护。实际上,不能太过文学化、浪漫化地解读著作权法意义上的“创作”或“作品”,而忽视著作权法是有关智力成果的财产法则、市场法则,应当从“稀缺性”角度来评判涉案数据是否应当受到产权保护。与此同时,对于没有独创性的数据集合,也不应该适用反不正当竞争法予以救济。反不正当竞争法不是著作权法的兜底法或一般法。对于未经允许利用他人数据产品问题,合同法与技术保护措施的规制是不足的,甚至是有问题的。相反,著作权法中既有的“实质性相似”“合理使用规则”“思想/表达二分法”及保护期制度已经提供了相当精细的利益平衡之道,无须再通过创设所谓的“数据资源权”或“数据权”等新概念来予以调整。法律规则的建构应当保持理性克制,避免因信息冗余带来额外的制度运行成本。

引言

   近年来,随着信息和网络技术的快速迭代,以及人们生活方式和消费习惯的巨大转变,数据已经越来越成为经济发展和市场竞争的核心资产,堪比驱动第二次工业革命的内燃机和石油,它既是不可或缺的生产资料或生产手段,也是最终提供给需求方的有价值产品和服务,真可谓“得数据者得天下”。

   在宏观战略方面,党的十九届四中全会首次将数据作为生产要素,与劳动力、土地、资本、知识、技术等并列。2022年12月公布的《中共中央、国务院关于构建数据基础制度更好发挥数据要素作用的意见》(以下称“数据二十条”)进一步提出,要充分认识和把握数据产权、流通、交易、使用、分配、治理、安全等基本规律,探索有利于数据安全保护、有效利用、合规流通的产权制度和市场体系。

   而在微观实操层面,企业间围绕数据确权与分配、保护与利用的纠纷此起彼伏,司法见解和裁判规则模糊不明、相互冲突,并没有给社会带来稳定预期,学界给出的意见、建议也五花八门,远未达成共识,甚至有观点认为,造成互联网平台垄断和不正当竞争的根源就在于数据赋权。


   笔者力求通过梳理和辨析既有的学说观念,采用形式逻辑与社科法学的方法论,证成数据私权化的正当性,探讨其产权性质及归属,从而为统一评价标准、“化干戈为玉帛”贡献一点力量,并求教于方家。


数据的概念及其基本属性


   逻辑是交流的起点,而概念又是逻辑的重要构成。在对相关问题展开分析之前,有必要先将一些基本概念的内涵与外延框定清楚。

   首先,本文所称的“数据”指的是由众多数据单元组成的集合,该集合既可以是20世纪末曾反复讨论过的电子数据库,也可以是当今社会的热门话题——大数据,但不包括信息量极小的数据单元。

   其次,本文所称的“数据”不包含未公开的数据,此类数据的利用虽然也应受到法律调整——比如作为商业秘密的数据受到反不正当竞争法的保护,但严格意义上所谓的“产权”,通常仅仅指对世性的绝对权、支配权,具有稳定性、透明性(公示公信)及可交易性,而商业秘密只是一种尚未上升为绝对权的法益,内容既不公开,边界也不清晰,只能交由法官基于个案具体情形弹性化裁量,获得被动的救济。

   再次,本文也不讨论自然人在使用互联网产品或服务时被动留下、生成的个人信息或主动编辑、创作的数码化内容(User-generated Content, UGC),而只关注经互联网公司收集、筛选、编辑和整合后的具有结构化特征的数据集合。这种结构化的数据集合无论是在物理上还是在观念上,显然都有别于组成该集合的数据单元(可能相当一部分是个人信息或UGC)。

   最后也是最关键的,数据和信息这两个概念到底有何分别?有观点指出,数据的本质是信息的载体,数据具有客观性,而信息具有主观性,数据必然要与信息相分离并成为法律所关注的独立权利客体。

   然而,一般认为,数据是对客观事物的逻辑归纳,是在计算机及网络上流通的,在二进制基础上以0和1的组合表现出来的比特形式。2021年9月施行的《数据安全法》第3条对数据的定义是:“本法所称数据,是指任何以电子或者其他方式对信息的记录。”也就是说,数据是以电子方式表现的信息,数据不是信息物理上的载体,而仅仅是信息的一种呈现方式。或者说,信息只是数据的上位概念而已,数据与信息并不是表与里的关系,而是种与属的关系。

   数据或信息都是一体两面的,既有具象有形的一面(信息、数据的外在表现),又有抽象无形的一面(信息、数据的内在含义),既有主观的一面(其含义是由自然人主观赋予的);又有客观的一面(并不是说事物的外在形态固定不变或有体积有重量才叫客观,而是说数据或信息到底是什么含义,取决于解读者所处的客观语境,以及人们是否已经对此约定俗成,达成较稳定的共识)。

   可见,数据和信息并没有本质的区别,什么时候使用“数据”称谓,什么时候使用“信息”称谓,很多时候取决于表述者在特定语境中想达到什么目的,以及与他人沟通交流的便利性。实际上,很多文献都是将数据和信息同时并用或替换使用。

   正因为数据的本质是信息,故信息的一些基本特征也是数据所具有的,诸如非实体性、含义与边界的不确定性、可复制性等。特别值得注意的是,数据属于第一性的客观世界,因此,它只具有自然意义上的属性或特征,而不具备法律意义上的属性或特征。

   例如,“非实体性”决定了数据无法在物理上被控制或占有,但这并非不能设置数据产权的理由,康德和卢梭都曾指出,劳动所导致的占有只是事实问题,这种占有事实要变成法律上的权利,还必须有社会公意的承认。也就是说,权利是立法者就事实状态及社会关系的选择性认可。“非实体性”也决定了数据不会产生物理上的损耗,但需要澄清的是,数据的永存性与数据产权的期限性之间不存在任何矛盾,这同样是因为前者属于事实描述,后者属于价值取舍,两者不存在任何必然的因果关系。

   另外,“可复制性”说明数据可以通过复印、录制、翻拍、下载、上传等技术手段加以再现。司法实务界经常要处理“数据爬取”类纠纷,其实,爬取就是对原有数据的复制,它不是原有数据的物理位置发生了迁移,而是产生了一个原有数据的复制件。

   “爬取”看似游离于法律范畴之外,只是一种形象化表达和行业俗语,但法律人应当擅于运用抽象、类比、归纳、举一反三、化繁求简等逻辑思辨技能,在既有规范概念(如“复制”)完全可以涵盖行业俗语时,应当首先联想到既有的法律概念或规范体系能不能加以解释和处理,而没有必要刻意创设一个多余的新概念或新规则——比如在著作权制度之外,以反不正当竞争法来规制所谓的“数据爬取”行为。

   值得一提的是,数据具有“可复制性”并不等于说数据具有可共享性,可复制性仅仅指数据在技术上、在自然属性上可以被传播、再现,而不是指在法律、行政法规或其他制度尚未介入之前,数据便当然地可以被多人免费、自由地同时使用。如果认为数据具有天然的可共享性,相当于说爬取他人数据是理所应当、无可厚非的。

   可见,应否被使用,是一个价值取舍问题;而可否被复制,则只是一个事实描述而已。事实命题与价值命题不能混为一谈,事实认知也不能直接推出唯一的价值判断结论。因此,将可复制性与可共享性等同,是犯了“事实与价值不分”的谬误。


数据利用私权化的正当性

   既然创设数据私有产权的理据并不在于数据是什么,以及数据具有什么样的特性,那么其正当性基础何在呢?在探讨此问题之前,有必要首先澄清三个命题。

   其一,虽然可以将数据视为某种私有财产权的对象,但严格来说,私有财产权真正调整和控制的并非数据本身,而是利用数据的行为自由,这恰恰印证了一个基本原理,即财产法律制度并不是调整人与物的关系,而是调整人与人的关系。

   其二,这里的私有财产权仅仅指民法体系中的绝对权、对世权或支配权,其具有法定性、公开性、可积极行使性及可交易性,而不包括只能受到反不正当竞争法被动救济的尚未上升为权利的法益,更不包括债权性质的相对权、对人权或请求权。

   其三,虽然绝大多数学者认为应当赋予数据(利用)某种私有财产权的保护,但仍然有一些研究者提出了诘问与质疑。本文接下来便梳理和分析正反两方的诸多观点及理由,并给出自己的见解。

第一种观点认为,既有法律规定已经就数据的产权保护问题作出了肯定性的清晰回答,故再从理论上探讨显得没有必要。

   其给出的具体法律依据是《民法典》第127条“法律对数据、网络虚拟财产的保护有规定的,依照其规定”;《数据安全法》第7条“国家保护个人、组织与数据有关的权益,鼓励数据依法合理有效利用,保障数据依法有序自由流动,促进以数据为关键要素的数字经济发展”。

   然而,遵循最基本的法哲学原理,立法条文不能作为证成自身规定具有正当性的依据或渊源,否则就犯了以“果”证“因”的“后见之明”错误,陷入了“抓着自己的头发把自己从泥潭中拔出”的“明希豪森式”的逻辑悖论,甚至可能为“恶法亦法”埋下伏笔。退一步讲,即使现行立法已经做了相应的规定,但仔细推敲便知,《民法典》第127条只是开放式的授权性规范,对于数据应如何保护未予展开,而《数据安全法》第7条则是较为笼统地表述为“与数据有关的权益”,并没有明确将其界定为支配性的绝对权。


第二种观点认为,只要证成了数据是私有财产权(无论是物权还是知识产权)的对象或客体,其具有独立性、可支配性和经济价值,便毫无疑问应予以私权保护。

   该观点其实仍然是犯了事实与价值不分的错误。应否私权化是一个价值取舍和公共选择问题,它取决于当下的社会观念,即要不要设立一种限制特定行为自由的规则(使用他人数据必须事先征得许可并付费),而不取决于所要保护的客体或对象的自然属性,“不能因为一个人能够在一块玉米地周围围上栅栏,我们就错误地认为仅靠这些栅栏能形成财产权,是公共选择创造了财产”。

   知识产权的客体是知识,但不能倒过来说,有了知识,就必然有知识产权。同样地,不能因为世界上有了数据,或数据可以与其他种类的客体做清晰的区分,以及各个数据之间也可以划出清楚边界,便一定要有数据产权。当然,这并不是说探讨和界定财产权的客体没有意义,诚如学者所言,传统财产法强调人对物的支配关系,是通过模块化应对现实复杂性的法律机制的一部分,可以降低公众的信息成本。


第三种观点认为,数据属于公共产品,具有非竞争性、非排他性、非消耗性、可共享性、可同时使用性等特性,这些特性决定了不应当赋予数据私权保护。

   然而,作为一个专有名词,“公共产品”(public goods)原本来自经济学,但人们常常忽视了不同学科概念所处的范式语境,实有“囫囵吞枣”之嫌。作为对世性的私有财产权,其本质就是对特定对象(或客体)的排他性利用,排他的是对象的利用资格或行为自由,而不是对象本身。

   因此,排不排他是要不要设立一项私有财产权的问题,也就是第二性的价值选择问题,而任何一种权利的对象,都属于第一性的客观事实,只具有自然属性,而不具有权利属性或法律属性,数据也概莫能外。因此,说数据具有排他性抑或不具有排他性,都是混淆“事实与价值”的伪命题。同样地,是不是具有竞争性、可否共享,都只是在讨论要不要设立一项私权(公共选择),起决定性作用的是人们的价值观念、生活方式和经济形态,而不是数据本身固有的天然属性。


第四种观点认为,数据具有碎片化和变动不居的特点,界权成本很高。

   “将海量的碎片化数据授予个人专有,其他人利用数据须权利人一一授权的做法,背离大数据基本理念与数据科技发展。同时,碎片化的数据难以像通过物权中的动产交付或不动产登记使他人知悉权利的具体情况,即海量数据不适合以登记作为公示手段。这些因素都使得数据权利化做法所产生的成本将远超收益。”

   这种观点貌似合理,实则不然。数据是一组信息单元的稳定集合,当信息单元间的排列组合形式发生变化或增加(减少)了某些信息单元时,就意味着产生了新的数据,而不是说原数据变动不居。每个数据都是独立互斥的,不会产生所谓的“一数据多权”或“多数据一权”等“权利交叉重叠”问题。

   再有,虽然理论上一个较大的数据集合可以切割、碎片化成若干个新的数据,但并不意味着现实场景中所有这些碎片化后的小数据都具有价值、都会被他人拿来利用、都需要逐个设立产权予以排他性保护。这就好比一部三十万字的长篇小说,随意挑出其中一段文字都可能构成作品,但在侵权纠纷发生之前,去讨论每一段文字是不是构成一件作品,是不是要单独赋予其著作权,根本毫无意义,也毫无必要。

   简言之,作品也可以被碎片化,并且也是在不断演绎中产生了无数新作品,甚至每件作品的边界都不那么确定,需要解释,但这种种因素并没有影响一套私权(著作权)制度的建立和运行,且作品自创作完成之日便有了著作权(无须登记),为什么数据的产权化不可以套用此路径呢?


第五种观点认为,数据产权会增加人们利用已有数据的成本,从而阻碍知识共享、技术创新、经济发展和社会进步。

   此说法同样经不起仔细推敲。私有化并不排斥数据共享;相反,私有化不仅能够激励数据的研发创生,而且能够激励数据开发者更愿意尽早拿出好的数据产品来与他人共享(因为有法律保障),并能够促进公平有序、充分全面、及时高效的共享。私有化只是给共享附加了一个对价而已,即必须征得数据开发者许可并支付一定的报酬。根据经济学原理,通过询问每个受制度变动影响的人,必要时他们愿意付多少钱去取得好处或阻止损失,可以衡量出影响的程度。如果总和(净效果)为正值,也即总利益高于总损失,就称这种法律变动是经济改善(economic improvement)。

   所以说,问题的核心并不在于数据产权是不是给数据利用者增加了成本(哪怕是很高的成本),而在于将这一成本与产权激励给数据开发者及整个社会带来的收益进行比较,如果前者小于后者,并且没有其他更好的选择和安排,则私权化就是符合经济效率的、可行的、正当的。


第六种观点认为,数据产权化会造成垄断。

   例如,德国马克斯·普朗克创新与竞争研究所(Max Planck Institute for Innovation and Competition)曾发表声明认为,产权化相当于授予对数据使用的专有垄断权,会成为阻碍数据可获得性的壁垒,可能导致数据市场的扭曲。

   巧合的是,这种观念跟当初人们争论要不要建立知识产权制度如出一辙。19世纪后半叶欧洲部分国家废除了专利法,认为专利权就是垄断权,不仅不能激励创新,反而会阻碍创新。但事实胜于雄辩,那些废除专利制度的国家的经济发展和科技进步远不如维持该制度的国家,后来又不得不恢复。

   实际上,数据产权并不是反垄断法意义上需要加以规制的垄断行为,而只是具有一定排他力的支配权。这种排他力的正当性基础来源于大多数数据是智力创造成果,并且属于非物质实体的信息,一旦公开便很难在物理上加以控制,如果不借法律之力来排除他人的复制和利用,则数据开发者不仅不能收回投资,还会打击研发的积极性,最终导致所有人无数据可用。

   不仅如此,数据产权也不是永恒绝对的,它既有保护期的限制,又有“合理使用”的约束,从而保证在交易成本过高或市场失灵时,数据可以进入公有领域被大众获取与分享。有研究者指出,企业积累大量数据并不必然产生竞争优势,也无法由此获得持续性的市场力量,其并非新进企业难以突破的市场壁垒,即数据很难成为反垄断法意义上的市场必需设施。


第七种观点认为,在算法和人工智能环境下,数据的生产成本已然大为降低,已经足够“充裕”,即便没有产权的激励,企业也会因为享有时间上的先发竞争优势而愿意不断推出更多更好的数据产品。

   这一推论至少有两点值得商榷。

   其一,先发优势不可得。诚如前文所言,数据不是有体物,本质上是信息,能够以接近光速的速度在全网域被复制和传播,一个数据产品一旦公开并投放市场,虽然可以暂时借助技术保护措施来防范他人抓取与利用,但很快就会有破解技术出现,如果没有产权保护,根本就没有足够的市场领先优势来收回投资。

   其二,数据虽然多,且随着技术的不断拓展革新,其研发成本相比之前有所降低,但好的数据产品依然稀缺。稀缺与否取决于供求比,数据供应量虽然整体上增加了,但如果市场对好数据的需求仍然得不到充分满足,数据依旧属于稀缺资源,而具有稀缺性的资源,就是财产。“财产的本能是稀缺性的本能,而财产的对象是本身稀缺的事物。”对于数据而言,是否稀缺以及稀缺的程度如何,并不是该数据本身固定不变的特性,而是决定于该数据的具体生产与使用场景,可用图1来表示哪些数据之上应当设立私有财产权,哪些数据之上不应当设立私有财产权。

1735655934703.png

创设新型数据产权的非必要性

   在论证了具有一定稀缺性的数据应当予以私有财产权保护之后,本文接下来将追问数据产权的性质及保护模式问题,即在整个民事权利体系中,应当将数据产权安放到哪个位置?实际上,对于此问题,已经有相当多的学者展开了探讨和争辩,笔者收集并归纳了这些不同见解,并对此展开法理分析。


第一种观点认为,可以通过私力救济手段来防止公开数据被未经同意地爬取。

   所谓“私力救济手段”,在这里专指网络环境下的技术保护措施,如反爬虫软件、监测系统、账号密钥、不定期更改HTML标签、IP地址限制等。然而,“道高一尺,魔高一丈”,很快就会有删除、篡改或干扰相关程序代码的破解工具或黑客病毒出现;竞争对手也会通过VPN等欺骗手段伪造众多IP地址从而绕过数据开发者的技术封锁,如果没有法律的介入,数据开发者与其竞争对手很容易陷入无休止的对抗、矛盾升级和消耗的“丛林法则”及恶性循环之中。

   不仅如此,对于数据爬取行为一方面私力手段保护不足;另一方面,公力手段(禁止破解技术保护措施之法律规定)又存在保护过度的问题。如果“一刀切”地对所有规避技术保护措施的行为予以制裁,则很可能影响公众访问和获取有价值的数据信息,特别是某些已经进入公有领域的数据信息,本来应该开放共享、自由流通却被技术保护措施封锁起来,影响公共利益的实现。而正是在这种进退两难的困境之中,著作权制度(如针对技术保护措施的“合理使用”规则)却能够提供很好的平衡之术,这也印证了以著作权法调整数据利用关系的合理性与适恰性。


第二种观点认为,合同法可以有效约束数据的不当利用。

   比如,在一层面,数据开发者可以拟定格式条款,要求用户实名注册后方可接触数据,并默认同意不得大量复制和对外传播相关数据,否则将承担违约责任。另一层面,同业竞争者之间也可以约定爬虫协议(又称robots协议),即由网站经营者生成一个指定文件robot.txt,并放在网站服务器的根目录下,这个文件指明了网站中哪些目录下的网页是不允许爬虫抓取的。友好性爬虫在抓取该网站的数据前,往往会先读取robot.txt文件,对于禁止抓取的数据不进行下载。

   然而,众所周知,合同签署本着平等自愿、等价有偿原则,不可能强制要求所有人都达成这种友好盟约。并且,合同具有相对性,效力只能及于特定主体,一旦合同外的第三方爬取或传播数据,则无法让其承担违约责任。不仅如此,不合理限制爬取和利用数据的格式条款,与互联网互联互通、开放共享的基本精神相冲突,有可能因损害他人的合法权益、不正当排除或限制竞争、违背法律的禁止性规定及公序良俗等缘由而被认定为无效。可见,与技术保护措施一样,借助合同来规制数据利用行为是相当不足的,甚至是有问题的。


第三种观点认为,数据保护可以适用物权规则,因为物权的客体已经延伸至无体物,而数据也属于无体物。

   同时,考虑到用户与企业的利益平衡,可以借鉴自物权—他物权的权利分割模式,根据不同主体对数据形成的贡献来源和程度的不同,设定数据原发者拥有数据所有权与数据处理者拥有数据用益权的二元权利结构。

   笔者认为,这一观点值得进一步思考。虽然物权的客体类型于技术发展下在不断扩张,磁、电、热、光及空间等都可以成为物权的客体,但这些客体要么仍然是由物质实体构成,要么不能脱离物质实体而独立成为一项权利客体。比如,所谓“空间所有权”,其实还是在探讨土地所有权或房屋所有权的外延边界,故“空间”并不是新的物权客体,该权利的客体仍然是土地或房屋。

   当然,根据事实与价值二分原理,权利客体的特征并不决定权利本身的特征,因此,在“知识产权”概念尚未出现之前,将数据视为物权的客体,在数据之上设立物权性质的财产权,进而适用物权法的一般规则,并没有太大的理论障碍。不过,既然人类已经在物权之后又发明了“知识产权”概念及其规范体系,并且知识产权的客体恰恰就是可以完全与物质载体相分离的非物质形态——信息、知识或符号,而数据本质上就是信息,根据形式逻辑,数据也应当是且只能是知识产权的客体,而不再是也不应当是物权的客体。

   不仅如此,根据民法原理,作为他物权的用益物权,是直接支配他人之物(以不动产为限)的物权,其内容(利用物的使用价值)的实现通常以占有标的物为前提。而数据是非物质实体的信息,无法在物理上被控制占有,即便是数据的首置平台,也不能说自己占有了数据。如果认为某家企业的计算机系统或服务器上一旦存储了某数据就称“占有了”该数据,就享有用益权,那任何一个未经数据产权人同意的爬取者都可以享有数据用益权。

   另外,之所以说“所有权—用益物权”是同一组权利,是因为它们指向的客体是同一的,即同一个不动产。而诚如前文所言,首置平台上的数据集合并不是用户的原始信息或数据单元,而是对大量原始信息或数据单元进行了筛选、编辑、加工及整合后产生的一个全新数据,二者是两个完全不同、相互独立存在的客体,故难以套用“所有权—用益物权”二元结构模式。


第四种观点认为,鉴于目前的各种法律模式均不能为数据提供充分且均衡的保护,不妨待时机成熟增设一种新兴权利——数据权,以求大数据的存储、管理、应用及其产权配比最优化发展。

   类似的观点还有:数据资源已明确具有区别于有形商品产权的独立法益,继续沿用传统私权制度难以有效保护该法益的现实需要,应当创设有别于传统以有形商品为中心的保护模式——数据资源权。

   然而,这一观点恐怕是难以成立的。首先,恰如前文所述,数据的本质是信息,这也就意味着凡信息具有的特性,数据也同样具有,既然可以在具有一定稀缺性的信息(具有创造性的智力成果)之上设立知识产权,为什么不可以在数据之上设立知识产权呢?

   其次,退一步讲,即便认为数据具有其他民事权利客体所不具有的特征,但根据事实与价值二分原理,权利客体的特殊性并不决定权利本身的特殊性,故数据所独有的特性并不是需要另外创设一种崭新权利的理由。最后,不经过理性的逻辑分析,未穷尽现有规范的可能性,而盲目添加一个冗余概念的做法,是一种“只见树木不见森林”、缺乏体系化思维的表现。


第五种观点认为,可以通过设置一种“额外权利”来保护不具有独创性的数据库或大数据。

   值得注意的是,这种观点与前一种通过创立一项崭新的、总括化的权利(如“数据权”)来保护所有类型的数据的观点有着天壤之别,即“额外权利说”并不否定以著作权保护具有独创性的数据,而只是在著作权对于保护不具有独创性的数据力有不逮时,方才提供补充性的绝对权保护模式,最典型的实例就是1996年通过的《欧盟数据库指令》。

   根据该指令,只要数据库的制作包含了实质性投资,即便达不到独创性高度,制作人也可以禁止他人为商业目的未经许可摘录或再利用该数据库内容的全部或实质性部分,权利期限为十年。此后,世界知识产权组织外交会议和美国也曾围绕“数据库是否需要特殊保护”“对事实作品及数据库保护的法律是否真的存在需要填补的空白”等话题展开了激烈辩论,但相关法案最终都因各界分歧过大而未能通过。

   而就《欧盟数据库指令》的实施效果而言,欧盟委员会曾于2005年展开过审查调研,其最终的评估报告显示,该指令并未给欧盟成员国的数据库发展带来实质性增益,反而起到了遏制投资的负面效果。

   例如,在1996年指令颁布时,欧盟与并未采取数据库额外保护的美国相比,数据库产量的比值为1:2;而到了2004年,该比值却降为1:3。鉴于该指令所带来的种种弊端,该评估报告给出了四点建议:(1)废除整个指令;(2)取消特殊权利;(3)修改权利内容以限缩过于宽泛的保护范围;(4)维持现状。然而,基于既得利益团体的反对、立法技术上的成本考量以及政治上的“根深蒂固性”等种种原因,欧盟委员会最终还是选择了第四种保守建议,即维持现状。

   这种失败的经验启示我们,产权的边界应当划定清晰,“保护”在私法范畴中是一个中性词,而不是一个褒义词,越多的财产权保护,意味着财产权被赋予越强的排他性,也就意味着其他经营者及公众的行为自由受到了越多的限制,需要承担越多的义务和责任,徒增越多的执法管理成本。市场竞争优胜劣汰,法律不应当一味保护纯粹的投资,否则就不会有企业的亏损、破产或倒闭。如果某项投资没有给公司及社会带来实质性增益(如研发出受市场欢迎且符合公共利益的智力成果),却反而成了通过霸占公共资源而阻碍信息共享、技术创新和公平竞争的冠冕堂皇的理由,则不应该助长这种投资及其背后的投机心理。


第六种观点认为,反不正当竞争法可以为不具有独创性的数据集合提供补充救济。

   这是当前我国学术界和实务界颇为流行的一种见解和做法,已有大量案件(如“新浪诉脉脉案”、“大众点评诉百度网讯案”、“淘宝诉美景案”、“抖音诉刷宝案”、“微博诉微头条案”等)的司法裁判均适用了《反不正当竞争法》原则性条款来评价和认定未经主张权利方同意的数据利用行为是否违法及是否需要承担相应的侵权责任。

   实际上,早在三十多年前,法院在审理多起涉及数据库的案件中,便已经采用了相同的思路。如在1992年的“电视节目预告表”案中,二审法院推翻一审判决,认为电视节目预告表虽然是通过复杂的专业技术性劳动制作完成的,但不是具有独创性的作品,不宜受著作权保护。但主张权利方通过协议方式,有偿取得的一周电视节目预告(言外之意即主张权利方进行了投资),应予法律保护。

   被诉方未经许可,擅自无偿摘登主张权利方一周电视节目预告表,并有偿提供给公众,不符合《民法通则》第4条“民事活动应当遵循自愿、公平、等价有偿、诚实信用的原则”(当时《反不正当竞争法》尚未出台),侵犯了主张权利方的权利,应承担相应的民事责任。

   无独有偶,在1996年的“阳光诉霸才”案中,两审法院均认为涉案实时金融信息作为一种电子数据库,无法满足独创性要求,不构成著作权法意义上的作品。然而,二审法院推翻一审法院关于被诉方侵犯商业秘密的判定,而认为主张权利方对涉案电子数据库的开发制作付出了投资,承担了投资风险。被诉方的行为违反了经营者在市场交易中应当遵守的诚实信用原则和公认的商业道德,损害了主张权利方的合法权益,构成同行业间的不正当竞争。

   笔者认为,以《反不正当竞争法》的原则性条款为数据提供著作权之外的补充保护,至少存在四点逻辑和法理上的误解。

   第一,有人认为,反不正当竞争法只为数据权益提供弱保护,因此是恰当的。然而,越过明确清晰的规则型条款而直接诉诸相当模糊的弹性化原则(违反诚信商业道德、破坏公平竞争秩序),只会让保护范围更宽泛、保护力度更强硬,因为更加难以反驳。不仅如此,由于《反不正当竞争法》欠缺“合理使用”规则,导致被诉方即便是将抓取的数据用于公益目的,也无法借此抗辩,仍然要承担侵权责任。波斯纳法官就明确反对利用反不正当竞争法意义上的非法盗用(misappropriation)学说保护数据,认为这一学说过于模糊,缺乏清晰的界限。

   第二,反不正当竞争法与包括著作权法在内的知识产权法是平行并列关系,而不是辅佐替补关系。反不正当竞争法保护的是尚未上升为权利的法益,而知识产权法保护的是法定的绝对权、对世权、支配权。二者各司其职、泾渭分明,并不存在交叉或兜底关系。

   第三,诚如前文所述,“保护与否”是价值取舍问题,“不予保护”不是某项法律能力不足保护不了从而需要其他法律予以补充保护,而是不应当赋予主张权利方主张的涉案客体排他性私权,也就意味着被诉方的行为是正当的,他和社会大众人人皆可自由免费使用。如果用反不正当竞争法又去保护一个不应该被保护的客体,那就是自相矛盾的。换言之,针对同一行为,立法者和司法者的评价应当是一致的,法院首先要严格遵循和捍卫立法者的价值取向,而不是用所谓的“其他保护模式”来改变、否定甚至颠覆立法者的价值取向。

   第四,就算是立法者的价值判断有误或者存在疏漏,导致本应保护的对象难以获得保护,作为法律适用者的法官也不应当越俎代庖地变相造法。如果不顾“产权保护—侵权/产权不保护—不侵权”的周延逻辑,退回到高度不确定的个案衡平模式,甚至是只要有劳动和投资便一概予以救济,实际上是将立法权赋予给了法官个人,这不仅彻底架空了整个财产权制度,模糊了行为的边界,抬高了交易的成本,还可能触及非常重要的立法权归属问题。


以著作权保护公开数据的周延性

   笔者认为,既有数据产权保护模式不充分、没必要、难以匹配或自相矛盾的首要根源就在于,人们并没有深入了解和正视著作权法的一些基本概念和规范体系,而是想当然地认为数据不是作品,或即便是作品,也往往达不到独创性高度。事实果真如此吗?

   何为著作权法意义上的作品?通说认为:作品是思想与情感的外在表达。而表达是通过调用文字、图案、色彩、线条、影像、声响等各种符号元素,并有选择地加以排列、编辑、设计和组合来完成的。因此,作品就是人为的符号选择,其本质和重点并不在于被选择的符号元素,而在于“选择”本身。选择是相对抽象的,但绝不虚无,它借助符号元素的排列组合得以客观存在,选择体现了差异,体现了不同,更体现了创作者的智力投入。

   有人认为,数据只能作为《著作权法》第15条规定的“汇编作品”受到有限的保护。实际上,任何作品都是若干个已知符号元素的集合或汇编,《红楼梦》由近八十万个汉字组成,当然也是由很多个辞藻诗文、片段描写等小作品汇编而成,既然同为汇编作品的《红楼梦》能够得到充分、完整的著作权保护,为什么数据不可以呢?《著作权法》之所以要单设“汇编作品”这一概念,并不是要将其作为一种作品的形态化类型或可版权要件加以规定(否则就应该列入《著作权法》第3条之中),而是要解决多个作品(汇编作品与被汇编作品)相交融所产生的权利归属及其行使问题。

   一言以蔽之,并非只有当数据(或数据的“一部分”)构成汇编作品时,才可能受到著作权法保护,而是说任何作品的本质都是汇编、都是选择,数据也是经筛选、组合、编排和整理而成的,只要这种编排选择满足了私权化要求(具有了“独创性”),就应当一视同仁地予以保护。还有人认为,电子数据是在二进制基础上以0和1的排列组合表现出来的比特形式,它既不是文字作品,又不是图形作品,甚至连计算机软件都不算,故不应该赋予其著作权保护。

   的确,严格来说,数据不是计算机软件或程序,因为计算机程序贵在整体性和实用性,而数据集合并不强调被集合元素之间必须具备严丝合缝的紧密关系(任意从中截取一段数据都可能具有独立价值),且也不是旨在通过运行数据来实现某种技术效果。然而,这些理由都不影响数据作为作品受到著作权保护,只要其符合作品的一般特征和法定要件,即具有独创性。

   长久以来,对何谓著作权法意义上的独创性,学术界和实务界莫衷一是。我国2020年修订的《著作权法》虽然明确将独创性作为一项最基本的可版权要件纳入法条,但却没有给出其定义,更没有指明其认定标准或考量因素。判例法史上,法官从对作品和作者概念的解释中逐渐演化出两个认定独创性的分立原则,即“独立完成”和“一定的创造性”,并首次于1991年美国联邦最高法院审理的Feist案(恰好与数据库有关)融为一体:“版权法意义上的独创性仅仅指作品是由作者独立创作并在其中注入了创造火花(creative spark),哪怕是很少的创造性(minimal degree of creativity)”。

   不难看出,相对于“一定的创造性”,“独立完成”要件更容易裁断,一般由主张保护方举证证明存在一个作品原型且被诉方抄袭了该原型。而“一定的创造性”却是一个神秘的、极不确定的概念。一百多年来,法院都试图找到一个统一标准,但皆以失败而告终。

   实际上,著作权法无非是一部调整市场经济环境中产权交易的制度安排,作品一旦进入市场流通环节,就成为一件有定价、可交易的“财产”或“商品”,其已经褪去了浪漫的文学色彩。“独创性”乃至“作者”“作品”这些词语都是为了给著作权制度的合理性提供一个依据。美国法官波斯纳更是直接言明:“现代商业社会把有形产品和智识产品都打上了个性的烙印,这主要是由于经济的原因,而与文化的高下无关。”

   由此可见,如果仅仅从文学的角度去探讨主张权利方主张保护的智力成果是否体现了作者的思想情感或独特个性,是否具有较高的艺术审美价值,从而以此来判定是否具有独创性,其实背离了著作权法的设立初衷和目标宗旨,无异于南辕北辙、缘木求鱼的徒劳之举。

   不仅如此,所谓的“独特个性”或“审美价值”,其内涵是摇摆不定的,主张权利方既无法就此举证证明,被诉方也无法予以抗辩反驳,从而将极其重要的可版权要件问题完全沦为法官个人的主观擅断,这也就是为什么美国法官霍姆斯反复强调“让仅受过法律训练的人员对绘画图片的艺术价值进行最终判定,是一件相当危险的事情”之根源。

   相反,既然著作权法是为了激励“非物质性商品”的产出和交易,那就应当回到经济分析视角,从以下三个方面来评判其独创性:(1)该智力成果的市场价值,是否有人愿意为此付费;(2)研发该智力成果的投入成本,包括时间、脑力和财力;(3)智力成果的偶合概率(是不是通用表达、惯常性表达)、交易成本和执法成本等客观因素。这些客观因素就是在指引法官考察涉案智力成果的市场供求比,也即稀缺性程度,而这刚好与本文第二部分对数据要不要赋予其产权保护,以及哪些数据应当赋予其产权保护的论证勾连起来。

   简言之,本文所称的数据(集合),指的就是数据(集合)所体现的选择、设计和编排,而不包括被集合的单个数据元素。一旦这种编排、选择具有了著作权法意义上的独创性,那它就应当作为作品受到保护;反之,则不应予以保护。用著作权法保护具有独创性的数据,并不是同前述保护模式(如合同法保护、物权法保护、反不正当竞争法保护或创设一种全新的数据权)相比的另一种选择,而是对数据产权的定性问题,即具有独创性的数据就是作品,既然是作品,就应当享有著作权。而对于不具有独创性的数据(集合),并不是仅著作权法不应予以保护,而是说任何法律都不应当提供保护,这是保证司法实践与立法者的目标宗旨相一致的必然要求。

   其实,这一清晰而周延的推理逻辑早在1993年我国法院审理的一起有关利用他人数据库的案件中就得到了很好的贯彻。在著名的“大百科全书案”中,法院认为,主张权利方将自己搜集的邮政编码、单位名称、地址、联系人电话等信息资料整理成书,书中单个的信息要素属于公共资源,不受著作权法保护,其排列的顺序和形式也是有限的、可穷尽的,故不是著作权法规定的具有独创性的作品。也许有人会质疑,虽然数据元素的编排不具有独创性,但编排者也花费了大量的时间和金钱来收集这些数据元素,如果任由他人爬取和利用,则显失公平,故可以适用《反不正当竞争法》的原则性条款予以救济。

   这一观点似是而非。诚如前文所言,只有具有一定稀缺性的资源才属于财产,才能够被私权化。而从制度功能的角度看,著作权法中的“独创性”概念就是评判涉案智力成果是否具有一定的稀缺性,应否作为私有财产权保护对象(“作品”)的关键要件。

   根据经济学原理,稀缺性取决于两个变量:一个是需求量,另一个是供给量(稀缺性=需求量÷供应量,在需求量恒定的情况下,作为分母的供应量越大,说明该资源越不稀缺),而很多网络平台上的数据集合,都是基于预先设定的模板或算法自动生成的,其最终展示给用户及消费者的编排效果只是一种程式化的惯常表达,而非个性化的创意表达,平台并不需要为该数据集合的生成及展示提供多大的人工成本和智力投入,故其不具有稀缺性,不构成私有财产。

   在美国Feist案中,联邦最高法院之所以最终否定了涉案电话号码簿的独创性,就是因为该数据集合是按照英文字母先后顺序“套路化排列”的,故不具有稀缺性,任何人都可以自由地免费复制或使用。另外,用户或消费者之所以喜欢在网络平台上浏览信息或选购商品,其关注或看重的通常只是单一数据的内容而主要不是所有单一数据集合而成的编排、呈现方式。因此,说整个数据集合具有商业价值,能够带来更多流量和交易机会还为时尚早,至少网络平台经营者要举证证明该数据集合的稀缺性或独创性。

   实际上,独创性的认定门槛本来就不高,为数据的收集、整理和编排进行了“实质性投入”本就应该作为一项重要的考量因素纳入独创性的评判视野。当然,仅有“实质性投入”这一项因素还不够,主张保护方还需要提供证据证明该智力成果的创作难易度、是否已经取得了商业上的成功、消费者的喜爱程度、市场价格如何以及可替代竞品的数量等与供求比密切相关的事实因素。

   当然,被诉方也可以提供证据反驳,如果涉案数据的选择、编排形式确系本领域惯常表达、通用表达,即便主张权利方为此投入了劳动和资金,也不应当禁止他人挪用,因为这就是立法者的价值取向——产权制度保护的是创新和研发成果,而并不保证但凡有投资就必然有回报,更不支持将属于公共资源的数据要素据为己有的“圈地运动”。

   有学者主张,与传统的小型数据库相比,算法时代的大数据在数量级上有实质差别,因此可以为不具有独创性的大数据集合提供有限排他权保护,具体包括著作权法上的发行权、广播权、信息网络传播权等“公开传播”类权利,而不再享有复制权、演绎权,因为后两项权利后续很可能会过度限制他人的数据利用,过度增加社会成本。相较于本文第三部分所归纳的几种见解,这一研究思路回归了著作权法律体系内部,并强调了应当对大数据产权的范围进行限缩,有可取之处,但仍值得商讨。

   首先,对于普通公众而言,出于文学创作或言论表达之需要,其的确可能也只会截取海量数据中的一小部分数据,这看上去似乎并不侵犯整个大数据的复制权和公开传播权。然而,作为整体的数据集合与该集合中的任一部分,其本质是一致的,即都依循同样的编排、选择和构思方式,因此,即便只是使用了海量数据中的一小部分(如果只是使用了处于公有领域的数据元素则另当别论),也依旧是侵犯了整个大数据的产权。实际上,给予公众一定程度上使用数据之自由,并不需要通过刻意区别大数据和小数据(二者边界相当模糊导致划分成本极高)或以机械化地削减某些权项的方式来实现,既有的“合理使用”规则就能很好地扮演此角色。

   其次,著作权法框架下的“独创性”、“思想/表达二分法”、“实质性相似”、“合理使用”及“法定许可”等概念或规则是立法者在以产权激励智力成果创作和维系言论表达自由之间精巧设计的利益平衡之器,而一旦赋予不具有独创性的大数据集合以排他性(哪怕是有限的)、支配性、对世性财产权,则将打破这种平衡。

   再次,通常来说,“聪明”的数据使用人(无论是市场经营者还是普通公众)并不会将海量的大数据整个照搬,而只是选取对其有用的部分,甚至还会作一些改动或转换,在这种情境下,认定是不是构成抄袭仍然相当困难,因此,如果不赋予大数据作品改编权、演绎权,而仅仅只有公开传播权,则无异于画饼充饥。因此,人为地配置数据产权需要哪些权利、不需要哪些权利,恐怕并不能跟上传播技术和商业模式不断更迭的快速步伐。

   最后,大数据并不能仅仅因其数量级上的“大”而建立产权正当性,因为在人工智能和算法时代,越“大”的数据产出反而可能越不需要太多的财力和智力投入。诚如崔国斌教授所言“大数据商业价值增值的效果应该明显超出数据集合制度的管理成本和许可谈判的交易成本”,而这恰恰才是多数大数据产品都可以满足独创性要求,进而作为作品受到著作权法保护的一项重要理由,故没有必要再为剩下的一小部分毫无独创性可言的大数据集合提供产权保护,哪怕是有限的排他性保护。


结语

   综上所述,具有独创性的数据集合在本质上就是作品,著作权制度已经为包括数据库和大数据在内的所有数据集合的产出和利用提供了非常周延而精细的利益平衡之道,即便是保护期的一般安排(非自然人创作的作品,其著作财产权的保护期限为该作品公开发表之日起50年),也不需要因为数据而作额外的限缩调整。因为对于没有太大市场价值的数据而言,他人自然不会使用,50年的保护期限对公众而言并无什么妨碍。

   而对于有相当市场价值的数据来说,50年的保护期限可能是必要的,有利于激励高品质数据的研发和公开。当然,保护期限也并不是越久越好,因为随着时间的推移,好的数据产品就应当进入公有领域,成为人人皆可自由利用的共同财富。

   对于一些新生事物,我们一方面要积极加以应对,另一方面也要秉持理性,谨慎地归纳与推断,如果现有规范体系足以涵摄难题,则不到万不得已,绝不制造冗余信息,因为这本是法律的天性——抽象而灵活、保守而稳定。如果刻意为创新而创新,则不仅不会为制度的良性运行增添补益,反而可能带来不必要的负担和成本。著作权制度历经几百年的风雨淘洗,一些颠扑不破的基本原理沉淀下来,并与包括物权法、合同法和反不正当竞争法等在内的其他法律制度划清了界限与领地,我们能够借此举一反三,以不变应万变。


知识产权

热门话题

关于我们 | 联系我们 | 人员查询