徐偲骕郭泰维以平台为方法重思AI训练数据利益分配之争数字出版研究理论探索专题文章-期刊+


以平台为方法:重思AI训练数据利益分配之争

徐偲骕,郭泰维  |  文



作者简介

徐偲骕,郭泰维

  • 徐偲骕,男,博士,上海大学新闻传播学院副教授、硕士生导师,上海大学全球人工智能媒体传播研究院研究员。研究方向:传播政治经济学、平台社会与中国的数据政策。

  • 郭泰维,男,香港中文大学新闻与传播学院硕士研究生。研究方向:全球传播。


摘  要:文章以互联网平台创作者为分析对象,系统剖析人工智能(AI)训练数据流通过程中的权益配置困局,试图回应人类知识生产和劳动与AI崛起之间的“整体性紧张”。现有研究往往聚焦内容权利人与AI产业之间的直接冲突,而忽略了平台这一关键枢纽的角色。平台化进程既是AI模型摄取训练数据的前提和起点,亦是架接创作群体与智能产业价值链的中介架构。人们需要解决“平台与AI产业”和“创作者与平台”这两对关系分别面临的困境,借助“共票理论”和“避让原则”等理论—技术工具,迈向以平台为中介的“内容—数据”二级市场,以维系人类从事创造性内容生产的动力,阻止AI成为以人类文明为代价的最后一次产业升级。文章还提出可将平台化程度作为理解人类劳动与AI关系的一种分析框架,以替代脑体之分和组织化程度等传统思路,来判断不同行业在面对AI时的议价空间和凭借数据贡献参与分配的可能。

关键词平台创作者;数据产权;AIGCAI训练;内容生产

DOI: 10.3969/j.issn.2097-1869.2025.02.004 

著录格式:徐偲骕,郭泰维.以平台为方法:重思AI训练数据利益分配之争[J].数字出版研究,2025,4(2):24-33.








徐偲骕郭泰维以平台为方法重思AI训练数据利益分配之争数字出版研究理论探索专题文章-期刊+




知网链接:《以平台为方法:重思AI训练数据利益分配之争


2024年7月,字节跳动旗下的番茄小说在其签约协议中新增“AI(人工智能)训练补充协议”,要求平台作者授权其上传的作品用于AI辅助写作模型的训练和开发,包括大纲、正文及个人信息,且未明确是否支付额外报酬。这一举措随即引发了作者群体的抵制,他们发起“断更”“停更”倡议,甚至提议通过生产低质内容“战术性”干扰深度学习模型的训练效能。此外,该平台上还疑似存在AI批量生成的低质量作品。这一事件折射出AI产业与传统内容生产方式及其权利结构之间的“整体性紧张”。自人工智能生成内容(AI Generated Content,AIGC)相关服务问世以来,侵权—维权冲突已经在全球范围内上演,技术与法律系统之间的适配性危机呈现跨领域蔓延态势——从以机构媒体为主要生产工具的新闻从业者,到以著作权体系为支撑的文学和艺术创作群体(如作家、画家等);从依赖专业知识积累的职业服务群体(如律师、医生等),到不生产媒介内容的基础服务行业从业者(如司机、厨师等),他们都通过输出自己专业领域内的知识,成为机器学习的“师父”。

技术鼎革之际,新旧生产力之间的“卢德冲突”会不同程度波及各行各业,恰如19世纪机械化进程中的劳资冲突,生产技术的进步与传统就业方式之间的矛盾正在经历着历史性复现。学术界和各国立法者在应对破坏性创新时仍未达成有效共识,维护哪一方的利益成了一道选择题:若严格遵循既有产权框架,则必然拖累新兴产业的效率,进而阻滞技术扩散带来的社会福利增长;反之,如果完全支持AI开发者,则可能会窒息人类进行创作的原初动力,进而威胁到文明本身的延续。这种制度空窗期的症结可能会从初期的权利争议发展为结构性市场失灵问题。眼下,AIGC充斥公共网络空间,已经开始呈现劣币驱逐良币的现象。

2023年10月,中国《全球人工智能治理倡议》建议“以保障社会安全、尊重人类权益”为前提,确保AI始终朝着有利于人类文明进步的方向发展。人类权益包含人类依凭已有知识文明成果和技能所享受的各类所有权。现有研究多直接分析权利人与AI产业之间的主体博弈,却相对忽视产业演进的路径依赖性。实际上,推动AI技术突破的关键性制度变迁发生于更早阶段的“网站化”“平台化”进程,即Web1.0至Web2.0的转型时期。创造并发挥平台机制的利益协调和中介功能,可能会成为解决技术革新与产业发展之间矛盾的一把钥匙。本文以较有代表性的互联网平台创作者为分析对象,尝试重新定位平台商业模式,探索内容产权向数据产权转型的可能路径。以利益协调和激励相容的方式建立传统内容产业和新型智能产业之间的合作通道,方能让知识生产过程中的各项投入得到合理的价值回报。以此为坐标,还可延展至其他人类劳动领域,提供一种基于平台的新型分析框架。

1  整体性紧张之下:以互联网平台创作者为分析对象

截至2025年第一季度,《纽约时报》等知名机构媒体诉Open AI一案仍在审理中,各国类似案件和冲突层出不穷,新闻、音乐、动画、电影、文学创作,乃至传统服务业等各行业频繁爆出版权争议。2023年7月,美国演员工会发起为期118天的罢工,核心诉求之一是禁止电影公司AI扫描演员形象后无限次免费使用其“数字替身”;2024年6月,美国唱片业协会(Recording Industry Association of America,RIAA)代表其成员(包括环球音乐集团、索尼音乐和华纳音乐等)分别在纽约和马萨诸塞州起诉Suno和Udio这两家AI音乐公司,指控其在训练AI模型时未经授权使用了受版权保护的音乐作品;甚至在餐饮行业,已有美食博主发现ChatGPT生成的食谱与其在流媒体和社交平台上发布的原创内容高度雷同;2024年9月,“具身智能机器人”已经获得了北京市海淀区颁发的食品经营许可证,并有望迅速进入餐饮市场,这可能预示着AI实体即将突破服务业的最后防线。以上现象共同构成了智能时代技术扩散的辩证关系——创新效率提升与既有权益体系解体之间的整体性紧张。

数据攫取与权益让渡的冲突下,“脑力劳动—体力劳动”的传统二元结构已不是技术替代效应的有效区分依据,技术突破使得高度复杂的“身体动作”同样成为可被数据化并智能化的对象,譬如需要同时动用医学知识和身体技能的外科医生、需要调用地理知识和机械操作能力的驾驶员,其劳动过程的智能化改造通常遵循两阶段替代路径:如当司机对路线的熟记被数字地图的导航功能取代时——本质上这就是地理信息的平台化,技术替代便集中于剩余机械操作模块的躯体动作和生理反应了。可见,凡是人类参与获取非财产性经济回报的劳动,不论其是否形成法定财产权的客体,均有可能是AI的改造对象。在AI技术引发的侵权模式面前,已有的制度屏障和利益分配机制都趋于失效。因此,我们可能需要突破脑体之分,寻求跨职业、跨工种的新分类方法和解释框架,以整合性的方式来协调新旧生产力的重组机制。

文章选取互联网平台创作者为分析对象,原因有三。

其一,其他行业的机构化程度差异显著。相较于拥有建制化法律支援体系的新闻媒体机构,或受行业工会集体协商机制保护的好莱坞从业者,互联网平台的个体创作者结构松散、组织性较低,是一种极端个体化的劳动。这种结构性弱势直接导致其难以形成有效的维权联盟,客观上降低了AI开发者获取创作数据的制度成本。即便同为个体的记者,在职务作品遭遇侵权时,媒体单位可直接主张著作权及相关权利,维护记者和组织的合法权益。互联网平台创作者面临的情况则不同,创作者与平台间的关系并不基于劳动合约而发生,双方只是基于著作权交易下的市场关系,契约条款多采用“作品批量授权”模式,平台可获得创作者完整作品系列的排他性权利。因此在权益性质上,大部分创作者其实只是受到微弱保护的用户生成内容(User Generated Content,UGC)提供者——与视频博主更接近,更何况在上述的案例中,平台本身可能就是侵权者,遑论主动提供保护。

其二,法益保护的动力机制存在质性差异。相比从兴趣爱好出发,以二次创作或零星剪辑为主要“劳动”形式的纯粹UGC创作者,依赖互联网平台生存的原创作者具有更强的动机维护其合法权益,维权路经也更清晰。UGC创作者主要依靠观众打赏和流量变现来获益,经济上完全属于另一类型的产业;而无论是文学作品还是其他形式的艺术作品(如绘画等),原创网络作品在“一次售卖”逻辑运行下的著作权保护模式依然有效,创作者可以随时诉诸传统权利。

其三,权益的客体形态也有本质区别。相较于演员的肢体演绎、厨师的风味调配或医生的复杂手术等具身化技能劳动,互联网平台创作者的核心产出具有更明确的客体载体与法定作品要件,其“表达”具有较强的可版权性。表演者的生物特征、菜肴工艺或医疗操作过程本身很难被产权化,但创作作品却是实物,创作者受到侵权的“痛感”更强烈,未经授权的规模化复制传播将直接触发法律意义上的侵权救济机制。因此,以有形的内容创作为讨论起点,借助边缘突破,才有可能推及其他,从而进一步拓展到更广阔的“创造领域”,同时规避人格权框架下非劳动形式的用户行为数据所涉及的相关伦理争议。


2  分析盲点:作为关键利益方的互联网内容平台

对于训练数据的侵权风险,出于积极回应技术发展需求的意图,有学者集中论证了机器学习乃属“非作品使用行为”,对著作权人并未造成整体激励的削弱,只是导致了激励行为的结构性调整,应被排除在著作权权利范围之外。又因为AI大模型的主要用途并非生成侵权内容,而是具有广阔的应用领域,所以有学者认为有必要建立机器学习合理使用条款,明确AI大模型训练中对作品的使用具有合法性。对此,反对者认为,科技企业援引科研豁免原则虽然能够在初始阶段获取海量作品,然而其前期研发的大量资金投入和AI产品的商业应用前景激发了资本借其盈利的巨大冲动,创作者的劳动成果以“合理使用”作为开端,后续却成为资本持续牟利的工具。不同主体间的利益分配和权利义务的动态平衡被打破,版权制度遭遇危机。

但两方学者可能皆忽略了技术利益方与内容创作者之间的重要中介。在很多侵权争议中,AI企业与内容权利人并非供求关系的两端,向未获授权的抓取行为提出抗议者往往是作为企业版权人的网络内容服务商(Internet Content Provider,ICP),即人们熟知的互联网内容平台。而个体在状告AI企业时,往往也会附带起诉传播违规内容的平台,原因是侵权用户将与权利作品相似的生成内容发布到了平台上。当下的AI产业还存在大量不具垄断地位但渴求数据资源的中小体量企业,相对于巨型平台而言,它们反而是弱势方,不应忽略平台在人工智能训练数据市场中的关键地位。

2.1 网站化与平台化
前互联网时代未经授权的系统性内容转载行为在技术上不可行,侵权者往往不会逐字逐句手动输入,其前置条件恰是报刊内容完成网页格式转换,即只有在传统媒体已经“网站化”的情况下,新闻聚合类平台才得以聚合新闻链接,抢夺媒体入口,造成新闻业受众流失与广告收入的锐减。同理,AI获取训练数据的现实路径,必然是经由互联网平台等Web2.0数据枢纽实现,技术公司几乎不可能逐一与数百万创作者协商版权许可,因为交易成本过高,更可行的路径是通过互联网平台来集成作品内容。通过集中信息资源,提供便利访问,网站化和平台化的技术架构达成某种规模效应,实现链接多边市场、降低交易费用的商业创新。以番茄小说为例,创作群体抗争的矛头并非AI技术创新本身,而是互联网内容平台单方面扩展了内容数据化后的用途,且未提供增量利益的分配方案。事实上,在AI时代的数据经济生态中,不需要平台作为载体的作品内容传播路径已然不存在。个体权利人与AI产业之间的新型利益分配必须通过重塑平台化的制度设计才能完成。
2.2 处于不同数据秩序之中的作品
平台化进程内蕴着多重模态的技术分化,开放式的界面架构与封闭式的数据库模式呈现出截然不同的权利机制。前者延续Web1.0时代的公共访问逻辑,如门户网站及社交媒体平台,其平台化的初始逻辑就是网站化,较难抵御AI企业爬取数据;后者则凭借专业领域的准入管制,通过控制接口权限、监控流量阈值等技术治理工具,构建产业护城河,如学术数据库、法律文书数据库等。该类型平台完成资源圈地较早,产权意识较强,对访问较为警惕,如学术数据库就会高度注意同一账号短时间连续下载大量文献的可疑行为。
2024年中国知网与新兴AI搜索公司秘塔科技发生了一场侵权争议。中国知网称后者未经允许,在其AI搜索服务中向用户提供了大量文献题录及摘要数据,数据量巨大,严重侵犯了自己的合法权益。2025年初,美国首例AI训练侵权案宣判,科技巨头汤森路透(Thomson Reuters)诉法律科技公司罗斯智能(Ross Intelligence)取得了胜利,法院认为罗斯智能通过AI生成法律分析内容与原告的数据库形成了直接竞争,突破了合理使用的边界。
由数据的生产和流动结构所指代的数据秩序概念可以较好地解释上述侵权行为。处于不同秩序之下的数据对应着不同的生产方式和社会关系,数据秩序的先在性决定了后续确权、交易和权益分配的具体制度展开。作为非个人数据,电子化的作品内容处于何种控制秩序之下,直接决定创作者能否通过平台参与到据要素市场中,与AI产业建立间接经济联系。相比之下,新闻业虽然能够通过付费墙控制一般访问,但仅需购买会员即可访问全部内容,订阅制框架下的二次传播失控及信息时效性速朽特征,导致新闻作品在平台化进程中无法与文艺作品或学术文献等值。更深层的差异在于,未嵌入平台化转型的职业群体,如医疗从业者、交通运输服务者,其劳动成果因缺乏结构化数据归集接口,也较难通过传统劳工组织与AI市场进行有机衔接。
2.3 头部平台的商业模式已演进到新的阶段
应当注意,不同的数据秩序本身也是平台化演进的不同阶段。依靠版权作品或免费UGC吸引用户浏览并将其访问痕迹货币化,是内容平台的主要商业模式。不管是创造具有稀缺性的付费访问机制来收取一次售卖的费用,还是尽可能鼓励分享,通过规模效应转而在广告市场上完成价值变现,本质上均是通过结构化编排信息流动渠道,实现注意力资源的套利。且不论是否经由版权许可,优质的内容创作者与平台尚可维系共生,凭借内容稀缺性获得后者提供的流量分成或经济激励。
观察百度的文心一言、字节的豆包、谷歌的Gemini等大模型产品的商业模式可见,AI训练数据池的构建已深度嵌套于主流内容平台的数字生态闭环——用户原创内容到数据要素的转化系统性消解了作品的传统权利束。大语言模型的目标是学习从输入到输出的映射规则或模式,从中提取语言的规律,并不需要以审美的方式来欣赏内容本身,原始内容对模型而言变成了一种抽象化和数学化的知识,导致人类创作的文本被算法“炼金术”拆解为有待加工的数据元件,而不再是能够吸引用户注意力的平台内容。结果,用户上传至互联网上的内容或作品失去了原本的形态及依附在文本形态上的权利属性。类似网络文学网站这样的专业化平台用一纸补充协议就能挪用版权作品,为大模型训练提供原料。具有数据霸权优势的超级平台就可利用格式条款实现作品权利批量让渡,亦可依托AI服务创新开辟高附加值收益渠道,如法律咨询、智能写作等。这些企业从主打以广告流量为主的“传统”平台,转型为依靠提供AIGC收费服务获取利润的AI企业(后者已经不是经典意义上的平台了)。当AI生成物替代原生创作成为用户付费对象时,人类创作者的议价能力将进一步降低甚至被淘汰,对于转型为AI企业的内容平台而言,则实现了另一种“开源节流”。
当平台商业模式和创作者之间存在建立于版权作品之上的一致利益时,平台会积极抵制侵权行为,履行较高的注意义务,为原创作品提供排他性发表和输出渠道,或是保护自己的数据库不被非法抓取,这种情况较多存在于长内容平台。当平台商业模式依赖用户UGC和二创文化时,平台就倾向于对用户侵权行为保持默许,等待投诉通知而后采取删除措施。当平台希望与AI企业合作,或借助市场优势发展自己的AIGC业务,可能就会主动偷换概念,转换内容或作品的用途,实施侵权,甚至对其他AI企业获取语料设置较高的障碍,这从番茄小说事件可以窥见一二。相对AIGC服务而言,平台的传统商业模式已经沦为传统媒体一类的“落后产能”了,其内容“护城河”正被系统性重构为训练数据储备库。
因此,个体权利人能否基于训练数据向AI产业主张利益再分配,还在于内容或作品本身所处的平台性质与数据秩序。

3  两对关系、两种困境

由上述分析可知,作为一种“半新半旧”的生产力,被平台数字化了的内容层构成了AI产业的基础设施,平台将分散的创作内容集约化为AI训练所需的标准化数据来源;而平台又是数字时代互联网创作者对自身作品内容行使权利的基本场景,版权的确权、流转与维权始终嵌套于平台规则体系。平台同时扮演着中介和基础设施的角色,这表明存在着亟须协调的两对关系,即平台与AI产业之间的关系、创作者与平台之间的关系。

3.1 平台与AI产业之间的关系
著名的“非法兴起”概念或可以延续其对互联网的一贯解释,即大量针对传统知识产业的侵权行为推动了实体资源的数字化转化和“创新性使用”,这在AIGC时代依然是有效的。同样的过程再次出现,在“非法兴起1.0”的尾声,从“利用闲置资源”和“增进社会福祉”中产生的利益成果被另一轮非法兴起所劫掠,催生了“非法兴起2.0”。但平台与AI产业之间的关系显然更为复杂,首先,市场中不存在可以满足现有需求的高质量公共数据集,AI企业为控制成本,只能尽可能从开放的平台中爬取可供训练用的免费内容,过程中难免触碰到一些权利作品,并非全然出于主观故意。
然而,免费来源的数据质量并不高,虽然具有可获得性,但标准化程度低,需投入高昂代价清洗噪声才能提取有效特征。而高质量数据集往往已处于高度私有状态,如产权保护严密的数据库型平台,获取成本高,利用风险大,机构购买后的使用方式一般是向内部提供下载服务,如大学和科研单位购买文献数据库。但AI对数据库的利用方式则是生成特定的内容并再次流通到公域互联网,很有可能构成与原作品的实质相似,导致“同台竞争”,引发权利主体的诉讼。
因此,平台市场整体供给的训练数据本身存在“质—量鸿沟”,无法满足不同科技创新主体的需求。一边是产权清晰但流动性有限的“数据冻土”,另一边则是数据降级导致模型“垃圾进—垃圾出”的尴尬局面,创新企业面临双重市场失灵,数据获取的摩擦成本反向吞噬了技术创新的边际收益。换言之,AI企业并非天然偏好从开放式平台上摄取廉价的低质量内容,这只是因无法稳定、持续获得高质量数据供给而采取的无奈做法。部分中小型AI企业迫于这种状况倒逼开发了一些新型AI工具产品,比如有限的高质量数据和算力规模共同催生了以“小数据集蒸馏”为代表的技术替代路径,成为中小企业在数据资源垄断格局下开辟生存空间的选择。
3.2 创作者与平台之间的关系
在数字内容生态中,创作者与平台的关系本质上是基于资源依赖的权力博弈,创作者处于结构性弱势地位。内容平台通过“非独占、可转授权”的协议条款和技术架构,切割创作者的“所有权”与内容的“使用权”,从而掌握内容的实质性控制权和再利用的能力。松散的普通创作者群体既缺乏技术能力,也不具备组织优势来约束平台行为。平台既是创作者的内容托管方,又是数据基础设施的运营者,其双重角色导致治理目标的内在冲突。尤其是当平台单方面改变内容用途,通过开放接口或隐性授权为AI的数据抓取提供便利,将其转化为AIGC生产资料时,由于内容被“解析—重组—再生产”,创作者也很难证明输出内容是否完全“复制”了自己的作品,版权或知识产权的构成和维护路径已然失效。
此前的互联网内容生态中,平台通过有偿版权使用和广告收益分成等模式,与创作者形成事实上的价值共享契约,至少在开放网络框架内建立了收益回馈通道,形成某种准雇佣劳动。但在AI训练数据的使用场景下,这种分配逻辑被系统性架空,平台不仅未建立与创作者贡献度匹配的数据收益机制,且一旦有创作者试图向AI企业直接维权,后者往往以“合理使用”或“数据来源合规性由平台担保”作为抗辩理由。创作者个体缺乏集体议价能力与司法应对资源,平台此时又成了用户维权的阻力。因此,有必要推动从“流量分配”向“数据确权”的制度转型,构建起一个以平台为“数据中间商”的“内容—数据”二级市场结构,重塑创作者、平台与AI企业间的价值传递链条。


4  迈向以平台为中介的“内容—数据”二级市场

司法诉讼只能以相互妥协的方式解决少数个案,修补既有制度裂纹。不同利益之间的主体只有通过大规模合作才能形成稳定的新产业格局。旧的生产力必须抓住时间窗口,寻找新的定位,将自己重新融入产业链中,从零和博弈转向共生演进,才能以激励相容的方式存续。举例来说,机构媒体与AI企业并非竞争对手,前者可利用在线新闻资源谋求转型成为“语料数据要素供应商”,借助“新闻数据财产权”成为上游“卖家”,从而在AI产业中确立自己新的生态位。为了提高媒体数据要素和数据产品的质量,新闻业也必须提升报道本身的质量和经营的数字化水平,夯实新闻生产的核心能力,构成良性循环。几乎在《纽约时报》起诉OpenAI的同时,美国道琼斯公司(Dow Jones & Company)旗下的AI搜索工具Factiva宣布与全球近4 000家新闻媒体签订生成式AI使用协议,其中涉及报纸、杂志、在线新闻等媒体,包括美联社、《华盛顿邮报》《华尔街日报》等,本质上形成了一个新的数据要素市场。当媒体机构通过契约创新建立新的数据供应链时,也完成了数字时代“新闻专业主义”的功能升维。

相比机构媒体,内容平台则需要承担更关键的连接职能——在创作者与数据要素市场之间搭建可信的交换通道。实践表明,单方面通过格式条款变更既有授权内容的应用场景,不仅难以维系创作者信任,反而容易引发权利关系紧张,阻碍数据要素供求关系的建立和健康稳定运行。要突破此困境,既需在数字生产关系中重塑各方权益平衡机制,又应通过市场化手段构建可信任的价值分配网络,特别是为个体创作者基于数据要素贡献参与分配提供通道。

4.1 共票理论:创作者收益分配机制的理论基础

《关于构建数据基础制度更好发挥数据要素作用的意见》(以下简称《数据二十条》)提出了数据资源持有权、数据加工使用权、数据产品经营权“三权分置”的制度设计,但在当前平台化生态中,数据资源持有权往往被平台通过格式条款垄断,加工使用权和经营权则向AI产业倾斜,导致创作者权益虚化。有学者提出,可借助“共(共享与协作)(各类权益证明)理论”等相关知识资源和先进的区块链技术,通过收益凭证(Token)构建数据知识产权登记制度,在数据要素流通共享中实现科学合理的收益分配。其突破性在于跳出传统所有权框架,转而关注数据流通中的动态权益分配。例如传统版权法仅保护“表达形式”,而共票理论则通过语义层和风格层的价值挖掘,如AI对内容的解析与重组,重新定义创作者在数据要素中的核心地位。这使创作者在数据再生产链条中持续保持价值主张能力,从而构建更具可持续性的数字创作激励体系。

共票理论的核心逻辑与Web3.0 的“用户主权”理念高度契合,为数据权益分配提供了更开放、透明的技术底座,使“平权分配”从理论构想落地为技术规则,该理论的实践价值已在产业场景中获得验证。2023年已有平台企业开始为优质版权内容贡献者发放收益凭证,写入了区块链智能合约。后者可以记录数据要素价值的增值情况,在路径明确的基础上扩大价值传播链条,实现数据要素价值收益最大化。用户在平台完成作品创作后,按照通用数字格式转换内容,获取唯一的数字资产收益凭证,作为该数字资产在AI学习过程中的唯一资产确权结果,在后续的内容运营及权益分配中充当主张收益的依据。在内容运营全生命周期内,该凭证会记录内容转化及销售行为——譬如外部AI接口的调用,并对其贡献进行数值化记录。模型调用其数据时需通过链上协议完成授权,每一次AI训练数据的提取与商业化应用均触发智能合约的自动结算。结算收益时,智能合约会针对创作者对该数字资产的贡献进行公平、可信的价值分配,保障原创作者的创作成果收益。值得注意的是,该机制并未改变作品的开放共享属性——无论是知识共享许可内容还是受限访问作品,创作者均能通过要素贡献确权机制维护其核心权益,这在事实上实现了数据要素流通与创作者权益保护的制度性兼容。

三权分置框架本质是通过产权解耦激活数据要素的流动性。在Web3.0分布式架构下,技术和制度的协同创新也为破解“数据冻土”困境提供了新思路。平台中介与私有化的数据完成解耦,升级为去中心化的数据枢纽,为用户代理行使数据资源持有权和数据访问的授权。中小AI企业可以借助联邦学习与区块链实现跨平台数据协同,在合规框架下访问多源数据池,依法享有数据的加工使用权,同时通过Token激励机制动态反哺数据贡献者,构成了数据产品经营权的合法源头之一。“三权分置、分级授权”的闭环机制很好地响应了Web3.0对可信环境的追求。

可见,基于区块链技术的数字权益分配机制能够重构数据要素的价值分配模式,打通传统版权与数字资产之间的堵点,解决个人创作者在数字内容生态中的收益失衡问题,实现创作者、平台、企业等多方主体在数据流通与商业化中的公平参与和利益共享。散落在互联网生态中的个体原创内容真正转化为可持续增值的数字资产——成为能够带来经济利益的资源,为内容参与AI数据要素市场提供了入场券。实践表明,相比单方垄断数据权益的封闭模式,这种开放透明的分配架构更能降低授权摩擦成本,有效激励数据要素价值链条上的各主体充分共享资源,降低数据知识产权流通的合规成本,激发数据要素生态的活力。未来还需通过立法细化三权的行使边界,例如明确数据资源持有权不可被平台单方面要求让渡,加工使用权的授权需以透明议价为基础,而经营权收益应通过智能合约实现按比例分配。

4.2 避让原则:撬动平台参与数据要素市场

在数据三权分置的制度框架下,平台企业作为原始数据处理者,本可以凭借其“数据资源持有权”深度参与数据要素市场,通过向下游产业生态提供初级数据产品或数据接口来创造价值。《数据二十条》也明确鼓励互联网平台企业发挥带动作用,促进与中小微企业双向公平授权,共同合理使用数据。然而在当前实践中,头部平台普遍持观望态度,积极性并不高。首先,因为平台商业数据多为个人数据,较为敏感;其次,为维护AI领域的竞争优势,多数平台更倾向将用户数据封闭在自有生态体系内,而避免向具备技术优势与创新动能的中小科技企业开放,尤其对已实施封闭式管理的数据库平台而言,其数据共享意愿更低。这显然不利于数据资源的市场化配置和“协同”“复用”“融合”,限制了初创中小AI企业参与公平竞争。

如果平台倾向于内循环,不愿意开放生态或参与数据要素市场,创作者群体将面临被排除在数字经济红利分配体系之外的系统性风险,被整体抛弃。对于用户敏感个人数据,技术上鼓励数据共享的方式已经十分丰富,在隐私计算理论下,联邦学习等“数据可用不可见”的多方操作已经可以保证数据在不出本地的情况下输出企业所需的计算结果。但对于各种类型的内容平台而言,深层顾虑犹存:如AI能够复现版权作品,可能导致高辨识度作品的特异性被解构,导致市场上出现大量类似的产品或内容,从而稀释原创作品的独特价值,替代了原IP的消费,招致诉讼风险,降低投资回报。在实践中,ChatGPT已经开始对知名IP适用“避让原则”,限制机器对特定IP进行定向学习和用户的生成指令。这些作品的原创度经过了市场检验和公众认可,是人类社会的智力财富,技术提供者理应在训练时就承担事先注意义务,选择“主动避让”。在汤森路透诉罗斯智能一案中,法院也认为训练数据使用不得导致生成内容与原作品形成竞品关系,例如音乐类模型应规避生成与版权歌曲高度相似的旋律,新闻类模型则需限制事实性报道的细节还原度等,以实现市场隔离。

要实现这种规避,机器学习环节须对版权作品采取选择性吸收策略——或完全规避相关训练样本,或进行局部特征提取与模糊化处理——若完全屏蔽相关数据,则会切断内容权利人从平行的数据要素市场获得分配的新经济机会。避让原则的根本目的在于防范生成阶段的实质性内容复制,并不排斥必要的学习行为,优质IP的数据特征必然有助于智能模型臻于完善,但需有偿获取而不能被无偿掠夺。对非著名IP内容,则适用于事后救济原则,当权利人发现AIGC导致自身作品被稀释或者混淆,可以发起投诉,由技术提供者采取必要救济措施。将上述规则落实为法定义务,可降低平台数字内容参与数据要素流通的风险,提高其积极性。

4.3 以平台为方法:劳动与AI关系的一种分析框架

回回到“整体性紧张”,音乐、影视等行业的协会或集体组织相比个体固然具有更大的议价能力,可以向AI企业发起法律“战争”,索取补偿,但其互联网业态的专业性局限显著。当前,各类作品皆以流媒体平台为载体完成市场流通,离开数字化传播的本地硬拷贝已失去商业价值。当下的数字平台已然超越了传统交易市场的范畴,承担着生产要素流通等诸多职能,已成为“治理结构中的新层级”。可以说,平台化是创作者遭遇AI侵权的起点,同样也可以是他们与AI产业之间新型价值链的中介架构。实现这种价值转换的核心依托,在于充分发挥大型互联网平台在内容聚合与分发服务方面的基础设施功能,它们承担了基本的创作者内容数字化集成工作,为数据要素化完成了初步准备。因此,解决AI训练数据与个体创作者之间的利益分配问题,应当形成行业组织与平台企业的协同效应:前者的作用是在内容一级市场上协调用户和平台间的利益,后者则在数据二级市场上作为内容数据的受托者,为创作者运营数据资源。

由此延伸观察,脑体之分和是否有强大集体组织的存在,可能已经难以有效阐释人工智能时代劳动者与技术发展的动态关系。当前的观察重点应转向职业场景是否已经平台化,以及平台化程度的高低,这也挑战了以往认为平台利用算法将劳动者困在系统中的常规看法。以司机和厨师为例,网约车司机群体的职业活动具有显著平台化特征,其行车路线、驾驶行为等数据被平台系统化沉淀;相较而言,缺乏平台运作机制介入的后厨作业,其参与数据要素市场的机会就要小得多,成本也更高。这种差异意味着当数据交易二级市场完善时,前者相较餐饮行业将更具备与AI开发者(如自动驾驶企业)进行价值博弈的先发优势。医疗领域的对比同样具有典型意义:依托线上诊疗平台完成数字化赋能的综合内科医生群体,其数据聚合形成的议价筹码,相较于以独立执业为主、直面AI学习算法和手术机器人的外科医生群体显然更占优势。


5  余论

有学者主张避免对机器学习行为实施强力监管,认为由此衍生的数字创新可能为原始权利人创造附加市场收益,且“社会自我调节机制”能够消化市场损害。这个观点是存疑的,其一,AIGC已经开始出现劣币驱逐良币的现象,具体表现为低质量的AI产出内容逐渐挤压人类创作内容的展示空间,形成流量争夺态势;其二,生成者利用AI注册大量复制账号,积少成多,以量取胜,几乎覆盖文字、图片、视频等所有内容模态。这些内容可能还会再被AI抓取、学习,完成“垃圾”内容的迭代。这显然并没有增进公共福祉,相反还增加了社会获取优质信息内容的成本和难度。在AI生成物可版权性尚有争议的情况下,创造出新的市场还有待时日,遑论原始内容权利人的其他市场收益可能。更需关注的是,大量相似的产品或内容一定会稀释原有内容的独特性和价值,替代市场对原有内容的消费,直接挤压权利人的生存空间和降低获得回报的预期。市场充斥着大量低质量和高度同质化的内容,也会降低整体文化质量,消费者难以区分原创内容和AI生成的内容,从而造成市场效率下降和消费者福利损失。

损失是即刻而确定的,所谓的社会自我调节则是尚未发生和飘忽的,如果放任人类内容生产被贬抑为“旧质生产力”而淘汰,实质上是以对创作者权益的剥夺来换取技术开发者的单边收益,这种激励结构的冲突难以调和。其后果同样是抑制创新——人们不会再有动力耗时费力从事文化艺术的学习和创作(因为相比机器学习效率太低)。人类通过线性文本书写和阅读训练出的理性思考与逻辑推理能力,即“阅读脑”,将被依赖即时问答与碎片化信息处理的“数字脑”所取代,人们不再需要从文本的连续流中建构意义。人类最后一次产业升级的代价,可能会是整个人类文明。

最后,两级市场的建立还需要抓紧时间窗口,在有效的市场机制尚未成型前,可能所有已经数据化的人类文明就已经被“非法兴起3.0”消耗殆尽,届时再寻求建立权益分配规则,其实施条件已然消解。而且由于数据要素市场迟迟无法形成清晰的数据确权、交易规则和合理的定价机制,创新者对于合法获取生产资料的实际成本缺乏稳定的预期,以小数据集蒸馏等方法开展的低成本训练也势必使得人类知识尚未按数据要素贡献获得合理分配就遭遇了“折旧”和“平替”,这种实质性替代会造成真实的损失。有必要提及的是,技术创新可在数据要素市场缺位时暂时弥合供需矛盾,但此类技术本质上是对既有数据资源的二次挖掘与提纯,若原始创作者群体和高质量数据源头长期缺乏公平合理的权益分配机制,将导致其进一步萎缩,最终蒸馏法也会“难为无米之炊”。本文认为,数据要素市场的制度建设需与技术迭代同步推进,为DeepSeek式的创新提供合规且可持续的数据供应链。

本文摘自《数字出版研究》 2025年第2期  徐偲骕,郭泰维 《以平台为方法:重思AI训练数据利益分配之争》,注释及参考文献从略。阅读全文或学术引用请参见原文。

徐偲骕郭泰维以平台为方法重思AI训练数据利益分配之争数字出版研究理论探索专题文章-期刊+



国际标准连续出版物号:ISSN 2097-1869

国内统一连续出版物号:CN 10-1854/G2

邮发代号: 80-913  季刊  定价:40元/期

电话: 010-6488 3888

邮箱:editor@dpresearch.cn

投稿网址:https://szcb.cbpt.cnki.net


徐偲骕郭泰维以平台为方法重思AI训练数据利益分配之争数字出版研究理论探索专题文章-期刊+

徐偲骕郭泰维以平台为方法重思AI训练数据利益分配之争数字出版研究理论探索专题文章-期刊+

本文来自数字出版研究,如有侵权请联系网站管理员删除。