新加坡联合早报2月9日晚报道:“中国科技巨头字节跳动的Seedance2.0人工智能(AI)视频生成模型爆红,有网红博主担忧‘被训练’,让AI领域备受质疑的语料版权问题,再次引发关注。” 评几句:每一代生成式AI模型爆红,版权争议就会被重新摆上台面审判,本质问题从未改变:当创作从独立作品,变成数据分布与模型生成,旧版权框架注定失效,这是全球AI行业共同面对的制度困境,绝非中国独有。 传统版权规则的诞生,本是为了保护那些,看得见摸得着的独立创作。过去不管是写文章画图画,创作者付出的劳动,都能凝结成具体作品。 版权法能清晰界定谁是作者,谁在复制谁的成果,侵权与否一对比就有答案。但生成式AI彻底打乱了这套逻辑,它的创作不是从零开始的独立表达,而是靠吞噬海量数据学来的规律生成。 AI模型训练时,要吸收无数文字图片视频,不是为了复制其中任何一个作品,而是要摸清这些数据里的表达模式、风格特征,形成自己的数据分布逻辑。 等到生成内容时,它输出的是基于这些规律的新组合,不是某篇文章的摘抄,也不是某幅画的复刻,而是数据特征的重新排列。 旧版权框架最核心的矛盾,就是没法给这种新型创作定规矩。原来判断侵权,看的是是否实质性相似,是否有明确的复制行为。但AI的创作过程里,没有传统意义上的“抄袭”动作。 它学的是成千上万作品的共性,生成的内容和任何单个数据源都不像,却又带着所有数据源的影子。 比如AI写的文章,可能有甲的句式、乙的逻辑、丙的用词,但逐字比对下来,没有一段是直接抄的。 这种情况下,旧规则里的“复制权”“改编权”,都找不到适用的地方。 版权法原本保护的是具体表达,现在AI玩的是抽象规律,相当于用衡量实体商品的尺子,去量一种无形的气流,根本对不上号。 更关键的是,旧框架里的“独创性”标准也失灵了。过去说的独创性,是指作者独立完成的智力成果,有自己的思想和表达。 但AI没有思想,它的所有输出都是数据规律的产物。现在各国都在纠结,AI生成的内容算不算“作品”,核心就是绕不开这个问题。 有的说要算,因为背后有人类设计提示词、调整参数的劳动;有的说不算,因为最终生成的关键是模型算法,不是人类的直接创作。 但不管怎么判定,旧规则里“一个作品对应一个创作者”的基本逻辑已经崩塌。 AI的创作链条太长,有数据提供者、模型开发者、提示词设计者,每个人都有贡献,却没人能单独认领“作者”的身份,版权该归谁根本说不清楚。 这种困境不是中国AI行业的特例,而是全球都在面对的集体难题。不管是美国的OpenAI,还是欧洲的AI公司,只要模型爆红,必然会被版权争议找上门。 各国的法律都在被动追赶,却始终跟不上技术的脚步。有的国家强调“人类参与度”,说必须有足够的人类智力投入才能算作品,但多少投入才算足够,没有统一标准。 有的国家要求AI公司标注生成内容,却解决不了训练数据的版权问题。还有的国家想让AI公司给数据提供者付费,可海量数据根本没法统计谁的作品被用了,费用该怎么分更是无从谈起。 全球范围内,AI训练数据的版权问题,至今没有标准答案。AI模型要想有竞争力,必须用海量数据喂养,这些数据里难免有受版权保护的内容。 但这种“喂养”算不算侵权,一直争论不休。有人说这是侵权,因为未经许可就用了别人的作品;有人说这是合理使用,不然AI技术根本没法发展。 各国法院的判例也互相矛盾,有的判AI公司侵权,有的支持合理使用,没有形成统一的司法共识。 这种混乱不是因为法律不健全,而是因为技术已经突破了,现有制度的边界。 原来的版权法允许为了学习研究使用他人作品,但那是针对个人或小范围的使用,没人想到会出现AI这样需要吞噬亿万数据的情况。 整个行业都陷入了一种两难境地。AI公司想合规,却不知道该遵守什么标准。 如果要给所有训练数据的版权方授权,成本高到根本承受不起,而且海量数据也没法逐一联系版权人。 如果不授权,又面临侵权诉讼的风险。创作者想维权,却找不到明确的侵权对象,不知道该告模型开发者,还是告使用AI的用户。 就算告了,也很难证明自己的作品被AI使用过,更难计算损失。这种困境不是某一方造成的,而是技术发展必然带来的制度滞后。 生成式AI的创作模式,已经把版权的核心,从“保护具体作品”变成了,“保护数据权益”。 旧框架关注的是作品是否被复制、被改编,新的矛盾焦点,是数据是否被合理使用、权益是否被公平分配。 但全球范围内,还没有任何一个国家能建立起,适配这种变化的版权体系。 大家都在摸索,有的尝试扩大合理使用的范围,有的想设立专门的AI版权许可机制,还有的在讨论给数据提供者设立新的权利类型。 但这些探索都还在初级阶段,没有形成成熟的制度设计。
