视觉中国总编辑、副总裁张宗堂:AIGC版权保护成全球关注焦点 优质合规数据是核心竞争力
转自:中国经营网
本报记者 李静 北京报道
根据研究机构Everypixel Journal的统计报告,自2022年以来,仅用18个月的时间,人工智能已经生成了150亿张图片,相当于人类摄影师150年的拍摄量。在生成的 150 亿张图片中,其中 80% 来自开源模型,人们使用 AI 生成工具,每天创建 3400 万张图片。
8月7日,在由中国经营报社举办的“2024上市公司高质量发展论坛”上,视觉(中国)文化发展股份有限公司总编辑、副总裁张宗堂指出,AI生成图片除了数量方面迅速增长,生产的质量也在快速提升,经过几代的变革之后,已经基本能够达到真假莫辨的状态。尽管AIGC浪潮汹涌、数量增长巨大,但AI仍处于辅助创作的阶段,驾驭AI的创作者依然扮演着主导角色。
“由于AIGC是在人工智能技术学习前人知识产权成果生成的内容,如何进行版权保护就成了全球范围都关注的重大问题。”张宗堂指出,目前AIGC的版权保护问题讨论的范围很广、内容很多,主要集中在三个方面:一是人工智能生成内容的版权归属问题,二是AIGC生成的平台如何履行平台职责问题,三是用于模型训练数据的合规性问题。
在人工智能生成图片的版权归属问题上存在很多争论,法律实践中也存在不同的判例。比如,2022年,美国的一个作者运用AI技术生成了一幅作品,之后他到美国版权局申请这张作品的版权,美国版权局最终拒绝了他的申请,理由是“这幅图片不是人类创作的产物”。2023年11月,北京互联网法院作出了国内第一个和AI相关的案件判决,判决结果是支持AI生成图片的作者享有图片的版权,理由是作品“基于原告的智力投入直接产生,且体现出了原告的个性化表达”。
在AIGC平台如何履行监管职责的问题上,全球范围内也有不少典型的案例。Midjourney平台不久前把1.6万名艺术家作品用来训练,并将训练成的图像生成器对外开放,创作者可以创作与这些艺术家风格相似的作品。一位在上述名单内的英国摄影师在平台上用自己的作品为基础生成了风格相似的作品,从肉眼来看已经基本看不出区别。这名摄影师理解技术的发展对现实创作的冲击,他认为平台应该履行相应的职责,在取得经济收入的同时应该给原始的创作者分一定比例的收入。
在模型训练数据的合规性问题上,全球范围内也发生了很多经典案例。比如,2023年年初,Getty Images图片社起诉了Stability AI公司未经过Getty Images授权,学习了Getty Images的1200万张作品并能够生成近似的内容;2023年12月,《纽约时报》也起诉Open AI和微软公司,未经《纽约时报》的同意,被告两家公司就把《纽约时报》的数据用于大模型的训练,等等。
张宗堂说,从全球范围来看,运用大模型训练的数据来源可以分为三大类。第一类是已经进入公权的作品,即已经过了保护期,不受著作权法的约束,这类数据可以自由使用。第二类是通过正规的法律授权,和版权所有人、著作权所有人已经达成了共识,可以在法律范围内许可使用。第三类是未获得授权的作品,比如利用网络爬虫技术或者非法的手段盗取的数据,“第三种情况在AIGC初期发展中广泛存在,现在仍是比较重要的获取数据的来源渠道。”
通过对日本、欧盟、英国、美国等国家关于数据来源法律法规方面的研究,视觉中国方面分析认为,目前大部分国家对使用数据集进行AI训练持审慎态度,总体的态度还是希望能够用比较规范化的数据来源进行大模型训练。我国在2023年8月份出台的《生成式人工智能服务管理办法》明确指出,“用于训练的数据集要确保其来源的合法,并且不得包含任何侵犯他人知识产权的内容”。
“一些大模型领域的玩家,在‘不合规’的情况下‘裸奔’了几年之后,逐渐认识到创建版权合规大模型的重要性。”张宗堂说,在AI大模型的这波浪潮里,视觉中国最核心的优势就是优质合规的海量数据资源,且这些数据均通过安全审核,符合中国的主流价值观。视觉中国成立20多年,和全球近300家机构、超过60万签约摄影师建立了稳固的合作关系,在2016年收购了微软创始人比尔·盖茨创办的高端图片库Corbis全部资产,2018年收购加拿大的全球摄影师社区500px(该平台服务超过全球195个国家和地区的超3100万注册会员),2023年控股了国内领先的音视频交易平台光厂创意(Vjshi.com)。目前,视觉中国聚合超过5.3亿优质图片、视频、音乐等内容,其中包括80万小时的视频素材。
据介绍,视觉中国已经在国家网信办备案了3套大模型算法,其中“视觉中国图像合成算法”是以服务技术支持者身份申报的,能够支持企业级用户对视觉类图像资源进行二次加工和再创作,为用户提供AI时代降本增效的技术支持。目前,正在与华为云合作,以盘古大模型为基础打造视觉大模型,同时与国内外合作伙伴打造个性化行业大模型,以及利用开源大模型技术和自身数据资源自主研发行业大模型。