【新视野】AI契约论⑥:一方水土养一方AI?数据合规对人工智能训练意味着什么
南方财经全媒体 吴立洋 郑雪 实习生阳飘飘 上海、北京报道
编者按:
(资料图片仅供参考)
在2023年过去的几个月里,各大公司抢滩大模型、GPT商用化探索、算力基础设施看涨……如同15世纪开启的大航海时代,人类交往、贸易、财富有了爆炸性增长,空间革命席卷全球。变革同时,也带来了秩序的挑战,数据泄露、个人隐私风险、著作权侵权、虚假信息......此外,AI带来的后人类主义危机已然摆在桌面,人们该以何种姿态迎接人机混杂带来的迷思?
此刻,寻求AI治理的共识、重塑新秩序成了各国共同面对的课题。南财合规科技研究院将推出AI契约论系列报道,从中外监管模式、主体责任分配、语料库数据合规、AI伦理、产业发展等维度,进行剖析,以期为AI治理方案提供一些思路,保障负责任的创新。
随着AI产业的快速发展,被用于训练的数据集规模亦呈指数级上升趋势,人类在漫长历史中积累的经验与文化正快速被人工智能这一新兴智能形态所汲取,岁月的积累成为培养未来科技的基底,知识的璀璨星光同时照亮了文明的过去、现在与未来。
随着越来越多的数据被AI所学习乃至理解,人们欣喜地看到,人工智能的智慧与能力正发生翻天覆地的变化,这种进化速度远超已知的任何一种自然或人类造物,但同样也带来了社会对未知的隐忧。
难以完全确认的是,在人工标识和清洗那些被AI所汲取的数据和文本时,那些同样根植于历史的系统性恶意与偏见能够被抹去。人们不可避免地发问,当似乎有着无限潜能的AI在仰望亘古以来的知识星空时,是否应同时对其教化以人类社会的精神和道德法则。
善意、德行与律法,当从AI生成与成长的源头追溯是什么塑造了人工智能的形态,似乎仍需回到由人类所生产与处理的数据本身,而如何在数据的构建和使用中建立规则,同样蕴含着我们与AI这一内容、工具抑或是伙伴真正的相处模式,以及互相影响的未来。
在数据的合规标准中,个人隐私与版权是当前已具备一定实践标准的监管领域,但面对AIGC庞大的数据需求量和生产的“黑箱化”,隐私与版权合规在人工智能爆发期仍面临很多难以完全依据过往经验解决的新问题。
数据的源头
根据自第一代发布的GPT训练数据库至GPT-3的数据库总量,有观点推测,ChatGPT的基础GPT-4模型使用的训练数据量已超过10TB,1.8万亿参数。
(表1:历代CPT数据库构成及大小
数据来源:CPT论文、Alan D. Thompson)
如表1所示,在对第一代GPT模型进行训练时,OpenAI仅使用了4.6GB的书籍数据,随着版本的更新迭代,维基百科、期刊、Reddit链接、Common Crawl等其他数据被逐渐加入到训练数据中。
选择书籍作为数据库基础的原因也并不难理解——作为一种精炼且结构化的内容,书籍文本所具备的信息量和逻辑性高,非常适合人工智能进行学习。
“除数据规模外,决定数据集对模型训练效果的因素还包括数据的准确度和数据分布。”绿盟科技(300369)天枢实验室主任顾杜鹃在接受南方财经全媒体记者采访时表示,数据集在收集阶段会集合大量冗余数据、缺失数据和有毒数据,需要贴合目标任务对数据进行选择和预处理;而数据集合中不同类型的数据分布(例如正常/不正常数据的黑样本与白样本比例)同样会影响模型训练的效果。
除数据质量外,从当前各公司大模型研发实践来看,可得性亦是其构建训练数据集时需要重点考虑的因素。今年4月,作为GPT模型训练数据的重要来源之一,拥有5000多万DAU、3.66亿帖子数量的社交新闻站点Reddit宣布将针对AI大模型训练,对其企业级API收费,这无疑将抬高数据的获得门槛。
多位业内人士在与记者交流时指出,以数据质量和可得性为主要衡量维度,当前AIGC厂商的数据来源大致可分为三个面向:
其一是各个厂商历史积累的数据,数据的具体类型和质量取决于厂商的主营业务情况;其二是公开渠道爬取的数据,受限于当前各类反爬取技术和规则,此类数据获取将愈加困难;其三则是各类免费或付费的第三方数据库与数据集,例如GPT数据来源中全球最大的免费网页数据库Common Crawl,各类高校,以及企业科研机构所搜集和处理的开源数据集如WikiQA(微软研究院发布)、EXEQ-300K(北京大学、宾夕法尼亚大学、中山大学发布)、ArxivPapers(Facebook、伦敦大学学院、DeepMind发布)等。
不同数据来源的特征与实际应用需求间的耦合性,则形成了开发者不同的数据集构建策略,而合规,则是其中重要的原则之一。
顾杜鹃指出,开发者在制定数据收集策略时,需综合衡量在数据收集上的预算限制、数据质量、数据合规性以及数据源可靠性,对比各收费和免费数据源是否具备多样性、准确性、合法合规性等,结合开发目标,最终决定AI开发项目的数据源构成。
隐私保护与版权
在数据成为企业重要竞争力的今天,摆在企业面前的,除了回答如何获取数据的问题之外,最为直接的问题是,如何确保来源繁杂且格式不一的AI训练数据在个人隐私与版权层面的合规。
国内大模型方面,百度、阿里、科大讯飞(002230)等积累了丰富数据资源的企业纷纷加入大模型之战。其中,隐私数据成为数据治理和使用中不可逾越的红线。
一位不愿具名的算法工程师对记者介绍称,近些年来,企业对于隐私数据进行专门治理,公司内部所积累的相关数据很难接触,相关数据需要经过脱敏等措施才可使用。“从技术上来说,不会故意使用相关数据;如果发现相关漏洞,第一选择一定是堵上漏洞,现在谁都不敢去踩红线。”
大模型自身“大力出奇迹”的暴力美学,拥有的数据越多、质量越高,大模型的能力也就愈加强大。如上文所言,除企业本身所积累的数据之外,公开数据、开源数据集等也构成大模型数据来源的一部分。
某互联网大厂人工智能架构师对记者表示,“对于大模型来说,数据集的范围肯定是越多越好,覆盖的领域越广越好。开源的数据集的使用则会根据哪部分数据的适用途径进行匹配。”
但其中,随着数据来源的扩大,如何解决人工智能模型训练数据中的可版权性问题,成为关注的焦点。即便是号称“开源”的各类数据库,也并非意味着完全不存在版权层面的合规问题,当前各类开源平台往往以开放数据共享、社区数据许可协议等协议方式规范相关内容的署名权、继承权、盈利权、演绎权等权益。
具体到开发层面,我国的AIGC领域的版权规制亦存在争议。上海大邦律师事务所高级合伙人游云庭在接受记者采访时表示,根据相关法律,利用数据训练人工智能实际上存在“先上车再买票”的问题:“我国著作权法并没有规定合理使用的相关情况。线上线下(300959)的声音文字图片,如果有独创性,是个人创作的,就构成受著作权法保护的作品,未经著作权人许可进行使用,涉嫌侵权。”
值得关注的是,传统的“授权许可模式”对于大模型的数据训练存在天然困境,不仅在于实操层面难以落地,更在于对产业研发的长期影响。业界有观点认为,需将数据纳入合理使用的范畴进行规制。
可以看到,日本、英国、欧盟等已对将数据挖掘作为合理使用的情形进行了立法确认:日本以“计算机信息分析”的名义规定了文本数据挖掘的著作权例外,英国同样引入文本和数据挖掘的版权许可或例外情况,欧盟则选择“非科研目的”例外的谨慎方案……这些监管举措的背后,则是各国对AIGC规制路径的探索。
规则实践
梳理近期不同国家和地区对AIGC的立法不难发现,基于不同的法律体系和产业发展愿景,不同国家选取的实践路径亦各有侧重。
以近期刚刚在欧洲议会通过《人工智能法案》谈判授权草案的欧盟为例,这部于2021年正式成为欧盟委员会提案的法案中规定,人工智能大模型的创建者需要在人工智能使用之前进行评估并减轻各种风险。相关公司必须公开训练人工智能使用的数据,以确保其使用受版权法保护的数据训练。
而随着立法期间ChatGPT的横空出世,欧洲立法者很快对法案增添了修正案,扩大了AI开发者的禁止行为清单,其中包括“禁止从社交媒体或监控摄像头中抓取生物特征数据以创建面部识别数据库(侵犯人权和隐私权)”。
在立法层面的法律法规不断推进的同时,司法层面的案例亦开始涌现,今年1月,三名艺术家联合对Stability Al、DeviantArt和Midjourney发起集体诉讼,指控其训练数据侵害了艺术家版权。
作为全球首例知名的AIGC商业化应用领域,算法模型及训练数据版权侵权案,原告认为Stable Diffusion等AI模型“将无数受版权保护的图像存储和合并为训练图像后……生成完全基于训练图像的‘新’图像”,从而获得商业利润,挤占了原作品的交易市场。
虽然Stable Diffusion案距尘埃落定无疑还将面临长久的诉讼过程,但在部分国家,为AI产业大开绿灯已成为重要的政策指引方向。
近日,日本最高教育行政长官、文部科学大臣在会议上重申,日本政府不会对人工智能训练过程中使用的数据实施版权保护。上海大邦律游云庭告诉南方财经全媒体记者,根据日本著作权法第30条第4款规定,如果不以欣赏作品中表达的思想或情感为目的,且没有不合理地损害著作人权益的,可以合理使用他人享有著作权的作品。
“考虑到立法已经先行,虽然会有动漫,影视制作的利益群体的游说,个人认为这个事情法律上的争议还是会比较小。”游云庭表示。
“整体来看,各国都在基于自身人工智能产业发展的不同定位和战略诉求,设计和实现自身的治理框架和治理主张,并引入与之匹配的治理机制。”
北京师范大学法学院博士生导师、中国互联网协会研究中心副主任吴沈括指出,以欧盟为例,基于其强调数字主权的立场,其更倾向于从数据治理角度强化与AI相关的数据流转利用规则,日本则表现出以产业数据促进流转利用的治理思路。“我国强调的是一种以风险为导向的综合治理思路。”他进一步表示。
某种程度上,隐私与版权仍是沿用人类已有的法律体系对AI利用生产资料的方式加以监督,而如何保证AI这一新兴事物的“思考”与“输出”符合人类的伦理和道德,却是一项几无先例可循的监管实践。在本专题的下一篇,我们将进一步探讨如何由从数据角度对AI生成与训练加以梳理和监管,以打造真正“向善”的下一代人工智能。
标签:
推荐文章
- 【新视野】AI契约论⑥:一方水土养一方AI?数据合规对人工智能训练意味着什么
- 2023年兰州高考限行最新通知:如何报备_方法一览-天天新消息
- 天天视点!蒂姆库克在备受期待的主题演讲之前称 WWDC 23 为我们有史以来最好的
- 电热毯怎么使用才健康_电热毯怎么使用 世界球精选
- 中国排名CNN2023世界美食榜第二 标志性美食:“糖醋里脊”
- 2023年6月6日云南省绿豆芽批发价格行情
- 富贵包常用的中医治疗方法
- 马上金融逾期51天后提前还款会上征信吗-天天观天下
- 南昌中考新规:生物地理C等以上才可报普高 取消民办学校自主招生
- 今日热议:“绣美古徵”澄城刺绣精品展开展
- 当前动态:信用修复助企业轻装上阵
- 董卿挚爱,余华难忘,这个男人到底有什么魅力?|世界新视野
- 东方白鹳现身、黑脸琵鹭“扫鱼”……东莞加速打造生态之都、绿色之城
- 美股三大股指集体上涨 苹果WWDC前股价创历史新高_全球短讯
- 环球短讯!双琪夺面百度百科_双琪夺面
- 思维列控:公司主营产品应用到的机器视觉技术包括机器学习、深度学习、图像识别与处理、3D点云处理等|焦点滚动
- 新资讯:9月05日更新消息 上期所:9月6日晚夜盘起调整镍期货品种相关合约交易手续费
- 【天天播资讯】指责蒙古足协舞弊、欺诈,乌兰巴托市足球俱乐宣布停止运营
- 吉姆尼自驾游(吉姆雷诺)_环球关注
- 做主播怎么才能招人气呢_做主播怎么才能招人气|环球关注
- 环球热头条丨安徽省建设银行总行地址
- @考生家长,快收藏华西专家发布的“考试饮食宝典”!
- 东田微:第三大股东网存科技拟减持不超3%公司股份
- 天天微动态丨极氪汽车5月交付量8678辆 同比增长100%
- “减塑捡塑” 助力乐山“无废城市”建设
- 5号信封的尺寸(5号信封尺寸标准)
- 《剧院魅影》中文版交出“现象级”成绩单,票房超过4850万元
- 你好 超混电驱奇骏 合肥上市发布会暨试驾体验_世界新动态
- 当前速读:江苏宿迁:高考将至 民警检查考点及周边安全情况
- 义乌中考时间2023年具体时间 2023中考详细时间|今日热文
- 向全球人才释放“锡”引力-当前资讯
- 进考场前先过智能安检门 这份高考赴考指南请收好
- 德约科维奇:纳达尔对我们的比赛非常重要,无论是场上还是场下|视点
- 车险中华保险好不好?靠谱吗?
- 体育领域专家学者在穗呼吁重视青少年体育教育
- 增发32万亿!担心通胀?现在最大风险是通缩,钱都跑去哪了?-聚焦
- 沙特首所正式挂牌的孔子学院投入运转 天天快资讯
- 世界快看:没有赛车的命却有赛车的“病” 半幅式方向盘或取消
- 全球速看:长痘、流鼻血、反复口腔溃疡?用我自创的这个方子准没错!
- 小K播早报|工信部:全面推进6G技术研发 科创50ETF期权今日上市
- 公募REITs扩募迈出关键一步 首批4单项目合计募资超50亿元_独家
- 当前热点-乘客遗落73万元 “的哥”拾金不昧
- 特斯拉限时福利快领:7千元优惠券+3年免费超充
- 平板如何连接电脑摄像头_平板如何连接电脑
- 焦点短讯!苹果手机软件下载如何充值_苹果手机软件下载
- 守护猫娘绯鞠无修版下载_守护猫娘绯鞠无修版
- 环球聚焦:马谡失街亭的原因是_马谡失街亭的原因
- 恢复模式怎么刷机(恢复模式)-当前报道
- 这质感!官方大图近距离看神十五返回舱 天天聚看点
- 科轩动力控股(00476)拟出售重庆中铜新能源100%股权
- 环球热讯:最新!唐山这24个老旧小区要改造!还有……
- 天天速讯:中也图片(中也)
- 当前关注:外太空来信“拉索”收到
- 当前最新:近期炎热程度堪比盛夏,广西多地最高气温打破历史纪录
- 天天热门:360浏览器浏览模式(把浏览器浏览模式改为兼容模式)
- 重大隐患!停产整顿,罚134万元!
- 温柔的背后电视剧_温柔的背后3|天天简讯
- 环球信息:2023吉林各市中考总分多少 吉林各市中考科目及各科分数
- 霍启刚堂弟霍启文新恋情曝光,女方身价不输郭晶晶,合影超甜蜜
- 千层干豆腐贴怎么做好吃? 播报
- 大阳摩托车踏板125_大阳摩托车
- 燕京理工学院学费为什么这么贵_燕京理工学院学费_焦点热门
- 天天实时:每体:托雷今夏将随巴萨一队去日本踢友谊赛,之后再决定未来
- 涉嫌严重违纪违法的处理结果如何 涉嫌严重违纪违法的处理结果
- 【速看料】朝阳政府_关于朝阳政府的介绍
- 环球今热点:audiosrv dll
- 手机微信怎么清理缓存(微信怎么清理缓存)
- 枕下乙状窦后入路听神经瘤切除术_关于枕下乙状窦后入路听神经瘤切除术概略-世界视点
- 焦点消息!泰迪狗粮排行榜最新_泰迪狗粮排行
- 每日资讯:燕尔是什么意思啊金排榜_燕尔是什么意思
- 【科普】贵州省公共机构生活垃圾分类宣传片(案例)|天天快资讯
- 《第七史诗》属性克制关系属性克制机制介绍
- 当前滚动:米体:派拉蒙+下赛季为国米球衣后背广告赞助商,赞助费1000万欧
- 京东安联保险送礼大凉山孩子_世界热门
- 克力架vs路飞_克力架
- 杨子鳄的资料简介_杨子鳄
- 2023吉林大学专业排名,考古学、化学8个专业A++,25个专业A+
- 二位五通电磁阀原理图解(二位五通电磁阀原理图)
- 每日讯息!千禾味业:对海天风波不做评论,今年公司零添加产品占比会在5成以上
- 斗罗大陆5重生唐三漫画下拉式六漫画 斗罗大陆之唐三下凡
- 叮咚买菜美股涨10.82%
- 一线互联网企业有哪些_互联网企业有哪些
- 全球时讯:印媒:印度奥里萨邦列车相撞事故已致207人死亡
- 赫内斯:曾告知萨利谨慎出售莱万 新中锋?穆阿尼&奥斯梅恩都很棒_全球通讯
- 控股股东筹划控制权变更 ST南卫6月5日起继续停牌 每日关注
- 天天热点评!黑色四叶草第111话:命运魔法PK梦魔法,半恶魔阿斯塔不敌戈休!
- 环球新消息丨永泰县东洋中心小学禁毒志愿服务队_关于永泰县东洋中心小学禁毒志愿服务队简述
- 06月02日山东齐鲁石化丙烯腈为8500元
- 【用心谋发展 全力拼经济】和龙:全力推动项目建设提质增效 为高质量发展增添新动能|信息
- 圣墟中妖妖是谁_圣墟妖妖爷爷什么段位
- 2023年5月新能源汽车销量排行-天天新资讯
- 龙虎榜 | 创新医疗今日涨4.33% 机构合计净买入5324.41万元|热闻
- 环球新消息丨记者怎么写好新闻稿_怎么写好新闻稿
- 专访|诗人周瓒:“我乐于穿上诗人这件身份外套”
X 关闭
资讯
X 关闭