中央政法委机关报法治日报社主办

您所在的位置:首页  > 文学副刊

“驯服”大模型:算法治理的新篇章

2022-11-23 23:37:00 来源:法治日报·法治周末

智道

栏目主持人:於兴中

□  朱悦

算法模型正在变得越来越庞大。单个模型包含几百亿、几千亿参数,训练一次需要耗费几百万元、甚至几千万元的,都已不是新鲜事。算法治理的老问题,因此添上了大模型治理的新篇章。

如果将大模型的开发、训练和后续部署应用视为一根产业链条,那么,诸如谷歌等头部企业,它们开发和训练的BERT等模型就是链条的上游。而部署和应用这些应用的普通用户就是下游。

比起以往的模型,大模型的开发和训练更加向上游头部企业集中。同时,其部署和应用对下游用户来说更加容易,此外还可能带来新的隐私、安全和生态环保风险。这些都是“驯服”大模型时需要应对的问题。

算法模型变得越来越大

大模型的“大”体现在很多个层面。一是训练所需的数据量大,二是模型的参数量大,三是使用的算力庞大。大模型因而可以实现更加通用的功能,方便了下游以简单的方式部署和应用模型。这些都和大模型带来的治理新问题有关。

训练所需的数据量大。曾经的模型训练哪怕需要“大数据”,通常也就是数万张图片或者百千万字的语料。大模型对于数据的需求则是又提高了若干个数量级。可能包括以亿计数的图片和数量更多的语料,数字还在不断增加。

这带来两个问题:一是普通的数据收集和标注模式很难满足要求,不可避免需要爬取、聚合、自动化地标注不同来源的数据。对数据合规来说是严峻的挑战。二是即使能够实现以亿计数据的合规,相应成本也会导致大型的数据集基本集中在少数头部企业手中。这是数据垄断问题的又一项体现。

模型的参数量大。如果是结构相对简明、只有少量参数的模型,通常还是有许多办法充分实现其透明性和可解释。然而,如果是千亿或者更多参数的模型,透明性和可解释一般只能从非常技术的角度去定义和探索。对于算法公平等问题的监测、审计和解决,在如此大的参数量上会是一个麻烦。

此外,特别大的模型有可能原原本本地“记住”训练数据,如果训练数据包含隐私或个人信息,这也有数据合规的问题。虽然有许多裁剪或者压缩大模型的努力,也取得了进展,能否由此实现透明、解释、公平、隐私等算法治理追求的目标,还是有待观察。

使用的算力庞大。为了有效学习、优化以亿计的训练数据和参数,大模型的训练已经超越了个人或者小企业的实现能力。或者说,所需算力不再是简单的几块显卡或者商用云服务就可以满足,而是需要专门设计的服务器甚至超算中心。每次训练都可以折算为几百万元、几千万元,还需要先进、复杂的工程方案。

这又带来了三个问题:一是和数据垄断相似,这样会带来“模型垄断”。只有能够支付这么多钱购买、建设算力,并且具备用好算力的能力的企业才能开发训练大模型;二是因为每次训练都很昂贵,模型的纠错不容易。从根本上改进模型的努力,包括从公平等角度改进模型的努力,实践中都需要和大额成本相平衡;三是算力密集同时意味着能源密集,造成了碳排放等许多环保问题。

庞大的数据、参数和算力结合,带来的是强大的通用功能。无论是相对熟悉的文本和图像生成,还是相对新兴的机器人和科学运算,大模型都能够整合地实现过去需要借助不同模型实现的许多任务,并且取得优秀的性能。

虽然数据、参数和算力的分布都很集中,训练好的大模型却能够以很方便的方式提供给下游用户使用。用户只需要调用接口,或者简单调优已经训练好的模型,甚至是通过一些简单的人机交互就可以发挥大模型的威力,从而生成流畅的文本、自然的图像以及实现更多的任务。

换句话说,大模型的发展导致上游变得更“重”,下游变得更“轻”。这既是效率的显著提升,又是权力的重新配置。算法治理的新篇章需要预防权力的失衡,以及相应的具体治理问题。

大模型的治理新篇章

从前述问题出发,算法治理的大模型篇章至少需要包含个人信息保护、反垄断和竞争和绿色环保三个小节。每一小节都需要在理论和实践方面有所突破。此外还有不断涌现的更多的新兴治理议题。

首先是个人信息保护。理论方面主要是解决是否将大模型认定为个人信息。迈克尔·维尔等三位学者最早注意到了这一点:如果大模型会原原本本记住个人信息,并且会以预期不到的方式披露这些信息,相应模型即应当认定为个人信息。后续延申出来的告知、用户权利和影响评估等义务都是需要进一步突破的问题。

实践方面主要是找到对于以亿计的训练数据的现实合规路径。这样的路径如果存在,也是建立在保护个体权益的数据交易市场和制度(特别是有关爬虫的制度)发展成熟的基础上,并且需要能够自动化、批量化地实现。

其次是反垄断和竞争。大模型的上下游都面临很多反垄断和反不正当竞争问题。对上游企业来说,无论是特定大模型本身可能构成一个相关市场,还是相应的数据、模型或者算力可能作为认定市场支配地位时的考虑因素,又或是这些数据、模型或者算力后续可能需要以公平、合理、无歧视的方式提供使用,等等,都是确实存在、但还未及充分应对的风险。

特定的大模型越成功、吸引越来越多的下游用户将其投入应用,则其风险越发现实。对通常没有能力自行开发、训练大模型的下游用户来说,虽然部署、应用大模型以满足其需要是很现实、也很有诱惑力的选择,但同时始终需要警惕其应用是否可能影响上游企业的权益。否则即有可能招来诉争。未知的权益边界处,机遇和风险总是并存。

再次是绿色环保。民法典总则编引入绿色原则以后,个人信息处理和其他许多涉及数据和算法的问题都需要经历绿色环保角度的审视。鉴于大模型造成的能耗量和排放量,其适用绿色原则和其他与生态环保相关的法律法规确属顺理成章。随着国内法院已经开始在“挖矿”合同等场景中开始适用绿色原则,未来将会形成更加体系的绿色原则裁判思路。

由此,大模型的开发者和应用者理应充分了解其能耗、碳排放、热排放和废弃物情况,并且尽可能从“有利于节约资源、保护生态环境”的角度来训练和部署模型。理论方面,大模型开发和应用历程中的绿色义务需要超越原则层面而进一步细化;实践方面,大模型的生态环保监测和优化,特别是模型算力的生态环保优化,是法律人和技术人正共同努力的方向。

这些远不是大模型治理的全部新章节。上游企业还面临更上游的、针对算法的出口管制,上游企业同时面临新的知识产权问题,以及应用大模型的下游用户引起了新型的内容治理风险,等等,都是正在发生、且不容小觑的新问题。随着大模型的不断发展和广泛应用,这一目录还可以开列得越来越长。

以上基于对大模型新特点的简述,概论了其造成的若干治理新挑战。大模型推动了数据、模型、算力和相应的权力向上游头部企业集中,也方便了先进的算法模型“普惠”下游用户。

与此同时,不仅是新兴治理风险因而出现,各类治理风险也显著地向头部企业聚集。随着权力与风险的重新配置,责任与义务不可避免地需要重新配置。

无论是个人信息保护,还是反垄断和其他治理问题,仔细观之,最终都归结为头部企业和下游用户间权责风险的再平衡。未来算法治理的大模型篇章既需要明确在这一根本问题上的价值取向,也需要体系化地思考和适用相关的各部门法律。

责编:戴蕾蕾

联系我们 | 诚聘英才 | 广告征订 | 本站公告 | 法律声明 | 报纸订阅

版权所有 Copyrights © 2014-2022 www.legalweekly.cn ALL RIGHTS Reserved 《法治周末》

京ICP备10019071号-1 京报出证字第0143号

京公网安备 11010502038778号