被抓包！字节跳动被曝秘密使用OpenAI API训练大模型！

发表于 2023-12-17

标记狮私有云部署

一键部署标记狮至私有服务器，构建快速，安全，高效，私密的UI设计团队云协作

字节跳动被曝秘密使用OpenAI API训练自家大模型3.jpg

字节跳动日前被爆出一直在秘密使用OpenAI的GPT API来训练自己代号为“Project Seed”的大语言模型,此举直接违反了OpenAI的使用条款。

按照OpenAI的使用条款,其API输出的模型不能被用于开发任何与OpenAI产品服务竞争的AI系统。但字节跳动几乎在模型的每个开发阶段,包括训练和评估,都依赖GPT API，经常达到访问/使用API的最大限制。同时,它还通过一定的数据脱敏方式,试图掩盖使用证据。

字节跳动被曝秘密使用OpenAI API训练自家大模型1.jpg

事件曝光后,OpenAI发言人迅速回应,确认已暂停字节跳动的相关账号。声明表示,所有API用户必须遵守使用政策,以确保技术用途正当。此事件正在调查,OpenAI已暂停字节跳动的账号。如果发现违规情况属实,将要求其纠正或终止账号。

字节跳动方面,发言人Jodi Seth声称,GPT生成数据只在早期用于模型训练,并在2019年中期删除。此外,字节跳动获得了微软的授权,可以通过GPT API支持非中国市场的产品,中国市场的产品使用自主开发模型。

相应地,微软发言人Frank Shaw发表声明予以否认,称并未对此做出授权，表示任何客户想使用微软AI服务,必须申请批准。微软还制定了标准,要求客户负责任地使用技术,并在发现违规时中止授权。

此事件也引发了人们对大语言模型安全的思考。大量语言模型之间相互训练构建新的模型,可能会导致错误信息传播被进一步放大。因为这些基础语言模型本身就是在非真实的人工数据上训练的,它们参与构建新的模型,可能会使最终模型与现实世界脱节,这是业内人士普遍担心的问题，最终可能导致我们对现实的判断偏离事实。

随着AI应用不断拓展,建立健全的伦理规范与监管机制刻不容缓。各方宜本着公开、透明的态度推动技术进步。