Copilot使用协议变更:AI时代开源代码何去何从?
近日,GitHub宣布更新Copilot隐私政策:从2026年4月24日起,将默认使用Copilot Free、Pro和Pro+用户的交互数据(包括输入提示、输出建议、代码片段及相关上下文)来训练和改进AI模型。除非用户主动在设置中opt-out(关闭“允许GitHub使用我的数据进行AI模型训练”选项),否则数据将被用于模型训练。Copilot Business和Enterprise企业用户则不受此次变更影响。
这一政策调整迅速引发开发者社区讨论,许多人担忧自己的代码交互数据在不知情下成为微软AI的“免费燃料”。以下转载一篇相关背景文章供参考:Copilot将使用交互数据来训练 - 姓王者的博客。
我的观点:AI训练应如何尊重开源许可证?
先下结论:在当前法律和许可证框架下,AI模型(如Copilot)在训练时可以较为自由地爬取和学习MIT、BSD等宽松许可证的项目,因为这些协议对使用、修改和衍生几乎无额外限制,仅需保留基本版权声明即可。
对于Apache 2.0许可证的项目,AI应至少在生成的代码注释中保留原始署名和来源提及,以尊重其“保留NOTICE文件和修改说明”的要求;对于GPL系列(强Copyleft协议),情况更复杂——如果训练导致生成实质性衍生代码,可能需要考虑开源义务,但实际执行难度大,更多依赖AI提供商的合规自律。
现实中,大多数开发者在复用开源代码时往往忽略完整标注,何况是AI模型?但正因为AI是规模化“学习”工具,我们更有理由从训练源头强化版权尊重机制。例如,通过提示工程或后处理,让AI在输出时自动添加来源注释。这不仅能减少潜在纠纷,还能培养整个生态的版权意识。
我自己的大部分项目采用BSD-2-Clause许可证(而非BSD-3),其高度包容性让我欢迎AI爬取和学习——BSD协议的海纳百川精神,本就鼓励广泛使用与创新。对于我使用Apache 2.0的项目,我的态度则更谨慎:AI至少应在注释中浅浅提及原始来源和许可证,这既是基本尊重,也能避免后期合规风险。
目前看来,现有的开源许可证(包括法律文件)对AI训练这一新场景准备不足。MIT/BSD等宽松协议在AI时代显得“过于友好”,而Apache和GPL则缺乏针对机器学习的明确条款。我认为,在不久的未来,各大开源基金会和社区很可能针对AI训练进行一次系统性更新,例如新增“AI训练授权”子条款、要求模型输出时强制保留归属信息,或引入“训练时脱敏+溯源”机制。
对Copilot政策的额外不满与对未来的思考
更让我不满的是:微软一方面使用(包括免费用户在内的)大量开发者交互数据来训练Copilot,提升模型能力;另一方面,Copilot免费额度和功能限制依然较为吝啬。这相当于让普通开发者在不知情或默认同意下成为“免费劳工”,却未获得对等的回报。这样的商业模式是否公平,值得开发者深思。
微软历史上确实多次“毁灭”过优秀产品——从诺基亚、Windows Phone,到如今的GitHub生态。但历史也告诉我们,技术变革往往伴随阵痛。未来尚未定型,我们不必一味悲观否定。开发者可以积极行动起来:
立即检查并opt-out Copilot数据训练设置。
在开源项目中明确添加“禁止用于AI训练”的声明(尽管法律效力待验证)。
支持更注重隐私和版权的替代AI编码工具。
参与开源许可证的更新讨论,推动社区制定AI友好规则。
开源精神的本质是共享与互惠,而非单向索取。希望GitHub和微软在追求AI进步的同时,能更多倾听开发者声音,让生态真正实现共赢。
评论