摘 要:本文聚焦军用人工智能企业在智能体系、感知认知、无人体系等业务中的大模型知识产权保护需求,结合相关研究成果,提炼企业面临的权利客体界定模糊、训练数据合规风险、算法保护困境三大核心困境。从确权、合规、技术辅助维度提出可落地的保护策略,针对模型架构、参数、训练数据、算法等不同业务场景的核心技术适配知识产权保护类型,通过全流程合规防控与技术手段赋能,为企业防范知识产权风险、巩固技术竞争优势提供实操参考。
关键词:军用人工智能大模型;知识产权保护;权利客体;训练数据合规;算法保护
近年来,军用人工智能大模型凭借千亿级参数规模、多模态数据处理能力与任务自适应特性,已成为智能体系、无人体系、云数智一体化等领域的核心技术底座[1]。企业在智能基础平台研发中优化的模型架构、感知认知场景下积累的训练数据、无人体系中适配的算法逻辑,均构成企业核心竞争力。然而,大模型的技术特殊性(如模型参数的非具象性、算法黑箱、训练数据的海量性)使其难以被传统知识产权体系完全覆盖——“抖音诉B612案”揭示了模型参数难以通过著作权保护的困境,谷歌Transformer模型专利在中国的驳回与复审波折则反映了算法类专利的审查难题[1];同时,训练数据侵权(如未经授权使用版权作品)、AIGC权属争议(如“春风送来了温柔”案与“幻之翼案”的裁判分歧)等问题频发,进一步加剧了企业知识产权风险[2]。国际头部企业已探索出适配大模型特性的保护模式:OpenAI侧重应用层专利(如多模态交互技术)与闭源核心参数,DeepSeek则通过底层技术专利(如集群资源管理、RDMA数据传输)+部分开源(基础模型权重)平衡创新与商业化,为国内企业提供了实践参考[3]。本文基于企业知识产权管理人员视角,结合大模型技术特性与业务场景,剖析核心保护困境,提出可落地策略,助力企业构建适配智能体系、感知认知、无人体系业务的知识产权保护体系。
一、人工智能大模型知识产权保护的困境
(一)权利客体界定模糊:模型架构、参数与AIGC确权困难
军用大模型核心组成(架构、参数、AIGC)与传统知识产权客体(“作品”“技术方案”)存在适配冲突,导致权利归属与确权受阻,主要体现在两方面。
一是模型架构与参数面临双重保护限制。模型架构虽可通过软件著作权以代码形式保护,但主流基础架构(如Transformer、ResNet)多为开源,企业若使用GPL等强传染性开源许可证,将限制后续商业化[1];专利保护层面,抽象架构(未结合具体场景)易因不符合《专利法》“技术方案”要求被驳回,谷歌Transformer模型曾因“未解决具体技术领域问题”受阻,虽经复审撤销,仍因说明书“不清楚、不完整”再次面临障碍[1]。模型参数作为权重数值,因“非人为设计性”(由训练自动生成)难以构成著作权客体,也无法通过专利保护,仅能依赖行业秘密,但需企业证明参数的“秘密性”与“价值性”,举证成本极高,如“抖音诉B612案”中,原告需证明36个卷积层中33个参数一致属抄袭[2]。
二是AIGC权属存在争议。企业在感知认知(如AI生成的场景识别图像)、无人体系(如AI设计的路径规划方案)中产生的AIGC,司法实践对其“可版权性”认定标准不统一:北京互联网法院在“春风送来了温柔”案中,认为原告通过调整提示词与参数体现“个性化智力投入”,认定AI图片可版权[2];张家港市人民法院在“幻之翼透明艺术椅”案中,因原告无法提供AI创作的完整流程记录,认定其未体现“独创性”,驳回权利主张[2]。从技术本质看,AIGC的“不可解释性”导致开发者无法完整追溯输出内容的生成路径,即便调整提示词与参数,最终输出仍依赖机器自主学习的特征提取逻辑,进一步加剧举证难度[4]。
(二)训练数据合规风险:采集、共享与使用全流程隐患
一是训练数据是感知认知、云数智一体化业务的核心输入,但其合规性在全流程存在隐患,尤其在数据共享场景中风险突出。一是数据来源侵权风险。企业通过爬取、盗版获取数据可能侵犯著作权或隐私,如纽约时报诉OpenAI案中,原告指控被告爬取文章训练GPT模型且生成内容“反刍”原文[5];使用生物特征数据(如人脸、语音)训练模型,可能违反《个人信息保护法》,如殷某某诉甲公司案中,被告未经许可使用他人声音训练AI,被判人格权侵权[5];使用开源数据集(如Common Crawl)时,若违规商业化,也会引发纠纷,如J.L诉Alphabet案中,原告指控谷歌将研究用途数据集用于商业[5]。
二是数据共享与使用衍生风险。行业联合训练、数据共享可能导致“二次侵权”与“模型逆向攻击”:共享数据若含未授权内容,企业使用时将间接侵犯原权利人权益[6];攻击者可通过共享数据反向推导模型参数,训练相似模型实现“实质性替代”[6]。同时,训练数据偏差可能导致算法歧视(如无人体系路径规划对特定场景误判),大模型的“记忆效应”可能逆向还原敏感数据,若未采取数据脱敏、差分隐私等技术,企业将面临监管处罚与民事赔偿[7]。
(三)算法保护困境:黑箱特性导致专利审查与侵权认定难
一是算法是无人体系(如避障逻辑)、智能基础平台(如推理优化)的核心,但“算法黑箱”使其难以通过专利保护,且侵权举证障碍显著。一是专利审查难。根据《人工智能相关发明专利申请指引(试行)》,仅涉及抽象数学优化的算法(如“优化损失函数加速训练收敛”),将被认定为“智力活动规则”,不构成专利客体[1];企业若仅申请“通用算法改进”专利(如无人体系的通用路径规划算法),因未结合硬件或场景易被驳回,需投入更多成本研发“算法+场景”结合的应用层专利,如百度通过“基于大模型的无人车导航方案”专利提升授权概率[8]。
二是侵权认定难。算法黑箱导致侵权行为与损害结果的因果关系难以证明:竞争对手抄袭核心算法时,企业需拆解对方模型的参数与逻辑,但大模型的千亿级参数规模与动态推理机制,使技术比对成本极高,如“抖音诉B612案”中,法院需比对双方模型的网络结构、卷积层数等10余项指标[2]。同时,算法的“不可解释性”导致企业难以清晰描述权利要求范围,进一步增加侵权判定难度[4]。
二、军用人工智能大模型知识产权保护策略
(一)确权策略:分层分类聚焦核心技术精准确权
确权策略需结合企业不同业务场景的技术特性,针对模型架构、参数、训练数据、算法等核心要素,选择适配的知识产权保护类型,实现技术保护的全面覆盖与精准落地。智能基础平台层面,针对自研优化的模型架构,比如适配云数智一体化的Transformer变体,优先申请软件著作权并规避强传染性开源许可证,可选择Apache、MIT协议,同时将架构与具体业务场景结合申请专利。参考DeepSeek在RDMA并行数据传输方法上的专利布局思路,明确架构在提升分布式存储IO效率等场景中的技术价值,避免因抽象架构申请导致的驳回风险。针对模型参数,以商业秘密保护为核心,技术层面采用端到端加密存储,按研发、测试、运维分级设置访问权限,核心参数仅开放给3~5名核心人员,同时嵌入白盒水印或黑盒水印为侵权举证提供技术支撑,白盒水印可通过参数矩阵标识实现,黑盒水印可设计为特定输入触发固定输出,制度层面留存参数生成的全流程记录,包括训练数据来源、超参数设置、迭代日志。
感知认知与无人体系层面,针对训练数据,采购授权数据时需签订《数据授权协议》,协议中明确数据可用于大模型训练及商业使用范围,爬取公开数据严格遵循robots协议以规避隐私与版权风险,对自有标注数据比如人工标注的感知目标,申请汇编作品著作权以体现数据选择与编排的独创性。针对核心算法,比如无人车避障逻辑,申请算法与硬件交互的应用层专利,明确算法与传感器、执行器的协同方式,对暂不适合专利保护的算法细节比如特征提取逻辑,采用代码加密与访问权限分级的技术秘密保护模式,核心算法仅允许少量核心工程师接触。针对AIGC,若其体现企业特有的技术逻辑,比如感知认知场景的场景识别报告、无人体系的路径规划方案,需留存创作过程的完整证据,包括提示词设计文档、参数调整日志及人工修改痕迹,提示词设计文档可围绕无人车夜间场景制定优化方案,参数调整日志需记录迭代10版参数后的效果对比,人工修改痕迹需体现对AIGC方案的技术修正过程,为权属主张奠定举证基础。
(二)合规管理策略:全流程前置防控风险
合规管理策略需覆盖训练数据采集、共享、使用及开源协议管理全流程,通过制度设计与技术手段前置规避风险,保障大模型研发与应用的合规性。数据采集环节,制定《训练数据采集规范》,规范中明确数据合法来源标准,要求授权数据提供完整的版权证明,爬取数据需符合robots协议且规避隐私数据与未授权版权内容。数据共享环节,建立数据合规审查清单,对外部共享数据比如行业联合训练数据集,要求提供来源授权证明与脱敏处理报告,内部共享数据采用联邦学习技术实现数据可用不可见,避免原始数据泄露。针对行业联合训练场景,通过差分隐私与数据脱敏技术处理共享数据,比如对人脸图像进行像素扰动,同时建立数据使用日志记录数据流向与使用范围,明确限制数据仅用于模型训练且不得二次分发,防范二次侵权与模型逆向攻击风险。
数据使用环节,对感知认知场景的敏感数据比如生物特征数据,进行去标识化、差分隐私处理,避免数据泄露与滥用,定期审计数据使用情况以确保符合授权范围。开源协议管理环节,智能基础平台开源时优先选择大模型专用协议,可选用RAIL-M协议、Llama3协议,规避GPL等强传染性协议对商业化的限制。建立开源组件审查清单,对引入的开源模型比如用于感知认知的开源图像识别模型,严格审查协议中商业使用、衍生作品条款。将开源协议纳入企业知识产权管理系统,定期核查协议条款与业务发展的匹配性,比如当用户规模达到Llama2协议7亿月活阈值时及时申请授权,同时要求社区贡献者签署CLA即贡献者许可协议,明确贡献代码的知识产权归属以避免后续纠纷。
(三)技术辅助策略:以技术赋能保护与维权效率提升
技术辅助策略需依托前沿技术手段,强化大模型知识产权的侵权监测、风险防控与维权支撑,提升保护的主动性与有效性。侵权监测层面,针对模型参数保护,部署参数窃取监测系统,对短时间内大量调用模型接口等异常访问行为触发警报,防范抽取式攻击。针对AIGC侵权追溯,在AIGC生成时嵌入隐形数字水印,比如隐形像素标记,结合区块链技术记录生成时间、提示词、参数设置等信息,确保侵权发生时可快速溯源。
军用模型与数据安全层面,针对模型逆向攻击防护,在训练过程中加入对抗样本比如篡改的感知图像,增强模型鲁棒性,对部署的模型参数采用端到端加密技术,仅允许授权设备解密运行以防止参数提取。针对数据安全,在感知认知数据训练中使用联邦学习技术实现数据可用不可见,避免直接获取原始数据引发的侵权风险,同时通过区块链技术记录训练数据的来源、授权信息,形成数据溯源链以应对合规审查。维权支撑层面,在模型研发初期嵌入模型指纹,可选择参数初始化种子值作为标识,侵权检测时通过对比模型指纹快速判定参数相似度。使用区块链存证平台记录模型架构设计、参数迭代、训练数据来源等关键信息,确保证据的不可篡改性,为维权举证提供坚实支撑。
三、结语
军用人工智能企业大模型知识产权保护需围绕权利客体确权、训练数据合规、算法保护三大痛点,结合业务场景构建分层策略:智能基础平台侧重模型架构与参数的“著作权+专利+企业秘密”保护,感知认知与无人体系聚焦训练数据“合规采集+共享防控”与算法“专利+技术秘密”组合,同时通过开源合规、技术辅助(水印、联邦学习)前置防控风险。未来,企业需动态调整策略,平衡技术创新与风险防控,通过精准确权、合规管理与技术赋能,巩固核心竞争力,推动大模型技术安全落地[9]。
参考文献
[1] 陈梦园. 大模型知识产权保护:从本质厘清到保护路径[J].合规社,2025(7).
[2] 王健. AI时代知识产权司法迎来新挑战[J].民主与法制,2025(25).
[3] 鹿艺,马天旗,赵军. 知识产权视角下DeepSeek与OpenAI的技术、产业策略对比分析[J].世界科技研究与发展,2025,47(2):166-173.
[4] 李岚馨. 机器学习算法模型知识产权保护问题研究[D].华东政法大学,2023.
[5] 生成式AI和AIGC知识产权诉讼争议点综述[J].合规社,2025(8).
[6] 范瑞龙,章恒,马鹏,等. 大模型数据共享中的安全风险评估与防范技术[J].计算机科学与技术(数字技术与应用),2025(4):195-197.
[7] 解永照. 人工智能大模型的法律风险与制度应对[J].齐鲁学刊,2025(4):100-110.
[8] 大模型企业出海法律实务报告:知识产权全球布局与保护之三[J].兰迪律所,2025(5).
[9] 缪拯民. 生成式人工智能知识产权保护的风险识别与应对[J].中国审判,2025(4).
(作者单位:杨绍岩,中国电子科技集团公司信息科学研究院;石雪,中电海康无锡科技有限公司)

