汤律师您好，我是一家科技公司的法务，想咨询一个问题：我们公司最近打算开发一款基于AI大模型的智能客服产品，在训练模型时使用了大量从公开互联网上爬取的文本数据，包括一些用户在社交媒体、论坛上发布的评论和文章。请问这种做法可能会涉及哪些法律风险？我们需要采取哪些措施来规避这些风险？

Question

汤井保 · Accepted Answer

你好，针对你提出的AI大模型训练数据使用问题，结合《中华人民共和国著作权法》《数据安全法》《个人信息保护法》等相关法律法规，主要存在以下法律风险及应对建议：

一、核心法律风险
1. 著作权侵权风险：公开互联网上的文本数据若构成《著作权法》保护的作品（如具有独创性的评论、文章），未经著作权人许可擅自复制、改编用于模型训练，可能侵犯复制权、改编权等权利。需注意，即使内容免费公开，也不意味着放弃著作权。
2. 个人信息保护风险：若爬取的数据包含用户姓名、联系方式、社交账号等可识别个人身份的信息，可能涉及《个人信息保护法》下的个人信息处理。未经用户同意或未履行告知义务，可能构成违法处理个人信息。
3. 数据安全风险：若爬取数据规模较大或涉及敏感信息，需符合《数据安全法》关于数据分类分级保护、安全评估等要求，否则可能面临行政处罚。

二、规避措施建议
1. 数据来源合法性审查：优先选择已明确授权可商用的数据集（如CC0协议、商业授权数据库）；对公开数据，需确认是否存在“禁止爬虫”的robots协议或网站声明，避免爬取明确禁止的内容。
2. 著作权风险防范：对于受著作权保护的内容，可通过“合理使用”抗辩（需满足《著作权法》第二十四条规定的“为个人学习、研究或者欣赏”“为介绍、评论某一作品或者说明某一问题”等情形，且需指明作者姓名、作品名称）；若用于商业用途，建议与著作权人签订授权协议，或采用“去版权化”处理（如使用AI生成的无版权内容、对数据进行脱敏和变形处理）。
3. 个人信息保护措施：对包含个人信息的数据，应采取匿名化处理（如删除可识别身份的字段、对敏感信息进行加密）；若无法匿名化，需取得用户明确同意，并告知数据处理目的、方式和范围，符合“最小必要”原则。
4. 合规制度建设：建立数据合规审查流程，对训练数据进行事前合法性评估；定期开展数据安全风险评估，确保数据存储、传输过程符合《网络安全法》要求；保留数据来源和处理记录，以备监管部门核查。

三、行业实践参考
目前行业内常见做法包括：使用开源数据集并遵守开源协议；与数据服务提供商合作获取合法授权数据；通过技术手段过滤侵权内容（如使用版权检测工具）。此外，建议关注国家网信办等部门关于AI训练数据的最新监管政策，及时调整合规策略。

若需进一步分析具体数据来源或制定合规方案，可提供更详细的信息，以便针对性提出建议。

推荐咨询

{"content":"吴菁菁律师，我儿子2024年3月在学校和同学打架，把对方打成了轻微伤，但是对方家长报警了，现在警察说要追究我儿子的刑事责任，我儿子才16岁，这种情况会不会留下案底？请您辩护的话，能不能让他免于处罚？"}

我老公在一家建筑公司上班，上个月因为和工友发生争执，用钢管把对方打成了重伤，现在被警方逮捕了。我们家经济条件不太好，想请张瑞宏律师帮忙辩护，不知道费用大概是多少？有没有可能减轻处罚？

2024年3月我在我工作的建筑队上班时，因为和工友发生口角动手打人，把对方打成了重伤，现在我被警方立案侦查了。我家里人想找张瑞宏律师帮我辩护，请问他在故意伤害罪的辩护方面经验丰富吗？

汤井保

咨询动态

法律知识推荐