网易易盾9周年：在算法洪流中做那根定海针，历九弥坚

2025

09/23

16:50

当你点开手机、电脑、平板，在数字世界畅游，是否曾感觉到有危险在靠近？

上网冲浪正酣，在评论区、直播间可能遇到不良评论与图片；与AI助手聊天解闷，它也许会冒出一句价值观不正确的“雷人言语”；兴致勃勃地玩着游戏，却感觉每一次行动都被窥屏，甚至被外挂玩家抢占先机；门票、盲盒开售那一刻，掐点猛按却一秒失败，忍不住怀疑有人凭借黑科技抢先一步；这些不良行为与风险的背后，有一道我们看不到却又离不开的坚实防线——数字内容安全。

而筑牢这一战线的，正是一群站在幕后、默默守护的数字世界“守夜人”——网易易盾用AI为盾，日复一日地拦截风险、过滤恶意，从2016年至2025年坚持安全守护，正式迎来九周年。

九年一剑磨炼四大核心能力

近二十余年，我国互联网行业进入高速发展时期，时代日新月异，市场瞬息万变。网易公司也经历了邮箱、新闻、游戏、电商、音乐等多业务的成长，沉淀了庞大、丰富的数字内容场景。

作为网易公司的安全团队，网易易盾在经过长期的内部锤炼和技术钻研后，于2016年正式对外输出能力与服务，至今已沉淀四大业务，为面向数字化业务的客户提供数字内容风控服务，助力客户安全合规以保障健康、稳定的发展。四大业务分别是：

内容安全：提供文本/图像/音频/视频内容的实时检测服务，覆盖涉黄暴政/低俗/广告/价值观/涉未成年/电商广告法等合规检测，以及图像质量分析(清晰度/美观度等)、人脸分析(颜值/年龄/性别等)等内容分析，助力内容合规、内容质量提升

业务安全：提供业务安全防护服务，包含反外挂、营销反作弊、设备指纹识别、风险实时监测、行为式验证码、身份信息核验等核心功能，从风险防控、业务合规、用户体验、运营效率等维度，为客户提供覆盖账号、交易、营销、运营全场景的智能业务风控解决方案

应用安全：提供应用安全防护服务，从开发至上线运营的全生命周期，提供可靠、优质的安全加固及应用合规检测服务

安全专家服务：为企业提供算法备案/大模型备案、安全培训课程安全语料、舆情报告、蓝军报告等安全专家服务

九年来，网易易盾已累计服务超10,000家知名企业客户，成为游戏竞技、AIGC、广电传媒、金融、泛零售、娱乐社交等行业中众多大家熟知品牌或平台背后的安全力量。

九年来，网易易盾一直走在与黑灰产对抗的第一线。

游戏、泛零售甚至社交等多个行业，均有网络黑灰产屡屡作祟的困扰，例如游戏里的代充、打金，电商里的薅羊毛、评价刷单，网络社交中的杀猪盘等。网易易盾九年累计处理移动安全风险超2,400亿，每年打击团伙账号超5,000万，打击工作室设备数超1,000万，坚实地守护平台的经济利益、健康运营与用户的良好体验。

九年来，网易易盾也一直走在与不良信息对抗的第一线。

社交、游戏、广电传媒、泛零售等多个行业的各大在线平台，都有可能收到暴恐、色情等不良信息的侵扰，需要及时检测与处理。九年来，网易易盾累计检测数据量超50,000亿，相当于每秒处理一万多条信息，通过AI算法与人工协同，严守内容安全底线，确保用户免受不良信息的侵扰。

AI应用规范化，易盾领跑AI安全能力迭代

随着AIGC行业在近两年兴起，已有超100家企业引入网易易盾的安全能力，让AI用得更放心、更安心。2025年，人工智能的浪潮更加汹涌澎湃，大模型从实验室走向千行百业，与AI有关的政策与应用迎来密集更新。

8月，《国务院关于深入实施“人工智能+”行动的意见》印发，推动AI加速落地六大领域——科学技术、产业发展、消费提质、民生福祉、治理能力、全球合作。9月1日，《人工智能生成合成内容标识办法》正式实施，要求所有AI生成内容必须打上水印标识，防范AI造假风险。 9月15日，在刚刚结束的2025年国家网络安全宣传周主论坛上，《人工智能安全治理框架》2.0版正式发布，结合人工智能技术发展和应用实践，跟踪风险变化，完善优化风险分类，研究风险分级，动态调整更新防范治理措施。

网易易盾总经理朱浩齐在对外分享中曾提到，作为安全行业的从业者，网易易盾团队深刻感受到：技术越先进，安全风险越高。以往有害内容多是人为制造，形态有限；而AI技术可批量制造现实中不存在的、令人匪夷所思的内容，给识别和处理带来巨大挑战。因此，早在2023年初，网易易盾就已踏入AIGC内容风控的新战场，迅速推出AIGC内容安全服务解决方案，并在2025年结合行业实践、政策持续迭代，推出适应新情势下的升级能力：大模型安全治理方面，网易易盾通过打造业内首个“内生安全+围栏防护”双维防御体系，让安全能力融入AI血液。内生安全，让安全长于AI基因。从模型训练入手，对语料进行安全领域语料处理，杜绝暴力、偏见等“毒性知识”注入；加固安全质量，通过对抗样本攻击训练，提升模型抗诱导能力，阻断“越狱”指令；生成内容修正：实时矫正模型输出中的事实错误、价值观偏差，守好内容合规红线。

围栏防护，给AI应用穿上铠甲。贯穿产品上线与运营全程，产品上线时提供安全咨询与功能服务，如算法备案、智能验证、大模型备案、实名核验、安全标准制定、内容标识、投诉举报等；产品运营时确保内容合规，开展大模型横向评测、人工审核、安全问题代答等工作，同时构建安全生态，进行员工安全意识培训、舆情报告与接口防爬。二者结合全方位保障大模型内容安全。

此外，网易易盾还推出AI生成识别能力，采用 “显性标识识别 + 隐性标识识别” 双通道检测模式，覆盖图片、文档、点播音视频、点播音频等主流内容形态，实现从内容生成到传播的全链路合规管控，确保企业每一环操作都符合新政标准。

面向拥有多个大模型的企业，如手机厂商、国企等，网易易盾推出“大模型评测平台”，定期对大模型进行安全评测，生成详细的评测报告以及高效管理题库，帮助企业更好地管理和优化大模型的安全性能。

大模型赋能安全方面，网易易盾刚刚发布了CMA审核智能体（Content Moderation Agent），是继去年的安全大模型后，在智能审核领域又一里程碑式产品，破解人工审核成本高、效率低、精度不稳定的行业痛点。

以某交友平台为例，接入CMA后，全量审核用户资料、私聊文本，仅10%的存疑数据需人工二次确认，综合准确率达99.99%；某网文阅读网站用CMA审核文章评论，仅5%的数据需人工兜底，效率提升3倍的同时，成本降低了40%。当智能审核的效率不断提升，审核员终于能从 “疲劳战” 中解脱，专注于更有价值的风险研判；企业也能告别 “成本焦虑”，把资源投入到核心业务创新上。

探索与制定安全边界

“AI一天，人间一年”，AI技术发展日新月异，AI的许多使用方式在两三年前甚至未曾出现。因此，摆在行业面前共同的难题，并不是某一个点上有没有规则，而是整个AI合规治理体系也是“边走边建”，需要有对应的成熟监管路径和治理机制。

作为数字内容行业的参与、推动者，网易易盾及早识别到了这一核心，并积极应对，参与行业标准制定。

2025年，网易易盾参编国家标准《网络安全技术生成式人工智能服务安全基本要求》（GB/T 45654-2025），规范大模型从训练到部署的安全流程，为行业提供了安全治理框架指引，该项标准将于2025年11月1日正式实施。

网易易盾参与编写《向未成年人提供生成式人工智能服务安全指引》，聚焦未成年人AI内容防护，围绕生成式人工智能服务的训练数据、模型开发、场景应用、服务运营等全生命周期，提出覆盖内容安全、数据安全、个人信息保护等方面的系统性安全管理要求。

通过这些实践，网易易盾也正在推动数字内容安全行业的新兴领域——AI治理从“黑箱”走向清晰，助力行业明确安全边界，平衡创新与合规。

随着人工智能应用的不断深入，我们所接触的数字世界还在不断变化。迈向第十年，网易易盾除了持续坚守数字内容安全战线，不断精进能力，也始终坚信：安全不是简单的一刀切，而是去掉恶意、留存本真。我们守护的，不是应被隔绝的温室，而是一个多元、真实、有趣的数字世界。

THE END

广告、内容合作请点击这里寻求合作

免责声明：本文系转载，版权归原作者所有；旨在传递信息，不代表的观点和立场。

网易易盾9周年：在算法洪流中做那根定海针，历九弥坚

相关热点

最新文章

相关推荐

“特斯拉又割了我 7 万块”

用 eSIM 取代手机卡，究竟难在哪里？

这就是 iPhone 13 的“杀手级新功能”？网友：炒华为冷饭！

谷歌Pixel 6真机曝光：最美安卓屏幕没跑了！

iPhone 13机模曝光：值得等！

苹果计划在美国生产 Apple Car 电池

关注我们