
4 月 8 日下午,“腾讯云崩了”冲上热搜。腾讯云公告称,腾讯云官网控制台相关服务出现异常,崩了 74 分钟(15:31 - 16:45 ),波及全球 17 个区域与数十款服务,故障的地域范围广泛,覆盖了包括中国区、亚太地区、欧洲地区等全球多个地区,目前已经整体恢复。症状几乎和去年双十一阿里云史诗级大故障一样:CVM 虚拟机,RDS 数据库还可以正常运行,但是管控面,特别是和 Auth 有关的无一幸免,堪称阿里云故障翻版。

01.故障原因是什么?
由于故障涉及到多个机房和区域,不太可能是存储或网络等基础设施的问题,因为这些通常采用多可用区部署。
现象主要表现为:被管控的资源,如云服务器 ECS 和云数据库 RDS,仍然可以继续运行,但用户无法通过控制台或API 进行管理操作。因此极有可能是 Auth 这样的一种全球性的基础服务。以上分析仅为推测,并不代表确切的故障原因。并且在公有云服务领域,建立有效的 Status Page(服务健康状态页面)对于用户体验至关重要,各家本土云厂商也纷纷引入了这一功能。Status Page 在服务宕机的情况下扮演关键角色,它不仅能够有效减少客户的焦虑,降低沟通成本。服务出现故障时,及时、准确地更新状态页面可以让用户第一时间了解问题的发生,并获得相关的解决方案或预期的恢复时间,从而增强用户对服务的信任。但事实上,腾讯云与阿里云的 Status Page 反应都比较迟缓,在故障发生后三四十分钟才开始更新,而不是及时更新故障,或采用自动化方式监测到故障后立即推送。

02.Auth 服务的必要性
Auth 服务(认证服务)是一种用于身份认证和授权的基础服务,在现代应用程序和服务中的作用至关重要。它不仅仅是简单的身份认证工具,更是保障系统安全、用户数据隐私以及服务稳定性的基石。Auth 服务确保只有经过认证和授权的用户才能访问受保护的资源和功能。任何认证服务的故障都可能导致严重的后果,如数据丢失、服务不可用、用户体验下降等,一旦认证流程存在漏洞或被攻击,用户的账户信息和敏感数据可能会受到威胁,从而影响企业业务的稳定性和可靠性。因此,保障 Auth 服务的稳定性和可用性是企业和开发团队必须高度重视的任务之一。

03.如何加强企业 Auth 服务?
一站式解决集成、登录、管理难题Authing 将登录框做成组件的形式,并提供所有主流编程语言的 SDK ,开放 1000+ API,一站式聚合全场景身份体系,只需要五行代码快速完成嵌入。Authing 提供了跨平台的组件化方案,同时支持 Web、iOS 和 Android 端。企业一次登录认证即可访问互相信任的应用,快速解决集成、登录、管理等难题,为企业打造安全、高效的登录认证平台。

事件驱动的云原生身份平台
Authing 3.0 是以事件驱动(EDA)架构重塑的云原生身份平台,通过事件驱动架构大幅提升了平台的响应速度、可扩展性和开发者体验,有效支撑了流程运转的实时性、可靠性和可维护性,并能够保证工作流具备更佳的并发性和稳定性。事件驱动方式可以将事件与流程处理过程有效分离,从而实现灵活的任务调度和执行。
使用 Authing 的事件相关 SDK,开发者可以订阅 Authing 平台产生的事件,当事件发生时,Authing 服务会实时把事件的类型及当前事件关联的数据以 WebSocket 方式以 JSON 的数据格式主动推送给开发者。也可以在 Authing 控制台添加自定义事件,然后使用事件 SDK 向 Authing 服务推送自定义事件,用来触发特定的工作流程将事件内容以 JSON 格式进行推送。


构建存算分离的架构
随着企业业务的不断扩展和数字化转型的加速,数据存储量的增长速度远远超过了计算资源的增长速度。特别是在当今“数据即企业核心资产”的理念下,企业不仅需要存储当前业务产生的数据,还需要处理和保留大量的历史数据和冷数据,以应对未来可能的需求和法规要求。这种趋势导致了企业对数据存储的巨大需求,而计算资源的增长却相对缓慢。最后企业只好不断新增机器存储更多数据,但大量计算资源得不到充分利用造成了闲置与浪费。
在设计服务架构时,最大程度去兼容用户私有云、各类公有云的云环境。Authing 通过成熟 Kubernetes 容器化技术,使整套服务体系同时支持公共云、混合云和私有云部署,设计搭建存算分离、轻量级、可扩展、云中立大数据集群架构,并且达到分钟级别弹性扩容,最大可支持亿级别用户认证访问场景。
Authing 使用 Kubernetes 作为容器编排和管理平台,用于在跨多个主机和集群中自动化部署、运行、编排和管理容器化应用程序。同时在数据存储层面,选择通用标准的数据库、缓存、KMS、消息队列、日志等云服务,并在架构设计时,对各个云服务进行适配,从而达到灵活配置兼容各种云服务、多云部署、故障时能及时切换、系统云中立等目标。其架构如下图所示:


实时监控和持续验证
Authing 在公用云部署架构、私有化部署架构中都进行了考虑和设计,通过 Tracing、Metrics、Logging 的采集,进行事件管控,并及时将变更推送到客户端、服务端,从而启动相关策略的变化。可视化面板帮助客户持续、及时地了解到一线的系统可用性指标情况、认证链路追踪、系统性能指标变化等,从而做到“心知肚明”,“及时响应”。这不仅包括网络流量分析,也包括用户行为分析。用户行为分析是对系统内部用户活动的持续观察与分析,通过建立基准行为模型,系统能够检测出与正常行为明显不同的活动,从而识别潜在的风险。通过这种方式,可以实时检测并响应潜在的安全威胁。特别对于异常事件的感知,能够帮助企业在安全威胁尚未造成重大影响之前采取措施,为持续的验证和监控网络提供了坚实的安全基础,能够更好地适应动态的威胁环境,确保网络的可靠性和可靠性。


04.总结
最近 TOP 级厂商在 Auth 服务上接连“摔跟头”。作为企业安全体系的最基础门户服务,Auth 服务的稳定性直接关系到企业业务进行和数据安全问题。企业必须认识到 Auth 服务作为基础服务的核心地位,加强对其的重视和管理。选择可靠的 Auth 服务提供商、建立完善的监控和故障处理机制,以及持续优化系统架构,可以有效地降低认证服务故障对企业造成的影响,确保业务的安全和稳定运行。Authing 身份云是国内唯一以开发者为中心的全场景身份云产品,为企业和开发者提供高安全、高性能、高生产力的用户认证和访问管理服务,助力企业大幅提升企业身份治理效能。Authing 身份云目前已经服务包括可口可乐、招商银行、三星集团、复星集团、万科集团、海底捞、元气森林在内的 67000+ 企业和开发者。