Google Cloud 架构完善框架:金融服务行业视角中的本文档概述了相关原则和建议,可帮助您优化 Google Cloud中金融服务行业 (FSI) 工作负载的性能。本文档中的建议与架构完善框架的性能优化支柱相符。
在金融服务领域,优化效果由来已久。它帮助 FSI 组织克服了技术挑战,并且几乎总是能够促成或加速新业务模式的创建。例如,自动取款机(1967 年推出)可自动完成现金发放流程,并帮助银行降低了核心业务的成本。绕过操作系统内核并将应用线程固定到计算核心等技术有助于实现交易应用的确定性和低延迟。延迟的缩短有助于提高金融市场的流动性,并使流动性更加稳定,点差更小。
云技术为性能优化创造了新的机会。它还对一些历史上被接受的优化模式提出了挑战。具体而言,在云端,以下权衡取舍更加透明且可控:
- 上市期与费用。
- 系统级端到端性能与节点级性能。
- 人才可用性与技术相关决策的敏捷性。
例如,在云中,根据特定技能要求调整硬件和 IT 资源是一项简单的任务。为了支持 GPU 编程,您可以轻松创建基于 GPU 的虚拟机。您可以扩缩云中的容量,以应对需求高峰,而无需过度预配资源。此功能有助于确保您的工作负载能够处理高峰负载,例如在非农就业数据发布日以及交易量远高于历史水平时。您无需花费大量精力编写服务器级的高度优化代码(例如 C 语言中的高度精细调整的代码),也无需为传统的高性能计算 (HPC) 环境编写代码,只需使用精心设计的基于 Kubernetes 的分布式系统,即可实现最佳的横向扩缩。
本文档中的性能优化建议与以下核心原则相对应:
将技术性能指标与关键业务指标保持一致
您可以通过多种方式将效果优化与业务价值成果相关联。例如,在买方研究部门,业务目标可能是优化每研究小时的产出,或者优先考虑具有良好过往记录的团队的实验,例如具有较高 Sharpe 比率的团队。在销售方面,您可以使用分析来跟踪客户兴趣,并相应地优先考虑对最有趣的研究提供支持的 AI 模型的吞吐量。
将效果目标与业务关键绩效指标 (KPI) 相关联,对于为提升效果提供资金支持也至关重要。业务创新和转型计划(有时称为“改变银行”计划)的预算各不相同,与日常业务 (BAU) 或“运营银行”运营相比,它们对资源的访问权限可能有所不同。例如, Google Cloud 帮助一家 G-SIFI 的风险管理和技术团队与前台量化分析师合作,开发出一种解决方案,可在几分钟内(而不是几小时或几天)执行风险分析计算(例如 XVA)。此解决方案帮助该组织满足了相关的合规性要求。此外,交易员还可以与客户进行更优质的对话,从而有可能提供更小的点差、更稳定的流动性和更具成本效益的对冲。
将效果指标与业务指标保持一致时,请考虑以下建议:
- 将每项技术计划与相关的业务目标和主要成果 (OKR) 相关联,例如更高效或更全面地提高收入或利润、降低成本和降低风险。
- 专注于在系统级优化性能。不要只关注传统的“变革银行”与“运营银行”分离以及前台与后台孤岛。
在不牺牲性能的前提下优先处理安全性问题,避免因未经证实的风险而牺牲性能
FSI 组织中的安全性和法规遵从性必须达到明确的高标准。保持高标准对于避免失去客户以及防止组织品牌遭受无法弥补的损害至关重要。通常,最高价值是通过生成式 AI 等技术创新和 Spanner 等独特的托管式服务实现的。 不要因为对操作风险过高或监管合规性不足存在普遍的误解,而自动舍弃此类技术方案。
Google Cloud 与 G-SIFI 密切合作,确保基于 AI 的反洗钱 (AML) 方法可用于机构为客户提供服务的各个司法管辖区。例如,HSBC显著提升了其金融犯罪 (Fincrime) 部门的绩效,取得了以下成果:
- 确认可疑活动的数量比原来增加了近 2-4 倍。
- 由于消除了超过 60% 的假正例,并将调查时间集中在高风险、可采取行动的提醒上,因此降低了运营成本。
- 可审核且可解释的输出,为遵从法规提供支持。
请考虑以下建议:
- 确认您打算使用的产品有助于满足您开展业务的司法管辖区的安全性、恢复能力和合规性要求。为实现此目标,请与 Google Cloud客户支持团队、风险团队和产品团队合作。
- 利用 AI 可解释性(例如 Shapley 值归因)创建更强大的模型并提高客户透明度。 Shapley 值归因等技术可以将模型决策归因于输入级别的特定特征。
通过使用来源引用、接地和检索增强生成 (RAG) 等技术,实现生成式 AI 工作负载的透明度。
如果可解释性不够,请在价值流中分离出决策步骤,并仅使用 AI 自动执行非决策步骤。在某些情况下,由于监管方面的考虑(例如,《GDPR》第 22 条),可解释的 AI 可能不够充分,或者某个流程可能需要人工干预。在这种情况下,请在单个控制面板中显示人工客服代理做出决策所需的所有信息,但要自动执行数据收集、提取、处理和总结任务。
重新思考您的架构,以适应新的机遇和要求
利用基于云的功能增强当前架构可以带来显著价值。为了取得更具变革性的成果,您需要采用云优先方法,定期重新思考您的架构。
请考虑以下建议,定期重新思考工作负载的架构,以进一步优化性能。
使用基于云的替代方案来取代本地 HPC 系统和调度程序
为了利用更高的弹性、更强的安全态势以及广泛的监控和治理功能,您可以在云端运行 HPC 工作负载,也可以将本地工作负载突发到云端。不过,对于某些数值建模使用情形(例如投资策略模拟或 XVA 建模),将 Kubernetes 与 Kueue 结合使用可能会提供更强大的解决方案。
切换到基于图表的模拟编程
在基于图的执行系统(例如 Dataflow)中,蒙特卡罗模拟的性能可能会好得多。例如,HSBC 使用 Dataflow 运行风险计算的速度比之前的方法快 16 倍。
运行基于云的交易平台和交易平台
与 Google Cloud 客户的对话表明,80/20 帕累托原则适用于市场和交易应用的效果要求。
- 超过 80% 的交易应用不需要极低的延迟时间。不过,他们可以从云的弹性、安全性和灵活性中获益匪浅。例如,外汇多交易商平台 BidFX 使用云服务快速推出新产品,并在不增加资源的情况下显著提高其可用性和覆盖面。
- 其余应用(不到 20%)需要低延迟(不到 1 毫秒)、确定性和消息传递公平性。按照惯例,这些系统在严格且昂贵的同地共存设施中运行。越来越多的此类应用正在云端进行平台重构,无论是作为边缘应用还是云优先应用。
打造面向未来的技术,满足当前和未来的业务需求
从历史上看,许多 FSI 组织都构建了专有技术来获得竞争优势。例如,在 21 世纪初,成功的投资银行和贸易公司都有自己的基础技术(例如发布-订阅系统和消息代理)实现。随着开源技术和云的不断发展,此类技术已成为商品,无法提供增量业务价值。
不妨考虑以下建议,让您的技术能够应对未来的变化。
采用数据即服务 (DaaS) 方法,缩短产品上市时间并提高成本透明度
FSI 组织通常通过有机增长与并购 (M&A) 相结合的方式发展壮大。因此,组织需要集成不同的技术。他们还需要管理重复的资源,例如数据供应商、数据许可和集成点。 Google Cloud 为在合并后集成中创造差异化价值提供了机会。
例如,您可以使用 BigQuery 共享等服务来构建可用于分析的数据即服务 (DaaS) 平台。该平台可以提供市场数据和来自替代来源的输入。这种方法无需构建冗余的数据流水线,让您可以专注于更有价值的计划。此外,合并或收购后的公司可以快速高效地合理化其合并后的数据许可和基础设施需求。合并后的企业无需费力调整和合并旧版数据资产和运营,而是可以专注于新的业务机会。
构建抽象层以隔离现有系统并适应新兴业务模式
银行的竞争优势越来越不在于核心银行系统,而在于客户体验层。不过,旧版银行系统通常使用以 Cobol 等语言开发的单体式应用,这些应用集成在整个银行价值链中。这种集成使得价值链的各个层难以分离,因此几乎不可能升级和实现此类系统的现代化。
解决此挑战的一种方法是使用隔离层,例如 API 管理系统或像 Spanner 这样的过渡层,该层可复制记录簿,并有助于通过高级分析和 AI 实现服务现代化。例如,Deutsche Bank 使用 Spanner 来隔离其旧版核心银行系统,并开启创新之旅。