概念
聚合支付(云好付):是整合各第三方支付公司优势渠道服务的平台,为公司各项业务提供统一的金融相关基础服务,如银行卡签约、扣款、二维码支付、支付宝支付、微信支付、数字人民币支付、取现转账、信用卡还款等。
支付路由:根据各种规则筛选出符合业务需求的服务
如下所示:
版本迭代1.0
优势
短平快满足业务诉求,快速接入支付公司渠道,保证可用性
缺点
1、监控报警漏报率高,不能及时发现小流量通道故障。
2. 故障排查环节耗时较长,无法及时发现问题
3、故障恢复慢,发现问题后需要人工处理,无法保证实时性,费时费力。
版本 2.0
为了满足日益增长的业务需求,大量的支付渠道逐渐被接入,但第三方服务参差不齐,渠道稳定性问题日益显现。为了解决1.0版本的不足,提高渠道稳定性,建立完善的支付渠道自动化管理体系势在必行。
在路由层和通信层之间构建质量监控服务QOS
QOS架构图
数据收集与统计
数据采集指标分为系统指标和业务指标。
系统指标 响应时间(RT) 超时请求(OT) 请求量(RP) 业务指标 处理中的交易占比() 数据统计规则 响应时间(RT) 超时请求(OT) 具体错误码() 权重/报警计算
定期计算(配置的)时间范围内数据指标(RT,OT,)的占比。
时间间隔
获取权重数据后,判断是否在维度指标规则配置内。获取规则内的指标数据权重,如果需要报警则报警,如果需要权重则按照下面两种方式计算最终权重。
通道状态事件
当渠道数据指标在维度指标规则配置内时,触发渠道状态改变事件。
通道状态描述如下:
通道检测恢复机制
检测的主要思路是对故障通道进行小量加量,通过测试加量交易的成功率来判断通道是否恢复正常。若小量加量交易成功率正常则继续加量,否则直接将通道切换回故障处,过一段时间后重新开始加量测试,直至通道恢复正常。
此过程的关键点在于通道放卷节奏的控制。影响通道放卷节奏的因素有三个:靠前次放卷的大小、两次放卷的时间间隔、通道放卷速度。放卷节奏过快容易造成二次故障,过慢则通道恢复过慢,达不到缩短故障影响时间的效果。
检测流程
当渠道处于各个状态时,请求流程如下。
检测规则首次音量增加大小:perc通道渐进音量增加比例:2n * perc(::::……)首次音量增加时间:t *时间间隔渐进音量增加时间间隔:2n * perc > 100%计算nm的最小值,每个间隔(mn)*时间间隔*系数x(注:此处n为渐进音量增加比例中的当前n值,系数x是为了避免时间间隔过小,间隔时间过短)音量检测详情
生产案例
渠道服务抖动,超过23%的请求超时OT,触发渠道降级为开放状态,业务根据开放情况自动立即切换到其他渠道
开放状态下,业务从开放开始阶段性灰度检测状态到通道降级半开放状态
检测结束时,通道流量完全恢复,状态由通道降级切换为关闭状态
1.快速检测信道抖动问题
2.自动切换频道,缩短频道抖动对服务影响的持续时间
3. 节省故障排除的人工成本,无需手动切换通道
4.自动检测并恢复信道流量
将来的计划
1.根据渠道费用、用户、日额度、订单拆分等规则自动切换路由渠道
2. 自动切换渠道并重试交易
总结
通过不断迭代和夯实基础服务,我们不仅可以满足业务需求,还可以通过自动的通道切换保证业务的稳定性,稳定的还款通道可以有效降低维护成本,让有限的精力投入到更有价值的地方。
关于作者
旺旺,现任后端研发专家
TAG:好支付