oracle竖列的数据怎么变成一行
278
2022-11-09
基于机器学习实现商家和银行交易对账结算
交易的待处理和已过账(pending-posted)的难题
Plaid为传统银行的交易数据增加价值的一种方法是确定何时发布来自消费者账户的待处理交易。当银行正在处理消费者的交易时,交易正在等待银行处理状态中,在这个待处理期间,钞票金额将从帐户所有者的可用资金中扣除,但不会从帐户余额中扣除。等交易结束后,交易才从“待处理pending”变为“已过账posted”,已过账posted的交易最终会完成,并且已从该帐户余额中扣除。
当Plaid拍摄帐户快照时,我们会收到一份包含说明、货币金额以及交易状态是待处理还是已过帐的交易清单。虽然我们知道交易是否处于待处理状态,但银行通常不会告诉我们先前快照中的哪些待处理交易与当前快照中的新发布交易相对应。这种匹配对客户至关重要。如果他们向每个新交易的消费者发送通知,那么重要的是他们不要接受到重复复通知。
不幸的是,通常不清楚银行的哪些已发布的交易事务映射匹配到先前消费组在商家的待处理的交易事务?一个常见的困难匹配问题是餐馆账单,当消费者的信用卡在餐馆收取账单时,餐厅会启动待处理的交易,它不包括服务费和小费。一旦餐厅的收据被批量处理(通常在工作日结束时),他们通过在一个统一事务中来完成交易,这是事务交易成为已过账posted状态的时候。
在其他情况下,相应的待处理和已过帐的交易可能看起来不同。酒店通常会将较高的待处理pending费用作为暂缓incidental费用的帐户。一旦交易过帐,即可结算到实际的账单金额。商家,支付处理商和金融机构均可以更改这项交易的描述。
我们针对此问题的高级方法是构建一个模型来预测这种可能性或匹配分数:来自银行和消费组的两笔的待处理和已过账的交易是否是同一笔?如果待处理的事务从一个帐户快照到下一个帐户快照时消失,我们会将其与新快照上显示的“最有可能”的已发布交易进行匹配。当匹配得分高于某个阈值时,贪婪地继续匹配。
问题的关键是选择一个模型来确定这个匹配分数。
决策树算法
为了解决这个问题,我们最初考虑的规则会告诉我们一个特定的待处理和已发布交易的匹配程度。以下是匹配餐馆发起的待处理和已发布交易的示例规则的直观表示:
这种基于规则的方法称为决策树,它对独立变量的空间进行分段,如有关事务的信息,并尝试查找可能与匹配事务相对应的此空间区域。虽然上述可视化中的决策树输出布尔预测,但决策树通常用于更强大的机器学习,包括在我们的模型中,而是输出可能性的预测。
用于训练决策树的算法,在实践中很少使用独立树。这是因为他们倾向于学习训练数据背后的噪声而不是数据中的基础关系。决策树可能错误地了解了无关紧要的交易描述,因为很多相互不匹配的事务却具有相似的交易描述。此问题称为过度拟合。
过度拟合
过度拟合被称为“高方差”,因为过度拟合模型强烈依赖于训练数据,输入的微小变化将导致预测的大的变化。
另一方面,变量不足和模型复杂性不足导致欠拟合,其中模型太不灵活,无法在训练数据中找到有意义的关系。欠拟合被称为“高偏差”,因为欠配合模型具有显着的系统预测误差或偏差。
Bagging
如果组件模型不相关,则bagging装袋模型会更多地减少差异。然而,仅对不同的训练数据样本进行Bootstrapping通常会导致树具有高度相关的预测,因为最具信息性的分支规则在采样的训练数据中通常是相似的。例如,由于交易描述是未处理和已过程交易是否匹配的强有力指标,因此我们的大多数树木将严重依赖此指标。在这种情况下,bagging装袋的能力有限,可以减少整体模型的差异。
这是特征抽样的来源。
随机森林
当随机森林失败时
随机森林和一般的bagging装袋易受不合适的不平衡数据集的影响。我们对从待处理pending到已过账posted匹配的随机森林模型遇到了这个问题。由于每个待处理交易在训练集中最多只有一个已发布的事务,因此大多数待处理和已过账交易的候选对都不匹配。这意味着我们的训练集存在不平衡,其中绝大多数数据“不匹配”; 因此,我们的随机森林模型错误地预测了较低的匹配概率,从而导致较高的假阴性率。
为了解决这个问题,我们使用了boost。Boosting将决策树限制为简单形式 - 例如,树不是很深 - 以减少整体模型的偏差。增强算法迭代地探索训练数据,添加最大限度地改善聚合模型的受限树。与bagging装袋一样,树的投票决定最终的决定。
从这个过程我们最终了解到,改善少数情况下的性能 - 匹配的交易对 - 将最大化模型提升。该算法深入研究了识别该情况的条件,通过精心调整的超参数,我们终于看到了我们的假阴性率的重大改进。
boosting的另一个优点是能够在训练期间灵活地定义“模型改进”度量。通过对误报和漏报分配不对称惩罚,我们训练了一个模型,更加符合这些模型错误如何不对称地影响消费者。
结果
与随机森林模型相比,我们新的增强模型将假阴性率降低了96%,最终为我们的客户和消费者提供了更高质量的交易数据。除了内部指标改进之外,我们还看到客户提交的有关待处理到期交易票据显着减少。
必须了解机器学习模型原型的特征如何导致不同的优点和缺点。虽然我们的新模型在我们提供的数据质量方面取得了重大进步,但它还是有自己的权衡。Boosting对模型改进度量以及限制树必须简单的其他超参数敏感。在这种情况下,改善的消费者体验非常值得仔细的培训程序和细致的调整。
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。
发表评论
暂时没有评论,来抢沙发吧~