分享

实战中的血泪教训—如何更好地运用“大数据”技术?|洞见

 文公武夫 2016-08-02

机器学习相对于主观经验的优势在于:机器可以对海量数据进行学习,并可在高维度上发现因子之间隐藏的非线性关系,而这对于人力来说很难做到,人力只能观察到少量变量间的线性关系,且这种观察的深度和广度往往都非常有限。

关注智信网服务号(ID:zentrust),并回复“参考”,可获取《资管高层决策参考》往期精彩内容。


作者 |智信资产管理研究院研究员 沈修远

来源 |智信资产管理研究院《资管高层决策参考》


伴随着“大数据”技术从概念逐渐渗入到各行各业,Fintech(金融科技)逐渐成为流行词。然而各类科技概念纷繁复杂,如果单单去追求这些概念或技术,难免犯下为了创新而创新的错误,以下内容是我们结合对数据分析实践总结的一些经验教训。


什么是大数据分析?我们以基金经理的筛选为例:假设我们的需求是区分好的基金经理和差的基金经理,在大数据的框架下,我们首先要对基金经理进行特征提取,在尽可能多的维度上评价这一群体(比如大盘同期表现/学历/经验/口碑/风格/性别/籍贯/个人行为数据等);之后采集、清晰数据,再运用各种机器学习的方法(逻辑回归/神经网络/SVM等)对各个feature(特征)和基金经理业绩之间的关系进行训练;最后我们运用机器学习到的规律对样本外的数据进行测试,看看是不是能够很好的区分不同基金经理的业绩表现。整个流程大体遵循:提出问题--提取特征--收集数据--样本内训练--样本外测试的流程。


机器学习相对于主观经验的优势在于:机器可以对海量数据进行学习,并可在高维度上发现因子之间隐藏的非线性关系,而这对于人力来说很难做到,人力只能观察到少量变量间的线性关系,且这种观察的深度和广度往往都非常有限。


“大数据”也并非是万能的,数据分析技术在实践中始终要面对如下问题的挑战:


1、在没有模式(Pattern)的市场中做无谓的尝试


如果我们最初想要探索的问题根本没有确定的答案,比如市场中随机性为主导变量而缺乏其他决定性规律,那么即便采用数据分析技术往往也是徒劳的。诸如“如何预测下一次掷硬币朝上还是朝下”“如何预测某只个股的一日涨幅”,就目前而言,这些问题都是不合适的。


2、市场缺乏稳定性,模式发生了变化


最典型的例子就是2016年初股票市场的熔断,熔断事件对股市的影响在过去几十年间从未出现过,这类事件是完全无法预测的,事后众多在逻辑上的解释更多是马后炮。


3、数据规模不够大,而模型却很“精密”


历史数据过少而模型过于复杂带来的问题是过拟合。过拟合有点类似于盲人摸象,我们虽然采用了最先进的机器学习技术进行测绘,但如果机器摸到的只有大象的耳朵这一小部分,那最后模型所输出的,也不过是无比精确的大象耳朵而已,是完全不能用于预测的。


说到这里您可能已经反映过来了,本文开头所举的对基金经理能力进行区分的例子可能是不合适的:因为国内大部分基金经理的业绩周期都较短,样本量不足,过拟合的风险太大。类似的,工商企业贷款的风险能否被预测到?---在短期内很难。因为企业的经营周期很长,而企业贷的发展历程如果尚未覆盖各个经济周期,可能会对风险做出低估或高估,因此企业的违约风险更适合用抵押、担保等形式来覆盖,同样的数据分析技术在快速循环的消费贷款领域风险就小的多。如何解决数据分析技术的上述问题?


1、结合主观判断进行分析(基于规则)


大数据的分析方式是典型的基于数据拟合的分析方式,其预测的能力依赖于数据的完整性和特征的提取水平。然而一旦面对新业务,在数据量不足的情况下,技术往往无能为力。这时候,基于人的经验和逻辑推断制定的主观规则就十分重要。以个人信用贷款为例,在借款人的行为数据和违约事件间尚未建立起足够多的数据积累的阶段,往往需要依赖人的主观规则来对客户进行筛选(比如拒绝在黑名单内的客户,比如拒绝一人多个手机号申请的客户等),避免欺诈,待业务积累一定数据之后,再结合数据分析技术对客户的偿付能力进行筛选。这种主观规则+客观拟合的方式不仅对于新业务,对于市场结构经常受外部因素冲击的业务也是很好的解决方案。


2、持续投入,在模型优化&数据收集两端不断发力,增加泛化能力


如同汽车刚发明时尚且跑不过马车,技术进步需要不分周期的长期持续投入,以及对初期阶段模型频繁犯下低级错误的足够预期。具体到大数据分析上,拟合模型的优化和新鲜数据的获取是最为重要的两架发动机。


3、慎重选择应用场景


如前文所述,大数据技术尤其不适合应用在单次决策和缺乏历史数据的预测上面,因此较高频次、较大规模的业务领域是更好的选择(比如消费行为,医疗诊断,零售金融)。

智信将于2016年7月23日(周六)下午在北京举行主题为“市公司跨境并购交易操作实务及投融资机会的资管咖啡21期活动。


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多