分享

面向企业的机器学习从八项最佳实践开始

 快读书馆 2017-11-03

企业如何着手开展机器学习?


企业如何帮助业务分析师掌握机器学习技巧并与数据科学家携手工作? 


这些企业需要知道哪些常识?


本期推送深入探讨了机器学习相关常识,及企业向机器学习进军的八个最佳实践。长文+干货预警~

随着企业不断寻求改进其数据分析工作,预测性分析便频繁出现在其路线图中。企业希望更深入了解客户,预测其行为并改进运作流程;企业也期盼能有更准确的洞察,并能够更快地应对变革。机器学习因此常常进入他们的视野。 


从事分析工作的数据科学家是这项宏伟工程的重要一环。 数据科学家能够构建新的模型,开发算法和应用,并协助企业创新。然而,这样的数据科学家常常很稀缺。TDWI研究显示,企业经常通过提升业务分析师的技能,以便使用诸如机器学习等工具,进而增强其数据科学团队:近期TDWI调查显示,有51%的受访者声称,提升业务分析师技能是企业增强数据科学能力的两大战略之一。这意味着企业需要向数据科学家提供生产力工具,并协助使用者和业务分析师开展先进的分析工作,将机器学习真正引入到企业中。 


机器学习基础

尽管机器学习这个词近年来在媒体上频繁出现,但实际上人们应用这项技术已有数十年了;诸如决策树等机器学习算法已在诸多企业应用于预测性分析。 


在机器学习过程中,计算机从示例中学习,以最少的人工介入便可识别事物模式并预见未来结果。由于现今存在着的海量数据及先进计算能力,机器学习在从营销到生产的多个领域得到了广泛应用。此外,机器学习在更为先进的应用场景中大展身手,诸如智能汽车和图像识别。在此类应用中,系统可学习如何识别图像并进行分类。

 

1

掌握思考过程


 

很多企业在实施商业智能方面做得很好。然而,预测性分析需要不同的思考过程。商业智能擅长回答诸如“发生了什么事”或“正在发生什么”之类的问题,利用数据可视化使用户探索数据并以多层级的方式揭示其间的关系,通过视觉资料(散点图、地理空间图、计分板、热度图等)获取真知灼见。


然而,这些工具只是在检查已经发生的事情。机器学习可以帮助企业主动预测将要发生什么。这就需要了解不确定性、模糊性以及思考结果等方面都有所不同的思考过程。所有这些都不同于传统的商业智能。


2

聚焦于用例



机器学习是一种强大的工具,可帮助企业洞察从人员到机器的多种行为。机器学习在纵向和横向应用中都可大显身手,从而帮助企业变得更加主动;当然,企业应重点关注能对业务产生积极影响的机器学习应用,举例如下:

1

营销

TDWI研究表明,营销往往是企业中最先采用先进技术以了解客户的几个部门之一。在营销工作中,机器学习常用于客户细分并向客户给出“下一个最好”出价。企业可对学习模型进行培训,使之掌握具有类似特征的顾客此前对出价的反应如何。其他一些用例还包括追加销售、交叉销售、推荐引擎中的运营化机器学习。 

2

运营管理

预防性维护是一个目前很热门的用例。 在这一用例中,利用来自传感器和其他装置的数据来判断何时可能会发生部件故障。例如,某石油企业可利用来自石油钻机的传感器数据(温度、压力等)以构建故障预测模型。随着新数据的生成并检测到类似的工况,系统会发出警告,并由此制定维护计划。此类应用在诸多行业大显身手,例如制造业、医疗卫生、交通运输。此外,它还可应用于IT运行分析,以便积极主动地对IT资产进行分析,更迅速地开展故障根源分析并自动地采取相应对策。

3

欺诈和风险分析

金融机构和财务部门可利用历史欺诈数据对模型进行培训,使之掌握与欺诈性业务交易有关的模式。公用事业机构也正在实施机器学习,以便识别用电中的欺诈模式。 

4

医疗卫生领域的患者相关分析

目前,TDWI常常认为医疗卫生是诸如机器学习等先进分析技术可大展身手的一个重要领域。用例包括预测感染、积极关注患者健康、人口健康分析。 

5

网络安全

机器学习已开始用于在网络或设施中识别那些可能违反安全法规的可疑行为。 


3

探寻最佳预测性工具



机器学习算法可通过多种渠道获取,它们可针对数据科学家和业务分析师的需求向其提供适当的工具和界面。 


对于业务分析师而言, 新款商务工具越来越易用。某些工具中的界面只需点击和拖拽即可,用户可将多个步骤合并,执行一个分析工作流。其他工具则允许用户通过SQL界面来调用机器学习算法。许多工具可通过鲜明的用户界面实现自动化模型构建。此时,用户只需要指定感兴趣的目标变量及其他数据属性,随后软件将根据给出的数据判断最佳算法和模型。这些工具通常以易于理解的方式解释输出,有些允许模型导出,有些不允许;有些位于公共云中,有些需要许可,有些则两种皆可。


数据科学家可能想要从零开始构建模型,多款工具可向他们提供脚本接口,用以访问诸如Python等开源语言构建的模型,包括编程语言以及多个机器学习库。


对于业务分析师和数据科学家而言,工具需要具有包括数据剖析和数据转化的数据准备功能。某些工具可提供框架,有助于实现自动化数据准备,从而能够重复利用组件,协助数据科学家和业务分析师提高工作效率。 

 


4

接受培训



机器学习工具可能很易用,业务分析师也精于数据分析,但接受机器学习方面的培训仍很重要。为什么呢?任何从事分析工作的人士都应能够深入分析结果并进行阐释。这意味着要懂得这些分析技术的用途、原理并知道如何阐释输出。 


企业可以以多种方式开展培训:


内部培训

某些在分析领域先行一步的企业建有可以主导数据分析工作的卓越中心(CoE),向希望深入了解分析工具和技术的业务人员提供内训。 


供应商培训

供应商通常在用户会议上或在线开展培训,这些短期培训课程可协助用户了解如何使用特定的供应商工具以及这些工具所具备的特性和功能。某些供应商亦提供多种技术培训。 


外部培训

许多企业派遣其员工参加外部培训,或将外部培训师资引入公司,以现场或在线形式授课。


自我培训

有些人阅读机器学习及其他数据科学相关书籍、参加线上课程,利用软件做实验——尽管这不一定是最佳学习方式。


以上方法的取舍取决于您的预算以及你的雇主对机器学习的态度。


5

谨记—优质数据至关重要 



有些人认为,机器学习的海量数据可消除对数据质量的隐忧。然而,优质数据对投入生产的模型极端重要;否则,这些模型将迅速劣化——“进来的是垃圾,出去的也必是垃圾”。 


劣质数据会影响到运营效率、企业决策和汇报,以及很多其他方面。优质数据的准备不止涉及到处理数据遗失或异常值,还必须确保数据准确性、完整性、时效性、格式一致及合理性等诸多考量标准。


当然,实验是数据科学的试金石,利用数据海洋中尚未检验过的数据对各种分析进行试验是有意义的。然而,一旦确信某个数据源应当用于决策,企业必须确定数据质量的级别,也应当有IT人员参与。


数据质量和数据管制息息相关。这意味着包括政策和实践在内的管制流程应落到实处,并做到各负其责。现有数据管制实践可能需要扩展或修改,但这需要业务部门和IT共同完成。


6

建立模型管制流程



在拥有适当的工具并接受培训后,业务分析师和数据科学家应能够建立机器学习模型。成功的企业必须及时确定哪些模型对数据科学家有意义,哪些模型对业务分析师有意义。这是计算风险和回报的过程:比如,企业可能不想让业务分析师利用深度学习技术为最高安全级别构建图像识别系统——风险太大。 然而,业务分析师能以较低的风险构建可从以往活动中学习的营销活动模型。


如果企业中的业务分析师采用机器学习,在将模型变为业务流程的一部分之前,应制定一系列管控措施流程。例如,这可能包括采用机器学习平台中的协作功能,可使分析师与其他人员分担工作。这些问题可能包括如何解读基于有意义数据源的建模结果。

 

当然,有些企业采取更为正规的流程,尤其是模型具有实质意义时:业务分析师可能有必要在模型投入生产前取得数据科学家的首肯。如果模型出现了问题或分析师未曾审慎思考数据事宜时,与数据科学家的沟通将有助于避免后续问题。 


7

将机器学习付诸实践 



企业经常发现,高级预测性分析面临的最大两项挑战分别是制定目标并将模型部署到生产中。TDWI研究发现,将模型投入生产可花费长达6 - 9个月的时间。然而,如不采取行动,模型意义何在呢? 


当然,行动可以有多种形式。机器学习模型当然能以人工方式实施。然而,许多企业的目标是在生产中实现机器学习模型的自动化,例如识别欺诈或决定向客户推荐哪款产品。这意味着,模型必须要成为业务流程的一部分,而且有多个因素要考虑


考虑新的工具

现代决策管理软件允许企业注册、 部署、监控和重用可整合到业务流程中的模型。当您只有几个模型需要对其运营化,则可考虑将其存入目录,并要求IT或开发团队进行重新编码。但长远看来,这不可扩展,也不够实用;人工管理成百上千个模型非常艰辛(参见第8部分)。


考虑设计

不论企业采用何种运营化分析,预测性模型都需要与工作流适配。这常常意味着定制前端,使之匹配,尤其是嵌入式分析。一旦偏离正道, 回归正轨就会很难。


部署规划

分析只有在用于采取行动时才有价值。成功的企业会制定并指派部署团队完成部署计划。


8

持续管理、监控并优化



随着时间推移,模型会老化且准确性会降低。根据实际业务情况,模型可能需要频繁更新;为维持完整的知识体系,必须持续跟踪这些模型。 


有些企业在目录中管理这些模型。然而,这并不是一个有效的长远解决方案,因为随之构建更多的模型,这么多模型将难以采用人工方式管理。正如前文所述,企业难以跟踪成百上千个模型。有些工具具有模型管理功能,在其中嵌入了某种模型注册表。其他一些工具则能够自动管理模型并检测某个模型何时会由于准确性降低而老化,并在此时向相关人员发出警报。如果您的企业将要构建多个机器学习模型,这些工具值得您特别关注。 


模型更新频率取决于数据和市场状况变化的频率。必须要考虑数据何时会不再具有相关性。例如,假设您有一个用于预测顾客购买您产品几率的模型。它可能取决于新出现的竞争对手和新产品。此外,它将取决于您在销售何种产品。如果您的产品线发生变化,那么模型也应及时更改。其结果是有些模型每天都在变更,而其他一些模型的使用周期则明显偏长一些。 


结论——质的飞跃


TDWI已认识到机器学习和预测性分析可助力企业提升销量和利润。在具备了适当的工具、培训和流程之后,企业可迈出利用机器学习的第一步,实现其一系列目标和用例。 


关于作者

 

Fern Halper 博士是TDWI Research高级分析部门的副总裁和高级总监。她在分析领域享有盛誉,过去二十年间曾发表数百篇数据挖掘和信息技术领域的著述。她亦是行业分析公司Hurwitz & Associates的合伙人,并在贝尔实验室担任资深数据分析师。

关于 TDWI 

TDWI Research向全球的商业智能专业人士提供研究成果和建议。TDWI Research专注于分析和数据管理问题,并 与业界人士密切协作,对在部署商业智能和数据管理解决方案时遇到的业务和技术性问题有着广博而深刻的见解。TDWI Research通过全球会员计划向客户提供研究报告、评论、咨询服务,并向用户和供应商提供客户研究报告、 标杆和战略规划服务。 

《TDWI清单报告》全面介绍了商业智能、数据仓库、分析领域具体项目的成功要素或相关的数据管理准则。企业可在项目开始前利用此概述做好组织工作,或用以识别当前项目的目标及有待改进的方面。 


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多