2012.12 中国金融电脑 大数据是用来描述数据规模巨大、数据类型复杂的数据集。这些数据集的规模已经超出普通的数据库管理工具在可容忍的运行时间内进行数据的捕获、存储和处理的能力。特别是近年来,伴随着物联网、移动互联网、社交网络的快速发展,企业数据增长迅猛,半结构及非结构化的数据呈几何倍增长;数据来源的渠道也逐渐增多:网络日志、社交媒体,以及遍布各地的传感器网络等。大数据的时代已然来临,大数据分析已成为各行业竞争发展的变革点。而如何有效整合来自移动终端设备、社交网络、PC、传感器网络等产生的结构化、非结构化的海量数据,并加以分析挖掘潜在的业务价值,已成为大数据时代企业经营发展的趋势和焦点。
一、大数据的特点及对企业经营管理的重要意义
1.大数据的特点
第一,数据规模巨大且增长迅猛。从TB级别跃升到PB乃至EB级别。
第二,数据类型繁多。既包含传统的结构化数据(如文本数据),也包含越来越多的非结构化数据(如网络日志、音频、视频、图片、传感器数据等)。这些数据对处理分析能力提出了更高的要求。
第三,数据价值极为关键但不易挖掘。由于海量数据中价值密度相对较低,但数据的商业价值却极为重要。如何通过强大的机器算法更迅速地完成数据的价值“提纯”,是目前信息化亟待解决的难题。
2.大数据对企业经营管理的重要意义
伴随着传统的商业智能系统向纵深应用的拓展,企业决策已经越来越依赖于数据而非直觉经验。然而,传统的数据仓库对于数据分析通常是建立在关系模型的基础之上,面向结构化数据处理,各分析主题之间的关系在系统内已经被创立,而且用以分析的数据也大都是企业自身信息系统中产生的运营数据,这些数据大都是标准化、结构化的。事实上,这些数据只占到了企业所能获取的数据中的15%。
对于企业而言,85%的数据属于广泛存在于社交网络、物联网、电子商务等媒介的非结构化数据。这些非结构化数据的产生往往伴随着社交网络、移动计算、传感器等新兴渠道和技术的不断涌现和应用。企业用以分析的数据越全面,分析的结果就越接近于真实。大数据分析意味着企业能够从这些新的数据中获取新的洞察力,并将其与已知业务的各个细节相融合。在大数据时代,企业进行数据分析的背景也发生了变化:①要涵盖海量数据规模;②要能真实精确地挖掘商业价值,快速分析响应;③要面向丰富多样的数据类型,包括结构化和非结构化的数据。这使得传统解决方案在新的需求面前束手无策。
点击查看原图
二、大数据分析的解决方案
1.大数据分析相关系统
(1)Hadoop
Hadoop是效仿谷歌FileSystem和谷歌MapReduce而实现的一套海量数据分布式处理的开源软件框架,被广泛部署运用于雅虎、Facebook等互联网企业。目前,运行于雅虎的Hadoop集群被广泛用于雅虎广告、财经数据以及用户日志等数据的处理分析。
Hadoop由两部分组成,一部分是HDFS分布式文件系统,一部分是MR框架(MapReduceFramework)。HDFS是MapReduce的数据存储来源。HDFS按照一定粒度的数据分块来划分文件,并将这些数据分块分散存放在集群中的不同节点,为MapReduce提供并行计算的数据存储。同时,HDFS利用多副本存放策略来保障数据的可靠性、可用性,并提供较高的数据输入输出吞吐率。MapReduce框架是进行海量数据并行计算的框架,由一个作业追踪(Master)节点和多个任务追踪(Worker)节点构成。作业追踪节点用于任务划分、任务调度;而任务追踪节点用于接收来自于作业追踪节点分配的Map或者Reduce任务,并执行这些任务,同时将任务的状态回馈给作业追踪节点。Hadoop通过计算移动到集群中的各个节点,在各个节点进行并行计算任务(Map阶段),产生结果后将集群中各节点的数据汇总反馈至客户端(Reduce阶段)。
(2)Hive
Hive是Facebook开源的基于Hadoop的数据仓库平台。通过Hive,可以方便地进行海量数据提取、转化、加载(ETL)工作。Hive定义了一个类似于SQL的查询语言HQL,能够将用户编写的SQL转化为相应的MapReduce程序。当然,用户也可以自定义Mapper和Reducer来完成更为复杂的分析工作。作为互联网领域应用最为广泛的开源数据仓库,基于MapReduce的Hive在扩展性和容错性方面有强大的优势,其前景被业界一致看好。但是相比传统并行数据仓库,Hive在存储引擎支持、执行引擎高效化以及多样化接口等方面,有待进一步发展。
(3)Pig
Pig是一个基于Hadoop的大规模数据分析平台,使程序员可以更加方便地进行大规模数据处理。PigLatin是一门吸收了SQL语法的过程式语言。它在保存了过程式语言灵活性的同时,很大程度上吸纳了声明式语言易于进行数据处理描述的特点。该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口。
综上所述,目前广泛使用的开源海量数据处理系统大都以Hadoop作为数据存储和并行处理的基础框架——HDFS提供海量数据存储平台,MR框架提供海量数据并行计算模型。Hive和Pig都是在Hadoop之上提供了类SQL语言的解决方案,这大大减少了并行处理程序开发的难度,使用户不必具备较强的程序编写能力,进而更多地关注业务逻辑。以上海量数据处理系统在高可用性、高容错、扩展性方面都提供了很好的支持,三者具体比较如表1所示。
2.大数据分析的经典案例
大数据分析平台在文本挖掘、模式识别、路径分析、聚类分析等方面具有天然优势。不同厂商的产品和开源系统都力图针对不同的应用场景推出对应的算法包来提供诸如产品营销、用户消费习惯分析、优质客户甄别、防欺诈侦测、购物篮分析等各个领域的高效解决方案。大数据分析平台已经在很多行业发挥了重要作用,具体成功的商业案例如下。
(1)沃尔玛
沃尔玛是最早利用大数据而受益的企业之一。通过对消费者的购物行为等非结构化数据进行分析,沃尔玛成为最了解顾客购物习惯的零售商,并创造了“啤酒与尿布”的经典商业案例(尿布与啤酒这两种看似风马牛不相及的商品摆在一起使尿布和啤酒的销量大幅增加)。
(2)Facebook
社交媒体监测平台DataSift监测了FacebookIPO当天Twitter上的情感倾向与Facebook股价波动的关联。例如,在Facebook开盘前Twitter上的情感逐渐转向负面,25分钟之后Facebook的股价便开始下跌。而当Twitter上的情感转向正面时,Facebook股价在8分钟之后也开始了回弹。通过数据分析最终得到的结论是:Twitter上每一次情感倾向的转向都会影响Facebook股价的波动,延迟情况通常只有十几分钟。
(3)沃尔沃
在沃尔沃集团,通过在卡车产品中安装传感器和嵌入式CPU,使得从刹车到中央门锁系统等形形色色的车辆使用信息源源不断地传输到沃尔沃集团总部。对这些数据进行分析,不仅可以帮助企业制造更好的汽车,还可以帮助客户获取更好体验——这些数据正在被用来优化生产流程,以提升客户体验和提升安全性,以及让产品部门提早发现产品潜在的问题,并在这些问题发生之前提前向客户预警。
(4)中国移动
中国移动集团山西有限公司通过大数据分析,对企业运营的全业务进行针对性的监控、预警、跟踪。以最快捷的方式将捕捉的市场变化推送给指定负责人。例如,一个客户使用最新款的诺基亚手机,每月准时缴费,平均一年致电客服3次,使用WEP和彩信业务。如果按照传统的数据分析,这可能是一位满意度非常高、流失概率非常低的客户。但是,当搜集了来自微博、社交网络等媒介的客户数据后,这位客户的真实情况可能是:客户在国外购买的这款手机,手机中的部分功能在国内无法使用,在某个地点手机经常断线,彩信无法使用——他的使用体验极差,正在面临流失风险。
三、大数据在银行业的应用场景
随着银行业务的载体与社交媒体、电子商务的融合越来越紧密,仅对原有15%的结构化数据进行分析已经不能满足发展的需求。企业需要借助大数据战略打破数据边界,囊括85%的大数据分析,来构建更为全面的企业运营全景视图。以科技引领业务发展,未来银行也同样需要借助由大数据构建的企业经营全景视图来进行风险管理、产品营销、业务创新等活动,进而寻找最优的模式支持商业决策。下文阐述了大数据在银行业应用的几个场景。
1.客户管理
随着大数据的大量涌现,尤其是在社交网络的背景下,服务渠道不应仅局限于传统的银行渠道,而应整合新的客户接触点(即社交媒体网站等),这种趋势已经变得日益清晰。银行业发展战略也逐步从以产品为中心转向以客户为中心,客户成为银行发展的重要驱动力。银行不仅仅销售产品和服务,而且还应为用户提供完美的多渠道体验,成为真正以客户为中心的组织。了解客户到底是谁以及客户最真实的需求成为银行经营管理者最为关注的问题。
银行可以通过大数据分析平台,接入客户通过社交网络、电子商务、终端设备等媒介产生的非结构化数据,构建全面的客户视图。根据用户行为对用户进行聚类分析,进而可以有效的甄别出优质客户、潜力客户以及流失客户。
事例一:花旗银行工作人员可以利用大数据分析获取银行客户信息并且分析客户的下一步需求,进而向客户营销相关金融产品。比如,某人为自己的孩子开办了一款信用卡,当孩子上大学后,就会分析这位顾客所需要的金融产品。如果之后家长有装修厨房的计划,那么花旗银行的工作人员会向这位家长推荐适合装修的贷款,满足客户各方面的潜在需求。
事例2:客户流失分析。借助大数据平台搜集到客户行为记录,通过对已流失客户的行为进行分析,找到客户流失发生时的关键路径,进而能够利用流失客户的行为模式有效定位有流失倾向的客户,以便银行工作人员能够在客户流失前进行挽回工作。
2.营销管理
借助大数据分析平台,通过对形式多样的用户数据(用户消费数据、浏览记录、购买路径等)进行挖掘、追踪、分析,将不同客户群体进行聚类,有助于获取用户的消费习惯、风险收益偏好等特征信息。从而根据不同客户特性打造个性化的产品营销服务方案,将最适合的产品服务推介给最需要的客户。以主动营销和个性化营销打破传统无差异的、被动的产品服务营销方式。大数据的有效使用,不仅可以提升银行产品的精准营销水平,而且可以提升客户对银行服务的认可程度以及客户经理在营销过程中的专业程度。
例如,银行针对不同的客户分类推荐相应的理财产品,根据客户的购买习惯和风险偏好进行产品组合营销;根据客户的产品清单和浏览记录进行路径分析,主动推送关联产品营销等,真正做到个性化的主动营销服务。
在银行产品同质化较为严重的现状下,谁能首先运用“大数据”进行灵活的营销管理,谁就有更多的机会在竞争中拔得头筹。
3.风险管理
随着银行业务的快速发展,银行经营者必须有效地甄别风险、防范风险和控制风险。风险管理成为银行稳健发展至关重要的一环。社会化媒体的互动、实时的传感器数据、电子商务和其他新的数据源,正给银行经营带来一系列的挑战。仅仅借助传统的解决方案,无法全面进行风险管理。大数据分析帮助银行了解客户的自然属性和行为属性,结合客户行为分析、客户信用度分析、客户风险分析以及客户的资产负债状况,建立完善的风险防范体系。
事例:Wonga是英国一家小额贷款公司,他们利用海量数据挖掘算法来做一些贷款业务。Wonga对过去客户的各种碎片化信息进行数据获取和整理,用大量的数据串成了客户特征的全貌,同时根据不良贷款等风险信号不断完善调整模型,有效控制风险。如今它已获得了5亿美金的年利润,其风险管理能力也获得业界的认可。
四、大数据背景下银行业的发展趋势及面临的挑战
1.未来银行业的发展趋势
(1)未来银行业更加倾向于零售营销
客户是驱动零售企业生存发展的核心资源。在银行业经营战略转变以及利率逐步市场化的背景下,银行依赖存贷款利差创造利润的盈利方式也必须调整。零售及中间业务在未来银行经营中会占有越来越大的比重。而绝大部分客户数据通常是用户在社交网络、移动终端设备等媒介留下的海量碎片化数据,如何收集数据并对客户的行为属性进行有效的分析,是支撑以客户为中心发展模式的重要手段。在日益激烈的行业竞争中,构建以客户为中心的精确的银行运营全景视图就显得尤为重要。
(2)未来银行更加倾向于科技创新
创新是银行实现差异化发展的驱动力。目前银行产品、银行的经营管理系统都面临着同质化严重的问题,因此需要通过技术创新来不断增强银行业的核心竞争力——帮助银行改进金融系统,改善与顾客之间的交互,改进并简化客户的银行业务体验。大数据时代为银行业务发展和技术创新带来了新机遇。
(3)未来银行更加倾向于数据分析挖掘
很多互联网公司例如亚马逊、Google、腾讯,更愿意将自己定位为数据企业。因为信息时代,数据成为经营决策的强有力依据,给企业带来了发展和引领行业的机遇。银行也同样拥有丰富的“数据矿藏”,不仅存储处理了大量结构化的账务数据,而且随着银行渠道快速渗透到社交网络、移动终端等媒介,海量的非结构化数据也在等待被收集和分析。对于银行业来说,大数据意味着巨大的商机,可强化客户体验,提高客户忠诚度。形象地说,“数据的收集能力+数据的分析能力=企业智商”,这关乎商业决策的迅速和准确,关乎企业的生存和发展。
2.银行业在大数据背景下面临的挑战
(1)构建银行业大数据分析平台
传统商业智能、数据仓库解决方案致力于解决结构化数据的整合分析,由于结构化数据的存储组织有章可循,相对简单,因而在BI分析中数据模型的构建也较为简单。但是在大数据背景下,传统商业智能、数据仓库解决方案已经捉襟见肘。首先,数据源方面,半结构、非结构化数据的大量涌现,使得传统的数据仓库存储组织此类数据变得无能为力;其次,在商业智能分析方面,由于大数据大都是一些类型丰富的碎片化数据,没有相对固定的模式,而且价值密度相对较低但却极为重要,使得在大数据环境下进行数据分析的模式和方法相对复杂。因而构建银行大数据分析平台是一项从无到有、富有挑战且意义深远的工作。对银行的创新能力,精细化、专业化经营管理以及高效决策支持都具有重大意义。
现阶段,已被业界广泛使用的开源的海量数据处理系统(Hive)使得很多公司能够从零开始快速搭建大数据系统,为银行构建大数据处理平台提供了实验性平台保障。
(2)培养银行业的大数据分析人才
信息化时代,数据作为一种无处不在的矿藏需要挖掘。大数据的分析与传统数据分析有很大区别,银行现有的管理支持类数据分析主要基于报表数据及部分数据模型,很难勾勒出银行经营的全景视图。而大数据的进入,使得银行的数据种类和数据规模快速膨胀。目前对于大数据的分析可能有两种方式:一种是基于假设的模型,关注那些我们认为高价值数据,关注相关领域的数据,关注能够提升效率的数据;一种是机器学习的模型,对大数据而言,它能够不断的增加变量,在分析过程中自动调节模型的完备性,以便做出更好的决策。这就需要分析人员具有更高的素质,不仅要有较高的业务理解力,而且要有很强的数据建模、数据挖掘的技术能力。利用大数据平台和大数据分析可以将零散的市场数据、用户数据等迅速高效地转化成决策支持数据,有助于银行机构把握市场环境变化,快速灵活做出反映,提升银行核心竞争力。
大数据技术的发展带来企业经营决策模式的转变,驱动着行业变革,衍生出新的商机和发展契机。驾驭大数据的能力已被证实为领军企业的核心竞争力,这种能力能够帮助企业打破数据边界,绘制企业运营全景视图,做出最优的商业决策和发展战略。金融行业在大数据浪潮中,要以大数据平台建设为基础,夯实大数据的收集、存储、处理能力;重点推进大数据人才的梯队建设,打造专业、高效、灵活的大数据分析团队。不断提升企业智商,挖掘海量数据的商业价值,从而在数据新浪潮的变革中拔得头筹,赢得先机。
|