天云大数据CEO雷涛:从BI到AI的演进路径 数据推动规模化AI能力

CIOAge
在过去几十年里,计算机被广泛用于完成自动化任务,后者是被清晰的规则和算法描述的,如今机器学习技术允许我们在难以精确描述规则的边界内完成同样的任务。

 

大数据

2017年6月29日,在由数据猿主办的金融科技商业价值探索高峰论坛上,天云大数据CEO雷涛在主论坛上以“Fintech实践:从BI到AI的演进路径”为题发表了精彩演讲。

天云大数据CEO雷涛在演讲中表示,我们正在经历一场从BI到AI的变化,数据驱动将对业务本身变革带来挑战,AI将推动从一个面向人去做决策的过程开始走向一个自动化实施的过程。

雷涛认为,目前大数据从对本身业务流程优化,到互金行业风险定价、营销获客的创新中,AI成为迫切需求。例如现金贷业务,一两个项目经理可以做出放贷百亿规模的产品,利用机器学习提供优化,这样就可以为企业预警、拨备出几千万的资金风险。所以相对于传统银行应做出迅速反应,风险策略部生产模型的机制和数据挖掘工具都没有办法支撑现在大规模金融产品的生产。

雷涛在接受采访时表示,天云将AI/Machine Learning机器学习技术构建在分布式计算框架上向金融客户提供离线科研竞争能力,越来越多机器学习的方法快速被投入到生产流程里,所以对模型生产的要求,不再像一个简单的作坊型的生产,需要实时生产数据的规模化的生产。例如最近某银行要上线近百个模型,这个大规模的模型生产和数据,以及计算能力的捆绑,我们定位的方法就是AI平台化,而且已经成功的实践。我们在一家大型的股份制商业银行,利用AI来替代传统BI,银行客户把AI 平台+数据产品的构建框架定义为流程标准,推荐给其他大型商业银行,这些过程都是因为在基础设施,找到规模化AI能力生产的方法。

以下内容为雷涛在数据猿主办的金融科技商业价值探索高峰论坛演讲实录:

大数据

我们深刻感受到大数据不是今天做起来的,BI做了20年,在新技术领域里面,与AI相比BI有什么路线?我相信这些思考和内容,无论是对新进入者,也面临怎么规模化生产模型,这是今天的挑战。

我们更多的数据利用都是面向人的做决策,我们自己也看到参与一些BI的项目,当然也有一些新的靠科技的力量做一变局,比如说数据弧怎么替代中间表,把MDM的管理的模式颠覆,BI里面确实有一些局部的创新,整体结构上有数据驱动的这一波对于业务流程冲击的变化更多的是由AI带动的,从一个面向人去做决策的过程开始走向一个自动化实施的过程,就像淘宝购物的,直接嵌入到前端。在这个题材下想跟大家分享的第一个内容。

在过去几十年里,计算机被广泛用于完成自动化任务,后者是被清晰的规则和算法描述的,如今机器学习技术允许我们在难以精确描述规则的边界内完成同样的任务。

最传统的BI阶段里面,我们是由人定义出一个清晰的规则在决策引擎里跑,今天人工智能大家看到两亮点的内容,比如阿尔法狗,都非常清晰简单,图象只有IGB在象素上面的填充,但是在后台反馈出来非常丰富的语义环境,这些特征和内容很难被人类用简单的清晰语言描述的时候,BI失效的前提下我们怎么样用AI的方法提供更大规模的计算。

所以我会跟大家在这个前提下分享三个观点,第一个就是离线抽样to在线全量。这个特征也是很多银行跟我们交流的时候,大家的第一印象人工智能是什么?就是能不能帮我做一个聊天机器人在客服,或者是人脸识别,局限在很窄场景的应用里面,我今天跟大家分享的是泛AI的概念,就是怎么样利用很基础的机器学习能力支撑企业流程的改造BI的升级。

这里面最重要的过程是数据资源的建立,,从IOE体系,数仓,再到SAS挖掘平台,当你跑一些很前瞻性的,捕捉这些隐含变量非线性事实的时候数据已经被抽样,很难去面向我们APP,微信这些技术营销了。现在比较漂亮的前端应用,智能头部的项目,闪贷的项目,无疑反馈了一个事实即时性很大的一个挑战,我们是要用到全量数据建模,不是用抽样的方法去做统计了,所以说这个概念差距非常大的是在学习型的模型的输出上。

第二个观点是从静态个体到动态关联,也就是说我们在金融业务里面,我们现在已经面临太多的挑战是什么呢?数据维度不够,或者是处理信息的方式方法太LOW了,我们传统上只有一维的方式从头读到尾,二维数据标的格式,但是大量的信息结构里面,复杂的高维结构很难量化和处理,比如说循环担保这个是给人民银行做的项目,他提出一个致命的问题没有办法关联。

基于的量化交易其实是在新的数据结构里面非常关键的,今年我们也做了金融基础平台,这些满足的就是怎么样找到一致的人,通过一个手机的MAC地址登陆了做白条业务可能没有还钱,用同一部手机拿另外一个身份证申请的时候就会被系统通过强关联性揭示出来,这些都是通过新的复杂的高维网络找出来。不光是产品的定价,还有风险问题,比如说在信用卡,我们后面会讲到,在孤立的进件的时候如何在反欺诈里面显示出来。

机器非常容易的发现传播,我们现在给互联网公司投入C2C,你的客户之外的客户怎么到达接触和管理他的行为?这张表实际上是我们通过营销得到两个数据,一个是有激励的一个是没有激励的,获取的客户资源就在那里停止,另外一个右边的是一个销售,他通过网络我们有效识别达人和少量的激励以后不断的扩张网络。所以说可以看到网络技术不仅在风险定价里面,在营销里头应用也非常显著。

大数据

第三个观点就是我们传统的基于统计思路开始逐步的进入到大规模的学习阶段,这个学习跟传统小数据学习也有很多差异性的本质区别。

我们考虑的不是从丰富外部数据源的角度,而是如何用高维的手段已经有的信息提高识别率,这个时候我们使用的还是有两个核心技术。第一个是有动态的发现技术是什么呢?我们早期做的风险种子平台就是将图谱的应用起来,这样的构建是孤立的一个一个进件具备了高维化的在传统金融属性之外的特征,最短路径的距离等等。把这些特征扔到学习平台,这个学习平台里面如果是使用传统小数据的逻辑回归,决策树这些方法肯定是失效的,大家知道10万个进件里面可能是几百个骗子的出现,传统的里面基本被定义成一个噪音丢弃掉了,现在深度学习可以通过路径强化和强化学习将有效的,因为是有监督的学习样本将有效的数据得到很好的保留。通过我们的平台的跑,大家可以看到,像下面的数值提高了20%多的,其实不止,AOC曲线拉了0.2,其实已经翻了一倍以上,如果从纯粹的孤立的样本识别率上已经拉了一倍以上的内容。

所以说大家可以看到第三个观点,我们所说的,在深度学习的今天带来了一个特别大的变化,在算法层级的变化是在特征表达上,强调了在BI领域里面很难量化的规则,通过简单数据的重复性大规模性,把更多的特征反馈在了后层的隐含层的变量上,所以说像图象里面一些简单的RGB形象,都可以丰富定义成后台没有办法描述的规则,同样在我们反欺诈的场景下,我们很难去量化规则的情况下都可以使用这些新的高维度的算法,我们不再依赖于丰富我们的信号源这个是很多互金的走的一个传统BI的思路。

现在AI领域里面最成熟的是将答案交给机器,用一个有监督的训练方式,通过大规模的持续的重复数据的输入通过深度学习的层级网络把这些隐含的我们无法定义的金融属性特征表达出来。

最后讲一下业务的融合,ABC就是从Algorithm Bigdata Cloud 三者有效的融合提交。大家不需要掌握太多的前沿知识范畴也可以去实验深度学习。

大数据

PASS本身从去年已经出现了趋势性的平台,无论是谷歌,还是今年国内的几个大型的BAT厂商也都开始出现了PASS化的平台趋势,我们现在已经在两家大型的股份制银行已经投入了AI的SAS平台,去年也拿到了对AI平台的认可,和科大讯飞拿到了榜单。

他们也找到一种方式,AI作为科技部门和业务部门怎么沟通的机制,他们开始规模化的生产模型了,无论是做了模型,他们的生产能力规模化了,也开始出了标准规范,构建平台化的能力以后,跟业务交付是一个一个数据产品实现,数据产品的实现速度是非常快的可以是以周的形态生产一个一个小规模的数据产品。

天云是作为一个工具化的厂商推动AI的实施,作为一种通用型的方法对流程进行改造,能够以数据驱动的角度,替代以前传统的基于经验和规则的角度获取,我们自己也相信,就像15年前移动互联网出现的时候一样,能够以互联网APP开发的成本降低,AI也是这样,不是基于少数科学家的团队驾驭,通过AI的PASS化,以前没有用过AI的团队也可以快速地进入这个领域,那么以前使用传统SAS的这些数据挖掘平台的团队可以更高效规模化的使用,谢谢大家!

End.

责任编辑:吴金泽 来源: 36大数据
相关推荐

2017-01-23 13:38:08

2013-10-25 13:30:53

云计算

2021-12-29 14:57:47

德勤人工智能AI驱动型企业

2022-05-17 11:27:17

容器数据存储

2020-12-22 16:10:43

人工智能

2013-12-20 16:25:04

浪潮大数据

2022-02-11 10:16:53

5G通信数字化转型

2024-09-13 14:31:54

2019-03-01 18:03:19

AI人工智能大数据

2020-08-17 08:17:00

大数据人工智能技术

2021-10-07 20:24:16

AIBI大数据

2021-08-09 21:02:02

云原生规模化演进

2020-04-24 20:33:18

联通大数据

2018-07-04 14:45:22

2022-04-13 07:59:23

IOBIONIO

2020-06-12 12:53:17

互联网

51CTO技术栈公众号