京东郑志彤:如何利用机器学习优化数亿条商品数据

原创
CIOAge 机器学习
51CTO WOTI峰会后,记者采访了京东商城基础平台部首席研究员郑志彤,他为大家介绍机器学习在电商领域的场景化应用。

【51CTO.com原创稿件】2017年7月21日-22日,由51CTO主办的以人工智能为主题的WOTI2017全球创新技术峰会在北京富力万丽酒店隆重举行。峰会期间,30+AI明星,数十场围绕人工智能主题的精彩演讲与圆桌论坛缓缓揭开面纱。会后,记者采访了京东商城基础平台部***研究员郑志彤,他为大家介绍机器学习在电商领域的场景化应用。

京东的数据问题

京东拥有大量商品数据,包括图像、文本、视频和语音。这些数据不仅是多模态的,而且是非结构化的目前,京东数据主要存在以下两点不足:

1.商品数据质量参差不齐。电商商品数据是多模态的,噪音多;其次,商家为了提高商品搜索率会使用大量词汇描绘商品,容易造成词语堆砌的现象,致使商品数据的录入难以管理。

2.用户反馈数据没有得到有效利用。用户在评价商品时,文字评论是负面评价,但是,***评分却是五分好评。在这种情况下,机器很难理解商品的真实好坏,因此就会接收不准确的信息。如果不对评论区的信息进行清洗,用户对商品的实际评价就难以被机器理解,也不利于后续商品的推荐。

机器学习在京东的应用

      为了构建良好的商城生态,京东利用机器学习技术从信息合规、商品基本属性优化、电商短文本理解、商品类目的自动识别、多场景信息获取五个方面来逐步优化并解决现阶段存在的问题。

一、电商数据的信息合规 

很多信息如果输入不正确,就会违反广告法或者价格法。例如,上图中的“***质量标准”是违反广告法的,下面的“***步”虽然没有违反,但”销量***“的用词是违反的。从这个案例中,郑志彤意识到,信息合规不仅仅要借助关键词,还需考虑上下文的关系。于是,京东商城就做了上下文的文本分类,这使得无效审核下降73%。

价格合规方面,详情页里有价格信息,上图的Banner中还有一个价格,两个价格如果不一致就属于不合规。为了提高审核效率,京东商城借助OCR(Optical Character Recognition)识别技术来实现价格合规。

京东机器学习

京东端到端的通用字符串识别系统

如图所示,通过CNN model获得图片的特征与基于大规模语料数据训练循环神经网络(LSTM)的通用语言模型相结合,再通过基于时序分类(CTC)输出。端到端的文本检测与识别算法克服了传统OCR鲁棒性不足的问题,即使对于京东网站上各种压缩失真和版面复杂的图片,也能有很好的文字识别效果。

目前, OCR识别系统每天可以自动识别出数千个价格不一致的信息。同时,图片文字识别出的语句通过文本合规后,能自动发现包含违禁语义的图片。

第二、图文不一致体验

属性间的不一致对上层系统影响巨大,搜索、推荐调用错误数据,结果也会随之错误。例如,一张图片中女Model提着红色手包,穿着白色上衣,蓝色裤子,这种图片直接识别不能分别得到三个主体的颜色分类。

 

机器学习

而京东商城则是选用了一些成熟模型,在获取一张图片的属性后,例如颜色、袖长、裙长、图案,通过设定优先识别规则,比如颜色,以此类推,逐渐识别商品的所有颜色分类。郑志彤表示,“我们从图片上抽取商品属性主要覆盖了四个一级品类,准确率能到95%左右,规模大概是累计了两亿条以上的商品属性和一亿多条的SKU(Stock Keeping Unit)。”

机器学习

      第三、电商的短文本理解

京东的商家为了提高商品销量,在商品命名时往往会使用大量无关词语,这不利于商品数据的录入与管理。因此,京东商城必须对商品的标题进行分词和重组。为了从源头上解决词汇堆积问题,据郑志彤介绍,他们主要采用了如标题分词、实体命名识别、短文本理解、标题重组等一系列的机器学习技术。

第四、类目自动识别 

机器学习

商品数量达数亿条,又有近4000多条的三级类目分类,这使京东在早期录入数据时耗费了大量人力。目前,京东商城主要采用了文本分类的方法,即文本被分到一个树状的类别图里。早期,京东商城尝试过基于字母级别的深度卷积神经网络(DCNN)分类,然后又试过Word2vec,即Google开源的一款用于词向量计算的工具、长短期记忆网络(LSTM),通过大量的对比实验,发现效果基本相当。***,京东商城自己编写了***文本分类算法(BTC),实现了快速分类的效果,准确率高达99%。

机器学习

 

第五、多场景信息获取

为了构建完善的知识图谱,用搜索、商品控制、列表页推荐、商家管理和对话系统等场景,在实现价格合规、图文属性的校验,电商的短文本识别与类目自动识别后,还需要对多场景信息进行抽取,包括详情页OCR、客服聊天、用户评论等信息。

机器学习

 

1、详情页OCR。”我们在OCR里面做了很多探索,最初是用了CER(Contrasting Extremal Region)的方法,最近可能要使用物体检测算法,结合CTC模型来分割识别。”郑志彤说.

2、客聊天最初京东做了一个Logistic回归(LR)的分类,后来做了一些降维处理,再通过数据通信网络(DCN)进行分类,降低了30%的错误率。

      3、用户评论。在京东商城中,有一些评论属于无效信息,要进行清洗。还有一些***评论评了一星,文本写的是五星,所以***评价是不准确的。因此,京东商城通过语言模型,对评论进行关键词的抽取与聚类,获取频次***的短语以及评论内容,同时,将意义不大的评论折叠在评论***,使得用户在购物时能看到真实有效的评论。

后记:

***,郑志彤提到,京东主要用的深度学习平台是TensorFlow、MXNet、Torch、Caffe,另外,他们会实时关注一些业内牛人发表的内容,比如深度学习的三大牛人Hinton、Yann LeCun、Bengio,然后将他们论文中的算法运用到项目当中。

在未来,他希望能够利用深度学习技术,做好图像方面的内容,同时借助神经语言程序学 (Neuro-Linguistic Programming)能在多轮次对话系统有更大的突破。

 [[198239]]

郑志彤,京东商城基础平台部***研究员。主要负责机器学习研发与应用; 在基础平台部,将深度学习应用到了京东商城一系列业务场景中,包括商品信息合规检测,知识抽取,语义理解与对话系统等。郑志彤先后毕业于中国人民大学和清华大学,拥有十余年机器学习算法研究经验。

【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】

 

责任编辑:吴金泽 来源: 51CTO
相关推荐

2016-04-11 14:35:59

机器学习数据挖掘数据模型

2016-11-30 13:23:39

京东商品搜索商品搜索引擎

2022-05-16 20:18:41

商品数据监控

2019-07-29 10:22:34

数据中心人工智能机器学习

2021-03-29 23:12:51

机器学习人工智能游戏

2018-11-15 09:00:00

机器学习人工智能数据中心

2020-12-25 15:24:24

人工智能

2022-06-02 15:42:05

Python机器学习

2021-06-17 10:27:03

人工智能AI机器学习

2021-02-20 22:15:44

Android 代码操作系统

2017-11-16 09:58:43

机器学习大数据技术算法

2018-03-07 09:35:08

Python淘宝数据

2020-11-16 11:30:34

MySQL数据库MongoDB

2017-09-08 09:47:06

深度学习应用实践

2020-03-18 07:11:24

实时同步搜索

2014-04-15 11:15:00

2017-10-25 20:42:13

频播放量秒拍链路优化

2020-05-26 18:50:49

机器学习数据预测标签

2016-11-08 09:16:54

数据仓库优化

2021-01-21 22:18:59

机器学习加密货币数据

51CTO技术栈公众号