机器学习+NLP+VR:重塑二手车买车新场景

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6

0b1db8d22e69bec49f8182af648a81e9.gif

二手车交易的核心问题在于车况信息不透明。中国二手车交易市场制度尚不完善长期以来缺少行业公认的车辆估值标准和车况检测标准二手车商提供的估值和车况信息不够透明。这导致用户和车商交易双方都陷入了循环困境用户对车商信任不足购买意愿低。二手车商缺少潜在客户线索为招揽客户不惜采用虚假信息使得市场环境进一步恶化。

现阶段多方面的车辆信息已实现了物理层面上的集成但在语义内容的解析和信息的视觉呈现上还有待深入研究。用户需要亲自阅读碰撞、维保、电池报告来理解其中的内容报告内容的丰富性、专业性与可读性将对用户的交易决策产生重要影响。例如用户浏览APP时被汽车外观、内饰的照片所吸引却可能因不了解汽车车体结构和车况排查标准而无法准确理解相应的碰撞、维保、电池报告中所包含的众多内容最终导致交易转化失败。

为推动车况信息的透明化汽车之家二手车不断完善优化“车史档案”使二手车出险记录查得率达到98%、维保记录查得率达到85%同时还有天天拍车平台开展线下检测业务获取真实的车况数据完善档案数据。

9d028d951a8add1d203a5ffcca568f47.png

传统二手车买车场景 VS 数字化二手车买车场景

通过利用数字能力和数据资源不断推动车况信息的透明化、标准化使用户更易了解车况信息提高用户决策效率和线索转化效率。具体来说结合机器学习、自然语言处理和VR全景等技术我们重塑了二手车购买的业务场景将二手车车源在估值、车史、VR全景展示三个维度的信息进行了集成与融合以交互式可视化的形式呈现给用户使用户更快捷、直观、详尽了解二手车车源的车况和估值降低用户的信息搜寻成本和信息理解成本促进用户做出交易决策。

1587ba2a42e35509c3f65aa29e990627.png

图1 传统二手车买车场景和数字化二手车买车场景对比

如图1所示传统的二手车交易需要用户在不充分了解车辆信息的情况下与二手车商预约线下看车再根据看车人的经验知识做出主观的评断。而数字化的二手车买车业务则是用户直接通过PC、APP从云端获取标准化的车辆信息充分了解车辆信息、评估后再决定是否线下看车有效提高线下看车的效率。汽车之家二手车在为用户创造数字化体验的过程中除了促进购车交易也提高了买车新模式的商业增长。

0b20f55b76f6e0a02cdb694dda2d0303.png

买车新模式结构化数据+半结构化数据+全景数据

ad3d2b09610518ae3363c3975900726c.png

图2 二手车买车业务架构 

二手车买车业务流程架构如图2所示。结构化的数据来自从汽车之家二手车交易平台中的二手车的车辆数据、交易记录等数据。其中二手车的车辆数据中包括省份、城市、车型、上牌时间、行驶里程、发布时间、过户次数等各种数据二手车交易记录中包括成交价格、交易类型、检测车况等数据。这些结构化的数据按用于估值模型的训练预测车辆在当前及未来的价格趋势。

半结构化的数据是指从第三方获取的车辆出险记录4S店维修保养记录、天天拍线下检测记录以及电池数据记录这些记录具有多种数据类型需要转化为统一的数据格式解析其中的语义内容抽取结构化的信息。对于新能源车的电池数据经过加工解析生成电池在线检测报告综合得出维保、碰撞、电池等多维度的车史报告。

全景数据是指通过VR外观相机和VR内饰相机所拍摄的原始图像数据原始图像数据经过VR拍摄组件生成VR图片再通过APP、H5端的VR播放组件进行展示。从非结构化数据中抽取出的结构化信息除了形成车史报告也可以与VR中图像进行跨模态的语义对齐例如车史报告中如提到“左前门碰撞”则可以在VR展示中提示出左前门的状态异常。估值、车史和VR展示将共同呈现于用户界面。

当用户浏览通过PC、APP浏览二手车车源详情时可在用户界面查看车辆估值信息查询车史报告VR全景看车从价值、车况、外观内饰三个角度来评估车辆是否符合需求决定是否购买或留下购车线索。

6acb3f6edfd6e46439644cdd05ba02d9.png

技术实现难点

估值车辆的数据十分复杂通常包括了区域、车龄、里程数、车型、车系、外观、内饰、车况等多达上百维的特征信息并且这些特征存在着数据的部分缺失或特征间多重共线性的复杂关系给二手车价格的预测模型带来三大挑战模型预测的准确率、模型推理的计算效率、模型的可解释性。虽然现有的机器学习技术如神经网络或梯度提升树模型可以端到端地处理复杂特征但车辆特征数据的复杂性使得此类方法不适合用于二手车价格的预测已有的二手车估值模型准确率较低。为解决上述三个问题本估值模型采用了分而治之的思路将车源按照省份、城市和车型分组再将分组后的车源数据中与时间相关的数据进行量化处理根据相关性筛选特征训练多元线性回归模型。

VR全景现有的VR外观技术方案是采用单反相机+长焦镜头拍摄在自带转盘的影棚内进行车辆外观的360°拍摄或采用单反相机+鱼眼镜头拍摄车内使用单反进行4面拍摄然后采用人工后期处理的方式完成全景360°图像的生成。缺点在于单反+影棚+转盘造价高条件苛刻拍摄车辆需要专人负责运输效率低后期图像处理繁琐产出一辆车的外观+内饰图片过程长对于人员专业度要求苛刻。而通过手机APP引导拍摄+后期人工处理的方法所得图像不够精准后期人工处理耗时长。二手车VR看车全新设计研发了基于模型、车辆轮廓识别、陀螺仪、磁场传感器综合性的对被摄车辆和场地进行计算给拍摄者提供便捷的定位拍摄方案。

车史档案维修保养记录、碰撞记录和电池充放电记录的数据也同样面临着数据维度巨大、数据质量不一、缺乏规范化的问题。比如维保记录和碰撞记录有着多种形式的数据来源既有半结构化的记录表单也有记录文档甚至还有拍摄或扫描的文档图像需要对这些数据源进行加工处理规范为统一格式的数据形式。在车况信息的抽取过程中需要根据领域专家知识明确需要抽取的信息类型建立车况评估和电池状况评估的知识模型以及相应的标准化术语词表建立车况和电池的评分、评级模型。

4cf73267553cf8a6e89ae10808f16e10.png

实现方法

  • 估值

16ef30e84551be0db470b97ffd8607f1.png图3 估值模型 

对车辆进行估价是二手车交易的重要环节在交易过程中需要根据车辆信息对二手车进行评估定价获得较为准确估价区间。目前我们基于汽车之家的二手车车源数据研发了一种车辆估价模型,来满足商家、用户对二手车车源价格的评估。

我们的车辆估价模型主要使用的车源数据包括地理区域、车型、行驶里程、上牌时间、发布车辆时间等首选我们需要车源数据中提取地理区域和车型并按照地理区域、车型对车源数据中的其他维度数据进行分组得到分组数据再将分组后的车源数据中与时间相关的数据进行量化处理处理后的各组车源数据作为训练数据训练多元线性回归模型模型定义如下

5953bfbc2e96d6c2c0f41741f1fd0a71.png

其中Y为估价θ0为截距变量t1为上牌时间变量t2为行驶里程变量t3为用户发布车辆信息时间θ1、θ2、θ3为对应的回归系数。

3b5741e7aa885b7dd0616a2c992a7095.png表1 不同地理区域、不同车型对应估计模型的截距与回归系数

构建多个针对各个地理区域下的、不同车型的车辆估价模型即每个省份对应多个车辆估价模型每个省份、城市、车型下对应一个车辆估值模型。由于不同省份、车型的车辆价格存在一定的差异因此针对不同地理区域、车型训练不同的估值模型可以有效减少预测误差使模型估计的准确性更高。得到针对各个地理区域下的、不同车型的截距与回归系数。

10735edfa262e79e6598481ed9e581e2.jpeg

26cd7dbe389de7ba04def0b6b9778c40.jpeg

图4 根据信息预测估值&历史成交和建议

因此本估值模型本质上是一个集成模型顶层是按省份、城市和车型进行的分类模型底层是对应类别的多个预测模型。当利用训练得到的车辆估价模型进行估价时首先根据从客户端获取的地理区域、车型选择与地理区域、车型相对应的车辆估价模型再将从客户端获取的上牌时间、用户发布车辆信息时间、行驶里程输入以选取的模型模型输出对应的高准确性的车辆估价。

  • VR全景

在VR技术逐渐普及可为用户提供新颖的内容展现形式的背景下。因二手车一车一况通过VR技术采集商家各辆车的内外图像数据随车辆信息发布以后可为用户提供更加直观、真实的车辆状况展示线上车源360°展现外观、内饰无死角细节浏览提升浏览体验。提高用户决策及线索转化提升到店转化率 。同时也为商家提供了高质线索和用户到店率。  

5b04ac13782688636666d27572774f4a.png图5  VR全景拍摄技术流程

拍摄方案载入用户选择的对应年代款的车辆模型图30张一套360°外观图需要拍摄30张不同角度的照片以车辆为圆心12°为一个点进行站位点划分站位点与模型图角度进行强关联每张图对应到一个站位点。使用手机内置陀螺仪+电子罗盘经过计算可为拍摄者提供精准的角度位置信息供拍摄者参考自身占位是否与模型图匹配通过图像轮廓实时识别能力为拍摄者提供精准的距离指引免除人工丈量设置拍摄点位的繁琐步骤当拍摄者按下拍摄按钮后程序对拍摄的图片进行分析识别保留车辆轮廓内的车辆清晰图片对轮廓外的背景区域进行20%的高斯模糊图层生成并对边缘进行羽化处理拼合所有图层得到最终的一个角度的外观图。本外观拍摄方案简化了人工图像处理步骤通过智能识别算法全自动生成预期的车辆清晰背景虚化的外观图片极大地简化了车辆外观360°的拍摄流程10分钟内即可完成外观和内饰拍摄并直接上传平台展示。

28cb19408f7a7889ffc659eb9c08597b.png

图6 VR全景多平台一体化集成方案

适配多端拍看一体化技术方案(手机App拍摄 + App双端VR播放组件 + H5VR播放组件):  1. 自研手机360°VR外观拍摄App组件2. 自研集成化内饰VR拍摄组件, 支持多品牌VR相机连接拍摄3. 自研App原生外观播放器控件4. 基于ThreeSixty二次研发的外观H5播放器; 5. 基于Kpano的内饰360°H5内饰播放器。

  • 车史档案

cf6f097ed3350e2ef1a324b7e48f3c0e.png

图7 车史报告生成

93f5cbf11e7cb1a98aef1479d6392492.png

图8 部分车史报告示例

10cdbedaa563a410860a7eb51376f0bb.png

图9 部分电池报告示例

车辆出险记录4S店维修保养记录和天天拍线下检测记录数据形式多样部分图片数据需要先通过OCR转换为统一的文档格式再从文档中抽取结构化的信息。首先建立车况评估和电池状况评估的知识模型以及相应的标准化术语词表解决了哪些信息需要被抽取信息彼此之间的关系是什么信息该如何利用的问题。具体来说NLP模型抽取出时间信息里程数、维修/理赔金额等数量信息实体信息汽车关键部位如A柱、B柱等及相应的方位词如正前方、前方左侧等和动词如切割、钣金、焊接等并根据句法标注建立实体、方位词和动词之间的关系构成形如“左-A柱-焊接”的语义短语这样的语义短语是描述车辆碰撞维修历史的最小语义单元。由于原始记录的不规范或OCR识别过程中的误差记录文档对汽车关键部位的描述可能不够准确或不够完整还需要依据预先建立的标准关键部位名词词表、动词词表、方位词词表进行规范化处理得到标准化的关键部位名词、动词以及相应的语义短语。

3af2c93cb29d6f64b2a962a11b2cab09.png

39190ef4af0a5b1c474b0c58826638f8.png

图10 车况排查分类的知识模型 & 图11车史报告与VR图像的语义对齐

根据检测部位和事件类型将车况排查分为骨架排查、加强件排查、水泡排查、火烧排查、里程排查、外观部件、变速箱/发动机排查、安全气囊排查8大维度。其中外观部件的排查信息可以与VR图像建立语义上的对齐进而在VR层面进行视觉上的呈现。根据标准化的关键部位名词与动词关系制定了不同维度的车况评级规则将抽取出的标准化语义短语映射为“ABCD”四个等级评级最后综合8个维度的评级和车辆的出险记录、理赔金额、新车指导价格等信息对车况做出综合的评估分为“优、良、中、差”四个等级。从抽取的语义短语、事件和数量信息生成车辆的碰撞历史明细、维修保养历史明细和历史里程明细。

随着新能源汽车市场的迅猛发展汽车之家二手车也积累了数万的新能源车源车主和对新能源车源有买车欲望的用户。除了获取车辆的维保、碰撞、里程车史新能源车用户还对电池性能和电池续航能力的评估有着强烈需求。为此二手车联合北理新源利用新能源车电池大数据打造了新能源二手车智能车况云平台将电池数据进行加工处理和评级在汽车之家、二手车之家等相关产品上一键生成新能源电池一站式在线检测报告实现电池性能实时评估和续航里程在线检测。

电池检测报告记录了电池出厂数据并对电池评估数据、充放电数据、行驶数据和异常情况数据进行综合排查评估电池性能计算出参考续航里程。综合解析以上维度的数据构建了电池状况评分和评级模型预测电池性能的评分并按照评分划分为优、良、中、差四个等级。

9bf57200d74e36fd076cc4c1e3775891.png结语

针对二手车车辆数据和视觉展示进行了深度探究我们建立了标准化的数据处理加工流程、方法模型以及可视化展示形式。面对海量的复杂的车辆数据以分治思想建立估值的集成模型极大提高了估值的准确性使用户能够准确了解当前车辆的价值建立标准化的车史知识模型通过算法模型和规则方法将碰撞、维保、电池的信息结构化特别是新能源车电池在线检测报告在业内处于创新领导地位。在视觉展示层面创新地利用软件技术解决了传统VR技术过于依赖硬件和人力导致的成本偏高时间偏长的问题使商家能够轻松地拍摄360°全景影像提升购车用户的浏览体验。三个维度的信息经过数字技术解析并集成融合重塑了二手车买车的业务数字化场景。

二手车买车业务是我们二手车非常关键的业务线在用户做出交易决策的过程中可信且完善的车辆信息以及信息与用户的交互起到至关重要的作用。汽车之家二手车的愿景是持续推动业务的数字化转型打造二手车流通的全数字化系统实现非标商品标准化过程透明化建立起一套赋能二手车行业数字化转型的新模式。

827f7d61e0e1d606640a7d7695730d0f.gif

推荐阅读

魔法成为现实武大学生团队造出了“隐身衣”成本不到 500 元

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6
标签: 机器学习