中国工程论文网
代写工程论文
当前位置:工程论文网 > 控制工程论文 > 基于深度学习的互联网广告点击率预估方法控制工程研究

基于深度学习的互联网广告点击率预估方法控制工程研究

时间:2018-11-14 23:07来源:www.e-lunwen.com 作者:lgg 点击:
本文是一篇控制工程论文,控制工程是以控制论、信息论、系统论为基础,以工程应用为主要目的工程领域。其应用已遍及工业、农业、交通、环境、军事、生物、医学、经济、金融。
本文是一篇控制工程论文,控制工程是以控制论、信息论、系统论为基础,以工程应用为主要目的工程领域。其应用已遍及工业、农业、交通、环境、军事、生物、医学、经济、金融和社会各个领域。与机械工程、计算机技术、仪器仪表工程、电气工程、电子与信息工程等领域密切相关。(以上内容来自百度百科)今天为大家推荐一篇控制工程论文,供大家参考。
 
1 绪论
 
1.1 研究背景与意义
互联网的发展改变着整个世界,从门户网站到搜索引擎,从社交网络到电子商务,层出不穷的在线服务不仅方便了人们的生活,甚至颠覆了原有的产业。互联网广告在近十年保持着持续增长,随着新的需求所涌现出来的新的互联网广告模式弥补着传统模式的不足,新出现的互联网广告不像线下广告那样以宣传为主,而是以各种自动决策的付费信息的方式存在,既包括了传统的创意模式,且更加契合用户意图的新传播形式,新出现的互联网广告模式的关键不在于创意、策略等人工服务,而是以数据支撑的流量规模化交易为典型特点,也就是说机器和算法取代了人员与服务,也可以说数据与计算是互联网广告的灵魂,这也就产生了“计算广告”这一新名词[1]。如今这个影响巨大、产业遍及全球的方兴未艾的新兴产业,无论是国外Google 还是国内的百度、阿里等巨头,广告业务占据着这些巨头公司的大部分的收入,互联网广告的贡献与地位正在迅速上升。图 1-1 是 2017 年第二季度中国互联网广告的市场规模[2],图中可以看出中国互联网广告市场规模这几年保持着 25%以上的增长,而搜索广告作为百度等公司搜素引擎最主要的收入来源之一,图 1-2 是在百度搜索引擎输入“雨伞”的时候,会在搜索引擎返回的界面中返回相应的一些查询关键字信息,搜索广告和实时竞价广告是互联网广告主要的两种方式,二者不同的在于,搜索广告返回的是与用户输入查询关键字按照匹配程度从高到低排序的多条匹配信息的页面,而实时竞价广告是将广告直接对准到用户,并将广告返回给用户当前所在的媒体网站,直接返回给用户最匹配的一条广告,实现广告的精准投放。图 1-3 是实时竞价广告中用户、广告主、媒体三方的关系简易示意图,当用户在媒体平台上浏览信息时,媒体平台上就获得用户的一些信息,如根据用户浏览媒体网站内容获得用户的兴趣爱好,此时媒体网站就获得了一个广告位,广告主就可以对媒体网站中的用户推送广告,所以这种实时竞价推送机制是,广告主直接将广告推送对准到了用户,广告主根据用户的信息、媒体平台的上下文信息及广告的信息将广告主的广告推送给用户,在推送广告之前会预估用户会对广告发生点击行为的概率,然后决定是否会向当前用户推送广告,相比较于传统的广告,如发传单、贴海报等方式,互联网广告既可以避免资源的浪费,同时广告主通过用户对推送的广告的点击行为获取到用户对广告的反馈,促进广告主对推送广告机制的优化。
........
 
1.2 国内外研究现状
广告点击率预估精准度不但会对用户体验造成影响,而且更加关系到广告商和广告媒介的收益,广告点击率预估一直是互联网广告公司研究的重点内容之一,学术界目前也涌现出越来越多对广告点击率预估的研究。广告点击率预估可以看作分类问题来解决,其中最常用的模型是线性模型,如:逻辑回归(LogisticRegression,LR)[3]和在线稀疏学习算法(Follow the regularized Leader)FTRL[4]等,这些模型复杂度低,解释性强,但是表达能力有限,模型的性能依赖于人工构造特征,这也是目前工业界应用最广、模型最简单的方法。从构造组合特征出发,SRendle[5]提出因式分解机(Factorization Machine,FM),FM 能够构造任意两个特征维度间的组合特征,挖掘出这两个特征之间潜在的关系,增加了线性模型的表达能力,该方法通过对二项式矩阵做矩阵分解,将参数映射到隐空间,并将高维稀疏的特征向量映射到低维连续向量空间,有效地解决了大规模数据稀疏型的问题,在广告点击率及推荐系统中广泛使用[6],但是该模型是将来自于不同域的特征同等对待,无法充分挖掘出不同特征域中的信息。在 FM 模型基础上,Juan 等人[7]提出场感知分解机(Field-aware Factorization Machines,FFM)模型应用于点击率预估问题上,在因式分解机结构里加入域概念,把广告中性质相近或相同的特征归并一个域内,即增加新的域信息,不同的特征属于不同的域,通过该方法可以更好的挖掘特征中的隐含信息。Dave 等人[8]则提出梯度提升决策树(Gradient Boosting Decision Tree,GBDT)的预估方法,该方法基于弱基学习器通过迭代生成强的集成学习模型,并能够自动选择和生成特征,但是这一方法在遇到数据集规模大且稀疏的情况下,准确率难以得到保证且训练时间成本过高。Xinran He 等人[9]提出使用梯度提升决策树(Gradient Boost Decision Tree,GBDT)和逻辑回归的混合模型,利用 GBDT 的特征组合规则构造多维特征间的组合特征,挖掘出多维特征间存在的潜在关系,然后使用 LR 建立点击率预估模型,这种方法自动构造多维组合特征,在工业界有广泛的应用[10],但是 GBDT 模型的训练速度慢,尤其是训练数据量大的时候,另外 Shan 等人[11]提出把 CTR 预估看成是推荐系统的问题,使用高阶奇异值分解(High OrderSingular ValueDecomposition,HOSVD)方法将二维矩阵分解模型拓展到用户、广告主和媒体三维,并提出了一种改进的分解模型来解决 CTR 预估问题。以上模型都不能对特征间所有组合方式构造组合特征,并且这些模型都属于浅层结构难以提取特征间存在高度非线性关联。深度学习可以从特征中提取特征间存在高度非线性关联,进行复杂特征的学习[12],然而广告点击率预估问题中的原始特征是多域类别特征,如用户域特征:用户所在城市(北京,上海)等;广告域特征:广告类别(体育品牌,时尚品牌)等;媒体域特征:媒体平台(新浪、搜狐)等,而深度学习是不能直接在类别特征中习,Zhang 等人[13]提出了用循环神经网络(Recurrent NeuralNetworks,RNN)预估广告点击率的方法,利用循环神经网络记忆信息并应用于当前输出的特点进行预估,Graepel 等人[14]提出改进的贝叶斯网络模型并用于微软的必应搜索引擎中的 CTR 预估。
..........
 
2 计算广告点击率预估相关技术
 
2.1 计算广告发展及现状
计算广告提出了通过运用技术和数据手段实现上下文、广告和用户三者之间最优匹配的核心问题,为了实现这一目标,经过长期的发展,逐渐形成了程式化购买流程,将计算广告各个环节进行精细的流程拆分,在技术和数据层面对计算广告各个环节实现重构,传统的广告公司依靠人工服务去执行计算广告的每一个环节,不但成本高,而且效率低下,随着计算系统对用户和广告的匹配近乎苛刻的需求,如广告系统需求在 100 毫秒甚至更短的时间内通过计算找到合适广告位上的合适用户,使用人工的方法几乎是无法完成这些需求[21]。程式化交易在本质上而言就是运用最新的信息计算技术和大数据处理技术,低成本、高效率地实现受众定向或流量拆分,从而完成广告主从购买粗放的广告资源向购买精细的广告受众转变,通过广告技术平台自动的执行广告资源购买的流程,其过程依赖于需求方平台和广告交易平台,并通过实时竞价的交易方式完成购买,它把从广告主到广告公司再到媒体平台的广告投放过程进行了程序化的改造,实现整个数字广告产业的自动化,通过技术和数据进行程式化交易及受众定向并优化广告的购买和投放,并且投放不在按照媒体的广告为进行投放,而是直接对接到受众,将广告放到合适的位置来获取最大的收益,图 2-1 是传统的互联网广告和计算广告中的程式化流程[19]。
......
 
2.2 点击率预估的重要作用
2.1 节中介绍广告的点击率是在需求方平台模块中完成的,而需求方平台的主要任务是对媒体网站的广告位进行竞价,而点击率预估直接影响竞价的高低,如果将点击率预估高了,那么需求方平台就会以较高价格去竞争到这个广告位,就会导致广告推送给了不匹配的用户,且广告主花费了多余的费用,如果将点击率预估低了,那么需求方平台就会以较低价格去竞争这个广告位,那么需求方平台可能就会失去这个广告位,就会导致广告主失去了一个匹配的用户,所以说点击率预估在程式化交易中决定着广告的精准投放,这也是点击率在计算广告中重要的其中一个因素,此外点击率也会影响着广告的收益,互联网广告市场上主要的几种广告计费模式有,按照千次展示结算(Cost Per Mille,CPM),供给方与需求方按照千次广告展示的计费标准,按照点击结算(Cost Per Click,CPC),这种定价方式下市场、供给方、需求方三方的分工有着清晰的合理性,这基本在广告市场的最主要也是接近垄断的结算方式,按照销售订单数、转化行为数或者投入产出比来结算(Cost Per Sale,CPS )/(Cost Per Action,CPA)/ROI 结算,这些也都是按照转化付费的一些变种,按照广告展示的时间收费(Cost Per Time,CPT),这主要是针对大品牌广告特定的结算方式,CPC 是目前互联网广告最主要的结算方式,其方式为单次点击广告的价格和总的点击次数共同决定,在单次点击价格不变的前提下,CPC 是由广告总的点击次数所决定,所以提高广告点击预估精度就变得异常重要。广告点击率预估是基于用户、广告、媒体平台等历史数据下,借助数据分析、大数据技术及机器学习模型对候选广告进行排序预测,将排序最前面(点击率预估越准确)的广告展示给合适的用户,实现用户意图与广告最优匹配,进而提升用户的体验,增加广告的收益。
..........
 
3 基于集成学习的广告点击率预估方法研究......15
3.1 引言...............15
3.2 集成学习的广告点击率预估模型框架..............15
3.3 集成学习.......16
3.4 Bagging 与随机森林........... 17
3.4.1 Bagging.......... 17
3.4.2 随机森林.......18
3.4.3 基学习器结合策略.............18
3.5 Boosting 与梯度上升决策树..........19
3.5.1 梯度上升决策树......20
3.5.2 极限梯度上升模型.............20
3.6 实验与结果分析......22
3.7 本章小结........27
4 基于深度学习的广告点击率预估方法研究......29
4.1 引言...............29
4.2 深度学习广告点击率预估模型框架.......29
4.3 深度学习简述..........30
4.4 深层神经网络性能提升................34
4.5 堆栈自编码器点击率预估实验与结果分析......37
4.6 本章总结.......44
5 总结与展望..............45
5.1 全文总结........45
5.2 展望................45
 
4 基于深度学习的广告点击率预估方法研究
 
4.1 引言
在 1.2 节介绍了 FM、FFM、以及以 FM 为基本模型构成的深度神经网络广告点击率模型,而 FM 的缺点是只能构造两个维度的组合特征,而第三章介绍的集成学习模型能够构造多个维度之间的组合特征,本章提出使用集成学习模型构造多维组合特征,结合深层神经网络构造复杂的点击率预估模型,图 4-1 是基于深度学习广告点击率预估流程图,从原始特征出发,先利用 2.4 节中介绍的方法对对原始特征进行简单的处理,构造简单的特征,然后训练集成学习模型,接着利用集成学习模型去构建多维组合特征,最后在多维组合特征基础上训练深度学习模型,并进行点击率预估,本章主主要介绍图 4-1 中第三步骤和第四步骤中的集成学习模型构造组合特征的方法。点击率预估数据集涉及到多域类别特征,该类特征中隐含着丰富的信息,而传统的点击率预估算法,如逻辑回归等浅层模型,其模型本身不具有提取数据及隐含信息的能力,点击率预估模型性能的提高主要依靠人为经验去构造特征,深层神经网络具有优异的特征提取能力,提取数据集中潜在的、抽象的信息,每一层神经网络完成输入数据的非线性映射,多层神经网络可以提取特征间的高度非线性特征关系。图 4-2 是基于深度学习点击率预估模型框架,点击率预估模型框架主要分为三部分:在第三章中基于集成学习方法的广告点击率预估的实验中对随机森林、梯度上升树和极限梯度上升树模型三个模型的性能进行对比,并得出结论极限梯度上升树模型在特征构造和训练速度方面都优于梯度上升树及随机森林,所以使用集成学习极限梯度上升树模型构造基础多维组合特征,然后使用自编码器在多维组合特征进行高层特征提取,学习那些潜在的抽象的有效特征;最后建立点击率预估模型。
........
 
总结
 
互联网广告近十年了保持着高速的发展,不同互联网模式的满足这日益出现的新的需求,大数据与机器学习等技术的发展,使得新的互联网广告模式越来越精细化,广告的投放也越精准,而广告点击率的预测,作为广告流量变现的最重要方式之一,影响着广告主、媒体等的收益,对于广告主点击率预估的精度,影响着广告主的广告与所推送的用于是否匹配,而对于媒体,广告点击率影响着媒体当前的广告位所出现的广告是否与用于所匹配而直接影响到用户在媒体网站上的体验,所以广告点击率的研究是有意义的。本文的研究从分析数据、特征工程出发,研究构造组合特征及提取高层特征的方法,首先从集成学习方法出发分析基于 Bagging 方法的随机森林和 Boosting方法的梯度上升树模型建立点击率预估模型,并通过模型理论及实验分析Boosting 方法更擅于解决点击率预估问题,并针对经典点击率预估方法梯度上升树和逻辑回归的组合模型进行实验分析,指出该经典方法的劣势,并提出使用梯度上升树的改进算法 XGBoost 与逻辑回归解决点击率预估问题,在经典的点击率预估方法中 Boosting 集成方法(梯度上升树)主要用于自动构建组合特征,从而提升逻辑回归点击率预估模型,而逻辑回归作为浅层线性模型,对提取特征间的高度非线性关系等隐性信息方面,逻辑回归有很大缺陷,本文继而提出基于栈式自编码器方法建立点击率预估模型,并且通过实验,XGBoost 与栈式自编码器方法的混合模型,在 Log_loss 值和 AUC 评价指标上,都优于梯度上升树与逻辑回归以及 XGBoost 与逻辑回归的混合模型,最后给网络中加入随机失活、批归一化及训练提前结束的提升深层神经网络的方法提升栈式自编码器模型,获得更加稳定,泛化能力更好的栈式自编码器点击率预估模型。
..........
参考文献(略)
(责任编辑:gufeng)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
栏目列表
点击提交代写需求
点击提交代写需求
点击提交代写需求
推荐内容