个性化推荐的可解释性研究(txt+pdf+epub+mobi电子书下载)


发布时间:2020-06-05 01:31:40

点击下载

作者:张永锋

出版社:清华大学出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

个性化推荐的可解释性研究

个性化推荐的可解释性研究试读:

版权所有,侵权必究。侵权举报电话:010-62782989 13701121933

图书在版编目(CIP)数据

个性化推荐的可解释性研究/张永锋著.—北京:清华大学出版社,2019(清华大学优秀博士学位论文丛书)

ISBN 978-7-302-53196-8

Ⅰ.①个… Ⅱ.①张… Ⅲ.①聚类分析-分析方法-研究 Ⅳ.①O212.4-34

中国版本图书馆CIP数据核字(2019)第128644号责任编辑:王 倩封面设计:傅瑞学责任校对:赵丽敏责任印制:宋 林出版发行:清华大学出版社网  址:http://www.tup.com.cn,http://www.wqbook.com地  址:北京清华大学学研大厦A座邮  编:100084社总机:010-62770175邮  购:010-62786544投稿与读者服务:010-62776969,c-service@tup.tsinghua.edu.cn质量反馈:010-62772015,zhiliang@tup.tsinghua.edu.cn印刷者:三河市铭诚印务有限公司装订者:三河市启晨纸制品加工有限公司经  销:全国新华书店开  本:155mm×235mm印  张:13.25插  页:1字  数:216千字版  次:2019年8月第1版印  次:2019年8月第1次印刷定  价:99.00元产品编号:077785-01内容简介

个性化推荐技术已经成为互联网应用的基础技术之一,它广泛应用于电子商务、搜索引擎、社会网络、新闻阅读等互联网服务中,成为用户获得信息的重要途径之一。本文以个性化推荐的可解释性为主题,在数据、模型和经济效益三个层面上展开探讨。在数据上,个性化推荐的评分矩阵可以等价描述为用户-物品二部图上的社区发现结构;在模型上,个性化算法可以给出与推荐模型紧密相关的个性化推荐理由;在经济效益上,个性化推荐可以作为互联网商品服务资源分配的基本手段,实现互联网社会福利的最大化,从而提高互联网经济系统的效益。图4.17 基于搜狗浏览器插件的推荐系统(a)基于搜狗浏览器插件的推荐;(b)产品属性词云。~上属性词“营养”的百分比时间序列预测示例图4.18 四个数据集DD14: : : DK, p, d, q = 6, 4, 1, 3;(b)DK, p, d, q = 6, 4, 1, 5;(c)DK, p, d, q = 6, 3, (a)123: DK, p, d, q = 7, 3, 1, 2。K为算法最终确定的傅里叶项阶数,(p, d, q)为算1, 2;(d)4法最终选定的ARIMA项阶数;蓝线为在每一个季度上的预测时间序列,深灰色和浅灰色分别为80%和95%置信区间。图5.5 协同过滤算法(CF)与总福利最大化模型(TSM)效果对比图5.6 在总福利(TS)指标上总福利最大化模型(TSM)与协同过滤算法(CF)的对比N表示top-N推荐列表被用户完全接受时所产生的总福利。TS@一流博士生教育体现一流大学人才培养的高(1)度(代丛书序)

人才培养是大学的根本任务。只有培养出一流人才的高校,才能够成为世界一流大学。本科教育是培养一流人才最重要的基础,是一流大学的底色,体现了学校的传统和特色。博士生教育是学历教育的最高层次,体现出一所大学人才培养的高度,代表着一个国家的人才培养水平。清华大学正在全面推进综合改革,深化教育教学改革,探索建立完善的博士生选拔培养机制,不断提升博士生培养质量。

学术精神的培养是博士生教育的根本

学术精神是大学精神的重要组成部分,是学者与学术群体在学术活动中坚守的价值准则。大学对学术精神的追求,反映了一所大学对学术的重视、对真理的热爱和对功利性目标的摒弃。博士生教育要培养有志于追求学术的人,其根本在于学术精神的培养。

无论古今中外,博士这一称号都是和学问、学术紧密联系在一起,和知识探索密切相关。我国的博士一词起源于2000多年前的战国时期,是一种学官名。博士任职者负责保管文献档案、编撰著述,须知识渊博并负有传授学问的职责。东汉学者应劭在《汉官仪》中写道:“博者,通博古今;士者,辩于然否。”后来,人们逐渐把精通某种职业的专门人才称为博士。博士作为一种学位,最早产生于12世纪,最初它是加入教师行会的一种资格证书。19世纪初,德国柏林大学成立,其哲学院取代了以往神学院在大学中的地位,在大学发展的历史上首次产生了由哲学院授予的哲学博士学位,并赋予了哲学博士深层次的教育内涵,即推崇学术自由、创造新知识。哲学博士的设立标志着现代博士生教育的开端,博士则被定义为独立从事学术研究、具备创造新知识能力的人,是学术精神的传承者和光大者。

博士生学习期间是培养学术精神最重要的阶段。博士生需要接受严谨的学术训练,开展深入的学术研究,并通过发表学术论文、参与学术活动及博士论文答辩等环节,证明自身的学术能力。更重要的是,博士生要培养学术志趣,把对学术的热爱融入生命之中,把捍卫真理作为毕生的追求。博士生更要学会如何面对干扰和诱惑,远离功利,保持安静、从容的心态。学术精神特别是其中所蕴含的科学理性精神、学术奉献精神不仅对博士生未来的学术事业至关重要,对博士生一生的发展都大有裨益。

独创性和批判性思维是博士生最重要的素质

博士生需要具备很多素质,包括逻辑推理、言语表达、沟通协作等,但是最重要的素质是独创性和批判性思维。

学术重视传承,但更看重突破和创新。博士生作为学术事业的后备力量,要立志于追求独创性。独创意味着独立和创造,没有独立精神,往往很难产生创造性的成果。1929年6月3日,在清华大学国学院导师王国维逝世二周年之际,国学院师生为纪念这位杰出的学者,募款修造“海宁王静安先生纪念碑”,同为国学院导师的陈寅恪先生撰写了碑铭,其中写道:“先生之著述,或有时而不章;先生之学说,或有时而可商;惟此独立之精神,自由之思想,历千万祀,与天壤而同久,共三光而永光。”这是对于一位学者的极高评价。中国著名的史学家、文学家司马迁所讲的“究天人之际,通古今之变,成一家之言”也是强调要在古今贯通中形成自己独立的见解,并努力达到新的高度。博士生应该以“独立之精神、自由之思想”来要求自己,不断创造新的学术成果。

诺贝尔物理学奖获得者杨振宁先生曾在20世纪80年代初对到访纽约州立大学石溪分校的90多名中国学生、学者提出:“独创性是科学工作者最重要的素质。”杨先生主张做研究的人一定要有独创的精神、独到的见解和独立研究的能力。在科技如此发达的今天,学术上的独创性变得越来越难,也愈加珍贵和重要。博士生要树立敢为天下先的志向,在独创性上下功夫,勇于挑战最前沿的科学问题。

批判性思维是一种遵循逻辑规则、不断质疑和反省的思维方式,具有批判性思维的人勇于挑战自己、敢于挑战权威。批判性思维的缺乏往往被认为是中国学生特有的弱项,也是我们在博士生培养方面存在的一个普遍问题。2001年,美国卡内基基金会开展了一项“卡内基博士生教育创新计划”,针对博士生教育进行调研,并发布了研究报告。该报告指出:在美国和欧洲,培养学生保持批判而质疑的眼光看待自己、同行和导师的观点同样非常不容易,批判性思维的培养必须要成为博士生培养项目的组成部分。

对于博士生而言,批判性思维的养成要从如何面对权威开始。为了鼓励学生质疑学术权威、挑战现有学术范式,培养学生的挑战精神和创新能力,清华大学在2013年发起“巅峰对话”,由学生自主邀请各学科领域具有国际影响力的学术大师与清华学生同台对话。该活动迄今已经举办了21期,先后邀请17位诺贝尔奖、3位图灵奖、1位菲尔兹奖获得者参与对话。诺贝尔化学奖得主巴里·夏普莱斯(Barry Sharpless)在2013年11月来清华参加“巅峰对话”时,对于清华学生的质疑精神印象深刻。他在接受媒体采访时谈道:“清华的学生无所畏惧,请原谅我的措辞,但他们真的很有胆量。”这是我听到的对清华学生的最高评价,博士生就应该具备这样的勇气和能力。培养批判性思维更难的一层是要有勇气不断否定自己,有一种不断超越自己的精神。爱因斯坦说:“在真理的认识方面,任何以权威自居的人,必将在上帝的嬉笑中垮台。”这句名言应该成为每一位从事学术研究的博士生的箴言。

提高博士生培养质量有赖于构建全方位的博士生教育体系

一流的博士生教育要有一流的教育理念,需要构建全方位的教育体系,把教育理念落实到博士生培养的各个环节中。

在博士生选拔方面,不能简单按考分录取,而是要侧重评价学术志趣和创新潜力。知识结构固然重要,但学术志趣和创新潜力更关键,考分不能完全反映学生的学术潜质。清华大学在经过多年试点探索的基础上,于2016年开始全面实行博士生招生“申请-审核”制,从原来的按照考试分数招收博士生转变为按科研创新能力、专业学术潜质招收,并给予院系、学科、导师更大的自主权。《清华大学“申请-审核”制实施办法》明晰了导师和院系在考核、遴选和推荐上的权力职责,同时确定了规范的流程及监管要求。

在博士生指导教师资格确认方面,不能论资排辈,要更看重教师的学术活力及研究工作的前沿性。博士生教育质量的提升关键在于教师,要让更多、更优秀的教师参与到博士生教育中来。清华大学从2009年开始探索将博士生导师评定权下放到各学位评定分委员会,允许评聘一部分优秀副教授担任博士生导师。近年来学校在推进教师人事制度改革过程中,明确教研系列助理教授可以独立指导博士生,让富有创造活力的青年教师指导优秀的青年学生,师生相互促进、共同成长。

在促进博士生交流方面,要努力突破学科领域的界限,注重搭建跨学科的平台。跨学科交流是激发博士生学术创造力的重要途径,博士生要努力提升在交叉学科领域开展科研工作的能力。清华大学于2014年创办了“微沙龙”平台,同学们可以通过微信平台随时发布学术话题、寻觅学术伙伴。3年来,博士生参与和发起“微沙龙”12 000多场,参与博士生达38 000多人次。“微沙龙”促进了不同学科学生之间的思想碰撞,激发了同学们的学术志趣。清华于2002年创办了博士生论坛,论坛由同学自己组织,师生共同参与。博士生论坛持续举办了500期,开展了18 000多场学术报告,切实起到了师生互动、教学相长、学科交融、促进交流的作用。学校积极资助博士生到世界一流大学开展交流与合作研究,超过60%的博士生有海外访学经历。清华于2011年设立了发展中国家博士生项目,鼓励学生到发展中国家亲身体验和调研,在全球化背景下研究发展中国家的各类问题。

在博士学位评定方面,权力要进一步下放,学术判断应该由各领域的学者来负责。院系二级学术单位应该在评定博士论文水平上拥有更多的权力,也应担负更多的责任。清华大学从2015年开始把学位论文的评审职责授权给各学位评定分委员会,学位论文质量和学位评审过程主要由各学位分委员会进行把关,校学位委员会负责学位管理整体工作,负责制度建设和争议事项处理。

全面提高人才培养能力是建设世界一流大学的核心。博士生培养质量的提升是大学办学质量提升的重要标志。我们要高度重视、充分发挥博士生教育的战略性、引领性作用,面向世界、勇于进取,树立自信、保持特色,不断推动一流大学的人才培养迈向新的高度。清华大学校长2017年12月5日(1) 本文首发于《光明日报》,2017年12月5日。丛书序二

以学术型人才培养为主的博士生教育,肩负着培养具有国际竞争力的高层次学术创新人才的重任,是国家发展战略的重要组成部分,是清华大学人才培养的重中之重。

作为首批设立研究生院的高校,清华大学自20世纪80年代初开始,立足国家和社会需要,结合校内实际情况,不断推动博士生教育改革。为了提供适宜博士生成长的学术环境,我校一方面不断地营造浓厚的学术氛围,一方面大力推动培养模式创新探索。我校已多年运行一系列博士生培养专项基金和特色项目,激励博士生潜心学术、锐意创新,提升博士生的国际视野,倡导跨学科研究与交流,不断提升博士生培养质量。

博士生是最具创造力的学术研究新生力量,思维活跃,求真求实。他们在导师的指导下进入本领域研究前沿,吸取本领域最新的研究成果,拓宽人类的认知边界,不断取得创新性成果。这套优秀博士学位论文丛书,不仅是我校博士生研究工作前沿成果的体现,也是我校博士生学术精神传承和光大的体现。

这套丛书的每一篇论文均来自学校新近每年评选的校级优秀博士学位论文。为了鼓励创新,激励优秀的博士生脱颖而出,同时激励导师悉心指导,我校评选校级优秀博士学位论文已有20多年。评选出的优秀博士学位论文代表了我校各学科最优秀的博士学位论文的水平。为了传播优秀的博士学位论文成果,更好地推动学术交流与学科建设,促进博士生未来发展和成长,清华大学研究生院与清华大学出版社合作出版这些优秀的博士学位论文。

感谢清华大学出版社,悉心地为每位作者提供专业、细致的写作和出版指导,使这些博士论文以专著方式呈现在读者面前,促进了这些最新的优秀研究成果的快速广泛传播。相信本套丛书的出版可以为国内外各相关领域或交叉领域的在读研究生和科研人员提供有益的参考,为相关学科领域的发展和优秀科研成果的转化起到积极的推动作用。

感谢丛书作者的导师们。这些优秀的博士学位论文,从选题、研究到成文,离不开导师的精心指导。我校优秀的师生导学传统,成就了一项项优秀的研究成果,成就了一大批青年学者,也成就了清华的学术研究。感谢导师们为每篇论文精心撰写序言,帮助读者更好地理解论文。

感谢丛书的作者们。他们优秀的学术成果,连同鲜活的思想、创新的精神、严谨的学风,都为致力于学术研究的后来者树立了榜样。他们本着精益求精的精神,对论文进行了细致的修改完善,使之在具备科学性、前沿性的同时,更具系统性和可读性。

这套丛书涵盖清华众多学科,从论文的选题能够感受到作者们积极参与国家重大战略、社会发展问题、新兴产业创新等的研究热情,能够感受到作者们的国际视野和人文情怀。相信这些年轻作者们勇于承担学术创新重任的社会责任感能够感染和带动越来越多的博士生,将论文书写在祖国的大地上。

祝愿丛书的作者们、读者们和所有从事学术研究的同行们在未来的道路上坚持梦想,百折不挠!在服务国家、奉献社会和造福人类的事业中不断创新,做新时代的引领者。

相信每一位读者在阅读这一本本学术著作的时候,在吸取学术创新成果、享受学术之美的同时,能够将其中所蕴含的科学理性精神和学术奉献精神传播和发扬出去。清华大学研究生院院长2018年1月5日导师序言

个性化推荐技术已经成为互联网应用的基础技术之一,它广泛应用于电子商务、搜索引擎、社会网络、新闻阅读等互联网服务中,成为用户获得信息的重要途径之一。通过个性化推荐,用户可以更为便捷地访问自己可能感兴趣的物品,从而获得更好的体验。

一直以来,个性化推荐的研究主要集中在如何为用户给出恰当的推荐结果,而较少关注为什么算法会给出这样的结果,因此难以向用户给出具有说服力的、与算法一致的推荐理由。这就自然地引出了个性化推荐系统的可解释性问题。通过理解为什么系统会给出特定的推荐,就能在为用户提供个性化推荐理由的同时,提高系统和算法的透明度、可靠性、有效性,并最终提高用户的满意度。

本书以个性化推荐的可解释性这一新的研究课题为主线,在数据、模型和经济效益三个层面上展开了深入的探讨。在数据上,个性化推荐的评分矩阵可以等价描述为用户-物品二部图上的社区发现结构;在模型上,个性化算法可以给出与推荐模型紧密相关的个性化推荐理由;在经济效益上,个性化推荐可以作为互联网商品服务资源分配的基本手段,实现互联网社会福利的最大化,从而提高互联网经济系统的效益。

因此,本书不仅仅是张永锋博士学位论文工作中精华的整理,同时还为我们揭示了一个新的、有趣的、有挑战性又具有可行性的研究课题:融合经济学与计算机科学的个性化推荐。随着互联网经济系统的迅速发展,个性化推荐系统不再仅仅为用户提供感兴趣的商品或服务推荐,而更是网络资源分配的基本手段之一。经济学是一个古老的研究课题,数个世纪以来已经积累了成熟的研究成果和理论,而计算机科学相对而言是一个新兴且快速发展的学科,并在方方面面深入影响着我们的日常生活,在互联网领域尤其如此。丰富的用户行为记录、广泛存在的大数据,以及不断发展的机器学习技术,使得将互联网经济系统与个性化推荐有机地结合成为可能,从而为我们展现出未来巨大的研究空间。马少平2018年7月25日于北京清华园摘要

随着互联网的迅速发展,个性化推荐系统已经逐渐成为各种网络应用不可缺少的核心功能,并以各种各样的方式影响着人们日常生活的方方面面:电子商务网站中的购物推荐引擎为用户提供可能感兴趣的商品推荐;社交网络中的好友推荐为用户寻找潜在的好友关注;视频网站中的视频推荐为用户提供最可能点击的视频推荐;新闻门户网站中的内容推荐为用户提供最有信息量的新闻。个性化推荐技术已经是支撑互联网智能的基础技术之一。

个性化推荐系统已经经过了近20年的研究和发展,然而隐变量方法的大量使用使得个性化推荐算法及其推荐结果的可解释性成为困扰学术界的重要问题之一,并且至今仍然没有在产业应用中得到很好的解决。举例而言,在很多实际推荐系统中,算法只为用户提供一份个性化的推荐列表作为结果,而难以向用户解释为什么要给出这样的推荐。缺乏可解释性的推荐降低了推荐结果的可信度,进而影响推荐系统的实际应用效果。考虑到推荐系统的应用范围之广和影响之大,可解释性推荐的研究具有其重要性和紧迫性。本书从数据、模型和经济意义三个方面对推荐系统的可解释性进行研究,主要有如下贡献。

第一,数据的可解释性。数据输入是个性化推荐系统的第一步,而用户-物品评分矩阵是个性化推荐算法,尤其是基于矩阵分解的个性化推荐算法最主要的数据输入形式。本书提出了基于双边块对角矩阵的局部化矩阵分解框架,并将其应用于矩阵分解的并行化。传统的矩阵分解算法将原始矩阵看作一个整体进行分解和预测,缺乏对矩阵内在结构的理解。本书提出矩阵的双边块对角结构,并在理论上证明该结构与二部图上社区发现算法的数学等价性,从而解释矩阵内在的社区结构和社区关系。在社区结构的基础上,进一步提出了局部化的矩阵分解框架,并从理论上证明了它与传统矩阵分解算法的兼容性,从而为常用的矩阵分解算法提供了一个统一的并行化框架,在提高预测精度的同时大幅提高计算效率。

第二,模型的可解释性。在用户-物品评分矩阵的数据基础上,个性化推荐模型对用户进行偏好建模并给出个性化推荐。本书提出了基于短语级情感分析的显式变量分解模型及其基于时间序列分析的动态化建模。基于矩阵分解的隐变量模型由于有较好的评分预测效果和可扩展性,逐渐成为个性化推荐的基础算法,并在实际系统中得到广泛的应用。然而,由于变量在本质上的未知性,隐变量模型难以对推荐算法和推荐结果给出直观可理解的解释,进而降低了推荐系统对用户的可信度。本书利用短语级情感分析技术从大规模的用户评论中抽取产品属性词及用户在不同属性上表达的情感,进而引入显式变量,并提出基于显式变量分解模型的个性化推荐算法,一方面使得模型的优化过程具备直观意义,另一方面给出在模型层面可解释的推荐结果和个性化推荐理由。由于用户在不同属性上的偏好具有时间周期性,本书利用时间序列分析对用户偏好进行动态建模和预测,实现了动态时间意义上的可解释性推荐。

第三,推荐的经济学解释。推荐系统在用户行为数据和个性化偏好建模的基础上,以个性化推荐的方式隐性地调节商品在用户中的匹配和购买,从而在最终层面上影响所属系统的经济效益。本书提出基于互联网系统总福利最大化的个性化推荐框架,并给出典型应用场景中的具体实现。随着人类传统线下活动的不断线上化,常见的互联网应用均可以形式化为“生产者-服务-消费者”模型,例如在电子商务网站中,网络商家(生产者)提供在线商品(服务),而网络用户(消费者)则在众多的商品中进行选择和购买。基于传统经济学的基本定义,本书首先给出了互联网环境下效用、成本和福利的基本概念与统一形式,并进一步给出了互联网应用中总社会福利的通用计算方法。在此基础上,以互联网服务分配为基本问题,提出基于网络福利最大化的个性化推荐框架。随后,本书在典型的网络应用(电子商务、P2P借贷、在线众包平台)中对该框架具体化,并进行个性化的网络服务推荐与评测。实验结果表明,该方法可以在为用户提供高质量服务推荐的同时,提升社会总福利,即在提升用户体验的同时又增进了社会效益。

关键词:个性化推荐;协同过滤;情感分析;可解释性;计算经济学;人工智能Abstract

With the continuous growth of the web, personalized recommender systems(PRS)have been the important building blocks of many online web applications, which contribute to our daily lives in various manners. For example, the product recommendation engines in E-commerce websites recommend potentially interesting products to users, friend recommendation helps to find and connect users in social networks, video recommendation in video sharing websites help users to find favourite videos more quickly and efficiently, and news recommendation in news portals push the latest news to users according to their personalized information needs. In a way, personalized recommendation has become one of the most basic supportive techniques in the era of web intelligence.

Although personalized recommendation has been investigated for decades of years, the wide adoption of latent factor models(LFM)has made the explainability of recommendations an important and critical issue to both the research community and practical application of recommender systems. For example, the algorithm just provide a personalized item recommendation list to the users in many practical systems, without persuasive personalized explanation about why such an item is recommended while another is not. Unexplainable recommendations introduce negative effects to the trustworthiness of recommender systems, and thus affect the effectiveness of recommendation engines. In this work, we investigate explainable recommendation in aspects of data explainability, model explainability, and result explainability. The main contributions are as follows.

First, data explainability. Data input is the first step of typical recommender systems, and user-item rating matrix is the most basic data format for most personalized recommendation algorithms, especially for matrix factorization(MF)-based approaches. In this work, we propose localized matrix factorization(LMF)framework based bordered block diagonal form(BBDF)matrices, and further applied this technique for parallelized matrix factorization. Traditional MF algorithms treat the original rating matrix as a whole for factorization, without specific understanding of the inherent structure embedded therein. In this work, however, we propose the(recursive)BBDF structure of sparse matrices, and formally prove its equivalence with community detection on bipartite graphs, with which to explain the inherent community structures and their relationships in sparse matrices. Based on this, we further propose the LMF framework, and prove its compatibility with most of the traditional MF algorithms, which makes it a unified parallelization framework for matrix factorization, that improves both the effect and efficiency at the same time.

Second, model explainability. Based on user-item rating matrices, personalized recommendation algorithms attempt to model user preferences and make personalized recommendations. In this work, we propose explicit factor models(EFM)based on phrase-level sentiment analysis, as well as dynamic user preference modeling based on time series analysis. For their prediction accuracy and scalability, latent factor models(LFM)based on MF have achieved wide application in real-world systems. However, due to their inherently latent factors, it is usually difficult for LFM to provide intuitively understandable explanations to the recommendation algorithms and results, which reduces the persuasiveness of recommendations. In this work, we extract product features and user opinions towards different features from largescale user textual reviews based on phrase-level sentiment analysis techniques, and introduce the EFM approach for explainable model learning and recommendation. Because user preference on features may change over time, we conduct dynamic user modeling based on time series analysis, so as to construct explainable dynamic recommendations.

Third, economic explainability. Based on data analysis and user preference modeling, recommender systems actually manipulate the way that items are matched with users, and eventually affect the economic benefits of the online economic system. In this work, we propose the total surplus maximization(TSM)framework for personalized recommendation, as well as the model specification in different types of online applications. More and more human activities are experiencing the continuous progressing from offline to online, and many commonly used online applications can be formalized into the“producer-service-consumer”framework. For example, in E-commerce websites online retailers(producers)provide normal goods(services), and the users(consumers)thus make choices and purchases from the vast amount of online services. Based on basic economic concepts, we provide the definitions of utility, cost and surplus in the application scenario of web services, and propose the general framework of web total surplus calculation and maximization. Further more, we specific the total surplus maximization framework to different types of online applications, i.e., E-commerce, P2P lending and online freelancing services. Experimental results on real-world datasets verify that our TSM framework is able to improve the recommendation performance and at the same time benefit the social good of the web.

Key words: personalized recommendation; collaborative filtering; sentiment analysis; explainability; computational economics; artificial intelligence主要符号对照表ABBDF 近似双边块对角矩阵(approximate BBDF)AIC 赤池信息量准则(Akaike information criterion)AICC 无偏赤池信息量准则(Akaike information criterion corrected)ALS 交替最小二乘法(alternative least square)AR 自回归项(auto regressive)ARIMA 移动平均自回归(auto-regressive integrated moving average)AUC ROC 特征曲线下面积(area under the ROC curve)BBDF 双边块对角矩阵(bordered block diagonal form)BDF 块对角矩阵(block diagonal form)CD 坐标下降法(coordinate descent)CS 消费者福利(consumer surplus)CTR 点击率(click through rate)EFM 显式变量分解模型(explicit factor model)FM 分解机(factorization machine)LFM 隐式变量分解模型(latent factor model)LMF 局部化矩阵分解(localized matrix factorization)MA 移动平均(moving average)MAE 平均绝对误差(mean absolute error)MAPE 平均百分比绝对误差(mean average percentage error)MF 矩阵分解(matrix factorization)MMMF 最大间隔矩阵分解(maximum margin matrix factorization)NDCG 标准化折扣累计增益(normalized discounted cumulative gain)NMF 非负矩阵分解(non-negative matrix factorization)OSA 在线服务分配(online service allocation)PCA 主成分分析(principle component analysis)PMF 概率矩阵分解(probabilistic matrix factorization)PS 生产者福利(producer surplus)RMSE 根均方差(root mean square error)SGD 随机梯度下降算法(stochastic gradient descent)SVD 奇异矩阵分解(singular value decomposition)TF 张量分解(tensor factorization)TSS 社会总福利(total social surplus)TSM 总福利最大化(total surplus maximization)UGC 用户生成内容(user generated content)第1章 引言

随着智能互联网时代的到来和发展,个性化推荐作为理解用户的核心技术之一,成为智能网络的重要组成部分,并在各种实际系统中得到广泛应用。长期以来,个性化推荐技术的研究集中于如何为用户提供更为准确的被推荐物品,而在很大程度上忽视了推荐系统的可解释性,不利于推荐系统对用户的透明度和可信度。本书从数据、模型和结果三个方面对推荐系统的可解释性进行研究,力图做到不仅知其然更知其所以然,并在互联网真实用户场景下对理论模型进行实验验证。本章旨在阐述研究背景,简要回顾个性化推荐系统的主要技术与历史现状,给出本书的研究问题、面临的主要挑战及其实际意义和科学价值,并描述本研究的主要贡献和章节安排。1.1 研究背景

互联网的快速发展开启了人类活动线上化的进程,越来越多传统上只能在线下完成的任务变得可以方便快捷地在互联网上完成。已经深入人们日常生活的电子商务就是这一进程的典型代表,例如阿里巴(1)(2)(3)巴、京东商城、亚马逊网络商城等电子商务网站的普及,使得人们不必走出家门即可购买自己所需要的商品,并且可以在更多的备选商品中进行挑选。不仅限于电子商务应用,社交网络平台(如新浪微(4)(5)博和Facebook)的兴起使得人们可以在互联网上交友、沟通、获(6)(7)取实时资讯;在线叫车服务(如滴滴和Uber)的发展使得用户不(8)(9)再需要线下街头打车;在线P2P借贷服务(如宜信和Prosper)使(10)得用户线上借贷和理财成为可能;在线房地产业务(如Zillow和(11)Airbnb)的发展使传统的房地产业务逐步线上化;在线自由职业平(12)(13)台(如猪八戒网和亚马逊MTurk)的迅速发展甚至使得自由职业者在线工作和任务分配成为可能。

伴随着各种互联网应用的迅速发展,个性化推荐系统成为网络应用中不可缺少的重要组成部分,并在各种场景下以不同的方式影响着人们网络生活的方方面面,其研究也对国民生产、生活的多方面具有重大意义。

第一,个性化推荐技术的研究对互联网在线服务和信息系统具有重要的经济和市场价值。随着人类线下活动的逐步线上化,互联网不再仅仅是一个信息流通和传播的平台,而是逐渐成为了一个完整的在线经济和社会系统,大量的社会生产、生活和消费商贸活动以在线交易的方式在互联网上完成,而个性化推荐系统及其相关技术在这一过程中发挥着资源配置的核心作用。例如在电子商务网站中,个性化推荐将商家待销售的商品与具有相应需求的用户进行匹配,从而提高整个在线经济系统资源配置的效率,进而促进消费,推动国民经济的发(14)展。据京东商城推荐搜索部透露,京东商城基于大数据的个性化推荐算法在PC端和移动端都已经为京东贡献了10%以上的订单;而据(15)著名的科技咨询公司VentureBeat统计,亚马逊的个性化推荐系统更是为其贡献了35%以上的销售额,推荐系统对在线经济的重要作用可见一斑。

不仅是在电子商务系统中,在线租房和房产业务中的房屋推荐通过综合考虑地理位置和价格等信息,对用户需求进行精确定位,从而提高住房利用率和降低房产空置率;在线自由职业平台中的工作任务推荐系统更是综合考虑自由职业者的技术能力和预期报酬以及雇主的任务需求,通过精确的职业匹配令雇佣双方各得其所,使高效的在线劳务市场成为可能。除了显式的用户可见的个性化推荐系统之外,隐式的推荐系统也大量存在于网络之中,例如在线叫车服务系统对用户需求和付费意愿进行预测并对道路交通状况进行实施建模,从而为用户自动匹配最合适的司机,在满足双方出行需求的同时进行路线优化、缓解交通负担。

第二,个性化推荐系统的研究对国民生产和国家安全具有重大意义。在个性化推荐系统的信息匹配和资源配置过程中,恰当地融合经济效益及风险控制等因素的考量对互联网经济安全和网络环境的稳定可控具有重要作用。例如在网络借贷服务的理财产品推荐中,对理财产品的风险评估和用户风险承受能力的评估是产品匹配以及面向用户的推荐过程中所要考虑的重要因素,向不同用户推荐和展示合理的产品是网络金融服务实现风险可控的重要手段。再如社交媒体的兴起和快速发展使得人们可以更加迅速快捷地发布、分享和传播信息,打破了长期以来新闻讯息由国家和新闻媒体机构垄断的局面。自媒体的兴起使信息传播更为高效、信息获取成本大大降低、社会生产和生活更富有活力,但同时也为网络谣言、信息诈骗、极端思想、恐怖主义的传播带来了便利,而社交网络中的个性化信息排序和推荐技术则在满足用户个性化信息需求的同时,起到积极引导社会舆论的作用。

个性化推荐技术的研究不仅具有重要的实际应用意义,更具有重要的科学研究价值,如图1.1所示。图1.1 个性化推荐研究涉及的学科领域

具体而言,其科学研究价值和意义主要包括如下三个方面。

第一,个性化推荐技术的研究涉及多个重要的数学分支,有利于促进和拓展相关理论研究的深度和广度。充分理解用户行为模式和个性化的信息需求需要对用户行为和偏好进行深入的数学建模,而互联网用户行为信息规模庞大且多种多样,例如电子商务网站中的用户浏览、购买、数值评分、文本评论等历史信息,在线视频音乐网站中的用户点击、观看、收听、时长等行为信息,以及社交网站中的用户好友关系、关注关系、地理位置、登录时间等社交信息等。数据的多样性和异质性为用户行为分析和偏好建模带来了新的难度,而庞大的数据规模也为网络大数据的处理带来了极大的挑战,这些都对机器学习方法和相关数学模型理论的发展与应用提出了新的要求,为矩阵运算、并行化理论、解空间理论、时空信息处理、系统复杂度控制等相关理论的研究发展提供了重要的问题背景。在本书中,将在矩阵分解、局部优化理论、解空间分析、并行化算法、时间序列分析等多个方面对理论前沿做出进一步的拓展。

第二,个性化推荐技术的研究涉及诸多学科的交叉综合,有利于促进跨学科学术研究的进一步发展。个性化推荐技术的核心在于用户需求理解,只有对用户兴趣和需求进行精确的建模,才能给出具有针对性的个性化推荐,因此,个性化推荐技术的研究需要互联网用户行为学和心理学的支持;在社交网站、新闻门户等应用场景中,对好友、新闻、信息的推荐则依赖于对信息传播学和社会学的深入理解和应用;同时,电子商务、在线金融、在线职业网站、在线打车等网络业务的发展正不断将人类的线下经济学活动线上化,对互联网经济现象和用户在线经济行为的深入理解和正确建模对提供合时合地合情合理的推荐具有重要作用,而这依赖于经济学相关理论的应用与发展。本研究将借助经济学、心理学、行为学等学科的基本概念和主要结论,对互联网用户行为进行分析建模,并进一步给出个性化的推荐。

第三,个性化推荐技术的研究涉及众多互联网应用场景,有利于促进互联网整体的进一步个性化和智能化。个性化推荐以其技术的基础性和方法的通用性已经成为诸多网络应用中不可或缺的组成部分,以显性或隐性的方式渗入到人们网络生活的方方面面。个性化推荐技术以其“理解用户”的核心思想,成为向用户提供智能服务的基础和关键的第一步,因此在未来以智能化为核心特征的下一代互联网的发展中具有重要的基础性意义,同时也是未来个性化生活和办公助理等平台化系统,以及智能家居等线下智能系统的核心技术之一。本书不仅限于理论研究和技术拓展,更进一步将相关理论应用到电子商务、在线娱乐、网络金融、在线自由职业等多个不同的各有特点的网络应用场景中,从而验证相关理论的实用性和有效性。1.2 问题的提出

个性化推荐的研究及其实际应用包含三个依次递进的核心关切,分别是输入数据、算法模型和线上应用的经济效益,如图1.2所示。一个典型的个性化推荐系统将用户在物品上的浏览、点击、购买、评论等行为信息作为输入数据,通过构建个性化推荐模型对用户进行偏好建模并给出个性化推荐列表,进而通过用户在推荐列表上的购买和消费行为产生经济效益。图1.2 典型个性化推荐系统的主要构件及本研究需要解决的核心问题

输入数据是个性化推荐系统的基础,用户-物品评分稀疏矩阵是个性化推荐实际系统中最基本和最常用的输入数据形式。在用户-物品评分矩阵中,每一行代表一个用户、每一列代表系统中的一个商品,而矩阵中的值表示相应用户在相应物品上的打分,例如电子商务网站中典型的1~5星数值评分等。由于系统中的商品往往有数百万甚至数亿个,而每一个用户只购买过少数的商品,因此矩阵中有大量的未知打分,因而打分预测成为个性化推荐的核心问题之一。近年来,矩阵分解等协同过滤技术在打分预测问题上取得了较好的效果并得到广泛应用,然而为何在稀疏矩阵上基于群体智慧的协同过滤得以可行这一根本性的问题并未得到很好的回答,这涉及数据层面上的可解释性问题。本书提出稀疏矩阵的迭代双边块对角结构,指出和证明了稀疏矩阵内在的用户-物品群组关系,并证明了矩阵分解协同过滤对群组的可拆分性这一重要的数学性质,从而为协同过滤的可行性找到了理论依据。同时,将杂乱无章的原始矩阵转化为内在的用户-物品社区结构,一方面降低了数据稀疏性,另一方面将具有相似兴趣的用户及其历史评分聚在一起,从而提高协同过滤算法的预测效果。

在数据的基础上,个性化推荐模型试图对用户的个性化偏好进行建模,从而给出个性化推荐结果。基于隐变量的协同过滤(例如矩阵分解)技术是目前应用最为广泛的推荐模型之一,然而隐变量模型将数据投影到一组未知的空间变量上,因此难以解释原有数据中用户的具体偏好,也难以据此为推荐结果给出直观的推荐理由,例如大多数电子商务推荐系统只是简单地给出“其他用户也购买了”等与真正模型无关的推荐理由。在本书中,提出与传统隐变量分解模型相对应的显式变量分解模型来解决模型的可解释性问题,通过引入属性词显式变量构建用户在属性词上的偏好矩阵,从而使得协同过滤算法具有明确的内在意义,并且可以为最终的推荐结果给出模型内生的推荐理由。

在数据和模型的基础上,个性化推荐算法通过用户在推荐列表上的点击、购买等行为为系统创造经济效益,因此个性化推荐实际上以推荐列表的方式隐形地控制着系统中物品与用户之间的匹配,从而影响推荐算法所在经济系统(如电子商务网站)中的资源分配。虽然电子商务、在线金融等网络应用已经是一个完整的线上经济系统,然而传统的个性化推荐研究主要从计算机科学家的视角出发,关心点击率(click through rate,CTR)、购买率等性能指标,而对个性化推荐在整个系统中的经济学意义较少研究。本书将个性化推荐作为经济系统中资源分配的手段,提出了网络经济系统的生产者-消费者建模框架,并给出了系统最终所实现社会效益(系统总福利)的计算方法,从而对个性化推荐的经济学意义进行解释。在此基础上,进一步提出基于总福利最大化的推荐算法,从而在提高推荐系统用户体验的同时,也提高整个经济系统的社会效益。1.3 面临的主要挑战

个性化推荐技术的主要研究对象丰富多变,概括而言包括两大部分:一是广泛存在于各种互联网应用中的被推荐物品,包括商品、视频、音乐、电影、新闻、金融产品、工作任务等;二是购买、消费和操作这些物品的网络用户。用户与物品之间交互方式的多样性、行为记录的丰富性、兴趣偏好的动态性为个性化推荐技术的研究及其解释带来了诸多挑战,如图1.3所示,这主要包括如下几个方面。图1.3 本研究面临的主要挑战及其对应的解决方案

第一,庞大的数据规模。在典型的互联网应用中往往存在着数量(16)极为庞大的用户和物品,例如据全球最大的用户评论网站Yelp统计报告指出,截至2016年初,其日活跃用户达1.35亿,并且拥有9500万用户评论历史记录;中国主要的电子商务网站淘宝网和京东商城的活跃用户同样数以亿计;而百度、谷歌、Facebook等搜索和社交网站的活跃用户更是达到数以十亿计。庞大的数据规模对用户偏好建模和个性化推荐算法的可行性和实时性提出了较高的要求。本书提出了矩阵的迭代双边块对角矩阵(bordered block diagonal form,BBDF),并证明了该结构与用户-物品二部图社区发现的等价性,从而为用户-物品行为数据的内在结构提供了解释框架。我们进一步证明了双边块对角矩阵在分解问题上的数学性质,并基于其性质提出了局部化矩阵分解(localized matrix factorization,LMF)框架,使得矩阵分解在数据层面上的并行化和局部化成为可能;不仅如此,我们还证明了该框架与许多常见矩阵分解算法的兼容性,从而为矩阵分解问题提供了一个统一的并行化解决方案。

第二,用户行为数据极其稀疏。虽然网络应用中往往存在数以千

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载