面向虚拟社区的社会化专家建模及应用(txt+pdf+epub+mobi电子书下载)


发布时间:2020-07-24 17:09:45

点击下载

作者:傅魁

出版社:电子工业出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

面向虚拟社区的社会化专家建模及应用

面向虚拟社区的社会化专家建模及应用试读:

前言

随着“互联网+”时代的到来,互联网呈现蓬勃发展的态势,越来越多的人通过互联网获取信息。第42次中国互联网络发展状况统计报告显示,截至2018年6月,中国网民规模达到8.02亿,其中移动手机网民规模达到7.88亿,互联网从PC时代向移动互联网时代转变。各式各样的在线支持论坛、问答社区、社交网站等虚拟社区以其便捷性,能够随时发布观点和获取信息,越来越受到人们的青睐,已经成为人们交友建立联系、共享资源和获取社会支持的重要渠道。与此同时,Web信息资源的“爆炸式”增长,使其积累了海量数据。信息资源的极大丰富,虽然使人们拥有更多的机会获取各自所需信息和知识,但也导致“信息过载”问题越来越严重,人们不得不承受从海量数据中获取目标信息的沉重负担。

因此,在虚拟社区环境下,如何准确地对用户的专业度进行识别并快速获取用户个性化的复杂需求,将用户需要的信息或知识有效地推荐给用户,进而为用户提供专业的在线社会支持,是一个重要的且极具挑战性的问题。用户画像、用户专业度识别、链接预测及混合图模型等算法可以有效地实现对虚拟社区用户的建模,它能够帮助虚拟社区运营者更好地认识用户。在对虚拟社区用户进行建模理论研究的基础上,探索其实际应用价值与应用领域是十分重要且具有现实意义的,社会化专家推荐和在线社会支持是其应用领域的两个典型范例。社会化专家推荐可以发现虚拟社区中具有专业特长的用户,并推荐给信息需求者,以快速获取其帮助、共享其隐性知识,它对于解决信息过载和提升用户体验具有重要作用;在线社会支持是指人们利用个体在虚拟空间中形成的一切社会关系网络,向他人寻求或者为他人提供包括信息、情感、尊重和实物在内的各种有形和无形的社会资源,人们通过提供或接收在线社会支持,能够使他人或自己的身心问题得以缓解,进而维护社会的安全与稳定。

本书在教育部人文社会科学研究项目“面向虚拟社区的社会化专家建模及推荐研究”(17YJA870006)的资助下,以虚拟社区中的用户尤其是专家用户为出发点,在借鉴与扩展现有的用户画像、用户专业度识别、相似性链接预测与混合图等社会化专家建模及虚拟社区建模理论研究的基础上,针对虚拟社区中的两个典型应用,即社会化专家推荐与在线社会支持进行深入研究。这有利于虚拟社区中的用户获得更加高效的帮助,有利于虚拟社区运营商提供更加优质的服务,从而促进我国虚拟社区的健康发展。本书主要研究内容如下:①构建了基于证据增强混合图的专家用户模型及基于知识共享的虚拟社区模型这两个层面的模型;②探讨了用户建模理论在虚拟社区中的两个实际应用,分别是社会化专家推荐与在线社会支持;③设计了基于Nutch开源工具的虚拟社区多源数据采集系统,包括基于网络新闻的数据采集、基于论坛贴吧的数据采集和基于微博的数据采集。

在前期的研究过程和本书的撰写过程中,我们引用了国内外同行专家的相关研究成果,同时得到了有关院校的同行和相关部门的大力支持与帮助,特别是武汉理工大学电子商务专业的老师和研究生们,他们对本书的撰写提出了许多宝贵的意见与建议,在此一并表示衷心的感谢。傅魁第1章 绪论1.1 研究背景及意义

传统社区是以一定划分标准聚集在一起的群体,这个标准可以是专业领域、行政区域或者地理位置等,但虚拟社区是互联网时代的新产物,有着特殊的互动法则和动态特性。虚拟社区通常是指通过互联网媒介的虚拟空间进行相互沟通,分享知识和信息的群体,该群体彼此之间具有共同的兴趣,通过彼此间的沟通及关怀构建网络空间中的联系。随着移动互联网的发展,越来越多的人趋向于利用碎片化的时间浏览微信朋友圈、微博、知乎等虚拟社区,并在社区中表达自己的观点、情感或兴趣,产生了大量的用户生成内容(User Generated Content,UGC)。对虚拟社区用户生成内容进行挖掘,以发现用户知识和偏好的准确描述,即虚拟社区用户建模,是开展虚拟社区个性化推荐等服务的核心基础。对虚拟社区的用户进行准确建模和分析,有利于在虚拟社区中开展社会化专家推荐等一系列个性化推荐服务,还能够及时为用户提供或获取在线社会支持等服务,通过提升用户体验,也可以促进虚拟社区更加健康地发展。

在当前网络环境下,虚拟社区的用户生成内容不是一成不变的,尤其是随着网民对互联网和虚拟社区的认可和参与度的提高,虚拟社区中用户生成内容呈现的动态变化特征愈加显著。识别这种动态性并分析其所呈现出来的规律成为提高用户建模准确性和有效性需要解决的关键问题。现有的虚拟社区用户建模方法尚未达到理想状态,常见的用户建模方法有用户画像、链接预测及基于图论的对象关系建模等,但这些方法都或多或少存在一些不足。本书系统地梳理了虚拟社区用户建模的相关研究,并在此基础上对现有用户建模理论研究进行改进,以提高用户建模的准确率。现有虚拟社区用户画像建模主要使用的数据包括属性类数据、行为类数据和内容类数据。属性类数据统计是目前用户画像建模较多使用的方法,但仅通过属性类数据统计构建的用户画像信息有限。通过行为类数据统计构建的用户画像难点在于行为类数据记录的成本较大,对用户内容类数据的关注较少。因此,本书借鉴现有用户画像的构建方法及表示方式,从文本词项的角度出发,探索基于LDA主题模型的虚拟社区用户画像构建方法,同时融入时间维度,考虑虚拟社区静态用户画像和动态用户画像的构建方法,并通过用户画像可视化的方法,探索虚拟社区用户画像的规律。传统的基于共同邻居的链接预测算法将所有的邻居同等看待,没有区分各邻居对链接预测的贡献;而且主要针对无权网络,没有考虑加权权重对链接预测的影响。因此,本书提出了节点亲密度的概念,既考虑了加权网络环境下,不同节点对于链接预测的影响,也提出了节点内容相似性的链接预测方法,并将节点的时间属性、拓扑结构属性及内容属性融合进行链接预测。图能够以简单而系统的方式建模对象之间的复杂关系,包含更为丰富的信息,成为近年来数据挖掘的一个重要方向,基于图的推荐已从单部图推荐向二部图、多部图乃至混合图推荐转变,并随着图中信息的逐步丰富,在缓解数据稀疏、提高推荐精度上表现出更加明显的优势。基于此,本书从图模型角度出发,将虚拟社区抽象成一个能够全面表达社交网络的用户—专长—词项混合图模型,包含支持文档类、社交网络类、用户评价类和情境类证据等各类专家证据信息。

在对虚拟社区中的用户进行建模研究的基础上,如何更好地将其应用于虚拟社区中,以此提升用户体验,是社区运营者和用户共同关心的热点话题。虚拟社区中的应用有很多,其中社会化专家推荐和在线社会支持是与用户切身利益相关的两个典型应用。社会化专家推荐旨在发现虚拟社区中具有专业特长的用户,并推荐给信息需求者,以快速获取其帮助,共享其隐性知识,它有助于用户快速准确地获取所需信息或知识,对于解决信息过载、提升用户体验和知识共享水平具有重要作用,近年来引起了学术界和业界的广泛关注。与传统学术领域和企业组织中相对成熟的专家推荐相比,虚拟社区中的社会化专家推荐存在数据稀疏、信息质量良莠不齐甚至作弊行为导致的推荐精度低问题,以及推荐专家能否及时响应用户的推荐可用性问题。基于此,本书借鉴现有的基于图的推荐、基于情境的推荐、专家检索与推荐等相关研究成果,从图论的角度出发,探索了一套基于混合图的社会化专家推荐方法。由于具有低成本、匿名性、无时空限制等显著优点,在线社会支持已经覆盖并拓展了传统社会支持的应用领域,各式各样的心理、疾病、戒毒、法律和赈灾等在线支持论坛应运而生。在线社会支持作为一种极具潜力的社会支持方式,通过提供广泛的信息、情感和网络陪伴等支持能够改善社会成员身心健康、实施弱势群体救助和提升社会幸福感。此外,通过特殊领域的深度支持,能够有效地疏导转型时期的社会情绪、缓解社会矛盾、降低高危传染性

疾病的不良传播(例如,识别出艾滋病论坛中的艾滋病患者并重点干预支持),但与蓬勃发展的在线社会支持实践相比,相关理论研究则显得相对滞后,主要集中于在线社会支持影响因素、内容分析、线上线下支持对比分析等角度,对在线支持网络的结构特征及演化规律研究极其匮乏。因此,研究虚拟社区在线社会支持网络特征与演化问题具有较强的理论意义和应用价值。

综上所述,本书通过刻画用户在虚拟社区中的行为,精准识别用户的各属性偏好和专业技能,在此基础上进行社会化专家推荐,并通过相关技术的创新改进来实现更加高效的、精准的在线社会支持是十分重要且具有现实意义的。1.2 国内外研究现状1.2.1 用户建模与识别理论研究

通过查阅大量文献,发现现阶段关于虚拟社区用户建模较为成熟的研究主要集中在基于虚拟社区用户显性数据的建模方面,且这些研究只获取用户模型的静态特征。用户显性数据的获取虽简单直接,但是要求用户主动参与,具有一定的局限性,因此,一些学者开始关注基于用户隐性数据的挖掘和建模。国内外学者针对用户建模与识别进行的相关研究已经非常丰富,其中运用较为广泛的研究按其算法可以分为以下3类:用户画像、用户专业度识别和链接预测。

1.用户画像

用户画像(User Profile),又称为用户文档或用户模型,其目的是对用户特征进行客观准确的描述,以此满足用户的个性化需求。用户画像的构建过程为用户建模(User Profiling),是系统地为用户建立用户画像描述的过程,并输出用户画像文档。用户画像又分为个体用户画像和群体用户画像。个体用户画像建模的目的是对用户兴趣偏好进行描述,以提供个性化的服务。群体用户画像建模的目的是识别群体用户的行为特征、用户与资源项目间的联系及模式特征,以帮助用户发现感兴趣的服务或者资源,实现群体利益的最大化。从用户画像的建模来看,用户画像又分为静态用户画像和动态用户画像。静态用户画像是指分析用户在某一特定时间的用户特征或用户需求,一般基于用户的静态属性(如年龄、性别、学历、工作状况等)。静态用户画像一般为一次性创建,不再进行更新和自适应学习。动态用户画像构建过程是一个不断完善适应的过程,考虑用户行为、时间等因素对用户画像进行更新,以发现用户画像时序变化的动态过程规律及特征,满足用户更个性化的需求。

随着互联网逐渐渗入人们的日常生活,关于用户画像的探索显得尤为重要。因此,国内外关于用户画像的研究也越来越多。现有研究通过用户行为、标签等信息构建用户画像,并给用户提供个性化的服务和需求较多。Tomozei等认为用户画像是进行个性化内容推荐的有效方法,通过对用户特征的提取构建用户画像的向量表示,在Netflix数据集验证了用户画像进行内容推荐的有效性。Anand等通过不同类型的标签构建用户画像,利用用户画像的标签和资源标签之间的相似性为用户推荐资源。Hosea等通过用户反馈行为构建用户画像,基于用户画像的内容为用户精准推送广告的内容。这样,每个用户收到的广告都是个性化的内容,这样通过用户画像的广告推送方式更加有效。张玉连等通过用户浏览页面时的动作和浏览的内容来获取有用的信息,利用这些隐式的信息构建和更新用户画像,为用户提供更加个性化的服务。Kumar等除了用户浏览页面行为,还考虑了用户的领域知识构建用户画像,通过用户画像为用户推送相关页面,取得了较好的推送效果。Feng等通过对用户文档进行合并,构建整理用户画像的方法进行TV Program的推荐。Cai等通过协同标签的方法构建用户画像,进行个性化检索。

针对文本信息建立用户画像的研究相对较少。Nicoletti等以维基百科知识库为基础,探测用户在线聊天评论等内容的主题,以词性标注和命名实体等方法对文本中的特征进行提取构建用户画像,改善了用户搜索结果的最优组合。邱云飞等通过HowNet构建文本特征词集映射到概念集,缓解微博环境下短文本造成的数据稀疏性问题,通过协同过滤的方法进行虚拟社区用户画像建模,取得了较好的效果。但基于HowNet的概念词典的文本特征扩展有限。Gao等认为仅通过虚拟社区的文本内容还不够,通过结合用户间的关系,在新浪微博数据集上进行用户画像建模取得了很好的个性化推荐效果。

总的来说,国内外学者对用户画像的研究已经做了大量工作,取得了不少优秀的成果。但在用户画像统一表示、用户画像的可视化等方面还有许多不足之处。另外,用户画像研究主要在电子商务、个性化检索领域较多,基于虚拟社区领域较少。由于虚拟社区文本数据非结构化,且以短文本为主,导致用户画像的挖掘困难。

2.用户专业度识别

专家型用户是虚拟社区中的一种重要资源,他们能够以丰富的专业知识、经验和良好的沟通技巧为社会支持寻求者提供更加有效的在线社会支持,进而增强虚拟社区的吸引力和提高虚拟社区的用户黏度。用户专业度,指用户在特定领域所具备的回答问题或者进行特定活动的专业技能水平,能够度量虚拟社区中专家型用户的专业程度。

目前,与用户专业度识别相关的文献主要集中在虚拟社区中意见领袖的研究。对于虚拟社区,除研究虚拟社区的定义及特点、用户交互行为、网络演化机理、信息传播模式等方面外,社区成员的身份识别问题俨然成为当前虚拟社区相关研究的热点。其中最为典型的是不同虚拟社区形式下的意见领袖的特征及识别方法研究。就博客社区而言,Feng等分析博客作者、读者及其之间的关系特征,提出博客社区中意见领袖识别框架;高俊波等通过意见领袖指标体系识别微博意见领袖,并发现了意见领袖的主题依赖性。对于在线论坛(BBS),Zhai Zhong Wu等人基于正向有权网络假设,发现基于兴趣的PageRank算法能准确识别网络意见领袖,丁汉青等利用图论中的网络平均路径长度算法也找出了意见领袖,文献[12]基于用户的7个特征值的聚类分析结果,筛选出意见领袖。除算法外,丁汉青等根据豆瓣网话题的意见流向图,判定具有很强吸聚力的用户节点即意见领袖;丁雪峰、胡勇等构造网络话题参与者的“属性矩阵”,通过属性取值加权排序发现意见领袖;肖宇等验证了BBS中发帖人和回帖人都可能是意见领袖,突破了只有发帖者才能参与意见领袖评价的研究局限。但对于意见领袖的识别存在特征分析不深入和特征维度单一化的缺陷。例如,仅从个体或内容单方面研究用户特征,且内容特征研究偏向于定性分析,较少采用更为准确的定量分析方法。

然而,专家与意见领袖不同,专家拥有的专业度代表用户在某个领域所具备的回答问题或者进行特定活动的专业技能水平,而意见领袖的影响力则是吸引他人注意力和对他人产生影响的能力,两者不可等同。而且用户的专业度是衡量用户能否成为专家的重要指标,用户专业度越高,表明该用户成为专家的可能性越大。相比国内对专家识别研究的这一盲点,国外学者已提出了基于内容和网络的研究方法。Krulwich和Burkey提出了基于内容识别的系统,通过与布告栏上的文本消息进行匹配,找到专家来回答特定问题,但基于内容的方法具有不稳定性且耗费大量时间。Tang等在前人基础上提出TAP(Topical Affinity Propagation)话题传播模型这一基于网络的方法对用户专业度进行排名,但效率一直是个严重问题。另外,现有的这些方法多从单一的用户个体特征、用户发帖的内容或用户构成的虚拟社区网络特征等角度对专家进行识别研究,忽视了用户特征的复杂性特点,从而在一定程度上降低了专家识别效果的准确性。而这3类特征之间彼此联系,又相互独立,对用户专业度也有不同程度的解释力,因此,依据多个特征维度对专家用户进行识别分析,是目前值得深入探索的一个研究方向。

3.链接预测

对于链接预测的研究,早期主要研究策略是基于Markov模型和机器学习。Sarukkai首先提出了使用Markov模型来对链接进行分析和预测。在此基础上,Zhu等在自适应网络(Adaptive Web Sites)的研究中引入了Markov模型,这是链接预测逐步发展的建树性成就。链接预测其实可以简单地看成一个二分类问题。Lichtenwalter等提出了一种监督学习的链接预测框架,该框架使用分类算法进行预测。

针对网络的层次结构特点,Clauset、Moore等提出基于最大似然估计的方法。在此基础上,Guimera和Sales-Pardo提出了基于随机分块模型(Stochastic Block Model)的链接预测方法。随机分块模型的思想如下:把节点集分成若干小组,两个节点存在链接的概率完全取决于这两个节点属于哪个组,可以把观察到的网络看作随机分块模型的一次实现。随机分块模型方法适合用来预测网络中错误或缺失的链接。

最近几年,基于节点相似性的预测方法已经成为研究热点。该方法的思路如下:两个节点之间相似性指数越大,就认为它们之间存在或产生链接的可能性越大。该方法可以分为基于节点和基于路径两种,在不同的社会网络中预测算法会不一样。典型的方法有基于局部信息的CommonNeighbor算法及基于共同邻居的一些变形算法,如Adamic-Adar算法、Jaccard算法等。其算法具有计算简单、可扩展性良好等优点;基于全局信息的链接预测算法有Katz、Random Walk with Restart(RWR)等。RWR是PageRank算法的直接应用;Katz算法来源于图论的最短路径算法,如果两个节点之间存在路径数量越多,那么它们之间存在链接的概率也就越大。基于全局信息的相似性算法虽然比基于局部信息的相似性算法预测效果好,但是计算复杂,对于中大型网络不可用。Liben-Nowell等根据不同的网络拓扑结构给出了不同的节点对间的相似度计算方法,并且分析了这些相似度度量对链接预测效果的影响。1.2.2 社会化专家推荐算法研究

1.传统的专家检索与推荐

目前,针对传统学术领域和企业组织的专长识别、专家检索与推荐方法研究已经相对成熟,并且取得了大量研究成果。本书综合现有研究,将主要的专家检索与推荐方法归纳为基于概率语言模型方法、基于链接分析方法、基于知识网络方法、基于本体建模方法、基于主题模型方法和混合方法。

1)基于概率语言模型方法

基于概率语言模型方法在学术领域和企业组织的专家检索中得到较为广泛的研究与应用。它主要分为基于专家轮廓(Profile-Based)和基于专家文档(Document-Based)两种方法,其典型代表为Balog等在2006年提出的候选人模型和文档模型。国内学者陆伟等也基于该方法在企业和信息管理领域专家检索中取得了较好的研究成果。此外,还有研究人员使用距离与顺序关系、文档权威度等信息改进语言模型,并在一定程度上提高了专家检索精度。

2)基于链接分析方法

基于链接分析方法是基于社会化网络(如合作者网络、社交网络等)计算专家的权威性。权威性大多采用PageRank和HITS两种算法估算,如Zhang和Jurczyk等分别使用上述算法发现论坛和问答社区的权威。部分学者还提出了支持多链接PopRank、Co-HITS等算法,其效果优于上述算法。对于链接分析方法而言,它存在两个突出问题:一是主题漂移,由于用户专长具有主题性,主题无关的链接不能反映其权威;二是虚拟社区中链接是异质甚至含有负面信息的链接,这是权威性的负面证据,现有研究并未考虑这一点。主题敏感的链接分析方法能在一定程度上抑制主题漂移问题,但无法解决含有负面信息的链接。

3)基于知识网络方法

基于知识网络方法是利用知识节点和节点之间的关系构建网络,并运用复杂网络分析方法进行专长挖掘和专家推荐。部分学者以科研成果中的关键词为节点,基于维基百科知识节点相关性或基于关键词共现关系构建专家个人知识网络,并通过社区划分等识别专长领域。基于知识网络方法能够以可视化方式呈现专家专长与知识。

4)基于本体建模方法

基于本体建模方法能够在语义层面准确描述专家专长,实现基于语义的专长查询和推理,使得专家检索的召回率和精确度得到有效提高。国内外学者尝试利用本体进行专家建模与检索研究。该方法的缺点在于:无论是自动的本体构建还是半自动的本体构建,目前都是科学难点之一,但完全依赖手工的建模效率低,维护成本也相当高。这些问题降低了基于本体建模方法在虚拟社区开放环境下的应用价值。

5)基于主题模型方法

主题模型是一种能够发现文档中抽象主题的模型,近年来在专长识别与专家检索领域得到广泛应用。张晓娟等运用PLSA方法识别图情领域专家专长,但PLSA存在过度拟合问题。Blei等提出的LDA(Latent Dirichlet Allocation)模型引发了相关研究热潮,如建模作者与主题关联的AT模型、建模主题之间关联的PAM模型等。在专家检索领域,Riahi等的建模结果表明,简单LDA主题模型优于语言模型,而STM模型又优于LDA主题模型。此外,清华大学唐杰等提出LDA扩展模型用于学术推荐,Liu等利用LDA主题模型评估在线论坛用户的专业度。LDA主题模型的优点表现如下:能够自动地生成隐含主题,即专家的隐式专长,并且能够按照不同的层次、不同的类别对群体或者个人的专长进行更为准确的分类,还能从广度和深度两个方面对用户的专长或群体的专长进行量化计算。

6)混合方法

虚拟社区中包含的信息种类更丰富,仅使用单一证据或者上述一种方法显然已经不能满足虚拟社区环境下专家检索与推荐的要求。部分学者开始将专家支持文档类证据与社交网络信息融合,探索基于证据融合的混合方法。另有少数学者对融合情境的专家推荐进行了初步尝试,但大多数人还是只关注推荐精度问题,忽视了专家推荐的可用性问题,若推荐的专家不能快速回复提问者,往往会降低用户体验。因此,有必要将专家情境信息引入到社会化专家推荐中。

2.基于情境感知的推荐

推荐系统引入情境信息后,系统自动推荐的项目的精确度得到有效提高,使得用户对推荐项目更为满意,受到了学者的广泛关注。情境信息对解决社会化专家推荐精度和可用性同样具有重要作用。例如,有的用户习惯在“工作之余”或者“心情愉悦”时回答问题;过多的“工作负荷”会降低用户的回答意愿;Lai等指出问答社区中的用户越活跃,其回答问题的可能性越大,并基于用户活动规律进行问题推送,准确率可以提高37.34%;百度研究院Liu等指出在百度知道问答社区中拥有博士学位的30岁以上的女性更愿意接受问题推荐;Schall在PageRank模型中引入用户可用性和活动水平进行专业度排名。此外,社会化问答平台Quora也推出了结合时间与地理位置的问答服务,促进了基于情境感知的社会化专家推荐的应用研究。

针对不同的应用领域,情境包含的内容也各不相同。在信息检索与推荐领域,情境包括用户检索任务、时间、设备状态等;在电子商务个性化应用中,情境包括用户购买意图、季节、位置、天气等;在社会化专家推荐领域,需要考虑用户时间、位置、情绪、社交网络等因素。此外,不同用户受不同情境类型的影响程度也不尽相同,有必要确定各类情境对用户回答行为的影响权重,从而提高专家推荐精度。

基于情境感知的推荐生成技术是情境感知推荐系统的核心,根据情境信息在整个推荐流程中所起作用的不同,主要归纳为3类:情境预过滤、情境后过滤、情境建模。①情境预过滤是指先根据情境信息将与用户偏好无关的数据都过滤掉,然后基于过滤后的数据进行推荐分析,并生成最终的推荐结果。也就是说,情境过滤发生在推荐之前。②情境后过滤是指情境过滤发生在推荐之后,即先利用传统推荐技术生成推荐结果,再利用情境信息对该推荐结果进行过滤或重新排序。在用户的偏好与情境之间为松耦合关系的情况下,上面所说的两类技术都适用。③情境建模是指在整个推荐生成过程中都要将情境信息纳入考虑之中,需要设计合适的算法和模型来处理多维度的情境用户偏好。当用户的偏好与情境之间的关系为紧耦合时,比较适合使用情境建模技术。

虚拟社区环境下的社会化专家推荐,情境与用户偏好多为松耦合关系,因此,可以考虑采用情境预过滤和情境后过滤技术,融合人口统计学特征、时间、位置、情绪、工作负荷量、社交等与专家相关的多种情境信息,提高社会化专家推荐的精确度,解决专家推荐的可用性和及时性问题。

3.基于图的推荐

图论方法以简单而系统的方式建模对象之间的复杂关系,包含的信息更丰富,被广泛应用于商品推荐、信息资源推荐、好友推荐等个性化推荐领域。

基于图的推荐已从单部图推荐逐步向二部图、多部图及混合图推荐转变,并随着图中信息的不断丰富而在缓解数据稀疏、提高推荐精度上表现出明显的优势。现有专家检索方法中,链接分析和知识网络方法实质上构建的是一种反映用户之间或知识节点间关系的单部图,难以表达出虚拟社区中的社交用户与其专长之间的隐含关系。二部图和三部图分别包含两种类型和三种类型的节点,不同类型的节点之间允许互相关联,扩展了单部图的局限。但不允许同类节点间相连,忽视了用户之间的交互关系和专长之间的关联。而混合图同时弥补了单部图和多部图的缺陷,可以全面表达同类和异类节点间的关联,因此,基于混合图的推荐效果更优。虚拟社区环境下的社会化专家推荐,有必要考察用户及用户专长之间的关联,并融入用户之间的交互关系、用户评价、用户情境知识等多类专家证据,构建证据增强混合图,以提高社会化专家推荐的精确度。

基于图的推荐求解有多种方法,其中随机游走算法的应用比较多。重启动随机游走(Random Walk with Restart,RWR)算法将推荐问题转换为图中节点相似性排名问题,引起了研究者的极大关注,并应用于个性化电影推荐、用户推荐等领域。实践表明,RWR算法具有语义扩展能力,能有效缓解数据稀疏、冷启动问题,推荐性能也优于传统算法。该算法可在用户和专长节点之间进行随机游走,找到最相似用户,以解决虚拟社区环境下社会化专家推荐问题。但该算法在处理大规模图时效率较低、空间消耗大、响应时间长,限制了算法的应用。针对该问题,Tong等将大图分解为多个子图并计算各子图的转移矩阵,提出快速RWR算法,提高处理效率;Zhang等基于星图分解方法提出两阶段RWR算法,实现社交媒体的专家发现。上述研究均有效改善了RWR算法的效率问题,为算法的应用与普及带来了希望。1.2.3 在线社会支持研究

在线社会支持(Online Social Support,OSS)或称线上社会支持或网络社会支持,是人们通过互联网交互过程而发生的信息、情感、网络陪伴等社会支持行为。互联网快速普及之前,国内外学者大多从医学、社会学、心理学和传播学等学科角度研究传统社会支持形式对个人身心健康的影响。随着互联网的迅猛发展和网民数量的激增,人们借助Web论坛、聊天工具群等方式,组成了各种各样特定的在线社会支持群体,关于在线社会支持的研究也随之增多。

早期许多学者认为网络由于不需要身体在场、缺失个人线索和人际互动不确定性极强的特点,故网络中不存在社会支持,如Bambina认为虚拟社区中不存在面对面的交往,所以,社区成员间不可能存在实质性的支持;后来研究人员开始肯定网络中不仅存在社会支持,而且作为一种可行的社会支持来源,更多的在线社会支持能给人们带来更多的归属感,对个人身心健康有着积极的影响。近年来,对在线社会支持的研究大多集中在其相对于传统社会支持的优劣之处、在线社会支持的内容或类型,以及影响在线社会支持水平的因素等方面。

1.在线社会支持的相对优劣之处

与传统的面对面支持相比,Coulson认为在线社会支持具有便利性、匿名性、私密性、突破时间空间障碍等明显优势,Kummervold认为在线社会支持已经成为传统社会支持的重要补充,并且相对于传统社会支持更便于人们提供和获取社会支持。Walther等认为在线社会支持从根本上改变了面对面社会支持的沟通渠道,即个体寻求和提供支持行为不再受时间和空间的限制,同时由于网络使支持寻求者与提供者之间在社会经济方面的关系变得模糊,个体在交往对象上因此有了更大的选择空间。在White等看来,与传统社会支持相比,计算机中介沟通的异步性特征使得个体能够以自己的速度认真地做出回应,而网络的匿名性使得人们可以谈论一些敏感的话题,从而增加了个体自我表露的可能性并促进了成员间真诚、亲密关系的建立。国内学者梁栋青对大学生网络社会支持的研究表明,网络社会支持的匿名性在帮助他们形成网络情感联系的同时,使他们更加快捷全面地了解各种信息,对大学生主观幸福感有积极影响。

大多研究人员都从正面角度直接证明在线社会支持的优点,也有部分学者从反证法角度,证明在线社会支持的可行性,如Uden Kraan等针对学术界关于在线社会支持的质疑声音,专门研究几类慢性病论坛中可能存在的缺点,如成员间交流的信息质量缺乏管理、帖子内容包含不适当的言辞等问题,结果发现只有极小一部分帖子包含上述不足,从反面证明了在线社会支持的可行性。

同时,不少学者也表露出对在线社会支持弊端的担忧,认为在线社会支持不可避免地存在缺陷。White认为个体必须具有使用计算机和网络的基本技能才能参与在线社会支持活动,而且在线信息很容易被误解,即便可以通过一些符号性语言来补救。Finfgeld提出网络社会支持的不足之处在于网上交往过程中缺少非语言线索,从而妨碍了对关系中细微支持的察觉,影响彼此的沟通交流。Irene Carter探讨了孤独症儿童的父母对在线社会支持的体验,在确认OSS的有效性之外,也肯定了在线论坛中存在混乱的不可靠信息。Coulson和White考虑到OSS因其载体的虚拟特征,其视觉、听觉和环境线索的缺失,容易造成信息误导。国内学者漆昌柱探讨了网络社会支持与大学生网络成瘾关系,认为网络社会支持对现实社会支持的改善作用有限,大学生反而可能由于把网络当作逃避负面生活事件影响的唯一避难所而导致网络成瘾,从而使现实社会支持越来越远离自己,影响个体生活质量。

2.在线社会支持的内容或类型

对于在线社会支持的内容,很多研究显示现实社会支持的类型同样出现在在线环境中,包括信息、情感、尊重、工具、实物和网络支持等类型。

Braithwaite等分析了残障人BBS一个月内的1179条帖子,发现最常见的在线社会支持类型依次是情感支持(40%)、信息支持(31.7%)、尊重支持(18.6%)、网络(7.1%)及切实的援助(2.6%)。Coursaris等通过分析艾滋病在线社会支持论坛中成员的交流内容,发现成员经常提供和寻求的支持类型依次为信息支持(40%)、情感支持(16%)、网络支持(6.8%)、尊重支持(6.4%)和非常少的实质性支持(0.8%)。Coulson等对亨廷顿氏舞蹈病患者论坛的研究也得出了类似的结果,论坛成员经常提供的帮助有信息支持(56.2%)、情感支持(51.9%)、友伴支持(48.4%)、尊重支持(21.7%)和较少的实质性支持(9.8%)。兰州大学的王霞借鉴Eichhorn通过对雅虎网站中饮食紊乱讨论版的研究发现,社会支持的类型从多到少依次是信息性支持、情感支持、网络支持、工具性支持和自尊支持。Li YungMing对微博空间交换的社会支持类型界定为4类,即情感支持、工具性支持、信息支持和评估支持。华中师范大学的梁晓燕探通过探讨网络社会支持对青少年心理健康的影响机制,提出大学生网络社会支持主要包括情感支持、工具性支持、信息支持、社会成员支持4个维度。

总的来说,研究人员根据社会支持性质的不同,也将在线社会支持分为信息支持、情感支持、尊重支持、网络支持和实物支持几个子类。此外,本书还发现,作为弱势群体交换社会支持的重要场所,不同类型的在线支持论坛,因为其自身属性、服务对象及成员动机的不同,论坛中侧重交换的社会支持类型比例也呈现出不同的特点,具体如下。①疾病类论坛中交换频率最高的是信息支持和情感支持。例如,乳腺病在线社会支持社区和酗酒论坛中,成员最常交换情感支持和信息支持。②社交类论坛成员更倾向于交换尊重支持。例如,中国台湾学者Hsiu-Chia等将博客视为一种允许受众交换观点和反馈的社会支持平台,发现读者向博主提供的频率最高的社会支持,是以肯定、鼓励和称赞为代表的尊重支持。③老年人移情社区则更注重交换情感支持。

3.影响在线社会支持水平的因素

目前国内外学者针对不同的应用领域,结合多种相关社会理论分析了在线社会支持的影响因素,这些因素总体上可归纳为3类:个体类因素、网络类因素和话题类因素。

1)个体类因素

个体类因素主要包括以下5个方面:个人基本属性,包括性别、年龄、受教育程度和经济状况等;能力,包括论坛成员IT使用能力及支持提供者的专业度;支持寻求和提供策略;参与度;心理因素。(1)个人基本属性:性别是影响在线社会支持的最重要因素。多数文献研究表明,不同性别的人寻求的支持类型和寻求行为不同,感知到的支持效果也不同。Miriam Stewart从成员发布信息数量、孤独感、社会接受程度、群体归属感等维度对Ability Online这一残障青少年社区进行研究,在证明OSS干预会对残障青少年产生积极影响的同时,发现不同性别的成员对待OSS有不同的寻求行为,进而产生不同的OSS效果:女性为寻求OSS而发布的信息数量明显多于男性,更容易被在线支持社区吸引;男性的社交网络更小,更少寻求社会支持,因而他们的社会接受程度和群体归属感更低,孤独感也更强。Clive利用网络论坛中丰富的数据资源,专门研究性别差异给癌症在线支持社区带来的差别:男性大多寻求信息支持,且不愿分享感受;女性普遍具有较强的情感表达能力,与其他成员建立友谊关系,更倾向于寻求并提供社会支持和情感支持。

Uden Kraan推翻了一部分学者对于在线社区中信息质量缺乏管理等潜在缺点的担心,在证实在线支持社区是一种可行的支持渠道的基础上,发现慢性病在线支持团体的参与者绝大多数是女性患者,只有很小一部分男性患者利用在线支持团体寻求支持。Devan Rosen等把性别视作一种文化,研究性别差异对个体的在线行为和生活满意度不同影响,研究表明女性比男性更多地利用新型交流技术,如社交网站(SNS),女性的社会生活满意度也高于男性。同样的研究发现占在线医疗论坛成员总数78%的女性成员,更愿意参与在线支持调查问卷、寻求社会支持。年龄方面,Baams对同性恋在线论坛的研究发现,年轻人比年长者接收更多的社会支持。还有研究表明教育水平、经济状况等因素对在线支持感知也存在显著的正向影响。但也有研究指出性别、婚姻状况对在线社会支持无明显影响。(2)能力:成员的IT使用技能可以提高在线支持发生的概率,成员的IT使用能力有利于在线社会支持的获取。另外,Miriam Stewart与司夏萌等都认为支持提供者的专业度越高,感知社会支持的强度越大。Chang Hui Jung在证明在线支持论坛产生积极效用的同时,发现众多(68%)参与者明确希望专业人士能在此类论坛中扮演积极角色,提供专业的在线医疗服务,提高在线支持效果。(3)支持寻求和提供策略:Chang Hui Jung的研究表明,哭诉和抱怨越少,自身情况表露得越清楚,提问越直接,越容易获得在线社会支持。另外,提供者的宗教表达策略对在线社会支持效果的影响还未形成统一认识。(4)参与度:一般来说,参与度与感知到的社会支持和满意度正相关。Phoenix等通过对艾滋病在线论坛的研究证明,参与度高的成员(积极的发帖者)获得的社会支持和满意度更高,参与度低的成员(只看帖不发帖的“潜水者”)获得的社会支持和满意度则相对较低。Jade Dyer通过对心脏病在线论坛HeartNet的研究,发现成员参与度和他们利用网络论坛感获得的益处正相关;相比那些只观察其他论坛成员互动的人,提供并接受在线社会支持的成员体验到更高的满意度。此外,个体在社区中花费的时间越多,感知到的社会支持越多。Ulrike Pfeil以有上网技能的老年人为特定对象,研究了他们的在线社会支持现状,证明加入和花费在在线社区的时间与个体感知到的社会支持之间正相关。Ma Meng对在线戒烟社区的研究表明,加入在线社区时间与戒烟效果正相关。(5)心理因素:Matthew等运用社会认知理论解释了积极的自我效能和结果预期可以促进个体去寻求和提供更多的社会支持。Lin Chieh Peng从社会心理学的新颖角度研究在线社会支持的驱动因素,发现用户主要受自我效能和期望获得在线支持等心理因素的驱动来使用IT寻求OSS。Mali Bunde从社会认同理论角度出发,认为宗教、种族、父母状况、手术状况等背景相似的成员间更易产生互动,支持的效果更好,强度更高。Miia Akkinen从社会交换理论和社会认同理论出发,研究人们参与在线社区的原因和动机:①基于社会交换理论,把用户分成支持寻求者和支持提供者,认为人们为了获取回报,如肯定、尊重、在虚拟社区中建立社会地位和威望等目的,积极参与在线社区寻求和提供社会支持;②基于社会认同理论和集体行为理论,社区成员在集体归属感的激励下,愿意主动提供社会支持。

2)网络类因素

网络类因素也是影响在线社会支持的因素之一。Ulrike Pfeil等研究表明在线网络规模与感知社会支持之间正相关,网络的紧密度和中心度越高,支持发生的概率越大。但该方面的研究尚存在争议,如武汉大学的Zhang Ming Xin就指出个体的支持网络与感知社会支持之间存在很弱的关联。

3)话题类因素

话题类因素包括帖子(话题)标题、帖子内容、发帖时间。在线社会支持论坛成员间的关系是通过帖子联系在一起的,即某个用户发布主题帖,其他用户通过随后的回复即跟帖从而在相互间建立关系。很多帖子依赖于标题和高质量的帖子内容获得了较高的点击率和回复率,进而影响支持发生的概率,因此,话题类因素显得尤为重要。

国内学者刘骅以南京大学小百合BBS的每日十大热门话题帖子的标题为数据样本,提出“一个引人注目的标题才是促使用户浏览的关键”,认为标题高度反映了帖子内容和观点。李维杰等通过对BBS中帖子浏览和回复特征的分析指出,话题本身特点如包含信息的新颖性、是否能影响他人、话题发布时间等会影响信息传播,从而影响支持的传递。Chang Hui Jung则专门研究了影响帖子回复率的因素,发现话题内容若包含较多的哭诉和抱怨,其获得的回复率则较低。此外,帖子中表情符号的使用也影响其回复率。复旦大学的阳德清指出,发帖时间会影响该帖子的受关注程度,原帖在发布后的初期阶段若得到较多回帖,其最终也会得到较多的回帖。1.3 本书主要内容1.3.1 研究内容体系结构

本书研究内容的体系结构如图1-1所示。图1-1 本书研究内容的体系结构

该框架包含以下4个主要功能模块:(1)基于Nutch的虚拟社区多源数据采集系统研究。虚拟社区的形式层出不穷,其中最为重要的几种形式有新闻网站、论坛、贴吧、微博、博客等,针对这些多源虚拟社区,采用建立在Nutch基础上的通用数据采集系统获取数据资源,具体方法主要包括基于免费或者付费API接口抓取数据资源、利用网络爬虫工具进行数据源采集、从数据公开网站获取相应数据集等。(2)虚拟社区社会化专家建模理论研究。基于主题模型构建用户—专长—词项混合图,将待研究的虚拟社区抽象成理论研究模型,并采用融合多类专家证据的混合图生成方法对虚拟社区中的用户进行建模。进一步地,基于主题模型的知识共享网络构建将基于社区用户角度建模上升为基于社区层面进行建模分析。(3)虚拟社区社会化专家推荐方法研究。在针对虚拟社区专家模型建立的基础上,构建基于混合图的社会化专家推荐算法,为虚拟社区中的用户提供更加高效、优质的服务。(4)应用及实证研究。利用真实数据集(微博、百度知道、39健康网艾滋病论坛等)中的实验对构建的虚拟社区专家用户模型、社会化专家推荐方法及在线社会支持应用模型进行检验,以验证模型的有效性、可行性及其实用价值。1.3.2 主要功能模块介绍

模块一:基于Nutch的虚拟社区多源数据采集系统研究

数据采集是虚拟社区实证研究的基础,其功能主要是完成虚拟社区包括新闻网站、论坛、贴吧、微博、博客等的各种数据资源采集,该模块为本书提供了最有价值的原始数据或结构化数据。互联网上的虚拟社区是人们进行交流、娱乐、开展交易等各种经济社会活动的重要场所,也是弱势群体寻求和提供在线社会支持的主要手段。首先,在网络领域数据库设计采集数据源的结构,分别针对新闻网站、论坛、贴吧、微博、博客等不同类型的虚拟社区进行相应的采集方案设计,为基于虚拟社区的社会化专家推荐研究确定研究对象;然后在通用的搜索引擎框架Nutch的基础上结合不同社区的特点对其进行改造,采用不同的方式进行线上数据采集,并以此作为系统的初始输入,使虚拟社区集达到实时、定向、精准的目标。

虚拟社区中的网页新闻采集首先从一个工作种子集出发,将新闻网页URL放到待抓取队列中,从队列中取出一个URL抓取下来对应的网页,然后提取出网页相应的URL放到队列中,如此按照广度优先或者深度优先策略不断抓取网页,直到达到设定的停止标准为止。

针对论坛、贴吧的数据采集,本书提出“分块解析”理论,论坛中无论是帖子列表页面,还是帖子页面,其正文内容都由若干块组成,帖子列表页面中每条主帖就是一个块,帖子页面中主帖、每条回帖都是一个块。同时,每个块中都包括若干数据项,如主帖中包含主题、内容、点击数、回复数等数据项。因此,分块解析就是从一个页面中定位出每个数据块(这些数据块通常具有相同或相似的源码特征),再从每个数据块中抽取出对应的数据项。从而解决了论坛贴吧采集中大规模采集、自动化采集、准实时采集、定向采集、翻页抓取、通用解析与精准解析的难题,实现了准实时采集和精准化抽取的目标。

针对微博、博客的数据采集主要采用微博API与网络爬虫相结合的形式,建立通用的微博资源采集方案,实现对微博平台数据的采集。微博需要登录后才能看到具体内容,而登录问题就对网络爬虫提出了很大的难题,因此,本书采用微博API进行微博模拟登录,具体通过建立应用池和账号池来抓取相应微博内容。首先,在微博平台申请多个开发者账号及测试账号,以规避平台对服务器IP的限制;然后周期性刷新测试应用的Token;接着获取当前所有满足条件的Token,依次利用这些Token进行请求,通过相应的API获取最新的微博数据;最后将这些数据进一步解析为满足我们概念模型的微博的形式,并对所有微博建立索引。由于API的许多限制及API高级接口暂时不免费对外开放,登录成功以后,本书使用基于HTTP请求的爬虫来实现相应数据的抓取。

为了尽可能达到数据共享的最高标准,以确保数据集可发现性、可访问性、互操作性和可复用性,当前,许多大型平台公开了各领域数据集,相关研究人员可以通过免费下载或者付费获取的形式便捷地对相关数据进行采集。

模块二:虚拟社区社会化专家建模理论研究

该模块由专家用户建模和虚拟社区建模两个子模块组成,其主要功能是对虚拟社区中的专家用户进行识别,进一步构建社区模型以达到虚拟社区知识共享目的,从而实现“人人为我,我为人人”的高效知识获取与利用。

1.专家用户建模

专家用户建模子模块针对虚拟社区中的专家用户识别及模型构建,提出了基于证据增强混合图的专家用户建模方法。对各模型构建问题的描述及定义、建模框架、建模具体流程及算法等进行详细介绍,充分利用了社区中的各类专家证据并将其有机融合,生成混合图并对虚拟社区中的专家用户进行建模。

首先,对多类专家证据进行概述,用户—专长—词项混合图的构建,就是在用户—专长—词项三部图的基础上有机融合上述多类专家证据。

其次,基于主题模型构建用户—专长—词项混合图,将待研究的虚拟社区抽象成理论研究模型,对问题进行描述和定义,针对本书待解决问题提出虚拟社区下的用户—专长—词项三部图模型,并针对专家用户画像进行构建,融合了用户属性、社会化标签和主题网络,从而构成了基于主题模型的虚拟社区用户画像模型,包括静态用户画像和动态用户画像的模型。用户画像的作用主要是对虚拟社区中用户的特征进行客观、准确的描述,以此满足社区用户的个性化需求。

最后,在LDA主题模型的基础上,对社会化专家建模问题进行剖析与分解,设计一套应用于虚拟社区的社会化专家建模框架体系,进而基于专家用户知识度量,以增强用户—专长—词项三部图中用户与专长、专长与词项之间的关联边及权重,同时基于节点多属性的相似性计算进行链接预测,以增强用户—专长—词项三部图各节点属性及节点间关系,目的是将影响社会化专家推荐的多类专家证据信息融入用户—专长—词项三部图模型中并增强三部图中的定点属性、关联边和权值,生成混合图,最终进行虚拟社区专家用户的模型构建。知识度量主要用于如何识别出虚拟社区中专业知识水平高、经验丰富、沟通技巧好的专家型用户,并对这些用户资源进行深度挖掘和利用这一问题进行研究。链接预测部分提出一种基于信息融合相似性算法的链接预测指标SNEUGC指标,接着对SNEUGC指标构建框架进行设计,最后分别针对输出的文档计算相应SNEUGC值设计具体算法流程,从而进行基于SNEUGC指标的链接预测。基于混合图的社会化专家建模部分主要实现在用户—专长—词项三部图基础上利用多类专家证据来构建并增强三部图中的节点属性、关联边及权值,从而生成混合图,构建社会化专家模型。

2.虚拟社区建模

虚拟社区建模模块基于知识网络共享模型进行虚拟社区的模型构建,其研究内容主要包括3个部分。①知识网络的表示。本书的知识网络是指虚拟社区中每个成员在网络中存在显式或隐式的知识,由知识节点间内在关系而形成的网络。以虚拟社区成员为知识主体,以主体间的知识相似度为边,虚拟社区的知识网络可以表示为P-P网络。②基于HAPM模型的知识模式获取。借鉴HPAM模型的思想,构建虚拟社区知识共享网络,包括虚拟社区成员关系网络和虚拟社区知识网络,其中知识网络又是在知识元网络基础上构建的。③知识主体间知识相似性度量。以知识模式为标准抽取虚拟社区每个成员的知识模式,其中设定知识元个数阈值,提取相应阈值下的知识元。知识主体间知识相似性采用空间向量VSM模型度量。

该模块的研究结合HPAM主题模型,提出一种虚拟社区知识网络共享模型研究方法,有效地解决了虚拟社区存在的以下问题:①如何描述虚拟社区及用户的知识,实现虚拟社区知识的自组织;②如何在知识描述及知识共享网络的基础上进行可视化研究;③如何发现专家用户并促进知识共享。

模块三:虚拟社区社会化专家建模方法研究

在对虚拟社区中的专家用户进行识别,从而构建社区模型这一基础上,实现虚拟社区中资源利用最大化、服务最优化才是本书的最终目的。社会化专家推荐有助于用户快速、准确获取所需信息或知识,对于解决信息过载、提升用户体验和知识共享水平具有重要意义。社会化专家推荐子模块包括重启动随机游走和情境感知两个部分,其主要功能是基于证据增强混合图进行社会化专家推荐。该子模块在融合了多类专家证据的用户—专长—词项混合图模型的基础上设计社会化专家推荐系统框架结构,分两阶段进行专家推荐,即基于重启动随机游走的专家推荐和基于情境感知的专家推荐相结合。

重启动随机游走部分使用重启动随机游走算法研究社会化专家推荐,通过计算节点之间的相关性,从而得出个性化的专家推荐列表,并将这些专家推荐给目标用户,为其提供专家解答服务。本书把社会化专家推荐问题转化为一个图的问题,提出使用重启动随机游走算法研究社会化专家推荐,它是本书基于证据增强混合图进行社会化专家推荐的第一阶段。这个阶段首先要对用户的提问进行解析,采用CRP隐主题模型的方法对用户提出的问题进行主题识别,提问的主题可以映射为回答者的个人专长。紧接着对得到的稳定概率进行排序,稳定概率越大,被推荐的机会则越大,从而生成候选专家Top-N列表。情境感知部分的主要作用是确定各类情境对用户回答行为的影响权重,为基于情境感知的社会化专家进行推荐,从而提高社会化专家的推荐精度和可用性。首先,要获取用户的情境知识,针对不同类别的情境知识采用不同方式来获取相应数据。其次,在基于混合图的社会化专家推荐算法的基础上,通过提问者与候选专家之间的情境相似性对候选专家列表进行二次过滤,从而保证推荐专家的可用性。也就是说,通过计算候选专家的历史情境和提问者的当前情境的相似度来匹配适合的专家,得出最终的社会化专家推荐列表。

模块四:应用及实证研究

在理论模块构建完成后,检验其是否具有实际应用价值尤为重要,否则本书将沦为一纸空谈。鉴于此,本模块利用新浪微博、百度知道平台、39健康网艾滋病论坛等虚拟社区中的真实数据集,在理论模型构建的基础上,共设计3组实验进行实证研究:用户画像模型实证、社会化专家推荐模型实证、在线社会支持模型实证。

1.基于新浪微博的用户画像应用与实证

本模块包含两类实验,分别是基于主题模型的用户画像实验及在此基础上的虚拟社区知识共享实证。基于用户画像的用户建模实验包括基于LDA主题模型的静态用户画像和动态用户画像。基于知识共享网络模型的社区建模实验的数据包括用户节点、用户关系信息和微博3类数据,通过基于主题模型构建的虚拟社区知识共享网络,得到虚拟社区知识元网络、虚拟社区知识网络、虚拟社区成员网络及知识主体的知识描述,从而定量、易理解及可视化地发现虚拟社区知识共享规律。

2.基于百度知道的社会化专家推荐应用与实证

本模块实验即证据增强混合图的社会化专家推荐实验,在全球最大的中文互动问答社区——百度知道平台的基础上展开的实证研究,包含用户—专长—词项混合图的生成和社会化专家推荐算法的实现两部分。首先,构建用户—专长—词项混合图,通过增强图中边的类型和权值、增强用户节点的属性特征这样的方式,将4类专家证据有机融合到混合图中;其次,在上述实验得出的用户—专长—词项混合图基础上,通过识别用户提出的新问题的主题领域,采用基于证据增强混合图的社会化专家推荐算法即二阶段推荐算法进行社会化专家推荐。

3.基于39健康网艾滋病论坛的在线社会支持应用与实证

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载