个人数据管理(txt+pdf+epub+mobi电子书下载)


发布时间:2020-10-02 03:15:05

点击下载

作者:李玉坤,孟小峰

出版社:机械工业出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

个人数据管理

个人数据管理试读:

前言

当下大数据技术发展变化日新月异,大数据应用已经遍及工业和社会生活的方方面面,原有的数据管理理论体系与大数据产业应用之间的差距日益加大,而工业界对于大数据人才的需求却急剧增加。大数据专业人才的培养是新一轮科技较量的基础,高等院校承担着大数据人才培养的重任。因此大数据相关课程将逐渐成为国内高校计算机相关专业的重要课程。但纵观大数据人才培养课程体系尚不尽如人意,多是已有课程的“冷拼盘”,顶多是加点“调料”,原材料没有新鲜感。现阶段无论多么新多么好的人才培养计划,都只能在20世纪六七十年代编写的计算机知识体系上施教,无法把当下大数据带给我们的新思维、新知识传导给学生。

为此我们意识到,缺少基础性工作和原始积累,就难以培养符合工业界需要的大数据复合型和交叉型人才。因此急需在思维和理念方面进行转变,为现有的课程和知识体系按大数据应用需求进行延展和补充,加入新的可以因材施教的知识模块。我们肩负着大数据时代知识更新的使命,每一位学者都有责任和义务去为此“增砖添瓦”。

在此背景下,我们策划和组织了这套大数据管理丛书,希望能够培养数据思维的理念,对原有数据管理知识体系进行完善和补充,面向新的技术热点,提出新的知识体系/知识点,拉近教材体系与大数据应用的距离,为受教者应对现代技术带来的大数据领域的新问题和挑战,扫除障碍。我们相信,假以时日,这些著作汇溪成河,必将对未来大数据人才培养起到“基石”的作用。

丛书定位:面向新形势下的大数据技术发展对人才培养提出的挑战,旨在为学术研究和人才培养提供可供参考的“基石”。虽然是一些不起眼的“砖头瓦块”,但可以为大数据人才培养积累可用的新模块(新素材),弥补原有知识体系与应用问题之前的鸿沟,力图为现有的数据管理知识查漏补缺,聚少成多,最终形成适应大数据技术发展和人才培养的知识体系和教材基础。

丛书特点:丛书借鉴Morgan&Claypool Publishers出版的Synthesis Lectures on Data Management,特色在于选题新颖,短小精湛。选题新颖即面向技术热点,弥补现有知识体系的漏洞和不足(或延伸或补充),内容涵盖大数据管理的理论、方法、技术等诸多方面。短小精湛则不求系统性和完备性,但每本书要自成知识体系,重在阐述基本问题和方法,并辅以例题说明,便于施教。

丛书组织:丛书采用国际学术出版通行的主编负责制,为此特邀中国人民大学孟小峰教授(email:xfmeng@ruc.edu.cn)担任丛书主编,负责丛书的整体规划和选题。责任编辑为机械工业出版社华章分社姚蕾编辑(email:yaolei@hzbook.com)。

在此期望有志于大数据人才培养并具有丰富理论和实践经验的学者和专业人员能够加入到这套书的编写工作中来,共同为中国大数据研究和人才培养贡献自己的智慧和力量,共筑属于我们自己的“时代记忆”。欢迎读者对我们的出版工作提出宝贵意见和建议。

丛书即将出版书目

大数据管理丛书

孟小峰 编著

2017年5月

异构信息网络挖掘:原理和方法

[美]孙艺洲(Yizhou Sun) 韩家炜(Jiawei Han)著;段磊 朱敏 唐常杰 译

2017年4月

大规模元搜索引擎技术

[美]孟卫一(Weiyi Meng) 於德(Clement T.Yu)著;朱亮 译

2017年4月

大数据集成

[美]董欣(Xin Luna Dong) 戴夫士·斯里瓦斯塔瓦(Divesh Sriva-stava) 著

王秋月 杜治娟 王硕 译

2017年5月

短文本数据理解

王仲远 编著

2017年4月

个人数据管理

李玉坤 孟小峰 编著

2017年4月

位置大数据隐私管理

潘晓 霍峥 孟小峰 编著

2017年4月

移动数据挖掘

连德富 张富峥 王英子 袁晶 谢幸 编著

2017年4月

云数据管理:挑战与机遇

[美]迪卫艾肯特·阿格拉沃尔(Divyakant Agrawal) 苏迪皮托·达斯(Sudipto Das) 阿姆鲁·埃尔·阿巴迪(Amr El Abbadi)著;马友忠等译

2017年5月前言

据IDC统计,2006年全球新产生的数据量达到1610亿GB,2007年达到2810亿GB,2010年达到12000亿GB(1.2ZB),信息的爆炸性增长使人们日常需要处理的信息量迅速增长,个人数据管理问题日益突出。微软公司的研究员Gordon Bell从2000年开始收集个人数据信息,包括阅读的文章、听过的音乐、建立的文档、访问的网页、个人医疗信息以及拍摄的照片等,到2007年其收集的个人信息量已经达到150GB。个人信息量的迅猛增长使人们管理个人信息的负担日益加重。许多人都有这样的体会:尽管人们在信息分类、存储、备份、安全保护等方面花费了大量时间和精力,但仍然频繁出现问题,如硬盘意外损坏造成大量个人数据丢失,记忆不准确造成个人数据查找困难,分散存储数据导致数据的不一致,无意之中造成个人隐私信息泄露,等等。如何高效管理个人数据信息日益成为学术界和产业界共同关注的问题,特别是近年来随着Web 2.0、物联网等相关技术的发展,以及手机等移动终端的普及,个人的健康信息、移动轨迹等数据都可能被收集起来,个人数据量会进一步增长,个人数据管理问题将更加突出。

目前大数据管理技术日益引起相关领域学者的关注。大数据管理的最终目的是提高人们的生活质量与工作效率,这是大数据管理的价值体现。个人数据管理问题本质上是分散、大规模、异构、复杂数据的管理问题在个人数据管理领域的反映,涉及数据存储、索引、查询、安全与隐私保护等诸多问题,这也都是大数据管理所要解决的基本问题。本书旨在基于近年来作者在这一领域的研究工作,对个人数据管理相关技术进行整理,以期对该领域的研究人员、技术人员或普通用户有所帮助。本书与同类图书的比较

本书作者自2006年开始进行个人数据管理方面的研究。本书基于作者及合作者多年在个人数据管理方面的研究积累,对个人数据管理相关技术进行了总结,内容涵盖个人数据管理技术的发展、数据模型、数据集成、数据融合、数据存储、数据查询、系统实现、个人数据管理新技术发展几个部分。

目前并未看到一本系统介绍个人数据管理相关理论、技术与系统实现方面的著作,本书作者参与编写的《Web数据管理:概念与技术》一书中介绍了数据空间的相关理论与技术,但是并未特别针对个人数据信息管理技术进行系统的阐述。本书的内容和组织结构

本书分为8章。

第1章是本书的总述,主要讨论个人数据管理技术的发展、个人数据特征以及个人数据管理系统框架。

第2章介绍个人数据空间模型,包括概念模型、逻辑模型以及面向主体的任务空间和核心数据空间模型。

第3章重点介绍个人数据集成技术,主要包括个人数据集成的概念、个人初始数据空间的建立策略以及个人操作行为的识别技术。

第4章重点介绍个人数据集成中的数据融合问题,主要包括个人数据空间的同义词概念识别、个人数据的版本管理、基于时序关系的实体引用关系识别。

第5章主要介绍个人数据存储技术,包括分布式数据存储模式、支持数据空间演化的索引策略。

第6章重点讨论个人数据查询问题,主要包括查询接口、基于同义词的个人信息查询、基于任务的个人数据查询。

第7章重点讨论个人数据空间系统的实现技术、系统框架及相关功能。

第8章关注的是个人数据管理领域新的技术成果和研究动向。

本书主要面向各类研究人员和开发人员,既可以作为本研究方向的教科书,也可以作为本领域研究人员的技术参考书。致谢

首先感谢我的导师孟小峰教授,我从2006年起即在孟老师的指导下开始从事个人数据管理的研究工作,记得当时读的第一篇文献是第一届国际个人信息管理技术研讨会(PIM Workshop 2005)发布的会议报告,这个报告首次提出了个人信息空间的概念,并对个人信息管理的一些基本概念和研究问题进行了阐述。后来孟老师又给我推荐了M.Franklin、A.Halevy和D.Maier的论文《From Databases to Dataspaces:A New Abstraction for Information Management》,这篇论文提出了数据空间的概念,并提及了其在个人信息管理领域的应用,以及来自不同领域的学者对于个人数据管理这一问题的深入思考,这使我对这一研究领域产生了浓厚的兴趣。其后,在孟老师的指导下,我与WAMDM实验室的硕士研究生张相於、寇玉波一起对个人数据空间模型、个人数据集成、索引、任务挖掘及查询问题进行了系统化的研究工作,其间纽约州立大学宾汉姆顿分校孟卫一教授多次到访WAMDM实验室,我有幸与其就任务空间等问题进行了交流,孟卫一教授给出了非常好的建议。通过四年的努力我最终完成了博士论文“个人数据空间模型与查询方法研究”。现在回想起来,WAMDM实验室以及Web研究组的例会对于我的研究工作影响很大,那种开放、探究的氛围使人难忘,一个想法的诞生往往源于大家充满激情的讨论。博士研究生毕业后我来到天津理工大学计算机与通信工程学院工作,继续从事个人数据管理方面的研究,先后指导硕士研究生赵喜燕、任标、雷鹏飞等围绕个人数据融合、数据关系识别、个人数据安全等做了一些研究,本书即是作者及合作者在多年研究成果的基础上总结和整理而成的。本书参阅了WAMDM实验室潘晓、王仲远、艾静、杜志娟等在位置隐私、互联网隐私保护、大数据融合方面的研究工作,我指导的研究生廖欢、苏慧丽对本书进行了编辑和校对,此外本书也引用了国内外一些学者的研究工作,在此一并表示感谢。

我的与个人数据空间相关的研究课题得到了国家自然科学基金(项目号:61170027)和天津市自然科学基金(项目号:15JCYBJC46500)项目的资助,由此得以在该领域继续深入开展自己的研究工作。此外,该工作始于作者在孟小峰教授的WAMDM实验室攻读博士学位期间的研究工作,其得到了国家863计划“海量数据空间模型、查询与索引技术研究”项目的支持。在此一并表示衷心感谢。

本书的形成源于孟小峰老师的一个心愿。2015年10月我在成都参加中国数据库年会(NDBC 2015)期间,遇到了孟老师和机械工业出版社华章公司的姚蕾老师,他们针对目前“大数据研究热度很高而普通人又感觉大数据遥不可及”的问题,拟出版一套关于大数据相关技术的丛书。孟老师提出大数据本身就是与人相关的数据,个人数据具备大数据的基本特征,同时又是重要的研究领域且有重要的应用价值,未来精准医疗、精准营销、个性化教育等大数据应用都离不开个人数据管理。于是作者产生了出版本书的想法,在此向孟老师和姚蕾老师表示感谢。

值得指出的是,在全书的撰写和课题的研究中,尽管投入了大量的精力、付出了艰苦的努力,但受知识水平所限,书中不当之处在所难免,恳请读者批评指正并不吝赐教。如果有任何建议或意见,可发电子邮件至liyukun@tjut.edu.cn。李玉坤2016年10月于天津理工大学第1章绪论1.1 引言

信息技术的发展使个人数据管理问题日益突出,并日益引起数据库、信息检索、人机交互等多个领域的专家学者和产业界的广泛关注。据IDC统计,2006年全球新产生的数据量达到1610亿GB,2007年达[1][2]到2810亿GB,2010年达到12000亿GB(1.2ZB),信息的爆炸性增长使人们日常需要处理的信息量迅速增长。微软公司的研究员Gordon Bell从2000年开始收集个人数据信息,包括阅读的文章、听过的音乐、建立的文档、访问的网页、个人医疗信息以及拍摄的照片[3]等,到2007年其收集的个人信息量已经达到150GB。个人信息量的[4]迅猛增长使人们管理个人信息的负担日益加重。据IDC调查,美国从事信息工作的人员平均每个月在个人信息管理方面浪费的时间约20小时。近年来随着Web 2.0、物联网、移动互联网等技术以及移动通信设备的发展,人们产生信息的方式更加多样化,人们的各种信息也都可以更为容易地记录下来,个人数据量会进一步增长,未来个人数据管理问题将更加突出。[1] J Gantz,D Reinsel,Chute C,etc.The Expanding Digital Universe:A Forecast of Worldwide Information Growth Through 2010[EB/OL].http:∥www.emc.com/collateral/analyst-reports/expanding-digital-idc-white-paper.pdf.[2] J Gantz,D Reinsel.The Digital Universe Decade–Are You Ready? IDC iView,May 2010[EB/OL].http:∥www.emc.com/leadership/digital-universe/expanding-digital-universe.htm.[3] J Gantz,D Reinsel.The Digital Universe Decade–Are You Ready? IDC iView,May 2010[EB/OL].http:∥www.emc.com/leadership/digital-universe/expanding-digital-universe.htm.[4] J Gantz,etc.Cutting the Clutter:Trackling Information Overload at the Source[EB/OL].http:∥www.xerox.com/assets/motion/corporate/pages/programs/information-overload/pdf/Xerox-white-paper-3-25.pdf1.2 个人数据管理的发展

实际上,当有个人信息出现的时候,就出现了如何有效管理个人信息的问题。在古代,个人信息主要以文字符号的形式存在,记录或存储的介质最初为树皮、贝壳等,后来发展到用纸张记录信息。在这种情况下个人的信息量还不大,个人信息管理的问题也不突出。随着电子技术的发展,信息的产生方式和存储方式都有了很大变化,信息量不断增加,信息管理问题也日益突出。据文献记载,最早提出个人信息管理(Personal Information Management,PIM)这一概念的是美国科学家万尼瓦尔·布什(Vannevar Bush),他在1945年发表的[1]《As We May Think》一文中构想了一种能够帮助人们管理个人信息的工具Memex,如图1-1所示,并将其描述为一种能够记录书籍、唱片等信息并能帮助人们快速查找所需信息的工具。图1-1 万尼瓦尔·布什提出的个人信息管理工具模型

万尼瓦尔·布什想象了一种如图1-1所示的能够帮助人们管理信息的工具Memex,并对其进行了这样的描述:Memex是一种能够记录所有书籍、唱片、交流信息的工具,它能够快速、自动、灵活地帮助人们查找所需要的信息。布什只是为个人信息管理进行了一个形象化描述,随着信息科学技术的发展,一些学者从不同视角对PIM给出了定义:①PIM是人们对于日常信息的处理、分类和访问(Lansdale,1988);②PIM是为用户创建的供其在工作环境中使用的系统,其包含获取信息的规则与方法、对信息进行组织与存储的机制、维持系统运行的一些规则与过程,以及对信息进行访问、处理、产生输出的方法和机制(Barreau,1995);③PIM的目的是存储信息以使其能够在以后被访问(Boardman,2004)。

由以上定义可以看出,PIM的定义与信息技术的发展有密切关系,Lansdale只是对PIM给出了一个宏观的描述;Barreau指出PIM中应包含获取信息的规则、方法,以及存储信息的策略、机制;到2004年,Web技术的成熟和存储技术的发展,使海量信息数据的存储成为可能,Boardman认为PIM的核心是数据的存储和再访问。这些关于PIM的描述成为进一步研究、定义PIM的基础。

2005年,在美国西雅图举办了第一届国际个人信息管理技术研讨会(PIM Workshop 2005),来自世界各地的专家学者对PIM研究中的一些基本概念、基本的科学问题及其挑战性等进行了研讨,提交了[2]一份研究报告。在这份报告中,对个人信息空间、个人信息管理等基本概念,PIM研究内容、面临的机遇与挑战等进行了以下阐述。

PIM研究聚焦于信息世界的一个信息子集,其中每个信息元素对于主体都有一定的影响能力。即PIM所研究的信息对于主体是有用的,这种有用性可以是现实的,也可以是潜在的。例如,一个人到某地旅游时需要选择旅馆,关于旅馆的信息会有很多,如位置、价格、经理、员工数目、营业状况等,如果对该位旅客做出选择产生影响的因素只有位置和价格,那么在其PIM系统中关于旅馆的信息可以只包含旅馆的位置、价格信息。因为主体的需求是动态变化的,因此PIM的信息集合也是变化的,但具有相对稳定性。在PIM研究中,个人信息(PI)包括以下三层含义:①个人保存并为自己所用的信息;②与个人有关但被其他实体控制的信息,如被医疗保险机构所掌握着的健康信息;③一个人经历过但不为自己所控制的信息,如访问过的网页。

个人信息项(Personal Information Item):信息项是与主体相关的信息包。在传统的以纸为介质的个人信息管理系统中,一篇文章、一封信都可以看作信息项。现在的信息中包含大量的数字信息,因此一个信息项可以是一封电子邮件、一个电子文档、一张图片等。每个信息项有一个信息框(Information Form),信息框与具体的应用和工具有关,这些应用和工具用来命名、移动、修改、复制、组织信息项,也可以为信息项赋予一些属性,如Outlook可以看作一个信息框,通过该信息框可以实现对邮件的访问。

个人信息空间(Personal Space of Information,PSI):个人信息空间是指主体能够控制或名义上能够控制的所有信息项组成的集合。这里所提到的控制并不是指排他性的专属,可以与其他用户共享,如一个实验室服务器上供所有成员访问的文档信息。一个PSI往往包括一个人的书籍、文档、邮件、访问过的网页或其他存储在不同计算机上的与主体有关的文件。

PSI是可供用户通过多种方法利用的潜在的数据源。对PSI中信息的有效访问与重用,可以大大提高个人的工作效率。个人信息管理的目的就是实现对个人信息空间的有效重用。图1-2 个人信息管理系统概念框架

个人信息管理(PIM):PIM本质上是一系列操作行为的集合,其行为目的是建立、使用和保持个人信息及用户需求之间的映射。对个人信息管理有关的行为可以归为三种:输入行为、存储行为和输出行为。在此基础上提出了一个如图1-2所示的个人信息管理系统概念框[3]架。

由图1-2所示的个人信息管理系统概念框架可以看出,其涉及的行为可以分为三类:信息保持行为、信息查找行为和映射行为。1.信息保持行为

即影响个人信息空间中数据输入的一系列行为。具体来说,是指完成从信息到需求所进行的行为。例如,当用户遇到某个信息的时候,如访问了某个网页、获得了某人的联系方式等,往往要将这些信息保存下来以备将来使用。这类行为包括信息的分析、分类、记忆、存储等。由于信息的隐蔽性、数据源的多样性、遇到信息的偶然性以及主体自身因素,信息保持技术涉及诸多新的研究问题。2.信息查找行为

即影响个人信息空间中信息输出的一系列行为。具体来说,是指完成从需求到信息所进行的行为。例如,当用户需要用到个人信息空间中的某项信息(如某电话号码、邮件、图片等)的时候,将个人需求提交,并从个人信息空间中获得该信息。这类行为涉及查询接口、人机界面、搜索技术、信息分析、自动提醒等技术。需要指出的是:这里所说的信息查找和通常所说的Web搜索不同。其指的是从个人信息空间中重新查找曾经见到过的信息项,而Web搜索指的是在Web数据空间中搜索所希望的数据项,用户并不知道该数据项是否真的存在。3.映射行为

即影响和实现个人信息空间中信息映射的一系列行为。要高效地完成上面两种行为的映射,需要解决信息的存储、索引、安全性、一致性等一系列问题,这类行为就主要针对解决这些问题。

PIM研究聚焦于个人信息管理中与信息保持、信息存储、信息查找有关的一系列技术,以提高个人信息管理的水平。在PIM Workshop 2005的研究报告中阐述了未来个人信息管理面临的主要研究问题,包括:个人信息识别与保存;个人信息的组织模型;个人信息查找与自动提醒;个人信息管理技术评价方法;个人信息的安全性与隐私保护;主体记忆模式对信息映射方法的影响等。

目前,计算机和互联网技术的发展使数据日益成为重要的信息承载形式,大量的信息以数据的形式存储在各种各样的系统和设备中,在很多场景下,个人信息管理往往表现为对个人数据的管理,因此本书主要介绍个人数据空间管理的相关知识。

近年来国际上召开了多次个人信息管理研讨会,部分研讨会与SIGIR 2006、SIGCHI 2008等不同领域国际学术会议一同举办,在SIGMOD、VLDB等数据库领域重要学术会议上也陆续有一些关于个人数据管理的相关研究工作发表。这说明个人数据管理已经引起不同领域学者的广泛关注,且成为一个跨信息检索、人机交互、数据库等多个学科的研究领域。具体的研究题目涉及个人数据空间模型、数据索引、数据查询、桌面信息检索、人机交互界面设计、系统实现等多个方面。表1-1对不同领域学者对于个人信息管理这一问题所持有的[4]观点进行了归纳。表1-1 不同领域关于个人信息管理的基本思想

尽管不同领域的学者从不同的角度来看待个人信息管理,但他们所持有的观点并不矛盾。总的来说,未来的个人信息管理系统需要综合信息检索技术在非结构化数据管理方面、数据库技术在结构化数据管理方面、人机交互技术在界面设计方面的技术优势和成果,设计能够满足各种人群需要的个人信息管理系统。

目前大数据管理日益成为一个重要的研究领域。随着移动互联网、物联网、车联网、智能家居等技术的发展及各种可穿戴设备的普及,各种与人相关的数据信息会不断地产生并被集成起来,这些个人数据将会成为名副其实的大数据。未来大数据的核心将是围绕人的数据,很多大数据应用也将围绕着人的各种需求。个人数据管理也将成为未来大数据管理的重要研究课题。[1] Bush V.As we may think[J].The Atlantic Monthly,1945.[2] An NSF-Sponsored Invitational Workshop on Personal Information Management[EB/OL].http:∥pim.ischool.washington.edu/pim05home.htm.[3] An NSF-Sponsored Invitational Workshop on Personal Information Management[EB/OL].http:∥pim.ischool.washington.edu/pim05home.htm.[4] 李玉坤,任标,赵喜燕,等.个人数据管理技术研究[J].计算机科学与探索,2014(11):1281-1295.1.3 个人数据特征

个人数据具有以下特征:大规模、多样性、分散性、分布性、聚[1]集性、不确定性、数据对象粒度的不均衡性、数据对主体的依赖性,这些属性决定了在个人数据集成与管理中需要采用不同的方法与策略。

1)大规模。一般情况下人们很难把个人数据和大数据关联起来,认为个人数据不过就是个人计算机、手机中的数据,这样的数据量也就在几百兆的数据量之内,怎么可以说是海量数据呢?实际上,随着信息技术和可穿戴设备的发展,人们的一言一行都有可能被记录下来,包括人们开车的信息、位置的信息、从网上购物的各种信息等。试想一下,如果一个人每时每刻的言行举动都会被记录下来,那么会有怎样规模的数据量。

2)多样性。个人数据的多样性是指个人数据类型的多样性,包括传统数据库、文本、邮件、图片、音频、视频等。产生多样性的主要原因包括以下方面:一方面信息技术的发展使得不断地产生出新的类型的数据,比如关系数据库的发展产生了关系型数据,互联网技术的发展产生了HTML类型网页数据,XML技术的发展产生了XML类型数据。另一方面是指主体个性化引起的多样性。数据空间的主体是人,不同的人由于职业、年龄、文化背景、民族等的不同,所需要管理的数据也不尽相同,比如一个从事化学研究的学者和一位音乐专业的学生所管理的数据、一位作家和一位摄影师所管理的数据的类型会有一些差异。

3)分散性。数据的分散性是指数据存放在不同的数据源中。数据分散的原因是个人应用的多样性和随之而来的数据源的多样性。随着信息技术的发展和各种个人信息管理设备的普及,大量的个人应用软件或工具开始出现并获得推广,这些软件或工具由不同的人员或部门开发出来,使用的数据存储方式和数据模式不尽相同,从而导致个人信息分散存储在多个不同的数据源中,形成一个个“信息孤岛”。比如每个人都有邮箱、个人通讯录、个人图片、个人文档、个人收藏夹等,这些信息分散存储在不同的系统中,无法进行跨越不同数据源的信息检索。

4)分布性。个人数据分布存储在不同的物理设备上。例如个人邮件会存储在互联网中的邮件服务器上,个人文档会存放在个人计算机上,通讯录等信息会存储在手机等设备上,有的通讯录会和邮件一起存放在网络邮箱服务器上;个人访问网页的收藏夹也会存放在个人计算机的浏览器的目录下;个人照片有的存放在个人计算机上,有的存放在个人手机中。这种物理存储的分布性对个人数据空间管理和数据安全提出了挑战。

5)聚集性。虽然个人数据信息分布存储在不同的设备和位置,这些位置看起来是零乱、无序的。但是观察发现,这些信息的分布也表现出一定的聚集性。人们为了记忆、查询的方便,往往会按照个人的习惯进行分类存放,而且相关的数据往往会聚集在一起。比如,用户的个人照片往往会集中存放在个人计算机的某个目录下;个人关于某个任务的文档信息也往往会存放在特定的文件夹中。这个规律可以用来提高数据集成和查询的效率。

6)不确定性。个人数据的不确定性包括两种,一方面是由于客观原因造成的不确定性。例如,有些数据信息是从网页、邮件、文档中采用自动的方式抽取出来的,由于数据抽取、模式匹配技术等技术原因的局限性,使得抽取的数据具有不确定性。另一方面是由于主观原因造成的不确定性。当用户遇到一个数据项的时候,往往很难准确判定其与主体的关系和价值,有时也不容易对其进行准确的分类。用户经常遇到这样的情况,当需要保存一个文档的时候,往往会为应当保存到什么文件夹下而犹豫不决。比如一篇论文研究的问题可能跨越数据库、物理学等不同学科方向,如何将它保存在个人计算机中适合的位置并不容易确定,主观随意地分类往往为数据查询带来麻烦。

7)数据对象粒度的不均衡性。数据对象的粒度是指一个数据管理对象的大小。个人数据管理所针对的对象,既包括几字节的数据对象,如电话号码、个人密码等,又包括视频文件等大小超过100MB的数据对象;从数据对象属性多少的角度,既包括属性较少的简单的数据对象,如某个人的联系方式,也包括一些逻辑结构复杂的数据对象,比如一篇章节结构复杂的论文。这种粒度的不均匀特性也为个人数据存储模式和逻辑模式的确定带来了困难。因此如何用一种统一的数据模式来描述这些不同格式、不同粒度的数据信息成为极具挑战性的问题。

8)数据对主体的依赖性。个人数据是与特定主体有关的所有数据对象的集合,是否与主体相关是判定一个数据项是否应当属于某个主体的数据集合的唯一标准。但是这种相关性的定义和计算则是一个需要探究的问题。比如一个用户访问过的文件是否算作与其相关;一个用户没有访问过的网页但确是关于该用户的信息,其是否应该认定与用户相关等。这种对于主体的依赖性,使得个人数据模型、数据更新、存储、索引、查询等技术和方法,都要将主体作为一个需要考虑的重要因素。

以上是个人数据的一些静态特征。作为个人数据空间的所有者、管理者和最终用户,主体对数据的访问也呈现出一些特点。1.用户对数据的许多访问是“再访问”

人们对个人数据的访问大部分都是“基于确定或不确定线索的再访问”。人们保存数据文件的目的大都是为了将来对它们的重新使用,这与Web搜索不同。对于Web搜索,用户往往不知道所搜索的结果是否存在。基于这一结论,如果能够将用户访问过的数据信息集中起来,并基于用户访问模式区别对待,将会大大提高“再访问”操作的效率,从而提高总的访问效率。2.个人数据访问的局部性和连续性

分析发现,用户对于数据项的访问具有一定的连续性,即在一段时间内,人们往往会用到并访问某些特定的数据项。其原因是因为用户的行为或任务往往具有连续性,比如人们在从事一件工作的时候,往往要频繁访问与之相关的信息。又比如,用户在写毕业论文期间,可能需要反复查阅相关的文献,反复修改相关的文档、图表等信息。这一结论可以用来帮助预测用户访问行为,从而缩小查询范围,提高数据访问效率。3.用户需要基于若干模糊的记忆线索查找数据对象

对于数据库查询,用户知道数据对象的存在,并且也往往知道其确切的查询线索。例如在学生管理系统中,当用户查询一个学生的时候,往往知道该学生的学号或姓名。而对于个人数据而言,当查找一个数据对象的时候,用户必须能够回忆起相关的信息。由于时间、地点、访问频率等多种因素的影响,用户针对不同的数据对象,往往能够回忆起若干不同的线索。例如,时间信息、相关任务或事件、关键字、数据产生者、存储位置等。这些线索有时是模糊的、不确定的,而且用户有时需要将多个模糊的线索组合起来进行查询。4.任务在个人数据管理中扮演重要角色

用户对个人信息的访问和处理往往是以活动或任务为中心进行的。研究表明,任务在个人数据管理中扮演着重要的角色,人们经常需要基于任务查询、访问、复制、分析个人数据信息。人们经常遇到以下场景:①在实际工作中,有时需要并行处理多项任务。这样就需要在不同任务之间进行切换,每次更换任务时,总是希望能够快速找到与其相关的数据信息。②当用户重新打开计算机的时候,总希望能够快速地浏览目前正在做的几项任务,选定一件任务后也希望快速地访问与其相关文件。③当用户更换工作地点的时候(如出差或回家),有时需要复制与当前任务有关的文档以便继续进行目前的工作。④当面临一个新的任务的时候,用户往往需要查看以前是否完成过类似的任务,以便参考其文档信息,节省时间。⑤当一个用户被其他用户咨询曾经参加的某个任务的相关信息时,也需要查询该任务及相关数据信息。⑥当用户进行工作总结的时候,往往需要查询在某个阶段完成的任务情况。这种情况表明,任务应当作为一种用来组织、索引个人信息的线索或依据,从而使得个人信息管理工具支持基于任务的个人信息查询。

那么目前的个人数据管理的情况是什么样呢?总的来说,人们在个人信息管理方面还面临很多问题,具体如下:

1)总体效率不高。调查发现,很多人都曾经遇到在查询自己的个人文档时由于记忆信息的模糊性导致查找时间成本过高的问题。尽管人们试图通过分类、加标签、利用数据库存储等各种方式对个人数据信息按照语义进行结构化,但是,由于在个人信息管理方面尚有一些基础问题未解决,因此总体效率不高。

2)数据一致性问题。由于个人数据的分散性和分布性,有时会导致更新不同步问题,导致不同数据源中同一个数据对象的属性的描述不一致。比如在手机的通讯录和邮箱的通讯录中,同一个人的联系方式可能不一致。此外,在个人信息的版本管理方面也常常遇到问题,比如所找到的文件版本不一样而导致各种问题,有时造成比较严重的后果。

3)数据安全和隐私数据泄露问题。目前没有非常方便有效的措施对个人数据信息进行有效的保护,根本原因是没有有效的方法自动识别个人数据信息,并标记数据信息的价值,从而无法快速有效地对数据进行备份,因此,数据安全问题依然不容忽视。此外随着信息的分布存储,人们将越来越多的个人信息存放在云空间或个人移动设备上,设备的丢失、第三方服务商的非法操作等都会导致隐私信息的泄露,在新闻或网络上也会时常发现隐私泄露问题的相关报道。目前有许多学者在进行这方面的研究工作,但还有一些理论问题和基础性的技术问题尚未解决。

4)个人数据查询问题。因为目前个人数据分布在不同的数据源中,因此无法有效地进行跨数据源的查询,而这样的查询有时是必需的。此外,由于主体的个性化,比如年龄、性别、职业、民族等的不同所带来的个性化,使得个人数据查询接口、查询处理策略、查询优化方法等都需要采用不同于以往的技术。此外,用户记忆的局限性使得系统应当支持尽可能多种类的查询,以适应众多不同用户的需要。

针对个人数据及其主体数据操作的特征,人们提出了个人数据空间的概念。[1] 李玉坤,任标,赵喜燕,等.个人数据管理技术研究[J].计算机科学与探索,2014(11):1281-1295.1.4 个人数据空间的提出

广义上讲,个人信息管理的对象是存放在各种介质(包括纸张、胶片等)上的个人信息,第一届国际个人信息管理技术研讨会的研究

[1]报告对个人信息管理的研究对象和个人信息特征进行了详细阐述。

随着计算机、互联网等技术的发展,个人信息更多以数据形式存放在各种电子设备中,个人信息管理主要表现为对个人数据的管理。2005年,Alon Halevy等学者针对海量、异构等新的数据特点提出了[2]“数据空间”的概念。与传统的数据库技术相比,其需要管理的是大规模、异构数据信息,因此在数据模型、数据操作方面都需要不同的方法和技术。

个人数据也具有大规模、异构的特点,其不仅包括结构化数据,也包括大量图片、网页、音频、视频等非结构化数据,因此一些学者[3]针对个人数据特点提出了个人数据空间的概念,相关研究工作日益得到大家的关注。除了上述特征之外,对主体的依赖性是个人数据管理系统区别于其他数据管理系统的重要特征之一,数据空间是与主体[4]相关的数据及其关系的集合,数据空间中的所有数据对于主体来说都是可以控制的。主体相关性和可控性是数据空间中数据项的基本属性,我们所说的数据空间实际是指主体数据空间,与之相对的是公共[5]数据空间。图1-3显示了个人数据空间和公共数据空间的关系,个人数据空间是公共数据空间的一个子集,随着主体需求的不断变化,数据项不断从公共数据空间纳入到主体数据空间中。[6]

主体、数据集、服务是数据空间的三个要素。主体是指数据空间的所有者,可以是一个人或一个群组,也可以是一个企业。对于个人数据空间来说,主体就是个人数据空间的所有者。数据集是与主体相关的所有可控数据的集合,其中不仅包括数据对象,也包括数据对象之间的关系。主体通过服务对数据空间进行管理,如数据分类、查询、更新、索引等,都需要通过数据空间提供的服务完成。图1-3 个人数据空间和公共数据空间的关系

以前研究界关注更多的是企业数据管理的问题,那么个人数据管理和传统的企业数据管理有何不同?个人数据管理与企业数据管理具有以下不同:①从面对的用户来看,个人数据管理面对的是使用计算机的用户,这些用户差异很大,其表现在年龄、职业、知识背景、使用计算机的习惯等很多方面,而企业数据管理系统主要面向具体的业务流程,比如成本管理,这种业务流程具有规范性,因此不必关注具体用户的差异性;②从数据依赖性来看,个人数据依赖于特定主体,而企业数据依赖于企业的业务流程;③从数据存储来说,个人数据分布在计算机、笔记本、手机等设备或邮箱、网盘、云存储空间等多种主体能够控制或不能完全控制的存储空间中,而企业数据则存储在企业控制的服务器上;④从数据输入方式来看,个人数据大部分通过实体识别等技术自动、透明地进行识别和保存,而企业数据往往是采用人工录入方式;⑤在数据查询方面,作为主体的人具有多样性,这种多样性表现在职业、年龄、教育背景、性别、记忆力等诸多方面,这决定了主体查询情景和方法的多样性,而企业数据查询则主要面向业务需求,具有相对稳定性。

由此可见,个人数据与企业数据并不完全相同,具有一些自己的特征,因此针对企业数据的管理技术也不能照搬到个人数据管理中,需要基于个人数据特征研究与之相适应的数据管理技术。[1] An NSF-Sponsored Invitational Workshop on Personal Information Management[EB/OL].http:∥pim.ischool.washington.edu/pim05home.htm.[2] M Franklin,A Halevy,D Maier.From Databases to Dataspaces:A New Abstraction for Information Management[J].ASM SIGMOD Record,2005,34(4):27-33.[3] J-P Dittrich,S MAV.iDM:A Unified and Versatile Data Model for Personal Dataspace Management[C].In Proceedings.of the 32nd International Conference on Very Large Data Bases (VLDB 2006).2006:367-378.[4] 李玉坤,孟小峰,张相於:数据空间技术研究[J].软件学报,2008,19(8):2018-2031.[5] 李玉坤,孟小峰,张相於:数据空间技术研究[J].软件学报,2008,19(8):2018-2031.[6] Y Li,X Meng.Research on Personal Dataspace Management[C].In Proceedings of the 2nd SIGMOD PhD Workshop on Innovative Database Research(IDAR 2008),2008:7-12.1.5 个人数据管理系统框架

个人数据管理的最终目的是提高用户对个人数据的管理效率。基于此作者提出了个人数据管理系统框架,如图1-4所示。图1-4 个人数据管理系统框架

个人数据管理系统主要包括数据集成、数据模型、数据输出、数据安全与质量保证四个模块。

1)数据集成。数据集成模块负责数据的输入,包括用户行为监控器、个人数据识别器和包装器。用户行为监控器自动监控用户行为,发现与用户相关的数据信息;个人数据识别器负责将个人数据实体及其属性识别出来并进行保存;包装器负责对特定数据对象的处理。因为个人数据来自不同的数据源,需要针对不同的数据类型设计包装器。由于信息的隐蔽性、数据源的多样性、遇到信息的偶然性、数据处理效率以及主体自身因素,个人数据集成需要用到自然语言处理、信息抽取等多方面的知识。

2)数据模型。数据模型主要涉及数据逻辑模型、物理存储模型。采用什么样的逻辑模型来表示个人数据及其之间的关系、如何存储和索引个人数据等,都是需要研究的问题。

3)数据输出。数据输出指影响到个人数据输出的一系列行为,涉及查询、排序、提醒等方面的问题。

4)数据安全与质量保证。包括数据安全性保证策略和隐私信息保护策略,以及数据质量评价策略。

为了满足上述访问,个人数据系统需要提供如下功能。1.多种查询方式

在数据空间中,用户面临多种多样的查询场景,需要不同的查询方法。当用户需要查询一个经常访问的数据对象的时候,用户倾向于使用资源管理器以浏览的方式查询;查询一个很长时间没有访问过的数据文件时,用户需要基于关键字进行查询;当用户回忆不起文件的存储位置和关键字信息的时候,用户则需要基于一些模糊的信息查询所需要的数据文件。因此个人数据空间需要能够支持多种查询方式。2.简单的查询接口

个人数据管理系统的目的是帮助用户有效地管理个人数据资源。与传统的数据库管理系统相比,数据空间系统中不一定有专业的管理员,大部分用户没有很多的关于数据管理的专业知识。因此要求查询接口足够简单。3.基于任务的查询

个人数据管理系统应当能够提供基于任务的查询接口,用户可以查询所完成或正在执行的任务及其相关联的个人数据信息。

基于这一系统框架,本书将从数据模型、数据集成、数据存储、数据查询、数据安全与隐私保护、系统实现、新技术发展几个方面,对个人数据管理相关技术进行阐述。参考文献

信息技术的发展使得个人数据信息急剧膨胀,个人信息具有数量大、多样、分散、分布、异构、依赖主体的特征,这些特征使得个人[1][2][3]信息管理日益成为一个重要的极具挑战性的问题。个人信息管[4]理这一概念的提出可以追溯到1945年。美国科学家Vannevar Bush构想了一种能够帮助人们管理个人信息的工具Memex。2005年第一届关于个人信息管理专题的研讨会在美国西雅图举办,并发表了大会

[5]报告,其对个人信息、个人信息空间、个人信息管理等一些基本概念进行了阐述,引起信息检索、数据库等领域学者的广泛关注。目前电子数据成为信息的主要承载形式,因此个人信息管理主要表现为个[6]人数据信息的管理。针对目前数据呈现出海量、异构特性,并且传统的数据库技术已经不能很好地管理这些数据的情况,M.Franklin和[7]A.Halevy提出了“数据空间”概念,一些学者将这一概念与PIM相[8][10][9]结合,进一步提出了“个人数据空间”的概念,文献对数据空[11]间技术进行了综述分析,文献对个人数据管理相关技术从数据模型、集成、存储、查询等方面进行了综述分析,提出了面向主体的数据集成框架。[1] J Gantz,D Reinsel,Chute C,etc.The Expanding Digital Universe:A Forecast of Worldwide Information Growth Through 2010[EB/OL].http:∥www.emc.com/collateral/analyst-reports/expanding-digital-idc-white-paper.pdf.[2] J Gantz,D Reinsel.The Digital Universe Decade–Are You Ready? IDC iView,May 2010[EB/OL].http:∥www.emc.com/leadership/digital-universe/expanding-digital-universe.htm.[3] J Gantz,etc.Cutting the Clutter:Trackling Information Overload at the Source[EB/OL].http:∥www.xerox.com/assets/motion/corporate/pages/programs/information-overload/pdf/Xerox-white-paper-3-25.pdf[4] Bush V.As we may think[J].The Atlantic Monthly,1945.[5] An NSF-Sponsored Invitational Workshop on Personal Information Management[EB/OL].http:∥pim.ischool.washington.edu/pim05home.htm.[6] 李玉坤,任标,赵喜燕,等.个人数据管理技术研究[J].计算机科学与探索,2014(11):1281-1295.[7] M Franklin,A Halevy,D Maier.From Databases to Dataspaces:A New Abstraction for Information Management[J].ASM SIGMOD Record,2005,34(4):27-33.[8] M Franklin,A Halevy,D Maier.From Databases to Dataspaces:A New Abstraction for Information Management[J].ASM SIGMOD Record,2005,34(4):27-33.[9] J-P Dittrich,S MAV.iDM:A Unified and Versatile Data Model for Personal Dataspace Management[C].In Proceedings.of the 32nd International Conference on Very Large Data Bases (VLDB 2006).2006:367-378.[10] 李玉坤,孟小峰,张相於:数据空间技术研究[J].软件学报,2008,19(8):2018-2031.[11] Y Li,X Meng.Research on Personal Dataspace Management[C].In Proceedings of the 2nd SIGMOD PhD Workshop on Innovative Database Research(IDAR 2008),2008:7-12.第2章个人数据空间模型2.1 引言

进行个人数据空间管理,首先要回答两个问题:个人数据空间应当包括哪些数据信息;需要什么样的数据模型来刻画这些数据信息。模型是数据空间管理领域需要研究的基本问题之一,不同的模型往往适应不同的数据特点和操作需求。例如,传统的关系数据模型针对结构化数据,为用户提供结构化数据查询服务。个人数据空间具有不同的数据特征,因此需要探索与之特征相适应的数据空间模型以支持数据操作。

传统的关系数据模型不能有效地描述非结构化、半结构化数据,一些新提出的数据模型,如XML、RDF等,侧重于统一描述各种非结构化和半结构化数据,但是都没有考虑主体在数据管理中的作用,无法有效地描述数据和主体之间的关系,因而不能支持用户对数据空间的有效访问。因此需要一种更为灵活的数据模型,以提供更加有效的数据服务。

本章从个人数据空间概念模型、逻辑模型和面向主体的数据模型几个方面,对个人数据空间模型进行介绍。2.2 概念模型

直观来说,个人数据空间是与主体相关的数据及其关系的集合,如第1章所述,个人数据的多样性要求个人数据空间的数据模型具有广泛的适应性,能够非常方便地刻画各种数据信息。此外,因为主体的任务、工作、环境等是可能经常变化的,因此要求数据空间模型具有非常好的适应性,能够非常方便地刻画各种新出现的数据对象及其联系。2.2.1 从数据到模式[1]

传统的数据库是基于一种“从模式到数据”的管理思想,即针对一种数据管理需求,首先要定义出数据模式,然后才能装入数据。对于个人来说,其任务是不断变化的,因此会意外地遇到希望保存的数据对象。在这样的情况下,预先设计一个相对稳定的数据模式是非常困难的。比如,一个人漫步的时候,可能无意中看到一则与其相关的招聘广告;上网的时候可能会意外地发现一篇寻找已久的文章、歌曲、电影或图片;在网上购物的时候,可能会意外地发现一款自己中意的物品等。按照传统的数据管理方法,必须在设计个人信息管理系统的时候,将歌曲、电影、商品及各种类型的广告信息的数据模式设计好并在数据库中建立起来。这样会面临以下问题:①世界上的实体几乎是无穷的,提前设计好这样的系统几乎是不可能的;②如果设计这样一个庞杂的系统,对于一个特定的用户来说,可能其中超过90%的数据模式是用户不会用到的,这是由用户的个性特征所决定的。因此,用户随时会遇到与自己工作和生活相关的各种各样的信息,而这种信息是已有的数据库模式所不能描述的。如果不能将这些数据信息进行及时的保存,就会造成信息资源的浪费。由此可见“从数据到模式”是个人数据空间的重要特征,其概念模型需要能够适应这一特征。[2]

如表2-1所示,与传统数据库技术相比,个人数据空间在数据模型、数据操作、数据类型、数据关系以及构建策略上,都有明显的不同。表2-1 个人数据空间与关系数据库的比较

1)数据模型:传统数据库基于关系模型,数据关联是基于关系表的。个人数据空间的逻辑模型是一个图,数据之间的关系是基于对象的。无论是关系模型、层次模型、面向对象模型还是网状模型,都支持的是一种“从模式到数据”的管理方式。个人数据空间则不同,其重要特性是“从数据到模式”。个人数据空间的数据模式可以是松散、滞后的。数据模式是在数据的基础上,根据主体需求逐步演化出来的。

2)数据操作:传统的数据库技术具有模式优先的特性,数据操作基于严格的数据操纵语言,操作结果是准确、完整的。而在个人数据空间中,没有严格的数据模式,数据关系是根据主体的需要逐步建立起来的。因此个人数据空间操作具有“尽力而为”的特性。即所提供的服务不一定是最优的,而是在目前的能力范围内所能提供的最好的。

3)数据类型:个人数据空间的数据来自多个不同的数据源,数据格式多种多样,包含关系表、文本、网页、XML数据文件、电子邮

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载