平台推介 | 人文社科数据共享平台

1, 系统功能

      大数据时代,科学数据已经成为支撑科研创新发展的珍贵资产和战略资源。为了推动各学科不断提升科技创新能力,汇聚和整合各学科数据资源,有必要在推动科学数据分析和应用的基础之上,加快数据资源的开放、交流和共享。“人文社科数据共享平台”是一个支持科学研究,促进学术交流,推动开放获取的数据管理平台,满足学者和科研人员科研需要,促进研究数据的有效管理和交流共享。

      武汉大学人文社科各学院研究学者为了加速彼此之间的数据交流和共享,迫切需要一个更符合自身研究情况和数据管理方式的大数据资源存储共享平台。由武汉大学大数据研究院和武汉大学计算机学院珞珈图腾实验室合作开发了“人文社科数据共享平台”,该项目针对目前科学数据管理平台个性化功能缺失的现状,结合对象代理数据库的特性,设计了一个全新的大数据共享平台。该平台从模型构建到功能实现都进行了创新,(1)武汉大学人文社科数据共享平台是基于对象代理数据库进行自底向下的建模,通过四种代理关系:选择、连接、合并和分组代理操作建立代理类,可以实现各项个性化数据空间平台的功能需求,并丰富各数据实体之间的语义信息;(2)通过代理类的方式,以虚属性的方式进行部分或全部的继承,可在很大程度上减少数据存储消耗;利用基于路径导航的跨类查询能够避免大量的表连接操作,提高查询搜索效率。此外,为了满足各学院老师的数据安全共享需求,设计了基于 RBAC 的访问控制机制,以进行数据文件的安全共享。

2, 应用场景

image.png

展示层:用户通过HTML5网页访问系统提供的各项功能;管理员通过管理后台管理用户与上传的数据;开发与运维人员通过运维与监控后台对系统进行维护。

服务层:系统提供的各项功能。包含以下各项模块:登录注册模块、数据检索模块、数据空间模块、访问控制模块、文件服务以及系统未来可提供的其他服务。

基础设施层:系统使用的各项基础设施。包括Totem数据库,应用服务器,阿里云FastDFS分布式文件系统。

运维:Maven:管理项目的构建,报告和文档的软件项目管理工具。Git:分布式版本控制系统。Docker:开源的应用容器引擎。

国内外对数据共享研究做了许多积极探索,建立起了越来越多的数据共享平台,如Dataverse平台作为国内外最优秀的数据管理平台,它是由哈佛大学IQSS为主导,联合哈佛大学图书馆、档案馆共同承建的,自2007年发布以来,一直用于研究数据和成果的检索、存储、发布和共享。国内高校也开发了一些优秀的资源贡献平台,如复旦大学的社会科学数据平台,北京大学的开放研究数据平台等。但是,北京大学开发研究数据平台与复旦大学社会科学数据平台的建设都是以哈佛大学dataverse为模板,并不着力于技术层面,二者均是在 Dataverse 平台的基础上进行二次开发,在技术选型与技架构上与Dataverse基本一致,都是基于关系数据库进行自顶而下的建模;平台所使用的功能与Dataverse大体相同,没有针对研究人员的实际情况进行特色化功能设计。

我们经过认真研究了现有的数据共享平台,分析结果表明以Dataverse为基准的数据管理平台存在以下的缺点和不足:(1)目前已有的数据管理平台都是基于关系数据库进行自顶向下的建模,数据模型较为复杂,需要大量的外键进行表与表之间的连接,各个表中存储了一部分冗余数据进行数据连接,这会占据大量的存储空间;(2)在关系数据表中构建复杂查询时,会产生较多的表连接操作,消耗大量的查询时间;(3)以Dataverse为基准的平台在使用过程中是以逐层嵌套的方式进行向下扩展,这更适合于团队的资源管理,但是并不能为用户提供个性化的数据资源管理和存储服务。因此我们开发了“人文社科数据共享平台”,该平台是服务于武汉大学人文社科各学科研究者开展研究数据的保存、交流、共享与再利用活动的平台,该平台更符合武汉大学各学者的研究情况、数据管理方式和科研需求,为其提供个性化的数据资源管理和存储服务。相比于现有的数据共享平台,该平台具有如下特性:

        可靠性:确保数据共享平台能够在多浏览器上稳定运行和安全可靠;

        开放性:通过代理类的方式,以虚属性的方式进行部分或全部的继承,便于在此基础上根据平台需求进行集成和扩展;

        灵活性:采用对象代理数据库进行自底向上的建模,通过灵活的代理类建模,可以实现各项个性化数据空间平台的功能需求,并丰富各数据实体之间的语义信息;

        高效性:考虑系统将承载的数据量、访问量,确保系统可以在高负载情况下实现快速地数据存储和管理。 

数据共享平台访问网址:http://125.220.153.53:1450,平台使用说明:该平台部署在武汉大学云平台上,目前只针对武汉大学在校师生开放(武汉大学校园网或通过vpn访问),所有武汉大学在校师生均可以通过游客登录简单了解共享平台,若需使用更多功能则需要利用学号或者工号进行注册,登录后即可完全免费使用。具体使用说明如下所示:

3, 使用说明

image.png

用户注册

大数据资源共享平台面向的用户主要为武汉大学的科研人员,为了方便和校内已有的数据服务进行对接,除了用户名、密码、邮箱等信息之外,用户在注册时还需要填入姓名、学/工号以及所属机构。相应地,用户可以通过学/工号和密码登录进入系统。

 image.png

 用户登录

 image.png

游客登录

用户在登录界面输入用户名和密码进行登录,若信息匹配,则跳转到用户主页;而对于未注册的游客,可以在登录界面点击右下角的“游客登录”链接跳转至游客主页,游客界面中展示了无需特别授权即可查看的武汉大学各一级学科、二级学科数据文件,游客可以根据个人需求进行查看和下载。

 image.png

用户信息编辑

当注册用户登录进入平台之后,可在功能栏中点击用户图标,并选择“修改密码”对当前账号的密码进行修改。首先用户需要填入原密码以验证身份,若验证通过则可以通过填入新密码和确认密码来修改密码。

image.png

数据上传

      平台上所有注册用户都可以在主页上方的功能栏中通过点击“上传”按钮进入数据上传界面。在该界面中用户可以通过点击图标从本机中选择文件或拖拽文件来确定要上传的数据文件,当显示上传成功后数据文件就已经被保存到了文件服务器中。随后可以在下方对数据文件的名称、描述等信息进行编辑。

image.png

元数据编辑

用户在上传数据文件之后,可以根据需要对数据的元信息进行编辑。具体包括数据的名称、数据的状态(是否公开)、数据所属的学科、数据的私有标签、公开标签以及数据的描述等。数据的私有标签和公开标签是用户进行个性化数据空间组织的主要手段。用户可以根据自己的组织需要,对具有可查看权限的数据文件打上一个或多个私有标签,该私有标签仅对用户自己可见。而公开标签则只能由数据文件的上传者进行编辑。公开标签对所有用户可见,主要用于用户的个性化推送。

image.png

全局检索

      在用户主页上方的功能栏中,用户可以点击“搜索”,并在展开的输入框中输入内容。点击“查找”图标后,将在用户的根数据空间及公开数据集的范围之内按照文件名、文件描述、文件上传者用户名及文件标签等字段与输入内容进行模糊匹配,并将搜索到的结果在下方进行展示。

image.png

局部检索

      用户可以在主页中的搜索框内输入内容对当前页面内的数据文件进行搜索。局部搜索的字段与全局搜索相同,只是搜索的范围缩小到了当前用户所在的页面。

image.png

高级检索

      用户可以在搜索框右侧点击“高级搜索”链接跳转至高级搜索页面。在高级搜索页面,用户可以通过数据文件的更多元信息来对数据文件进行检索。首先用户可以通过数据空间名称和数据空间描述来对数据空间进行搜索,在搜索到的数据空间范围内,可以继续通过名称、描述、文件格式、所属学科、上传日期和拥有者对数据文件进行模糊搜索。

Copyright Since 2016 武汉大学大数据研究院 地址:武汉大学原研究生院大楼(石屋)三楼 电话:027-87888520