posts - 134,  comments - 22,  trackbacks - 0
数字资产管理系统DSpace简介

1 背景
1.1信息多元化并海量增长
随着社会的进步和科学技术的发展,人们在科研、生产和实践中不断产生出新的信息。这些信息的增长表现在几个方面:信息数量呈指数级的增长,其中数 字资 源每年以50%-100%的速度增长;信息载体不断增多,尤其以网络为载体的信息;信息格式层出为穷,大体上可以分为文本型、数字型、图片型、多媒体等 等。随着越来越多的信息资源的出现,如何创建一个稳定的环境来长期保存和获得这些信息是一个重要问题。

1.2信息供应链改变与图书馆职能改变
传统的信息供应链模式是作者—>出版机构—>图书馆—>读者,随着计算机技术,特别是网络通讯技术的发展,传统的信息供应链模 式已 经完全被打破。作者可以把稿件发给出版机构,由出版机构将其出版发行,另一方面,作者也可以把稿件或相关资料发到网络上,在网络上进行传播。读者可以绕过 图书馆从网络上通过信息服务门户或搜索引擎工具找到所需要的信息。信息供应与信息服务呈现多元化,信息获取也呈现多途径的方式。
传统图书馆职能也因此而改变,未来的数字图书馆功能之一,要实现以分布式的网络和计算环境为技术支持和应用基础,对海量的、不同类型的信息资源 进行制 作、组织、存储、发布和检索,实现读者之间、读者和图书馆管理人员之间的多维和实时沟通。在新的运行环境中,信息活动将从原来的单向度转入多向度,读者可 以自己实现信息的提交、交换和利用,数字图书馆将进一步为整个校园服务,成为校园资源中心。数字图书馆为此将推行新的服务机制和模式。
1.3信息活动中的利益博弈
以学术期刊定购为例。目前各图书馆面对两个事实:由于学术期刊的出版受到少数营利出版社的垄断,不断调涨期刊的订费,迫使大学图书馆不得不删订期 刊的 种数或减少图书的购置。根据美国研究图书馆学会(ARL-Association of Research Libraries)的调查,从1986年到2002年,美国的研究图书馆期刊经费增加了227%,但是订购的期刊种数却只增加9%,而购买图书的种数则 下降5%。图书馆供应研究的资源相对减少,其结果将连带影响研究及教学的品质。
另一方面,学者辛勤努力的研究成果发表时出版社却向学者按页索费(page charge),当学者需要参考利用期刊时,图书馆却需要再付大笔经费订阅。图书馆需要发展和支持通过开放获取(Open Access)模型发表作品的机制,并向学者、社会提供这种机制。
1.4信息需求与信息行为改变
信息的多元化发展,信息用户的有用信息也将分布在不同的信息类型中,在获取信息时,信息用户总希望能得到“一站式服务”,即通过一个检索平台或门 户, 以最少的操作得到所需要的全部有用信息。为此信息服务部门需要提供存储不同格式、不同类型的信息资源,并提供能有效组织、检索、利用这些资源的信息管理系 统。
针对以上的各种问题,不同的研究机构、组织提出了不同的解决方案,并相应地开发了不同的应用系统。例如:
Eprints(由英国南安普敦大学(university of Southampton)开发);
Dspace(由MIT和HP联合开发);
Fedora(由Univ. of Virginia and Cornell开发);
GreenStone(由Univ. of Waikato,Witten&Bainbridge开发)。
其中,DSpace系统以其高度的灵活性、可用性和可自定义性和开放源代码,受各高校(包括英国剑桥大学、加拿大多伦多大学和美国康奈尔大学、哥 伦比 亚大学等)和研究机构的青睐和推崇。现在,全球许多研究机构都用DSpace系统来应对各种不同的数字化文献的需求,如机构知识库 (Institutional Repositories,IRs)、学习对象库(Learning Object Repositories ,LORs)、电子化主题(eTheses)、电子化记录管理(Electronic Records Management,ERM)、数字化保存(Digital Preservation)、出版(Publishing)等等。在此对DSpace系统作一个简单介绍。
2 DSpace系统简介
DSpace(数字空间)系统是由美国麻省理工学院图书馆(MIT Libraries)和美国惠普公司实验室(Hewlett-Packard Labs)合作经过两年多的努力并于2002年10月开始投入使用的,以内容管理发布为设计目标,遵循BSD协议的开放源代码数字存储系统。该系统可以收 集、存储、索引、保存和重新发布任何数字格式、层次结构的永久标识符研究数据。
DSpace是一个专门的数字资产(Digital assets)管理系统,它管理和发布由数字文件或“位流”(bitstreams)组成的数字条目(item),并且允许创建、索引和搜索相关的元数据以便定位和存取该条目。它包括的基本概念主要有:
数字空间群(DSpace communite):数字空间是针对数字材料的长期保存而设计的。数字材料来源于不同的组群,比如大学的院系、实验室,图书馆的采访、编目等部门,这些依据不同的授权完成不同任务的组群称作数字空间群。
1)电子用户(e-people):DSpace的用户可能是教师、学生,也可能只是一些计算机系统,因此DSpace把用户称作“E人”。
2)工作流(workflow):DSpace的运作方式,数字材料和元数据在被接受之前经过事先设定的流转审核的步骤;
3)信息订阅(subscription):用户可以向DSpace发送订阅请求,以便在新材料到来时收到带有内容提要的Email提示。
2.2 DSpace系统功能特点
其特点可以归结为三个要点:基于存储的资产管理;以事件触发构建的工作流机制;以分级权限控制的管理体系;
2.2.1基于存储的资产管理
DSpace首先是基于存储管理的,它提供对所有数字格式的支持,比如文档、书籍、数据库、计算机程序、虚拟和仿真模型、多媒体出版物和学习对象等等。另一方面,对于印刷型文献,DSpace也可以通过元数据进行存储管理,利用URL和馆藏地点来区分文献服务的方式。
Dspace支持两种存储模式:“位”存储(bit preservation)和功能存储(functional preservation)。位存储保证提交的数字材料没有任何改变,即每一位(bit)均保持原样,在多年以后仍然可以将文件复原出来。功能存储的实现 是通过随着时间的变化改变存储内容的格式,以保证当旧有格式淘汰后,数字材料还能够被随时调用(可浏览、可运行、可检索……)。显而易见,功能存储是理想 的存储状态,但需要更多的经费支持。为此,Dspace对于文件格式定义了三个层次:支持的格式、知道的格式和不支持的格式。些文件格式很容易向通用的格 式转化(像TIFF图像或XML文档),而有些格式会由于专利等原因很难实现功能存储。对于上述的所有三个层次,DSpace建议在经费允许的情况下同时 进行“位”和“功能”存储,以便一旦时间证明哪种格式可以更有效地呈现素材时,“数字考古学家”能够获得最初的原料。
2.2.2以事件触发构建的工作流机制
DSpace的运作是以事件触发的机制来实现的。谁可以存储材料,怎样存储,谁可以利用存储的材料,谁负责管理?这一系列问题在可定制的管理策略下完全由事件触发来解决。
在DSpace中有很多的数字空间群,对于内部工作部门(数字空间群),通常,所有工作人员都设定为“提交者”(submitters),而其中 的一 部分人又被设定为“审核者”(reviewers),负责人则设定为终审者(coordinator)。每个数字空间群中都存在着“提交者”、“审核者” 等等的角色。这些角色可能指派给很多人,组成角色群,或称“电子工作组(e-person group)”。 任何一个对系统的请求,从检索、浏览到材料提交,都会触发不同的工作流,并进入相应的“任务池(Task pool)”。经过审核、元数据编辑和终审等等环节最终进入DSpace。而该工作流涉及的每一个步骤的电子工作组,都会因为自己的角色而获得通知,使相 应的电子用户可以进入个人数字空间(Individual DSpace)来完成任务。
典型的事件如新书采购:书商(用户)的图书馆(DSpace)提交书目,新书通告被放入采访部(acquisition数字空间群)的“任务池 ”,处 于采访数字空间群的专业人员可以从“任务池”中获取书目进行审核,(相应的书目将同时被移除,以免重复相同的工作流。)如果审核通过,系统产生订购单。如 果是即时生效的数字资源,这一事件将触发DSpace的元数据编辑工作流。如果审核不通过,用户将得到附有审核人员意见的通知书。示意如下:
对于外部数字空间群,匿名用户可以通过WEB访问进行检索和浏览,授权用户则可以将自己的材料提交DSpace,触发馆藏接收工作流。比如教师 的课 件、博士的学位论文,这些数字文献本来就是数字图书馆的馆藏来源,通过DSpace的工作流经过专业馆员的审核和元数据编辑,很方便地进入馆藏。另外,作 为数字图书馆功能的拓展,用户还可以在授权的个人数字空间中临时或永久存放数字材料。
2.2.3以分级权限控制的管理体系
如上所述,数字空间群拥有不同的电子工作组,而不同的组拥有不同的权限。某些DSpace的功能,比如检索、浏览等可以是匿名的,但是如提交、订 阅以 及管理等功能则需要经过用户认证。DSpace提倡“电子用户”(e-people)的概念,每个电子用户需要向DSpace提供如下信息:
E-mail 地址
姓名
认证信息,比如密码
订阅专题列表
DSpace有一个可变的认证系统,它采用的是“缺省否定(default deny)”的策略,比如,一个电子用户对某个元数据具有“读”权限,但他未必就拥有对此元数据指向的材料的“读”权限。
3 DSpace的优点与不足
3.1开放源代码
DSpace系统是一个开放源代码的软件平台,可以从其网站上免费下载,可以自由使用、复制和修改。其所使用的第三方软件也是开放的源代码,如PostgreSQL、JDK、Apache等。DSpace主要代码均为Java编写,可以运行于所有UNIX系统。
3.2 修改和扩展功能容易
DSpace提供了几个支持API接口的内置程序,可以通过它简化和加速数字馆藏的开发,在一定程度上为系统提供了扩展和修改的能力。另外,由于Java虚拟机是由HTML和部分嵌入的Java代码组成的,基本上不需要触动其核心的代码就可以方便地修改它。
3.3 DSpace系统能接受几乎所有的文件类型
DSpace可以接受的电子化材料包括:
论文与预印稿(Articles and preprints)
技术报告(Technical reports)
雇用证书(Working papers)
会议论文(Conference papers)
电子论题(E-theses)
数据集,包括统计数据、地理信息数据、数学等等(Datasets: statistical, geospatial, matlab, etc.)
图像,包括可视化图像、科学图表等(Images: visual, scientific, etc.)
声频文件(Audio files)
视频文件(Video files)
学习对象(Learning objects)
重定格式后的数字图书馆馆藏(Reformatted digital library collections)
DSpace可以存储、管理和发布任何已经和未经出版的本地馆藏,保证印刷和数字文献的统一索引和定位。
3.4检索功能强大
DSpace的目标就是提供尽量多的检索特色。DSpace的索引和检索模型有一个API接口,允许非常方便地索引新内容,重建索引以及在指定范 围内 检索。这个API来自免费的Java搜索引擎——Lucene 。Lucene支持字段检索、停词(stop words)、词干(stemming)以及不重建索引增加新的索引内容的能力。
3.5界面简洁友好
所有的DSpace用户界面都是基于WEB的,并且包含一系列的界面:用户提交界面、搜索界面、系统管理界面以及提交审核的各种界面。利用Java虚拟机和Java服务器技术,DSpace允许用户通过浏览器访问系统,这使DSpace的使用和管理都十分方便。
3.6建立DSpace联盟
在虚拟存储技术的支持下,利用DSpace联盟,还可以实现虚拟馆藏:联盟的馆藏对于用户完全透明,用户通过WEB界面访问元数据,并发送资源请 求。 DSpace可以根据标准协议进入不同院校的系统,如康奈尔大学的arXiv ,通过本地的存储过程自动获取有关的文档备份。用户只需点击锁定(located)的条目,它就会被下载到WEB浏览器中。如果是一种WEB支持(Web -native)的格式,它就会立刻显示在浏览器中;否则它就被存储在用户的计算机上,象Excel数据表或者CAD文件,需要以特定的程序来打开它。
当然DSpace也存在不足之处,当要对DSpace 系统扩展功能进行比较复杂的修改时,需要修改系统的核心组件,这给系统的数据库结构和兼容方面带来影响;另外,DSpace系统不支持原始内容的创建,但 可以以工作流方式捕获任何支持主动文档开放协议(Open Archives Initiative)的数字资源和元数据。
posted on 2008-10-22 16:19 TRE-China R&D 阅读(484) 评论(0)  编辑 收藏 引用 所属分类: 技术资源JAVA
只有注册用户登录后才能发表评论。