You are on page 1of 3

分布式元数据管理,数据发现和访问系统

Giriprakash Palanisamy1,布鲁斯Wilson1,Ranjeet Devarakonda1,吉姆Green2


(1)环境科学部,橡树岭国家实验室,橡树岭,田纳西州
(2)从信息国际协会,橡树岭,田纳西州分包
抽象
汞是一种联合元数据收割,搜索和检索工具在两个开源和橡树岭国家实验室开发的软件
基础。它最初是为美国宇航局和水星发展财团目前包括来自美国航天局,美国地质勘探
局和美国能源部的资助。水星的一个主要新版本的开发在2007年。这个新版本提供数量
级的改善在搜索速度,支持更多的元数据格式的订单,与谷歌地图的空间查询整合,支
持对RSS的搜索结果交付等功能。
Mercury提供一个单一的门户,在不同的数据管理系统中所包含的信息。它收集来自世界
各地的贡献服务器的分布式项目元数据和关键数据,建立一个集中的索引。水星的搜索
界面,然后允许用户执行简单,派遣,空间和时间横跨这些元数据来源搜索。这种分布
式数据源的元数据的集中存储库提供了极快的搜索结果给用户,同时允许数据提供宣传
他们的数据可用性和保持完整的控制和数据的所有权。
关键词
汞,元数据管理,数据发现,ornldaac,nbii
介绍
由于各研究项目在科学数据集的数目急剧增加,现有的网站特定数据发现系统是有效的
,那么这些数据集在世界各地这使得它繁琐的用户搜索发现位于库数以千计。虚拟观测
台和分布式元数据搜索和数据发现系统正在帮助科学家寻找那些仓库来查找和访问所需
的数据(托德2008年)。分布式/虚拟元数据收割这些系统通常从供应商的各种数据的元
数据,并通过提供一个单一的搜索系统。分布在美国橡树岭国家实验室(ORNL
DAAC)积极档案中心[编号:橡树岭国家实验室DAAC],开发了分布式元数据采集,数
据搜索和发现系统,名为水星[编号:水星],它最初是为美国宇航局开发的生物地球化学
数据搜索存档在橡树岭国家实验室DAAC中心。水星的系统提供一个单一的门户网站在不
同的数据管理系统中所包含的信息。它提供免费的文字,派遣,空间,时间和关键字浏
览树搜索能力。水星使个人和数据库管理人员分发他们的数据,同时保持完全的控制和
所有权。汞被用于各是由美国航天局,美国地质调查局和美国能源部资助(橡树岭国家
实验室DAAC,NBII,达迪,LBA的,长期生态研究,NARSTO,CDIAC,海洋,I3N,
IAI公司,ARM)的科学项目。汞是作为一个财团经营,开发和经营成本,这些项目共享
。本文讨论水星的收获模型,索引技术,以及各种搜索服务,这是通过系统提供的汞。
方法和技巧
水星支持包括XML,880,FGDC,都柏林核心,达尔文核心,EML的各种元数据标准和I
SO - 19115。新水星系统基于开放源码和面向服务架构,并提供多种搜索服务。
水星架构包括不同的组成部分,一台收割机,1索引工具,和用户界面。水星的收割机工
作在两个不同的模式,1)虚拟网络数据库和2)虚拟总数据库。互联网的虚拟数据库模
型组织了新的数据收集在互联网上传播的非正式制度在这,通常是数据提供者或主要研
究人员为他们创建数据集元数据并将其放置在一个公众访问的地方,如一个网页目录这
些元数据或FTP目录。水星上收集这些元数据并建立一个集中的指标,使之为水星搜索用
户界面可用。
图1。水星元数据收割架构
新的汞,这是最近重新设计采用了各种开源工具,包括改变索引和搜索界面,一个专有
的实施,到了开源搜索服务器。开放源码的Apache项目代号Lucene的[编号:Lucene的
]这是一个自由/开源信息检索库,用于与SOLR
[参考结合:的solr]这是一个开源企业搜索服务器在Lucene的基础。另外的solr是Apach
e开源项目,扩展了Lucene的功能,给予适当的考虑到数字类型,动态等领域,独特的
钥匙,和面的搜索。一个例子来说明这意味着什么:使开发商的solr的能力给予特别待遇
的具体geotemporal
在虚拟的总数据库模式,从现有的正式水星收成不同的数据库管理系统(DBMS)的信息
。在这方面,存在着元数据,定制出口程序可以很容易地写入到从这些数据库管理系统
中提取元数据和元数据保存在XML文件中的远程数据库。水星上收集的文件中提取元数
据并建立一个用于搜索元数据集中指数(图1)。有些情况下使用汞收获这两个模型的元
数据。水星的开发团队目前正致力于使一元数据收割服务使用打开档案倡议(OAI的)。
坐标。特别是在信息高级搜索用途亦可被视为正确使用的solr,而不是由Lucene的是其
中的竞争排名given埋葬所有的元数据content。
结果与讨论
典型汞的用户界面提供了三种不同的搜索功能。
1)简单的搜索,2)先进的搜索和3)网站浏览树搜索。在简单的搜索选项,用户可以执
行全文搜索。在高级搜索选项,用户将能够通过指定关键字搜索,时间,空间扩展和数
据提供程序的信息。图2是水星在橡树岭国家实验室的先进搜索DAAC
[参考橡树岭国家实验室汞]使用的界面快照。
图2。作者:橡树岭国家实验室,DAAC高级搜索界面快照
图3。作者:橡树岭国家实验室,DAAC浏览树搜索快照
一旦用户输入他们的搜索标准和执行搜索,结果摘要页面显示的记录总数的搜索和过滤
搜索结果中使用的数据提供,参数,传感器,主题,项目等(符合逻辑分组选项)。摘
要页面还允许用户在搜索相关性排序,周期为基础的结果
在网页浏览树搜索选项,用户将能够深入到他们的利益分层元数据使用关键字树(图3)

记录,来源和项目。该网页显示在右上角推动建立一个RSS
feed,书签或电子邮件按钮这些结果。
RSS或书签使刷新查询匹配定期未经重新创建查询的麻烦。
在摘要页面底部显示的结果,匹配的记录/浏览标准搜索片段,并以完整的元数据链接和
链接来访问相关的数据。在每个记录的底部显示的星级表明该匹配标准的相对重要性。
该片段包括标题和研究的日期范围,来源出处从抽象(图4)和节录。
图4。在查询结果页的典型外观
当用户点击“查看全部元数据”链接在摘要页上找到,水星元数据报告的网页将被显示。
本页面提供了两种风格来显示一个完整元数据记录。默认情况下,水星在提供完整的记
录页和另外一个典型的,组织良好的终极版的风格,它提供了它是什么风格的FGDC,这
将是非常熟悉的那些谁使用了ESRI的工具,或使用了以前已知的汞。它是纯文本分为6部
分,作为缩进保留了基本的层次结构。
水星还提供了收获的元数据(例如,谷歌,美国航天局全球变化主目录,NBII
Biobot)其他应用程序。国家生物信息基础设施[编号:NBII]信息中心[编号:NBII甲烷]
消耗在其NBII Portlet的搜索结果门户网站应用程序,这是另一种表现方式定制
在外部网页搜索结果。全球林业信息服务[编号:全球森林信息处]这与NBII信息中心合作
,是收获的RSS服务与森林有关的所有元数据记录和揭露他们的搜索系统,通过这些记
录。
结论:
水星通过其各种服务项目的具体用户界面超过50,000元数据记录。水星支持包括XML,8
80,FGDC,都柏林核心,达尔文核心,EML的各种元数据标准和ISO -
19115。新水星系统基于开放源码和面向服务架构,并提供包括多种搜索服务,用户界面
的搜索工具,搜索结果的RSS服务,书签搜索结果中,portlet支持。
致谢:
水星财团的经费由美国航天局,美国地质勘探局为能源部的项目财团美国航天局,美国
地质调查局和美国能源部橡树岭国家实验室DAAC包括,NBII,达迪,LBA的,长期生
态研究,NARSTO,CDIAC,海洋,I3N,和IAI。
参考文献:
国王吨,Narock,睾酮,沃克,河,2008年。一个勇敢的新的(虚拟)世界:分布式搜
索,相关性得分和方面1:29-34。个人主页:10.1007/s12145-008-0002-7
Palanisamy,蛋白质,威尔逊,定; Devarakonda,河,绿康(1997
2007)汞,分布式元数据管理,数据发现和接入系统,Eos的跨。地球物理学联盟。,
摘要#IN31C - 05
Devarakonda俄,Palanisamy
G号,绿J,威尔逊成为(2008)汞:对元数据管理,数据发现和获取有效的软件复用为
例,Eos的跨。地球物理学联盟,89(53),秋会见。增刊。,IN11A - 1019
Devarakonda俄,Palanisamy
G号,绿J,威尔逊,BE大会(2009)汞:元数据管理,数据发现和访问,Eos的跨可重
用软件的应用。地球物理学联盟90(52),秋会见。增刊。,摘要#IN11C - 1060
Devarakonda河,Palanisamy,克,成为威尔逊,詹姆斯M绿色。,(2010年)。水星
:可重复使用的元数据管理,数据发现和准入制度。地球科学信息。 3,1:87-
94。个人主页:10.1007/s12145-010-0050-7

You might also like