语义网期刊十年奖:LinkedGeoData技术突破
某中心首席应用科学家Jens Lehmann与三位合著者因论文《LinkedGeoData:空间开放数据网络的核心》荣获语义网期刊十年奖。该论文发表于2012年,由期刊主编Pascal Hitzler和Krzysztof Janowicz从当年出版物中评选得出。
技术核心:虚拟知识图谱构建
论文通过描述从OpenStreetMap(OSM)提取的大规模数据集,证明了大规模虚拟知识图谱(VKG)的可行性。OSM是一个依靠映射社区维护全球免费地理数据库的协作项目。
关键技术特性
- 数据规模:完整提取时包含数十亿条事实,是当时最大数据集之一
- 轻量级本体层:简化数据集查询与应用开发
- 多源数据融合:通过连接DBpedia等数据集实现多源信息融合
查询重写架构
作者采用查询重写方法,将SPARQL语言查询转换为底层OSM数据库查询。这种架构实现:
- 在关系数据库上发布虚拟知识图谱无需修改数据库结构
- 支持知识图谱实时同步(OSM每分钟可能发生数千次变更)
- 通过Sparqlify方法(及其分布式版本Sparklify)实现高效查询
空间数据处理能力
最新版本增加对Ontop重写器的支持,两种方案均专门支持空间谓词查询:
- 全数据集包含约80亿个实体,规模达数TB
- 2012年提取的数据转储包含270亿条事实,超过当时Google知识图谱规模
- 支持按区域或空间元素过滤生成特定用例快照
技术标准与应用
采用资源描述框架(RDF)数据模型并包含其他知识图谱链接,已应用于:
- 空间实体链接
- 实体对齐
- 拓扑关系发现
- 查询日志分析任务
研究者可使用最新重写器构建数据快照,并通过SPARQL及其扩展OGC GeoSPARQL进行高效查询。
行业影响
该工作受到万维网发明者Tim Berners-Lee等多方关注,为后续知识图谱与机器学习结合奠定了技术基础。获奖者目前致力于将知识图谱集成到机器学习中,构建通用智能系统。