记者日前从青海省海南藏族自治州藏文信息技术研究中心获悉,由该中心负责开发的全球首个藏文搜索引擎“云藏”已通过一期工程验收,进入内部测试阶段。

        “云藏”一词是藏文音译词,有两层含义,其一为“博学老师”,意为有求必应、有问必答;其二是将其分为单字,有“全面抓取、提取”之意。

        “云藏”搜索引擎(下称‘云藏’)是青海省少数民族事业“十二五”规划中藏文信息化建设的重要组成部分,于2013年4月启动系统平台项目建设,研发团队现有150余名工作人员,由藏文信息录入组、分词标注组和技术组3个小组组成,团队中藏族比例达87%。

        青海省海南州藏语委办主任、“云藏”引擎开发负责人才洛介绍,目前已完成新闻、网页、图片、视频搜索基本功能建设和百科、文库和问答系统主体框架及知识资源建设工作;搜索引擎核心技术的藏文分词系统研发业已成功实现,完成了语义检索、拼写检查系统、拉丁转写搜索以及相关词搜索等语言分析与处理功能的开发,攻克了藏文智能信息处理的核心技术。

        “任何搜索引擎中,数据库的建设是最为繁琐艰巨的工作,尤其对于藏文搜索引擎来说是一项从零开始的浩大工程。”才洛说,“现在藏文自动分词准确率和性能有了较大提升,已实现支持多种操作系统、满足高并发应用场景和分词速度快、准确率高等功能,与搜索引擎有效集成,在藏文同义词搜索、藏文拉丁转写搜索、纠错等功能应用方面有大的突破,目前各类资料及词条正在校验上传中。”


        据了解,“云藏”开发采用“地方、院校和企业”三方合作模式,其中,西北民族大学中国藏文典籍全文数字化研究所承担面向搜索引擎的藏文自动分词与标注系统研发,北京线点科技有限公司承担面向藏文搜索引擎系统平台架构建设工作,海南州藏文信息技术研究中心承担项目管理执行及藏文数据库建设工作。

        才洛表示,搜索引擎是文化与历史传承的新载体,对一国的文化安全意义重大,“云藏”建成后对藏文信息安全、国内外涉藏舆情监测以及重要舆情分析将提供可靠的参数和依据。

        另据了解,“云藏”搜索引擎定于2016年下半年正式开通,该搜索引擎上线后将填补藏文搜索引擎、百科、文库、知道系统等多项空白。