“百度一下,你就知道!”在移动互联网时代,百度、搜狗等国内大型搜索引擎让人们无论身在何处,都能和世界同步。然而目前,国内搜索引擎都不支持藏文搜索功能。为适应藏区经济社会发展需要和国际、国内形势,保障藏文信息安全,2013年,青海省海南藏族自治州启动“云藏”藏文搜索引擎建设工作,经过专业研发团队两年多的努力,目前,“云藏”藏文搜索引擎已攻克基本构架与核心技术。此举标志着青海省开发出全球首个藏文搜索引擎,将为青海藏区信息化建设、提高藏语文使用普及率、加快该省乃至全国藏区经济社会转型发展产生重大意义。
8月22日,记者从海南州藏文信息技术研究中心了解到,在青海省经济和信息化委员会、青海省发展和改革委员会等相关部门的扶持下,2013年4月,全球首个藏文搜索引擎“云藏”项目正式启动。作为青海省少数民族事业“十二五”规划中藏文信息化建设的重要组成部分,“云藏”项目开发伊始,海南州委、州政府聘请北京大学、中国标准化委员会、中国科技大学、西北民族大学、西藏大学等院校和科研机构的9名教授为项目特邀专家,研发团队近100人。
“云藏”藏文搜索引擎系统平台建设项目是集搜索引擎、藏文百科、自动问答为一体的大型藏文门户系统工程,将开辟新闻、网页、图片、视频、音频、百科、文库、知道8个板块,已建成的7个板块,包含近3000个子栏目。截至目前,已完成以新闻、网页、图片、视频、文库和知道为主体的藏文搜索引擎基础开发。其中,语义检索功能、拼写检查系统、拉丁转写搜索以及相关词搜索等语言分析与处理功能已全面完成,藏文自动分词系统研发完成总任务的75%,已成功实现与搜索引擎系统的集成,部分栏目处于内部测试阶段,测试结果表明该系统的藏文搜索正确识别率达95%。藏文数据库已录入百科词条25类12.7万余条,字数达1197.7万字,文库录入藏文典籍4000余册近3.8亿字符,知道问答录入15万余条,字数达900万。“云藏”数据库完善后,将成为全球最大的藏文电子图书馆。2016年8月,“云藏”将正式上线开通。
“‘云藏’在藏文中意为‘博学的老师’,单字又为‘全面抓取’之意,建成后,不仅能满足藏文网民个性化的检索需求,还将推动藏文信息全方位融入互联网世界。未来,有流量的地方就有‘云藏’!”海南州藏语文工作委员会主任、“云藏”搜索引擎项目负责人才洛介绍。
据悉,今年年底前,“云藏”引擎项目将启动二期工程建设,重点建设和升级网页爬虫系统,开发音频搜索、手机移动客户端、云藏藏汉在线翻译系统等,特别开辟教育资源共享平台。系统建成后,将填补藏文信息处理应用领域的十余项技术空白,成为互联网藏文信息的重要入口和共享资源中心。