投稿指南
一、稿件要求: 1、稿件内容应该是与某一计算机类具体产品紧密相关的新闻评论、购买体验、性能详析等文章。要求稿件论点中立,论述详实,能够对读者的购买起到指导作用。文章体裁不限,字数不限。 2、稿件建议采用纯文本格式(*.txt)。如果是文本文件,请注明插图位置。插图应清晰可辨,可保存为*.jpg、*.gif格式。如使用word等编辑的文本,建议不要将图片直接嵌在word文件中,而将插图另存,并注明插图位置。 3、如果用电子邮件投稿,最好压缩后发送。 4、请使用中文的标点符号。例如句号为。而不是.。 5、来稿请注明作者署名(真实姓名、笔名)、详细地址、邮编、联系电话、E-mail地址等,以便联系。 6、我们保留对稿件的增删权。 7、我们对有一稿多投、剽窃或抄袭行为者,将保留追究由此引起的法律、经济责任的权利。 二、投稿方式: 1、 请使用电子邮件方式投递稿件。 2、 编译的稿件,请注明出处并附带原文。 3、 请按稿件内容投递到相关编辑信箱 三、稿件著作权: 1、 投稿人保证其向我方所投之作品是其本人或与他人合作创作之成果,或对所投作品拥有合法的著作权,无第三人对其作品提出可成立之权利主张。 2、 投稿人保证向我方所投之稿件,尚未在任何媒体上发表。 3、 投稿人保证其作品不含有违反宪法、法律及损害社会公共利益之内容。 4、 投稿人向我方所投之作品不得同时向第三方投送,即不允许一稿多投。若投稿人有违反该款约定的行为,则我方有权不向投稿人支付报酬。但我方在收到投稿人所投作品10日内未作出采用通知的除外。 5、 投稿人授予我方享有作品专有使用权的方式包括但不限于:通过网络向公众传播、复制、摘编、表演、播放、展览、发行、摄制电影、电视、录像制品、录制录音制品、制作数字化制品、改编、翻译、注释、编辑,以及出版、许可其他媒体、网站及单位转载、摘编、播放、录制、翻译、注释、编辑、改编、摄制。 6、 投稿人委托我方声明,未经我方许可,任何网站、媒体、组织不得转载、摘编其作品。

科技守护文明:中国古籍“回家”之路

来源:科技与创新 【在线投稿】 栏目:综合新闻 时间:2021-05-22
作者:网站采编
关键词:
摘要:中国是世界四大文明古国之一,中国浩如烟海的文献典籍记录了历史。然而遗憾的是,近代以来超过400万册中国古籍由于种种原因流散海外。 阿里巴巴达摩院、四川大学、美国加州大学

中国是世界四大文明古国之一,中国浩如烟海的文献典籍记录了历史。然而遗憾的是,近代以来超过400万册中国古籍由于种种原因流散海外。

阿里巴巴达摩院、四川大学、美国加州大学伯克利分校近日公布,他们花费两年多的时间,教会了AI识别中国古籍,将它们以数字化的形式接回故土,置于网络公益平台,向所有人开放。

这个项目的名字叫“汉典重光”,意为让失落的珍贵古籍重放光芒。“汉典重光”以97.5%的准确率,识别了20万页古籍,覆盖3万多字的古籍字典。

现代科技照亮中国古籍“回家”之路

中国古籍拥有非常庞大且复杂的知识体系,包括甲骨简牍、敦煌遗书、宋元善本、明清精椠、拓本舆图、少数民族文献等等。所涉及的范围也是极其广泛,有应对自然灾害、流行疫病、经济波动、政治斗争、外交危机、气候变迁等的经验,有战争、瘟疫、地震、洪涝灾害、病虫害等方面的经验总结,还有医疗、中药、养生、家具、服饰、饮食文化等生活经验。

加州大学伯克利分校的东亚图书馆是全美三大东亚图书馆之一,90万册藏书里四成都是中文书,还有不少甲骨文和拓片。第一次到这儿的中国学者总感觉在穿越历史的“虫洞”,这些古籍不能运回中国,那就用数字化手段让古籍的内容“回家”。

2019年,阿里巴巴和四川大学提出“数字化回归”设想,四川大学历史文化学院副院长王果与中央文史研究馆馆员陈力牵线搭桥,沟通北美、欧洲、日韩等地藏书机构,最后获得加州大学伯克利分校支持,达成共识,将伯克利东亚图书馆的中文古籍善本逐步数字化。

前所未有的挑战

据王果介绍,“汉典重光”的分工非常明确——采集侧把纸质书变为影印版,数字化生产侧把影印版变为文字版,应用侧为文字版增加检索、字典和知识图谱等研学系统。东亚图书馆完成第一个环节后,四川大学将和达摩院共同完成另外两个步骤。其中,四川大学将提供一切非计算层面的专业支持,并与达摩院的机器视觉实验室合作,共同开发古籍AI技术。

首批数字化的古籍共20万页,包含40余种珍贵宋元善本。刚开始大家对这个项目很有信心,但实际一上手才知道难度有多大。

首先是中国古籍的载体很多,纸、布、竹子、木头、甲骨、石碑……几乎所有能用的载体都被古人留了字,不同载体上面的字识别起来差别非常大。年代久远的纸张大多残缺不全,上面还布满斑点,而且排列非常复杂。古人喜欢从上到下,从右到左,还非常喜欢在上面做批注。

字迹的精美也成了负担。隶书、楷书、草书、行书都漂亮,但也真难认。大部分字还是手写的,不但两个人写的同一个字不一样,同一个人写的同一个字也差别很大,很多字还有不同写法。

团队原有的OCR(图像文字识别)的识别准确率只有40%,这显然是不够的,较早涉足古籍识别的Google Books(谷歌图书)针对的都是英文古籍,对中文也不适用。

大量创造性和创新性的辛勤劳动

没有前车可鉴,只能自己来了。“这就像教小朋友识字,确实难,但也有简单的部分,我们就由易到难慢慢做。”王果说。

前所未有的开拓性成果,包含着中国学者大量创造性和创新性的辛勤劳动。

达摩院的古籍识别算法,用AI替代人工,大幅压缩了专家标注工作量。在机器为主进行识别的97.5%的内容中,约有1%(1万字左右)需要专家录入;机器不能识别的余下2.5%(2.5万字)的文字,全部交给专家做后期标注。相比人工专家录入,百万字书籍的数字化工作量从1000天降低到了35天,效率比人工专家录入方案提升近30倍。这种古籍识别算法,为中华古籍的回归提供了另一种可行可期的思路。

非计算机层面的工作也非常重要,四川大学专门组织了30多个历史系学生来做标注,这很耗神,眼力、脑力缺一不可,但这个过程没法省略,就像学生要学习,算法也要迭代,“只有数据够多够好,机器才能搞定”。

这是一件非常难但非常有意义的事情。古籍识别的挑战巨大,但大家还是想通过技术让古籍活起来,用科技守护文明。

据了解,达摩院、四川大学、美国加州大学伯克利分校、中国国家图书馆、浙江图书馆将继续投入人力、物力,扩大古籍数字化回归的数量,让所有蒙尘的古籍重焕新生。

达摩院院长张建锋表示,阿里计划将这套技术工具连同古籍数字化平台一并捐赠,交由权威公共机构长期运营,最终将成为一个开放的网络平台,供大众检索学习。

文章来源:《科技与创新》 网址: http://www.kjycxzzs.cn/zonghexinwen/2021/0522/2364.html



上一篇:和讯SGI指数新能源TOP10出炉:派能科技“春光”正
下一篇:科技赋能服务升级 智能机器人带你逛“抚州城”

科技与创新投稿 | 科技与创新编辑部| 科技与创新版面费 | 科技与创新论文发表 | 科技与创新最新目录
Copyright © 2018 《科技与创新》杂志社 版权所有
投稿电话: 投稿邮箱: