本文目录一览:
提起《现代汉语词典》,每一位汉语学习者都不陌生。它是新中国第一部规范型语文词典,被誉为汉语辞书史上的一座丰碑。近日,《现代汉语词典》第七版App以98元的价格上线各大应用商店,引发了网友热烈讨论。一边好评如潮,用户盛赞“必须给满分”“期待出古代汉语词典App”“支持知识付费”;一边也不乏争议之声,有人认为“价格可以更亲民些”,有人认为“App应是购买纸质词典的附带服务”。
《现代汉语词典》App是继高口碑的《牛津高阶英汉双解词典》和《新华字典》后,商务印书馆推出的又一工具书App。另据商务印书馆透露,重点项目“商务工具书云平台”已聚集用户2700多万,已整合了近30种权威字词典。
在互联网的影响下,人们的阅读习惯和兴趣均发生了变化。在线阅读和移动终端阅读成为了许多人的读书常态,工具书的数字化可以说是大势所趋。目前,有“工具书王国”之称的商务印书馆正积极探索AI赋能辞书数字化,致力于打造“基于工具书的语言文字知识服务平台”。
辞书数字化时代下,提供配套知识服务的精品A
中国社会科学院语言研究所所长、辞书编纂研究中心主任刘丹青认为:“《现汉》第七版App的正式发布,意味着中国影响最大的汉语语文词典实现了数字化。这就不仅是一本书的一个版本的事情,而可能是代表着一个时代的开始,标志着一个辞书数字化时代的到来。”
作为国内工具书出版的领头羊,商务印书馆在《现代汉语词典》第七版App的开发上相比前两部词典更为精进,力求为用户打造体验更佳的精品“活词典”。
历经两年的研究,从厚重的“大部头”工具书到手机上的一个小应用,《现代汉语词典》App以它的实用性、便捷性、创新性吸引了大批用户。据商务印书馆数字出版中心主任孙述学介绍,它并非是纸质内容的简单移植,而是为用户提供了配套的知识服务。在全貌呈现《现代汉语词典》(第7版)内容的基础上,《现代汉语词典》App依据《新华同义词词典》《新华写字字典》《通用规范汉字字典》等辞书内容开发了同义词反义词(10000多组)、同义词辨析(3000多组)、汉字动态标准笔顺(3500字)、字级等增值服务,邀请中央电视台著名新闻主播李瑞英制作了全词典69000个字词的标准普通话音频。
和纸质词典不同,《现代汉语词典》App还新增手写输入查询、语音输入查询、摄像头组词查询等数字化检索方式。检索结果除了所查字词外,还同时呈现同音字、同部首字,以及同音词、顺序词、居中词、倒序词、相关词等。同时,App实现了全文任意字词“即点即查”。
记者注意到,该App除了功能强大,还做到了好玩有趣。它独创个性化“日习一词”功能,用户可以从分类词汇中选择学习范围,设定自定义学习任务;App开发了独具特色的智能词典助手功能,提供机器人智能问答、快捷查询功能;用户还可以通过APP游戏温习易错词语。为了满足不同读者的阅读习惯,APP同时实现数字版、纸质版一键切换。孙述学说,“从发音、笔顺、书法演示再到字义讲析、同近义词、智能组词……我们为用户提供了一条龙的服务。”
AI赋能辞书数字化,打造语言文字知识服务平台
尽管传统辞书在走向互联网的过程中,面临着高昂开发费用、技术挑战、读者产权保护意识薄弱等方面的困难,但以商务出版社为代表的传统出版单位仍表现出了拥抱未来的积极态度。《新华字典》App、《现代汉语词典》App只是商务印书馆工具书知识服务的起点,这家百年老店仍在积极探索AI赋能辞书数字化,致力于打造“基于工具书的语言文字知识服务平台”。正如刘丹青所言:“数码产品对工具书用途的提升与扩大,不单是一种相加的关系,而且可以是相乘的关系,甚至平方、立方、多次方的关系,数字化与网络的结合,与人工智能的结合,将使词典的用途达到纸本时代难以想象的广阔空间。“
“AI在文字识别,自然语言处理领域有着广阔的应用前途。譬如说据意查诗,高级词的替换查找等功能,对于文字工作者来说非常实用。”孙述学介绍,“工具书的使用频次现在来讲是有限的,但是数字化辞书APP的出现,进一步丰富了工具书的使用场景,提升了服务质量。”
孙述学透露,商务印书馆即将在今年底发布的知识服务平台,将融合《新华字典》、《现代汉语词典》、《牛津牛津高阶英汉双解词典》等几十本权威词典。相比单个App,在这个平台上,用户可以根据自身需要添加不同的词典,实现内容定制化。最终将工具书资源、语言文字应用图书资源和专家资源融合,以文本、语音、视频等形式,组成数据库、应用程序、微信公众号等新媒体矩阵进行传播,实现由查检工具向学习工具、由图书向内容、由产品向服务的三个转换,真正把数字出版做成知识服务,为语言习得者提供更加丰富的配套服务。
曾经,精品辞书因为形式和技术的保守落后而被年轻一代逐渐抛弃,而低质的甚至一些劣质的工具书却凭借技术的领先和使用的便捷而为年轻人青睐。刘丹青认为:“这不仅是辞书人的悲哀、出版人的悲哀,也将是祖国语言文字的悲哀。”他表示,今后,中国社会科学院语言研究所作为《现代汉语词典》等系列精品工具书的编纂、修订单位,要建立起数字化思维,每一次编纂和修订,都从内容源头开始就想着数字化的前景,提供更加厚实、用途更加多样的内容资源。
面对《现汉》App带来的价格争议,在采访的最后,孙述学向记者表示:“如果精品没有用精品的价格去支持它,那么整个数字出版行业就得不到可持续发展,后继乏力了。无论纸质版还是APP版《现汉》,我们都在努力让读者和用户以最低的价格使用到更高品质、更具附加值的权威工具书。”
作者:本报驻京见习记者 吴金娇
编辑:吴金娇
许多人的童年记忆中,一定有一部翻到封面脱落的《现代汉语词典》。
8月22日,《现代汉语词典》App版正式发布,妈妈再也不用担心我的词典翻坏要换新的了。
《现代汉语词典》APP的出版历经了两年的研发时间,邀请中央电视台著名新闻主播李瑞英制作了全词典69000个字词的标准普通话音频,与纸质版本相比,还增添了很多智能功能。
记者也赶紧下载了一个《现代汉语词典》App。打开APP,首先看到的是一个红底白色的搜索框。在这个搜索框里搜索字、词、全拼、简拼、部首、笔画数等都可以只能检索出符合要求的词汇。
检索结果出来之后,记者看到,除了有释义和造句等内容,还可以听到它的语音读法。
点击“听说”按键,李瑞英主播熟悉的声音就想起了。点击“书写”按键,则开始播放这个字拼写的具体视频,一笔一划顺序清楚。
除了支持拼音输入搜索字词以外,APP还支持写输入查询、语音输入查询、摄像头组词查询。
手写输入和图片输入非常适用于查找不认识的生僻字,既不知道怎么读,也不知道部首是什么,就可以采用这个功能啦。记者在纸上手写了一个“新”字,点击摄像头查询,扫描成功过,词典上便立即出现了“新”字的内容。
搜索框右边有一个图书形状的按键,一点击就进入了《现代汉语词典》的“线上纸质版”。《现代汉语词典》APP全貌呈现了《现代汉语词典》(第7版)内容。在这里,你可以像翻阅纸质版词典一样,依据拼音、部首等检字法进行逐页查找。
除了简单的检索,《现代汉语词典》APP还开发了很多智能功能。点击右上角的机器人形状的按键,就可以进入“智能区”。智能化知识服务包括词语辨析、近义反义词、格式词语、词语/成语接龙、组词、部首、笔顺七个板块。
词语辨析提供意思相近词语之间的具体分析。比如,公平、公道、公正。这三个词既有相似之处,又有不同之处。记者在这里输入了这三个词,随即就得到了三者之间同与不同的详细阐述。
点进“近反”对话框,输入需要寻找同义词或者反义词的词语,APP就会立即显示这个词的近义词和反义词。
接龙板块可以自动区分用户输入的是成语还是一般词语,相应进行成语接龙和词语接龙。在这里不停地输入词语,就可以和APP玩上接龙游戏了。APP还设置了语文生活中富有挑战性的易错词语学习游戏,寓学习于娱乐。
用过背英语单词APP的同学应该比较熟悉,很多这类APP都将词语进行分类,便于大家学习。
《现代汉语词典》APP也开辟了特色分类词汇功能,形成多种分类小词典,用户可进行词汇专项学习。
《现代汉语词典》APP还独创个性化“日习一词”功能,用户可以从分类词汇中选择学习范围,设定自定义学习任务。
记者将《现代汉语词典》APP的所有功能都体验了一遍之后,感觉这个APP确实非常实用,相比纸质版增加了许多功能,最重要的一点就是将传统词典和智能服务相结合,使用起来比纸质版更加方便快捷。同时,它为了满足用户的使用习惯,还是原貌呈现了纸质版的形态,让大家在使用的同时,再也不担心这本词典会翻烂、用坏了。
最后,记者看了一下,这本智能化的词典购买价格为98元。你要不要赶紧给孩子买一本呢?
(原标题《<现代汉语词典>App版发布,妈妈再也不用担心我不识字了》,原作者汪佳佳。编辑李欣阳)
掌上查阅《汉语大辞典》,是一种怎样的体验?
上海书展期间,上海辞书出版社与掌阅科技股份有限公司签订战略合作协议,以特大型汉语语文工具书为基础,首次尝试由互联网企业实时调取出版社开发建设的“工具书数据开放平台”中的内容数据呈现到用户界面。
上海辞书出版社是一家有着六十多年历史的工具书出版机构,编纂出版了《辞海》《汉语大词典》等国家级标志性工具书。
在数字化转型过程中,上海辞书出版社积极探索、勇于尝试,从授权同方知网开发《汉语大词典》数据库版、自主开发“问道国学”APP到搭建“工具书数据开放平台”。
此次与掌阅合作,两家将以“工具书数据开放平台”中的《汉语大词典》数据内容作为一期合作项目。
上海辞书出版社社长秦志华介绍,《汉语大词典》是国家重大出版项目,前后有1000余位作者、编辑奋战了20年,最终在1994年4月完成《汉语大词典》全部编纂出版工作。它用约37万词条、近5000万字,首次比较完整、系统地勾勒出汉语词汇的轮廓和数千年发展史,是目前我国规模最大的汉语语文工具书,也是我国人文社会科学研究者必备的工具书。
据悉,“工具书数据开放平台”将面向互联网企业开放,互联网产品若有语词和百科查询需求,均可在获取授权后,直接调用“工具书数据开放平台”中的内容数据。
以掌阅为例,今后,用户在使用掌阅产品进行阅读时,若有汉语查询需求,只需进行简单的操作,瞬间即可从“工具书数据开放平台”调取《汉语大词典》的权威释义并呈现。
“工具书数据开放平台”的诞生,意味着传统出版的数字化转型又向前迈出了一大步,这既是重要的知识服务创新,也是商业模式上的创新。
工具书数据具有通用性,数据开放平台模式使应用开发企业免于重复建设,免于重复加工海量的高度专业化的工具书数据。
出版社专注于专业内容的生产与维护,互联网企业专注于其擅长的产品运营和用户维护,各展所长,各尽其能,共建良性的知识服务产业链和生态圈,共同为用户提供优质的知识服务。
古汉语通假字资源库:助力古诗文学习与研究
破假字纷繁之扰,寻正字本来之容
文丨王兆基、张诗睿、张学涛、胡韧奋
古籍文本中的文字通假现象较为常见,这为准确理解文意造成了困难。如王引之在《经义述闻·经文假借》中所述:“学者改本字读之,则怡然理顺;依借字解之,则以文害辞。”除了专业学者整理古籍或考证词义时需要释读通假字,在中学文言文教学中,通假用法也是一项重点和难点。那么,如果能从语言信息处理视角构建通假字资源库,并实现通假字的自动识别,会为我们的学习和研究带来什么样的帮助呢?
近日,北京师范大学科研团队的论文《古汉语通假字资源库的构建及应用研究》获得了第二十二届中国计算语言学大会(CCL 2023)最佳中文论文奖。这项研究首先提供了包含通假字标注语料库、通假字知识库和通假字识别评测集在内的通假字资源库,并基于资源库构建了通假字自动识别算法,旨在为文言文教学、古籍整理和相关研究提供基础性资源。
让我们先来看看它可以做什么吧!
通假字语料检索
如下图所示,在资源库中输入关键字,选择检索字段,可查询通假字语料,语料标注了通假字用法、出处、时代、释义、读音等多种信息。
地址:https://tjz.zhaoji.ac/corpus
查看大规模通假字关系网络
如下图所示,因为空间有限,只详细列出了两个字节点与他们之间的通假关系边、形声关系边。在图中,字节点属性标注在蓝框内;红色的有向边表示通假关系,通假关系的详细属性参见红框,与通假关系相关联的语料以紫框标注;绿色的有向边表示形声关系,对应的绿框为形声关系的具体属性。由图中内容可见,“辟”与“譬”之间存在3条通假关系连边,对应三种释义,同时,二者之间还包括一条形声关系连边,标识“辟”是“譬”的声符。
通假字自动识别
将图中所示例句交给训练好的语言模型识别,便可以分析出“考”通“拷”。表示笞击拷问。
提升大模型文言理解能力
即使是当前最先进的大型语言模型GPT-4,面对包含通假字的古汉语文本,也很容易犯“以文害辞”的错误。
但将通假字用法连同文本一起输入给GPT-4后,它便可以推理出正确的结果。
看完上述几则用例,我们再来一起看看资源库的内部构成和更多潜在的应用场景。
通假字资源库分为三部分,第一,标注语料库,含有上万条高质量标注语料,覆盖数千个通假字;第二,图结构的通假字知识库,包含大量的通假字、通假关系、形声关系;第三,通假字识别评测集,旨在为计算机识别通假字提供“教材”+“测试题”。下面将逐一介绍。
A. 通假字标注语料库
目前,学界尚无专门标注通假字的文言文语料库,包含通假字的句篇信息主要见于各类辞书和专门的通假字字典,如《会典》、《简帛古书通假字大系》等。在初步探索阶段,团队希望能够兼顾古汉语信息处理、文史研究与文言文教学的一般性需求,选择参考《汉语大词典》中的通假字标准,配合人工加工,构建通假字标注语料库。未来还有必要基于面向出土文献和传世文献的通假字辞书资源引入更大范围的通假用例数据,对现有的语料库和知识库进行扩充。
目前,该库包含语料文本、标注位置、通假字字头、正字字头、出处、时代、释义、拼音、注音、古音等属性。该库可为通假字相关研究和应用提供较高质量的基础性数据。
B. 通假字知识库
目前的通假字标注语料库在本质上是一个能支持检索的加强版字典。为了进一步建模通假字与通假关系,团队构建了图结构的通假字知识库,融合了来自汉语大词典、康熙字典、汉典、国学大师网汉语字典、以及之前学界构建的形声关系数据与汉字部件数据,加工层面涉及字音、字形、字义和字用。使用者可以根据自己的需求将其可视化后查看。
蓝边表示通假关系,区分释义,粗细由语料数量决定;黄边表示形声关系;点击汉字或者连边后,可获取更多信息。
从传统视角出发,知识库作为查询工具可以帮助研究者开展字词考证、词汇语义研究等。更重要的是,通假字知识库能够提供传统辞书无法呈现的大规模通假字关联网络信息,潜在的应用场景包括:
第一、有些通假关系分布广泛,存在大量例句,如上图“信”通“伸”,而有些则用例少见,如“勝”通“伸”。古代文献中字与字的通假关系不是简单二元的“有”或“无”,它们有的强,有的弱,我们可以用图结构知识库来量化通假强度,支持字用层面研究。
第二、我们可以根据分割条件迅速将所有数据划分为多个子图,研究子图中所有通假字节点与通假关系边的内在规律,并探讨子图间的联系,例如,研究一个通假字的所有通假变化轨迹,实际上就是寻找该节点所在的子图并获得一个子图的生成树。
第三、不少汉字的读音在历史上经历了变化,我们可以利用通假关系边的“出处时代”作为时间属性,将图动态化呈现,进而量化估计在某一特定时代,两个字的发音相似度,从历时角度利用图知识库为语音演变研究提供支持。
C. 通假字自动识别评测
古汉语信息处理研究需要立足传统,面向未来,面向算法,而算法的研究与评测集息息相关,有了评测集,才能为算法研究提供标准。团队提出了“通假字识别评测任务”,包括两个子任务:通假字检测和正字识别,两个任务的评测集均包括训练集和测试集,其中,训练集用于模型学习,而测试集用于评估模型识别效果,分为基础版和拓展版两种类型:基础版测试集包含的通假字和训练集一致,拓展版测试集中包含了大量训练集中未出现过的通假字,识别难度更高。
在通假字识别评测中,团队构建了从统计语言模型到预训练语言模型的22个基线模型,分为N-gram、GPT2、利用MLM能力的BERT模型和BERT微调模型四类,每一类模型都按照训练数据分为殆知阁版与四库全书版两个版本,详情可参见论文。下面示出了一些自动识别的案例。
在本例中,“考”通“拷”,“考”字通假用法在训练集中未出现,模型正确预测其为通假字,这说明模型具有一定的泛化能力,能够探测出训练阶段未见过的通假用法。
在本例中,模型未能识别“台”通“嗣”的用法,这说明通假字的检测和识别是一个复杂的的问题,本文搭建的基线模型对于不常见的通假关系仍然处理欠佳。
在本例中,词典中标注“共”通“恭”,而模型认为“共”通“供”。进一步查阅文献发现,不同学者的通假释读观点存在差异:唐代陆德明《经典释文》注此句中“共”音“恭”,成为清代中期之前学者共识。而以俞樾《群经平议》为代表的晚清学者观点认为该字通“供”,并为现代人所继承,如杨伯峻《春秋左传注》、中华书局版《左传》(郭丹等译注)皆同此观点。可见,模型判定虽不同于评测集中的“标准答案”,亦有其合理之处。
问题反馈
本文所开展的通假字资源库建设和自动识别算法研究只是该领域的初步探索性工作,研究还存在不少待改进之处。例如,针对文言文教学需求,有待细化数据标注;针对汉语史研究需求,有必要从出土文献和传世文献的专用通假字辞书资源中引入更大范围的通假用例数据,对现有的语料库和知识库进行扩充。
欢迎试用在线资源库或下载数据集,并为资源建设提出宝贵意见,共同开拓人文研究的新视野。如果您在使用在线资源库时,发现语料存在漏标、错标或部分字段错误的情况,请点击“报错”按钮向研究团队提交反馈,研发人员将尽快完成修正。
关于资源使用和建设,如果您有任何问题或建议,欢迎通过如下邮箱联系我们:
zhaoji@mail.bnu.edu
或 irishu@bnu.edu
开源共享
目前,最新版资源库已在Github开源共享,欢迎研究者参考使用。
资源库在线浏览:/d/file/gt/2023-09/hxpbt3khkg3 查看参考文献
[1] 党怀兴. 1998. 通假成因说略. 陕西师范大学学报:哲学社会科学版, (1):61–65.
[2] 邓三鸿, 胡昊天, 王昊, and 王东波. 2021. 古文自动处理研究现状与新时代发展趋势展望. 科技情报研究, 3(1):1–20.
[3] 胡韧奋, 李绅, and 诸雨辰. 2021. 基于深层语言模型的古汉语知识表示及自动断句研究. 中文信息学报, 35(4):8–15.
[4] 胡韧奋, 曹冰, and 杜健一. 2013. 现代汉字形声字声符在普通话中的表音度测查. 中文信息学报, 27(3):41–48.
[5] 孔德明. 1993. 通假字概说. 北京广播学院出版社.
[6] Dayiheng Liu, Kexin Yang, Qian Qu, and Jiancheng Lv. 2019. Ancient–modern chinese translation with a new large training dataset. ACM Transactions on Asian and Low-Resource Language Information Processing (TALLIP), 19(1):1–13.
[7] 柳建钰and 周晓文. 2017. 计算机辅助古籍版本校勘资源库建设浅议. 图书馆理论与实践, (3):54–58. 钱玄. 1980. 秦汉帛书简牍中的通借字. 南京师大学报(社会科学版), (3):44–48.
[8] 舒蕾, 郭懿鸾, 王慧萍, 张学涛, and 胡韧奋. 2022. 古汉语词义标注语料库的构建及应用研究. 中文信息学报, 36(5):21–30.
[9] 孙建伟. 2015. 假借和通假研究综论. 宁夏大学学报(人文社会科学版), (2):29–33.
[10] 苏祺, 胡韧奋, 诸雨辰, 严承希, and 王军. 2021. 古籍数字化关键技术评述. 数字人文研究, 1(3):83.
[11] 王宁. 2012. 古代汉语. 高等教育出版社.
[12] Zinong Yang, Ke-jia Chen, and Jingqiang Chen. 2021. Guwen-unilm: Machine translation between ancient and modern Chinese based on pre-trained models. In Natural Language Processing and Chinese Computing: 10th CCF International Conference, NLPCC 2021, Qingdao, China, October 13–17, 2021, Proceedings, Part I 10, pages 116–128. Springer.
[14] Xiaoyong Yan, Ying Fan, Zengru Di, Shlomo Havlin, and Jinshan Wu. 2013. Efficient learning strategy of chinese characters based on network approach. PloS one, 8(8):e69745.
[15] Xiaoyuan Yi, Maosong Sun, Ruoyu Li, and Wenhao Li. 2018. Automatic poetry generation with mutual reinforcement learning. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pages 3143–3153.
[16] 由明智. 2013. 谈人教版中学语文教材的通假字注释. 课程.教材.教法, 33(9):46–50.
[17] 张儒. 1988. 关于竹书、帛书通假字的考察. 山西大学学报:哲学社会科学版, (2):37–43+113–114.
特别鸣谢
敦和基金会
文章原创|版权所有|转发请注出处
公众号主编:孟琢 谢琰 董京尘
责任编辑:孙苒