一、难字、怪字
囧”(读jiǒng)、“槑”(读méi)惊爆网络之后,网络上各色各样的我们平时根本不认识的字一个连着一个出。现在我们的网络生活里,并且赋予了许多新的形象的含义。其实,古代很雷很霹雳的词,虽然现在不用了,但是再回去研究,还是十分“囧”,十分的有画面感,非常有趣。
1、“兲”(读tiān),跟常用来骂人的那种水生动物没有关系,没你想的那么复杂。这个字是“天”字的古体,也念“天”。
2、氼(读nì),人掉水底下了,当然就是溺水,这个字就是“溺”的意思。前天我这里受“凤凰台风”的影响,瞬间狂风暴雨,路上的行人马上成了“水人”。
3、砳(读lè),开始很费解,石头跟石头相碰怎么会是“乐”的声音呢?转念一想,是不是两块石头相互碰撞发出的声音很好听,很“乐”吗?这个字是劈山开路者的代表。这“砳”字很有可能是石匠发明的。敲石头的人一高兴就忘乎所以,两手拿着两块石头拼命地敲…
4、嘦(读jiào),很容易读的。把“只要”两个字快速连读,你就会很容易找到它正确的读音。两个字快速连读也能成为一个字,这是中国人的优良传统,我们一起为我们自己身为中国人严重自豪下。
5、嫑(读biáo),和上面的“嘦”有异曲同工之妙处,不废话了,让大家自己把玩下吧。这个字其实是滇东罗平、赣州一带的方言、官话…
6、嘂(读jiào),四张嘴同时叫,当然就是大声叫了。很有趣吧。
7、圐圙(读kū lüè),内蒙古方言中一般读作库伦(kū lüàn),“圐圙”一词现多用作地名。仔细看看这两个字:两个口分别框住了四方八面,意为“围起来的草场”。圐圙,本来可以四面八方,没想到被加了一个笼子,被困在其中,这个词在汉文化地区,是不吉利的。
8、玊(读sù),玉的点儿点得不是地方,当然就是有瑕疵的玉,所以变俗气了。
9、孖(读mā),如同字形所示:双生子。用现在话说就是克隆,拷贝,复制。
二、囧字系列、生僻字
囧 jiǒng ㄐㄩㄥˇ 古同“冏”。
囧 sóng 武汉方言,湖北其他地方以及四川也有类似方言。形容面貌,行为,穿着,语言等很怪异、邋遢、奇特、畸形等
囙 拼音:yīn 古同“因”。
囜 拼音:nín ◎ 贤。
囝 拼音:jiǎn nān ◎ 方言,儿子。◎ 同“囡”。
囟 拼音:xìn ◎ 〔~门〕婴儿头顶骨未合缝的地方。亦称“囟脑门儿”、“顶门儿”。
因 不认识这个字的找要板砖,使劲往自己脑袋上砸!哈哈~
囡 拼音:nān ◎ 方言,小孩儿:小~。阿~。~~(对小孩儿的亲热称呼)。
団 拼音:tuán ◎ 同“团”(日本汉字)。
囤 拼音:dùn tún ◎ 用竹篾、荆条等编织成的或用席箔等围成的存放粮食等农产品的器物
囥 拼音:kàng ◎ 藏。
囦 拼音:yuān ◎ 古同“渊”。
囧 jiǒng ◎ 囧囧:明亮貌。江淹《孙廷尉绰杂述》诗:“囧囧秋月明”。
囨 拼音:piān◎ 唾弃和斥责声,相当于“呸”。
囩 拼音:yùn yún ◎ 回旋。◎ 古代土地面积单位,十二顷。
囱 拼音:chuāng ◎ 炉灶出烟的通路。 还有一个读法,不认识可以去死了。
囫 不认识这个字的找BZ要板砖,使劲往自己脑袋上砸!
囮 拼音:é yóu ◎ 用来诱捕同类鸟的鸟,称“囮子”。◎ 媒介。◎ 化,化生。
囲 拼音:wéi ◎ 古同“围”。
図 拼音:tú ◎ 同“图”(日本汉字)。
囵 不认识这个字的找BZ要板砖,使劲往自己脑袋上砸!
囶 囶 拼音:guó 这个字也有点囧意!◎ 古同“国”。
囷 拼音:qūn ◎ 古代一种圆形谷仓◎ 样子像囷仓的事物◎ 积聚;聚拢。
囸 拼音:rì◎ 古同“日”。
囹 不认识这个字的找BZ要板砖,使劲往自己脑袋上砸!
囻 拼音:guó ◎ 古同“国”,很形象吧。
囼 拼音:tāi ◎ 古同“胎”。
囿 拼音:yòu◎ 养动物的园子◎ 局限,被限制◎ 借指事物萃聚之处
圀 拼音:guó◎ 古同“国”。
圁 拼音:yín ◎ 〔~水〕古水名,上游即今中国内蒙古自治区的乌兰木伦河,下游即今中国陕西省的窟野河。
圂 拼音:hùn hǔn ◎ 同“溷”。 溷 拼音:hún hùn hǔn
圅 拼音:hán ◎ 同“函”。
圉 拼音:yǔ ◎ 养马的地方◎ 边陲◎ 同“圄”。◎ 古代乐器名。
圊 拼音:qīng◎ 厕所
圌 拼音:chuán chuí◎ 一种类似囤的盛粮器具。◎ 〔~山〕山名,在中国江苏省镇江市东。
圎 拼音:yuán ◎ 古同“圆”。
圏 拼音:quān ◎ 同“圈”(日本汉字)。
圐 拼音:kū ◎ 〔~圙〕蒙古语“库伦”的旧译,指围起来的草场,多用于村镇名。
圑 拼音:fù pǔ ◎ 古同“圃”。
圔 拼音:è yà ◎ 〔窳(yǔ ㄩˇ)~〕(音乐声)低回。
圕 拼音:tuān◎ “图书馆”三字的缩写。
圙 拼音:lüè ◎ 〔圐~〕见“圐”。
圚 拼音:huì ◎ 门闠◎ 圈套
圛 拼音:yì ◎ (云气)连接不断。
圜 拼音:huán yuán ◎ 围绕◎ 同“圆”。◎ 指天体
圝 拼音:luán◎ 古同“圞”。
圞 luán ◎ 〔团~〕a.形容圆,如“明月~~”;b.团聚;团圆,如“可唤儿辈来,作~~之会。”
三、异体字
部分是借鉴的- - 部分是收集的= = 出处不明。
1、小-----尛(mo) . 尐(ji) . 仦(chao) . 夵(yan) . 尕(ga) . 尜(ga) . 朶(duo) . 厼(keum,全拼)
2、的-----啲(di). 哒(da). 白勺. 悳(de) . 菂(di). 旳(di). の(v4). 恴(de). 哒(da). 惪(de)
3、木-----朩(pin,全拼)
4、人-----亾(wu). 秂(ren) . 魜(ren). 亽(ra). 罖(ra). 亼(ji). 仌(bing). 朲(ren) . 仄(ze). 仒(eo,全拼). 囚(qiu). 乆
5、大-----夶(bi) . (v5) . 汏(da) . 仧(chang)
6、不-----吥(bu). 卜(bu). 丆(myeon,全拼). 卟(bu) ハ(v5) 罘(fu). 丕(pi). ⒏(v2) . 囨(pian) .
ト(v5) . 芣(fu). 県
7、你-----尓(er). 你/伱/鉨(ni) . 祢(mi) . 亇(ma ,全拼) 尒。珎
8、子-----孑(jie). 孒/孓(jue).
9、么-----麽(me). ム(v5). 庅(me).
10、甴(you). 曱(yue). 亖(si). 吂(mang) .匸(xi). 囍(heui,全拼). 玍(ga).
11、夨(ze). 丠(qiu).莪(e). 閁(ma) . 丯(jie). 玊(su). 冇(mao). 耂(lao).
12、巭bu3
13、手---掱 (pa)
14、囡--nan;丣---you; 乁---yi; 乂---yi; 乚---yin; 亐---yu; 冘---you; 冝---yi; 匀---yun;匜---yi;昂---yang/ang; 尢---you; 弌---yi; 叴---qiu; 呇---qi; 癿---qie; 兂---zan; 册---zha/ce; 孖---zi; 刄---ren; 兦---wu ;収---shou; 乀---fu; 凢--- fan; 凣--- fan; 甶---fu; 亘---xuan/gen; 巜---kuai; 亠---wen; 圡---tu; 冃---mao; 芈---mi
摘要:“数字人文”是在传统人文研究中引入数字技术及方法来研究人类社会各种文化现象的新型跨学科研究范式。在涉及古代社会与文化研究领域,数字人文研究除了采用人工智能、大数据分析等研究方法以外,还需要一些基础条件,包括如何让计算机利用和理解古代文献和古代文化,古籍数字化和古典知识库建设就是数字人文研究所必须的基础条件。古籍数字化主要涉及两个方面的问题:一个是计算机编码汉字,尤其是异体字和异形字的编码问题;另一个是计算机图像识别并转换为字符的能力问题。古典知识库是对古籍内容进行数据统计、信息和知识挖掘的基础,需要从语言、时间、地理、体系化、联结古今等维度筹划古典知识库建设,以助力数字人文的研究。
问题的提出
“数字人文”是在传统人文研究中引入数字技术及方法来研究人类社会各种文化现象的一种新型的跨学科研究范式。“数字人文”不是简单的人文学科资料的数字转换,也不仅仅是在研究中引入数学建模、套用数学公式,而是利用数字技术和方法,通过对文献的数字化处理并进行数据分析、信息和知识挖掘从而获得新的知识,或者使碎片化的知识系统化、使隐性化的知识显性化。
目前,国内“数字人文”研究如火如荼,尤其是在中国传统文化研究领域,这对于繁荣人文社会科学研究、促进“新文科”的发展,有着积极的作用。
不过,在“数字人文热”的背后,一些基础性的也是深层次的问题逐渐显现出来。在中国传统文化研究领域,冠以“数字人文”的古籍“自动标点”“自动标注”“自动翻译”“自动校勘”等倍受重视,但却缺乏这些研究所必须的基础条件,如大型语料库和相关的知识工具。由于缺乏必要的基础条件,许多数字人文研究项目的基础数据几乎完全靠自己准备,不仅效率低下,各项目之间数据不能交换、互用,而且与数字人文研究本身所要求的大数据、跨学科理念相悖。
数字人文研究所需要的条件很多。就知识库而言,有一些是专业性的,还有一些则是通用性、基础性的,通用性、基础性的知识库如何建设,需要学术界充分讨论。本文仅就中国传统文化领域数字人文研究所涉及的基础条件做一点初步的探讨。
早在20世纪40年代计算机刚刚发明时,人们就开始考虑利用计算机把一种语言翻译成另外一种语言。在中国,著名的藏学家于道泉先生就曾进行过这方面的研究,并于1956年发表了《谈谈翻译机械化》,1982年发表了《藏文数码代字》。不过,于先生的研究主要还是直接通过不同语言之间词汇和语法的对应关系来进行处理,至于藏文数码代字,则是将每一个藏文字母赋予一组不同的数字,其原理与今天的Unicode编码相同。
1973年,国外就有学者利用计算机进行甲骨残片缀合的研究,但影响不大。1975年,四川大学考古学家、科幻作家童恩正先生与计算机专家张陞楷、陈景春合作,继续尝试利用计算机对甲骨碎片进行缀合,并发表了《关于使用电子计算机缀合商代卜甲碎片的初步报告》。在童先生等人的研究中,他们设定了六项限制条件:时代、字迹、骨板、碎片、卜辞、边缘,利用条件匹配的原理进行处理。实验选择了263片甲骨碎片作为样本,最后的缀合率在40%上下 这个结果并不太理想,因为“用人工录制标本信息工作量大而且不准确”,同时,当时的计算机设备也不够先进。不过无论如何,童恩正先生等人的研究对我们今天来说仍然是有启示意义的。
1980年,美国华裔学者陈炳藻首先利用计算机对《红楼梦》的词汇使用习惯进行了统计分析,最后得出了结论:根据前八十回与后四十回词汇使用的频率比较,两部分基本上是相同的,因此,前八十回与后四十回的作者可能都是曹雪芹① 。
①1987年,陈大康先生发表了《从数理语言学看后四十回的作者——与陈炳藻先生商榷》(《红楼梦学刊》,1987年第1辑,第293-318页),得出了与陈炳藻先生不同的结论。
可以说,童恩正先生和陈炳藻先生的研究,有的内容已经与今天我们所说的“数字人文”研究十分接近了,也是通过对数据的处理,从而发现和获得新的知识,只是当时没有使用“数字人文”这个概念而已。他们当初的研究和研究方法没有能够进一步深入、提升,与他们当时所处的时代和技术条件等因素有关。例如,童恩正先生他们所利用的计算机及其相关设备性能低下,远不能与今日相比,同时,他们所能利用的甲骨只有区区263片,涉及确定时代、字迹、卜辞内容的基础数据量过小,并且都依靠他们自己人工进行预处理,这样,当进行基于内容的数据分析、挖掘时,就显得捉襟见肘,最后得出的结论可信度也不高。同样,陈炳藻先生的研究,仅仅是根据《红楼梦》一百二十回中用字用词的数据统计、对比来进行,用于比较研究的文献也仅限于满族文学家文康的《儿女英雄传》,如果能够把数据分析的范围扩大,也许会更有说服力。可惜的是,陈炳藻先生当时并不具有这个条件,即使是《红楼梦》一百二十回的七十多万字的文本,也是陈先生自己处理的。
童恩正、陈炳藻先生的经历告诉我们,开展数字人文研究,尤其是涉及大数据处理,需要一些基础条件。如果缺乏这些基础条件,研究是难以进行的。
“古籍数字化”问题
数字人文研究最基础的条件莫过于古籍数字化。利用数字技术对古籍文本进行处理,我们通常称之为“古籍数字化”。古籍数字化的本质是对实体古籍进行数字转换,内容包括:古籍计算机编目、古籍影像扫描、古籍文本识别、古籍利用辅助工具研发等。古籍数字化是一个系统工程,从古籍的著录、主题与分类标引、文本识别到查询利用、网络传播与共享等各个步骤、各个环节都属于这个系统的一部分,需要高度集成、无缝衔接。遗憾的是,国内不少古籍数字化项目由于业务管理和流程的条块分割,编目、扫描、文本转换、平台发布等工作多是由不同的团队进行,协调不够,有些功能缺失,标准化和开放性不够,很少考虑其他研究项目包括数字人文研究的数据调用和资源共享。
古籍文本的OCR(光学字符识别)一直是古籍数字化的关键环节,主要内容是用计算机所能使用的编码汉字与古籍中的汉字图像进行识别和对应转换,目的在于使计算机能够对文献内容进行处理。它涉及两个方面的问题:一个是计算 机编码汉字的问题,另一个是计算机图像识别并转换为字符的能力问题。
关于第一个问题,从理论上说,要进行古籍文本的识别,则古籍中出现的所有汉字在计算机中都应有相应的编码,并且在以后的发布、利用环节能够被有效使用。这个问题看起来简单,但实际上却非常复杂,原因就在于汉字本身的复杂性。
二三十年前,计算机所使用的汉字编码字符集收录的字数偏少是困扰古籍数字化的主要因素。1980年颁布的国家标准GB2312收录的汉字仅6763个,1993年颁布的GB13000.1-93 (GBK)也只收录了21003个汉字,2000年3月颁布的GB18030收录了27484个汉字。到2005年颁布的GB18030-2005,已收录汉字70244个,到2021年9月,Unicode14.0版正式发布,其中收录的汉字已超过了 9.3万个,汉字字符太少的问题已基本解决,但一个新的问题又出现了,这就是古籍用字的规范与统一。
据民间学术网站《汉字宝典》的不完全统计,在古籍中出现过的汉字包括异体字已超过15万个,但如果算上古籍各种写本、印本存在着大量写法有细微差别而导致计算机OCR识读时可能发生偏差的“异形字”,数量将会成倍地增加。无限制地增加字符集中汉字的数量并不能解决古籍的用字问题,反而会带来新的 问题。古籍的用字,本来是不多的,下面的统计可以给我们一个大致的印象(见表1) 。
但是,当我们在进行古籍OCR时,所需要处理的字形达数十万个,其原因主要是古籍在抄写、刻印的过程中,除去抄错、刻错的以外,抄写者、刊刻者的书写习惯差异造成了一个汉字对应多个字形的情况。例如,在敦煌写本中,大量使用“俗字”,如“多”有14种字形,“恶”有27种字形。这主要是由于敦煌写本的书写者大多是文化水平不太高的经生,多一笔少一笔、长一划短一划十分常见,有的书写潦草,胡乱连笔、任意变形。古代书坊刻书也大量使用俗字,与国子监等官方刻书机构通常使用“正字”不同,这主要是由于书坊刻书的主持者文化水平不高、出于节省成本等商业因素,而读者对这些问题又不是十分敏感。明代刻书,常常使用“古字”,并且很多时候是自己生造出来的古字,以附庸风雅、故弄玄虚。正是由于这些原因,《史记》本来使用的汉字不到5200个,但是,如果算上不同的版本,累计起来,《史记》各种版本使用过的汉字字形,远远超过此数。还有一个问题就是避讳。除了皇帝之讳外,最难处理的是民间个人私讳,因为使用私讳的通常只有本家族之人,私讳缺笔、变体字大量存在,也造成了汉 字系统越来越复杂,字形越来越多。
关于第二个问题,一方面,古籍字形过多,有些差别极其微小,并且很容易与其他字相混淆;另一方面,计算机的文字识别能力有限。二者之间的矛盾需要另辟蹊径,寻求解决的办法。
汉字的OCR技术经历了几十年的发展,对于现代排版印刷体图书来说,已经进入了实用阶段。但是,对于古籍来说,则远远没有达到可用的程度。受古籍复杂多变的汉字字形、复杂的版式等因素制约,目前,对于比较简单、规范、整齐的古籍,四川大学与阿里巴巴达摩院共同研发的“汉典重光”OCR平台,其正确识别率也只能达到97.5%,换言之,其差错率是万分之二百五十,是国家图书出版文字差错率标准的二百五十倍,而这是目前业内最高的识别率。
古籍OCR技术的难度在于古籍版面复杂、文字字形多样、大小字注及行间注并存,至于随文批校等就更不必细说,这些都是在进行OCR识别时必须要面对的问题。
完全依靠OCR来解决古籍的文字识别,从目前的技术来看,是不可能达到最低的国家标准的。因此,笔者认为,要提高计算机对于古籍的文字识别率,还需要结合语料库、词表及知识库、人工智能等多方面的技术,最后再辅以人工复校,这其中语料库、词表知识库可以发挥很大的作用,并且可以作为工具库为数字人文研究的其他方面所互用。举例说明,在古籍中,除了“一字多形”以外,“一形多字”的情况也十分普遍。所谓“一形多字”,即一个字形对应多个不同文字,如“二”,可以对应数字2,也可以对应“上下”的“上”,也可以作为重复字符号。又如 “于”,其字形有:
丂 亏 亐
“丂”字形除对应“于”外,还可对应“考”“巧”;“亏”字形除对应“于”外,还对应亏欠的“亏”。有一些手写字,只有细微的区别,例如:“憧”与“幢”、“枸”与“拘”、“塵”与“麈”。还有一些字,由于字形过于接近,再加上古代刻字工人书写雕刻习惯、雕版磨泐、纸墨低劣、刷印模糊和鼠啮虫穿等情况,使得计算机在识别时会发生误读,如“芉”“芊”“芋”“芓”。所有这些,要让计算机能够正确地识别,必须要根据上下文关系来判断,特别是借助古籍语料库、古代人名库、地名库、职官名库、名物库、各种语言类词典(如成语词典、俚语词典、方言词典等),让计算机可以根据上下文的关系来学习、补齐字句。目前,海内外都有不少语料库③,只是太过分散,并且开放性不够。中华书局自2003年起即着手建设“中华古籍语料库”,海外学者在建设相关工具 库方面也做出了很大成绩,如中国历代人物传记数据库(CBDC)④。
③参见:/d/file/gt/2023-09/3hhj2slawgf
还有一个问题,就是古籍用字的规范与统一。当我们阅读古籍时,在多数情况下,对古籍中的异体、异形字并不那么敏感。计算机则不同,每一个字符都有一个独立的编码,当我们进行文字检索时,计算机后台是根据其编码来进行匹配的,每一个字形都有一个独立的Unicode编码,如:
像“峰”与“峯”、“群”与“羣”、“略”与“畧”,笔画甚至笔顺都是完全一样的,只是偏旁部首位置不同,但它们都有各自的Unicode编码,在计算机中,它们完全是按不同的字符来处理的。还有一些字,虽然是同一种书,但有不同的版本,每个版本的用字都可能不同,如古籍中最常见的“历”字,常见的有以下几种写法:
“曆”本义为“历法”“年历”,在古籍中使用频率最高的是年号,如“聖曆”“大曆”“寶曆”“鳳曆”“慶曆”“天曆”“萬曆”“永曆”。但是,由于清乾隆皇帝名“弘曆”,清代刊印的古籍中往往将“曆”改为“歷”或“厤”“歴”“”。它们之间只有细微的差别,但Unicode编码完全不同,如果在一个古籍数据库中,同一种书可能有多种版本,或者引用同一句话,有的可能作“曆”,有的可能作“歷”,有的可能作“歴”,有的可能作“厤”,有的可能作“”。当进行全文检索时,用什么字作为检索词,就成了一个问题。
一个可行的解决办法,就是建立一个汉字正字与异体字、异形字的标准对照表,以供计算机进行数据分析和汉字的输入、输出使用。2013年6月5日,国务院公布了《通用规范汉字表》,该表共收录汉字8105个,全部为简体字。《通用规范汉字表》还有附表《规范字与繁体字、异体字对照表》,但只收录了与2546 个规范字相对应的2574个繁体字,对于古籍数字化来说,这是远远不够的。2021年10月,国家标准《古籍印刷通用字规范字形表》(GB/Z 40637-2021) 发布,该标准规定了古籍印刷通用字收字和宋体字形规范原则,给出了14250个古籍印 刷通用字的字形、字音以及在国际编码字符集ISO/IEC 10646中的码位,适用于传世古籍的印刷出版,以及现代书刊的繁体版印刷。这个标准对于古籍出版来说是十分必要的,但对于古籍数字化来说,可能还是不够的,需要进一步扩充。十年前,国家曾启动过大型数字化基础工程“中华字库工程”⑤,主要是解决汉字和少数民族文字字形(包括古文字) 的标准化及其输入、输出问题。搜集、整理的汉字包括:甲骨文、金文、简牍帛书及其他古文字、石刻,行书、草书、版刻楷体字、宋元及明清印本文献用字,现代出版物用字及符号,少数民族古文字及现行文字,等等,也提到了要制作一个中间字库,但立项时未确定承担单位。一方面,“中华字库工程”现在尚未结项,如何建立一个正字字库(中间字库)并与其他不同字体字形文字关联起来,似乎还暂未有结果。因此,作为数字人文以及古籍数字化的基础条件,需要尽快建立一个适度且基本够用、标准的汉字对照表。
⑤参见:“中华字库工程”,
/d/file/gt/2023-09/lpxkxqghy4e 合目录早日问世。此外,《中国古籍总目》(网络版)出版工程(一期)也已由国家正式立项。
至于古籍的分类、主题词或关键词标引,涉及的问题更多,当另文讨论。
“古典知识库”问题
一般意义上的古籍数字化与数字人文研究对古籍文本处理的要求是不同的。在进行古籍 数字化时,通常只需要忠实还原文献的内容即可;而进行数字人文研究,问题就要复杂得多了,需要对古籍的内容进行处理,包括数据统计、信息和知识挖掘等。例如眼下热门的古籍自动标点,涉及引文、人名、地名、书名的处理等问题,要让计算机系统判断哪些是引文,引文的起点在哪里、终点在哪里,后台就需要一个庞大的语料库来支撑。这看起来不算太困难,但实际情况常常并不是那么简单。因为古籍中的引文,有许多并不忠实原文(况且还有版本的问题,原文本来可能就不同),有的只是撮取大意而已,面对这类问题,可能需要后台有相关的知识库支撑,如成语典故知识库,古代的各种类书在这方面可以发挥重要的作用。至于人名、地名、书名,如果只是简单的自动标点,给出专名号即可,后台有一个简单的人名字号库、地名库、书名库,即可以帮助计算机分析判断哪些是人名,哪些是地名,哪些是书名,从而划出专名号。但是,如果我们需要利用古籍进行更进一 步的数字人文研究时,面临的问题就更复杂了,因为古代人名字号相同的很多,需要判断究竟是哪个人的名字。早在梁朝,梁元帝就曾编纂过《古今同姓名录》,目的就是区分古籍中的同名人物。书名、地名相同的也很多,仅《隋书·经籍志》即著录了七家《晋书》、七家《晋纪》,加上《晋中兴书》《东晋新书》和裴松之《晋纪》、郭季产《续晋纪》,后世统称“十八家晋书”。地名是一个非常复杂的问题,同一地名,不同时期、不同时代可能在不同地方,全世界都是如此,这主要是由于族群迁徙、宗教、历史等原因造成的,如美国地名很多与英国及欧洲的相同。在中国古代,这种情况也十分普遍,从商人先祖契到商王盘庚之前,四处迁徙,其都城有“前八后五”之说,每迁一处,都称该地为“商”,直到商王盘庚迁都于“殷”(今河南安阳小屯),才“更不徙都”,同时也称“商”。如果不加区分,把甲骨文中所有叫“商”的地名都定位在今天的河南安阳小屯,显然是错误的。1914年北洋政府内务总长朱启钤提交的《拟改各省重复县名撮取理由分别说明》指出: 唐代有重名县十九个,宋代有三十个,明代有四十二个,到清末时“二县同名者七十四,三县同名者十有二,四县同名者四,五县同名者三,六县同名者一”。至于像“五里店”“十里铺”“马鞍山”之类的地名,几乎各地都有。这类问题,都需要有相关的知识库作为支撑。
知识库(Knowledge Base),顾名思义,是基于知识的智能系统。社会知识是一个内涵十分庞大、复杂的系统,有的比较简单、清晰,例如人名、地名等事实类的知识,著名的“中国历代人 物传记数据库”(CBDB) 虽然结构复杂,但其内容是清晰、明确的;而有的则非常复杂,涉及思想、情感类的知识,其表达并让计算机能够调用是非常困难的,例如,梅、兰、竹、菊作为植物,它们的内涵是十分清晰、明确的,在建设相关的知识库时,很容易处理。但涉及它们在古代文化中的象征意义时,情况就变得复杂了。以梅为例,《永乐大典》中关于梅的专题占了六卷,涉及“梅”的词条共90个,包括不同品种、不同颜色、不同形态的梅,也有以梅为名的水果及制品(按现代植物分类可能是错的,但这正是古代“知识”与现代“知识”差异之所在),这些属于古代所谓“名物”的范畴,可以看作是事实类的知识库;另外还有古人咏梅、写梅、画梅的艺术作品,可以把它们当作专业的语料库。这些,在建立知识库时,都比较容易处理。但是,梅在中国传统文化中的象征意义十分重要而复杂,像林逋《山园小梅》诗“疏影横斜”之梅与陆游《卜算子·咏梅》词“无意苦争春,一任群芳妒”之梅,其意蕴显然是不同的,这类文学作品常常是“只可意会,不可言传”,而涉及哲学、思想范畴的概念,不同学者之间的差异、细微之处更不易区分。说到这一点,有一个观念需要明确:在古籍数字化、数字人文研究中,计算机终究只是辅助研究工具,并不能完全替代人的大脑。
知识库如何建设?需要考虑哪些因素?清华大学刘石、孙茂松教授曾经提出过设想:
借助于中国历史上一切古典学的研究成果,在保障古籍文献内容完整性及内部逻辑性的基础上突破文献原有结构,周密地设定主题词表,专业地提取各种实体,如年代、地域、人物、社团、著述、事件等等,构建实体的相关属性及不同实体间的关系,通过这些实体及相互关系对文献进行深层组织和知识管理,这就是我们所构想的“中国古典知识库”。
这个构想无疑是十分宏大美好的。不过,从超过20万种古籍中提取各种实体并构建实体的相关属性及不同实体间的关系,涉及的问题、方面很多,考虑到实施的可能性,工作需要拆分,即在一个统一的框架之下,通过构建一个个具体的专业知识库,最后形成综合性的古典知识库集群。
中国传统文化中的“名物制度”,包括事物如动物、植物、器物之名和历代各种制度、风俗习惯、思想观念,后人在整理古代文献时,由于时代的差异,需要借助一些工具作为参考。清代著名学者汪中说:
古之名物制度,不与今同也,古之语不与今同也,故古之事不可尽知也。
另一位差不多同时的学者章学诚也说:
校雠之先,宜尽取四库之藏,中外之籍,择其中之人名地号,官阶书目,凡一切有名可治、有数可稽者,略仿《佩文韵府》之例,悉编为韵,乃于本韵之下,注明原书出处及先后篇第,自一见再见以至数千百,皆详注之,藏之馆中,以为群书之总类。
同样,今天在进行古籍整理、古籍数字化以及数字人文研究时,也需要借助一些工具,只不过,传统时代这些工作需要人力完成,而今天我们可以通过计算机来完成,因此,古典知识库最主要的功能是沟通古今,让计算机正确地理解古 代文化和古代文献。
知识库可以是某一专题的相关知识,过去常常又被称之为“专家库”,它强调的是“知识”的客观性,它的功能是向人们提供客观、专业的知识。需要注意的是,“客观”“专业”的知识未必是“科学”的,譬如巫术,巫术反科学的性质毋庸置疑,但巫术是中国古代政治与社会生活中的重要组成部分,不了解它是什么,不清楚巫术的概念、术语,就不能理解它在古籍中的意义,对人是如此,对计算机也是如此。除了巫术以外,古代的许多“知识”“常识”“习惯”,在今天看来显然是不“科学”的,但它们却是中国古代文化的重要组成部分。因此,古典知识库所强调的不是“古典知识”的科学性,而是“古典知识”的客观性,即从理解古代文化特点的角度给予这些“知识”以符合古代思想、文化的解释。
人名知识库、地名知识库、职官知识库、书名知识库、名物知识库等是属于“显性知识”的知识库,还是一些具有“隐性知识”特点,如涉及学术史、思想史、文学艺术以及其他“不可言状”的知识库,需要从以下维度重点考虑。
(1)语言的维度。中国历史悠久、地域辽阔,不同民族、不同时代、不同地区的语言十分复杂。东汉王充《论衡·自纪篇》说:“经传之文,圣贤之语,古今言殊,四方谈异也。”因此征集各地方言在古代是国家治理的一个重要内容。“周、秦常以岁八月遣輶轩之使,求异代方言,还奏籍之,藏于秘室。”西汉扬雄所撰《方言》,便是中国第一部专释方言之书。同一个字、同一个词,在各地有不同的含义,“党、晓、哲,知也。楚谓之党,或曰晓,齐宋之间谓之 哲。”东晋葛洪《抱朴子·钧世》说:“古书之多隐,未必昔人故欲难晓,或世异语变,或方言不同。”方言的使用在小说和地方文献中最为突出,例如清末小说《海上花列传》就大量使用吴方言,而小说《死水微澜》就大量使用四川方言。不同方言所带来的最常见问题就是同物异名,如红薯在不同地区,或称甘储、甘薯、朱薯、金薯、番茹、红山药、玉枕薯、山芋、地瓜、甜薯、红苕、白薯、阿鹅、萌番薯等。一般的名物异称,可以参照传统图书馆学“名称规范控制”来解决。但是,语言问题非常复杂,古人论及如何理解六经,谓“古文读应《尔雅》,故解古今语而可知也”。今天在建设知识库时,则需要语言学家的深度参与。
(2)时间的维度。几千年来,语言、名物制度都在不断地变化,同一字、同一词、同一名称,在不同时代有不同的含义。如“棉”,唐宋以前指乔木类的木棉,而唐宋以后则主要指草本的棉花;唐代以前的“糖”主要指饴糖,而唐代以 后,则多指砂糖。“睡”,汉代以前专指打盹,《说文解字》:“坐昧也。”而先 秦之“睡”作“寐”“寝”,《论语·公冶长》:“宰予昼寝”。“交通”,古义“勾结”“联系”“接触”,后来演变为道路相连,陶渊明《桃花源记》“阡陌交通,鸡犬相闻”,也与后世之交通运输不同。职官、地名古今变化也很大。如“尚书”一职,始设于秦,直到汉代,只是掌管文书的小吏,但到了明清时代,便成了六部首长。因此,在构建知识库时,需要考虑时间、时代的因素。
(3)地理的维度。在古代社会与文化研究中,地理是一个极其重要的因素,前面提到地名的变化,其实问题不止于此,即使是同一地名,由于时间的不同,一地的治所与四至也可能有很大变化。在处理方言、同名等问题时,地理也是一个最重要的维度。因此,以地理信息系统为基础或者通过关联地理信息系统来构建知识库是一个很好的解决方案,中国历代人物传记数据库(CBDB)通过关联地理信息系统就是一个很好的范例。
(4)体系化的维度。知识库是一个系统、一套体系,古典知识库实质上是一个古代文化的知识体系,并且这个知识体系一直处于发展变化之中。构建中国的古典知识库,既需要反映中国古代文化的特点,也要结合中国古代知识体系的结构、分类及其不同知识之间的相互关系来考虑。关系来中国最早对知识进行有意识的分类可以追溯到《尚书》《诗经》各篇的编排上。战国时代成书的《禹贡》《山海经》可以看作是先秦时代关于地理的知识体系,在这个体系中,既有古人确实已经掌握的地理信息和地理知识,也有古人想像中的“世界”模型。大约西 汉时期成书的《尔雅》,本是关于儒家经典的“名物训诂”之书,但用今天的眼光来看,实际上就 是一个相当完整的上古知识体系(见图1) 。
图1 《尔雅》知识体系示意
除《尔雅》以外,中国古代的史志、政书、类书等都可以看作是不同时代的专科或者综合性的知识体系。仅以古籍分类为例,西汉末年刘向、刘歆等人对皇家藏书进行系统整理后编制的《七略》,则是一个基于文献的知识体系,在这个知识体系中,知识被分成了六艺、诸子、诗赋、兵书、术数、方技六大类,其下又再细分。从《七略》到《四库全书总目》分类方法的发展变化,几乎就是从西汉到清代中国知识体系分类变化的一个缩影。同样,类书作为古代的知识工具,其内容与特点的变化,更是反映了社会知识结构的变化。关于这一点,我们将另 为文讨论,不赘。
(5)联结古今的维度。中华文化是一个有着几千年历史、至今仍然充满活力的文化。古代文化发展到今天,有一个传承与弘扬的问题。因此,数字人文研究的一个重要使命就是将古代文化与当代文化连接起来,让研究者和普通公众更好地理解传统文化,真正让古籍中所蕴含的知识活起来。当然,也可以将外国的优秀文化连接起来,以达到中西合璧的目的。同时,几千年来,文化和学术研究一直都在不断地发展进步,如何在知识库中反映文化与学术发展的脉络,充分反映当代人文社会科学的研究成果,这也是构建古典知识库必须要充分考虑的问题。
作者简介
陈力,四川大学历史文化学院教授,国家图书馆研究馆员。
文章来源:《中国图书馆学报》2022年第2期。
我们游黄河入海口有感
我的母亲河--黄河,跌宕起伏几千里后在这里入海。
共和国最年轻的土地,正是在这里一寸一寸诞生。
这里是世界上暖温带保存最广阔、最完善、最年轻的湿地,这里是芦苇荡的王国,是鸟类的天堂。
这就是国家级自然生态保护区——黄河入海口湿地生态园。
我们从东营驱车33公里进入黄河入海口生态园,我们像鬼子进村似的进入了无边无际的芦苇荡,接天“苇”叶无穷碧,芦苇在水中,水在芦苇中,新辟出来的供游人进入这无边芦苇荡的道路,也在芦苇中,齐人高的芦苇有点像青纱帐,微风过处,起伏的苇叶轻拂你的肩膊,就像一位熟识的故人和你打招呼,用这种亲热的方式欢迎你。这像青纱帐似的芦苇荡,让人想起当年我们铁道游击队穿越微山湖芦苇帐,想起当年的游击战争。战争虽然残酷,但英雄的人们是睿智的,他们把高高的山岗,茂密的树林,悠悠的青纱帐,都变成了上好的战场,青纱帐里的游击战为战争平添了一份豪气、乐观和诗意。
无边的芦苇荡,又像肃立的百万大军,众志成城,列队在黄河的两岸,守卫着黄河水浩浩荡荡,一泻千里。“黄河之水天上来,奔流到海不复回”,黄河以它固有的雄浑和大气,雍容和大度,风采和气概,在百万芦苇大军的护卫和夹岸欢送下,在这里与浩瀚的海洋胜利会师。随着滔滔黄河一块到来的,忠实追随着黄河之水的,还有来自黄河流经的祖国各地的一抔抔黄土,一粒粒细沙,一颗颗石子,它们连同黄河水一道,护送完最后一程,完成光荣使命后,然后以精卫填海的感天动人的气概和毅力,日复一日,年复一年,分分秒秒,生生不息,造出一寸又一寸共和国的新生土地。这奇迹甚至就在你的注视下生成,一个涟漪,一份沉淀,一星儿土地,一寸土地,一射土地,到今天的茫茫无际的新生土地。
这就是坚持的力量,这就是时间的力量,这就是“沧海桑田”的现实版演绎。
据资料,黄河三角洲形成时间不过百余年。黄河从1855年在兰考铜瓦厢决口北徒,由原来注入黄海改注入渤海,经过百年来的沧海变化,塑造出这个近代三角洲。1855年,属于清朝。也就是说,在此之前的秦皇汉武、唐宗宋祖、成吉思汗朝代,这里依旧还是大海。他们不曾幸临这里施展文韬武略,只有百余年来的我们,才因为有伟大的黄河而三生有幸窥见沧海变桑田的奇迹。站在黄河入海口,或许我们才真正读懂了“母亲河”的深层含义。
母亲河为我们造就了新生的土地,还培育了包括人类在内的万千生灵。
这里因为水草丰茂,鱼虾繁多,自然就成了鸟类的天堂。走在这芦苇荡护卫的湿地中,野鸭成群,大雁翻飞,天鹅试翼,丹鹤清唳。特别是野鸭众多,它们在水草中穿行,时而翻飞冲天,时而俯冲捉鱼。它们生于其时,生于其地,这里成了它们的理想国。端午时分,正是鸟类繁殖旺季,地上,草丛里,芦苇内,水塘边,时时可见刚刚生产的野鸭蛋。游客们小心走过,生怕惊动了正生产的野鸭。这一片天地是它们的,人类充其量只是游客,宾不可夺主。来人都小心翼翼的,对这一世外的静地、境地、圣地,心生敬畏。
那一大鸟是啥?工作人员介绍说是鹳雀,学名叫“东方白鹳”。这是一种世界濒危物种,属于国家一级保护鸟类,目前全球仅存2500-3000只。听到这一介绍,我们都对能见到这全世界的三千分之一而倍感荣幸。大家兴致很高,就忽地记起那句唐朝就将鹳雀入诗的经典诗文来了。大家少年时就都学习了王之涣的《登鹳雀楼》,知道了有这种鸟,但久闻其名几十年,直到今天才见其庐山真面目,且荣幸地成为三千分之一,岂能不叫人感怀?当自然界受到人类文明的挤压,很多鸟类失去了生存的家园,鹳雀濒危,丹顶鹤濒危,白头鹤濒危,幸得黄河以其博大的胸怀和生天造地的神力创造了入海口这一广袤的鸟类湿地家园,让它们在这里繁衍生息,以救灭种之危。据悉,黄河三角洲自然保护区正在实施东方白鹳繁殖保护工作,已经初步建成东方白鹳之乡。以鹳雀命名的鹳雀楼,一说为四大名楼之一,建于北周,淹没于宋,毁于元初。庆幸有个王之涣,让鹳雀楼在中环民族的集体记忆中得以永生。
和鹳雀一样,在这里,你还能认识到很多古诗盛典中描摹的叫我们在脑海中耳熟能详却在现实中倍感陌生的鸟类。“两个黄鹂鸣翠柳,一行白鹭上青天”,这里白鹭很多,站在水草里,悠然踱步。“春江水暖鸭先知”,看到鸭子在水中悠闲畅游的情景,看水边的蒌篙遍地,苏轼的《惠崇春江晚景》“竹外桃花三两枝,春江水暖鸭先知。萎蒿满地芦芽短,正是河豚欲上时。”便不自觉叫人吟诵出来。“晴空一鹤排云上,便引诗情到碧霄”,丹顶鹤是濒危物种,在这里生活得充满诗意。“成吉思汗/只识弯弓射大雕”,这里还是金雕的家园。
人和鸟,本来都是自然界中平等的主人,和平共处共享自然界中的一草一木,后来人类打破了这份美好,制造出猎枪、弓箭、弩机、弹弓,撕毁了和平条约,对鸟兽大肆杀戮,鸟兽开始远离了我们。直到后来,人们惊醒了,开始着手保护各种动植物物种。在这里,你会看到、感觉到那份原始的和谐,这里面积辽阔,杳无人烟,正是没有人烟,这里才让一切物种按照自然状态恣意生存,从而少有人为的痕迹。“天地玄黄,宇宙洪荒”,让人感到一种天地生成之初的感觉。在高高青翠的芦苇丛中,在青荇恣意的水迫中,忽然看到一只小鸟,一条游鱼,甚至一条小蛇,都会让人心生一种生命见到生命的原始感动,特别是那种动物对人的那份友好更叫人心生感叹,它们对人类没有任何的敌意,从来不曾惊恐地飞走或者远离,或者说它们本来正是这片土地的主人,这片新土地诞生的那一刻,是它们来这里首先定居成为“土著”。
这里的“土著”鸟儿们见人少,不怕人,不知道世界上曾经有猎枪和鸟笼,它们所见到的人都是和善的,它们把来人当做客人,用欢唱和起舞迎接。人们也表现出那份友好,静观、欣赏着它们,有人还专门带了谷粒来请它们品鉴,还有的人不时将自己买的面包等吃食,友好地赠给它们。特别有创意的是湿地里面少有的几根电线杆上,人们在对这种“破坏”心生歉意的同时,在每一根电线杆的上面都精心设计了鸟窝,每一根电线杆上鸟族们都按了家,初夏时节,正是它们生子育雏的时候,雌鸟在窝边喂食,雄鸟在一旁翻飞,小鸟则从窝里探出好奇的小脑袋。鸟类对来人压根没有一丝的戒备,鸟在人群中翻飞,人在鸟群中游走,人鸟和谐,共赢共生,让人体味到自然造化应该固有的那份众生平等的和谐与美好。
而这人鸟和谐的景观,现在我们在田园牧歌的乡村中很少见到,在相对喧闹的城市来讲则更似乎是天方夜谭了。钢筋水泥丛林组成的城市,让很多鸟类失掉了安身的家园,被逼仄到山林水洼做最后的残喘。而这里,这份人鸟和谐的美好叫人感叹,而这种美好发韧于天地洪荒时代,贵为万物灵长的人类又有何理由,去阻挠、斩断这份美好?
在黄河入海口湿地,呈现给你就是这种“原生态”。
这种原生态还表现在各种生物包括一草一木都在按照自我的天性生长。说起天性,你看看那成片成片望不到边际的原生柳林,这片原生柳林旺长于黄河故道。历史上黄河不仅有过大的改道,就是入海口这小小的一段,也曾经因为左右摇摆而有过小段的改道,“沉舟侧畔千帆过,病树前头万木春”,浩浩荡荡的黄河身边,就是这条曾经的故道,滔滔黄水不再在这里经过,却留下了万亩原生柳林、纵横的水洼、青翠的芦苇。你看那原生柳林,你会惊讶那种原始状态,灌木形状,几乎没啥主干,不像我们删繁就简、刀劈斧砍过后的,被我们按照我们的旨意加工过的,按照我们的审美和实用目的,被成材的,被成景的那种柳树。它就是那样恣意生长着,或枝条旁逸斜出,或柳根恣意纵横,或成丛簇立,或形只行单,或自然老去干枯跌落在古旧的河道里,或一枝嫩绿又从枯死的树桩中钻出。
原生柳林之外,还有野大豆等国家重点保护的濒危植物、野生植物上百种,大豆的先祖是蔓生的,攀援在原生柳树上,叫人倍感新奇。罗布麻是中药,药店见过,活物罕见,这里竟然丛生成景,有专门的观赏区。
在黄河入海口景观内,顾“入海口”之名思义,最有价值、最壮观的莫过于乘着游船看黄河入海的胜景。现实也正是如此,沿着黄河最后这段走向辉煌的河道,正如乐曲的高潮,乘船,顺着黄河的滚滚水流,一直奔向浩瀚的大海,沿途观看黄河最终“奔流到海不复回”河海交汇的伟大奇观,叫人叹为观止。黄河发源于青海省的巴颜喀拉山,经过了青海、四川、甘肃、宁夏、内蒙古、山西、陕西、河南及山东九省,经过了高山,漫过了高原,穿越了草地,流经了平川,经过层层铺垫,经过历久的酝酿,历经艰难险阻,终于在这里爆发了,与大海胜利会师,将自身融入到浩瀚的汪洋大海中去,永不再干涸,凭借一水脉将华夏的博大精深与世界紧紧相连。
堪称世界奇观的是海河交汇的那一刹那,正如钱塘潮是海河交汇的奇观一样,这条交汇的缝线同样叫人惊奇造化的奇美。在海河交汇缝线上,一边是泛着黄色的河水,一边是湛蓝清澈的海水,泾水与渭水的分明没见过,在这里河水与海水的分明,异常清晰,却叫人击节赞叹。
在黄河入海口湿地生态园,最有趣的是当属“泥滩捉蟹”。
湿地,泥滩,苇丛,为螃蟹提供了天然的生存环境,从来没见过一望无际的如天上繁星似的密布的螃蟹洞穴,从来没见过到处是或在探头窥探或在夺命奔走或在孜孜凿洞的螃蟹,螃蟹体格不大,小巧,因小巧而更显可爱,到处都是,引来了飞鸟,招来了游人。这里尤其是小孩子们的乐园,他们提了小桶,带了小铲,东瞧瞧,西挖挖,体验比赶海还有味道的乐趣。这里也是热恋中恋人们的乐园,小伙子表现出少有的勇敢,为心仪的姑娘捉了一只又一只,姑娘咯咯地朗笑着,体味着一种甜蜜。忽然,被螃蟹夹痛了手指,大呼小叫的,将捉蟹的泥滩演绎得生动活泼。这里还是中年人、老年人的乐园,“老夫聊发少年狂”,免冠徒跣,赤膊上阵,与横行将军斗智斗勇,一身泥水,亦不改其乐,在捉蟹的过程中,抖掉了一身烦忧,卸掉了身上的“鸭梨”,捡拾到了失落的童心,体验到了久违的回归旨趣。这种回归,是人生命原点的回归。忙碌而精明的现代人,常感身心疲惫,其实往往就是缺乏了对生命本义的思索和观照,常常忘了最简单的一个问题,那就是“为什么”。譬如热词“旅游”,很多人已经忘了旅游的本义,甚至沦落为一种“我到过”的炫耀,这种炫耀的表现就是“上车就睡觉,下车就拍照,回家一问啥也不知道,只拿出照片说我已经到到到。”又如有些人在拼命挣钱,问问为啥,答曰挣钱,为了挣钱而挣钱,却把生命的原点和本义忘了:“你有钱吗?”“我有钱。”“你快乐吗?”“我不快乐!”
黄河入海口,叫我百读不厌,让我思考不断,让我爱之有加。
为窥其风采,我已来四次次。三次三个季节。夏天是青青世界,青绿的芦苇过人头,叫人醉倒在浓绿中。秋天醉于其色彩:上层是成片的芦花白似雪,中层是芦苇枝叶犹青葱,地上是变红的黄须菜铺展成为“红地毯”。春天来,还有野菜黄须菜鲜嫩可人,纯天然,不沾化肥农药添加剂,开水烫过,用蒜泥和食醋凉拌,下酒佐饭,均为上品。
亲亲的黄河入海口!2010年的五一假期,你的迷人神韵让我再次难以忘怀。您那原生态风采,您那的河海交汇的神奇世界,使我浮想联翩,您那慰藉大自然的真意。
这种真意,喧嚣都市世界里难以找寻。
这种真意,能真正润泽抚慰你的灵魂,直击你的心灵深处。
接着我们的《说文解字》课程,今天是第80课,仍然是讲“艸”部汉字中的六个汉字,具体如图:
(今天所要讲的六个汉字)
1、莛。读作tíng。《说文解字》给的解释是:“莖也。”意思就是草茎。《玉篇.艸部》:“东方朔曰:‘以莛撞钟’言其声不可发也。”用草茎撞钟,当然是发不出声的。愈樾在《群经平议》里说:言莛者,谓其小也,莛与楹以大小言,厉西施以好丑言。“因此莛除了草本植物的茎外,偶尔也有小的意思。
(芍药花的茎)
另外,莛在使用中,也用作梃(读作tǐng),指棍棒。欧阳修的《钟莛说》里有:”铸铜为钟,削木为莛,以莛叩钟,则铿然而鸣“注意,这里的莛,同梃,并不是草茎的莛。
莛的小篆写法如图:
(莛的小篆写法)
2、葉。这个字有两个读音。(一)中华书局注音版《说文解字》只标注了一个音yè。给的解释是:“草木之叶也。”本义就是指草木的叶子,即维管植物的营养和光合作用的器官。其功能是进行光合作用合成有机物,并有蒸腾作用,提供根系从外界吸收水和矿质营养的动力。有叶片、叶柄和托叶三部分的叫“完全叶”,如缺叶柄或托叶的称“不完全叶”;又分单叶和复叶。如图:
(草的叶片)
但叶的含义还有几个:(1)像叶子的东西。比如肺叶,百叶窗。也用来形容轻飘的东西,因为草叶树叶也是轻飘摇曳的,比如:一叶扁舟。段玉裁的《说文解字注》说:“凡物之薄者,皆得以葉名。(2)书页。比如书法绘画里讲的册叶(现在也说册页);再比如文学中所讲的册叶文选。
(册叶)
(3)世,时期。比如:十九世纪中叶。《诗经.商颂.长发》中有:“昔在中叶,有震有业。”毛传说:“叶,世也。”(4)一种草的名字,郭沫若先生认为“乃昆布或海带等海生植物,因为它仅有叶,所以就叫它“叶”,具体已经不知道它是什么样子的草了,只能存疑。(5)聚集。意义出自《方言》卷三:“葉,聚也……楚通语也。”现在湖北人有些人还用这个意思。(6)姓氏。《通志.氏族略三》里说:“葉氏,旧音摄,后世与木葉同音”。葉这个字当姓氏时,有时读作yè,有时读作shè。你看,只是一个葉字,它有多丰富的意思啊。
(二)这个字的第二个读音就读作shè。是古代的一个城邑的名字,故城在现在的河南省的叶县附近。《广韵.葉韵》:“葉,县名,在汝州”;上面已经说了,读这个音时,也是姓氏的一种。
葉的小篆写法如图:
(葉的小篆写法)
3、<上艹下㓹>。这个字GBK字库无此字,它的写法如图:
这个字读作jì。《说文解字》给的解释是“艸之小者。”桂馥在《说文义证》里说“或作䓲。《方言》:䓲,小也,凡草生而初达谓之䓲。”《集韵.祭韵》里也说:“艸之小者。”显然,这个字的意思就是小草。它的小篆写法如图:
(<上艹下㓹>的小篆写法)
4、芣。读作fú,另有两音,但不常用。《说文解字》给的解释是“华盛。从艸不聲。一曰芣苢。”显然,这个字至少有两个意思:(1)、花盛的样子。段玉裁《说文解字注》:“《诗》言‘江汉浮浮’、雨雪浮浮‘皆盛貌,芣与浮声相近。”所以他认为,江汉浮浮指水量洪大,而雨雪浮浮指雨雪盛大,芣音与浮同,所以,指花盛开的样子。(2)专用词,组成“芣苢”,就是芣苡,也就是车前草。车前科,多年生草本。叶丛生,广卵形或长椭圆状卵形,有长柄。穗状花序,夏秋开花,种子与全草都可入药。《诗经.周南》里有“采采芣苢,薄言采之。”的句子,就是指的这种草。前面讲苢字时曾经详细介绍过(见54课),这里不再详说。车前草的样子如图:
(车前草)
另外,芣还是山的名字,在河南省巩县北部。芣的小篆写法如图:
(芣的小篆写法)
5、葩。读作pā。《说文解字》给的解释是:“华也。”因为华与花通,所以,葩字也有两个意思:
(1)草木的花。《玉篇.艸部》有:“葩,草木华也”。唐代慧琳《一切经音义》里解释说:“秦人谓花为葩也。”显然,葩,有一个字义就是指花。比如《红楼梦》里有“一个是阆苑仙葩,一个是美玉无瑕。”指的也是花。
(《红楼梦》剧照)
(2)华丽、华美。段玉裁的《说文解字注》里说:“葩之训华者,草木花也。亦华丽也。草木花最丽,故凡物盛貌皆曰华。韩愈曰:‘《诗》正而葩’,谓正而文也。”
《说文》而外,葩还有一个意思,指“草花白”,意出《广韵.麻韵》“葩,草花白”。
以上三个意义并无贬义,现在我们经常说的一个词“奇葩”,葩还是用的花的本义,但通常带有贬义。葩的小篆写法如图:
(葩的小篆写法)
6、芛。读作wěi。《说文解字》给的解释是:“艸之葟榮也。”葟的意思就是草木欣欣向荣的意思,葟榮结合的芛,指初生的草木花。《尔雅.释草》里说:“蕍、芛、葟、华、榮。”郭璞注:“今俗呼草木花初生者为芛。”邢昺作疏说:“芛,华初生之名也。”就是指刚开的花。随着学习的深入,我们会知道,尹的意思是指主管、治理、把握。或许,花初生,需要人精心照顾和管理,或者花初生之开,就可以采摘用来赏玩了,所以芛的意思就是指初生的草木花。
另外这个字也有一意,指花开的样子。
芛的小篆写法如图:
(芛的小篆写法)
我们看,中国的古人们,把花草的各种状态都造了一个字来表达,从萌生发芽,到长出枝茎,到开出花朵,到结出果实……固然其他字母文字也有准确的字母组合来表达,但从字形字意组合的意义方面来讲,汉字记录语言、语意内涵要丰富得多,生而为中国人,实在是件值得高兴的事儿。
(【说文解字】之80,部分图片源自网络)