当前位置: 首页 >> 正文

汉字应用水平测试用字的统计与分级

作者: [发表时间]:2008-09-29 [来源]: [浏览次数]:

1.前言

1.1.“汉字应用水平测试研究”课题是国家语委“十五”科研规划重点项目,它的目的是要研制一套科学的标准化汉字应用水平测试体系,以检验社会上与汉字使用有密切关系的一些行业的从业人员在书面交际过程中掌握和应用汉字所达到的程度。不同的人使用汉字的数量不同,掌握汉字的程度及汉字应用的水平也有较大差异。根据我们的调查,一些与汉字应用有关的行业和部门早就迫切希望制定一个切实可行的汉字应用水平测试标准,作为考核、录用和培训从业人员的依据之一。因此,制定汉字应用水平等级标准和编制汉字应用水平测试大纲不仅是对社会上不同人群汉字实际使用情况的客观反映,也是为了满足社会对提高人们语言文字水平的一种迫切需求。

汉字应用水平测试在我国尚属首次,这是一项具有开创性的关于汉字应用水平的量化研究,其研究成果不仅能丰富现代汉字学、测试学等学科的内容,而且对提高全社会的语言文字规范意识和应用水平,进而提高人们的文化素养,促进社会应用汉字的规范化和标准化,起到积极的推动和促进作用。这对我国语言文字应用的理论和实践都具有非常重要的意义。

1.2.这项课题研究的重点之一就是确定测试用字的数量和范围,以便据此逐步建立汉字应用水平等级标准及测试大纲,并建设相应的测试题库。

《汉字应用水平测试字表》是这项课题的基础性工作,也是今后测试的重要内容。它将为汉字应用水平等级标准的划分、测试大纲的编写及题库的建设等提供基本的内容和大致的范围。没有测试字表,测试就无从谈起。鉴于汉字应用水平测试在我国历史上还是首次,它不同于以往的语文水平测试或书面语测试,它面向社会上使用文字较多的行业和人群,针对人们汉字使用中的各种实际问题,应用性很强;因此,汉字应用水平测试字表必然不同于已有的常用字表和通用字表,其字种和字量必须能够真实反映出社会上使用文字较多行业和人群的汉字应用的实际情况。

2.汉字统计的历史及现状

2.1.历史上我国就有对常用汉字和通用汉字的统计。编写常用汉字字表是中国语文教育的传统,也是古代语文教学的基础。古时的蒙学课本就是典型而突出的例子,南北朝的《千字文》共有汉字1000个;宋代的《百家姓》共有汉字576个,《三字经》共有汉字1248个。西汉的字书《仓颉篇》有汉字3300个,清代的《文字蒙求》则从《说文解字》收录的9353个汉字中选取2044个常用字,附加字义的解释。这些文字学习教材都是选取当时的常用汉字汇编成册,供儿童学习汉字用,它们可以算得上是中国古代的常用字表。历代的字书则反映了不同时代通行的汉字字量和字种,是对当时使用的汉字的统计和汇编。虽然随着时代的推移,字书所收汉字的数量日益庞大,到了现代,大型辞书所收汉字大多有数万之巨;但是除掉其中的异体字、罕用字、方言字、古字甚至废字,古往今来,就在社会上应用的汉字而言,一般都在万字之内,人们日常使用的汉字也大致在3000~6000字之间。

2.2.我国现代意义的动态性字频统计是教育家陈鹤琴于1928年完成的,统计出常用汉字4261个。从1928年到1988年的60年间,我国进行的汉字统计资料(重点是对常用汉字的统计)约有十几种。在这些字表中,有两个字表特别值得注意。一个是《信息交换用汉字编码字符集·基本集》,这是中国最大的一次字频统计工作。在数以亿计的浩瀚文献资料中,统计出实际通用的汉字数为6763个,其中有3000多个汉字的累积使用频度达到了99.9%,另3000多个累积频度不到0.1%。这个成果说明了常用汉字与次常用汉字的数量不足7000个,框定了电脑汉字输入常用字的范围,为国家制定汉字库标准提供了重要的科学依据。另一个是当代汉字整理与统计研究的重要里程碑,即国家语委于1988年完成的《现代汉语常用字表》和《现代汉语通用字表》,这两个字表按照汉字的频率和使用度,确定了2500个常用字、1000个次常用字和包括上述两类字在内的7000个通用字。这个成果说明了当代汉字使用的范围在7000字以内,常用汉字的范围在3500字之内,由此确定了教学用字以及出版印刷、辞书编纂、信息处理等通用汉字的范围。

2.3.据新华社最新统计信息(见《北京晚报》2001.9.26),目前汉字的总数虽已超过了8万,而历代日常书面语常用的汉字数量一般都在三四千个。据统计,李白994首7.7万字的诗文里,用字3560个,杜甫1500余首诗作用字4350个,白居易3000余首诗共18万字,用字4600个。老舍的代表作《骆驼祥子》共用汉字量10万余,单字仅有2413个。66万字的《毛泽东选集》1-4卷的用字量为2891个,毛泽东公开出版的全部著作也仅用单字3136个。《孙中山全集》的用字量为2673个

从上述统计资料可以看出,无论在中国古代还是当代,对常用汉字的选择大都在2000~4000字之间浮动,即3000字上下;而通用汉字则一般在7000字以内,基本为6000字左右。这些材料和数据是我们编制《汉字应用水平测试字表》的重要参考依据。

2.4.在编制测试字表的过程中,我们遇到了一些问题。主要是目前我们对现代汉字的研究还缺乏一些最基础的定量研究,对现代汉字的实际应用情况缺乏宏观掌握和微观分析。比如,对不同文化程度、不同行业等不同人群的识字量,人们往往凭语感来估算,却没有源于实际调查的科学准确的统计数据,心中无数;又如,对汉字诸如构词能力等诸因素尚无全面而精细的定量分析;等等。这就为测试字表的编制带来了很大的困难,也使进一步提高全社会的汉字应用水平无所依据。而现有的常用字表和通用字表,一个是反映受过基本教育、具有中等文化程度的人的常用识字量,一个是反映远远大于一般人识字量的现代汉字流通、应用的范围,它们都不能代表社会人群的实际识字量,更反映不出具有不同文化水平、分属不同行业的人们对汉字实际掌握的字量和字种。因此,现有的各种字表都不能作为汉字应用水平测试所需要的测试用字表。

2.5.根据以上情况,课题组经过认真分析研究、多方征求意见,决定应为汉字应用水平测试编制专用的汉字测试字表。《汉字应用水平测试字表》的字量和字种应以常用汉字为基础,但要高于常用汉字;应在通用字的范围之内,但应低于通用字;测试用字必须要从实际中来,要能够精确反映受测人群的汉字实际使用情况。课题组决定,以3500个常用字为测试用字的基本内容,在7000通用字的范围内,对社会上经常使用文字的人群进行实际测查,根据掌握的第一手数据来选取测试用字;同时,依据国家语委语料库的汉字频率统计数据,对经测查而筛选出来的汉字进行必要的人工干预。测试用字字量和字种的大致框架由此确定。

3.《汉字应用水平测试字表》的编制

3.1.测试字表编制的依据和原则

3.1.1.编制的主要依据

测试字表编制的主要依据是《现代汉语常用字表》和《现代汉语通用字表》,实际测查统计结果,以及国家语委两个大规模语料库的字频统计数据。

上面已经说过,我们首先确定《汉字应用水平测试字表》应以《现代汉语常用字表》和《现代汉语通用字表》为重要依据,即测试字表以《现代汉语常用字表》为基础,测试用字包括3500个常用字;测试字表以《现代汉语通用字表》为选字的基本范围,字量要低于7000字,字种则基本在7000字之内选定。

其次,鉴于上面所述我们面临的问题,我们认为确定《汉字应用水平测试字表》的字量和字种必须首先进行实际调查,以掌握社会上与文字使用密切的相关人群的汉字实际使用情况,并以此作为《汉字应用水平测试字表》的重要依据。在研制《汉字应用水平测试字表》的过程中,无论是对测试用字字量的统计和字种的选取,还是对测试用字进行分级,我们都是以课题组测查的实际数据作为主要参数的。

另外,我们充分利用了国家语委两个大规模语料库的字频统计数据,以此对实际测查的汉字字量和字种进行增删和调整。这两个语料库,一个是国家语委于1990年开始建设,反映现代汉语全貌的国家级“现代汉语大型通用语料库”,其库容量为7000万汉字,时间跨度从1919年至今(其中1977年至今的语料选取比例为50%)。另一个是语用所于2002年承接,面向中文信息处理领域,为自然语言处理研究服务的国家高技术研究发展计划(863计划)《智能化中文信息处理平台》课题的子课题“超大规模通用平衡语料库”,其库容量为15亿字(2002年第一期完成7000万字),时间跨度以近十年为主(特别以近三年为主,1989年以前为辅)。

3.1.2.编制总原则是实际定量统计与专家定性分析相结合

首先进行目标定性,然后根据定量原则为主、定性原则为辅的选字原则,对实际测查的汉字进行筛选,以其中识别率高的字、在语料库中经查询频率高、使用度大的字,作为选字的基本范围,再采用人工联想的定性方法作为定量标准的补充。

即从定性到定量统计,从实际测查到字频统计,再到专家干预。如此反复,不断使之更完善,更接近实际。

3.1.3.汉字筛选的具体原则

1) 规范性原则:从语言学的角度,测试用字应为普通话语词范围内的用字,方言用字一律不收;测试用字应为规范的现代汉字字型,不规范的字型不收。如:囡、伢、嬷、甭、掼、矬、撸等,《现代汉语词典》均注明为方言用字,测试字表不收。又如:垅,是“垄”的异体字,虽然目前它尚在7000通用字内,也不予收入。

2)应用性原则:从应用语言学的角度,测试用字应在现代汉字的范围内选字,要充分考虑到现代汉字的实际使用情况。对于一些常用的口语用字,如:洇、焯、磴、硌、蕻、痄、搽等,虽然这些字在书面语中较少使用,字频统计或统计不到或频率很低,但在日常生活中却较常用,我们则适当选取。对于文言用字,除现在还使用的或有构词(包括成语)能力的,一般不收,如:筮、笏、耜、骒、黼等,这些字指称的古代事物已经消亡,在现代汉语中既不再使用,又无构词能力,则不予选取。

3)常用性原则:依据频率统计的原理,测试用字应以实际人群的汉字识别率以及在语料库中的统计频率为重要参数,即选取高识别率和高频率的字。

4)均匀性原则:同样依据频率统计的原理,测试用字还要考虑到其在语料库中的覆盖率,即选取分布广泛、覆盖率大的字。

5)联想性原则:任何字表的编制,都不能完全依照频率,必要而适当的人工干预必不可少。对一些成系列的字要进行纵横相关的多种联想,综合考虑其取舍。如:天干地支、节气用字,数字的汉字大写用字,民族名称,省、自治区、直辖市的简称和别称,地、县级以上的地名用字以及连绵字等,我们都是综合考虑,平等对待,成系列收取;其中为保持地县级以上的地名用字的完整性,我们收入了琊、埗、埇、猇等4个7000通用字以外的县级地名用字。对动植物名称,金属、化学元素名称以及姓氏、人名用字等则根据常用程度和频率的高低决定取舍。

6)等级性原则:测试用字既要能反映出被试的汉字实际使用情况,又要便于测试等级的确定;因此,测试用字要根据识别率和字频的高低,覆盖范围的大小,构词能力的强弱及其构成词语的常用程度分出等级。

以上6条原则不是孤立的,而是综合运用以决定取舍。

3.2.测试字表编制经过

从目标定性开始,到定量统计,再回到定性筛选,最后形成限定性等级字表。这就是测试字表产生的基本过程。

3.2.1.首先进行目标定性。确定3500常用字为测试字表的核心内容,同时确定在7000通用字范围内确定字量,筛选其他字种。

3.2.2.用7000字除外3500常用字余下的3500字进行实际测查。经研究决定,在使用汉字较多的行业中,选定对汉字掌握的广度和深度有着不同层次的三种人群,即中等教育程度、高等教育程度、具有高等教育程度又从事文字工作的三种人群作为测试对象。经过实际测试,依照实测人群掌握汉字的平均水准,筛选出其中识别率高的2023个字作为备选字。实际测查结果不仅较为准确地反映了使用汉字较多行业的人群实际掌握汉字的数量,即高限为5500字上下,低限为4000字上下(均含3500字);而且基本上筛出了相应的字种。从源于实际的第一手材料筛选备选字,避免了用传统主观方法确定字表时受专家个人文化素养、专业学科、社会地位以及个人用字习惯等影响而造成的缺陷。

3.2.3.对备选字实施人工干预。课题组与专家根据语感,采用群体性联想的方法逐字进行定性分析,以此作为上述定量统计的补充。这时的定性分析避免和减少了实际测查中的种种不完善所造成的背景干扰,进一步完善备选字。

3.2.4.对备选字进行字频统计。将备选字放到语委的两个语料库中进行分类的频率和覆盖率统计,依据统计结果对备选字再次增删、调整,从中确定了2000个备选字。测试用字的字量至此基本确定。再一次的定量统计可以纠正实测的客观误差和人工干预的主观偏见。

3.2.5.对备选字再次实施人工干预。采用专家集体审读会、专家个人分头审读和课题组集体讨论等多种方法,在2000字的范围内对备选字种又进行多次调整,使备选字更加科学、系统和完善。

3.2.6.汉字应用水平测试不是测试单个的汉字,而是以词语为单位,在具体语境中进行测试,这样才能体现被试的汉字应用水平。这种测试方式决定了测试不仅需要测试字表,还需要测试词表。课题组经研究决定采用《现代汉语通用词表》为测试词表。因此,课题组又对《现代汉语通用词表》中的用字进行了字量和字频统计,将备选字与《现代汉语通用词表》中的用字进行对比,结果绝大部分字种重合,《现代汉语通用词表》中有287个字种备选字没有,这些字大多是一些口语用字和方言用字;备选字中有473个字种《现代汉语通用词表》没有,这些字中大部分是姓氏、人名用字及地、县级地名用字。课题组又对这一小部分不重合的字种逐一分析,对备选字再做调整。如:对词表用字中的一些普通话常用的口语用字,我们作了适当增收。

总之,课题组将备选字从定性分析到定量统计,从定量统计再回到定性分析,循环反复多次,分别将几种不同的定量统计数据放在一起相互参照研究,对备选字多次增删、调整,历经9稿,终于形成《汉字应用水平测试字表(初稿)》。定性——定量——深化——应用,这就是制订《汉字应用水平测试字表》的循环过程。

3.3测试字表的分级

3.3.1.分级的目的

1)将测试用字等级系列化,以反映汉字应用水平的不同层次和阶段,同时也为人们掌握汉字、提高汉字应用水平提供方便。

2)为等级标准、测试大纲的制定和编写提供总目标和分期目标,为测试提供统一性的命题及评分依据。

3.3.2.分级的依据

1)必须从实际应用出发,将实测的汉字识别率和动态性的字频统计结合起来,作为分级的主要依据。

2)分级时不仅要考虑汉字本身形、音、义等问题,还要考虑到汉字的构词能力以及所构成词语的情况。

3.3.3.分级原则

1)在分级过程中,要以《现代汉语常用字表》为分级构成的最核心内容和测试用字字量的底线;以《现代汉语通用字表》为选字范围,除个别字之外,测试用字基本上应在7000字范围之内。

2)在分级过程中,仍然要运用定量统计与定性分析相结合的方法,在一定范围内进行必要的定向联想以调整字种的级别。如:对连绵字分级时,我们采用了这样的原则:如果构成连绵词的字不再构成其他的连绵词,即两个字都不具有构成其他词的能力,则以该连绵词的第一个字的识别率和字频为准,将第二个字与第一个字一起放在同一级别;如果构成连绵词的字各自还能构成其他的词,或两个字的构词能力有显著差异,即两个字分别具有不同的构词能力,则依每个字的识别率和字频,分别放入不同的级别。

3)测试用字的总量及测试用字的分级要考虑到相应的词汇总量及词汇分级。

3.3.4.分级的标准和方法

测试用字分级共有3个界标:4000字种(3500常用字+500字),4500字种(3500常用字+500字+500字),5500字种(3500常用字+500字+500字+1000字)。这3个级别分别为测试字表甲表(4000字),乙表(4500字),丙表(5500字)。

1)3500常用字是国家现行的规范标准,是经过几十年科研、教学的积累和实践,并在较广泛的语料中反复统计后得出的第一个权威的常用汉字量,它已经得到了人们的共识。这一共识与当前我国汉字教学、应用的基础阶段的汉字量相一致。因此,我们尊重这一科研成果,将3500常用字全部纳入第一个分级界标内,由此构成测试字表甲表的核心内容。

由于3500常用字是目前初中教育阶段应掌握的汉字量,代表具有中等偏下文化水平人群的识字量;而根据我们的实际测查,具有高中文化程度的人群一般识字量为4000字左右。因此,根据这类实测人群的识别率(实测的具体过程见另文)和语料库的字频统计,又筛选出500字,与3500常用字合并,形成测试字表的甲表;即甲表含全部常用字,又增加500字,共计4000字,作为第一个分级界标。

2)实测结果显示,具有大学文化程度的人群一般识字量为4500字左右。因此,根据这类实测人群的识别率和语料库的字频统计,再筛选出500字,与甲表合并,形成测试字表乙表;即乙表含全部甲表字,又增加500字,共计4500字,作为第二个分级界标。

3)实测结果显示,具有大学文化水平以上,从事文字工作,且具有较高汉字应用水平的人群的识字量为5500字左右。因此,根据这类实测人群的识别率和语料库的字频统计,再筛选出1000字,与乙表合并,形成测试字表丙表;即丙表含全部甲、乙表字,又增加1000字,共计5500字,作为第三个分级界标。

总之,对于汉字应用水平测试来说,高级水平应掌握4500~5500字,中级水平应掌握4000~4500字,基本水平应掌握3500~4000字。

课题组在从定性分析到定量统计,从定量统计再到定性分析,循环反复筛选、调整测试用字的同时,在保持每个等级字量不变的情况下,对每个等级中的字种(除外3500常用字,常用字是测试用字的底线,全部在甲表内),也反复进行了多次调整,使之更平衡与协调。因此,与筛选、确定测试用字的字量和字种相同,分级时,也是以实测的汉字识别率和语料库的字频数据为主,但并不完全依据识别率和字频数据,仍然要运用定量与定性相结合的方法。

4.编制测试字表过程中的几点认识

4.1.编制《汉字应用水平测试字表》,并对汉字进行应用水平分级,这在我国字表编制史上是首次,也是现代汉字学、汉字教学、测试学相结合的一种有益尝试。

在编制字表和分级的过程中,我们发现:现代汉字研究中还有不少空白和盲点,尤其是现代汉字应用研究领域,还缺乏宏观的、系统的、动态的、精细的定量研究和统计数据,缺乏对汉字应用各个层面实际情况的调查,这是现代汉字研究的一个很大缺憾,应当引起汉字学界的重视。时代和社会以及其他科学、其他行业的发展,对语言文字提出了新的、更高的要求,语言文字研究的传统理论和经验与之相比有其局限性,这就要求语言文字研究要力求发展和创新,以不断适应新的时代要求。因此,对于编制汉字应用水平测试字表来说,就必须进行新的探索,那就是实施实际测查,这是非常重要和必不可少的。正是基于这种认识,课题组首先对从事与文字工作相关的几个不同层次的人群(即今后的受测者)汉字应用的实际情况进行摸底测查,对这些人群的识字量分别进行统计,并首次将这种源于实际的测查数据与语料库的字频数据结合起来,相互比照,共同作为确定字表的字量和字种、实行分级的重要参数。从而使我们对当前汉字实际应用的字量、字种及等级的确定,有了扎实而可靠的基础。

4.2.任何字表字量字种的确定和分级都必须采用定量与定性相结合的综合方法。

编制字表应以实测的识别率和字频统计数据为重要依据,但是,实际测查和字频统计会受到语料的选取及其年代、文体、内容,调查的时间、方式以及被试各方面的情况等等诸多背景因素的影响,有些数据会与实际情况相差甚远;在使用不同语料统计出来的汉字频度表中,最常用汉字的排列顺序都有一定差别,至于次常用汉字,差别会更显著,尤其是目前国内汉语语料库的建设还有待完善。另外,汉字的问题很复杂,有些情况仅仅依据数据统计解决不了。因此,对于一个科学和完善的字表,其字量、字种的确定仍离不开必要的人工干预,定性分析具有同样的重要性。《汉字应用水平测试字表》的编制,正是科学理论、定量统计与专家、课题组的定性分析相结合的成果。它充分利用国家语委的两个大型语料库,汇集了数种统计数据、专家与课题组对汉字的知识、分析和评判,把各种相关的科学理论、实验数据与人的经验知识结合起来,形成了有机的系统工程。

4.3.《汉字应用水平测试字表》的编制过程是从字到词,再从词到字,建立字-词对应关系。

现有的各种字表,包括《现代汉语常用字表》和《现代汉语通用字表》,都有一个共同的特点,即定量统计和定性分析的对象都是单个的汉字,虽然要考虑汉字的构词能力,但并不涉及词语的数量和分级。而用于HSK考试的《汉字等级大纲》中的常用汉字总表及分级汉字表,是从词到字,即其字量、字种的确定和分级是在源于词汇总表及词汇分级的基础上,参照《现代汉语常用字表》进行的。

与上述各种字表不同的是,《汉字应用水平测试字表》因定位于应用水平,因此在测试时不可能只测单个的汉字,而是要以词语为单位,在具体的语境中测查被试的汉字掌握情况,这样才能体现被试汉字应用的水平和程度。考查的对象和目的是汉字,而考查的环境是词语,测试是以词带字。这就要求《汉字应用水平测试字表》在编制过程中,必须使单个的汉字与它所构成的词语建立联系。这体现在两个方面:一是测试用字不是从词表中筛选出来的,而是源于汉字的实际识别率和字频数据,但是我们将测试用字与测试词表的用字进行了比照分析,并依据词表用字频率和汉字的构词能力以及其构成词语的常用程度对测试用字做了字种和级别上的相应调整,进行了一次从字到词,再从词到字的循环过程。二是要有一个“测试用字词对应表”,将测试用字与测试词表中的词语建立联系,使之衔接,形成字与词的对应关系。

由此可见,《汉字应用水平测试字表》的编制,体现了实际测查与字频数据的结合,定量统计与定性分析的结合,科学理论与经验知识的结合,汉字学、词汇学、统计学与测试学等多学科的结合。《汉字应用水平测试字表》的编制过程,就是把对汉字大量零散的定性认识,与汉字的实际应用数据和字频统计结果,汇集在一起,形成一个整体,最终达到较为完整和系统的定量认识的过程。

参考文献

[1]《现代汉语定量分析》,陈原主编,上海教育出版社,1989。

[2]《现代汉语用字信息分析》,陈原主编,上海教育出版社,1993。

[3]《现代汉字学》,高家莺、范可育、费锦昌编著,高等教育出版社,1993。

[4]《汉字问题学术讨论会论文集》,中国社会科学院语言文字应用研究所,语文出版社,1988。

[5]《现代汉语常用字表》,国家语言文字工作委员会汉字处,语文出版社,1988。

[6]《现代汉语通用字表》,国家语言文字工作委员会汉字处,语文出版社,1989。

[7]《GB13000.1字符集汉字字序(笔画序)规范》,国家语言文字工作委员会,上海教育出版社,2000。

[8]《汉语水平词汇与汉字等级大纲》,国家对外汉语教学领导小组办公室、汉语水平考试部,北京语言学院出版社,1992。

[9]《现代汉语词典》,中国社会科学院语言研究所词典编辑室,商务印书馆,2002。

[10]《现代汉语规范字典》,李行健主编,语文出版社,1998。

上一条:学校是贯彻实施《国家通用语言文字法》的基本阵地 下一条:现行规范汉字各部分的具体依据是什么?