当前位置: 新疆哲学社会科学网>> 民族与宗教>> 民族知识  

敲开少数民族文字信息化大门

http://www.xjass.com  2012年01月04日 11:24:31 新疆哲学社会科学网

  越是民族的就越是世界的,越是民族的也越应走向世界。在全球化、信息化的今天,作为少数民族文化的承载体,少数民族文字理当如是。

教计算机“识字”

  少数民族文字信息化,最基础的工作是信息的“输入”。输入,最常见的方式是人工用键盘输入。可面对浩如烟海的图书与典籍,要把这些优秀的少数民族文化逐字逐句地手工输入计算机,简直是不可能完成的任务。

  这就有了扫描。但扫描只是将文档图像输入计算机,充其量只是输入的初级阶段,因为语言文字及文档通过扫描仪输入计算机中,在计算机看来,还只是一张照片,是一堆不知所云的图像点阵,计算机不能认识它,也不可能有基于内容的全文检索、查询浏览等功能。

  于是,把图像点阵转化为计算机可阅读并检索的文字编码,让计算机“识字”,就成了最关键的问题。

  只认识“0”和“1”的计算机是如何“识字”的?近日,本报记者采访了计算机的“识字师傅”之一、清华大学教授丁晓青。

  丁晓青与她的团队清华大学电子工程系智能图文信息处理研究室的师生们,最先挑战了汉字。

  那是20世纪80年代中期,一开始使用的方法是拆笔画识别算法。

  因为汉字是一笔一画写就的,顺势思维便是让计算机一笔一画提取文字信息。“可汉字太过复杂,很多字笔划复杂,识别错误率太高。”丁晓青说。

  而彼时英文识别采取的是投影加笔划识别,世界范围内少有可供汉字识别借鉴的方法。

  为什么不将汉字作为一个整体来识别呢?1989年,丁晓青研究组独辟蹊径,采用图像识别的方法。他们让计算机通过图像来进行“全局性”认字,就像我们认字往往凭借视觉的感知一样,让计算机通过对文字整体结构的判断来认字。
化零为整,错误率反而降低了,高效且实用。

  丁晓青说:“后来我们利用图像识别的方法去识别其他文字,如认英文、日文、韩文等,也完全取得成功。理论上,图像识别的方法适用于所有文字。应该说,我们找到了解决计算机识字的普适性方法。”

普适性的钥匙

  解决汉字难题后,下一步就是少数民族文字。

  我国是统一的多民族国家,但直到21世纪初,与拉丁文、汉字相比,蒙古、藏、维吾尔、哈萨克、柯尔克孜等民族文字的识别研究几近空白,严重影响了文化信息化的发展。

  虽然手握图像识别这个具有普适性的工具,但少数民族文字识别的研究并非坦途一片。由于各民族文字历史渊源、语言规范不同,构字法、构词法不同,语法、书写习惯(从左向右,或从右向左,或从上向下)也不同,民族文字与方块汉字有本质不同。
丁晓青说:“譬如汉字横平竖直,少数民族文字字形不规则,弧线笔画多;汉字是方块字,少数民族文字则字形无定长、无定宽、变化大,有不同方向的连笔书写,字符边界也不确定。”

  丁晓青选择最重要、最具代表性的蒙藏维哈柯文字为突破口。清华大学于1999年开始藏文识别研究,与合作单位西北民族大学在2003年完成了藏文(混排汉英)文档识别系统;于2002年开始了维吾尔文、哈萨克文、柯尔克孜文以及阿拉伯文识别研究,与合作单位新疆大学在2004年完成了印刷体维吾尔文、哈萨克文、柯尔克孜文、阿拉伯文(混排汉英)文档识别系统;于2005年开始蒙古文识别的研究,与合作单位内蒙古大学、内蒙古师范大学在2007年完成了多体蒙古文(混排汉英)印刷文档识别系统。

  通过对实际文档的识别性能的测试表明,系统对各种文字单字识别率均达99%以上,实际民族文字(含汉英混排)文档识别率达97%,均处于世界领先水平。

  十多年下来,丁晓青这位师傅已远远不如徒弟了,她笑言如今是“计算机认识的字,我不认识”了。
在该技术上推出的“蒙藏维哈柯朝主要民族文字汉英混排文档综合识别跨文种理解系统”,为促进中华各民族文化信息化及交流提供了重要的数字化工具,并广泛应用于多种领域。譬如,国务院直属负责对外宣传的中国西藏信息中心等单位网站、中国民族文化宫“民族数字图书馆”对少数民族历史资源的抢救和信息化等。

走向“沟通无极限”

  “解决大量民族文档自动输入计算机的难题,是实现民族历史和当今文化信息的查询检索等信息化处理首先必须解决的问题。”丁晓青说,“但这项研究又是"打地基"的工作,往往看不到太多的经济效益。国家自然科学基金委员会却一直在这项事业中给予稳定持续的支持。”

  据悉,国家自然科学基金委员会自成立以来,以青年、地区、面上、主任基金、重点项目的方式,对少数民族文字信息的处理与识别研究资助了近百个项目,资助经费达1500余万元。国内清华大学、西北民族大学、内蒙古大学、新疆大学、西藏大学等单位的研究人员,在基金的资助下,取得了显著的成果。

  虽然多民族文字识别取得了突出成果,但仅仅是一个开始,在丁晓青看来,民族文字信息化还有大量的工作需要去做。

  丁晓青和她的团队现今正在做少数民族文字的“识别理解”工作,“例如,可以将藏文文档经过识别,变成计算机可以阅读的文档,这样就有可能利用字典查询等工具,将其内容转换为汉字加以理解,或反之,将汉文档转换为藏文档或蒙文档表示。我们把这称为"跨文种识别理解",是通过文档识别及机器跨文种理解等智能信息手段,实现文字"查字典"的功能。”

  “我希望用这种方式实现各不同文种的民族语言及文档信息之间的的文种转换,而使民族文字语言真正实现"沟通无极限"还需要进行大量如"机器翻译"等的研究开发工作。这对推动民族信息化,促进无障碍的民族文化交流,对维护国家统一和民族团结也是具有重要战略意义的。”丁晓青说。

稿源: 中国民族宗教网 作者: 李芸 责编: 梁旭龙