Skip to content

yanyc428/WrongCharacters

Repository files navigation

基于 n-gram 模型的中文文本自动纠错

本项目基于n-gram的方式提取单字组,并结合语料中的概率生成语言模型,并对现有的输入句进行错别字纠错:

使用方法

  1. 训练n_gram语言模型,python data_process.py,我们也提供了已经训练好的数据模型,将3gram_1.csv放置于ngram文件夹即可;
  2. 完成自动纠错,可以使用model.py中的示例,也可以编辑test.txt并运行python test.py,并在result.csv中查看纠错的结果。

Example

(禁日,)陆(军某综合)(训练鸡地新兵结业表张大会)上,有这样两个(身影银起大)家的注意,他们就是1(1连的连)(长和旨导员)。

新(的一粘,)是我国完成“九五”计划(和本世纪膜奋斗)目标的重(要年分,)改革、发展和稳定的任务十分繁重。为更好的(报到改)革发展进程中的新气象、新成就,在新的(一年众,)本(报将对)(有关拌面进)行调整。

今年以来,自(治区当委、)政府多次召开专门会议,研究项目落实问题。(对余资)金未到位的,自(治区朱要领)导亲自出面,与国内外(客商恰谈,)介绍宁夏的投资环境,从(而使许)多项目落到了实处。目前,宁夏外商投资项(目资今到)(位率居)全(国中上)水平。

11月上旬,江阴长江大桥刚(刚通扯,)地(处北岸)的江苏省泰州市就在全市范(围内绽开)了“大桥通车和泰州经济(发展鸡遇”)的讨论。(经过套论,)全市(人民达)(成共事):泰州要抓(住大翘通车机遇),主动接受上海和苏南等发达地区的经(济富射,)全面推进大(开放站略,)带动和促进泰州经济的全面发展。

(和评发)展,是深刻把握时代特征、中国国情,统筹国内国(际两哥大局),借鉴、汲(取他国发战经)验,做出的重大战略抉择,也是(中国对歪战略)(的正重宣)誓。

环(境正洁、)(交通遍利是)一个城市更加开放的“硬件”标志。泰州是大力加强区域中心城市建设,在“完善功能,改善环境,提高品位,(树里形象)”上下功夫,着(重在水)、路、(房等)方面进行集中投入,(重点减设。)先后完(成一水厂)(水源)(水质整治)(和7条城)市河(道的疏俊和环)境综合整治,有(效地盖善了)市区内河(道的环)境面貌。

另(据报到),24日晚,刚(刚下台)的钱总理斯捷帕申决定与“亚博卢”(集团节盟,)参加12月的(杜马竟选。)但斯捷帕申表示,(他不加)入“亚博卢”(及团。)

俄(内务补临时新)闻中心说,(俄军这)(次围教的目)标是达吉斯坦布伊纳克斯基区的卡拉马希村和恰班马希村。

我认识(一位叔)叔,(是个吻学爱)好者,梦想是成为(一名做家。)他(曾写作近十)年,但除(了在杂)(志上零兴发表)一些(文章外),几乎没有什么更(好的橙绩。)

常有人说,理(想很风满,)现(实很骨感)。(有石候,)我们也会(抱怨付出)(不一腚有回)报、努力不一(定有结)果。此时如果发现了自己(新的钱力,)不(妨试着换一)个方向继(续努利。)

Contact

欢迎联系,了解更多细节。Email: yanyuchen@zju.edu.cn

About

本项目基于n-gram的方式提取单字组,并结合语料中的概率生成语言模型,并对现有的输入句进行错别字纠错

Topics

Resources

License

Stars

Watchers

Forks

Packages

No packages published

Languages