def test_remove_diacritics(self): self.assertEqual(remove_diacritics(u''), u'') self.assertEqual(remove_diacritics(u'بسم الله الرحمن الرحيم'), u'بسم الله الرحمن الرحيم') self.assertEqual( remove_diacritics( u'لَا يُحِبُّ اللَّهُ الْجَهْرَ بِالسُّوءِ مِنَ ' \ u'الْقَوْلِ إِلَّا مَنْ ظُلِمَ وَكَانَ اللَّهُ سَمِيعًا عَلِيمًا' ), u'لا يحب الله الجهر بالسوء من القول إلا من ظلم وكان الله سميعا عليما' )
def test_remove_diacritics(self): self.assertEqual(remove_diacritics(u''), u'') self.assertEqual( remove_diacritics(u'بسم الله الرحمن الرحيم'), u'بسم الله الرحمن الرحيم' ) self.assertEqual( remove_diacritics( u'لَا يُحِبُّ اللَّهُ الْجَهْرَ بِالسُّوءِ مِنَ ' \ u'الْقَوْلِ إِلَّا مَنْ ظُلِمَ وَكَانَ اللَّهُ سَمِيعًا عَلِيمًا' ), u'لا يحب الله الجهر بالسوء من القول إلا من ظلم وكان الله سميعا عليما' )
def tokenize(text): '''convert raw text into list of tokens''' # TODO: get pre-tokenization in settings file text = remove_diacritics(text) pre_intervals = detect_special_tokens(text, special_tokens) word_breaker = ArabicWordBreakIterator() return word_breaker.analyse(text, pre_intervals)