Example #1
0
 def test_remove_diacritics(self):
     self.assertEqual(remove_diacritics(u''), u'')
     self.assertEqual(remove_diacritics(u'بسم الله الرحمن الرحيم'),
                      u'بسم الله الرحمن الرحيم')
     self.assertEqual(
         remove_diacritics(
           u'لَا يُحِبُّ اللَّهُ الْجَهْرَ بِالسُّوءِ مِنَ ' \
           u'الْقَوْلِ إِلَّا مَنْ ظُلِمَ وَكَانَ اللَّهُ سَمِيعًا عَلِيمًا'
         ),
         u'لا يحب الله الجهر بالسوء من القول إلا من ظلم وكان الله سميعا عليما'
     )
Example #2
0
 def test_remove_diacritics(self):
     self.assertEqual(remove_diacritics(u''), u'')
     self.assertEqual(
         remove_diacritics(u'بسم الله الرحمن الرحيم'),
         u'بسم الله الرحمن الرحيم'
     )
     self.assertEqual(
         remove_diacritics(
           u'لَا يُحِبُّ اللَّهُ الْجَهْرَ بِالسُّوءِ مِنَ ' \
           u'الْقَوْلِ إِلَّا مَنْ ظُلِمَ وَكَانَ اللَّهُ سَمِيعًا عَلِيمًا'
         ),
         u'لا يحب الله الجهر بالسوء من القول إلا من ظلم وكان الله سميعا عليما'
     )
Example #3
0
def tokenize(text):
    '''convert raw text into list of tokens'''
    # TODO: get pre-tokenization in settings file
    text = remove_diacritics(text)
    pre_intervals = detect_special_tokens(text, special_tokens)

    word_breaker = ArabicWordBreakIterator()
    return word_breaker.analyse(text, pre_intervals)