Пример #1
0
 def test_token(self):
     self.assertEqual(
         tokenize(u"دراسة: عقار الهلوسة لعلاج الادمان على الكحول"),
         [u"دراسة", u":", u"عقار", u"الهلوسة",
          u"لعلاج", u"الادمان", u"على", u"الكحول"]
     )
     self.assertEqual(
         tokenize(u"المواطن البسيط مبيتمناش حكومة ثورية ولا ديمقراطية وطبعا ميعرفش خالد علي عشان يتمنى فوزه الامنية الوحيدة اللي دماغه هو ان نفسه يقف قدام الجزار"),
         [u"المواطن", u"البسيط", u"مبيتمناش", u"حكومة", u"ثورية", u"ولا",
          u"ديمقراطية", u"وطبعا", u"ميعرفش", u"خالد", u"علي", u"عشان",
          u"يتمنى", u"فوزه", u"الامنية", u"الوحيدة", u"اللي", u"دماغه",
          u"هو", u"ان", u"نفسه", u"يقف", u"قدام", u"الجزار"]
     )
     self.assertEqual(
         tokenize(u"وايوه اللي في البرلمان دول ما عندهمش اخلاق. واحد سلم صاحبه اللي كانوا حيموتوا سوا حيبقى على مين. بس فيه ناس مارضيتش"),
         [u"وايوه", u"اللي", u"في", u"البرلمان", u"دول", u"ما", u"عندهمش",
          u"اخلاق", u".", u"واحد", u"سلم", u"صاحبه", u"اللي", u"كانوا",
          u"حيموتوا", u"سوا", u"حيبقى", u"على", u"مين", u".", u"بس", u"فيه",
          u"ناس", u"مارضيتش"]
     )
Пример #2
0
 def test_token(self):
     self.assertEqual(
         tokenize(u"دراسة: عقار الهلوسة لعلاج الادمان على الكحول"), [
             u"دراسة", u":", u"عقار", u"الهلوسة", u"لعلاج", u"الادمان",
             u"على", u"الكحول"
         ])
     self.assertEqual(
         tokenize(
             u"المواطن البسيط مبيتمناش حكومة ثورية ولا ديمقراطية وطبعا ميعرفش خالد علي عشان يتمنى فوزه الامنية الوحيدة اللي دماغه هو ان نفسه يقف قدام الجزار"
         ), [
             u"المواطن", u"البسيط", u"مبيتمناش", u"حكومة", u"ثورية", u"ولا",
             u"ديمقراطية", u"وطبعا", u"ميعرفش", u"خالد", u"علي", u"عشان",
             u"يتمنى", u"فوزه", u"الامنية", u"الوحيدة", u"اللي", u"دماغه",
             u"هو", u"ان", u"نفسه", u"يقف", u"قدام", u"الجزار"
         ])
     self.assertEqual(
         tokenize(
             u"وايوه اللي في البرلمان دول ما عندهمش اخلاق. واحد سلم صاحبه اللي كانوا حيموتوا سوا حيبقى على مين. بس فيه ناس مارضيتش"
         ), [
             u"وايوه", u"اللي", u"في", u"البرلمان", u"دول", u"ما",
             u"عندهمش", u"اخلاق", u".", u"واحد", u"سلم", u"صاحبه", u"اللي",
             u"كانوا", u"حيموتوا", u"سوا", u"حيبقى", u"على", u"مين", u".",
             u"بس", u"فيه", u"ناس", u"مارضيتش"
         ])
Пример #3
0
def tag(text):
    '''get the data in the form the user intered and return tagged words'''
    tokens = tokenize(text)

    return [stemmed_token for stemmed_token in stem_tokens(tokens)]
Пример #4
0
def tag(text):
    '''get the data in the form the user intered and return tagged words'''
    tokens = tokenize(text)

    return [stemmed_token for stemmed_token in stem_tokens(tokens)]