예제 #1
0
 def func(text):
     # the ignore_case ignores case when removing stopwords,
     # but does not return the tokens lower cased!!!
     text = remove_stopwords(text.lower().split(), 
                             ignore_case=True, 
                             remove_punc=True)
     return n_gram_strings(list(text), n)
예제 #2
0
 def test_remove_stopwords(self):
     tokens = "Ik ben een zin , met weinig pretenties .".split()
     self.assertEqual(remove_stopwords(tokens),
                      "Ik zin , weinig pretenties .".split())
예제 #3
0
 def test_remove_stopwords(self):
     tokens = "Ik ben een zin , met weinig pretenties .".split()
     self.assertEqual(remove_stopwords(tokens),
                      "Ik zin , weinig pretenties .".split())
예제 #4
0
 def test_remove_stopwords_case_punc(self):
     tokens = "Ik ben een zin , met weinig pretenties .".split()
     self.assertEqual(
         remove_stopwords(tokens, ignore_case=True, remove_punc=True),
         "zin weinig pretenties".split())
예제 #5
0
 def test_remove_stopwords_case_punc(self):
     tokens = "Ik ben een zin , met weinig pretenties .".split()
     self.assertEqual(remove_stopwords(tokens, ignore_case=True, remove_punc=True),
                      "zin weinig pretenties".split())