def func(text): # the ignore_case ignores case when removing stopwords, # but does not return the tokens lower cased!!! text = remove_stopwords(text.lower().split(), ignore_case=True, remove_punc=True) return n_gram_strings(list(text), n)
def test_remove_stopwords(self): tokens = "Ik ben een zin , met weinig pretenties .".split() self.assertEqual(remove_stopwords(tokens), "Ik zin , weinig pretenties .".split())
def test_remove_stopwords_case_punc(self): tokens = "Ik ben een zin , met weinig pretenties .".split() self.assertEqual( remove_stopwords(tokens, ignore_case=True, remove_punc=True), "zin weinig pretenties".split())
def test_remove_stopwords_case_punc(self): tokens = "Ik ben een zin , met weinig pretenties .".split() self.assertEqual(remove_stopwords(tokens, ignore_case=True, remove_punc=True), "zin weinig pretenties".split())