コード例 #1
0
 def __init__(self):
     pattern = ur'|'.join(
         TwitterTokenizer.REGEX_STRINGS.values()).format(**REGEX_CONSTANTS)
     RegexpTokenizer.__init__(self,
                              pattern=pattern,
                              flags=re.UNICODE | re.MULTILINE | re.VERBOSE
                              | re.IGNORECASE)
コード例 #2
0
ファイル: cleantext.py プロジェクト: rodion-zheludkov/kaggle
 def __init__(self):
     RegexpTokenizer.__init__(self, '\S+|\n')
コード例 #3
0
 def __init__(self):
     RegexpTokenizer.__init__(self,
                              tb_pattern,
                              flags=re.UNICODE | re.MULTILINE | re.DOTALL
                              | re.VERBOSE)
コード例 #4
0
 def __init__(self):
     pattern = ur'|'.join(TwitterTokenizer.REGEX_STRINGS.values()).format(**REGEX_CONSTANTS)
     RegexpTokenizer.__init__(self, pattern=pattern, flags=re.UNICODE | re.MULTILINE | re.VERBOSE | re.IGNORECASE)