Python ViTokenizer.spacy_tokenizeの例

プログラミング言語: Python

名前空間/パッケージ名: pyvi

クラス/型: ViTokenizer

メソッド/関数: spacy_tokenize

hotexamples.comのコード掲載数: 3

Python ViTokenizer.spacy_tokenize - 3件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのpyvi.ViTokenizer.spacy_tokenizeの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

tokenize(30)

spacy_tokenize(2)

ViTokenizer(1)

word_tokenize(1)

コード例 #1

ファイルを表示

 def __get_keywords_from_text(text):
     tokens = ViTokenizer.tokenize(text)
     tokens = ViTokenizer.spacy_tokenize(tokens)[0]
     tokens = list(filter(lambda x: len(x) > 1, tokens))
     counter_tokens = Counter(tokens)
     counter_tokens = dict(counter_tokens)
     counter_tokens = dict(
         sorted(counter_tokens.items(), key=lambda x: -x[1]))
     return counter_tokens

コード例 #2

ファイルを表示

 def make_doc(self, text):
     if self.Defaults.use_pyvi:
         try:
             from pyvi import ViTokenizer
         except ImportError:
             msg = ("Pyvi not installed. Either set Vietnamese.use_pyvi = False, "
                    "or install it https://pypi.python.org/pypi/pyvi")
             raise ImportError(msg)
         words, spaces = ViTokenizer.spacy_tokenize(text)
         return Doc(self.vocab, words=words, spaces=spaces)
     else:
         words = []
         spaces = []
         doc = self.tokenizer(text)
         for token in self.tokenizer(text):
             words.extend(list(token.text))
             spaces.extend([False]*len(token.text))
             spaces[-1] = bool(token.whitespace_)
         return Doc(self.vocab, words=words, spaces=spaces)

コード例 #3

ファイルを表示

ファイル: __init__.py プロジェクト: IndicoDataSolutions/spaCy

 def make_doc(self, text):
     if self.Defaults.use_pyvi:
         try:
             from pyvi import ViTokenizer
         except ImportError:
             msg = ("Pyvi not installed. Either set Vietnamese.use_pyvi = False, "
                    "or install it https://pypi.python.org/pypi/pyvi")
             raise ImportError(msg)
         words, spaces = ViTokenizer.spacy_tokenize(text)
         return Doc(self.vocab, words=words, spaces=spaces)
     else:
         words = []
         spaces = []
         doc = self.tokenizer(text)
         for token in self.tokenizer(text):
             words.extend(list(token.text))
             spaces.extend([False]*len(token.text))
             spaces[-1] = bool(token.whitespace_)
         return Doc(self.vocab, words=words, spaces=spaces)