Python RawTokenizerの例

プログラミング言語: Python

名前空間/パッケージ名: pubmed_tokenize

クラス/型: RawTokenizer

hotexamples.comのコード掲載数: 2

Python RawTokenizer - 2件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのpubmed_tokenize.RawTokenizerの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

RawTokenizer(1)

tokenize(1)

コード例 #1

ファイルを表示

class RawSentenceStream(object):
    def __init__(self, extract_func=None, fz_docs=False, reshuffles=0):
        self.docs = FZArticleLibrary(reshuffles=reshuffles) if fz_docs else CaseReportLibrary(reshuffles=reshuffles)
        self.tokenizer = RawTokenizer()
        self.extract_func = extract_func

    def __iter__(self):
        doc_count = len(self.docs)
        count = 0
        for doc in self.docs:
            for sentence in sent_tokenize(doc.get_text().lower()):
                tokens = self.tokenizer.tokenize(sentence)
                if self.extract_func is not None:
                    labeled_tokens = LabeledSentence(words=tokens, labels=self.extract_func(doc))
                    yield labeled_tokens
                else:
                    yield tokens
            count += 1
            logging.info(msg="%s/%s documents streamed" % (count, doc_count, ))

コード例 #2

ファイルを表示

 def __init__(self, extract_func=None, fz_docs=False, reshuffles=0):
     self.docs = FZArticleLibrary(reshuffles=reshuffles) if fz_docs else CaseReportLibrary(reshuffles=reshuffles)
     self.tokenizer = RawTokenizer()
     self.extract_func = extract_func