Python tokenize示例

编程语言: Python

命名空间/包名称: textanalysis.pubmed_tokenize

方法/功能: tokenize

hotexamples.com的示例: 4

Python tokenize - 已找到4个示例。这些是从开源项目中提取的最受好评的textanalysis.pubmed_tokenize.tokenize现实Python示例。您可以评价示例，以帮助我们提高示例质量。

示例#1

显示文件

文件： queryexpansion.py 项目： carriercomm/medical-text

 def expand(self, query):
     tokens = tokenize(query.lower())
     latent = self.lda.tokens2latent(tokens)
     extra_terms = []
     for topic in latent:
         topn = self.lda.model.show_topic(topicid=topic[0], topn=round(self.k*topic[1]))
         extra_terms += [e[1] for e in topn]
     extra_terms = list(set(extra_terms))
     new_query = query + " " + " ".join(extra_terms)
     return new_query

示例#2

显示文件

文件： queryexpansion.py 项目： waternk/medical-text

 def expand(self, query):
     tokens = tokenize(query.lower())
     latent = self.lda.tokens2latent(tokens)
     extra_terms = []
     for topic in latent:
         topn = self.lda.model.show_topic(topicid=topic[0],
                                          topn=round(self.k * topic[1]))
         extra_terms += [e[1] for e in topn]
     extra_terms = list(set(extra_terms))
     new_query = query + " " + " ".join(extra_terms)
     return new_query

示例#3

显示文件

文件： build_raw_corpus.py 项目： carriercomm/medical-text

def create_corpus():
    data_folder = os.path.join(*[os.path.dirname(__file__), 'data', 'corpora'])

    docs = []
    count = 1
    max_count = 50000
    for case in CaseReportLibrary():
        # lower case all text (1)
        text = case.get_text()
        tokens = tokenize(text)
        docs.append(tokens)
        count += 1
        if count % 100 == 0:
            print count,"/",max_count
        if count >= max_count:
            break

    dictionary = corpora.Dictionary(docs)
    corpus = [dictionary.doc2bow(doc) for doc in docs]

    dictionary.save(os.path.join(data_folder, 'raw.dict'))
    corpora.MmCorpus.serialize(os.path.join(data_folder, 'raw.mm'), corpus)

示例#4

显示文件

文件： build_raw_corpus.py 项目： waternk/medical-text

def create_corpus():
    data_folder = os.path.join(*[os.path.dirname(__file__), 'data', 'corpora'])

    docs = []
    count = 1
    max_count = 50000
    for case in CaseReportLibrary():
        # lower case all text (1)
        text = case.get_text()
        tokens = tokenize(text)
        docs.append(tokens)
        count += 1
        if count % 100 == 0:
            print count, "/", max_count
        if count >= max_count:
            break

    dictionary = corpora.Dictionary(docs)
    corpus = [dictionary.doc2bow(doc) for doc in docs]

    dictionary.save(os.path.join(data_folder, 'raw.dict'))
    corpora.MmCorpus.serialize(os.path.join(data_folder, 'raw.mm'), corpus)