Python PhraseSentenceStreamの例

プログラミング言語: Python

名前空間/パッケージ名: textanalysis.texts

hotexamples.comのコード掲載数: 5

Python PhraseSentenceStream - 5件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのtextanalysis.texts.PhraseSentenceStreamの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

PhraseSentenceStream(5)

よく使われるメソッド

PhraseSentenceStream (5)

コード例 #1

ファイルを表示

ファイル: queryexpansion.py プロジェクト: waternk/medical-text

 def __init__(self, k=1):
     # phrase detector
     self.phrase_detector = PmiPhraseDetector(RawSentenceStream())
     # number converter
     self.tokenizer = RawTokenizer()
     # build model
     self.model = W2Vmodel(PhraseSentenceStream(self.phrase_detector))
     # parameters
     self.p = 0.8
     self.k = k

コード例 #2

ファイルを表示

ファイル: queryexpansion.py プロジェクト: waternk/medical-text

 def __init__(self, alpha=6.0):
     # phrase detector
     self.phrase_detector = PmiPhraseDetector(RawSentenceStream())
     # number converter
     self.tokenizer = RawTokenizer()
     # build model
     self.w2v = W2Vmodel(PhraseSentenceStream(self.phrase_detector))
     self.tfidf = TFIDFmodel()
     # parameters
     self.alpha = alpha
     self.k = 3
     self.p = 0.80

コード例 #3

ファイルを表示

 def __init__(self, size=50, modelfile=None):
     self.phrase_detector = PmiPhraseDetector(
         RawSentenceStream(fz_docs=False))
     # build model
     epochs = 2
     self.model = D2Vmodel(
         PhraseSentenceStream(self.phrase_detector,
                              extract_func=extract_docid,
                              fz_docs=True,
                              reshuffles=epochs - 1),
         name="DOCID",
         dataset_name="CASEREPORT",
         epochs=epochs,
         dimension=size,
         modelfile=modelfile,
     )
     self.doc_index = DocIndex(CaseReportLibrary(), "CASEREPORT")

コード例 #4

ファイルを表示

ファイル: plot_symptom_embeddings.py プロジェクト: waternk/medical-text

import logging
from irmodels.W2Vmodel import W2Vmodel
from textanalysis.texts import PhraseSentenceStream, RawSentenceStream
from textanalysis.phrasedetection import PmiPhraseDetector
import numpy as np
from random import sample
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA

# setup logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s',
                    level=logging.INFO)
# phrase detector
phrase_detector = PmiPhraseDetector(RawSentenceStream())
# build model
m = W2Vmodel(PhraseSentenceStream(phrase_detector))

diseases = {}
symptoms = {}

with open("testdiseases.txt", 'r') as infile:
    for line in infile.read().split("\n")[:-1]:
        parts = line.split(",")
        diseases[parts[1]] = int(parts[0])

with open("testsymptoms.txt", 'r') as infile:
    for line in infile.read().split("\n")[:-1]:
        symptoms[line] = 1

# disease data
keywords = diseases.keys()

コード例 #5

ファイルを表示

ファイル: build_disease2vec.py プロジェクト: waternk/medical-text

from heapq import heappush, heappop
import numpy as np
import logging

# setup logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s',
                    level=logging.INFO)
# phrase detector
phrase_detector = PmiPhraseDetector(RawSentenceStream(fz_docs=False))

extract_disease = ExtractDiseases()

# build model
epochs = 3
m = D2Vmodel(PhraseSentenceStream(phrase_detector,
                                  extract_func=extract_disease,
                                  fz_docs=False,
                                  reshuffles=epochs - 1),
             name="DISEASE",
             dataset_name="CASEREPORT",
             epochs=epochs)

vec_lupus = m.inner_model["man"]
print np.all(np.isnan(vec_lupus))

disease_count = len(
    [word for word in m.inner_model.vocab if word.startswith("DISEASE-")])
not_nans = [
    word for word in m.inner_model.vocab
    if not np.all(np.isnan(m.inner_model[word]))
]
print not_nans