Python micro_tokenizeの例

プログラミング言語: Python

名前空間/パッケージ名: preprocessing

メソッド/関数: micro_tokenize

hotexamples.comのコード掲載数: 4

Python micro_tokenize - 4件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのpreprocessing.micro_tokenizeの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

コード例 #1

ファイルを表示

ファイル: evaluate_d2v.py プロジェクト: simeka/million-post-corpus

 def transform(self, txts):
     res = []
     for txt in txts:
         # see https://github.com/RaRe-Technologies/gensim/issues/447
         self.d2v.random.seed(conf.SEED)
         v = self.d2v.infer_vector(micro_tokenize(normalize(txt)))
         res.append(v)
     return numpy.vstack(res)

コード例 #2

ファイルを表示

ファイル: train_word2vec.py プロジェクト: simeka/million-post-corpus

def preprocess(row):
    if row[0] and row[1]:
        txt = row[0] + ' ' + row[1]
    elif row[0]:
        txt = row[0]
    elif row[1]:
        txt = row[1]
    else:
        txt = ''
    return micro_tokenize(normalize(txt))

コード例 #3

ファイルを表示

ファイル: evaluate_bocid.py プロジェクト: simeka/million-post-corpus

 def transform(self, txts):
     data = {}
     unk = self.word2cid['UNK']
     for i, txt in enumerate(txts):
         words = micro_tokenize(normalize(txt))
         cids = [ self.word2cid.get(w, unk) for w in words ]
         for c in cids:
             if (i, c) in data:
                 data[(i, c)] += 1
             else:
                 data[(i, c)] = 1
     keys = sorted(data.keys())
     values = [ data[k] for k in keys ]
     row_ind = [ k[0] for k in keys ]
     col_ind = [ k[1] for k in keys ]
     X = scipy.sparse.csr_matrix((values, (row_ind, col_ind)),
         shape=(len(txts), self.n_clust))
     return X

コード例 #4

ファイルを表示

def preprocess(txt):
    words = micro_tokenize(normalize(txt))
    # sequences of length 0 can make the training crash (tf.gather)
    if len(words) == 0:
        words = [ 'asdfasdf' ]
    return words