Python DataUtility.words2idsの例

プログラミング言語: Python

名前空間/パッケージ名: data_utility

クラス/型: DataUtility

メソッド/関数: words2ids

hotexamples.comのコード掲載数: 2

Python DataUtility.words2ids - 2件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのdata_utility.DataUtility.words2idsの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

DataUtility(14)

data2ids_line(5)

ids2outwords(5)

sentence2ids(5)

get_top_phrase(2)

words2ids(2)

check_scaling_ranges(1)

letters2ids(1)

load_data_local(1)

load_local_binary_data(1)

parse(1)

save_multi_model(1)

コード例 #1

ファイルを表示

ファイル: data_transformer.py プロジェクト: KarlKangYu/using-gcnn-lm-to-classify

def train_in_ids_lm(train_data, vocab_path, out_dir):
    if not os.path.exists(vocab_path):
        os.mkdir(vocab_path)
    vocab_file_in_words = os.path.join(vocab_path, "vocab_in_words")

    vocab_file_out = os.path.join(vocab_path, "vocab_out")


    data_ut = DataUtility(vocab_file_in_words=vocab_file_in_words,
                               vocab_file_out=vocab_file_out)


    with codecs.open(train_data, "r") as f:
        with codecs.open(os.path.join(vocab_path, out_dir), "w") as f1:
            for line in f.readlines():
                words = line.strip()
                words = words.replace('.', ' .')
                words = words.replace(',', ' ,')
                words = words.replace("'", "' ")
                words = words.replace('"', '" ')
                words = words.split()
                words_ids = data_ut.words2ids(words)
                words_ids = [str(id) for id in words_ids]
                words_ids = ' '.join(words_ids)
                f1.write(words_ids + '#' + words_ids + '\n')

コード例 #2

ファイルを表示

ファイル: data_transformer.py プロジェクト: ky941122/Test-language-model

def train_in_ids_lm(train_data, vocab_path):
    if not os.path.exists(vocab_path):
        os.mkdir(vocab_path)
    vocab_file_in_words = os.path.join(vocab_path, "vocab_in_words")
    vocab_file_in_letters = os.path.join(vocab_path, "vocab_in_letters")
    vocab_file_out = os.path.join(vocab_path, "vocab_out")

    data_ut = DataUtility(vocab_file_in_words=vocab_file_in_words,
                          vocab_file_in_letters=vocab_file_in_letters,
                          vocab_file_out=vocab_file_out)

    with codecs.open(train_data, "r") as f:
        with codecs.open(os.path.join(vocab_path, "train_in_ids_lm"),
                         "w") as f1:
            for line in f.readlines():
                _, words = line.strip().split('\t')
                words = words.split('#')
                words_ids = data_ut.words2ids(words)
                words_ids = [str(id) for id in words_ids]
                words_ids = ' '.join(words_ids)
                f1.write(words_ids + '#' + words_ids + '\n')