Python Tokenizer.dumpの例

プログラミング言語: Python

名前空間/パッケージ名: tok

クラス/型: Tokenizer

メソッド/関数: dump

hotexamples.comのコード掲載数: 1

Python Tokenizer.dump - 1件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのtok.Tokenizer.dumpの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

Tokenizer(5)

tokenize(2)

tokenize_html(2)

build_vocab(1)

drop(1)

dump(1)

get(1)

get_number(1)

get_number_array(1)

load(1)

tokenize_gen(1)

tokenize_gen_alpha_digit(1)

コード例 #1

ファイルを表示

ファイル: build_vocab.py プロジェクト: pcuenca/VisualRelationships

    'nlvr2',
    'spotdiff',
    'adobe',
]

ds_root = "../dataset/"
for ds_name in DATASETS:
    print("Processing dataset %s" % ds_name)

    dataset = []
    for split_name in ['train', 'valid']:
        dataset.extend(
            json.load(
                open(os.path.join(ds_root, ds_name, split_name + ".json"))))
        print("Finish Loading split %s" % split_name)
    print("Number of data is %d." % len(dataset))
    sents = sum(map(lambda x: x["sents"], dataset), [])
    print("Number of sents is %d." % len(sents))

    tok = Tokenizer()
    tok.build_vocab(sents, min_occur=3)
    tok.dump(os.path.join(ds_root, ds_name, "vocab.txt"))

    wordXnum = list(tok.occur.items())
    wordXnum = sorted(wordXnum, key=lambda x: x[1], reverse=True)
    N = 50
    print("Top %d Words:" % N)
    for word, num in wordXnum[:N]:
        print("%s: %d" % (word, num))
    print()