Python Document.generate_gold_mention_pairsの例

プログラミング言語: Python

名前空間/パッケージ名: Document

クラス/型: Document

メソッド/関数: generate_gold_mention_pairs

hotexamples.comのコード掲載数: 1

Python Document.generate_gold_mention_pairs - 1件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのDocument.Document.generate_gold_mention_pairsの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

Document(30)

all_sentences(11)

__str__(5)

__init__(4)

append(3)

addMention(2)

numOfWords(2)

generateWhole(2)

factory(2)

edit(2)

addMeSH(1)

get_candidates(1)

generate_candidate_anaphor_data(1)

generate_candidate_mention_pairs(1)

generate_document(1)

generate_gold_anaphor_data(1)

generate_gold_mention_pairs(1)

get(1)

getID(1)

getIdentifiant(1)

getUID(1)

get_article(1)

get_clean(1)

from_json(1)

get_cls_byname(1)

get_cluster_data(1)

get_stems(1)

name(1)

__dict__(1)

save_collection(1)

set_body_length(1)

set_url(1)

termFrequency(1)

to_json(1)

write2DB(1)

_edit(1)

from_data_frame(1)

addLien(1)

build_n_grams(1)

addRef(1)

addTexte(1)

addTitre(1)

add_anchor_text(1)

add_body_hits(1)

add_sentence(1)

allDocumentsID(1)

addDocument(1)

addAuteur(1)

availableReplacements(1)

calculate_vectors(1)

コード例 #1

ファイルを表示

def generate_train_data(train_data_file, word_vectors_file, N=300000, N_dev=8000):
    # load word vectors and PoS one-hot vectors.
    embed_map = EmbedMap(word_vectors_file)

    # load training data file.
    print('loading training data from %s' % train_data_file)
    train_reader = jsonlines.open(train_data_file)

    # preprocess the training data and generate training instances.
    train_data = []
    for doc_data in train_reader.iter():
        doc = Document(doc_data, embed_map)
        train_data += doc.generate_gold_mention_pairs()

    print("---> total number of training pairs: %s" % len(train_data))

    # shuffle the training data and convert to seperate numpy arrays.
    print('---> shuffle and devide into %s train-pairs and %s dev-pairs.' % (N, N_dev))
    shuffle(train_data)
    assert (N + N_dev) < len(train_data), 'not enough training data to have train/dev split: %s/%s' % (N, N_dev)

    data_X, data_y = convert_train_data(train_data)
    train_X, train_y = [cn[:N] for cn in data_X], data_y[:N]
    dev_X, dev_y = [cn[N:N + N_dev] for cn in data_X], data_y[N:N + N_dev]

    return {'train_X': train_X, 'train_y': train_y,
            'dev_X': dev_X, 'dev_y': dev_y}