Python Corpus.get_data 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: Corpus

클래스/타입: Corpus

메소드/함수: get_data

hotexamples.com에서의 예제들: 2

Python Corpus.get_data - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 Corpus.Corpus.get_data에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

Corpus(30)

find(5)

get_postag_set(4)

read(3)

__init__(2)

verificarPlagio(2)

add_source_document(2)

add_target_document(2)

get_file_name(2)

buildCorpus(2)

emails_as_string(2)

dump(2)

preprocess(2)

get_data(2)

read_ner(2)

outputWords(1)

pickledumpwords(1)

output_rules(1)

ner(1)

outputPOStags(1)

nettoyer_texte(1)

most_frequent_word_by_year(1)

most_frequent_word_by_month(1)

most_frequent_word_by_day(1)

most_frequent_word(1)

most_frequent_trigrams(1)

most_frequent_content_words(1)

picklegetwords(1)

read_label(1)

prepapre_to_matrix(1)

search_ambiguous(1)

vectoriserDocCorpus(1)

url_to_dir(1)

train_word2vec(1)

tag_words_with_most_likely_parses(1)

spanishTags(1)

set_lista_texto(1)

save_json(1)

process(1)

save(1)

results(1)

resetSentStats(1)

read_word2vec(1)

read_prediction(1)

load_json(1)

read_data(1)

most_frequent_bigrams(1)

get_instances(1)

lemmatiserCorpus(1)

calculSimilarite(1)

예제 #1

파일 보기

import os
#from sklearn.metrics import precision_recall_fscore_support, classification_report
from seqeval.metrics import classification_report
from seqeval.metrics.v1 import precision_recall_fscore_support as precision_recall_fscore_support
from seqeval.scheme import IOBES
import Bert
import Cross_validation
from Corpus import Corpus,words2IOBES
from Model import BertRecNER
from Parameters import global_param
from Train import train_save, prediction
from itertools import chain

head =global_param.model_param['head']
corpus=Corpus('data/PGxCorpus','pgx',head=head)
X_app,Y_app, Tokens= corpus.get_data()
print(len(Y_app))

###### param sup #######
do_valid=True
fold_num=10
do_cross_valid=True

nb_epoch =global_param.traning_param['num_ep'] # 5
lr= global_param.traning_param['lr'] # 3e-5
bert_type= global_param.model_param['bert'] # 'bert'
F_type= global_param.traning_param['F_type']  # 'macro'
exp_name= global_param.traning_param['exp_tag']


machine_name = os.uname()[1]

예제 #2

파일 보기

def Corpus_Loading(path, name='snpphena'):
    """
    This function load data-set
    :param path: the path of data-set
    :param name: the name of data set
    :return: list of input features and their labels
    """

    bert = global_param.model_param['bert']
    finetuning = '' if not global_param.model_param[
        'fine_tuning'] else 'fine_tuning'

    Features_dir = "./Features"
    if not os.path.exists(Features_dir):
        os.mkdir(Features_dir)

    corpus = Corpus(path, name)

    Features_corpus_dir = "./Features/" + name
    if not os.path.exists(Features_corpus_dir):
        os.mkdir(Features_corpus_dir)

    tag = path.replace('/', '_') + '_' + finetuning + '_' + bert
    if not os.path.exists(Features_corpus_dir + "/" + tag):
        os.mkdir(Features_corpus_dir + "/" + tag)

        dataset_X, dataset_Y_Name = corpus.get_data()

        dataset_XF, dataset_Y = [], []

        pbar = tqdm(total=len(dataset_Y), desc="Features Computing : ")
        for X in dataset_X:
            sentence, entity1, entity2 = X[0], X[1], X[2]

            #FX = Sentence_Features(sentence), entity_featurs(entity1, entity2, sentence)
            ind1, ind2 = indx_entity(sentence,
                                     entity1), indx_entity(sentence, entity2)

            sentence_ = sentence
            if (global_param.corpus_param['annonimitation']):
                masks = global_param.corpus_param['entitys_masks']
                sentence_ = sentence.replace(entity1, masks[0])
                sentence_ = sentence_.replace(entity2, masks[1])

            if (global_param.corpus_param['encapculate']):
                items = global_param.corpus_param['encapsulate_items']
                sentence_ = sentence.replace(entity1,
                                             items[0] + entity1 + items[1])
                sentence_ = sentence_.replace(entity2,
                                              items[2] + entity2 + items[3])
                print(sentence_)

            if (finetuning == ''):
                FX = Sentence_Features(sentence_,
                                       remove_e=False,
                                       inde1=ind1,
                                       inde2=ind2), corpus_type(name)
            else:
                FX = get_bert_inputs(sentence_)  #,type_corpora(name)

            dataset_XF.append(FX)

            pbar.update(1)

        pbar.close()

        Association_type = corpus.Association_type
        for e in dataset_Y_Name:
            dataset_Y.append(Association_type[string_normaliz(e)])

        Save_Featurs(dataset_XF, dataset_Y, Features_corpus_dir + "/" + tag)

    else:

        dataset_XF, dataset_Y = Load_Featurs(Features_corpus_dir + "/" + tag)

    Nb_class = corpus.nb_association
    print("Corpus {} loaded ".format(name))
    print(" NB Class : {} \n NB Relation : {}".format(Nb_class,
                                                      len(dataset_Y)))
    print(" class size ")

    counter = collections.Counter(dataset_Y)
    for i in range(Nb_class):
        print("       C{} [ {} ] ".format(i, counter[i]))

    return dataset_XF, dataset_Y, Nb_class