Python Corpus.create_data 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: Corpus

클래스/타입: Corpus

메소드/함수: create_data

hotexamples.com에서의 예제들: 1

Python Corpus.create_data - 1개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 Corpus.Corpus.create_data에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

Corpus(30)

find(5)

get_postag_set(4)

read(3)

__init__(2)

verificarPlagio(2)

add_source_document(2)

add_target_document(2)

get_file_name(2)

buildCorpus(2)

emails_as_string(2)

dump(2)

preprocess(2)

get_data(2)

read_ner(2)

outputWords(1)

pickledumpwords(1)

output_rules(1)

ner(1)

outputPOStags(1)

nettoyer_texte(1)

most_frequent_word_by_year(1)

most_frequent_word_by_month(1)

most_frequent_word_by_day(1)

most_frequent_word(1)

most_frequent_trigrams(1)

most_frequent_content_words(1)

picklegetwords(1)

read_label(1)

prepapre_to_matrix(1)

search_ambiguous(1)

vectoriserDocCorpus(1)

url_to_dir(1)

train_word2vec(1)

tag_words_with_most_likely_parses(1)

spanishTags(1)

set_lista_texto(1)

save_json(1)

process(1)

save(1)

results(1)

resetSentStats(1)

read_word2vec(1)

read_prediction(1)

load_json(1)

read_data(1)

most_frequent_bigrams(1)

get_instances(1)

lemmatiserCorpus(1)

calculSimilarite(1)

예제 #1

파일 보기

파일: Experiment.py 프로젝트: Aria-Kumar/EvolvingSocialNetwork6998

class Experiment:

    # an experiment class
    def __init__(self, verbose=False):
        print('Loading corpus ...')
        self.corpus = Corpus(verbose=verbose)
        self.corpus.create_data()
        self.X_seqs, self.y_seqs = self.corpus.X_seqs, self.corpus.y_seqs
        self.seq_count = len(self.X_seqs)
        for seq_idx in range(self.seq_count):
            assert (len(self.X_seqs[seq_idx]) == len(self.y_seqs[seq_idx]))
        self.feature_dim = len(self.X_seqs[0][0])

    # cross validation
    def cv(self, fold):
        # array of lenght 10
        fold_inds = self.create_train_test_split(fold)
        results = []
        for fold_idx in range(fold):
            print('Cross validating fold %d.' % fold_idx)
            fold_ind = fold_inds[fold_idx]
            result = self.train_test(fold_ind)
            results.append(result)
        return results

    # create cross validation training and testing index st
    def create_train_test_split(self, fold):

        # each data point is coordinated by its seq_idx and sent_idx
        seq_sent_agg = []
        for seq_idx in range(self.seq_count):
            for sent_idx in range(len(self.y_seqs[seq_idx])):
                if self.y_seqs[seq_idx][sent_idx] is not None:
                    seq_sent_agg.append((seq_idx, sent_idx))

        # shuffle to create folds randomly
        random.shuffle(seq_sent_agg)
        cutoffs = [
            int(float(len(seq_sent_agg)) / fold * fold_idx)
            for fold_idx in range(fold)
        ]
        cutoffs.append(len(seq_sent_agg))
        fold_inds = [
            seq_sent_agg[cutoffs[fold_idx]:cutoffs[fold_idx + 1]]
            for fold_idx in range(fold)
        ]
        return fold_inds

    def train_test(self, fold_ind):
        # get the training data that is masked (testing data taken out)
        train_y_seqs = mask_y_seqs(self.y_seqs, fold_ind)
        results = []
        for _ in range(num_repeats):
            self.clf = Seqs(self.feature_dim, order=2)
            self.clf.fit(self.X_seqs, train_y_seqs)
            pred_y_seqs = self.clf.predict(self.X_seqs, train_y_seqs)
            y_test, y_pred = [
                extract_labels(y, fold_ind)
                for y in [self.y_seqs, pred_y_seqs]
            ]
            result = ({
                'macro_f1':
                f1_score(y_test, y_pred, average='macro'),
                'weighted_f1':
                f1_score(y_test, y_pred, average='weighted'),
                'accuracy':
                accuracy_score(y_test, y_pred)
            })
            # print(classification_report(y_test, y_pred))
            results.append(result)
        # print(average_dictionary(results, sd=True))
        return average_dictionary(results)

    def create_unstructured_data(self):
        X, y = [], []
        for seq_idx in range(self.seq_count):
            for sent_idx in range(len(self.X_seqs[seq_idx])):
                if self.y_seqs[seq_idx][sent_idx] is not None:
                    X.append(self.X_seqs[seq_idx][sent_idx])
                    y.append(self.y_seqs[seq_idx][sent_idx])
        return X, y

    # ==================== cross validation by sequence ====================
    def _cv(self, fold):
        results_agg = []
        for fold_idx in range(fold):
            print('cross validation for %d fold.' % (fold_idx + 1))
            results = self.experiment_once()
            results_agg += results
        return results_agg

    def _experiment_once(self):
        self._create_train_test_split()
        results = []
        num_repeats = 10
        for _ in range(num_repeats):
            result = self._train_test()
            results.append(result)
        return results

    def _create_train_test_split(self):
        shuffle_order = [idx for idx in range(len(self.X_seqs))]
        random.shuffle(shuffle_order)
        self.train_size = int(0.9 * self.seq_count)
        self.train_ind, self.test_ind = shuffle_order[:self.
                                                      train_size], shuffle_order[
                                                          self.train_size:]
        self.X_seqs_train, self.y_seqs_train = ([
            self.X_seqs[idx] for idx in self.train_ind
        ], [self.y_seqs[idx] for idx in self.train_ind])
        self.X_seqs_test, self.y_seqs_test = ([
            self.X_seqs[idx] for idx in self.test_ind
        ], [self.y_seqs[idx] for idx in self.test_ind])

    def _train_test(self):
        self.clf = Seqs(self.feature_dim, order=2)
        self.clf.fit(self.X_seqs_train, self.y_seqs_train)
        return self.clf.evaluate(self.X_seqs_test, self.y_seqs_test)