Python Corpus.get_postag_set 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: Corpus

클래스/타입: Corpus

메소드/함수: get_postag_set

hotexamples.com에서의 예제들: 4

Python Corpus.get_postag_set - 4개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 Corpus.Corpus.get_postag_set에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

Corpus(30)

find(5)

get_postag_set(4)

read(3)

__init__(2)

verificarPlagio(2)

add_source_document(2)

add_target_document(2)

get_file_name(2)

buildCorpus(2)

emails_as_string(2)

dump(2)

preprocess(2)

get_data(2)

read_ner(2)

outputWords(1)

pickledumpwords(1)

output_rules(1)

ner(1)

outputPOStags(1)

nettoyer_texte(1)

most_frequent_word_by_year(1)

most_frequent_word_by_month(1)

most_frequent_word_by_day(1)

most_frequent_word(1)

most_frequent_trigrams(1)

most_frequent_content_words(1)

picklegetwords(1)

read_label(1)

prepapre_to_matrix(1)

search_ambiguous(1)

vectoriserDocCorpus(1)

url_to_dir(1)

train_word2vec(1)

tag_words_with_most_likely_parses(1)

spanishTags(1)

set_lista_texto(1)

save_json(1)

process(1)

save(1)

results(1)

resetSentStats(1)

read_word2vec(1)

read_prediction(1)

load_json(1)

read_data(1)

most_frequent_bigrams(1)

get_instances(1)

lemmatiserCorpus(1)

calculSimilarite(1)

예제 #1

파일 보기

파일: FeatureGeneratorDD.py 프로젝트: mariiakashpur/emocean

    def generate_feature_csv(self, feature_csv, pos_lexicon, neg_lexicon, postag_instances=None):
        """
         Generates a csv file with features extracted from instances according to data-driven DD model
        :param feature_csv:
        :param pos_lexicon:
        :param neg_lexicon:
        :param postag_instances:
        :return:
        """
        if postag_instances:
            corpus_postag_set = Corpus.get_postag_set(postag_instances) # return all tags in corpus in a list
        else:
            corpus_postag_set = Corpus.get_postag_set(self.instances) # return all tags in corpus in a list

        # feature file header: ID, text, pos_feature, neg_feature, percentages for all corpus tags, label
        with open(feature_csv, 'wb') as f:
            wr = csv.writer(f)
            id = 1
            wr.writerow(["ID", "text", "pos", "neg"]+corpus_postag_set+["label"])
            for inst in self.instances:
                inst_postags = [token.get_tag() for token in inst.get_tokens()]
                inst_postag_counter = Counter(inst_postags)
                postag_percent = []
                for tag in corpus_postag_set:
                    if tag in inst_postag_counter:
                        # percentage of words belonging to each POS in instance
                        postag_percent.append(inst_postag_counter[tag]/inst.get_length())
                    else:
                        postag_percent.append(0)
                # tokens_list = [token.get_text() for token in inst.get_tokens()]
                tokens_list = [token for token in inst.get_tokens()] # tokens as objects
                pos_neg_list = self.get_lexicon_features(tokens_list, pos_lexicon, neg_lexicon)
                # wr.writerow([id, inst.get_text(), pos_neg_list[0], pos_neg_list[1]]+postag_percent+[inst.get_label_gold()])
                wr.writerow(
                    [unicode(id).encode("utf-8"),
                     unicode(inst.get_text()).encode("utf-8"),
                     unicode(pos_neg_list[0]).encode("utf-8"),
                     unicode(pos_neg_list[1]).encode("utf-8")]
                    + postag_percent
                    + [unicode(inst.get_label_gold()).encode("utf-8")])
                id += 1
        return feature_csv, corpus_postag_set

예제 #2

파일 보기

파일: FeatureGeneratorMajority.py 프로젝트: mariiakashpur/emocean

    def generate_combined_features(self, feature_csv):
        feature_rows = pd.read_csv(feature_csv)
        # Create vectorizer for function to use
        vectorizer = CountVectorizer(binary=True, ngram_range=(1, 2))
        y = feature_rows["label"].values.astype(np.float32)

        X = sp.sparse.hstack(
            (vectorizer.fit_transform(feature_rows.text),
             feature_rows[['pos', 'neg'] +
                          Corpus.get_postag_set(self.instances)].values),
            format='csr')
        return X, y, vectorizer

예제 #3

파일 보기

파일: FeatureGeneratorMajority.py 프로젝트: mariiakashpur/emocean

    def generate_feature_csv(self,
                             feature_csv,
                             pos_lexicon,
                             neg_lexicon,
                             postag_instances=None):
        if postag_instances:
            corpus_postag_set = Corpus.get_postag_set(
                postag_instances)  # return all tags in corpus in a list
        else:
            corpus_postag_set = Corpus.get_postag_set(
                self.instances)  # return all tags in corpus in a list

        # ID, text, pos_feature, neg_feature, percentages for all corpus tags, label
        with open(feature_csv, 'wb') as f:
            # wr = csv.writer(f, quoting=csv.QUOTE_ALL)
            wr = csv.writer(f)
            id = 1
            wr.writerow(["ID", "text", "pos", "neg"] + corpus_postag_set +
                        ["label"])
            for inst in self.instances:
                inst_postags = [token.get_tag() for token in inst.get_tokens()]
                inst_postag_counter = Counter(inst_postags)
                postag_percent = []
                for tag in corpus_postag_set:
                    if tag in inst_postag_counter:
                        # percentage of words belonging to each POS in instance
                        postag_percent.append(inst_postag_counter[tag] /
                                              inst.get_length())
                    else:
                        postag_percent.append(0)
                pos_neg_list = self.get_lexicon_features(
                    inst.get_text(), pos_lexicon, neg_lexicon)
                wr.writerow(
                    [id, inst.get_text(), pos_neg_list[0], pos_neg_list[1]] +
                    postag_percent + [inst.get_label_gold()])
                id += 1
        return feature_csv, corpus_postag_set

예제 #4

파일 보기

파일: FeatureGeneratorDD.py 프로젝트: mariiakashpur/emocean

 def generate_combined_features(self, feature_csv):
     feature_rows = pd.read_csv(feature_csv) # pandas Data Frame object
     # Create vectorizer for function to use
     vectorizer = CountVectorizer(binary=True, ngram_range=(1, 2)) # CountVectorizer constructs BOW model based on word counts
     y = feature_rows["label"].values.astype(np.float32)
     # combine BOW model from Count Vectorizer with self-extracted features
     X = sp.sparse.hstack(
         (vectorizer.fit_transform(feature_rows.text), feature_rows[['pos', 'neg']+Corpus.get_postag_set(self.instances)].values),
         format='csr'
     )
     return X, y, vectorizer