Python Corpus.get_postag_set Exemples

Langage de programmation: Python

Espace de nommage/Pack: Corpus

Class/Type: Corpus

Méthode/Fonction: get_postag_set

Exemples au hotexamples.com: 4

Python Corpus.get_postag_set - 4 exemples trouvés. Ce sont les exemples réels les mieux notés de Corpus.Corpus.get_postag_set extraits de projets open source. Vous pouvez noter les exemples pour nous aider à en améliorer la qualité.

Méthodes fréquemment utilisées

Afficher Cacher

Corpus(30)

find(5)

get_postag_set(4)

read(3)

__init__(2)

verificarPlagio(2)

add_source_document(2)

add_target_document(2)

get_file_name(2)

buildCorpus(2)

emails_as_string(2)

dump(2)

preprocess(2)

get_data(2)

read_ner(2)

outputWords(1)

pickledumpwords(1)

output_rules(1)

ner(1)

outputPOStags(1)

nettoyer_texte(1)

most_frequent_word_by_year(1)

most_frequent_word_by_month(1)

most_frequent_word_by_day(1)

most_frequent_word(1)

most_frequent_trigrams(1)

most_frequent_content_words(1)

picklegetwords(1)

read_label(1)

prepapre_to_matrix(1)

search_ambiguous(1)

vectoriserDocCorpus(1)

url_to_dir(1)

train_word2vec(1)

tag_words_with_most_likely_parses(1)

spanishTags(1)

set_lista_texto(1)

save_json(1)

process(1)

save(1)

results(1)

resetSentStats(1)

read_word2vec(1)

read_prediction(1)

load_json(1)

read_data(1)

most_frequent_bigrams(1)

get_instances(1)

lemmatiserCorpus(1)

calculSimilarite(1)

Méthodes fréquemment utilisées

Corpus (30)

find (5)

get_postag_set (4)

read (3)

__init__ (2)

verificarPlagio (2)

add_source_document (2)

add_target_document (2)

get_file_name (2)

buildCorpus (2)

Méthodes fréquemment utilisées

emails_as_string (2)

dump (2)

preprocess (2)

get_data (2)

read_ner (2)

outputWords (1)

pickledumpwords (1)

output_rules (1)

ner (1)

outputPOStags (1)

nettoyer_texte (1)

most_frequent_word_by_year (1)

most_frequent_word_by_month (1)

most_frequent_word_by_day (1)

most_frequent_word (1)

most_frequent_trigrams (1)

most_frequent_content_words (1)

picklegetwords (1)

read_label (1)

prepapre_to_matrix (1)

Méthodes fréquemment utilisées

nettoyer_texte (1)

most_frequent_word_by_year (1)

most_frequent_word_by_month (1)

most_frequent_word_by_day (1)

most_frequent_word (1)

most_frequent_trigrams (1)

most_frequent_content_words (1)

picklegetwords (1)

read_label (1)

prepapre_to_matrix (1)

search_ambiguous (1)

vectoriserDocCorpus (1)

url_to_dir (1)

train_word2vec (1)

tag_words_with_most_likely_parses (1)

spanishTags (1)

set_lista_texto (1)

save_json (1)

process (1)

save (1)

results (1)

resetSentStats (1)

read_word2vec (1)

read_prediction (1)

load_json (1)

read_data (1)

most_frequent_bigrams (1)

get_instances (1)

lemmatiserCorpus (1)

calculSimilarite (1)

Méthodes fréquemment utilisées

search_ambiguous (1)

vectoriserDocCorpus (1)

url_to_dir (1)

train_word2vec (1)

tag_words_with_most_likely_parses (1)

spanishTags (1)

set_lista_texto (1)

save_json (1)

process (1)

save (1)

results (1)

resetSentStats (1)

read_word2vec (1)

read_prediction (1)

load_json (1)

read_data (1)

most_frequent_bigrams (1)

get_instances (1)

lemmatiserCorpus (1)

calculSimilarite (1)

download_collection (1)

create_test_file (1)

create_mallet_file (1)

create_data (1)

concorde (1)

calculate_precision (1)

build_vocabulary (1)

freq_stats_corpus1 (1)

assignGlobalSentenceNums (1)

append (1)

add_document (1)

add_doc (1)

addToken (1)

addMention (1)

addDocPointer (1)

findsorted (1)

freq_stats_corpus2 (1)

is_stop_words (1)

get_df_for (1)

get_representative_for (1)

Exemple #1

0

Afficher le fichier

Fichier : FeatureGeneratorDD.py Projet : mariiakashpur/emocean

def generate_feature_csv(self, feature_csv, pos_lexicon, neg_lexicon, postag_instances=None): """ Generates a csv file with features extracted from instances according to data-driven DD model :param feature_csv: :param pos_lexicon: :param neg_lexicon: :param postag_instances: :return: """ if postag_instances: corpus_postag_set = Corpus.get_postag_set(postag_instances) # return all tags in corpus in a list else: corpus_postag_set = Corpus.get_postag_set(self.instances) # return all tags in corpus in a list # feature file header: ID, text, pos_feature, neg_feature, percentages for all corpus tags, label with open(feature_csv, 'wb') as f: wr = csv.writer(f) id = 1 wr.writerow(["ID", "text", "pos", "neg"]+corpus_postag_set+["label"]) for inst in self.instances: inst_postags = [token.get_tag() for token in inst.get_tokens()] inst_postag_counter = Counter(inst_postags) postag_percent = [] for tag in corpus_postag_set: if tag in inst_postag_counter: # percentage of words belonging to each POS in instance postag_percent.append(inst_postag_counter[tag]/inst.get_length()) else: postag_percent.append(0) # tokens_list = [token.get_text() for token in inst.get_tokens()] tokens_list = [token for token in inst.get_tokens()] # tokens as objects pos_neg_list = self.get_lexicon_features(tokens_list, pos_lexicon, neg_lexicon) # wr.writerow([id, inst.get_text(), pos_neg_list[0], pos_neg_list[1]]+postag_percent+[inst.get_label_gold()]) wr.writerow( [unicode(id).encode("utf-8"), unicode(inst.get_text()).encode("utf-8"), unicode(pos_neg_list[0]).encode("utf-8"), unicode(pos_neg_list[1]).encode("utf-8")] + postag_percent + [unicode(inst.get_label_gold()).encode("utf-8")]) id += 1 return feature_csv, corpus_postag_set

Exemple #2

0

Afficher le fichier

Fichier : FeatureGeneratorMajority.py Projet : mariiakashpur/emocean

def generate_combined_features(self, feature_csv): feature_rows = pd.read_csv(feature_csv) # Create vectorizer for function to use vectorizer = CountVectorizer(binary=True, ngram_range=(1, 2)) y = feature_rows["label"].values.astype(np.float32) X = sp.sparse.hstack( (vectorizer.fit_transform(feature_rows.text), feature_rows[['pos', 'neg'] + Corpus.get_postag_set(self.instances)].values), format='csr') return X, y, vectorizer

Exemple #3

0

Afficher le fichier

Fichier : FeatureGeneratorMajority.py Projet : mariiakashpur/emocean

def generate_feature_csv(self, feature_csv, pos_lexicon, neg_lexicon, postag_instances=None): if postag_instances: corpus_postag_set = Corpus.get_postag_set( postag_instances) # return all tags in corpus in a list else: corpus_postag_set = Corpus.get_postag_set( self.instances) # return all tags in corpus in a list # ID, text, pos_feature, neg_feature, percentages for all corpus tags, label with open(feature_csv, 'wb') as f: # wr = csv.writer(f, quoting=csv.QUOTE_ALL) wr = csv.writer(f) id = 1 wr.writerow(["ID", "text", "pos", "neg"] + corpus_postag_set + ["label"]) for inst in self.instances: inst_postags = [token.get_tag() for token in inst.get_tokens()] inst_postag_counter = Counter(inst_postags) postag_percent = [] for tag in corpus_postag_set: if tag in inst_postag_counter: # percentage of words belonging to each POS in instance postag_percent.append(inst_postag_counter[tag] / inst.get_length()) else: postag_percent.append(0) pos_neg_list = self.get_lexicon_features( inst.get_text(), pos_lexicon, neg_lexicon) wr.writerow( [id, inst.get_text(), pos_neg_list[0], pos_neg_list[1]] + postag_percent + [inst.get_label_gold()]) id += 1 return feature_csv, corpus_postag_set

Exemple #4

0

Afficher le fichier

Fichier : FeatureGeneratorDD.py Projet : mariiakashpur/emocean

def generate_combined_features(self, feature_csv): feature_rows = pd.read_csv(feature_csv) # pandas Data Frame object # Create vectorizer for function to use vectorizer = CountVectorizer(binary=True, ngram_range=(1, 2)) # CountVectorizer constructs BOW model based on word counts y = feature_rows["label"].values.astype(np.float32) # combine BOW model from Count Vectorizer with self-extracted features X = sp.sparse.hstack( (vectorizer.fit_transform(feature_rows.text), feature_rows[['pos', 'neg']+Corpus.get_postag_set(self.instances)].values), format='csr' ) return X, y, vectorizer