Python WordPunctTokenizer.replace Exemples

Langage de programmation: Python

Espace de nommage/Pack: nltk.tokenize

Méthode/Fonction: replace

Exemples au hotexamples.com: 1

Python WordPunctTokenizer.replace - 1 exemples trouvés. Ce sont les exemples réels les mieux notés de nltk.tokenize.WordPunctTokenizer.replace extraits de projets open source. Vous pouvez noter les exemples pour nous aider à en améliorer la qualité.

Méthodes fréquemment utilisées

Afficher Cacher

WordPunctTokenizer(30)

tokenize(30)

span_tokenize(5)

lower(2)

append(1)

index(1)

replace(1)

strip(1)

Méthodes fréquemment utilisées

WordPunctTokenizer (30)

tokenize (30)

span_tokenize (5)

lower (2)

append (1)

index (1)

replace (1)

strip (1)

Exemple #1

0

Afficher le fichier

Fichier : Text Classification Experimentation.py Projet : maxflood/Text-Classification-of-Patient-Safety-Incident-Reports

# Remove all single character words document = re.sub(r'\s[a-zA-z]{1}\s', ' ', document) # Substituting multiple spaces with single space document = re.sub(r'\s+', ' ', document, flags=re.I) # Tokenizing document = WordPunctTokenizer().tokenize(document) # Remove Stopwords document = [word for word in document if word not in stopset] # Stemming document = [SnowballStemmer('english').stem(t) for t in document] doc_length.append(len(document)) document = ' '.join(document) # Remove all single characters that could have been created due to tokenization document = re.sub(r'\s[a-zA-z]{1}\s', ' ', document) # Editing some words of intrest document = document.replace('bp', 'bloodpressure') document = document.replace('blood pressure', 'bloodpressure') document = document.replace('ordered', 'order') # Substituting multiple spaces with single space document = re.sub(r'\s+', ' ', document, flags=re.I) X.append(document) df['incident'] = X # Most common features after stemming pre-processing tokens = df.incident.str.cat(sep=' ') tokens = WordPunctTokenizer().tokenize( tokens) #shows there are 1,297,146 words in this corpus # shows how many unique words there are unique_words = nltk.Fr___Dist(tokens) # shows 21,116 unique words top_words = unique_words.most_common(50) # ploting the most common words