Python get_part_of_speech 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: part_of_speech

메소드/함수: get_part_of_speech

hotexamples.com에서의 예제들: 6

Python get_part_of_speech - 6개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 part_of_speech.get_part_of_speech에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

예제 #1

파일 보기

def lemmatizer(report):
    lemmatizer = nltk.WordNetLemmatizer()
    lemmatized = [
        lemmatizer.lemmatize(token, get_part_of_speech(token))
        for token in report
    ]
    return lemmatized

예제 #2

파일 보기

파일: word_count.py 프로젝트: chrishaining/covid-19-word-clouds

def count_words(text):
    cleaned = re.sub('\W+', ' ', text).lower()
    tokenized = word_tokenize(cleaned)

    stop_words = stopwords.words('english')
    filtered = [word for word in tokenized if word not in stop_words]

    normalizer = WordNetLemmatizer()
    normalized = [
        normalizer.lemmatize(token, get_part_of_speech(token))
        for token in filtered
    ]

    bag_of_looking_glass_words = Counter(normalized)
    return bag_of_looking_glass_words

예제 #3

파일 보기

파일: nlp_basics.py 프로젝트: maosa/codecademy

from nltk.stem import PorterStemmer
from nltk.stem import WordNetLemmatizer
###### grabbing a part of speech function:
from part_of_speech import get_part_of_speech

text = "So many squids are jumping out of suitcases these days that you can barely go anywhere without seeing one burst forth from a tightly packed valise. I went to the dentist the other day, and sure enough I saw an angry one jump out of my dentist's bag within minutes of arriving. She hardly even noticed."

cleaned = re.sub('\W+', ' ', text)
tokenized = word_tokenize(cleaned)

stemmer = PorterStemmer()
stemmed = [stemmer.stem(token) for token in tokenized]

lemmatizer = WordNetLemmatizer()
lemmatized = [
    lemmatizer.lemmatize(token, get_part_of_speech(token))
    for token in tokenized
]

print("Stemmed text:")
print(stemmed)
print("\nLemmatized text:")
print(lemmatized)

#####
print('\n##################################################\n')
#####
"""
It may be helpful to know how the words relate to each other and the underlying syntax (grammar). Parsing is a stage of NLP concerned with segmenting text based on syntax.

Part-of-speech tagging (POS tagging) identifies parts of speech (verbs, nouns, adjectives, etc.). NLTK can do it faster (and maybe more accurately) than your grammar teacher!

예제 #4

파일 보기

파일: nlp.py 프로젝트: veldakarimi/Natural_Language_Processing

# regex for removing punctuation!
import re
# nltk preprocessing magic
import nltk
from nltk.tokenize import word_tokenize
from nltk.stem import PorterStemmer
from nltk.stem import WordNetLemmatizer
# grabbing a part of speech function:
from part_of_speech import get_part_of_speech

text = "So many squids are jumping out of suitcases these days that you can barely go anywhere without seeing one burst forth from a tightly packed valise. I went to the dentist the other day, and sure enough I saw an angry one jump out of my dentist's bag within minutes of arriving. She hardly even noticed."

cleaned = re.sub('\W+', ' ', text)
tokenized = word_tokenize(cleaned)

stemmer = PorterStemmer()
stemmed = [stemmer.stem(token) for token in tokenized]

lemmatizer = WordNetLemmatizer()
lemmatized = [lemmatizer.lemmatize(token, get_part_of_speech(token))
for token in tokenized]

print("Stemmed text:")
print(stemmed)
print("\nLemmatized text:")
print(lemmatized)

예제 #5

파일 보기

파일: pos.py 프로젝트: akhilnair111/100DaysOfCode

from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer
from part_of_speech import get_part_of_speech

lemmatizer = WordNetLemmatizer()

populated_island = 'Indonesia was founded in 1945. It contains the most populated island in the world, Java, with over 140 million people.'

tokenized_string = word_tokenize(populated_island)

lemmatized_pos = [lemmatizer.lemmatize(token, get_part_of_speech(token)) for token in tokenized_string]

try:
  print(f'The lemmatized words are: {lemmatized_pos}')
except:
  print('Expected a variable called `lemmatized_pos`')

예제 #6

파일 보기

파일: word_count.py 프로젝트: chrishaining/python_natural_language_processing

# importing regex and nltk
import re, nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer
# importing Counter to get word counts for bag of words
from collections import Counter

# import the text
text = open("iliad.txt", encoding='utf-8').read().lower()

# importing part-of-speech function for lemmatization
from part_of_speech import get_part_of_speech

cleaned = re.sub('\W+', ' ', text).lower()
tokenized = word_tokenize(cleaned)

stop_words = stopwords.words('english')
filtered = [word for word in tokenized if word not in stop_words]

normalizer = WordNetLemmatizer()
normalized = [normalizer.lemmatize(token, get_part_of_speech(token)) for token in filtered]

# Define bag_of_looking_glass_words & print:
bag_of_looking_glass_words = Counter(normalized)
# print(bag_of_looking_glass_words)
# print(type(bag_of_looking_glass_words))
print(bag_of_looking_glass_words)