Python stem_and_lemmatizeの例

プログラミング言語: Python

名前空間/パッケージ名: my_syst.preprocessing.parse_xml

メソッド/関数: stem_and_lemmatize

hotexamples.comのコード掲載数: 4

Python stem_and_lemmatize - 4件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのmy_syst.preprocessing.parse_xml.stem_and_lemmatizeの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

コード例 #1

ファイルを表示

ファイル: FeedbackProcessing.py プロジェクト: rjoganah/Dynamic_IR

    def collect_feedback_words(self):
        self.words_to_add = []
        self.NEList = []
        id_topic = self.id_topic
        if id_topic in self.feedbacks:
            for feedback in self.feedbacks[id_topic]:
                if(feedback[1] not in self.rel_docs):
                    self.rel_docs.append(feedback[1])
                words_topic_name = feedback[2]
                passage_text = feedback[3]
                try:
                    tokens = nltk.word_tokenize(' '.join(diversification.NErecognition(passage_text)))
                    tokens_topic_name = nltk.word_tokenize(words_topic_name)
                    self.words_to_add += tokens_topic_name
                    NEList = list(set(tokens))
                    print 'Nelist',NEList
                    print 'Topics title',tokens_topic_name

#                     if(self.domain_name != 'local politics'):
                    if(self.domain_name):
                        NEList = [pxml.stem_and_lemmatize(word) for word in NEList if pxml.lemmatize(word.lower()) not in stopwords.words('english')]
                        tokens_topic_name = [pxml.stem_and_lemmatize(word) for word in tokens_topic_name if pxml.lemmatize(word.lower()) not in stopwords.words('english')]
                except UnicodeError:
                    NEList = []  
                self.NEList += NEList
            return list(set(self.NEList)), list(set(self.words_to_add))
        return [], []

コード例 #2

ファイルを表示

ファイル: FeedbackProcessing.py プロジェクト: rjoganah/Dynamic_IR

 def process_words_feedback(self, words_to_add):
     list_words_to_add = []
     for words in words_to_add:
         list_words_to_add += nltk.word_tokenize(words.lower())
     list_words_to_add = list(set(list_words_to_add))
     if(self.domain_name):
         list_words_to_add = [pxml.stem_and_lemmatize(word) for word in list_words_to_add]
     return list_words_to_add

コード例 #3

ファイルを表示

ファイル: query.py プロジェクト: rjoganah/Dynamic_IR

 def process_query(self,query):
     
     self.domain_name = self.map_name_domaine[self.dict_query_domain[query]]
     query = re.sub(r'[^\w]', ' ', query)
     query = nltk.word_tokenize(query)
     if(self.domain_name):
         query = [pxml.stem_and_lemmatize(word) for word in query]
     query = ' '.join(query)
     self.raw_query = query
     self.query = query

コード例 #4

ファイルを表示

ファイル: query.py プロジェクト: rjoganah/Dynamic_IR

 def format_query(self,query):
     query = re.sub(r'[^\w]', ' ', query)
     query = nltk.word_tokenize(query.lower())
     query = [pxml.stem_and_lemmatize(word) for word in query]
     return query