Python MarisaTfidfVectorizer 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: robinho.marisa_vectorizers

hotexamples.com에서의 예제들: 4

Python MarisaTfidfVectorizer - 4개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 robinho.marisa_vectorizers.MarisaTfidfVectorizer에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

MarisaTfidfVectorizer(4)

자주 사용되는 메소드들

MarisaTfidfVectorizer (4)

예제 #1

파일 보기

    def classifier(self):
        title_transformer = Pipeline([
            ('selector1',
             FunctionTransformer(self.extract_title, validate=False)),
            ('tfidf1',
             MarisaTfidfVectorizer(strip_accents='ascii', ngram_range=(2, 2)))
        ])

        content_transformer = Pipeline([
            ('selector2',
             FunctionTransformer(self.extract_content, validate=False)),
            ('tfidf2',
             MarisaTfidfVectorizer(strip_accents='ascii', ngram_range=(2, 2)))
        ])

        return Pipeline([
            ('features',
             FeatureUnion(
                 transformer_list=[('title', title_transformer),
                                   ('content', content_transformer)],
                 transformer_weights={
                     'title': 0.5,
                     'content': 1.0,
                 },
             )),
            ('sampling',
             RandomUnderSampler(random_state=BaseClassifier.RANDOM_SEED)),
            ('clf',
             SGDClassifier(max_iter=1000,
                           loss='log',
                           tol=1e-3,
                           random_state=BaseClassifier.RANDOM_SEED))
        ])

예제 #2

파일 보기

파일: click_bait.py 프로젝트: jaypasz/fake-news-detector

 def classifier(self):
     return Pipeline([
         ('selector', FunctionTransformer(self.extract_title,
                                          validate=False)),
         ('tfidf',
          MarisaTfidfVectorizer(strip_accents='ascii', ngram_range=(1, 3))),
         ('sampling',
          RandomUnderSampler(random_state=BaseClassifier.RANDOM_SEED)),
         ('clf', MultinomialNB(fit_prior=False)),
     ])

예제 #3

파일 보기

    def classifier(self):
        all_stopwords = stopwords.words('english') + \
            stopwords.words('portuguese') + \
            stopwords.words('spanish')

        return MarisaTfidfVectorizer(strip_accents='ascii',
                                     ngram_range=(1, 3),
                                     max_df=0.1,
                                     min_df=5,
                                     use_idf=True,
                                     lowercase=True,
                                     stop_words=all_stopwords)

예제 #4

파일 보기

 def classifier(self):
     return Pipeline([
         ('preprocess',
          FunctionTransformer(self.join_text_and_content, validate=False)),
         ('tfidf',
          MarisaTfidfVectorizer(strip_accents='ascii',
                                ngram_range=(1, 3),
                                max_df=0.5,
                                min_df=5,
                                use_idf=True)),
         ('sampling',
          RandomUnderSampler(random_state=BaseClassifier.RANDOM_SEED)),
         ('clf', MultinomialNB(fit_prior=False)),
     ])