Python StopFilter Examples

Programming Language: Python

Namespace/Package Name: org.apache.lucene.analysis

Class/Type: StopFilter

Examples at hotexamples.com: 9

Python StopFilter - 9 examples found. These are the top rated real world Python examples of org.apache.lucene.analysis.StopFilter extracted from open source projects. You can rate examples to help us improve the quality of examples.

Frequently Used Methods

Show Hide

StopFilter(5)

makeStopSet(4)

Frequently Used Methods

StopFilter (5)

makeStopSet (4)

Example #1

Show file

File: pylucene_search.py Project: michaelmoju/nlu_IR

    def createComponents(self, fieldName):
        source = StandardTokenizer()
        filter1 = LowerCaseFilter(source)
        filter1 = PorterStemFilter(filter1)
        filter1 = StopFilter(filter1, EnglishAnalyzer.ENGLISH_STOP_WORDS_SET)

        return self.TokenStreamComponents(source, filter1)

Example #2

Show file

	def createComponents(self, fieldName):
		source = StandardTokenizer()
		stream = LowerCaseFilter(source)
		stream = StopFilter(stream, PortugueseAnalyzer.getDefaultStopSet())
		stream = PortugueseLightStemFilter(stream)

		return self.TokenStreamComponents(source, stream)

Example #3

Show file

    def testStopWords(self):

        try:
            result = StandardTokenizer()
            result.setReader(self.reader)
            result = StopFilter(result, self.stop_set)
        except Exception, e:
            self.fail(str(e))

Example #4

Show file

File: my_python_english_analyzer.py Project: rbouadjenek/YouTaQA

 def createComponents(self, fieldName):
     source = StandardTokenizer()
     result = EnglishPossessiveFilter(source)
     result = LowerCaseFilter(result)
     result = DiacriticFilter(result)
     result = StopFilter(result, self.stopwords)
     if self.stemExclusionSet.isEmpty() is False:
         result = SetKeywordMarkerFilter(result, self.stemExclusionSet)
     result = PorterStemFilter(result)
     return Analyzer.TokenStreamComponents(source, result)

Example #5

Show file

    def testStopList(self):

        stopWords = ["good", "test", "analyzer"]
        stopWordsSet = StopFilter.makeStopSet(stopWords)

        newStop = StopAnalyzer(stopWordsSet)
        reader = StringReader("This is a good test of the english stop analyzer")
        stream = newStop.tokenStream("test", reader)
        self.assert_(stream is not None)
        stream.reset()

        termAtt = stream.getAttribute(CharTermAttribute.class_)

        while stream.incrementToken():
            text = termAtt.toString()
            self.assert_(text not in stopWordsSet)

Example #6

Show file

    def testStopListPositions(self):

        stopWords = ["good", "test", "analyzer"]
        stopWordsSet = StopFilter.makeStopSet(stopWords)

        newStop = StopAnalyzer(stopWordsSet)
        reader = StringReader("This is a good test of the english stop analyzer with positions")
        expectedIncr = [ 1,   1, 1,          3, 1,  1,      1,            2,   1]
        stream = newStop.tokenStream("test", reader)
        self.assert_(stream is not None)
        stream.reset()

        i = 0
        termAtt = stream.getAttribute(CharTermAttribute.class_)
        posIncrAtt = stream.addAttribute(PositionIncrementAttribute.class_)

        while stream.incrementToken():
            text = termAtt.toString()
            self.assert_(text not in stopWordsSet)
            self.assertEqual(expectedIncr[i],
                             posIncrAtt.getPositionIncrement())
            i += 1

Example #7

Show file

    def setUp(self):

        stopWords = ['the', 'and', 's']
        self.stop_set = StopFilter.makeStopSet(stopWords)
        self.reader = StringReader('foo')

Example #8

Show file

File: test_StopWords.py Project: svn2github/pylucene

    def setUp(self):

        stopWords = ['the', 'and', 's']
        self.stop_set = StopFilter.makeStopSet(stopWords)
        self.reader = StringReader('foo')

Example #9

Show file

File: analyzer.py Project: stefan-niculae/golden-retriever

 def filter_stopwords(stream):
     stream = StopFilter(stream, RomanianAnalyzer.getDefaultStopSet())
     with open('romanian-stopwords.txt') as f:
         additional_stopwords = unicode(f.read(), 'utf-8').split()
     additional_stopwords = StopFilter.makeStopSet(additional_stopwords)
     return StopFilter(stream, additional_stopwords)