Ejemplo n.º 1
0
    def create_stemmer(self, isDev=False):
        """ Returns Stemmer instance """

        words = self.get_words(isDev)
        dictionary = ArrayDictionary(words)
        stemmer = Stemmer(dictionary)

        resultCache = ArrayCache()
        cachedStemmer = CachedStemmer(resultCache, stemmer)

        return cachedStemmer
Ejemplo n.º 2
0
    def create_stemmer(self, isDev=False):
        """ Returns Stemmer instance """
        if isDev:
            words = self.get_words_from_file()
            dictionary = ArrayDictionary(words)
        else:
            dictionary = self.get_prod_words_dictionary()

        stemmer = Stemmer(dictionary)

        return stemmer
Ejemplo n.º 3
0
 def setUp(self):
     self.dictionary = ArrayDictionary([
         'hancur',
         'benar',
         'apa',
         'siapa',
         'jubah',
         'baju',
         'beli',
         'celana',
         'hantu',
         'jual',
         'buku',
         'milik',
         'kulit',
         'sakit',
         'kasih',
         'buang',
         'suap',
         'nilai',
         'beri',
         'rambut',
         'adu',
         'suara',
         'daerah',
         'ajar',
         'kerja',
         'ternak',
         'asing',
         'raup',
         'gerak',
         'puruk',
         'terbang',
         'lipat',
         'ringkas',
         'warna',
         'yakin',
         'bangun',
         'fitnah',
         'vonis',
         'baru',
         'ajar',
         'tangkap',
         'kupas',
         'minum',
         'pukul',
         'cinta',
         'dua',
         'jauh',
         'ziarah',
         'nuklir',
         'gila',
         'hajar',
         'qasar',
         'udara',
         'populer',
         'warna',
         'yoga',
         'adil',
         'rumah',
         'muka',
         'labuh',
         'tarung',
         'tebar',
         'indah',
         'daya',
         'untung',
         'sepuluh',
         'ekonomi',
         'makmur',
         'telah',
         'serta',
         'percaya',
         'pengaruh',
         'kritik',
         'seko',
         'sekolah',
         'tahan',
         'capa',
         'capai',
         'mula',
         'mulai',
         'petan',
         'tani',
         'aba',
         'abai',
         'balas',
         'balik',
         'peran',
         'medan',
         'syukur',
         'syarat',
         'bom',
         'promosi',
         'proteksi',
         'prediksi',
         'kaji',
         'sembunyi',
         'langgan',
         'laku',
         'baik',
         'terang',
         'iman',
         'bisik',
         'taat',
         'puas',
         'makan',
         'nyala',
         'nyanyi',
         'nyata',
         'nyawa',
         'rata',
         'lembut',
         'ligas',
         'budaya',
         'karya',
         'ideal',
         'final',
         'taat',
         'tiru',
         'sepak',
         'kuasa',
         'malaikat',
         'nikmat',  # sastrawi additional rules
         'lewat',
         'nganga',
         'allah',
     ])
     self.stemmer = Stemmer(self.dictionary)
     return super(Test_StemmerTest, self).setUp()