Python Tokenizer.get_baseforms Examples

Programming Language: Python

Namespace/Package Name: tokenizer

Class/Type: Tokenizer

Method/Function: get_baseforms

Examples at hotexamples.com: 2

Python Tokenizer.get_baseforms - 2 examples found. These are the top rated real world Python examples of tokenizer.Tokenizer.get_baseforms extracted from open source projects. You can rate examples to help us improve the quality of examples.

Frequently Used Methods

Show Hide

Tokenizer(30)

encode(11)

decode(7)

get_next_token(7)

all_tokens(7)

_pos(5)

advance(5)

filter_tokens(4)

fit(4)

batch_encode(4)

discovery_dir(4)

close(3)

curr_token(3)

eat(3)

LoadStrategy(3)

getTokens(3)

__init__(3)

fit_on_texts(3)

from_pretrained(3)

build_vocab(3)

fit_in_parallel(2)

get_baseforms(2)

en_vocab_create(2)

clean_text(2)

process_review(2)

gen_n_grams(2)

getNextToken(2)

tokenized_url(2)

add(2)

getSentences(1)

get_inlined_exception_name(1)

get_chunks(1)

get_blocks(1)

_Tokenizer__next_char(1)

_Tokenizer__unread_char(1)

getToken(1)

getTTL(1)

changeId(1)

get_n_gram_count(1)

getLocations(1)

getLastToken(1)

getJson(1)

getFinal(1)

gentokenize(1)

genclasstokenize(1)

add_consumer(1)

get_inlined_right_value(1)

Tokenize(1)

add_format(1)

print_all(1)

Example #1

Show file

File: topic_model.py Project: S38knt-ks/ReviewResearch

class TopicModel:
    def __init__(self):
        self._tokenizer = Tokenizer()

    def allot_topics(self, topic_num: int,
                     review_dict_list: list) -> OrderedDict:
        corpus, dictionary = self._make_property(review_dict_list)

        lda = LdaModel(corpus=corpus, num_topics=topic_num, id2word=dictionary)

        word_dict = OrderedDict()
        for topic_id in range(topic_num):
            word_dict[topic_id] = lda.show_topic(topic_id)

        return word_dict

    def _make_property(self, review_dict_list: list) -> tuple:
        """
        review_dict's keys are 'date', 'star', 'vote', 'name', 'title' and 'review' 
        """
        reviews = OrderedDict()
        for idx, review_dict in enumerate(review_dict_list):
            review = normalize(review_dict['review'])
            reviews[idx] = review

        text_list = [[
            term.word for term in self._tokenizer.get_baseforms(review)
        ] for review in reviews.values()]

        dictionary = Dictionary(text_list)
        dictionary.filter_extremes(no_below=1, no_above=0.6)
        corpus = [dictionary.doc2bow(words) for words in text_list]

        return corpus, dictionary

Example #2

Show file

def main(args):
    input_dir = args.input_dir
    # review_

    # nd_file = 'pn.csv.m3.120408.trim'
    # dd_file = 'wago.121808.pn'

    tokenizer = Tokenizer()
    # pd = PolarityDecision(nd_file, dd_file)

    product_dict = OrderedDict()
    whole_word_list = []
    columns = ['word', 'count']
    for json_file in (
            f for f in glob.glob('{}/**'.format(input_dir), recursive=True)
            if f.endswith('review.json')):
        review_info = json.load(open(json_file, mode='r', encoding='utf-8'),
                                object_pairs_hook=OrderedDict)

        product = review_info['product']
        print('[product] {}'.format(product))
        average_stars = review_info['average_stars']

        review_dict_list = review_info['reviews']
        review_df = pandas.DataFrame(review_dict_list)
        # print(review_df)
        print('[mean star]\t{:.3}\t[reviews]\t{}'.format(
            average_stars, review_df['review'].count()))

        # polarity_dict = OrderedDict()
        # polarity_dict['Positive'] = 0
        # polarity_dict['Neutral']  = 0
        # polarity_dict['Negative'] = 0

        word_list = [
            w for r in review_df['review'].values.tolist()
            for w in tokenizer.get_baseforms(normalize(r))
        ]

        # word_list = []
        # for review in review_df['Review'].values.tolist():
        #     result_df = otdt.to_dataframe(normalize(review))[['morpheme', 'phrase', 'prototype']]
        #     pprint(result_df)
        #     print()

        #     word_df = result_df.query('phrase in ["名詞", "形容詞", "形容動詞", "副詞"]')['prototype']
        #     word_list.extend(word_df.values.tolist())
        #     # value, polarity = pd.judge(review)
        #     # polarity_dict[polarity] += value

        whole_word_list.extend(word_list)

        count_list = list([word, word_list.count(word)]
                          for word in sorted(set(word_list)))
        # pprint(polarity_dict)

        count_df = pandas.DataFrame(count_list, columns=columns)
        sorted_count_df = count_df.sort_values('count', ascending=False)
        print(sorted_count_df.head(20))
        print()

        product_dict[product] = count_df

    whole_df = pandas.DataFrame([[w, whole_word_list.count(w)]
                                 for w in sorted(set(whole_word_list))],
                                columns=columns)

    print('-' * 79)
    print('[whole word counts]')
    print(whole_df.sort_values('count', ascending=False))