Python TwitterData.stem示例

编程语言: Python

命名空间/包名称: preprocessing

类/类型: TwitterData

方法/功能: stem

hotexamples.com的示例: 3

Python TwitterData.stem - 已找到3个示例。这些是从开源项目中提取的最受好评的preprocessing.TwitterData.stem现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

TwitterData(4)

initialize(4)

build_features(3)

build_wordlist(3)

cleanup(3)

stem(3)

tokenize(3)

build_data_model(1)

build_final_model(1)

build_word2vec_model(1)

示例#1

显示文件

    def main():

        for m in range(3, 4):
            print("Preparing data with min_occurrences=" + str(m))
            training_data, testing_data = preprare_data(m)
            log("********************************************************")
            log("Validating for {0} min_occurrences:".format(m))
            # drop idx & id columns
            # if training_data.columns[0] == "idx":
            #     training_data = training_data.iloc[:, 1:]
            #
            # if testing_data.columns[0] == "idx":
            #     testing_data = testing_data.iloc[:, 1:]
            #
            # if "original_id" in training_data.columns:
            #     training_data.drop( "original_id", axis=1, inplace=True )
            #
            # if "original_id" in testing_data.columns:
            #     testing_data.drop( "original_id", axis=1, inplace=True )

            td = TwitterData()
            td.initialize("data\\train.csv")
            td.build_features()
            td.cleanup(TwitterCleanuper())
            td.tokenize()
            td.stem()
            td.build_wordlist()
            td.build_final_model(word2vec)

            td.data_model.head(5)

        print("Done!")

示例#2

显示文件

def preprocess(results,
               data_path,
               is_testing,
               data_name,
               min_occurrences=5,
               cache_output=None):
    twitter_data = TwitterData()
    twitter_data.initialize(data_path, is_testing)
    twitter_data.build_features()
    twitter_data.cleanup(TwitterCleanuper())
    twitter_data.tokenize()
    twitter_data.stem()
    twitter_data.build_wordlist(min_occurrences=min_occurrences)
    #twitter_data.build_data_model()
    # twitter_data.build_ngrams()
    # twitter_data.build_ngram_model()
    # twitter_data.build_data_model(with_ngram=2)
    # word2vec = Word2VecProvider()
    # word2vec.load("H:\\Programowanie\\glove.twitter.27B.200d.txt")
    # twitter_data.build_word2vec_model(word2vec)
    print(cache_output)
    if cache_output is not None:
        twitter_data.data_model.to_csv(cache_output,
                                       index_label="idx",
                                       float_format="%.6f")
    results[data_name] = twitter_data.data_model

示例#3

显示文件

def preprocess(results,
               data_path,
               is_testing,
               data_name,
               min_occurrences=5,
               cache_output=None):
    twitter_data = TwitterData()
    twitter_data.initialize(data_path, is_testing)
    twitter_data.build_features()
    twitter_data.cleanup(TwitterCleanuper())
    twitter_data.tokenize()
    twitter_data.stem()
    twitter_data.build_wordlist(min_occurrences=min_occurrences)

    if cache_output is not None:
        twitter_data.data_model.to_csv(cache_output,
                                       index_label="idx",
                                       float_format="%.6f")
    results[data_name] = twitter_data.data_model