Python Corpus.save_corpus示例

编程语言: Python

命名空间/包名称: utils

类/类型: Corpus

方法/功能: save_corpus

hotexamples.com的示例: 6

Python Corpus.save_corpus - 已找到6个示例。这些是从开源项目中提取的最受好评的utils.Corpus.save_corpus现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

Corpus(30)

get_documents(18)

assign_keywords(9)

save_corpus(6)

get_data(3)

tokenize(2)

get_chunks(2)

issue_model(1)

token_number(1)

load_file(1)

load_data(1)

get_filename(1)

get_n_documents_as_corpus(1)

build_vocab(1)

add_text(1)

get_char_list(1)

get_article(1)

extractor(1)

year_wise_pseudo_documents(1)

示例#1

0

显示文件

文件： raw_data_import.py 项目： philipptrenz/climate-keywords

def parse_and_preprocess_src(data_source, corpus_destination, preprocess=True):
    if re.search("bundestag", data_source.lower()):
        name = "bundestag"
        raw_corpus = DataHandler.get_bundestag_speeches(directory=data_source)
    elif re.search("sustainability", data_source.lower()):
        name = "sustainability"
        raw_corpus = DataHandler.get_sustainability_data(path=data_source)
    elif re.search("unv1.0-tei", data_source.lower()):
        name = "united_nations"
        raw_corpus = DataHandler.get_un_texts(directory=data_source)
    elif re.search("state_of_the_union", data_source.lower()):
        name = "state_of_the_union"
        raw_corpus = DataHandler.get_state_of_the_union(directory=data_source)
    else:
        name = "abstracts"
        raw_corpus = DataHandler.get_abstracts(path=data_source)

    language = raw_corpus[0].language
    print('loaded', len(raw_corpus), 'documents')
    if preprocess:
        Preprocessor.preprocess(raw_corpus, language=language)
        print('preprocessed', len(raw_corpus), 'documents')
    corpus = Corpus(source=raw_corpus, language=language, name=name)
    print('parsed', len(corpus.get_documents(as_list=True)),
          'documents to a Corpus')
    corpus.save_corpus(corpus_destination)

示例#2

0

显示文件

文件： corpus_cleaning.py 项目： philipptrenz/climate-keywords

def cleaning_authors(config, overwrite=False):
    corpus_names = [
        "bundestag_corpus",
        # "sustainability_corpus",
        # "abstract_corpus"
    ]
    languages = [Language.DE, Language.EN, Language.EN]
    wlc = 0
    m_a = 0
    s_a = 0
    for i, corpus_name in enumerate(corpus_names):
        corpus = Corpus(source=config["corpora"][corpus_name],
                        language=languages[i],
                        name=corpus_name)
        # corpus = DataHandler.load_corpus(config["corpora"][corpus_name])
        for d in corpus.get_documents():
            if d.author:
                if isinstance(d.author, float) and np.isnan(d.author):
                    d.author = None
                else:
                    if corpus_name == "bundestag_corpus":
                        authors = [d.author]
                    elif corpus_name == "sustainability_corpus":
                        if isinstance(d.author, str):
                            authors = [a.strip() for a in d.author.split(',')]
                            authors = [
                                f'{j}. {i}'
                                for i, j in zip(authors[::2], authors[1::2])
                            ]
                        else:
                            authors = d.author
                    else:
                        if d.language != "English":
                            wlc += 1
                            continue
                        if isinstance(d.author, str):
                            authors = [a.strip() for a in d.author.split(',')]
                            authors = [
                                f'{j}. {i}'
                                for i, j in zip(authors[::2], authors[1::2])
                            ]
                        else:
                            authors = d.author
                        if len(authors) > 1:
                            m_a += 1
                            print(d.author, authors)
                        else:
                            s_a += 1
                    d.author = authors

        if not overwrite:
            os.rename(src=config["corpora"][corpus_name],
                      dst=create_new_filepath_uncleaned(
                          config["corpora"][corpus_name]))

        corpus.save_corpus(config["corpora"][corpus_name])
    print(wlc, m_a, s_a)

示例#3

0

显示文件

文件： corpus_cleaning.py 项目： philipptrenz/climate-keywords

def cleaning_punctuation(config, overwrite=False):
    corpus_names = [
        "bundestag_corpus", "sustainability_corpus", "abstract_corpus"
    ]
    languages = [Language.DE, Language.EN, Language.EN]
    for i, corpus_name in enumerate(corpus_names):
        corpus = Corpus(source=config["corpora"][corpus_name],
                        language=languages[i],
                        name=corpus_name)
        remove_punctuation(corpus)

        if not overwrite:
            os.rename(src=config["corpora"][corpus_name],
                      dst=create_new_filepath_uncleaned(
                          config["corpora"][corpus_name]))

        corpus.save_corpus(config["corpora"][corpus_name])

示例#4

0

显示文件

文件： corpus_cleaning.py 项目： philipptrenz/climate-keywords

def cleaning_un(config, overwrite=True):
    corpus = Corpus(source=config["corpora"]["united_nations_corpus"],
                    language=Language.DE,
                    name="united_nations_corpus")
    corpus = Corpus(source=[d for d in corpus.get_documents() if d.date],
                    language=corpus.language,
                    name=corpus.name)
    print("1", len(corpus))
    for d in corpus.get_documents():
        d.date = int(d.date)
    print("2", len(corpus))

    if not overwrite:
        os.rename(src=config["corpora"]["united_nations_corpus"],
                  dst=create_new_filepath_uncleaned(
                      config["corpora"]["united_nations_corpus"]))

    corpus.save_corpus(config["corpora"]["united_nations_corpus"])

示例#5

0

显示文件

文件： corpus_cleaning.py 项目： philipptrenz/climate-keywords

def cleaning_bundestag(config, overwrite=True):
    corpus = Corpus(source=config["corpora"]["bundestag_corpus"],
                    language=Language.DE,
                    name="bundestag_corpus")
    # corpus = DataHandler.load_corpus(config["corpora"]["bundestag_corpus"])
    corpus = Corpus(source=[d for d in corpus.get_documents() if d.date],
                    language=corpus.language,
                    name=corpus.name)
    print("1", len(corpus))
    for d in corpus.get_documents():
        d.date = int(d.date)
    print("2", len(corpus))

    if not overwrite:
        os.rename(src=config["corpora"]["bundestag_corpus"],
                  dst=create_new_filepath_uncleaned(
                      config["corpora"]["bundestag_corpus"]))

    corpus.save_corpus(config["corpora"]["bundestag_corpus"])

示例#6

0

显示文件

文件： corpus_cleaning.py 项目： philipptrenz/climate-keywords

def cleaning_abstracts(config, overwrite=True):
    corpus = Corpus(source=config["corpora"]["abstract_corpus"],
                    language=Language.EN,
                    name="abstract_corpus")
    # corpus = DataHandler.load_corpus(config["corpora"]["abstract_corpus"])
    print("1", len(corpus))
    corpus = Corpus([
        d for d in corpus.get_documents()
        if d.date and len(str(d.date)) == 4 and d.date.isnumeric()
    ],
                    name=corpus.name,
                    language=Language.EN)
    for d in corpus.get_documents():
        d.date = int(d.date)
    print("2", len(corpus))

    if not overwrite:
        os.rename(src=config["corpora"]["abstract_corpus"],
                  dst=create_new_filepath_uncleaned(
                      config["corpora"]["abstract_corpus"]))

    corpus.save_corpus(config["corpora"]["abstract_corpus"])