Python lemmatize示例

编程语言: Python

命名空间/包名称: german_lemmatizer

方法/功能: lemmatize

hotexamples.com的示例: 7

Python lemmatize - 已找到7个示例。这些是从开源项目中提取的最受好评的german_lemmatizer.lemmatize现实Python示例。您可以评价示例，以帮助我们提高示例质量。

示例#1

显示文件

文件： test_lemma.py 项目： jfilter/german-lemmatizer

def test_lemma_mass():
    res = german_lemmatizer.lemmatize(
        ["Johannes war einer von vielen guten Schülern."] * 1000,
        chunk_size=400,
        n_jobs=2,
    )
    assert list(res) == ["Johannes sein einer von vielen gut Schüler."] * 1000

示例#2

显示文件

文件： preprocessing.py 项目： jfilter/german-preprocessing

def preprocess(texts, n_jobs=None, remove_stop=True):
    if n_jobs is None:
        n_jobs = os.cpu_count()

    texts = Parallel(n_jobs=n_jobs)(delayed(first_clean)(row)
                                    for row in tqdm(texts))
    texts = lemmatize(texts, n_jobs=n_jobs, remove_stop=remove_stop)
    texts = Parallel(n_jobs=n_jobs)(delayed(second_clean)(row)
                                    for row in tqdm(texts))
    return texts

示例#3

显示文件

文件： test_lemma.py 项目： jfilter/german-lemmatizer

def test_lemma_escape():
    res = german_lemmatizer.lemmatize(
        [
            "Johannes war einer von vielen guten Schülern.",
            """Peter war ein


        Idiot.""",
        ],
        escape=True,
    )
    assert list(res) == [
        "Johannes sein einer von vielen gut Schüler.",
        """Peter sein ein


        Idiot.""",
    ]

示例#4

显示文件

import dateparser

from bs4 import BeautifulSoup

import pandas as pd
import swifter

import pandas as pd
import sqlite3
from cleantext import clean

from pathlib import Path
import numpy as np
import swifter
from somajo import Tokenizer, SentenceSplitter
from tqdm import tqdm
import multiprocessing
from joblib import Parallel, delayed

from german_lemmatizer import lemmatize

num_cores = multiprocessing.cpu_count()

import numpy as np

sents = pickle.load(open("s.pkl", "rb"))

slem_txt = list(lemmatize(sents, n_jobs=4, chunk_size=50000))

pickle.dump(slem_txt, open("s_l.pkl", "wb"))

示例#5

显示文件

文件： test_lemma.py 项目： jfilter/german-lemmatizer

def test_lemma():
    res = german_lemmatizer.lemmatize(
        ["Johannes war einer von vielen guten Schülern."])
    assert list(res) == ["Johannes sein einer von vielen gut Schüler."]

示例#6

显示文件

文件： test_lemma.py 项目： jfilter/german-lemmatizer

def test_lemma_stop():
    res = german_lemmatizer.lemmatize(
        ["Johannes war einer von vielen guten Schülern."], remove_stop=True)
    assert list(res) == ["Johannes gut Schüler."]

示例#7

显示文件

文件： 05_lemma.py 项目： jfilter/ptf-kommentare

# In[2]:


df = pd.read_pickle('/mnt/data2/ptf/cleaned.pkl')


# In[3]:


df = df.drop(columns=['cleaned'])


# In[ ]:


slem_txt = list(lemmatize(df['text'].values[0:], n_jobs=3, chunk_size=10000))


# In[ ]:


pickle.dump( slem_txt, open( "lemma.pkl", "wb" ) )


# In[ ]:


def get_sents(texts):
    tokenizer = Tokenizer(split_camel_case=True, token_classes=False, extra_info=False)
    sentence_splitter = SentenceSplitter(is_tuple=False)