Python NOTokenizer.NOTokenizer Beispiele

Programmiersprache: Python

Namespace / Paketname: es_text_analytics.tokenizer

Klasse / Typ: NOTokenizer

Methode / Funktion: NOTokenizer

Beispiele auf hotexamples.com: 3

Python NOTokenizer.NOTokenizer - 3 Beispiele gefunden. Dies sind die am besten bewerteten Python Beispiele für die es_text_analytics.tokenizer.NOTokenizer.NOTokenizer, die aus Open Source-Projekten extrahiert wurden. Sie können Beispiele bewerten, um die Qualität der Beispiele zu verbessern.

Häufig verwendete Methoden

Anzeigen Verbergen

NOTokenizer(3)

tokenize(2)

Häufig verwendete Methoden

NOTokenizer (3)

tokenize (2)

Beispiel #1

Datei anzeigen

 def test_tokenize(self):
     tokenizer = NOTokenizer()
     self.assertEqual(['Dette', 'er', u'vårt', 'hus', '.'],
                      tokenizer.tokenize(u'Dette er vårt hus.'))

Beispiel #2

Datei anzeigen

import sys

from gensim.corpora import Dictionary
from textblob import TextBlob

from es_text_analytics.data import newsgroups
from es_text_analytics.data.dataset import download_file, default_dataset_path
from es_text_analytics.data.ndt_dataset import NDTDataset
from es_text_analytics.tokenizer import NOTokenizer
"""
Generates wordcounts from a dataset.

Stores the counts in a Gensim Dictionary text file with id, word and count as tab separated fields.
"""

NO_TOKENIZER = NOTokenizer()


def preprocess_ng(doc):
    return [w.lower() for w in TextBlob(doc['msg']).words]


def preprocess_ndt(doc):
    return [
        w.lower()
        for w in TextBlob(doc['content'], tokenizer=NO_TOKENIZER).words
    ]


def main():
    parser = ArgumentParser()

Beispiel #3

Datei anzeigen

 def __init__(self, model_fn=None):
     self.tokenizer = NOTokenizer()
     self.tagger = HunposTagger(NNO_TAGGER_DEFAULT_MODEL_FN,
                                hunpos_tag_bin(),
                                encoding='utf-8')