Python WordTokenizer.transform 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: polyglot.tokenize

클래스/타입: WordTokenizer

메소드/함수: transform

hotexamples.com에서의 예제들: 3

Python WordTokenizer.transform - 3개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 polyglot.tokenize.WordTokenizer.transform에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

WordTokenizer(5)

transform(2)

자주 사용되는 메소드들

WordTokenizer (5)

transform (2)

예제 #1

파일 보기

파일: preprocess.py 프로젝트: vmandke/feedbackcontent

class Preprocess:
    def __init__(self, lang, use_stemmer, stop_words):
        self.lang = lang
        self.use_stemmer = use_stemmer
        self.word_tokenizer = WordTokenizer(locale=lang)
        # As we have only one language currently, no need to
        # check if supported
        self.stemmer = Stemmer.Stemmer(self.lang)
        self.stop_words = stop_words

    def stem(self, tokens):
        return (self.stemmer.stemWords(tokens)
                if self.use_stemmer
                else tokens)

    def remove_accents(self, text):
        return (unicodedata.normalize('NFD', text)
                .encode('ascii', 'ignore')
                .decode("utf-8"))

    def lower(self, text):
        return text.lower()

    def clear_html(self, text):
        # Html cleaner will throw exception when an incorrect tag
        # formation is detected a 'prompt' like symbol e.g.: '<- '
        try:
            text = clean_html(html.fromstring(text)).text_content()
        except Exception as e:
            pass
        return text

    def is_token_stopword(self, token):
        return token in self.stop_words

    def is_alpha(self, token):
        return token.isalpha()

    def filtertokens(self, tokens):
        return filter(
            lambda t: self.is_alpha(t) and not (self.is_token_stopword(t)),
            tokens)

    def transform2words(self, text):
        return self.word_tokenizer.transform(Sequence(text)).tokens()

    def process(self, text):
        fnlist = [
            self.remove_accents,
            self.lower,
            self.clear_html,
            self.transform2words,
            self.filtertokens,
            self.stem
        ]
        return compose(*reversed(fnlist))(text)

예제 #2

파일 보기

def segment(args):
    lang = args.lang
    w_tokenizer = WordTokenizer(locale=lang)
    s_tokenizer = SentenceTokenizer(locale=lang)

    if args.only_sent:
        for l in args.input:
            seq = Sequence(l)
            if not seq.empty(): _print(u'\n'.join(s_tokenizer.transform(seq)))

    elif args.only_word:
        for l in args.input:
            seq = Sequence(l)
            if not seq.empty(): _print(u' '.join(w_tokenizer.transform(seq)))

    else:
        for l in args.input:
            seq = Sequence(l)
            sents = s_tokenizer.transform(seq)
            words = w_tokenizer.transform(seq)
            for tokenized_sent in words.split(sents):
                if not tokenized_sent.empty():
                    _print(u' '.join(tokenized_sent.tokens()))

예제 #3

파일 보기

파일: __main__.py 프로젝트: AlexSnet/polyglot

def segment(args):
  lang  = args.lang
  w_tokenizer = WordTokenizer(locale=lang)
  s_tokenizer = SentenceTokenizer(locale=lang)

  if args.only_sent:
    for l in args.input:
      seq = Sequence(l)
      if not seq.empty(): _print(s_tokenizer.transform(seq))

  elif args.only_word:
    for l in args.input:
      seq = Sequence(l)
      if not seq.empty(): _print(w_tokenizer.transform(seq))

  else:
    for l in args.input:
      seq = Sequence(l)
      sents = s_tokenizer.transform(seq)
      words = w_tokenizer.transform(seq)
      for tokenized_sent in words.split(sents):
        if not tokenized_sent.empty():
          _print(u' '.join(tokenized_sent.tokens()))