Python tokenize 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: textplot.utils

메소드/함수: tokenize

hotexamples.com에서의 예제들: 5

Python tokenize - 5개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 textplot.utils.tokenize에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

예제 #1

파일 보기

    def tokenize(self):
        """
        Tokenize the text.
        """

        self.tokens = []
        self.terms = OrderedDict()

        # Load stopwords.
        stopwords = self.stopwords()

        # Generate tokens.
        for token in utils.tokenize(self.text):

            # Ignore stopwords.
            if token['unstemmed'] in stopwords:
                self.tokens.append(None)

            else:

                # Token:
                self.tokens.append(token)

                # Term:
                offsets = self.terms.setdefault(token['stemmed'], [])
                offsets.append(token['offset'])

예제 #2

파일 보기

파일: test_tokenize.py 프로젝트: xkuang/textplot

def assert_abc(text):

    """
    Assert tokens aa/bb/cc.

    Args:
        text (str): A raw text string.
    """

    tokens = tokenize(text)

    aa = next(tokens)
    assert aa['stemmed']    == 'aa'
    assert aa['unstemmed']  == 'aa'
    assert aa['offset']     == 0

    bb = next(tokens)
    assert bb['stemmed']    == 'bb'
    assert bb['unstemmed']  == 'bb'
    assert bb['offset']     == 1

    cc = next(tokens)
    assert cc['stemmed']    == 'cc'
    assert cc['unstemmed']  == 'cc'
    assert cc['offset']     == 2

예제 #3

파일 보기

파일: text.py 프로젝트: AndersNYC/textplot

    def tokenize(self):

        """
        Tokenize the text.
        """

        self.tokens = []
        self.terms = OrderedDict()

        # Load stopwords.
        stopwords = self.stopwords()

        # Generate tokens.
        for token in utils.tokenize(self.text):

            # Ignore stopwords.
            if token['unstemmed'] in stopwords:
                self.tokens.append(None)

            else:

                # Token:
                self.tokens.append(token)

                # Term:
                offsets = self.terms.setdefault(token['stemmed'], [])
                offsets.append(token['offset'])

예제 #4

파일 보기

파일: test_tokenize.py 프로젝트: xkuang/textplot

def test_ignore_case():

    """
    Tokens should be downcased.
    """

    text = 'One TWO ThReE'

    tokens = tokenize(text)

    t1 = next(tokens)
    assert t1['stemmed']    == 'one'
    assert t1['unstemmed']  == 'one'
    assert t1['offset']     == 0

    t2 = next(tokens)
    assert t2['stemmed']    == 'two'
    assert t2['unstemmed']  == 'two'
    assert t2['offset']     == 1

    t2 = next(tokens)
    assert t2['stemmed']    == 'three'
    assert t2['unstemmed']  == 'three'
    assert t2['offset']     == 2

예제 #5

파일 보기

파일: test_tokenize.py 프로젝트: xkuang/textplot

def test_stem():

    """
    Stemm-able tokens should be stemmed.
    """

    text = 'happy lovely days'

    tokens = tokenize(text)

    t1 = next(tokens)
    assert t1['stemmed']    == 'happi'
    assert t1['unstemmed']  == 'happy'
    assert t1['offset']     == 0

    t2 = next(tokens)
    assert t2['stemmed']    == 'love'
    assert t2['unstemmed']  == 'lovely'
    assert t2['offset']     == 1

    t3 = next(tokens)
    assert t3['stemmed']    == 'day'
    assert t3['unstemmed']  == 'days'
    assert t3['offset']     == 2