Python Document.specialCharacters 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: lda

클래스/타입: Document

메소드/함수: specialCharacters

hotexamples.com에서의 예제들: 3

Python Document.specialCharacters - 3개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 lda.Document.specialCharacters에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

Document(12)

tokens(6)

createEntities(3)

specialCharacters(3)

createTokens(2)

appendEntities(1)

correctTokenOccurance(1)

findSpecialCharacterTokens(1)

lemmatizeTokens(1)

prepareDocument(1)

removeSpecialCharacters(1)

예제 #1

파일 보기

    def test_addDocument(self):
        document = Document()
        document.tokens = ['add', 'words', 'to', 'dictionary']
        document.specialCharacters = ['add' 'specialChars', '?!%$', 'add']

        dictionary = Dictionary()
        dictionary.addDocument(document)

        self.assertEqual(dictionary.specialCharacters,
                         set(document.specialCharacters))
        self.assertEqual(set(dictionary.ids.values()), set(document.tokens))

        document2 = Document()
        document2.tokens = ['new', 'words']
        document2.specialCharacters = ['add', 'xx9']

        dictionary.addDocument(document2)

        document.specialCharacters.append('xx9')
        document.tokens.append('new')

        self.assertEqual(dictionary.specialCharacters,
                         set(document.specialCharacters))
        self.assertEqual(set(dictionary.ids.values()), set(document.tokens))

예제 #2

파일 보기

파일: testDocument.py 프로젝트: Tilana/Classification

    def test_removeSpecialCharacters(self):
        testDocument = Document('', '')
        testDocument.tokens = [
            'child`s', '23.09.1998', 'test entity', 'normal', '$200 000',
            '809/87', 'http://asfd.org', '809/87', 'talib@n?', '.',
            'end of line.\n'
        ]
        testDocument.specialCharacters = [
            '23.09.1998', '$200 000', '809/87', 'http://asfd.org', 'talib@n?',
            '.'
        ]

        target = set(
            ['child`s', '809/87', 'test entity', 'normal', 'end of line.\n'])
        testDocument.removeSpecialCharacters()
        self.assertEqual(target, set(testDocument.tokens))

예제 #3

파일 보기

파일: testDocument.py 프로젝트: Tilana/Classification

    def test_findSpecialCharacterTokens(self):
        testDocument = Document('', '')
        testDocument.tokens = [
            'child`s', '23.09.1998', 'test entity', 'normal', '$200 000',
            '809/87', 'http://asfd.org', 'talib@n?', 'end of line.\n', '.'
        ]
        specialChars = r'.*[@./,:$©].*'
        testDocument.findSpecialCharacterTokens(specialChars)

        targetDocument = Document('', '')
        targetDocument.specialCharacters = [
            '23.09.1998', '$200 000', '809/87', 'http://asfd.org', 'talib@n?',
            'end of line.\n', '.'
        ]
        self.assertEqual(set(targetDocument.specialCharacters),
                         set(testDocument.specialCharacters))