Python TreebankWordTokenizer.remove 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: nltk.tokenize

메소드/함수: remove

hotexamples.com에서의 예제들: 2

Python TreebankWordTokenizer.remove - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 nltk.tokenize.TreebankWordTokenizer.remove에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

tokenize(30)

TreebankWordTokenizer(30)

span_tokenize(9)

PUNCTUATION(2)

remove(2)

append(1)

index(1)

tokenize_sents(1)

예제 #1

파일 보기

파일: tokenization.py 프로젝트: dhruvi2k/CS6370-Natural-Language-Processing

    def pennTreeBank(self, text):
        """
        Tokenization using the Penn Tree Bank Tokenizer

        Parameters
        ----------
        arg1 : list
                A list of strings where each string is a single sentence

        Returns
        -------
        list
                A list of lists where each sub-list is a sequence of tokens
        """
        tokenizedText = []
        if isinstance(text, list):
            for sentence in text:
                if isinstance(sentence, str):
                    tokenizedText_ = TreebankWordTokenizer().tokenize(sentence)
                    for word in tokenizedText_:
                        if word in punctuations:
                            # remove any unwanted punctuation symbols which have been calssified as tokens
                            # was not getting unwanted spaces with punkt so that part has been ignored
                            tokenizedText_.remove(word)
                    tokenizedText.append(tokenizedText_)
                else:
                    print("Warning")
                    print("Sentences are not in the form of strings")
                    return 0
        else:
            print("Warning")
            print("Argument not in the form of a list.")
            return 0
        return tokenizedText

예제 #2

파일 보기

    def pennTreeBank(self, text):
        """
		Tokenization using the Penn Tree Bank Tokenizer

		Parameters
		----------
		arg1 : list
			A list of strings where each string is a single sentence

		Returns
		-------
		list
			A list of lists where each sub-list is a sequence of tokens
		"""

        tokenizedText = []
        for sent in text:
            # tokenize sentence using tree bank algorithm
            tokens = TreebankWordTokenizer().tokenize(sent)
            for W in tokens:
                # in this case there won't be any empty words or spaces so just remove punctuations if any
                if W in ['?', ':', '!', '.', ',', ';']:
                    tokens.remove(W)
                    tokenizedText.append(tokens)

        return tokenizedText