Python PlaintextCorpusReader.init 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: nltk.corpus.reader

메소드/함수: __init__

hotexamples.com에서의 예제들: 5

Python PlaintextCorpusReader.__init__ - 5개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 nltk.corpus.reader.PlaintextCorpusReader.__init__에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

PlaintextCorpusReader(18)

fileids(9)

raw(6)

sents(5)

words(4)

__init__(3)

paras(2)

categories(1)

chunked_paras(1)

chunked_sents(1)

chunked_words(1)

ensure_loaded(1)

tagged_paras(1)

tagged_sents(1)

tagged_words(1)

예제 #1

파일 보기

파일: readers.py 프로젝트: jerryfrancis-97/cltk

    def __init__(self,
                 root,
                 fileids=None,
                 encoding='utf8',
                 skip_keywords=None,
                 **kwargs):
        """

        :param root: The file root of the corpus directory
        :param fileids: the list of file ids to consider, or wildcard expression
        :param skip_keywords: a list of words which indicate whole paragraphs that should
        be skipped by the paras and words methods()
        :param encoding: utf8
        :param kwargs: Any values to be passed to NLTK super classes, such as sent_tokenizer,
        word_tokenizer.
        """
        if not fileids:
            fileids = r'.*\.txt'

        # Initialize the NLTK corpus reader objects
        PlaintextCorpusReader.__init__(self, root, fileids, encoding)
        CorpusReader.__init__(self, root, fileids, encoding)
        if 'sent_tokenizer' in kwargs:
            self._sent_tokenizer = kwargs['sent_tokenizer']
        if 'word_tokenizer' in kwargs:
            self._word_tokenizer = kwargs['word_tokenizer']
        self.skip_keywords = skip_keywords

예제 #2

파일 보기

파일: chinesereader.py 프로젝트: fannix/Utils

 def __init__(self, sep="/", 
              # Note that . needs to be escaped
              pattern = chinese_pattern,
              root=None, fileids=None):
     """docstring for __init__"""
     PlaintextCorpusReader.__init__(
         self,
         sep=sep, root=root, fileids=fileids,
         sent_tokenizer = RegexpTokenizer(pattern, gaps=True),
         encoding="utf-8")

예제 #3

파일 보기

파일: chinesereader.py 프로젝트: fannix/Utils

 def __init__(
         self,
         sep="/",
         # Note that . needs to be escaped
         pattern=chinese_pattern,
         root=None,
         fileids=None):
     """docstring for __init__"""
     PlaintextCorpusReader.__init__(self,
                                    sep=sep,
                                    root=root,
                                    fileids=fileids,
                                    sent_tokenizer=RegexpTokenizer(
                                        pattern, gaps=True),
                                    encoding="utf-8")

예제 #4

파일 보기

    def __init__(self,
                 root,
                 fields=DOC_PATTERN,
                 sent_pattern=SENT_PATTERN,
                 encoding='utf8',
                 **kargs):
        """
        :param root: corpusが入っているdir
        :param fields: 対象となるcorpus
        :param encoding:
        """

        PlaintextCorpusReader.__init__(
            self,
            root,
            fields,
            word_tokenizer=JanomeTokenizer(),
            sent_tokenizer=RegexpTokenizer(sent_pattern),
            encoding=encoding)

예제 #5

파일 보기

파일: readers.py 프로젝트: diyclassics/cltk

 def __init__(self, root, fileids=None, encoding='utf8', skip_keywords=None,
              **kwargs):
     """
     :param root: The file root of the corpus directory
     :param fileids: the list of file ids to consider, or wildcard expression
     :param skip_keywords: a list of words which indicate whole paragraphs that should
     be skipped by the paras and words methods()
     :param encoding: utf8
     :param kwargs: Any values to be passed to NLTK super classes, such as sent_tokenizer,
     word_tokenizer.
     """
     # Initialize the NLTK corpus reader objects
     PlaintextCorpusReader.__init__(self, root, fileids, encoding)
     # CorpusReader.__init__(self, root, fileids, encoding)
     if 'sent_tokenizer' in kwargs:
         self._sent_tokenizer = kwargs['sent_tokenizer']
     if 'word_tokenizer' in kwargs:
         self._word_tokenizer = kwargs['word_tokenizer']
     if 'pos_tagger' in kwargs:
         self.pos_tagger = kwargs['pos_tagger']

Python PlaintextCorpusReader.__init__ 예제들

Python PlaintextCorpusReader.init 예제들