Python PlaintextCorpusReader.init示例

编程语言: Python

命名空间/包名称: nltk.corpus.reader

方法/功能: __init__

hotexamples.com的示例: 5

Python PlaintextCorpusReader.__init__ - 已找到5个示例。这些是从开源项目中提取的最受好评的nltk.corpus.reader.PlaintextCorpusReader.__init__现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

PlaintextCorpusReader(18)

fileids(9)

raw(6)

sents(5)

words(4)

__init__(3)

paras(2)

categories(1)

chunked_paras(1)

chunked_sents(1)

chunked_words(1)

ensure_loaded(1)

tagged_paras(1)

tagged_sents(1)

tagged_words(1)

示例#1

显示文件

文件： readers.py 项目： jerryfrancis-97/cltk

    def __init__(self,
                 root,
                 fileids=None,
                 encoding='utf8',
                 skip_keywords=None,
                 **kwargs):
        """

        :param root: The file root of the corpus directory
        :param fileids: the list of file ids to consider, or wildcard expression
        :param skip_keywords: a list of words which indicate whole paragraphs that should
        be skipped by the paras and words methods()
        :param encoding: utf8
        :param kwargs: Any values to be passed to NLTK super classes, such as sent_tokenizer,
        word_tokenizer.
        """
        if not fileids:
            fileids = r'.*\.txt'

        # Initialize the NLTK corpus reader objects
        PlaintextCorpusReader.__init__(self, root, fileids, encoding)
        CorpusReader.__init__(self, root, fileids, encoding)
        if 'sent_tokenizer' in kwargs:
            self._sent_tokenizer = kwargs['sent_tokenizer']
        if 'word_tokenizer' in kwargs:
            self._word_tokenizer = kwargs['word_tokenizer']
        self.skip_keywords = skip_keywords

示例#2

显示文件

文件： chinesereader.py 项目： fannix/Utils

 def __init__(self, sep="/", 
              # Note that . needs to be escaped
              pattern = chinese_pattern,
              root=None, fileids=None):
     """docstring for __init__"""
     PlaintextCorpusReader.__init__(
         self,
         sep=sep, root=root, fileids=fileids,
         sent_tokenizer = RegexpTokenizer(pattern, gaps=True),
         encoding="utf-8")

示例#3

显示文件

文件： chinesereader.py 项目： fannix/Utils

 def __init__(
         self,
         sep="/",
         # Note that . needs to be escaped
         pattern=chinese_pattern,
         root=None,
         fileids=None):
     """docstring for __init__"""
     PlaintextCorpusReader.__init__(self,
                                    sep=sep,
                                    root=root,
                                    fileids=fileids,
                                    sent_tokenizer=RegexpTokenizer(
                                        pattern, gaps=True),
                                    encoding="utf-8")

示例#4

显示文件

    def __init__(self,
                 root,
                 fields=DOC_PATTERN,
                 sent_pattern=SENT_PATTERN,
                 encoding='utf8',
                 **kargs):
        """
        :param root: corpusが入っているdir
        :param fields: 対象となるcorpus
        :param encoding:
        """

        PlaintextCorpusReader.__init__(
            self,
            root,
            fields,
            word_tokenizer=JanomeTokenizer(),
            sent_tokenizer=RegexpTokenizer(sent_pattern),
            encoding=encoding)

示例#5

显示文件

文件： readers.py 项目： diyclassics/cltk

 def __init__(self, root, fileids=None, encoding='utf8', skip_keywords=None,
              **kwargs):
     """
     :param root: The file root of the corpus directory
     :param fileids: the list of file ids to consider, or wildcard expression
     :param skip_keywords: a list of words which indicate whole paragraphs that should
     be skipped by the paras and words methods()
     :param encoding: utf8
     :param kwargs: Any values to be passed to NLTK super classes, such as sent_tokenizer,
     word_tokenizer.
     """
     # Initialize the NLTK corpus reader objects
     PlaintextCorpusReader.__init__(self, root, fileids, encoding)
     # CorpusReader.__init__(self, root, fileids, encoding)
     if 'sent_tokenizer' in kwargs:
         self._sent_tokenizer = kwargs['sent_tokenizer']
     if 'word_tokenizer' in kwargs:
         self._word_tokenizer = kwargs['word_tokenizer']
     if 'pos_tagger' in kwargs:
         self.pos_tagger = kwargs['pos_tagger']

Python PlaintextCorpusReader.__init__示例

Python PlaintextCorpusReader.init示例