Python ConllCorpusReader.words 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: nltk.corpus.reader

클래스/타입: ConllCorpusReader

메소드/함수: words

hotexamples.com에서의 예제들: 3

Python ConllCorpusReader.words - 3개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 nltk.corpus.reader.ConllCorpusReader.words에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

ConllCorpusReader(15)

tagged_sents(8)

iob_sents(4)

sents(3)

tagged_words(3)

words(2)

chunked_sents(1)

chunked_words(1)

fileids(1)

iob_words(1)

parsed_sents(1)

raw(1)

srl_instances(1)

srl_spans(1)

예제 #1

파일 보기

def main() -> None:
    """Точка входа в приложение."""
    corpus_root = Path('corpus')
    # Настроим логирование результатов
    global _logger
    setup_logger(_logger, corpus_root / 'collocations.log')

    # Загрузим стоп-слова
    nltk.download('stopwords', '.env/share/nltk_data')
    stop_words = set(stopwords.words('russian'))

    # Импортируем корпус
    tags_root = corpus_root / 'pos_tagging'
    reader = ConllCorpusReader(
        str(tags_root), [f.name for f in tags_root.glob('*.tags')],
        columntypes=['words', 'ignore', 'ignore', 'ignore', 'pos'],
        separator='\t')
    _logger.info('Документов: %d', len(reader.fileids()))
    _logger.info('Токенов в первом документе (%s): %d',
                 reader.fileids()[0], len(reader.words(reader.fileids()[0])))

    _logger.info('Загружаем предложения')
    sentences = reader.sents()

    # Строим таблицы сопряжённости для всех слов в корпусе
    _logger.info('Считаем таблицу сопряжённости по всем словам')
    bigram_finder = BigramCollocationFinder.from_documents(
        [w.lower() for w in sent] for sent in tqdm(sentences))
    _logger.info('Всего биграм: %d', bigram_finder.N)

    print_samples(bigram_finder)

    # А теперь отфильтруем по частоте и удалим пунктуацию, стоп-слова
    _logger.info(
        'Отфильтруем пунктуацию, стоп-слова и установим предел по частоте')
    bigram_finder.apply_freq_filter(5)
    bigram_finder.apply_word_filter(lambda w: len(w) < 3 or w in stop_words)
    _logger.info('Всего биграм: %d', bigram_finder.N)
    print_samples(bigram_finder)

예제 #2

파일 보기

 def words(self, fileids=None, categories=None):
     return ConllCorpusReader.words(self,
                                    self._resolve(fileids, categories))

예제 #3

파일 보기

파일: catchunked.py 프로젝트: RomanZacharia/python_text_processing_w_nltk2_cookbook

	def words(self, fileids=None, categories=None):
		return ConllCorpusReader.words(self, self._resolve(fileids, categories))