Python ConllCorpusReader.iob_sents 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: nltk.corpus.reader

클래스/타입: ConllCorpusReader

메소드/함수: iob_sents

hotexamples.com에서의 예제들: 5

Python ConllCorpusReader.iob_sents - 5개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 nltk.corpus.reader.ConllCorpusReader.iob_sents에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

ConllCorpusReader(15)

tagged_sents(8)

iob_sents(4)

sents(3)

tagged_words(3)

words(2)

chunked_sents(1)

chunked_words(1)

fileids(1)

iob_words(1)

parsed_sents(1)

raw(1)

srl_instances(1)

srl_spans(1)

예제 #1

파일 보기

 def iob_sents(self, fileids=None, categories=None):
     return ConllCorpusReader.iob_sents(self,
                                        self._resolve(fileids, categories))

예제 #2

파일 보기

파일: catchunked.py 프로젝트: RomanZacharia/python_text_processing_w_nltk2_cookbook

	def iob_sents(self, fileids=None, categories=None):
		return ConllCorpusReader.iob_sents(self, self._resolve(fileids, categories))

예제 #3

파일 보기

# Copyright
# https://github.com/scrapinghub/python-crfsuite/blob/master/examples/CoNLL%202002.ipynb
from itertools import chain

import pycrfsuite
from nltk.corpus.reader import ConllCorpusReader
from sklearn.metrics import classification_report
from sklearn.preprocessing import LabelBinarizer

train = ConllCorpusReader("datasets/conll2003", "eng.train",
                          ["words", "pos", "ignore", "chunk"])
test = ConllCorpusReader("datasets/conll2003", "eng.testb",
                         ["words", "pos", "ignore", "chunk"])

train_sents = list(train.iob_sents())
test_sents = list(test.iob_sents())


def word2features(sent, i):
    # remove postag
    word = sent[i][0]
    # postag = sent[i][1]
    features = [
        "bias",
        "word.lower=" + word.lower(),
        "word[-3:]=" + word[-3:],
        "word[-2:]=" + word[-2:],
        "word.isupper=%s" % word.isupper(),
        "word.istitle=%s" % word.istitle(),
        "word.isdigit=%s" % word.isdigit(),
        # 'postag=' + postag,

예제 #4

파일 보기

파일: mini_project_ner_accuracy.py 프로젝트: ankit952/Named-Entity-Recognition-in-Hindi-Sentence

            return self._get_iob_words(grid, tagset)

        return LazyMap(get_iob_words, self._grids(fileids))

    def _get_iob_words(self, grid, tagset=None):
        pos_tags = self._get_column(grid, self._colmap['pos'])
        if tagset and tagset != self._tagset:
            pos_tags = [map_tag(self._tagset, tagset, t) for t in pos_tags]
        return list(
            zip(self._get_column(grid, self._colmap['words']), pos_tags,
                self._get_column(grid, self._colmap['ne'])))


bject = ConllCorpusReader("/home/subham", 'train_ner.txt',
                          ('words', 'pos', 'chunk'), ('NP_B', 'PP', 'VP'))
train_sents = bject.iob_sents('train_ner.txt')
bject1 = ConllCorpusReader("/home/subham", 'test_accuracy.txt',
                           ('words', 'pos', 'chunk'), ('NP_B', 'PP', 'VP'))
#train_sents=bject.iob_sents('conll.txt')

test_sents = bject1.iob_sents('test_accuracy.txt')
#train_sents = list(nltk.corpus.conll2002.iob_sents('esp.train'))
#test_sents = list(nltk.corpus.conll2002.iob_sents('esp.testb'))
#print(test_sents[0])
#print(train_sents[0])


def word2features(sent, i):
    word = sent[i][0]
    postag = sent[i][1]
    features = {

예제 #5

파일 보기

파일: mini_project_ner.py 프로젝트: ankit952/Named-Entity-Recognition-in-Hindi-Sentence

        :rtype: list(list)
        :param fileids: the list of fileids that make up this corpus
        :type fileids: None or str or list
        """
        self._require(self.WORDS, self.POS)
        def get_iob_words(grid):
            return self._get_iob_words(grid, tagset)
        return LazyMap(get_iob_words, self._grids(fileids))
    
    def _get_iob_words(self, grid, tagset=None):
        pos_tags = self._get_column(grid, self._colmap['pos'])
        if tagset and tagset != self._tagset:
            pos_tags = [map_tag(self._tagset, tagset, t) for t in pos_tags]
        return list(zip(self._get_column(grid, self._colmap['words']),pos_tags))
bject=ConllCorpusReader("/home/subham",'train_ner.txt',('words','pos','chunk'),('NP_B','PP','VP'))
train_sents=bject.iob_sents('train_ner.txt')
bject1=project("/home/subham",'test_file.txt',('words','pos'),('NP_B','PP'))
#train_sents=bject.iob_sents('conll.txt')

test_sents=bject1.iob_sents1('test_file.txt')
#print(test_sents)
#train_sents = list(nltk.corpus.conll2002.iob_sents('esp.train'))
#test_sents = list(nltk.corpus.conll2002.iob_sents('esp.testb'))
#print(test_sents[0])
#print(train_sents[0])


def word2features(sent, i):
    word = sent[i][0]
    postag = sent[i][1]
    features = {