Python sentenceIterator 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: tools

메소드/함수: sentenceIterator

hotexamples.com에서의 예제들: 11

Python sentenceIterator - 11개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 tools.sentenceIterator에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

예제 #1

파일 보기

파일: huntag.py 프로젝트: zbxzc35/HunTag

def main_bigramTrain(options, input):
    bigramModel = Bigram(0.000000000000001)
    for sen, _ in sentenceIterator(input):
        tags = [tok[options.tagField] for tok in sen]
        bigramModel.obsSequence(tags)
    bigramModel.count()
    bigramModel.writeToFile(options.bigramModelFile)

예제 #2

파일 보기

파일: huntag.py 프로젝트: gabor-recski/HunTag

def main_bigramTrain(options, input):
    bigramModel = Bigram(0.000000000000001)
    for sen, _ in sentenceIterator(input):
        tags = [tok[options.tagField] for tok in sen]
        bigramModel.obsSequence(tags)
    bigramModel.count()
    bigramModel.writeToFile(options.bigramModelFile)

예제 #3

파일 보기

 def tagCorp(self, inputStream=sys.stdin):
     senCount = 0
     for sen, comment in sentenceIterator(inputStream):
         senCount += 1
         senFeats = featurizeSentence(sen, self._features)
         bestTagging = self._tagSenFeats(senFeats)
         taggedSen = [tok + [bestTagging[c]] for c, tok in enumerate(sen)]  # Add tagging to sentence
         yield taggedSen, comment
         if senCount % 1000 == 0:
             print('{0}...'.format(senCount), end='', file=sys.stderr, flush=True)
     print('{0}...done'.format(senCount), file=sys.stderr, flush=True)

예제 #4

파일 보기

파일: tagger.py 프로젝트: kszucs/HunTag

 def tag_corp(self, input):
     senCount = 0
     for sen, comment in sentenceIterator(input):
         senCount += 1
         #sys.stderr.write(str(sen)+'\n')
         #sys.stderr.flush()
         senFeats = featurizeSentence(sen, self.featureSet)
         bestTagging = self.tag_sen_feats(senFeats)
         taggedSen = addTagging(sen, bestTagging)
         yield taggedSen, comment
         if senCount % 1000 == 0:
             sys.stderr.write(str(senCount)+'...')
     sys.stderr.write(str(senCount)+'...done\n')

예제 #5

파일 보기

 def tag_corp(self, input):
     senCount = 0
     for sen, comment in sentenceIterator(input):
         senCount += 1
         #sys.stderr.write(str(sen)+'\n')
         #sys.stderr.flush()
         senFeats = featurizeSentence(sen, self.featureSet)
         bestTagging = self.tag_sen_feats(senFeats)
         taggedSen = addTagging(sen, bestTagging)
         yield taggedSen, comment
         if senCount % 1000 == 0:
             sys.stderr.write(str(senCount) + '...')
     sys.stderr.write(str(senCount) + '...done\n')

예제 #6

파일 보기

 def toCRFsuite(self, inputStream, outputStream=sys.stdout):
     senCount = 0
     getNoTag = self._featCounter.getNoTag
     featnoToName = self._featCounter.noToName
     for sen, comment in sentenceIterator(inputStream):
         senCount += 1
         senFeats = featurizeSentence(sen, self._features)
         # Get Sentence Features translated to numbers and contexts in two steps
         for featNumberSet in ({getNoTag(feat) for feat in feats if getNoTag(feat) is not None}
                               for feats in senFeats):
             print('\t'.join(featnoToName[featNum].replace(':', 'colon') for featNum in featNumberSet),
                   file=outputStream)
         print(file=outputStream)  # Sentence separator blank line
         if senCount % 1000 == 0:
             print('{0}...'.format(str(senCount)), end='', file=sys.stderr, flush=True)
     print('{0}...done'.format(str(senCount)), file=sys.stderr, flush=True)

예제 #7

파일 보기

파일: trainer.py 프로젝트: gabor-recski/HunTag

    def getEvents(self, data, out_file_name):
        sys.stderr.write('featurizing sentences...')
        senCount = 0
        out_file = None
        if out_file_name:
            out_file = open(out_file_name, 'w')
        for sen, _ in sentenceIterator(data):
            senCount+=1
            sentenceFeats = featurizeSentence(sen, self.features)
            for c, tok in enumerate(sen):
                tokFeats = sentenceFeats[c]
                if self.usedFeats:
                    tokFeats = [feat for feat in tokFeats
                                if feat in self.usedFeats]
                if out_file:
                    out_file.write(tok[-1]+'\t'+' '.join(tokFeats)+'\n')
                self.addContext(tokFeats, tok[-1])
            if out_file:
                out_file.write('\n')
            if senCount % 1000 == 0:
                sys.stderr.write(str(senCount)+'...')

        sys.stderr.write(str(senCount)+'...done!\n')

예제 #8

파일 보기

파일: trainer.py 프로젝트: tomfurrier/hunlp-GATE

    def getEvents(self, data):
        print('featurizing sentences...', end='', file=sys.stderr, flush=True)
        senCount = 0
        tokIndex = -1  # Index starts from 0
        for sen, _ in sentenceIterator(data):
            senCount += 1
            sentenceFeats = featurizeSentence(sen, self._features)
            for c, tok in enumerate(sen):
                tokIndex += 1
                tokFeats = sentenceFeats[c]
                if self._usedFeats:
                    tokFeats = [
                        feat for feat in tokFeats if feat in self._usedFeats
                    ]
                self._addContext(tokFeats, tok[self._tagField], tokIndex)
            self._sentEnd.append(tokIndex)
            if senCount % 1000 == 0:
                print('{0}...'.format(str(senCount)),
                      end='',
                      file=sys.stderr,
                      flush=True)

        self._tokCount = tokIndex + 1
        print('{0}...done!'.format(str(senCount)), file=sys.stderr, flush=True)

예제 #9

파일 보기

파일: trainer.py 프로젝트: zbxzc35/HunTag

    def getEvents(self, data, out_file_name):
        sys.stderr.write('featurizing sentences...')
        senCount = 0
        out_file = None
        if out_file_name:
            out_file = open(out_file_name, 'w')
        for sen, _ in sentenceIterator(data):
            senCount += 1
            sentenceFeats = featurizeSentence(sen, self.features)
            for c, tok in enumerate(sen):
                tokFeats = sentenceFeats[c]
                if self.usedFeats:
                    tokFeats = [
                        feat for feat in tokFeats if feat in self.usedFeats
                    ]
                if out_file:
                    out_file.write(tok[-1] + '\t' + ' '.join(tokFeats) + '\n')
                self.addContext(tokFeats, tok[-1])
            if out_file:
                out_file.write('\n')
            if senCount % 1000 == 0:
                sys.stderr.write(str(senCount) + '...')

        sys.stderr.write(str(senCount) + '...done!\n')

예제 #10

파일 보기

파일: transmodel.py 프로젝트: dlt-rilmta/hunlp-GATE

 def train(self, inputStream):
     for sen, _ in sentenceIterator(inputStream):
         self.obsSequence((tok[self._tagField] for tok in sen))

예제 #11

파일 보기

파일: transmodel.py 프로젝트: tomfurrier/hunlp-GATE

 def train(self, inputStream):
     for sen, _ in sentenceIterator(inputStream):
         self.obsSequence((tok[self._tagField] for tok in sen))