Python Sentence.tokens 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: text.sentence

클래스/타입: Sentence

메소드/함수: tokens

hotexamples.com에서의 예제들: 2

Python Sentence.tokens - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 text.sentence.Sentence.tokens에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

Sentence(13)

process_corenlp_output(3)

get_dic(1)

tokens(1)

예제 #1

파일 보기

 def generate_data(self, corpus, modelname, pairtypes):
     # TODO: remove old model
     pcount = 0
     truepcount = 0
     ns = 0
     for did in corpus.documents:
         doc_entities = corpus.documents[did].get_entities("goldstandard")
         examplelines = []
         # logging.info("{}".format(sentence.sid))
         # sentence_entities = sentence.entities.elist["goldstandard"]
         # logging.debug("sentence {} has {} entities ({})".format(sentence.sid, len(sentence_entities), len(sentence.entities.elist["goldstandard"])))
         for pair in itertools.permutations(doc_entities, 2):
             sn1 = int(pair[0].sid.split(".")[-1][1:])
             sn2 = int(pair[1].sid.split(".")[-1][1:])
             # if self.pairtype in corpus.type_sentences and pair[0].sid not in corpus.type_sentences[self.pairtype]:
             #     continue
             if abs(sn2 - sn1) > 0 or pair[0].start == pair[
                     1].start or pair[0].end == pair[1].end:
                 continue
             # if self.pairtype in ("Has_Sequence_Identical_To", "Is_Functionally_Equivalent_To") and pair[0].type != pair[1].type:
             #     continue
             #if pair[0].text == pair[1].text:
             #    continue
             # logging.info("{}=>{}|{}=>{}".format(pair[0].type, pair[1].type, pairtypes[0], pairtypes[1]))
             if pair[0].type in config.pair_types[self.pairtype][
                     "source_types"] and pair[1].type in config.pair_types[
                         self.pairtype]["target_types"]:
                 #if pair[0].type in config.event_types[self.pairtype]["source_types"] and pair[1].type in config.event_types[self.pairtype]["target_types"]:
                 #pair[1].type in config.pair_types[self.pairtype]["source_types"] and pair[0].type in config.pair_types[self.pairtype]["target_types"]:
                 # logging.debug(pair)
                 #if pair[0].type not in config.pair_types[self.pairtype]["source_types"]:
                 #    pair = (pair[1], pair[0])
                 pid = did + ".p" + str(pcount)
                 # self.pairs[pid] = (e1id, e2id)
                 if sn1 != sn2:
                     sentence1 = corpus.documents[did].get_sentence(
                         pair[0].sid)
                     sentence2 = corpus.documents[did].get_sentence(
                         pair[1].sid)
                     sentence = Sentence(text=sentence1.text + " " +
                                         sentence2.text,
                                         offset=sentence1.offset)
                     sentence.tokens = sentence1.tokens + sentence2.tokens
                     for t in pair[1].tokens:
                         t.order += len(sentence1.tokens)
                 else:
                     sentence = corpus.documents[did].get_sentence(
                         pair[0].sid)
                 f, label = self.generate_features(sentence, pair)
                 self.features.append(f)
                 self.labels.append(label)
                 self.pairs.append(pair)

예제 #2

파일 보기

파일: scikitre.py 프로젝트: AndreLamurias/IBEnt

 def generate_data(self, corpus, modelname, pairtypes):
    # TODO: remove old model
     pcount = 0
     truepcount = 0
     ns = 0
     for did in corpus.documents:
         doc_entities = corpus.documents[did].get_entities("goldstandard")
         examplelines = []
         # logging.info("{}".format(sentence.sid))
         # sentence_entities = sentence.entities.elist["goldstandard"]
         # logging.debug("sentence {} has {} entities ({})".format(sentence.sid, len(sentence_entities), len(sentence.entities.elist["goldstandard"])))
         for pair in itertools.permutations(doc_entities, 2):
             sn1 = int(pair[0].sid.split(".")[-1][1:])
             sn2 = int(pair[1].sid.split(".")[-1][1:])
             # if self.pairtype in corpus.type_sentences and pair[0].sid not in corpus.type_sentences[self.pairtype]:
             #     continue
             if abs(sn2 - sn1) > 0 or pair[0].start == pair[1].start or pair[0].end == pair[1].end:
                 continue
             # if self.pairtype in ("Has_Sequence_Identical_To", "Is_Functionally_Equivalent_To") and pair[0].type != pair[1].type:
             #     continue
             #if pair[0].text == pair[1].text:
             #    continue
             # logging.info("{}=>{}|{}=>{}".format(pair[0].type, pair[1].type, pairtypes[0], pairtypes[1]))
             if pair[0].type in config.seedev_types.pair_types[self.pairtype]["source_types"] and pair[1].type in config.seedev_types.pair_types[self.pairtype]["target_types"]:
             #if pair[0].type in config.event_types[self.pairtype]["source_types"] and pair[1].type in config.event_types[self.pairtype]["target_types"]:
                                     #pair[1].type in config.pair_types[self.pairtype]["source_types"] and pair[0].type in config.pair_types[self.pairtype]["target_types"]:
                 # logging.debug(pair)
                 #if pair[0].type not in config.pair_types[self.pairtype]["source_types"]:
                 #    pair = (pair[1], pair[0])
                 pid = did + ".p" + str(pcount)
                 # self.pairs[pid] = (e1id, e2id)
                 if sn1 != sn2:
                     sentence1 = corpus.documents[did].get_sentence(pair[0].sid)
                     sentence2 = corpus.documents[did].get_sentence(pair[1].sid)
                     sentence = Sentence(text = sentence1.text + " " + sentence2.text, offset=sentence1.offset)
                     sentence.tokens = sentence1.tokens + sentence2.tokens
                     for t in pair[1].tokens:
                         t.order += len(sentence1.tokens)
                 else:
                     sentence = corpus.documents[did].get_sentence(pair[0].sid)
                 f, label = self.generate_features(sentence, pair)
                 self.features.append(f)
                 self.labels.append(label)
                 self.pairs.append(pair)