Python Tokenizer.getTokens Beispiele

Programmiersprache: Python

Namespace / Paketname: tokenizer

Klasse / Typ: Tokenizer

Methode / Funktion: getTokens

Beispiele auf hotexamples.com: 6

Python Tokenizer.getTokens - 6 Beispiele gefunden. Dies sind die am besten bewerteten Python Beispiele für die tokenizer.Tokenizer.getTokens, die aus Open Source-Projekten extrahiert wurden. Sie können Beispiele bewerten, um die Qualität der Beispiele zu verbessern.

Häufig verwendete Methoden

Anzeigen Verbergen

Tokenizer(30)

encode(11)

decode(7)

get_next_token(7)

all_tokens(7)

_pos(5)

advance(5)

filter_tokens(4)

fit(4)

batch_encode(4)

discovery_dir(4)

close(3)

curr_token(3)

eat(3)

LoadStrategy(3)

getTokens(3)

__init__(3)

fit_on_texts(3)

from_pretrained(3)

build_vocab(3)

fit_in_parallel(2)

get_baseforms(2)

en_vocab_create(2)

clean_text(2)

process_review(2)

gen_n_grams(2)

getNextToken(2)

tokenized_url(2)

add(2)

getSentences(1)

get_inlined_exception_name(1)

get_chunks(1)

get_blocks(1)

_Tokenizer__next_char(1)

_Tokenizer__unread_char(1)

getToken(1)

getTTL(1)

changeId(1)

get_n_gram_count(1)

getLocations(1)

getLastToken(1)

getJson(1)

getFinal(1)

gentokenize(1)

genclasstokenize(1)

add_consumer(1)

get_inlined_right_value(1)

Tokenize(1)

add_format(1)

print_all(1)

Beispiel #1

Datei anzeigen

Datei: textmarker.py Projekt: anpandu/5w1h_extractor

	def getOtherTaggedText(info):
		taggedtext = TextMarker.getTaggedText(info)
		# print taggedtext
		# print ''
		btags2 = ['B_WHAT', 'B_WHO', 'B_WHEN', 'B_WHERE', 'B_WHY', 'B_HOW']
		etags2 = ['E_WHAT', 'E_WHO', 'E_WHEN', 'E_WHERE', 'E_WHY', 'E_HOW']

		for i, tag in enumerate(btags2):
			taggedtext = taggedtext.replace(TextMarker.btags[i], tag)
		for i, tag in enumerate(etags2):
			taggedtext = taggedtext.replace(TextMarker.etags[i], tag)	

		text = ""
		state = 0
		for token in Tokenizer.getTokens(taggedtext):
			if (reduce( (lambda x, y: x or y), list(map((lambda x: x in token), btags2)) )):
				state += len([item for item in list(map((lambda x: x in token), btags2)) if item])
			if (state==0):
				# print "%s\t%s" % (state, TextMarker.othertags[0] + token + TextMarker.othertags[1])
				text += TextMarker.othertags[0] + token + TextMarker.othertags[1]
			else:
				# print "%s\t%s" % (state, token)
				text += token + " "
			if (reduce( (lambda x, y: x or y), list(map((lambda x: x in token), etags2)) )):
				state -= len([item for item in list(map((lambda x: x in token), etags2)) if item])

		for i, tag in enumerate(TextMarker.btags):
			text = text.replace(btags2[i], tag)
		for i, tag in enumerate(TextMarker.etags):
			text = text.replace(etags2[i], tag)	

		return text

Beispiel #2

Datei anzeigen

Datei: Info5W1H.py Projekt: anpandu/5w1h_extractor

	def __init__(self, _what, _who, _when, _where, _why, _how, _text):
		self.what = Tokenizer.removeNonAscii(_what).replace(".\"",". \"")
		self.who = Tokenizer.removeNonAscii(_who).replace(".\"",". \"")
		self.when = Tokenizer.removeNonAscii(_when).replace(".\"",". \"")
		self.where = Tokenizer.removeNonAscii(_where).replace(".\"",". \"")
		self.why = Tokenizer.removeNonAscii(_why).replace(".\"",". \"")
		self.how = Tokenizer.removeNonAscii(_how).replace(".\"",". \"")
		self.text = Tokenizer.removeNonAscii(_text).replace(".\"",". \"")
		self.sentences = Tokenizer.getSentences(self.text)
		self.tokenized_sentences = [Tokenizer.getTokens(sentence) for sentence in self.sentences]

Beispiel #3

Datei anzeigen

Datei: textmarker.py Projekt: anpandu/5w1h_extractor

	def getMarkedText(info):
		omtext = TextMarker.getOtherTaggedText(info)
		# print omtext
		result = ""
		searchObj = re.findall( r'\[b(.+?)\](.+?)\[e.+?\]', omtext)
		# print len(searchObj)
		for tup in searchObj:
			# print tup
			if (tup[0]=="other"):
				result += "[%s]%s[%s]" % (tup[0], tup[1], tup[0])
			else:
				label = tup[0]
				tokens = Tokenizer.getTokens(tup[1])
				for i, token in enumerate(tokens):
					prefix = "beg" if(i==0) else "in"
					result += "[%s_%s]%s[%s_%s]" % (prefix, label, token, prefix, label)
		return result

Beispiel #4

Datei anzeigen

Datei: textmarker.py Projekt: jenalgit/5w1h_extractor

 def getMarkedText(info):
     omtext = TextMarker.getOtherTaggedText(info)
     # print omtext
     result = ""
     searchObj = re.findall(r'\[b(.+?)\](.+?)\[e.+?\]', omtext)
     # print len(searchObj)
     for tup in searchObj:
         # print tup
         if (tup[0] == "other"):
             result += "[%s]%s[%s]" % (tup[0], tup[1], tup[0])
         else:
             label = tup[0]
             tokens = Tokenizer.getTokens(tup[1])
             for i, token in enumerate(tokens):
                 prefix = "beg" if (i == 0) else "in"
                 result += "[%s_%s]%s[%s_%s]" % (prefix, label, token,
                                                 prefix, label)
     return result

Beispiel #5

Datei anzeigen

Datei: mark2html.py Projekt: MihaiBojescu/mark2html

def main():
    inputBuffer = ""
    outputBuffer = ""

    if (len(sys.argv) >= 2):
        inputBuffer = readFile(sys.argv[1])

        tokenizer = Tokenizer(inputBuffer)
        tokenizer.tokenize()
        tokens = tokenizer.getTokens()

        parser = Parser(tokens)
        parser.parse()
        outputBuffer = parser.getOutput()
        # print(outputBuffer)

        if (len(sys.argv) == 3):
            writeFile(sys.argv[2], outputBuffer)
        else:
            writeFile("output.html", outputBuffer)

Beispiel #6

Datei anzeigen

Datei: textmarker.py Projekt: jenalgit/5w1h_extractor

    def getOtherTaggedText(info):
        taggedtext = TextMarker.getTaggedText(info)
        # print taggedtext
        # print ''
        btags2 = ['B_WHAT', 'B_WHO', 'B_WHEN', 'B_WHERE', 'B_WHY', 'B_HOW']
        etags2 = ['E_WHAT', 'E_WHO', 'E_WHEN', 'E_WHERE', 'E_WHY', 'E_HOW']

        for i, tag in enumerate(btags2):
            taggedtext = taggedtext.replace(TextMarker.btags[i], tag)
        for i, tag in enumerate(etags2):
            taggedtext = taggedtext.replace(TextMarker.etags[i], tag)

        text = ""
        state = 0
        for token in Tokenizer.getTokens(taggedtext):
            if (reduce((lambda x, y: x or y),
                       list(map((lambda x: x in token), btags2)))):
                state += len([
                    item for item in list(map((lambda x: x in token), btags2))
                    if item
                ])
            if (state == 0):
                # print "%s\t%s" % (state, TextMarker.othertags[0] + token + TextMarker.othertags[1])
                text += TextMarker.othertags[0] + token + TextMarker.othertags[
                    1]
            else:
                # print "%s\t%s" % (state, token)
                text += token + " "
            if (reduce((lambda x, y: x or y),
                       list(map((lambda x: x in token), etags2)))):
                state -= len([
                    item for item in list(map((lambda x: x in token), etags2))
                    if item
                ])

        for i, tag in enumerate(TextMarker.btags):
            text = text.replace(btags2[i], tag)
        for i, tag in enumerate(TextMarker.etags):
            text = text.replace(etags2[i], tag)

        return text