def calcular_feature(self, tweet): texto = tweet.texto texto = remover_hashtags(texto) texto = remover_usuarios(texto) oraciones = Freeling.procesar_texto(texto) tokens = list(itertools.chain(*oraciones)) cant_palabras_no_espanolas = 0 for token_freeling in tokens: token = eliminar_underscores(token_freeling.token) if len(token) >= 3 and contiene_caracteres_no_espanoles(token): cant_palabras_no_espanolas += 1 if len(tokens) == 0: return 0 else: return cant_palabras_no_espanolas / math.sqrt(len(tokens))
def calcular_feature(self, tweet): texto = tweet.texto texto = remover_hashtags(texto) texto = remover_usuarios(texto) oraciones = Freeling.procesar_texto(texto) tokens = list(itertools.chain(*oraciones)) cant_palabras_oov = 0 for token_freeling in tokens: if not token_freeling.tag.startswith('F') \ and not token_freeling.tag.startswith('Z') \ and not token_freeling.tag.startswith('W'): token = eliminar_underscores(token_freeling.token) if not Freeling.esta_en_diccionario(token): cant_palabras_oov += 1 if len(tokens) == 0: return 0 else: return cant_palabras_oov / math.sqrt(len(tokens))
def calcular_feature(self, tweet): texto = tweet.texto texto = remover_hashtags(texto) texto = remover_usuarios(texto) oraciones = Freeling.procesar_texto(texto) tokens = list(itertools.chain(*oraciones)) cant_palabras_oov = 0 for token_freeling in tokens: if not token_freeling.tag.startswith('F') \ and not token_freeling.tag.startswith('Z') \ and not token_freeling.tag.startswith('W'): token = eliminar_underscores(token_freeling.token) if not Wiktionary.pertenece(token): cant_palabras_oov += 1 if len(tokens) == 0: return 0 else: return cant_palabras_oov / math.sqrt(len(tokens))