def calcular_feature(self, tweet): texto = tweet.texto texto = remover_hashtags(texto) texto = remover_usuarios(texto) oraciones = Freeling.procesar_texto(texto) tokens = list(itertools.chain(*oraciones)) cant_palabras_oov = 0 for token_freeling in tokens: if not token_freeling.tag.startswith('F') \ and not token_freeling.tag.startswith('Z') \ and not token_freeling.tag.startswith('W'): token = eliminar_underscores(token_freeling.token) if not Freeling.esta_en_diccionario(token) and not Google.esta_en_google(token): cant_palabras_oov += 1 if len(tokens) == 0: return 0 else: return cant_palabras_oov / math.sqrt(len(tokens))
def calcular_feature(self, tweet): texto = tweet.texto texto = remover_hashtags(texto) texto = remover_usuarios(texto) oraciones = Freeling.procesar_texto(texto) tokens = list(itertools.chain(*oraciones)) cant_palabras_oov = 0 for token_freeling in tokens: if not token_freeling.tag.startswith('F') \ and not token_freeling.tag.startswith('Z') \ and not token_freeling.tag.startswith('W'): token = eliminar_underscores(token_freeling.token) if not Freeling.esta_en_diccionario( token) and not Google.esta_en_google(token): cant_palabras_oov += 1 if len(tokens) == 0: return 0 else: return cant_palabras_oov / math.sqrt(len(tokens))
def test_esta_en_google_palabra_inexistente2(self): texto = "aldnkvnvrbyweruvnrhuvhuirbv" self.assertFalse(Google.esta_en_google(texto), "No debería estar el diccionario de en google el texto \"" + texto + "\"")
def test_esta_en_google_palabra_inexistente(self): texto = "jajajajaaaaaaaa" self.assertFalse(Google.esta_en_google(texto), "No debería estar el diccionario de en google el texto \"" + texto + "\"")
def test_esta_en_google_error_de_tipeo(self): texto = "holaa" self.assertFalse(Google.esta_en_google(texto), "No debería estar el diccionario de en google el texto \"" + texto + "\"")
def test_esta_en_google_palabra_comun_con_acento(self): texto = "árbol" self.assertTrue(Google.esta_en_google(texto), "Debería estar en el diccionario de google el texto \"" + texto + "\"")
def test_esta_en_google_palabra_inexistente2(self): texto = "aldnkvnvrbyweruvnrhuvhuirbv" self.assertFalse( Google.esta_en_google(texto), "No debería estar el diccionario de en google el texto \"" + texto + "\"")
def test_esta_en_google_palabra_inexistente(self): texto = "jajajajaaaaaaaa" self.assertFalse( Google.esta_en_google(texto), "No debería estar el diccionario de en google el texto \"" + texto + "\"")
def test_esta_en_google_error_de_tipeo(self): texto = "holaa" self.assertFalse( Google.esta_en_google(texto), "No debería estar el diccionario de en google el texto \"" + texto + "\"")
def test_esta_en_google_palabra_comun_con_acento(self): texto = "árbol" self.assertTrue( Google.esta_en_google(texto), "Debería estar en el diccionario de google el texto \"" + texto + "\"")