def extracte_text(url, sparams): # Добавляем адрес для послед. сост. обратного индекса result = ['url: '+url] result.append('') params = json.loads(sparams) # TODO(zaqwes): пока рассм. только файлы операционной системы if 'external_url' in params: return None, "Error: No implement processing external url." # Файлы файловой системы if 'to_text' in params: convertor_name = params['to_text'] call_map = get_call_map() text_content = call_map[convertor_name](url) result.append(text_content) return result # Обработка по умолчанию # Сам контент # TODO(zaqwes): url for GET может быть разным # TODO(zaqwes): Костыль - подходит только для файлов файловой системы # причем пока только текстовых extention = url.split('.')[-1] text_content = '' if extention == 'srt': text_content = std_srt_to_text_line(url) else: print 'Error: No implemented. Recognize only *.srt files. It *.'+extention result.append(text_content) return result
def spider_str_processor(job): metadata = {'node_name':job[0]} node_name = job[0] url = job[1] number = job[2] metadata['url'] = url result = ['meta', ''] # Очищаем файлы purged_content_file = std_srt_to_text_line(url) # делем не предложения и определяем язык lang = split_to_sentents(purged_content_file, result) metadata['lang'] = lang result[0] = json.dumps(metadata) path_to_file = 'tmp/'+node_name+'_N'+str(number)+'.txt' write_result_file(result, path_to_file) return (node_name, path_to_file)