Exemplo n.º 1
0
def extracte_text(url, sparams):
    # Добавляем адрес для послед. сост. обратного индекса
    result = ['url: '+url]
    result.append('')
    
    params = json.loads(sparams)
    
    # TODO(zaqwes): пока рассм. только файлы операционной системы
    if 'external_url' in params:
        return None, "Error: No implement processing external url."
    
    # Файлы файловой системы
    if 'to_text' in params:
        convertor_name = params['to_text']
        call_map = get_call_map()
        text_content = call_map[convertor_name](url)
        result.append(text_content)
        return result
        
    # Обработка по умолчанию
    
    # Сам контент
    # TODO(zaqwes): url for GET может быть разным
    # TODO(zaqwes): Костыль - подходит только для файлов файловой системы
    #   причем пока только текстовых
    extention = url.split('.')[-1]  
    
    text_content = ''
    if extention == 'srt':
        text_content = std_srt_to_text_line(url)
    else:
        print 'Error: No implemented. Recognize only *.srt files. It *.'+extention
    result.append(text_content)
    
    return result
Exemplo n.º 2
0
 def spider_str_processor(job):
     metadata = {'node_name':job[0]}
     node_name = job[0]
     url = job[1]
     number = job[2]
     metadata['url'] = url
     
     result = ['meta', '']
     # Очищаем файлы
     purged_content_file = std_srt_to_text_line(url)
     
     # делем не предложения и определяем язык
     lang = split_to_sentents(purged_content_file, result)
     metadata['lang'] = lang
     
     result[0] = json.dumps(metadata)
     path_to_file = 'tmp/'+node_name+'_N'+str(number)+'.txt'
     write_result_file(result, path_to_file)
     return (node_name, path_to_file)