Python Utilities.get_most_similar_word_pairs примеры использования

Язык программирования: Python

Пространство имен/Пакет: meta.scripts.Utilities

Класс/Тип: Utilities

Метод/Функция: get_most_similar_word_pairs

Примеров на hotexamples.com: 2

Python Utilities.get_most_similar_word_pairs - 2 примера найдено. Это лучшие примеры Python кода для meta.scripts.Utilities.Utilities.get_most_similar_word_pairs, полученные из open source проектов. Вы можете ставить оценку каждому примеру, чтобы помочь нам улучшить качество примеров.

Основные методы

Показать Скрыть

safe_findall(14)

dump_tsv(12)

scan_whole_dir(11)

load_tsv(10)

multi_core_queue(9)

remove_empty_values(8)

ends_with_slash(8)

dump_string(6)

single_core_queue(6)

left_merge(5)

merge_pd_series_list(4)

dict2pd_series(4)

dump_2d_array(3)

download_file(3)

filename_only(3)

is_file_valid(2)

remove_duplicate_sequences(2)

scrap_links_from_web_page(2)

load_string(2)

load_list(2)

combine_duplicate_rows(2)

get_n_majors_from_df(2)

concatenate_files(2)

flatten_2d_array(2)

dump_list(2)

get_most_similar_word_pairs(2)

get_time(1)

join_lines(1)

load_2d_array(1)

find_file_by_tail(1)

ls(1)

dump_dict(1)

decompress_file(1)

count_reads_statistics(1)

count_raw_reads_statistics(1)

count_assembly_statistics(1)

count_assembly_coverages(1)

Пример #1

Показать файл

Файл: sample_data.py Проект: ivasilyev/curated_projects

 def generate_from_directory(
         directory: str,
         regex: str = DEFAULT_REGEX,
         reads_extension: str = DEFAULT_READS_EXTENSION):
     pair_2d_array = Utilities.get_most_similar_word_pairs(
         Utilities.find_file_by_tail(directory, reads_extension))
     return SampleDataArray.generate(pair_2d_array,
                                     regex=regex,
                                     extension=reads_extension)

Пример #2

Показать файл

import pandas as pd
from shutil import copy2
from meta.scripts.Utilities import Utilities
from vradchenko.lactobacillus_salivarius.ProjectDescriber import ProjectDescriber

# Get the raw reads files
raw_reads_files_dir = ProjectDescriber.RAW_DATA_DIR
raw_reads_files_list = [
    i for i in Utilities.scan_whole_dir(raw_reads_files_dir)
    if i.endswith("_001.fastq.gz")
]

# Split them into the two groups
STRANDS = ("R1", "R2")
raw_reads_list = []
for raw_reads_files_pair in Utilities.get_most_similar_word_pairs(
        raw_reads_files_list):
    # Illumina file names have template '[sample]_[sequence]_[lane]_[strand]_[number].fastq.gz'
    # E.g: '336g_S1_L001_R1_001.fastq.gz'
    sample_name = Utilities.safe_findall(
        "(.+)_S[0-9]+_L[0-9]+_R[0-9]+_[0-9]+",
        os.path.basename(raw_reads_files_pair[0]))
    raw_reads_dict = dict(sample_name=sample_name)
    for raw_reads_file in raw_reads_files_pair:
        for reads_strand in STRANDS:
            if "_{}_".format(reads_strand) in os.path.splitext(
                    os.path.basename(raw_reads_file))[0]:
                raw_reads_dict[reads_strand] = raw_reads_file
    if all([
            raw_reads_dict.get(STRANDS[0]).replace("_{}_".format(
                STRANDS[0]), "_{}_".format(STRANDS[-1])) == raw_reads_dict.get(
                    STRANDS[-1])