Python AzureBlobFileSystem.glob Exemples

Langage de programmation: Python

Espace de nommage/Pack: adlfs

Méthode/Fonction: glob

Exemples au hotexamples.com: 2

Python AzureBlobFileSystem.glob - 2 exemples trouvés. Ce sont les exemples réels les mieux notés de adlfs.AzureBlobFileSystem.glob extraits de projets open source. Vous pouvez noter les exemples pour nous aider à en améliorer la qualité.

Méthodes fréquemment utilisées

Afficher Cacher

AzureBlobFileSystem(30)

ls(23)

open(20)

rm(19)

mkdir(16)

rmdir(6)

find(5)

makedir(3)

exists(3)

info(3)

download(2)

upload(2)

touch(2)

glob(2)

isdir(2)

size(1)

setxattrs(1)

cp(1)

put(1)

makedirs(1)

cp_file(1)

cat(1)

getxattr(1)

get(1)

url(1)

Méthodes fréquemment utilisées

AzureBlobFileSystem (30)

ls (23)

open (20)

rm (19)

mkdir (16)

rmdir (6)

find (5)

makedir (3)

exists (3)

info (3)

Méthodes fréquemment utilisées

download (2)

upload (2)

touch (2)

glob (2)

isdir (2)

size (1)

setxattrs (1)

cp (1)

put (1)

makedirs (1)

cp_file (1)

cat (1)

getxattr (1)

get (1)

url (1)

Méthodes fréquemment utilisées

cp_file (1)

cat (1)

getxattr (1)

get (1)

url (1)

Exemple #1

0

Afficher le fichier

Fichier : test_spec.py Projet : parvinderahlawat/adlfs

def test_dask_parquet(storage): fs = AzureBlobFileSystem(account_name=storage.account_name, connection_string=CONN_STR) fs.mkdir("test") STORAGE_OPTIONS = { "account_name": "devstoreaccount1", "connection_string": CONN_STR, } df = pd.DataFrame({ "col1": [1, 2, 3, 4], "col2": [2, 4, 6, 8], "index_key": [1, 1, 2, 2], "partition_key": [1, 1, 2, 2], }) dask_dataframe = dd.from_pandas(df, npartitions=1) for protocol in ["abfs", "az"]: dask_dataframe.to_parquet( "{}://test/test_group.parquet".format(protocol), storage_options=STORAGE_OPTIONS, engine="pyarrow", ) fs = AzureBlobFileSystem(**STORAGE_OPTIONS) assert fs.ls("test/test_group.parquet") == [ "test/test_group.parquet/_common_metadata", "test/test_group.parquet/_metadata", "test/test_group.parquet/part.0.parquet", ] fs.rm("test/test_group.parquet") df_test = dd.read_parquet( "abfs://test/test_group.parquet", storage_options=STORAGE_OPTIONS, engine="pyarrow", ).compute() assert_frame_equal(df, df_test) A = np.random.randint(0, 100, size=(10000, 4)) df2 = pd.DataFrame(data=A, columns=list("ABCD")) ddf2 = dd.from_pandas(df2, npartitions=4) dd.to_parquet( ddf2, "abfs://test/test_group2.parquet", storage_options=STORAGE_OPTIONS, engine="pyarrow", ) assert fs.ls("test/test_group2.parquet") == [ "test/test_group2.parquet/_common_metadata", "test/test_group2.parquet/_metadata", "test/test_group2.parquet/part.0.parquet", "test/test_group2.parquet/part.1.parquet", "test/test_group2.parquet/part.2.parquet", "test/test_group2.parquet/part.3.parquet", ] df2_test = dd.read_parquet( "abfs://test/test_group2.parquet", storage_options=STORAGE_OPTIONS, engine="pyarrow", ).compute() assert_frame_equal(df2, df2_test) a = np.full(shape=(10000, 1), fill_value=1) b = np.full(shape=(10000, 1), fill_value=2) c = np.full(shape=(10000, 1), fill_value=3) d = np.full(shape=(10000, 1), fill_value=4) B = np.concatenate((a, b, c, d), axis=1) df3 = pd.DataFrame(data=B, columns=list("ABCD")) ddf3 = dd.from_pandas(df3, npartitions=4) dd.to_parquet( ddf3, "abfs://test/test_group3.parquet", partition_on=["A", "B"], storage_options=STORAGE_OPTIONS, engine="pyarrow", ) assert fs.glob("test/test_group3.parquet/*") == [ "test/test_group3.parquet/A=1", "test/test_group3.parquet/_common_metadata", "test/test_group3.parquet/_metadata", ] df3_test = dd.read_parquet( "abfs://test/test_group3.parquet", filters=[("A", "=", 1)], storage_options=STORAGE_OPTIONS, engine="pyarrow", ).compute() df3_test = df3_test[["A", "B", "C", "D"]] df3_test = df3_test[["A", "B", "C", "D"]].astype(int) assert_frame_equal(df3, df3_test) A = np.random.randint(0, 100, size=(10000, 4)) df4 = pd.DataFrame(data=A, columns=list("ABCD")) ddf4 = dd.from_pandas(df4, npartitions=4) dd.to_parquet( ddf4, "abfs://test/test_group4.parquet", storage_options=STORAGE_OPTIONS, engine="pyarrow", flavor="spark", write_statistics=False, ) fs.rmdir("test/test_group4.parquet/_common_metadata", recursive=True) fs.rmdir("test/test_group4.parquet/_metadata", recursive=True) fs.rm("test/test_group4.parquet/_common_metadata") fs.rm("test/test_group4.parquet/_metadata") assert fs.ls("test/test_group4.parquet") == [ "test/test_group4.parquet/part.0.parquet", "test/test_group4.parquet/part.1.parquet", "test/test_group4.parquet/part.2.parquet", "test/test_group4.parquet/part.3.parquet", ] df4_test = dd.read_parquet( "abfs://test/test_group4.parquet", storage_options=STORAGE_OPTIONS, engine="pyarrow", ).compute() assert_frame_equal(df4, df4_test) A = np.random.randint(0, 100, size=(10000, 4)) df5 = pd.DataFrame(data=A, columns=list("ABCD")) ddf5 = dd.from_pandas(df5, npartitions=4) dd.to_parquet( ddf5, "abfs://test/test group5.parquet", storage_options=STORAGE_OPTIONS, engine="pyarrow", ) assert fs.ls("test/test group5.parquet") == [ "test/test group5.parquet/_common_metadata", "test/test group5.parquet/_metadata", "test/test group5.parquet/part.0.parquet", "test/test group5.parquet/part.1.parquet", "test/test group5.parquet/part.2.parquet", "test/test group5.parquet/part.3.parquet", ] df5_test = dd.read_parquet( "abfs://test/test group5.parquet", storage_options=STORAGE_OPTIONS, engine="pyarrow", ).compute() assert_frame_equal(df5, df5_test)

Exemple #2

0

Afficher le fichier

Fichier : test_spec.py Projet : parvinderahlawat/adlfs

def test_glob(storage): fs = AzureBlobFileSystem(account_name=storage.account_name, connection_string=CONN_STR) ## just the directory name assert fs.glob("data/root") == ["data/root"] # top-level contents of a directory assert fs.glob("data/root/") == [ "data/root/a", "data/root/b", "data/root/c", "data/root/rfile.txt", ] assert fs.glob("data/root/*") == [ "data/root/a", "data/root/b", "data/root/c", "data/root/rfile.txt", ] assert fs.glob("data/root/b/*") == ["data/root/b/file.txt"] # NOQA assert fs.glob("data/root/b/**") == ["data/root/b/file.txt"] # NOQA ## across directories assert fs.glob("data/root/*/file.txt") == [ "data/root/a/file.txt", "data/root/b/file.txt", ] ## regex match assert fs.glob("data/root/*/file[0-9].txt") == [ "data/root/c/file1.txt", "data/root/c/file2.txt", ] ## text files assert fs.glob("data/root/*/file*.txt") == [ "data/root/a/file.txt", "data/root/b/file.txt", "data/root/c/file1.txt", "data/root/c/file2.txt", ] ## all text files assert fs.glob("data/**/*.txt") == [ "data/root/a/file.txt", "data/root/b/file.txt", "data/root/c/file1.txt", "data/root/c/file2.txt", "data/root/rfile.txt", ] ## all files assert fs.glob("data/root/**") == [ "data/root/a", "data/root/a/file.txt", "data/root/b", "data/root/b/file.txt", "data/root/c", "data/root/c/file1.txt", "data/root/c/file2.txt", "data/root/rfile.txt", ] assert fs.glob("data/roo**") == [ "data/root", "data/root/a", "data/root/a/file.txt", "data/root/b", "data/root/b/file.txt", "data/root/c", "data/root/c/file1.txt", "data/root/c/file2.txt", "data/root/rfile.txt", ] ## missing assert fs.glob("data/missing/*") == []