Mengkonsumsi data di Azure Synapse Data Explorer Pool

Database


Dalam artikel ini, kami akan menunjukkan cara mengonfigurasi kumpulan Data Explorer baru di Azure Synapse dan kemudian mengonfigurasi data di kumpulan yang sama.

pengantar

Dalam artikel saya sebelumnya, Memulai dengan Kumpulan Data Explorer di Azure Synapse, kami mempelajari cara membuat kumpulan Data Explorer di Azure Synapse dan nilai unik yang dibawa Data Explorer ke data semi-terstruktur dan teks bebas. Membuat kumpulan Data Explorer adalah langkah pertama dalam proses ini. Setelah kumpulan dibuat, struktur data dapat dibuat, data dikonsumsi, dan kemudian digunakan untuk konsumsi. Antarmuka kumpulan Data Explorer menawarkan beberapa cara untuk mengimpor data ke dalam kumpulan, termasuk penyerapan satu klik.

Serap data di kumpulan Azure Synapse Data Explorer

Sebelum kita melanjutkan dengan latihan ini, diasumsikan bahwa instance Azure Synapse telah dibuat serta kumpulan Azure Data Explorer seperti yang dijelaskan dalam artikel sebelumnya. Saat kolam dibuat, akan terlihat seperti di bawah ini. Membuat kolam adalah langkah pertama dalam proses ini. Setelah membuat kumpulan, langkah selanjutnya adalah membuat database baru di kumpulan Azure Data Explorer seperti yang ditunjukkan di bawah ini di dasbor kumpulan.


Kumpulan Penjelajah Data

Untuk membuat database baru menggunakan wizard Create New Database, klik tombol Create Database. Kami hanya perlu memberikan detail dasar – nama basis data, periode penyimpanan, dan periode cache. Ini dalam satuan hari dan nilai default periode penyimpanan adalah 365 hari dan nilai default periode cache adalah 31 hari. Berikan nilai-nilai ini dan klik tombol Buat untuk membuat database baru di kumpulan Azure Data Explorer di Azure Synapse.


Buat database

Setelah database baru dibuat, langkah selanjutnya adalah mulai membuat struktur data di dalamnya dan mengisinya dengan data. Setelah database dibuat, kita akan mendapatkan dua opsi seperti yang ditunjukkan di bawah ini. Setelah Anda harus segera menggunakan data baru dan membuat struktur data baru selama proses penyerapan. Pilihan lainnya adalah membuat koneksi data baru ke kumpulan atau klaster penyelidikan data lainnya. Seperti disebutkan di bawah, ini memungkinkan akuisisi data otomatis setelah mengklik dan menawarkan berbagai fitur manajemen data.


penyerapan data

Klik tombol Buat koneksi data dan halaman baru akan terbuka seperti yang ditunjukkan di bawah ini. Pada draf artikel ini, kumpulan data explorer mendukung tiga jenis koneksi, yaitu dengan Event Hub, Blob Storage, dan IoT Hub. Ini adalah sumber data yang biasanya menyediakan data dalam format semi-terstruktur seperti JSON, CSV, Parket, dan format serupa lainnya. Untuk saat ini, kami tidak akan fokus untuk membuat koneksi baru ke sumber ini, sebagai gantinya, kami akan fokus untuk mendapatkan data baru dari Azure Data Lake Storage, yang umumnya merupakan sumber data utama dalam skenario Data Lake.


Komunikasi data

Sebelum kita mengklik tombol Ingest data baru, kita juga dapat memeriksa cara membuat koneksi ke Azure Data Lake Storage dari langkah ini. Pilih opsi penyimpanan Blob dan itu akan menampilkan halaman berikut untuk menentukan konfigurasi untuk membuat koneksi baru ke Azure Data Lake Storage. Kita perlu memilih akun Azure Data Lake Storage di pengaturan akun penyimpanan dan detail lainnya dapat memiliki nilai default. Untuk saat ini, kami memarkir masalah koneksi data dan melanjutkan dengan aspek transfer data.


koneksi ADLS

Ketika kita mengklik tombol Ingest data baru, antarmuka baru akan terbuka seperti yang ditunjukkan di bawah ini. Panduan untuk menerima data sudah terbuka, dan langkah pertama memerlukan pendaftaran Cluster Azure Data Explorer dengan database yang dihostingnya. Kami memiliki opsi untuk membuat tabel baru atau menggunakan tabel yang ada untuk mengisinya dengan data yang diterima.


Konsumsi data baru

Di antarmuka ini, sebelum kita melanjutkan dengan langkah-langkah selanjutnya, kita dapat melihat tab Data di sisi kiri seperti yang ditunjukkan di bawah ini. Tab ini mencantumkan semua opsi manajemen data berbeda yang dapat dilakukan di kumpulan data explorer. Tindakan utama atau paling umum adalah membuat tabel baru atau menyisipkan data ke dalam tabel, dan ini tercantum di bagian tindakan cepat seperti yang ditunjukkan di bawah ini.


Manajemen data

Di bawah jendela Tindakan Cepat, kami menemukan opsi untuk mendaftarkan data eksternal, membuat tabel baru, dan juga menerima data dari sumber data seperti file lokal, wadah gelembung, ADLS, dan Hub Peristiwa. Sekarang, kita lanjutkan dengan langkah mendapatkan data dari Azure Data Lake Storage. Untuk melakukan hal yang sama, klik opsi Serap data dari bagian tautan cepat.


Penjelajah Data Azure

Cluster di sini sudah mencantumkan cluster Azure Data Explorer yang kami buat di Azure Synapse. Basis data yang tercantum di sini adalah yang kami buat di langkah 2, setelah membuat kumpulan Data Explorer. Menggunakan opsi buat tabel baru, di sini saya telah membuat tabel untuk tujuan demonstrasi, jadi daftar tabel sudah ada di sini. Jika tidak memiliki tabel, mereka juga dapat memilih opsi Buat Tabel Baru, yang akan membuat tabel baru, lalu mengisinya dengan data dari sumber data.


Tangkap dengan satu klik

Pada langkah selanjutnya, kita perlu memilih konfigurasi sumber data. Karena kami ingin mengambil data dari Azure Data Lake Storage, jenis sumbernya adalah wadah gelembung. Seperti yang Anda lihat di bawah, kami dapat memuat data dalam jumlah besar menggunakan opsi data historis atau melanjutkan dengan opsi pemuatan berkelanjutan satu kali default yang memuat data sekarang dan kemudian membuat koneksi jaringan acara untuk pemuatan berikutnya. . . Dalam kasus kami, kami akan melanjutkan dengan opsi default sekali dan terus menerus. Kami dapat menentukan wadah yang tepat selama file sumber di-host, jadi alih-alih menggunakan opsi URL, kami memilih opsi wadah seperti yang ditunjukkan di bawah ini. Kemudian kita dapat memilih akun Azure Data Lake Storage di pengaturan akun penyimpanan seperti gambar di bawah ini. Setelah selesai, pilih file persis yang ingin kita gunakan sebagai sumber untuk diimpor ke kumpulan Azure Data Explorer di Azure Synapse.


Satu kali penggunaan terus menerus

Pada langkah selanjutnya, kita dapat melihat format file yang disimpulkan oleh alat ini dari file tersebut. Di sini, hati-hati mengidentifikasi nilai dan data bidang. Kami memiliki opsi untuk mengonfigurasi pengaturan penguraian data sehingga data terbaca sesuai keinginan. Kita dapat menggunakan pemetaan bidang yang ada antara bidang sumber dan bidang tujuan dalam tabel yang ada, atau kita dapat membuat pemetaan baru.


Skema dan pratinjau data

Setelah selesai, klik di atasnya Berikutnya Tekan untuk melihat rincian ringkasan. Setelah memeriksa, lanjutkan ke langkah berikutnya untuk mengisi data di tabel tujuan di kumpulan Azure Data Explorer di Azure Synapse. Setelah data dimuat, kita bisa pergi ke Azure Synapse Analytics Studio dan membuka UI Web untuk menjelajahi objek data di kumpulan Data Explorer dan mencari data dari objek ini. Ketikkan nama tabel seperti gambar di bawah ini sehingga kita dapat menemukan hasil dan statistik tabel ini. Di sini juga menunjukkan ukuran dataset bersama dengan jumlah total catatan di dalamnya.


Tabel statistik

Dengan cara ini, kita dapat mengimpor data ke dalam tabel yang dihosting di kumpulan Azure Data Explorer di Azure Synapse.

Hasil

Dalam artikel ini, kami mulai dengan menyiapkan kumpulan Azure Data Explorer di Azure Synapse dan mengonfigurasinya dengan membuat database dan membuat tabel di dalamnya. Kami mengisinya dengan data dari Azure Data Lake Storage dan mengaksesnya dari tab Data di Azure Synapse Studio.

Gauri Mahajan
Postingan terbaru Gauri Mahajan (Lihat semua)



Source link

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *