Arsitektur Data Warehouse


Pada postingan saya sebelumnya yang berjudul “Pengantar Data Warehouse” saya telah menjelaskan apa itu data warehouse dan yang menjadi dasar-dasar data warehouse. Nah pada postingan kali ini saya akan membahas mengenai arsitektur data warehouse. Apa saja sih jenis-jenis arsitektur data warehouse? Darimana sajakah sumber-sumber data pada data warehouse?. Sebelum membahas lebih lanjut mengenai arsitektur data warehouse, lebih baik kita mengingat kembali apa itu data warehouse. Data warehouse adalah kumpulan data yang lengkap dan konsisten dari berbagai sumber dalam jumlah besar yang dapat dimanfaatkan oleh end user atau pengguna untuk menunjang pengambilan keputusan.
Bill Inmon mengatakan bahwa data warehouse memiliki enam sifat utama yaitu subject oriented dimana data warehouse selalu mengenal subjeknya, integrated atau terintegrasi, process oriented dimana data warehouse mengetahui proses yang dilalukan oleh subjeknya, time variant dimana data warehouse selalu menyimpan perubahan setiap waktunya, accessible atau dapat diakses, dan non volatile yaitu tidak dapat diubah.
 Selain Bill Inmon, pakar data warehouse lain yaitu Ralph Kimball mengatakan bahwa data warehouse mengumpulkan data dari sumber-sumber transaksional (OLTP) untuk kebutuhan query dan analisa data (OLAP). Namun, apa itu OLTP? OLAP? OLTP adalah singkatan dari On Line Transactional Processing dimana data yang didapat merupakan data yang bersifat transaksional. Sedangkan, OLAP adalah singkatan dari On Line Analytical Processing dimana terdiri dari query dan analisa serta selalu memperhatikan historis data.
Masih bingung dengan penjelasan diatas? Perhatikan contoh berikut. Pada database biasa, apabila terjadi perubahan baik edit maupun update, data akan ditumpuk begitu saja tanpa mengetahui data sebelumnya, hal ini dikenal dengan On Line Transactional Processing (OLTP). Sedangkan pada data warehouse, apabila terjadi peubuhan maka data akan disimpan dalam entry selanjutya yang disertai dengan subjek, proses, dan waktu, hal ini dikenal dengan On Line Analytical Peocessing.
Sebelum membahas tentang arsitektur data warehouse, akan lebih baik untuk kita mengetahui darimana saja sumber data pada data warehouse. Terdapat 2 sumber data pada data warehouse yaitu sumber internal dan eksternal. Sumber internal berasal dari data sistem transaksional seperti sistem informasi, file scan, teks, dokumen, dan lain sebagainya dalam satu jaringan internal (intranet) suatu perusahaan. Sedangkan, sumber eksternal berasal dari komputer atau sever yang terhubung melalui internet yang kemudian digudangkan dalam sistem data warehouse di jarangan lokal perusahaan. Misalnya, file atau data yang dikirim oleh pegawai yang sedang tidak di perushaan, bisa juga data diambil dari cloud.
Selanjutnya bagaimana sih arsitektur data warehouse? Terdapat 3 jenis arsitektur data warehouse yaitu basic architecture, staging area architecture, dan staging area + data mart architecture.
  • Basic Architecture
Salah satu arsitektur data warehouse adalah basic architecture, sesuai namanya yaitu basic atau dasar dimana arsitektur jenis ini merupakan dasar dari jenis arsitektur lainnya. Basic architecture data warehouse diperkanalkan oleh Oracle. Arsitektur ini terdiri dari 3 bagian yaitu data source (sumber data), warehouse (tempat data digudangkan), dan user (pengguna).
Bagian pertama adalah data source atau sumber data, dimana sumber data dari data warehouse berasal dari data transaksional baik dari sistem, file, berkas, dokumen, flat file, dan masih banyak lagi, yang selanjutnya akan disimpan pada summary data. Kemudian, bagian kedua adalah warehouse dimana tempat data digudangkan, warehouse ini memuat metadata, summary data, dan raw data. Pada warehouse data transaksional diumabh menjadi data historis analis atau yang telah dijelaskan sebelumnya yaitu OLTP ke OLAP. Dan bagian terakhir adalah user atau pengguna, pengguna sendiri dibagi menjadi 3 yaitu analyst, mining, dan reporting. Pengguna memanfaatkan data warehouse ini sesuai kebutuhan masing-masing, dimana analyst menganalisa data, mining menggali pengetahuan dari data sesuai pola yang terbentuk, dan reporting menyampaikan laporan berdasarkan hasil analisa dan mining. Berikut adalah gambaran dari basic architecture.



Gambar diatas merupakan gambaran dari basic architecture data warehouse, dimana terdapat 3 bagian yaitu data source, warehouse, dan users. Pada gambar tersebut data source atau sumber data diperoleh dari 3 sumber yaitu 2 operational system dan 1 flat files. Pada warehouse terbagi menjadi 3 bagian pula yaitu metadata, summary data, dan raw data. Dan yang terakhir yaitu users atau pengguna, dimana data warehouse berguna untuk analysis, mining, dan reporting.

  • Staging Area Architecture
Jenis arsitektur data warehouse yang kedua adalah staging area architecture yang diperkanalkan oleh oracle, dimana terdapat penambahan staging area untuk menampung data dari data source, disini dilakukan pembersihan, dirapika, dan disesuaikan dengan kebutuham agar mempermudah proses analisis sebelum diteruskan ke warehouse. Penambahan staging area dilakukan secara pragmatically atau pemrograman atau dengan penambahan modul pada sistem data warehouse. Berikut adalah gambaran dari staging area architecture.


Gambar diatas merupakan gambaran dari sataging area architecture data warehouse, struktur dari staging area architecture tidak jauh beda dengan basic architecture. Namun disini yang membedakan adalah adanya staging area dari data source sebelum ke warehouse, jadi data transaksional dari data source dikumpulkan atau disimpan terlebih dahulu ke dalam staging area untuk dirapikan, dibersihkan, dan disesuaikan, baru kemudai digudangkan dalam warehouse.

  •  Staging Area + Data Mart Architecture
Jenis arsitektur data warehouse yang ketiga adalah staging area + data mart architecture yang diperkenalkan juga oleh Oracle. Arsitektur ini paling banyak digunakan oleh perusahaan karena kemampuannya memilah dan kostumisasi data sesuai kebutuhan. Arsitektur ini tidak jauh beda pula dengan arsitektur sebelumnya, hanya terdapat penambahan data mart untuk dikombinasikan dengan staging area. Data mart berguna untuk mengolah data yang terdapat pada warehouse sebelum dilanjutkan kepada pengguna, data mart mengelompokan data warehouse sesuai jenisnya agar mempermudah penggunanya. Misalkan, sales analysis untuk bagian sales. Untuk lebih jelasnya perhatikan gambar berikut.


Gambar diatas merupakan gambaran dari staging area + data mart architecture. Strukturnya tidak jauh beda dengan staging area architecture namun terdapat tambahan data mart antara warehouse dengan users. Dimana, data mart memilah dan kostumisasi data dari warehouse sesuai kebutuhan sebelum dilanjutkan kepada pengguna.

Sumber :
Pratama, I Putu Agus Eka. 2017. Handbook Data Warehouse. Bandung. Penerbit Informatika.

Komentar

Postingan populer dari blog ini

ERP pada UKM/UMKM

Tutorial Install Pentaho Business Intelligence

Pengantar Enterprise Resource Planning