Pengertian OLAP

Posted By frf on Rabu, 07 Desember 2016 | 08.19.00

1 Pengertian OLAP
  • Menurut Inmon (2005: 500), OLAP merupakan bagian pemrosesan untuk lingkungan data mart.
  • Menurut Connolly & Begg (2005: 1205), OLAP adalah sintesis, analisis, dan konsolidasi dinamis dari sejumlah besar data multidimensional. OLAP merupakan tampilan mullti-dimensional dari data agregat untuk menyediakan akses cepat kepada informasi strategis yang akan digunakan untuk tujuan analisis tingkat lanjut.
  • Menurut Kimball & Ross (2002: 408), OLAP adalah kumpulan aturan yang menyediakan sebuah kerangka dimensional yang dapat mendukung sebuah keputusan.
  • Menurut Saptadi & Lisangan (2010: 83), OLAP adalah penggunaan sekumpulan perangkat grafis yang membantu user dalam menampilkan data secara multidimensional sehingga user dapat menganalisis data tersebut dengan menggunakan teknik yang lebih sederhana.
Berdasarkan teori-teori diatas dapat disimpulkan bahwa OLAP adalah teknologi yang menggunkana sekumpulan prinsip kerangka kerja dimensional yang memakai data agregat untuk menyediakan akses cepat kepada informasi strategis sehingga dapat dipakai untuk melakukan analisis tingkat lanjut dalam untuk mendukung proses pengambilan keputusan.

2 Pengertian Data Warehouse
  • Menurut Reeves (2009: 4), data warehouse adalah sekumpulan proses dan data yang memiliki tujuan untuk mendukung bisnis dengan analisis dan pengambilan keputusan.
  • Menurut Singh, D.C.Upadhaya, & Yadav (2011: 1), data warehouse adalah sistem kompleks yang terdiri dari banyak komponen yang menyimpan data untuk mendukung keputusan. 
  • Menurut Inmon (2005: 29), data warehouse adalah kumpulan basis data yang mempunyai sifat berorientasi subyek, terintegrasi, mempunyai rentang waktu, yang dirancang untuk mendukung fungsi sistem pendukung pengambilan keputusan
  • Menurut Turban, McLean, & Wetherbe (2004: 55), data warehouse adalah database yang didesain untuk mendukung DSS, ESS, dan proses analisis lainnya dan aktivitas end-user.
Berdasarkan teori-teori tersebut dapat disimpulkan bahwa data warehouse adalah tempat penyimpanan data yang berorientasi pada subjek, terintegrasi, tidak mudah berubah, dan memiliki rentang waktu, yang diambil dari database operasional, historis, dan eksternal, yang diproses agar dapat dianalisis untuk mendukung proses pengambilan keputusan.

3 Perbandingan OLTP dengan Data Warehouseksi yang memiliki performa tinggi.

  • Menurut Connolly & Begg (2005: 1149), OLTP adalah sistem yang dirancang untuk menangani jumlah hasil transaksi yang tinggi, dengan transaksi yang biasanya membuat perubahan kecil pada data operasional perusahaan, yaitu data yang diperulkan oleh perusahaan untuk menangani operasi dari hari ke hari.
  • Menurut Kimball & Ross (2002: 408), OLTP adalah deksripsi awal dari setiap aktivitas dan sistem yang berhubungan dengan proses input data ke dalam sebuah database

Berdasarkan teori-teori tersebut dapat disimpulkan bahwa OLTP adalah suatu sistem berperforma tinggi yang dirancang untuk menangani proses transaksi yang terjadi setiap hari pada perushaan, dan data dari hasil transaksi tersebut dimasukkan ke dalam database secara berkala.

1. Keuntungan Data Warehouse
Menurut Connolly & Begg (2005: 1152), data warehouse yang telah diimplementasikan dengan baik dapat memberikan keuntungan yang besar bagi organisasi, yaitu:
a) Potensi nilai kembali yang besar pada investasi
Sebuah organisasi harus mengeluarkan uang dan sumber daya dalam jumlah yang cukup besar untuk memastikan kalau data warehouse telah diimplementasikan dengan baik, biaya yang di keluarkan tergantung dari solusi teknikal yang dinginkan. Akan tetapi, setelah data warehouse digunakan, maka kemungkinan didapatkan ROI (Return on Investment) akan relatif lebih besar

b) Keuntungan kompetitif
Keuntungan kompetitif didapatkan apabila pengambil keputusan mengakses data yang dapat mengungkapkan informasi yang sebelumnya tidak diketahui, tidak tersedia, misalnya informasi mengenai konsumen, trend, dan permintaan.

c) Meningkatkan produktivitas para pengambil keputusan perusahaan
Data warehouse meningkatkan produktivitas para pengambil keputusan perusahaan dengan menciptkan sebuah database yang terintegrasi secara konsisten, berorientasi pada subjek, dan data historis. Data warehouse mengintegrasikan data dari beberapa sistem yang tidak compatible ke dalam bentuk yang menyediakan satu padangan yang konsisten dari organisasi. Dengan mengubah data menjadi informasi yang berguna, maka seorang manajer bisnis dapat membuat analisa yang lebih akurat dan konsisten.

Al-Debei (2011: 158) menambahkan bahwa data warehouse dapat bermanfaat untuk meningkatkan kinerja bisnis, seperti pada kasus Berndt yang menggunakan data warehouse untuk melakukan identifikasi dan mencari pola dari penyakit yang memiliki kemungkinan untuk merusak alam. Contoh lainnya adalah Ahmad yang menggunakan aplikasi data warehouse untuk membuat sistem DSS yang berguna untuk membantu pengambilan keputusan, lebih khususnya digunakan untuk memilih tempat tinggal di kompleks perumahan. Contoh yang ketiga adalah seseorang bernama Park yang memperlihatkan eksperimen laboratorium yang meningkatkan kemampuan data warehouse untuk mendukung sistem DSS dengan menambahkan data untuk kepentingan pengambilan kpeutusan bisnis. Dan yang terakhir adalah Griffin yang berargumen bahwa data warehouse dapat meningkatkan kemampuan perusahaan dengan keunggulan kompetitif karena dapat membantu manajer untuk mengambil keputusan.

2. Karakteristik Data Warehouse
Beberapa karakteristik data warehouse menurut Inmon (2005: 34) adalah :
a) Subject Oriented
Data warehouse berorientasi subjek artinya data warehouse didesain untuk menganalisa data berdasarkan subjek-subjek tertentu dalam organisasi, bukan pada proses atau fungsi aplikasi tertentu.

Data warehouse diorganisasikan disekitar subjek-subjek utama dari perusahaan (customers, products, dan sales) dan tidak diorganisasikan pada area-area aplikasi utama (customer invoicing, stock control, dan product sales). Hal ini dikarenakan kebutuhan dari data warehouse untuk menyimpan data-data yang bersifat sebagai penunjang suatu keputusan daripada aplikasi yang berorientasi terhadap data.

Contohnya dalam perusahaan asuransi data warehouse akan berorientasi pada subyek utama perusahaan antara lain customer, kebijakan, premi, dan klaim sedangkan OLTP lebih berorientasi pada aplikasi-aplikasi operasional perusahaannya antara lain asuransi mobil, asuransi kesehatan, asuransi jiwa, asuransi kecelakaan.

b) Integrated
Karakteristik data warehouse yang kedua adalah terintegrasi. Dari semua karakteristik data warehouse, terintegrasi merupakan karakteristik yang paling penting. Terintegrasi maksudnya data warehouse dapat menyimpan data-data yang berasal dari sumber-sumber yang terpisah kedalam suatu format yang konsisten dan saling terintegrasi satu sama lain. Data tersebut diubah, diformat ulang, disusun ulang, diringkas, dan seterusnya. Hasilnya, data dalam data warehouse sudah merupakan satu kesatuan yang berhubungan dan tidak dapat terpisahkan lagi.

Misalnya, untuk menggambarkan jenis kelamin, ada sumber data yang menggunakan istilah M dan F, sumber data lainnya menggunakan istilah 1 dan 0, sedangkan sumber data yang ketiga menggunakan istilah A dan B. Pada data warehouse, harus ada satu gambaran fisik yang satu kesatuan untuk menggambarkan jenis kelamin, sehingga data warehouse akan mengambil dan memilih salah satu istilah saja, misalnya menggunakan M dan F.

c) Non-Volatile
Karakteristik yang ketiga adalah non-volatile, yang berarti data pada data warehouse tidak di-update secara real time tetapi di refresh dari sistem operasional secara reguler. 

Data Warehouse berbeda dengan database, pada database terdapat tiga operasi, yaitu insert, update, dan delete. Sedangkan pada data warehouse hanya ada dua operasi data yaitu loading data (mengambil data) dan akses data (query data). Artinya user hanya boleh melakukan proses read, bukan write. Tujuannya adalah untuk menjaga keaslian dan integrasi data di dalam sistem, dan ini pula yang membedakan antara data warehouse dengan OLTP.

d) Time Variant
Time Variant maksudnya seluruh data pada data warehouse berhubungan dengan elemen waktu. Secara umum, sistem operasional tidak memiliki data historis. Untuk itu, data warehouse menjawab masalah tersebut dengan memberikan dimensi historis pada data yang dapat diambil dari database operasional.

Data Warehouse berisi record-record yang bersifat historis. Record dalam data warehouse berjangka waktu 5-10 tahun, sehingga record yang lama akan tetap berada di dalam sistem. Hal ini digunakan untuk bahan analisis bagi pengambil keputusan dalam menentukan trend bisnis yang ada di masa lalu. Namun record yang terlalu lama juga tidak baik disimpan, sebab dapat memberikan hasil analisis yang kurang tepat. Dalam OLTP, record yang dimiliki merupakan record yang terbaru. OLTP tidak menyimpan data yang lama, dengan maksud untuk mempercepat proses. Semakin sedikit data yang disimpan maka waktu yang diperlukan untuk pemrosesan data semakin kecil.

Data dalam data warehouse berhubungan dengan suatu titik atau point dalam suatu periode tertentu (semester, kuartal, tahun fiskal). Data tersebut merupakan data hasil summary. Hal ini membantu dalam menentukan performa query data warehouse serta dalam membentuk pengertian bisnis.

3. Granularity
Menurut Inmon (2005: 41), Granularity merupakan suatu level dari detail atau ringkasan pada unit data di dalam data warehouse. Semakin banyak detail atau ringkasan pada unit data maka akan semakin rendah level pada granularity.

Contohnya adalah sebuah transaksi yang sederhana akan berada pada tingkat granularity yang rendah, sedangkan keseluruhan dari transaksi dalam satu bulan akan berada pada level granularity yang tinggi.

Granularity merupakan permasalahan utama dalam mendesain lingkungan data warehouse karena berpengaruh besar pada volume dari data yang terletak didalam data warehouse.
Granularity memiliki beberapa keuntungan diantaranya :
1. Dapat digunakan kembali
Dikatakan dapat digunakan kembali karena dapat digunakan oleh banyak orang dengan berbagai cara yang berbeda. Contohnya data yang sama dapat digunakan untuk memenuhi kebutuhan dalam bidang pemasaran, penjualan dan keuangan. Pemasaran menginginkan melihat data bulanan berdasarkan area geografi, penjualan ingin melihat data penjualan setiap agen berdasarkan area geografi tiap minggu, dan keuangan melihat pendapatan setiap kuarter berdasarkan produk.

2. Kemampuan untuk mencocokkan data
Jika memiliki satu dasar yang sama untuk semuanya, maka jika terjadi perbadaan dalam analisis antara dua atau lebih departemen, proses pencocokan akan menjadi sederhana.

3. Fleksibel
Dimana para pengguna dapat merubah data sesuai dengan tampilan yang mereka inginkan sehingga pekerjaan dapat diselesaikan dengan mudah.

4. Granularity terdiri dari sebuah history dari aktifitas-aktifitas dan kejadian perusahaan.
Dalam jangka waktu yang panjang, efisiensi sangat dibutuhkan dalam menyimpan dan mengakses data serta kemampuan dalam menganalisa data dalam detail data yang tepat. Sehingga data warehouse membutuhkan sesuatu yang lebih dari satu tingkat granularity tetapi dua tingkat granularity,

Keuntungan dari granularity dua tingkat adalah kita dapat memproses permintaan utama dengan sangat efisien dan dapat menjawab berbagai pertanyaan yang ada. Karena biaya, efisiensi, kemudian dalam mengakses, dan kemampuan dalam menjawab berbagai query, dual of level data merupakan arsitektur terbaik dalam detail data pada data warheouse.

Kebutuhan yang tidak jelas dimasa yang akan datang dapat diakomodasi. Saat ada kebutuhan baru dan ada kebutuhan informasi, data warehouse sudah siap untuk melakukan analisis dan organisasi disiapkan untuk menangani kebutuhan yang baru.

Arsitektur Data Warehouse
1 Operational Data
Sumber data dari data warehouse dapat diambil langsung dari :
  • Mainframe data operasional yang ada dalam jaringan database
  • Data masing-masing departemen yang disimpan dalam sistem file kepemilikan seperti VSAM, RMS, dan relational DBMS seperti Informix dan Oracle.
  • Data pribadi yang tersimpan di dalam workstation dan server pribadi.
  • Sistem eksternal seperti internet, database komersial, atau database yang berhubungan dengan supplier dan customer
2 Operational Data Store
Suatu operational data store adalah suatu media penyimpanan dan pengintegrasian data operasional yang digunakan untuk melakukan analisis. ODS menyediakan data dengan cara yang sama seperti data warehouse, tetapi sesungguhnya bertindak secara sederhana sebagai tempat penampungan data secara sementara dipindahkan ke data warehouse. 

Membangun ODS dapat membantu dalam pembuatan data warehouse sebab suatu ODS dapat menyediakan data yang telah di-extract dan di-cleansing dari sistem sumber. Ini berarti bahwa proses integrasi dan restrukturisasi data untuk data warehouse menjadi lebih sederhana.
3 Load Manager
Load Manager disebut juga sebagai fronted component. Tugas load manager adalah melakukan semua operasi yang berhubungan dengan pengambilan dan load data ke dalam data warehouse. Data di-extract secara lansgung dari sumber data atau dari penyimpanan data operasional. Operasi yang dilakukan oleh load manager dapat meliputi perubahan bentuk yang sederhana untuk mempersiapkan data tersebut agar dapat dimasukkan ke dalam warehouse.
4 Warehouse Manager
Warehouse Manager melaksanakan semua operasi yang berhubungan dengan pengelolaan atas data dalam warehouse. Komponen ini dibuat dengan vendor data management tools dan custom-built programs. Operasi-operasi yang dilaksanakan oleh warehouse manager meliputi :
  • Analisa terhadap data untuk memastikan konsistensi.
  • Transformasi dan penggabungan sumber data dari tempat penyimpanan sementara menjadi tabel-tabel data warehouse.
  • Pembuatan index dan view berdasarkan tabel-tabel dasar.
  • Menghasilkan denormalisasi (jika diperlukan).
  • Menghasilkan agregasi (jika diperlukan).
  • Backup dan archieve data.
5 Query Manager
Query Manager (disebut juga sebagai backend component) melakukan semua operasi yang berkaitan dengan pengelolaan dari query user. Komponen ini secara khusus dibangun menggunakan peralatan akses data end-user, peralatan pengontrol data warehouse, fasilitas database, dan custom-built program. Kompleksitas query manager ditentukan oleh fasilitas yang disediakan oleh tool akses end-user dan database.

Operasi yang dilakukan komponen ini meliputi pengarahan query pada tabel yang sesuai dan penjadwalan pelaksanaan query. Dalam bebeapa kasus, terkadang query manager juga menghasilkan profil query yang mengijinkan warehouse manager menentukan kesesuaian index dan agregasi.
6 Detailed Data
Area ini menyimpan semua data detil di dalam skema database, yang bertujuan untuk melengkapkan kumpulan data untuk data warehouse. Dalam banyak kasus, data yang terperinci tidaklah disimpan secara online tetapi dapat disediakan melalui agregasi data pada tingkatan detil berikutnya.
7 Lightly and Highly Summarized Data
Area ini menyimpan semua lightly and highly summarized (aggregated) data yang dihasilkan oleh warehouse manager. Area ini adalah tempat penampungan sementara sebelum dilakukan perubahan secara berkelanjutan untuk merespon perubahan profil query.

Tujuan ringkasan informasi ini adalah untuk mempercepat penyampaian query. Meskipun biaya operasi akan meningkat sehubungan dengan proses peringkasan data tersebut, ini akan diseimbangkan dengan menghapus keperluan untuk secara terus menerus melakuan operasi ringkasan dalam menjawab query user. Ringkasan data di-update secara terus menerus ketika ada data baru terisi ke dalam warehouse.
8 Archive/Backup Data
Area ini menyimpan semua detil dan ringkasan data untuk kepentingan archiving dan backup. Walaupun ringkasan data dihasilkan dari detil data, itu akan mungkin untuk membutuhkan backup ringkasan data secara online jika data ini disimpan melebihi periode penyimpanan untuk data yang terinci. Data ditransfer ke arsip penyimpanan seperti magnetic tape atau optical disk.
9 Metadata
Area ini menyimpan semua definisi metadata yang digunakan oleh semua proses di dalam data warehouse. Metadata digunakan untuk berbagai tujuan termasuk :
  • Proses extract dan load atas metadata digunakan untuk memetakan sumber data ke dalam pandangan umum data dalam warehouse.
  • Sebagai proses pengelolan warehouse, metadata digunakan untuk mengotomatisasi pembuatan atas tabel ringkasan.
  • Sebagai bagian proses pengelolaan query, metadata digunakan untuk mengarahkan suatu query dengan sumber data yang tepat.
Menurut Inmon (2005: 500), metadata adalah data tentang data, deskripsi dari struktur, isi, kunci, indeks, dan lain-lain dari data.

Menurut Inmon (2005: 261-262), hal-hal penting dari metadata adalah sebagai berikut :
  1. ID Dokumen
  2. Tanggal entri ke warehouse
  3. Deskripsi dari dokumen
  4. Sumber dari dokumen
  5. Tanggal sumber dari dokumen
  6. Klasifikasi dokumen
  7. Indeks kata
  8. Pembersihan Tangga
  9. Lokasi fisikal
  10. Panjang dokumen
  11. Referensi terkait
Menurut Inmon (2005: 102), dalam membuat metadata harus memenuhi syarat-syarat sebagai berikut :
  • Struktur data yang dikenal programme
  • Struktur data yang dikenal analis DSS
  • Sumber data yang membantu data warehouse
  • Transformasi data ketika dilewatkan ke data warehouse
  • Model data
  • Hubungan antara model data dan data warehouse
  • History dari extracts
10 End-User Access Tools
Tujuan yang utama dari data warehouse adalah menyediakan informasi kepada user untuk mendukung pengambilan keputusan. Para user ini berinteraksi dengan warehouse menggunakan end-user access tools. Menurut para ahli end-user access tools dapat dikategorikan menjadi 5 kelompok :
1. Reporting dan Query Tools
Reporting tools meliputi pelaporan (production reporting tools) dan penulis laporan (reporting writters). Production reporting tools digunakan untuk menghasilkan laporan operasional reguler, atau daya pemicu kerja yang tinggi. Seperti order customer, invoice, dan gaji karyawan.

Query tools untuk relational data warehouse, dirancang untuk menerima SQL dan syntax-nya, untuk query penyimpanan data, untuk data warehouse. Tools ini melindungi end-user dari kompleksitas SQL dan sruktur database.
2. Application Development Tools
Kebutuhan dari end-user, kemampuan membuat informasi yang built-in dan tools query yang tidak mencukupi, karena dikarenakan kebutuhan analisis tidak bisa dilakukan, atau karena interaksi user membutuhkan tingkat professional yang tinggi.
3. Executive Information System (EIS) Tools
EIS lebih dikenal sebagai ‘Everybody’s information system’ yang semula dikembangkan untuk mendukung strategi kebutuhan tingkat tinggi. Tools EIS mulanya terasosiasi dengan mainframe, sehingga memungkinkan user membuat aplikasi pendukung pengambilan keputusan, dam menyediakan overview data organisasi dan mngakses sumber data eksternal.
4. Online Analitical Processing (OLAP) Tools
Online analytical processing tools berbasis pada konsep basis data multidimensi dan memperbolehkan user untuk menganalisis data menggunakan view yang kompleks dan multidimensional. Tools ini mengasumsikan bahwa data diatur dalam model multidimensi yang didukung oleh special multidimensional database (MDDB) atau oleh basis data relasional yang dirancang untuk mendapatkan multidimensional queries.

5. Data Mining Tools
Data mining adalah proses untuk menemukan korelasi baru, pola, dan tren dengan cara melakukan 'mining' pada data yang berukuran besar menggunakan teknik statistik, matematik, dan artificial intelligence (AI). Data mining memiliki potensi untuk menggantikan kemampuan OLAP tools, sebagai daya tarik utama dari data mining adalah kemampuannya untuk membangun prediksi dibandingkan dengan model retrospektif.

Aliran Data pada Data Warehouse
Menurut Connolly & Begg (2005: 1161-1165), Data warehouse memiliki lima arus data primer yaitu :
Arsitektur data warehouse menurut Connolly & Begg (2005:1156-1161), antara lain :

1 Inflow
Inflow adalah proses yang berhubungan dengan ekstraksi, pembersihan, dan loading data dari sistem sumber ke dalam data warehouse. Agar data dapat masuk ke dalam data warehouse maka data harus direkonstruksi terlebih dahulu. Proses rekonstruksi ini melibatkan proses:
  • Pembersihan data yang kotor
  • Membentuk kembali data agar sesuai dengan persyaratan data warehouse yang baru, misalnya menambah atau mengurai field dan denormalisasi data.
  • Memastikan sumber data konsisten dengan sumber itu sendiri dan data yang sudah ada di data warehouse
2 Upflow
Upflow adalah proses yang berhubungan dengan menambah nilai data di dalam data warehouse melalui merangkum, mempaket, dan mendstribusi data.

Aktivitas yang berhubugan dengan upflow yaitu:

  • Meringkas data dengan memilih, memproyeksikan, menggabungkan, dan mengelompokan data relasional menjadi view yang lebih baik dan berguna untuk pengguna akhir.
  • Membungkus data dengan merubah detil atau ringkasan data menjadi format yang lebih berguna, seperti spreadsheet, dokumen teks, grafik, tampilan grafik yang lain, database privat, dan animasi
3 Downflow
Downflow adalah proses yang berhubungan dengan pengarsipan dan melakukan backup data dalam data warehouse menyimpan data lama mempunyai peranan yang penting dalam mempertahankan penampilan dan efektifitas dari warehouse dengan mengirimkan data lama dengan nilai terbatas ke sebuah tempat penyimpanan seperti magnetic tape atau optical disc

4 Outflow
Outflow adalah proses yang berbuhungan dengan pembuatan data agar tersedia untuk pengguna akhir.
Dua aktivitas kunci yang terlibat dalam outflow mencakup:

  • Pengaksesan, yang berfokus pada kepuasan permintaan pengguna untuk data yang mereka perlukan.
  • Pengiriman, yang berfokus dengan pengiriman informasi yang proaktif untuk workstation pengguna akhir.
5 Metaflow
Metaflow adalah proses yang berhubungan dengan manajemen metadata. Metadata adalah penjelasan dari isi data dari data warehouse, apa yang ada di dalamnya, darimana berasal dan apa yang sudah dilakukan dengan pembersihan, peringkasan dan integrasi

Anatomi Data Warehouse
1 Data Warehouse Terpusat
Menurut Inmon (2005: 193), sebagian besar organisasi membangun dan memelihara lingkungan data warehouse terpusat tunggal. Pengaturan ini dilakukan karena memiliki beberapa alasan, yaitu :

  1. Data dalam warehouse terintegrasi antar perusahaan dan gambaran terintegrasi digunakan hanya pada kantor pusat.
  2. Perusahaan mengoperasikan sebuah model bisnis terpusat.
  3. Volume data dalam data warehouse seperti sebuah penyimpanan tunggal yang terpusat.
2 Data Warehouse Terdistribusi
Menurut Inmon (2005: 193-194), tiga tipe dari data warehouse terdistribusi :

  • Bisnis terdistribusi secara geografis atau dibedakan menurut garis produk. Oleh karena hal tersebut, maka disebutlah data warehouse lokal dan data warehouse global. Data warehouse lokal mewakili data dan proses di lokasi yang terpencil dan data warehouse global mewakili bagian dari bisnis yang diintegrasikan melalui keseluruhan bisnis.
  • Lingkungan data warehouse akan memegang banyak data dan volume data akan didistribusikan melalui beberapa prosesor. Secara logikal hanya ada satu data warehouse, tetapi secara fisikal terdapat banyak data warehouse yang semuanya mempunyai hubungan yang dekat tetapi diletakkan pada prosesor yang terpisah. Konfigurasi ini dapat disebut dengan teknologi data warehouse terdistribusi.
  • Lingkungan data warehouse tumbuh dalam sebuah kebiasaan yang tidak terorganisasi. Data warehouse yang pertama muncul, kemudian diikuti yang lainnya. Kurangnya koordinasi dari pertumbuhan data warehouse yang berbeda biasanya menghasilkan sebuah perbedaan secara politik dan organisasi. Kasus ini dapat disebut dengan data warehouse terdistribusi yang secara bebas berkembang.
Istilah-Istilah Data Warehouse
1 Data Mart
Menurut Inmon (2005: 494), data mart adalah sebuah struktur data yang terbagi-bagi, dimana struktur data tersebut diambil dari data warehouse dan data telah didenormalisasi berdasarkan kebutuhan informasi pada tiap-tiap bagian perusahaan.

  • Menurut Connolly & Begg (2005: 1171), data mart merupakan bagian dari data warehouse yang mendukung kebutuhan dari suatu departemen atau fungsi bisnis tertentu.
  • Menurut Vercellis (2009: 49), data mart adalah sistem yang mengkumpulkan semua data yang diperlukan oleh suatu departemen khusus, seperti marketing atau logistik, untuk dilakukan analisis business intelligence atau data mart dapat dikatakan sebagai data warehouse fungsional atau departemen yang memiliki ukuran lebih kecil dan lebih spesifik dibandingkan data warehouse secara keseluruhan.
Berdasarkan teori-teori tersebut dapat disimpulkan bahwa data mart adalah bagian dari data warehouse yang dirancang untuk mendukung kebutuhan informasi pada suatu departemen tertentu di dalam perusahaan.

2 Extraction Transformation Loading (ETL)

  • Menurut Inmon (2005: 497), ETL merupakan proses mengambil data aplikasi yang dibutuhkan dan mengintegrasikannya ke dalam data warehouse.
  • Menurut Vercellis (2009: 53), ETL merujuk pada tools yang digunakan untuk melakukan tiga fungsi berikut yaitu pengambilan (extraction), perubahan (transformation), dan pemuatan (loading) ke dalam data warehouse.
· Extraction
Menurut Loshin (2003: 246-247), proses ekstraksi adalah pengambilan data dari sumber data internal dan external yang ada yang dilanjutkan ke database tujuan. Pada dasarnya, tujuan proses ekstraksi ini adalah menyiapkan data untuk menyiapkan data untuk diproses lebih lanjut pada proses selanjutnya.

Menurut Vercellis (2009: 53), pada tahap pertama data diambil dari sumber internal dan eksternal yang tersedia. Perbedaan logis dapat dibuat antara ekstrasi awal, dimana data yang terhubung pada semua periode masa lalu dimasukkan ke dalam tempat penyimpanan data kosong, dan ekstraksi secara berlanjut yang mengubah tempat penyimpanan data dengan data baru yang akan tersedia sepanjang waktu.

· Transformation
Menurut Loshin (2003: 246-247), proses transformasi adalah proses pengubahan bentuk data agar sesuai dan seragam dengan tujuan data menjadi lebih terintegrasi satu sama lain, sehingga data dalam database tujuan menjadi konsisten. Sebagai contoh adalah proses transformasi format tanggal, didalam database A, format tanggal adalah 10-10-10, sedangkan di database B adalah 10-oct-10, data dari database A dan B akan ditransformasikan sesuai dengan database tujuan, misalnya menjadi 10-Oktober-2010.

Menurut Vercellis (2009: 53), tujuan dari tahap transformasi adalah untuk meningkatkan kualitas dari data yang diambil dari sumber yang berbeda, melalui pembetulan ketidak-konsistenan, ketidak-akuratan, dan nilai-nilai yang hilang.

· Loading
Menurut Loshin (2003: 246-247), setelah data diproses di tahap Extraction dan Transform, data sudah siap untuk dimuat kedalam database tujuan lewat proses Loading, sehingga data dapat membantu dalam proses analisis lebih lanjut ke depannya.

Menurut Vercellis (2009: 54), tahap loading merupakan tahap setelah data diambil dan ditransformasikan, untuk disimpan ke dalam tabel penyimpanan data, yang bertujuan untuk dianalisis juga sebagai aplikasi untuk mendukung keputusan.
3 Fact Table
Menurut Connolly & Begg (2005: 1183), tabel fakta adalah sebuah tabel pada dimensional model yang isinya merupakan composite Primary Key (PK). Jadi, Primary key pada tabel fakta merupakan beberapa Foreign Key (FK).

Menurut Kimball & Ross (2002: 16), tabel fakta adalah sebuah tabel primer dalam model dimensional tempat perhitungan performa numerik dari sebuah bisnis disimpan. Perhitungan tersebut diambil dari interseksi dari semua dimensi yang diperlukan.

Menurut Patel & Patel (2012: 254) tabel fakta adalah kumpulan item data yang terkait, yang terdiri dari pengukuran dan data konteks. Setiap fakta biasanya merupakan representasi item bisnis, transaksi bisnis, atau suatu event yang dapat digunakan untuk menganalisis proses bisnis. Dalam data warehouse, fakta diimplementasikan ke dalam tabel dimana semua data numerik disimpan.

4 Dimension Table
Menurut Connolly & Begg (2005: 1183), tabel dimensi adalah sekumpulan tabel-tabel yang lebih kecil dari tabel fakta pada dimensional model. Setiap tabel dimensi mempunyai non-composite primary key.

  • Menurut Inmon (2005: 495), tabel dimensi merupakan tempat dimana data tambahan yang berhubungan dengan tabel fakta ditempatkan pada sebuah tabel multidimensional.
  • Menurut Kimball & Ross (2002: 19), tabel dimensi adalah pendamping integral padatabel fakta
Patel & Patel (2012: 254) berpendapat bahwa tabel dimensi merupakan kumpulan dari anggota dari suatu jenis yang memiliki kesamaan. Dalam model multidimensional, setiap data dalam tabel fakta berhubungan satu sama lain dengan anggota dari beberapa dimensi. Artinya, dimensi menenetukan latar belakang konsektual pada tabel fakta.

Dimensionality Modeling
Menurut Connolly & Begg (2005: 1183), Dimensionality Modeling adalah teknik logikal design yang bertujuan untuk menghadirkan data dalam bentuk standard dan intuitif yang memungkinkan pengkasesan database dengan performa yang tinggi. Beberapa konsep permodelan data warehouse pada dimensionality modeling, antara lain Star Schema, Snowflake Schema, Starflake Schema
1 Star Schema
Menurut Connolly & Begg (2005: 1183), skema bintang adalah sebuah struktur logikal yang memiliki tabel fakta di tengahnya, yang terdiri atas data faktual, dan dikelilingi oleh tabel-tabel dimensi yang berisi referensi data. Skema bintang mengeksploitasi karakteristik data faktual seperti fakta yang digenerasikan oleh events yang muncul pada waktu yang lampau dan tidak berubah. Skema bintang dapat digunakan untuk mempercepat kinerja query dengan informasi referensi denormalisasi ke tabel dimensi tunggal.
2 Snowflake Schema

Menurut Connolly & Begg (2005: 1183), snowflake schema adalah variasi lain dari star schema dimana tabel dimensi tidak berisi data yang didenormalisasi. Pada snowflake schema, sebuah tabel dimensi dapat mempunyai tabel dimensi lainya.
3 Starflake Schema
Menurut Connolly & Begg (2005: 1183), starflake schema merupakan struktur gabungan antara star schema dan snowflake schema. Beberapa dimensi mungkin menggunakan schema ini untuk memenuhi kebutuhan query yang berbeda.

Model dimensional memiliki beberapa kelebihan yang tidak ada dalam lingkungan data warehouse lainnya. Keuntungan model dimensional yaitu :

  • Efisiensi, struktur database yang konsisten sehingga efisien dalam mengakses data dengan menggunakan tool untuk menampilkan data termasuk laporan tertulis dan query.
  • Kemampuan untuk mengatasi perubahan kebutuhan, skema bintang dapat beradaptasi terhadap perubahan kebutuhan pengguna karena semua tabel dimensi memiliki kesamaan dalam hal menyediakan akses ke tabel fakta.
  • Extensibility, model dimensional dapat dikembangkan. Seperti menambah tabel fakta selama data masih konsisten, menambah tabel dimensi selama ada nilai tunggal di tabel dimensi yang mendefinisikan setiap record tabel fakta yang ada, menambahkan atribut tabel dimensi, dan memecah record tabel dimensi yang ada menjadi level yang lebih rendah daripada level sebelumnya
  • Kemampuan untuk menggambarkan situasi bisnis pada umumnya, pendekatan standar untuk menangani situasi umum di dunia bisnis yang terus bertambah.
  • Proses query yang bisa diprediksi, aplikasi data warehouse yang mencari data dari level yang di bawahnya akan mudah menambahkan jumlah atribut pada tabel dimensi dari sebuah skema bintang. Aplikasi yang mencari data dari level yang setara akan menghubungkan tabel fakta yang terpisah melalui tabel dimensi yang dapat diakses bersama
Metodologi Perancangan Data Warehouse
Terdapat 9 metodologi perancangan data warehouse menurut Kimball yang dikutip oleh Connolly & Begg (2005: 1187) yang dikenal dengan nine-step methodology yaitu :
1. Memilih proses
Proses ini merujuk pada subjek data mart tertentu. Data mart yang dibangun pertama kali haruslah data mart yang dapat dikerjakan dan selesai tepat waktu, biaya yang cukup, dan menjawab pertanyan bisnis paling penting. Pilihan terbaik untuk data mart yang pertama adalah yang berkaitan dengan penjualan.

2. Memilih grain
Memilih grain berarti kita memutuskan secara tepat apa yang direpresentasikan oleh record pada tabel fakta. Sebagai contoh, entittas PropertySale merepresentasikan fakta tentang tiap-tiap penjualan properti dan menjadi tabel fakta dari star schema penjualan properti dan menjadi tabel fakta dari star schema penjualan properti. Oleh karena itu, grain dari tabel fakta PropertySale adalah setiap record penjualan properti. Ketika kita sudah memilih grain dari tabel fakta, maka kita bisa mengidentifikasikan dimensi-dimensi dari tabel fakta.

3. Identifikasi dan membuat dimensi yang sesuai
Dimensi mengatur konteks untuk mengajukan pertanyaan tentang fakta-fakta dalam tabel fakta. Dimensi yang dirancang dengan baik membuat data mart lebih mudah dimengerti dan digunakan. Dimensi yang tidak lengkap dan kurang akan menurunkan manfaat dari sebuah data mart bagi perusahaan. Jika terdapat dimensi yang muncul dalam dua data mart, mereka harus merupakan dimensi yang persis sama, atau salah satu harus merupakan subset matematis dari yang lain. Hanya dengan cara ini, dua data mart dapat saling berbagi satu atau lebih dimensi pada aplikasi yang sama. Ketika sebuah dimensi digunakan pada lebih dari satu data mart, maka dimensi itu disebut sedang disesuaikan. Kalau dimensi tersebut tidak disinkronisasi, maka keseluruhan data warehouse akan gagal karena kedua data mart tidak akan dapat digunakan secara bersama-sama.

4. Memilih fakta
Grain pada tabel fakta menentukan fakta mana yang dapat digunakan dalam data mart. Semua fakta harus diekspresikan pada tingkat yang telah dinyatakan oleh grain. Dengan kata lain, kalau grain dari tabel fakta adalah setiap record pada penjualan properti, maka semua fakta numerik harus merujuk pada penjualan jenis ini. Dan juga, fakta harus berupa numerik dan hasil penjumlahan.

5. Menentukan data pre-kalkulasi dari tabel fakta
Ketika fakta telah dipilih, maka masing-masing fakta tersebut harus diperiksa ulang untuk menentukan apakah ada kemungkinan untuk menggunakan pre-kalkulasi. Contoh umum akan kebutuhan menyimpan pre-kalkulasi terjadi ketika terdapat fakta yang terdiri dari pernyataan laba dan rugi. Situasi ini akan sering terjadi ketika tabel fakta berdasarkan penjualan atau invoice.

6. Melengkapi tabel dimensi
Pada langkah ini, kita melengkapi tabel dimensi dengan menambahkan keterangan ke dalamnya. Deskripsi ini harus intuitif dan mudah dimengerti oleh pengguna.

7. Memilih durasi basis data
Kita harus menentukan seberapa jauh durasi waktu yang ditampung didalam tabel fakta. Untuk perusahaan seperti perusahaan asuransi mengharuskan untuk menyimpan data sampai 5 tahun atau lebih. Tabel fakta yang sangat besar menimbulkan setidaknya dua masalah signifikan pada data warehouse. Pertama, semakin tua suatu data, maka akan ada masalah dalam membaca dan menginterprestasikan file tua tersebut. Kedua, wajib untuk menggunakan versi lama dari dimensi penting, bukan versi yang baru. Ini dikenal sebagai masalah pada slowly changing dimension.

8. Melacak dimensi yang berubah secara perlahan
Ada 3 tipe cara untuk melacak dimensi yang berubah secara perlahan, yaitu :

  • Tipe 1. Perubahan dimensi menyebabkan data lama di-overwrite.
  • Tipe 2. Perubahan dimensi menyebabkan pembentukan record baru.
  • Tipe 3. Perubahan dimensi menyebabkan pembuatan atribut alternatif 
9. Menentukan prioritas dan mode dari query
Pada langkah ini, kita mempertimbangkan masalah desain fisik. Permasalahan desain fisik paling kritis yang mempengaruhi persepsi pengguna terhadap data mart adalah urutan fisik dari tabel fakta pada disk dan kehadiran ringkasan atau aggregation yang telah disimpan
Blog, Updated at: 08.19.00

0 komentar:

Posting Komentar