Dwh là gì
Chắc hẳn đối với bộ phận phân tích và phát triển kinh doanh trong mỗi doanh nghiệp, khái niệm kho dữ liệu (data warehouse), dữ liệu lớn (big data) tại các công ty công nghệ, cơ sở dữ liệu (database) ở các công ty lập trình… không còn quá xa lạ nữa. Với nhu cầu tiếp nhận, phân tích và xử lý dữ liệu dưới góc nhìn đa chiều và tổng hợp hiện nay, việc thống kê dòng dữ liệu là vô cùng cần thiết, từ đó khái niệm kho dữ liệu ra đời nhằm đảm lưu trữ đầy đủ dữ liệu cho bước phân tích tiếp theo và nâng cao tốc độ của các kết quả trả về của hệ thống. Chúng ta hãy cùng tìm hiểu khái niệm data warehouse là gì và những tính năng, lợi ích về nó nhé! Show
Kho dữ liệu (data warehouse) là khái niệm được giới thiệu lần đầu vào năm 1988 bởi 2 nhà nghiên cứu của IBM là Barry Devlin và Paul Murphy. Đây là nơi lưu trữ dữ liệu bằng thiết bị điện tử của một tổ chức, doanh nghiệp, nhằm hỗ trợ việc phân tích dữ liệu và lập báo cáo. Và theo công ty chuyên lập trình hệ thống / phần mềm cho doanh nghiệp Mona Media thì đó là cách hiểu theo truyền thống tại thời điểm khái niệm kho dữ liệu này ra đời và Data warehouse ngày nay đã khác. Ngày nay, người ta hiểu “kho dữ liệu” theo ngữ cảnh rộng hơn, bao gồm tập các phương pháp, kỹ thuật và công nghệ có thể kết hợp, hỗ trợ nhau để thu thập và quản lý dữ liệu từ nhiều nguồn, môi trường khác nhau để cung cấp thông tin cho người sử dụng. Do đó, kho dữ liệu còn có thể được gọi bằng những cái tên sau: hệ thống hỗ trợ quyết định, hệ thống điều hành thông tin, hệ thống thông tin quản lý, ứng dụng phân tích. Kho dữ liệu thường có dung lượng lên đến hàng trăm GB thậm chí tính bằng đơn vị TB. Ngôn ngữ được dùng cho kho dữ liệu là ngôn ngữ xử lý phân tích trực tuyến (OLAP – Online Analytical Processing). Đây là ngôn ngữ được tối ưu hóa cho việc truy vấn và báo cáo, tạo điều kiện cho truy vấn nghiệp vụ thông minh. Đây là cơ sở dữ liệu nhằm xử lý giao dịch trực tuyến (OLTP – On-line transactional processing). OLAP tạo điều kiện xử lý một tập dữ liệu lớn với thời gian tương tác được kéo dài hơn. OLAP cũng cho phép người sử dụng có cái nhìn bức tranh toàn cảnh, các con số khủng hoảng từ đó tìm ra xu hướng và nhìn ra bức tranh lớn hơn. Nhìn chung OLAP sẽ tập trung vào các lệnh dưới đây:
Cấu trúc và đặc tính của data warehouseKho dữ liệu có vai trò rất quan trọng trong doanh nghiệpKho dữ liệu không phải là một sản phẩm mà là một môi trường, cung cấp một mô hình kiến trúc cho luồng thông tin hỗ trợ từ hệ thống vận hành đến các môi trường hỗ trợ quyết định. Do đó kho dữ liệu sẽ có những đặc tính sau:
Kho dữ liệu có cấu trúc bao gồm ba tầng:
Lợi ích của data warehouseSự ra đời của kho dữ liệu nhằm đáp ứng khối lượng dữ liệu cần được xử lý ngày càng nhiều, nhu cầu lưu trữ dữ liệu phát triển khi các hệ thống máy tính trở nên phức tạp hơn. Cụ thể, kho dữ liệu sẽ đem lại các lợi ích sau đây cho các doanh nghiệp:
Hiện kho dữ liệu đã được ứng dụng rộng rãi trong các doanh nghiệp thuộc nhiều lĩnh vực khác nhau, cụ thể ta có thể kể đến:
Tiến trình xử lý trong data warehouseBước 1: Dữ liệu được tập hợp từ nhiều nguồn và đưa vào Data Sources để đồng bộ định dạng, biên soạn, sau đó sẽ quá trình làm sạch dữ liệu, tìm kiếm để sửa hay loại bỏ bất kỳ lỗi nào trong dữ liệu nhằm đảm bảo tính nhất quán của dữ liệu trước khi đưa vào Warehouse. Bước 2: Dữ liệu sau khi trải qua nhiều thao tác ở tầng Data Sources sẽ được chuyển từ định dạng cơ sở dữ liệu sang định dạng kho. Sau đó tại tầng Warehouse, dữ liệu sẽ được sắp xếp, hợp nhất và tổng kết,… nhằm đảm bảo quá trình phân phối và xử lý dữ liệu diễn ra trơn tru và mượt mà hơn. Theo thời gian, khi càng có nhiều dữ liệu từ nhiều nguồn được cập nhật, kho dữ liệu sẽ càng tiếp nhận và xử lý chúng Bước 3: Dữ liệu được phân bổ đến người dùng cuối khi có thao tác tìm kiếm, truy vấn và xuất báo cáo. Trong bước này, có nhiều công cụ để thực hiện nhằm giúp dữ liệu được xử lý gọn gàng và dễ nhìn trước khi hiển thị tới người dùng cuối. Một kho dữ liệu tốt không chỉ giúp cho quá trình phân tích, xuất báo cáo dễ dàng nhanh chóng mà còn giúp các bộ phận khác nhau trong công ty truy cập dữ liệu của nhau dễ dàng hơn. Ví dụ: nhờ có kho dữ liệu, bộ phận bán hàng có thể có những thông tin về nhu cầu, đặc điểm của khách hàng và giúp đưa ra quyết định về cách cải thiện doanh số hoặc sắp xếp quy trình hay phân công nhiệm vụ rõ ràng trong bộ phận kinh doanh. Đặc biệt với khả năng lưu trữ ưu việt của mình, kho dữ liệu có thể có tất cả các thông tin mà khách hàng đã mua sản phẩm/sử dụng dịch vụ trong 10 năm qua. Từ những thông tin trên mà chúng tôi cung cấp, bạn có thể dễ dàng thấy rằng kho dữ liệu đóng vai trò then chốt trong việc tập hợp, xử lý dữ liệu thô trong doanh nghiệp. Xây dựng kho dữ liệu là nền tảng vững chắc trong quá trình tích hợp hệ thống báo cáo quản trị thông minh cho doanh nghiệp. Chúc bạn thành công với kho dữ liệu mà mình xây dựng nhé! >> Xem thêm: Sự khác biệt giữa database và data warehouse, Phân tích kho dữ liệu bằng OLAP |