
Tại Home Credit, chúng tôi luôn hướng đến việc mang lại các dịch vụ số hóa, sáng tạo và vận hành dựa trên dữ liệu, với sứ mệnh giúp khách hàng chủ động lựa chọn cuộc sống họ mong muốn. Song song với đó, lượng dữ liệu cần phân tích tăng trưởng nhanh chóng, kéo theo số lượng data pipelines xử lý và phân phối dữ liệu đến nhiều nhóm consumers khác nhau – bao gồm nhân viên, đối tác, cơ quan quản lý, các hệ thống, mô hình AI/ML và nhiều công cụ nội bộ.
Thị trường tài chính số tạo áp lực buộc chúng tôi phải rút ngắn thời gian xử lý dependencies, tối ưu dòng dữ liệu, xây dựng tính năng mới nhanh hơn, và đưa giá trị đến người dùng dữ liệu – cuối cùng là khách hàng – nhanh hơn bao giờ hết.
❓ Hành trình của HCVN đến enterprise data architecture hiện tại là gì?
Hệ thống core lending ban đầu được vận hành cùng một data warehouse trên Oracle cỡ lớn, được develop và maintain bởi một centralized team. Theo thời gian, nhiều domain-specific data mart xuất hiện – và điều đó yêu cầu phải thành lập thêm một team khác để code và quản lý toàn bộ các data mart này. Khi số lượng data mart tiếp tục tăng, chúng tôi buộc phải phân tán workload sang nhiều nhóm team chuyên theo business domain.
Không chỉ trong Data Warehouse – kiến trúc xung quanh cũng thay đổi. Hệ thống core được modular hóa, các phần mới phát triển theo microservice architecture, dẫn đến pattern xuất – nhận dữ liệu thay đổi liên tục. Không lâu sau, chúng tôi tham gia làn sóng Big Data, triển khai Cloudera Hadoop on-premise với use case đầu tiên đến từ Risk, rồi nhanh chóng lan rộng sang nhiều business domain – phản ánh đúng xu hướng dữ liệu hóa của ngành tài chính số.
❓ Centralized Big Data IT Team đã gặp khó khăn gì?
Theo mô hình quen thuộc nhằm đảm bảo kiểm soát hệ thống, một Centralized Big Data IT Team đã được thành lập với nhiệm vụ truyền bá phương pháp, phát triển, và vận hành nền tảng dữ liệu dựa trên các nhu cầu ưu tiên của data consumers ở nhiều business domain khác nhau.
Không chỉ khối lượng dữ liệu ngày càng tăng đòi hỏi nhiều effort hơn trong việc xử lý và chuẩn hóa dữ liệu (data curation), mà yêu cầu về data protection và data governance cũng tăng nhanh theo thời gian. Đồng thời, việc đứng ở vị trí trung gian trong chuỗi giá trị dữ liệu cũng bắt đầu ảnh hưởng đến hiệu suất xử lý tổng thể và tốc độ đổi mới (innovation).
Ở thời điểm này, việc trở thành một phần của team đã bắt đầu trở nên quá tải hơn mức cần thiết. Yếu tố “hứng khởi” của giai đoạn build ban đầu dần biến mất, và ngay cả những task tưởng như nhỏ cũng phải bỏ nhiều công sức hơn để có thể đạt đến Definition of Done.
❓ Những thách thức đó ảnh hưởng như thế nào đến năng lực xử lý và tốc độ đổi mới?
Phân tích những dấu hiệu trên khiến chúng tôi nhớ lại quá khứ, khi thấy nhiều điểm tương đồng với giai đoạn phát triển core system – nơi một central team phải cố gắng đuổi kịp khối lượng dự án liên tục thay đổi với kích thước và độ phức tạp khó dự đoán, chạy trên kiến trúc monolithic, bị kéo dài bởi delays và đôi khi xuất hiện lỗi do miscommunication giữa các silo team.
Chúng tôi nhanh chóng nhận ra rằng không còn nhiều thời gian để phá vỡ hiện trạng này (status quo). Từ đó, chúng tôi đặt câu hỏi liệu các nguyên tắc trong Agile Product Development có thể được áp dụng vào cách chúng tôi xử lý dữ liệu từ nhiều nguồn khác nhau hay không. Trong quá trình tìm hiểu sâu hơn, chúng tôi tiếp cận được bài viết của Zhamak Dehghani (ThoughtWorks) về Data Mesh Architecture – người sau đó cũng viết sách về chủ đề này. Bài viết mô tả chính xác những vấn đề chúng tôi gặp phải, và giới thiệu những khái niệm trước đó còn thiếu trong “từ điển kỹ thuật” của chúng tôi – trong đó quan trọng nhất chính là khái niệm Data Product.
Data Product tương tự như Microservice nhưng dành cho Analytics: → là một đơn vị độc lập, có thể deploy, versioned, đảm nhận toàn bộ vòng đời dữ liệu gồm ingest → transform → test → store → classify → monitor → visualize → publish tới người dùng dữ liệu. Mỗi Data Product có tầm nhìn (vision), roadmap riêng, được quản lý bởi Product Owner và triển khai bởi team gắn với domain business.

🚀 Virtual Data Team — bước mở đầu cho chiến lược Data Mesh tại HCVN
Để thử nghiệm phương pháp mới, chúng tôi thành lập Virtual Data Team với members đến từ cả business & technology trong domain Risk Scoring. Bước đi đầu tiên là xác định Minimum Viable Data Product, quản lý backlog theo chuẩn, grooming thường xuyên, chuẩn hóa mảng trước đây xử lý ad-hoc, loại bỏ blocker trong quá trình triển khai.
Chúng tôi tin rằng khi tập trung kỹ năng – tư duy – resource vào từng Data Product rõ ràng, chúng tôi có thể scale tốt hơn, đổi mới nhanh hơn, và khôi phục “niềm vui làm sản phẩm” ban đầu. Tương lai Data Mesh có thể chưa gần, nhưng chúng tôi đã lên tàu và đang tiến tới, hướng đến một Home Credit thực sự data-driven.
Chúng tôi rất vui được chia sẻ hành trình này và hy vọng nó truyền cảm hứng giúp bạn khám phá thêm hướng tiếp cận mới trong công việc liên quan đến dữ liệu.
Hẹn gặp lại bạn trong bài blog tiếp theo!
Bài viết bởi IT Architecture & Data Platforms Team