Tối ưu Hiệu suất Năng lượng Trung tâm Dữ liệu AI tại Việt Nam: Hành trình 90 Ngày

Nhật ký hành trình – Kỹ sư năng lượng trẻ

Ngày 15/3/2025 – Trung tâm Dữ liệu AI giả định, Khu Công nghệ cao TP.HCM. Tôi nhận nhiệm vụ lúc 07:40 sáng, trong căn phòng điều khiển chỉ có tiếng quạt và mùi ozone nhẹ. Nhiệm vụ rõ ràng: đưa hệ thống từ PUE 1,72 xuống dưới 1,25 trong vòng 90 ngày, đồng thời duy trì giới hạn an toàn theo IEEE 3001.9.

Ngày 1–30: Đo đạc và mô hình hóa tải AI

Tôi bắt đầu bằng việc gắn cảm biến tại 48 rack. Mỗi rack ghi nhận công suất thực thời gian thực 28–41 kW khi inference peak. Dữ liệu thô cho thấy tải GPU biến động mạnh theo batch size: khi batch tăng từ 8 lên 64, utilization nhảy từ 47% lên 92%, nhưng hiệu suất FLOPS/watt chỉ cải thiện 11% do nhiệt độ junction vượt 78°C.

Công thức DVFS cơ bản được áp dụng ngay:
[ P_{\text{dyn}} = C \cdot V^2 \cdot f ]
Với ( C ) đo được 0,82 nF, tôi giảm tần số từ 1,8 GHz xuống 1,35 GHz ở các khoảng idle ngắn, tiết kiệm 19% năng lượng tức thì. Sau 30 ngày, mô hình hồi quy cho thấy tải AI tuân theo phân phối log-normal với trung vị 34 kW/rack.

Nhận xét thực tế: Số liệu khô khốc, nhưng nó cho thấy mọi tối ưu sau này đều phải bắt đầu từ việc hiểu chính xác khi nào GPU thực sự “đói” dữ liệu.

Ngày 31–60: Thiết kế cơ chế điều khiển động PUE kết hợp làm mát ngâm chất lỏng và bộ lập lịch tải AI

Từ ngày 35, chúng tôi ngâm 12 rack vào bồn dielectric duy trì 45–55°C. Hệ số COP của chiller giảm từ 3,8 xuống 2,9 khi nhiệt độ chất lỏng tăng 10°C, nhưng tổng điện năng làm mát giảm 34% nhờ loại bỏ hoàn toàn quạt gió lạnh. Bộ lập lịch mới sử dụng thuật toán tối ưu batch size inference theo gradient policy: mỗi 30 giây, mô hình dự đoán thời gian inference và chọn batch size sao cho FLOPS/Watt cực đại trong giới hạn nhiệt 55°C.

PUE động được tính theo công thức:
[ \text{PUE}(t) = \frac{P_{\text{IT}}(t) + P_{\text{cooling}}(t) + P_{\text{network}}(t)}{P_{\text{IT}}(t)} ]
và được điều khiển real-time qua PID kết hợp reinforcement learning. Sau 60 ngày, PUE ổn định ở 1,31, với độ lệch chuẩn 0,04.

Nhận xét thực tế: Số liệu cho thấy làm mát ngâm chất lỏng không phải là giải pháp “thần thánh”; nó chỉ hiệu quả khi bộ lập lịch buộc tải phải vận hành trong vùng nhiệt độ tối ưu của dielectric. Nếu không có sự phối hợp này, COP chiller sẽ kéo PUE lên lại ngay.

Ngày 61–90: Tích hợp nguồn tái tạo và kiểm chứng chỉ số hiệu suất FLOPS/watt theo chuẩn Open Compute Project

Giai đoạn cuối gắn thêm 1,2 MW điện mặt trời và hệ thống lưu trữ 800 kWh. Hướng dẫn OCP yêu cầu đo lường FLOPS/watt tại mức utilization 50% và 90%. Sau khi calibrate, chúng tôi đạt 1,87 TFLOPS/W ở 50% load và 2,14 TFLOPS/W ở 90% load – vượt ngưỡng OCP Tier 3. IEEE 3001.9 được kiểm tra lần cuối: tất cả điểm đo điện áp không vượt ±5% so với danh định, nhiệt độ điểm nóng không quá 65°C.

Ngày 90, hệ thống chạy ổn định 72 giờ liên tục với PUE trung bình 1,24.

Nhận xét thực tế: Các con số cuối cùng trông đẹp trên biểu đồ, nhưng chúng chỉ có ý nghĩa khi duy trì được trong điều kiện vận hành thực tế của Việt Nam – nơi nhiệt độ môi trường và độ ẩm biến động mạnh hơn nhiều so với phòng thí nghiệm.

Nhật ký ngày 91 – Suy ngẫm

Chín mươi ngày đủ để thấy một hệ thống từ hỗn loạn trở nên có trật tự, nhưng không đủ để nói rằng mọi vấn đề đã giải quyết. Khung hiệu suất năng lượng này có thể nhân rộng cho các trung tâm dữ liệu AI khác tại Bình Dương, Hà Nội hay Đà Nẵng, với điều kiện phải điều chỉnh lại mô hình DVFS và nhiệt độ dielectric theo khí hậu địa phương. Công việc tiếp theo không còn nằm ở một trung tâm duy nhất nữa, mà nằm ở việc xây dựng cơ sở dữ liệu mở về tải AI Việt Nam để các kỹ sư sau này không phải bắt đầu lại từ con số không.

Tối ưu Hiệu suất Năng lượng Trung tâm Dữ liệu AI tại Việt Nam: Hành trình 90 Ngày

Ngày 1–30: Đo đạc và mô hình hóa tải AI

Ngày 31–60: Thiết kế cơ chế điều khiển động PUE kết hợp làm mát ngâm chất lỏng và bộ lập lịch tải AI

Ngày 61–90: Tích hợp nguồn tái tạo và kiểm chứng chỉ số hiệu suất FLOPS/watt theo chuẩn Open Compute Project

Related Posts

Bản đồ triển khai thực chiến: Tích hợp Bộ điều khiển AI-Native tại biên với NPU

Báo cáo Giám định Hệ thống: Đánh giá Khả năng Thay thế 120 Node Raspberry Pi 4 tại Dây chuyền SMT Nhà máy Điện tử

Phân Tích Chuyển Đổi IPv6 Cho Hệ Thống BMS Tại Khu Công Nghệ Cao TP.HCM

Leave a Reply Cancel reply