Nhật Ký Triển Khai Edge AI: Kết Nối VPN An Toàn Và Cập Nhật Mô Hình Runtime Tại Nhà Máy Logistics

Nhật ký hành trình kỹ thuật – Actabl FDE
17/03/2025 – 08:47
Đang ngồi cạnh tủ rack tầng 2 tại nhà máy logistics Bình Dương trong tình huống hoàn toàn giả định. Dây chuyền sản xuất đang vận hành ở mức 92% công suất. Dữ liệu telemetry vẫn được đẩy qua MQTT cục bộ, chưa chạm đến control plane. Mục tiêu là thiết lập kết nối hai chiều trước khi tương tác với mô hình.
09:12 – Thiết lập Site-to-site VPN + mTLS
Chạy script bootstrap qua laptop hiện trường. Đã đẩy cấu hình StrongSwan từ control plane xuống gateway nhà máy. Chọn phương thức PSK thay vì chứng chỉ vì CA của nhà máy chưa kịp luân chuyển. Quá trình bắt tay mTLS giữa edge agent và control plane sử dụng chứng chỉ ngắn hạn 7 ngày, SAN chỉ định dải IP riêng 10.42.0.0/16. MTU đã được hạ xuống 1380 nhằm tránh phân mảnh trên đường truyền vệ tinh dự phòng.

10:05 – Ghi nhận audit trail trước khi chạm production
Mở port-forward đến kube-apiserver của cụm edge qua VPN. Bật cờ --audit-log-maxage=1 và --audit-webhook-config-file trỏ trực tiếp về Actabl collector. Mọi thay đổi tham số sau này sẽ được ghi nhận theo thời gian thực với người dùng actabl-fde-17.
11:27 – Mất kết nối kéo dài 4 tiếng 12 phút
Mạng chính của nhà máy bị ngắt do bảo trì switch. Bắt đầu kiểm tra cơ chế giải quyết xung đột. Dữ liệu được phân mảnh theo site_id + sensor_type + hour_bucket. Kho lưu trữ cục bộ sử dụng SQLite với WAL, mỗi phân mảnh kéo dài 4 giờ. Khi kết nối phục hồi, logic hợp nhất ưu tiên timestamp từ phía server và giải quyết xung đột theo nguyên tắc “last-write-wins + source=control-plane”.
13:41 – Hot-patch Jetson Orin
Mô hình mới có thay đổi ngưỡng post-processing. Không thể khởi động lại thiết bị. Sử dụng cuda-gdb để gắn vào tiến trình inference đang chạy, thay thế thư viện chia sẻ libinfer.so thông qua dlopen phiên bản mới rồi dlclose phiên bản cũ. Lưu lượng được chuyển hướng qua unix socket tạm trong 800ms mà không khởi động lại container.
14:55 – Kiểm tra audit trail sau khi vá lỗi
Đã ghi nhận 7 mục thay đổi tham số (threshold, batch_size, timeout) với commit hash f3a9c2d. Control plane xác nhận đã nhận đủ nhật ký. VPN vẫn ổn định sau khi khôi phục mạng.
Tổng kết
Các đánh đổi chính đã chấp nhận gồm: hạ MTU để ổn định VPN, sử dụng last-write-wins thay vì hợp nhất phức tạp nhằm giữ độ trễ thấp khi kết nối lại, và thay thế thư viện runtime thay vì cập nhật tuần tự để tránh thời gian ngừng hoạt động. Rủi ro lớn nhất là mất audit nếu webhook bị ngắt trong thời gian mạng không ổn định. Đề xuất cho đợt triển khai sau: chuẩn bị sẵn quy trình luân chuyển chứng chỉ và cơ chế đệm audit cục bộ với giới hạn kích thước rõ ràng.
