Giới thiệu về máy chủ PowerEdge R750xa để suy luận về các ứng dụng AI
Dell Technologies HPC & AI Innovation Lab đã gửi kết quả cho máy chủ Dell EMC PowerEdge R750xa tới MLPerf™ Inference v1.1, vòng mới nhất từ MLCommons™, cho điểm chuẩn tại chỗ của trung tâm dữ liệu. Dựa trên những kết quả được gửi cho suy luận tại chỗ của trung tâm dữ liệu, máy chủ PowerEdge R750xa hoạt động tốt trên nhiều lĩnh vực ứng dụng và luôn cung cấp kết quả hiệu suất cao cho điểm chuẩn suy luận máy học. Trong blog này, chúng tôi giới thiệu kết quả của máy chủ PowerEdge R750xa dưới dạng điểm chuẩn cho hiệu suất cao.
Kết quả cho thấy máy chủ PowerEdge R750xa linh hoạt và có thể hỗ trợ các thách thức trên nhiều ứng dụng AI. Ngoài ra, các kết quả có thể được lặp lại cho hiệu suất suy luận trong các lĩnh vực có vấn đề được giải quyết bằng các ứng dụng hình ảnh, lời nói, ngôn ngữ và thương mại.
Thông số kỹ thuật máy chủ PowerEdge R750xa
Cấu hình cơ sở máy chủ PowerEdge R750xa cung cấp các giải pháp doanh nghiệp cho khách hàng trong lĩnh vực trí tuệ nhân tạo. Đây là máy chủ 2U, ổ cắm kép với bộ xử lý Intel Xeon Scalable thế hệ thứ 3 kép với 40 lõi và 32 khe cắm DDR4 RDIMM cho bộ nhớ lên đến 1 TB ở tốc độ dữ liệu mạnh mẽ.
Với phần cứng hiện đại, máy chủ PowerEdge R750xa rất phù hợp với khối lượng công việc nặng. Nó đặc biệt phù hợp với các ứng dụng trí tuệ nhân tạo, học máy và học sâu cũng như các yêu cầu tính toán nặng nề của chúng. Ngoài ra, máy chủ PowerEdge R750xa được thiết kế linh hoạt, có khả năng bổ sung thêm bộ xử lý và thẻ PCIe, đồng thời có đủ dung lượng lưu trữ HDD hoặc SSD/NVMe để mở rộng nhằm đáp ứng nhu cầu khối lượng công việc. Với nền tảng là khả năng mở rộng, máy chủ có thể được mở rộng để quản lý trực quan hóa, phát trực tuyến và các loại khối lượng công việc khác nhằm giải quyết các yêu cầu xử lý AI.
Các số liệu sau đây hiển thị máy chủ PowerEdge R750xa:
H 1: Mặt trước của máy chủ PowerEdge R750xa
H 2: Mặt sau của máy chủ PowerEdge R750xa
H 3: Mặt trên của máy chủ PowerEdge R750xa không có nắp đậy
Tổng quan về Suy luận MLPerf
Điểm chuẩn suy luận MLPerf là bộ điểm chuẩn tiêu chuẩn ngành chấp nhận gửi kết quả suy luận cho một hệ thống đang được thử nghiệm (SUT) cho các bộ phận khác nhau. Mỗi bộ phận được điều chỉnh bởi các chính sách xác định các điều kiện để tạo kết quả và các cấu hình được chấp nhận cho SUT. Blog này cung cấp thông tin chi tiết về các bộ phận và chính sách chi phối MLPerf Inference Benchmarking. Để biết thêm thông tin, hãy xem trang web Điểm chuẩn suy luận MLCommons.
Trọng tâm của máy chủ PowerEdge R750xa để suy luận là bộ Trung tâm dữ liệu bộ phận khép kín. Có sáu nhiệm vụ bao gồm bốn lĩnh vực mà kết quả đo điểm chuẩn đã được gửi. Trong mỗi nhiệm vụ, bộ phận khép kín xác định một tập hợp các ràng buộc mà điểm chuẩn suy luận phải tuân theo.
Các hệ thống gửi kết quả điểm chuẩn suy luận trong mỗi tác vụ này phải đáp ứng từng ràng buộc được hiển thị trong bảng sau:
Bảng 1: Các tác vụ điểm chuẩn cho Suy luận MLPerf v1.1
Diện tích | Nhiệm vụ | Người mẫu | kích thước QSL | Phẩm chất | Giới hạn độ trễ của máy chủ |
Tầm nhìn | phân loại hình ảnh | Resnet50-v1.5 | 1024 | 99% của FP32 (76,46%) | 15 mili giây |
Tầm nhìn | Phát hiện đối tượng (lớn) | SSD-ResNet34 | 64 | 99% của FP32 (0,20 mAP) | 100 mili giây |
Tầm nhìn | Phân vùng hình ảnh y tế | Mạng 3D | 16 | 99% của FP32 và 99,9% của FP32 (điểm DICE trung bình là 0,85300) | không áp dụng |
Lời nói | Chuyển giọng nói thành văn bản | RNNT | 2513 | 99% của FP32 (1 – WER, trong đó WER=7,452253714852645%) | 1000 mili giây |
Ngôn ngữ | xử lý ngôn ngữ | BERT | 10833 | 99% của FP32 và 99,9% của FP32 (f1_score=90,874%) | 130 mili giây |
thương mại | sự giới thiệu | DLRM | 204800 | 99% của FP32 và 99,9% của FP32 (AUC=80,25%) | 30 mili giây |
Hiệu suất máy chủ PowerEdge R750xa để suy luận
Chúng tôi đã gửi kết quả đo điểm chuẩn của máy chủ PowerEdge R750xa cho từng tác vụ được liệt kê trong bảng trước. Đối với mỗi nhiệm vụ, chúng tôi cung cấp hai bài nộp. Lần gửi đầu tiên dành cho hệ thống hoạt động trong kịch bản Ngoại tuyến, trong đó SUT nhận tất cả các mẫu trong một truy vấn duy nhất và xử lý chúng liên tục cho đến khi hoàn thành. Trong chế độ này, độ trễ của hệ thống không phải là vấn đề chính. Lần gửi thứ hai đề cập đến hệ thống hoạt động trong kịch bản máy chủ, trong đó mô hình và dữ liệu được xử lý thông qua kết nối mạng và phụ thuộc vào độ trễ của SUT.
Máy chủ PowerEdge R750xa đã tạo kết quả cho từng tác vụ, ở cả hai chế độ, trên ba cấu hình khác nhau. Bảng sau liệt kê ba cấu hình:
Bảng 2: Đã gửi cấu hình máy chủ PowerEdge R750xa để đo điểm chuẩn
Cấu hình | 1 | 2 | 3 |
Hệ thống | Máy chủ PowerEdge R750xa | ||
Máy gia tốc | 4x A100-PCIe (80GB) | ||
CPU | Intel Xeon vàng 6338 | ||
ngăn xếp phần mềm | CUDA 11.3
cuDNN 8.2.1 Trình điều khiển 470.42.01 DALI 0.31.0 |
CUDA 11.3
cuDNN 8.2.1 Trình điều khiển 470.42.01 DALI 0.31.0 Triton 21.07 |
CUDA 11.3
cuDNN 8.2.1 Trình điều khiển 470.42.01 DALI 0.31.0 Triton 21.07 GPU đa phiên bản (MIG) |
Bảng cho thấy cả ba cấu hình đều giống nhau, sử dụng GPU 4 x A100-PCIe (80 GB) và CPU Intel Xeon Gold 6338. Sự khác biệt chính là trong ngăn xếp phần mềm. Cả ba cấu hình đều sử dụng TensorRT. Cấu hình 2 thêm một lớp bằng cách sử dụng Máy chủ suy luận NVIDIA Triton làm công cụ suy luận. Cấu hình 3 thêm hai lớp bằng cách sử dụng Máy chủ suy luận NVIDIA Triton và GPU đa phiên bản NVIDIA (MIG).
Các số liệu sau đây cho thấy kết quả của từng hệ thống này đối với các kịch bản Ngoại tuyến và Máy chủ.
Hình dưới đây cho thấy điểm chuẩn suy luận đầu tiên cho suy luận phân loại hình ảnh với máy chủ PowerEdge R750xa:
Nhân vật. 1: Hiệu suất của máy chủ PowerEdge R750xa khi suy luận để phân loại hình ảnh bằng ResNet
Ba cấu hình khác nhau của máy chủ PowerEdge R750xa đã được đo điểm chuẩn. Mỗi cấu hình đều sử dụng ResNet-50 làm mô hình cơ sở và chúng tôi đã quan sát hiệu suất trong cả kịch bản Ngoại tuyến và Máy chủ. Cấu hình đầu tiên với Máy chủ suy luận Triton hoạt động nhanh hơn một chút trong kịch bản Ngoại tuyến với 147.327 mẫu mỗi giây so với hai cấu hình còn lại. Cấu hình không có Máy chủ suy luận Triton chạy 146.878 mẫu mỗi giây trong khi cấu hình có Máy chủ suy luận Triton và MIG chạy 136.656 mẫu mỗi giây. Trong kịch bản Ngoại tuyến, những kết quả này cho thấy Máy chủ suy luận Triton hoạt động nhanh hơn một chút, xử lý các lô mẫu nhanh hơn bất kể độ trễ. Những kết quả này mang lại cho cấu hình đầu tiên một lợi thế về hiệu suất trong kịch bản Ngoại tuyến. Trong kịch bản Máy chủ, cấu hình không có Máy chủ suy luận Triton thực hiện nhanh nhất với 135.025 mẫu mỗi giây. Cấu hình với Máy chủ suy luận Triton chạy 126.018 mẫu mỗi giây, trong khi cấu hình với Máy chủ suy luận Triton và MIG chạy 40.003 mẫu mỗi giây. Những kết quả này cho thấy rằng các cấu hình bao gồm cả MIG đều hoạt động tương đương nhau, xếp hạng cao đối với các cấu hình GPU 4 x A100-PCIe (80 GB) trong tác vụ phân loại hình ảnh. Kết quả chứng minh rằng máy chủ PowerEdge R750xa là một nền tảng điện toán hiệu suất cao để phân loại hình ảnh, đặc biệt là khi hệ thống tăng tốc hiệu suất cao được cài đặt. trong khi cấu hình với Triton Inference Server và MIG chạy 40.003 mẫu mỗi giây. Những kết quả này cho thấy rằng các cấu hình bao gồm cả MIG đều hoạt động tương đương nhau, xếp hạng cao đối với các cấu hình GPU 4 x A100-PCIe (80 GB) trong tác vụ phân loại hình ảnh. Kết quả chứng minh rằng máy chủ PowerEdge R750xa là một nền tảng điện toán hiệu suất cao để phân loại hình ảnh, đặc biệt là khi hệ thống tăng tốc hiệu suất cao được cài đặt. trong khi cấu hình với Triton Inference Server và MIG chạy 40.003 mẫu mỗi giây. Những kết quả này cho thấy rằng các cấu hình bao gồm cả MIG đều hoạt động tương đương nhau, xếp hạng cao đối với các cấu hình GPU 4 x A100-PCIe (80 GB) trong tác vụ phân loại hình ảnh. Kết quả chứng minh rằng máy chủ PowerEdge R750xa là một nền tảng điện toán hiệu suất cao để phân loại hình ảnh, đặc biệt là khi hệ thống tăng tốc hiệu suất cao được cài đặt.
Hình dưới đây cho thấy điểm chuẩn suy luận thứ hai cho các suy luận Xử lý ngôn ngữ tự nhiên (NLP) với máy chủ PowerEdge R750xa:
Nhân vật. 2: Hiệu suất máy chủ PowerEdge R750xa khi suy luận để xử lý ngôn ngữ bằng BERT
Ba cấu hình giống nhau của máy chủ PowerEdge R750xa đã được đo điểm chuẩn. Mỗi cấu hình sử dụng hai phiên bản BERT làm mô hình cơ sở và chúng tôi đã quan sát thấy hiệu suất trong cả kịch bản Ngoại tuyến và Máy chủ. Phiên bản đầu tiên của mô hình BERT (BERT-99) dựa trên suy luận có độ chính xác 99 phần trăm; phiên bản thứ hai (BERT-99.9) dựa trên độ chính xác của suy luận là 99,9%. Trong cả hai trường hợp, máy chủ PowerEdge R750xa đã chạy thêm khoảng 50 phần trăm mẫu mỗi giây với kiểu BERT-99 so với kiểu BERT-99.9. Kết quả này là do việc sử dụng mô hình Bert-99.9 để đạt được độ chính xác 99,9 phần trăm dựa trên dữ liệu dấu phẩy động 16 bit trong khi mô hình BERT-99 dựa trên dữ liệu số nguyên 8 bit. Cái trước yêu cầu tính toán nhiều hơn đáng kể do số lượng bit trên mỗi mẫu lớn hơn.
Như với điểm chuẩn suy luận đầu tiên, cấu hình với Máy chủ suy luận Triton hoạt động nhanh hơn một chút trong kịch bản Ngoại tuyến với 12.859 mẫu mỗi giây so với các cấu hình khác sử dụng mô hình BERT-99. Do đó, Máy chủ suy luận Triton được định cấu hình để hoạt động tốt hơn một chút trong kịch bản Ngoại tuyến. Trong kịch bản Máy chủ, cấu hình không có Máy chủ suy luận Triton hoạt động tốt nhất với 11.701 mẫu mỗi giây. Đối với kiểu BERT-99.9, cấu hình không có Máy chủ suy luận Triton chạy 6.397 mẫu mỗi giây trong kịch bản Ngoại tuyến. Cả hai cấu hình không có MIG đều thực hiện giống hệt nhau ở 5.683 mẫu mỗi giây trong kịch bản Máy chủ cho kiểu BERT-99.9. Sự khác biệt cận biên này có thể được quy cho sự thay đổi giữa các lần chạy. Do đó, cả hai cấu hình đều hoạt động gần như giống hệt nhau.
Những kết quả này cho thấy rằng tất cả các cấu hình được thực hiện tương đương khi có hoặc không có Máy chủ suy luận Triton. Đối với NLP, tất cả các cấu hình đều được xếp hạng cao đối với cấu hình 4 x GPU PCIe. Kết quả cho thấy máy chủ PowerEdge R750xa rất phù hợp để xử lý các mẫu xử lý ngôn ngữ tự nhiên trong cấu hình suy luận.
Hình dưới đây cho thấy điểm chuẩn suy luận thứ ba để phát hiện đối tượng trọng lượng nhẹ trong hình ảnh bằng máy chủ PowerEdge R750xa:
Nhân vật. 3: Hiệu suất của máy chủ PowerEdge R750xa khi suy luận để phát hiện đối tượng trọng lượng nhẹ.
Ba cấu hình giống nhau của máy chủ PowerEdge R750xa đã được đo điểm chuẩn. Mỗi cấu hình đã sử dụng SDD-Large làm mô hình cơ sở và chúng tôi đã quan sát thấy hiệu suất trong cả kịch bản Ngoại tuyến và Máy chủ. Cấu hình dựa trên Máy chủ suy luận Triton hoạt động nhanh hơn một chút trong kịch bản Ngoại tuyến với 3.638 mẫu mỗi giây. Trong kịch bản Máy chủ, cấu hình không có Máy chủ suy luận Triton hoạt động tốt nhất với 3.252 mẫu mỗi giây, nhanh hơn khoảng 14 phần trăm so với các cấu hình khác. Một lần nữa, mỗi cấu hình được thực hiện tương đương khi có hoặc không có Máy chủ Suy luận Triton hoặc MIG. Để phát hiện đối tượng, tất cả các cấu hình được xếp hạng cao đối với cấu hình 4 x GPU PCIe.
Ngoài khả năng phân loại hình ảnh, NLP và phát hiện đối tượng, máy chủ PowerEdge R750xa còn được đo điểm chuẩn cho phân loại hình ảnh y tế, xử lý giọng nói thành văn bản và hệ thống đề xuất. Bảng sau đây cho thấy hiệu suất tốt nhất của máy chủ PowerEdge R750xa, dựa trên khả năng tăng tốc 4 x GPU A100 mà không cần Triton Inference Server hoặc MIG, và hiệu suất tương ứng của nó trong cả kịch bản Ngoại tuyến và Máy chủ cho từng tác vụ chính được xác định trong Bảng 1 .
Bảng 3: Hiệu suất của máy chủ PowerEdge R750xa 4x A100-PCIe (80 GB) trên TensorRT
Diện tích | Nhiệm vụ | Người mẫu | Cách thức | Mẫu mỗi giây |
Tầm nhìn | phân loại hình ảnh | Resnet50-v1.5 | ngoại tuyến | 146,878 |
Tầm nhìn | phân loại hình ảnh | Resnet50-v1.5 | Người phục vụ | 135,025 |
Tầm nhìn | Phát hiện đối tượng (lớn) | SSD-ResNet34 | ngoại tuyến | 3,634 |
Tầm nhìn | Phát hiện đối tượng (lớn) | SSD-ResNet34 | Người phục vụ | 3,252 |
Tầm nhìn | Phân vùng hình ảnh y tế | 3D Net 99 | ngoại tuyến | 231 |
Tầm nhìn | Phân vùng hình ảnh y tế | 3D Unet 99.9 | ngoại tuyến | 231 |
Lời nói | Chuyển giọng nói thành văn bản | RNNT | ngoại tuyến | 53,113 |
Lời nói | Chuyển giọng nói thành văn bản | RNNT | Người phục vụ | 48,504 |
Ngôn ngữ | xử lý ngôn ngữ | BERT-99 | ngoại tuyến | 12,773 |
Ngôn ngữ | xử lý ngôn ngữ | BERT-99 | Người phục vụ | 11,701 |
Ngôn ngữ | xử lý ngôn ngữ | BERT-99.9 | ngoại tuyến | 6,397 |
Ngôn ngữ | xử lý ngôn ngữ | BERT-99.9 | Người phục vụ | 5,683 |
thương mại | sự giới thiệu | DLRM-99 | ngoại tuyến | 1.136.410 |
thương mại | sự giới thiệu | DLRM-99 | Người phục vụ | 1.136.670 |
thương mại | sự giới thiệu | DLRM-99.9 | ngoại tuyến | 1.136.410 |
thương mại | sự giới thiệu | DLRM-99.9 | Người phục vụ | 1.136.670 |
Kết quả cho thấy hệ thống thực hiện tốt ở tất cả các tác vụ, đạt thứ hạng cao cho từng tác vụ. Những kết quả này cho thấy máy chủ PowerEdge R750xa là một hệ thống vững chắc với tính linh hoạt để xử lý hầu hết các sự cố AI mà bạn có thể gặp phải.
Sự kết luận
Trong blog này, chúng tôi đã định lượng hiệu suất của máy chủ PowerEdge R750xa trong điểm chuẩn hiệu suất MLCommons Inference v1.1. Khách hàng có thể sử dụng các kết quả đã gửi để đánh giá khả năng ứng dụng và tính linh hoạt của máy chủ PowerEdge R750xa nhằm giải quyết các nhu cầu và thách thức của họ.
Kết quả trong blog này cho thấy máy chủ PowerEdge R750xa là một lựa chọn linh hoạt cho các vấn đề suy luận AI. Nó có tính linh hoạt để đáp ứng các yêu cầu suy luận trong nhiều tình huống và loại khối lượng công việc khác nhau.