Tăng tốc mô hình ngôn ngữ Phi-3 Mini của Microsoft với NVIDIA TensorRT-LLM

Admin 06-05-2024, 9:58 am 6

Tăng tốc mô hình ngôn ngữ Phi-3 Mini của Microsoft với NVIDIA TensorRT-LLM

NVIDIA đã công bố việc hỗ trợ tăng tốc mô hình ngôn ngữ mới Phi-3 Mini của Microsoft thông qua thư viện mã nguồn mở NVIDIA TensorRT-LLM. Được thiết kế để tối ưu hóa suất tính toán của các mô hình ngôn ngữ lớn khi chạy trên GPU NVIDIA từ máy tính cá nhân đến đám mây, NVIDIA TensorRT-LLM mở ra một giai đoạn mới trong việc xử lý dữ liệu ngôn ngữ tự nhiên với hiệu quả vượt trội.

Phi-3 Mini là một phiên bản thu gọn nhưng sở hữu khả năng mạnh mẽ tương đương các mô hình lớn gấp 10 lần. Điểm nổi bật của Phi-3 Mini là nó không chỉ được cấp phép cho mục đích nghiên cứu mà còn cho cả ứng dụng thương mại rộng rãi, đánh dấu bước tiến so với người tiền nhiệm Phi-2 chỉ dành cho nghiên cứu. Các máy trạm sử dụng GPU NVIDIA RTX hoặc máy tính cá nhân với GPU GeForce RTX có thể chạy mô hình trực tiếp tại địa phương thông qua Windows DirectML với ONNX Runtime hoặc TensorRT-LLM.

Mô hình này có 3.8 tỷ tham số và đã được huấn luyện trên 3.3 nghìn tỷ token chỉ trong vòng bảy ngày sử dụng 512 GPU NVIDIA H100 Tensor Core. Phi-3 Mini có hai biến thể: một hỗ trợ 4.000 token và một hỗ trợ 128.000 token, biến thể sau đặc biệt phù hợp cho các tình huống cần xử lý ngữ cảnh dài, cho phép các nhà phát triển sử dụng đến 128.000 token—đơn vị cơ bản của ngôn ngữ mà mô hình xử lý—khi đặt câu hỏi, giúp mô hình đưa ra các phản hồi chính xác hơn.

Các nhà phát triển có thể trải nghiệm Phi-3 Mini với cửa sổ ngữ cảnh 128K tại ai.nvidia.com, nơi mô hình được đóng gói dưới dạng NVIDIA NIM, một dịch vụ vi mô với giao diện lập trình ứng dụng chuẩn có thể được triển khai mọi nơi.

Tạo hiệu quả cho thiết bị cạnh (Edge)

Các nhà phát triển làm việc với robot tự hành và thiết bị nhúng có thể học cách tạo và triển khai AI sinh sản thông qua các hướng dẫn do cộng đồng điều hành, như trên Jetson AI Lab, và triển khai Phi-3 trên NVIDIA Jetson.

Với chỉ 3.8 tỷ tham số, mô hình Phi-3 Mini đủ nhỏ gọn để chạy hiệu quả trên các thiết bị cạnh. Các tham số này như các núm vặn, trong bộ nhớ, đã được điều chỉnh chính xác trong quá trình huấn luyện mô hình để mô hình có thể phản ứng chính xác với các đầu vào được đưa ra.

Phi-3 có thể hỗ trợ trong các tình huống hạn chế về chi phí và nguồn lực, đặc biệt là cho các nhiệm vụ đơn giản. Mô hình có thể vượt trội hơn so với một số mô hình lớn hơn trên các tiêu chuẩn ngôn ngữ chính trong khi vẫn đáp ứng yêu cầu về độ trễ.

TensorRT-LLM sẽ hỗ trợ cửa sổ ngữ cảnh dài của Phi-3 Mini và sử dụng nhiều cải tiến và nhân như LongRoPE, FP8 và đóng gói trong lúc thực hiện, giúp cải thiện thông lượng suy luận và độ trễ. Các triển khai TensorRT-LLM sẽ sớm có mặt trong thư mục ví dụ trên GitHub, nơi các nhà phát triển có thể chuyển đổi sang định dạng kiểm tra TensorRT-LLM, được tối ưu hóa cho suy luận và có thể triển khai dễ dàng với NVIDIA Triton Inference Server.

Phát triển hệ thống mở

NVIDIA là một thành viên tích cực trong cộng đồng mã nguồn mở và đã phát hành hơn 500 dự án theo các giấy phép mã nguồn mở. Công ty đã đóng góp cho nhiều dự án bên ngoài như JAX, Kubernetes, OpenUSD, PyTorch và nhân Linux, đồng thời hỗ trợ một loạt các tổ chức và cơ quan tiêu chuẩn mã nguồn mở.

Thông tin mới nhất hôm nay mở rộng sự hợp tác lâu dài giữa NVIDIA và Microsoft, đã mở đường cho các đổi mới bao gồm tăng tốc DirectML, đám mây Azure, nghiên cứu AI sinh sản, và các lĩnh vực y tế và khoa học sức khỏe.

Tin tức mới

Để được tư vấn hoặc hỗ trợ tốt nhất, bạn vui lòng để lại thông tin cần thiết bằng cách điền vào form dưới đây:

Dịch vụ quan tâm

Thêm sản phẩm vào giỏ hàng thành công!