Giới thiệu nhẹ về Transformer-XL

Tóm tắt một kỹ thuật mới cho mô hình ngôn ngữ chu đáo hỗ trợ sự phụ thuộc lâu dài.

Lý lịch

Mô hình hóa ngôn ngữ gần đây đã được giải quyết bằng các phương pháp đào tạo không giám sát như ELMo và BERT. Tuy nhiên, vẫn là một thách thức để trang bị đúng cách cho các mạng thần kinh với sự phụ thuộc lâu dài.

Các mô hình gần đây được thiết kế với một cơ chế chú ý để giúp dễ dàng tối ưu hóa - bằng cách xử lý độ dốc biến mất - và cho phép học cách phụ thuộc lâu dài. Tuy nhiên, bối cảnh có độ dài cố định trong những trường hợp này, do đó mô hình không thể nắm bắt được sự phụ thuộc dài hạn hơn và phải chịu một vấn đề được gọi là phân mảnh bối cảnh.

Phân mảnh bối cảnh đề cập đến khi mô hình thiếu thông tin theo ngữ cảnh cần thiết để dự đoán một vài ký hiệu đầu tiên do cách chọn bối cảnh - thường không liên quan đến câu hoặc ranh giới ngữ nghĩa.

Ngoài ra, các mô hình trước không hỗ trợ luồng thông tin qua các phân đoạn trong quá trình đào tạo và sử dụng độ dài ngữ cảnh cố định, điều đó có nghĩa là không có chỗ cho mô hình nắm bắt được sự phụ thuộc dài hạn.

Trong ngữ cảnh mô hình hóa ngôn ngữ, các trạng thái ẩn có thể được sử dụng lại để cho phép luồng thông tin qua các phân đoạn (một loại bộ nhớ). Điều này có thể giúp hỗ trợ sự phụ thuộc lâu dài và đối phó với sự phân mảnh bối cảnh. Tuy nhiên, để kiến ​​trúc hỗ trợ tái sử dụng trạng thái, sự gắn kết tạm thời phải được quản lý, như chúng ta sẽ thảo luận tiếp theo.

Biến áp-XL

Trong quá trình đào tạo, các mô hình ngôn ngữ vanilla không sử dụng hiệu quả thông tin ngữ cảnh và các phân đoạn được xử lý riêng lẻ. Ngoài ra, các ranh giới ngữ nghĩa trong quá trình phân đoạn thường không được tôn trọng do hầu hết các phương pháp sử dụng các chuỗi phân đoạn tiêu chuẩn có độ dài cố định. Trong quá trình đánh giá, bối cảnh có độ dài cố định được sử dụng và các phân đoạn được xử lý từ đầu, điều này trở nên đắt đỏ, mặc dù sự phân mảnh bối cảnh có phần được giải quyết. Bài viết này nhằm tập trung vào vấn đề hiệu quả bằng cách mô hình hóa tốt hơn sự phụ thuộc dài hạn.

Trong mô hình hóa ngôn ngữ, các mạng Biến áp bị giới hạn bởi bối cảnh có độ dài cố định và do đó có thể được cải thiện thông qua việc học phụ thuộc dài hạn. Bài viết đề xuất một phương pháp mới gọi là Transformer-XL (nghĩa là thêm dài) cho mô hình hóa ngôn ngữ, cho phép kiến ​​trúc Transformer học được sự phụ thuộc lâu dài - thông qua cơ chế lặp lại - vượt quá độ dài cố định mà không làm gián đoạn sự kết hợp tạm thời.

Phương pháp này khác với các phương pháp trước đây tập trung vào các chiến lược khác để hỗ trợ sự phụ thuộc dài hạn như tín hiệu mất bổ sung và cấu trúc bộ nhớ tăng cường.

Một cơ chế lặp lại cấp độ phân đoạn được giới thiệu cho phép mô hình sử dụng lại các trạng thái ẩn trước đó trong thời gian đào tạo, giải quyết cả các vấn đề về bối cảnh có độ dài cố định và phân mảnh bối cảnh. Nói cách khác, thông tin lịch sử có thể được sử dụng lại và nó có thể được mở rộng đến mức mà bộ nhớ GPU cho phép. Xem các giai đoạn đào tạo và đánh giá trong hình dưới đây.

Transformer-XL - giai đoạn đào tạo và đánh giá (nguồn hình)

Để tái sử dụng đúng các trạng thái ẩn, các tác giả đề xuất một cơ chế gọi là mã hóa vị trí tương đối giúp tránh nhầm lẫn thời gian. Các mô hình hiện tại không thể phân biệt sự khác biệt vị trí giữa các đầu vào trong các phân khúc khác nhau ở các lớp khác nhau. Mã hóa vị trí tương đối giải quyết vấn đề này bằng cách mã hóa sai lệch thông tin vị trí ở các trạng thái ẩn, khác với các phương pháp khác thực hiện điều này như là mức đầu vào.

Do có kiến ​​trúc Transformer, quá trình trên đạt được bằng cách tính khoảng cách tương đối giữa mỗi vectơ chính và vectơ truy vấn và đưa nó vào điểm chú ý. Với một số mẹo tham số hóa mới của các thuật ngữ được sử dụng để lấy điểm chú ý giữa truy vấn và vectơ, thông tin vị trí tương đối có thể được kết hợp. Thành phần tái phát hiện được trang bị nhúng nhúng vị trí tương đối được đề xuất và toàn bộ quy trình này thể hiện kiến ​​trúc Transformer-XL được đề xuất.

Các kết quả

Transformer-XL thu được kết quả mạnh mẽ cho cả mô hình hóa ngôn ngữ cấp độ từ và cấp độ ký tự được áp dụng cho nhiều bộ dữ liệu khác nhau như WikiText-103, text8 và One Billion Word.

Mô hình đề xuất được so sánh với mô hình vanilla gần đây được sử dụng cho mô hình ngôn ngữ cấp độ nhân vật (Al-Rfou et al., 2018), cũng thúc đẩy sự chú ý sâu sắc hơn. Lưu ý rằng mô hình vanilla không thể hỗ trợ độ dài phụ thuộc lớn hơn chiều dài phân đoạn giới hạn trên.

Transformer-XL làm giảm điểm số bối rối SoTA trước đó trên một số bộ dữ liệu như text8, enwiki8, One Billion Word và WikiText-103. Bên cạnh các màn trình diễn SoTA, các tác giả cho rằng phương pháp này linh hoạt hơn, nhanh hơn trong quá trình đánh giá (tăng tốc 1874 lần), khái quát tốt trên các bộ dữ liệu nhỏ và có hiệu quả trong việc mô hình hóa các chuỗi ngắn và dài. Xem tóm tắt một số kết quả thu được trên các bộ dữ liệu khác nhau trong Bảng bên dưới.

Bạn có thể kiểm tra phần còn lại của kết quả trong bài báo đầy đủ được liên kết dưới đây.

Lợi ích khác

Một nghiên cứu cắt bỏ để kiểm tra các tác động của cả cơ chế tái phát và sơ đồ mã hóa vị trí được đề xuất cũng được cung cấp trong bài báo.

Các tác giả cũng đề xuất một số liệu mới gọi là Độ dài bối cảnh hiệu quả tương đối cung cấp một cách công bằng để so sánh các mô hình được thử nghiệm với độ dài bối cảnh tăng lên.

Đọc thêm

  • Transformer-XL: Các mô hình ngôn ngữ chu đáo vượt ra ngoài bối cảnh cố định
  • Máy biến áp được chú thích bởi Harvard NLP Group
  • Hướng dẫn chú ý của Lilian Weng
  • Chú ý là tất cả những gì bạn cần
  • Kho lưu trữ mã được liên kết với giấy (TensorFlow và PyTorch)
  • Mô hình hóa ngôn ngữ cấp độ nhân vật với sự tự chú ý sâu sắc hơn

Nếu đủ quan tâm được thể hiện, tôi có thể cảm thấy bị cám dỗ để chuẩn bị một hướng dẫn mã cho công việc này. Nó chứa nhiều thành phần khác nhau có thể thú vị và hữu ích cho các nhà nghiên cứu và nghiên cứu NLP.