Cách tiếp cận mới của OpenAI cho việc học bắt chước một lần, nhìn vào tương lai của AI

Học giả bắt chước một lần Yan Duan, Marcin Andrychowicz, Bradly C. Stadie, Jonathan Ho, Jonas Schneider, Ilya Sutskever, Pieter Abbeel, Wojciech Zaremba

Vào ngày 16 tháng 5, các nhà nghiên cứu OpenAI đã chia sẻ một video về một trong những dự án của họ cùng với hai bài báo về các giải pháp quan trọng đối với ba nút thắt chính của phát triển AI hiện tại: học siêu tốc, học một lần và tạo dữ liệu tự động. Trong bài viết trước của tôi, tôi đã hứa một bài viết dành riêng cho vấn đề hấp dẫn của việc học một lần, vì vậy hãy đến đây. Bạn có thể bắt đầu bằng cách xem video họ phát hành giải thích công việc tuyệt vời của họ:

Trong video này, bạn thấy một robot vật lý một tay xếp các khối lên nhau. Biết các nhiệm vụ phức tạp mà robot công nghiệp hiện có thể thực hiện, nếu nhà nghiên cứu không cố gắng giải thích những gì đang diễn ra, trên nhiều tài khoản, điều này sẽ rất áp đảo. Trong môi trường được kiểm soát, nhiệm vụ rất đơn giản, các cách tiếp cận theo thủ tục (mã hóa cứng) đã giải quyết được vấn đề này rồi, điều hứa hẹn và mang tính cách mạng là khung chung bên dưới có thể mở rộng ra bao nhiêu hành vi thích ứng và phức tạp hơn trong môi trường ồn ào hơn.

Sự khác biệt trong tâm trí giữa con người và các động vật bậc cao, tuyệt vời như nó, chắc chắn là một mức độ và không phải là loại.
- Charles Darwin

Tương tự, bài viết này là một bằng chứng mạnh mẽ cho thấy sự khác biệt về hệ thống nhận thức giữa AI hiện thân (trí tuệ nhân tạo của hệ thống vật lý) và robot của thế kỷ 22 sẽ là một quy mô và không phải là loại. Kể từ cuộc thi ImageNet năm 2012 *, nghiên cứu học tập sâu đã bùng nổ, không nhiều để sửa đổi bản chất của tính toán phân tán được thực hiện bởi một mạng thần kinh, nhưng bằng cách tìm ra những cách mới để cấu trúc mạng để họ học một nhiệm vụ cụ thể. Đối với chức năng mạng thần kinh là cấu trúc, cấu trúc này không được mã hóa cứng (không được thiết kế bằng tay) nhưng đó là kết quả của các đơn vị tính toán nguyên tử được kết nối ban đầu giữa đầu vào và đầu ra, có thể sửa đổi cấu trúc và kết nối của chúng. Đó là bằng cách sửa đổi cấu trúc tổng thể của mạng mà nó học được một chức năng cụ thể.

Trong bài viết này, họ đã xây dựng một khung chung có thể đào tạo một tác nhân để thể hiện các nhiệm vụ theo một cách trừu tượng và học cách chuyển kiến ​​thức này sang các nhiệm vụ mới chưa thấy (chuyển học) chỉ sau một lần trình diễn nhiệm vụ mới lạ (một lần học bắt chước).

Nhiệm vụ

Mặc dù việc thực hiện kiến ​​trúc chính xác khác nhau, họ lấy hai nhiệm vụ làm ví dụ để cho thấy hiệu suất của phương pháp chung.

Đạt tới hạt

Trong ví dụ đầu tiên, hệ thống nhận đầu vào của các vị trí mục tiêu được tô màu trên một mặt phẳng và trình diễn video duy nhất của tác nhân mô phỏng đi đến mục tiêu đã chỉ định.

Hình 2. Robot là một khối điểm được điều khiển bằng lực 2 chiều. Gia đình của các nhiệm vụ là để đạt được một mốc mục tiêu. Nhận dạng của mốc khác nhau từ nhiệm vụ này đến nhiệm vụ khác, và mô hình phải tìm ra mục tiêu nào để theo đuổi dựa trên cuộc biểu tình. (trái) minh họa về robot; (giữa) nhiệm vụ là đến hộp màu cam, (phải) nhiệm vụ là đến tam giác màu xanh lá cây.

Trong quá trình huấn luyện, hệ thống phải tái tạo cùng một nhiệm vụ (đạt màu cam) nhưng từ một cấu hình khác, với các vị trí bắt đầu khác nhau cho robot và các mục tiêu. Không rõ liệu trong quá trình thử nghiệm, tác nhân được thử nghiệm trong nhiệm vụ mà anh ta được đào tạo (đạt màu cam) hoặc về nhiệm vụ mà anh ta chưa từng thấy trước đây (ví dụ như đạt được màu xanh lá cây) hoặc cả hai.

Chính sách được đào tạo được đánh giá dựa trên các kịch bản mới và dựa trên các quỹ đạo trình diễn mới chưa từng thấy trong quá trình đào tạo.

Chắc chắn rằng tác nhân phải suy ra mục tiêu mục tiêu từ một cuộc biểu tình duy nhất và một lần nữa bắt đầu từ một cấu hình khác. Điều này ngụ ý rằng trình tự động cơ chính xác không thể được học trước khi thử nghiệm và phải được suy luận thông qua sự trừu tượng hóa (biểu diễn cấu trúc cấp cao hơn) của nhiệm vụ và lập kế hoạch động cơ.

Ngăn xếp khối

Trong ví dụ thứ hai, tác nhân phải học cách xếp các khối (được xác định bằng các màu khác nhau) theo cùng một thứ tự như trong một trình diễn mô phỏng duy nhất. Trình diễn mô phỏng này là một loạt các hình ảnh 2D được tạo ra bởi một công cụ vật lý 3D trong đó các đặc tính của động cơ và bộ máy cảm giác của robot được mô hình hóa.

Chính sách một phát. Một chính sách duy nhất được đào tạo để giải quyết nhiều nhiệm vụ. Nhiệm vụ hàng đầu: {abc, def}, Nhiệm vụ dưới cùng: {ab, cd, ef}

Trong cả hai ví dụ, vị trí ban đầu của các hình khối trong trình diễn và trong thử nghiệm thực tế là khác nhau, mỗi nhiệm vụ bắt đầu từ một vị trí ban đầu khác. Robot không cố gắng thay thế các hình khối để phù hợp với vị trí ban đầu của cuộc biểu tình, nó chuyển nhiệm vụ cấp cao hơn là đóng cọc khối bất cứ trạng thái nào mà anh ta bắt đầu.

Đào tạo sử dụng ngẫu nhiên tên miền

Trong cả hai trường hợp, tất cả các hình ảnh được sử dụng trong quá trình đào tạo đều thu được thông qua mô phỏng sử dụng ngẫu nhiên miền, trong đó chúng sẽ ngẫu nhiên hóa các khía cạnh sau của các mẫu:

Số lượng và hình dạng của các đối tượng phân tâm trên bàn Vị trí và kết cấu của tất cả các đối tượng trên bàn Kết cấu của bàn, sàn, hộp trời và robot Vị trí, hướng và trường nhìn của camera Số lượng đèn trong cảnh Vị trí, hướng, và đặc điểm cụ thể của đèn Loại và lượng nhiễu ngẫu nhiên được thêm vào hình ảnh

Tập huấn luyện để đạt hạt

Chúng tôi xem xét một nhóm các nhiệm vụ ngày càng khó khăn, trong đó số lượng cột mốc tăng từ 2 lên 10. Đối với mỗi gia đình nhiệm vụ, chúng tôi thu thập 10000 quỹ đạo để đào tạo, trong đó vị trí của các mốc và vị trí bắt đầu của robot điểm được chọn ngẫu nhiên. Chúng tôi sử dụng một chính sách chuyên gia được mã hóa cứng để tạo ra các cuộc biểu tình một cách hiệu quả. Chúng tôi thêm tiếng ồn vào các quỹ đạo bằng cách gây nhiễu các hành động được tính toán trước khi áp dụng chúng vào môi trường và chúng tôi sử dụng nhân bản hành vi đơn giản để huấn luyện chính sách mạng thần kinh

Tập huấn cho xếp chồng

Cụ thể, chúng tôi thu thập 140 nhiệm vụ đào tạo và 43 nhiệm vụ thử nghiệm, mỗi nhiệm vụ có bố cục các khối mong muốn khác nhau. Số lượng khối trong mỗi nhiệm vụ có thể khác nhau giữa 2 và 10. Chúng tôi thu thập 1000 quỹ đạo cho mỗi nhiệm vụ để đào tạo và duy trì một tập hợp các quỹ đạo và cấu hình ban đầu được sử dụng để đánh giá. Tương tự như nhiệm vụ tiếp cận hạt, chúng tôi đưa tiếng ồn vào quá trình thu thập quỹ đạo. Các quỹ đạo được thu thập bằng cách sử dụng chính sách mã hóa cứng.

Các cuộc biểu tình thành công được thu thập bằng chính sách mã hóa cứng

Lưu ý rằng trong quá trình tìm hiểu các quỹ đạo chính xác được tạo ra bởi chính sách mã hóa cứng của thủ tục, mà tôi tin rằng phụ thuộc vào các kỹ thuật cổ điển về nhận dạng và kiểm soát hệ thống. Vì vậy, trong quá trình đào tạo và kiểm tra, tác nhân có hai đầu vào: a) trình diễn trong cấu hình A và b) cấu hình bắt đầu B. Chỉ trong quá trình đào tạo, thuật toán học tập cũng có quyền truy cập vào một phản ứng lý tưởng: quỹ đạo bắt đầu từ cấu hình B trả lời vấn đề và phản ứng của tác nhân sẽ được so sánh trong quá trình học - làm cho nó trở thành một vấn đề học tập có giám sát.

Đối với mỗi nhiệm vụ đào tạo, chúng tôi giả định có sẵn một loạt các cuộc biểu tình thành công.

Nếu nó không rõ ràng, tôi sẽ đi qua sự khác biệt giữa các loại mô hình học tập khác nhau trong phần tiếp theo.

Thuật toán tối ưu hóa và hàm mất mát

Học tập có giám sát đề cập đến các mô hình đào tạo trong đó ở mỗi quyết định, mạng có quyền truy cập vào sự lựa chọn chính xác mà anh ta nên đưa ra, và do đó có một khái niệm về lỗi. Ví dụ, trong một nhiệm vụ phân loại giữa chó và mèo, nhãn hình ảnh của chó và mèo trong quá trình huấn luyện được biết trước và các lỗi được phát hiện ngay lập tức. Theo nghĩa đó, nó khác với việc học tập không giám sát, nói chung, người đại diện được yêu cầu tìm một cấu trúc chưa biết trước đó trong các đầu vào mà anh ta nhận được, và không có nhãn của chó và mèo sẽ phải phát hiện ra rằng có hai cụm đối tượng khác nhau chỉ dựa trên thông tin chứa trong dữ liệu. Nó cũng khác với Học tăng cường mà áp dụng cho hệ thống thời gian thực, trong đó trình tự quyết định chính xác dẫn đến mục tiêu là không xác định nhưng chỉ có phần thưởng cuối cùng của Phần cứng sẽ quyết định liệu trình tự đó có đúng hay không. Bằng cách sử dụng học tập bắt chước, họ chuyển đổi một vấn đề học tập củng cố cổ điển thành một vấn đề học tập có giám sát, trong đó lỗi được tính từ khoảng cách đến một quỹ đạo quan sát được.

Vì đây là trường hợp của bất kỳ thiết lập đào tạo được giám sát nào, nhiệm vụ trong tay hoàn toàn được xác định bởi chức năng mất, nhằm mục đích định lượng khoảng cách từ tác nhân dự định. Xác định chức năng này thường là bước quan trọng, vì nó xác định cách các thuật toán tối ưu hóa cập nhật các tham số của mô hình. Những thuật toán này có tầm quan trọng về mặt thời gian tính toán, và thường cần một số điều chỉnh để có thể hội tụ, nếu có. Thật vậy, các giải pháp sẽ giảm thiểu chức năng ở kích thước rất cao nằm trong một vỏ rất nhỏ của không gian tham số, với một khoảng cách nhỏ giữa chúng, ngay khi bạn rời khỏi miền nhỏ đó, khoảng cách giữa các giải pháp tăng nhanh. Có rất nhiều công việc rất thú vị về chủ đề đó được thực hiện bởi những người khác bởi Jennifer Chayes rất tuyệt vời, cô ấy đã đánh bóng chủ đề này trong một cuộc phỏng vấn rất thú vị về tập cuối của Talking Machines.

Trong quá trình đào tạo các mạng chính sách (toàn bộ mạng, có thể quyết định từ đầu vào nên thực hiện hành động nào) trước tiên họ xử lý quỹ đạo trình diễn thành công. Về phần này, họ sẽ so sánh hai cách tiếp cận, nhân bản Hành vi cổ điển (không chắc chắn chính xác về việc triển khai họ đã sử dụng) và thuật toán DAGGER. Điều này sau đó sẽ cho phép giảm thiểu lặp lại hàm mất mát thông qua l2 hoặc mất entropy chéo dựa trên việc các hành động là liên tục hay rời rạc (dựa trên phân phối các sự kiện trong chuỗi). Trên tất cả các thí nghiệm, họ đã sử dụng thuật toán Adamax để thực hiện tối ưu hóa với tỷ lệ học tập là 0,001.

Kích thước bước bắt đầu nhỏ và phân rã theo cấp số nhân.

Bản thân thuật toán không cho phép chuyển, đó là cách bạn xây dựng tập huấn luyện và chức năng mất của bạn sẽ cho phép chuyển.

Hai loại chuyển giao tồn tại trong các nhiệm vụ. Loại đầu tiên được gọi là Cầu nối với khoảng cách thực tế, đó là một khái quát trong học tập cho phép chuyển đổi giữa đào tạo về đầu vào mô phỏng để thử nghiệm các kích thích tự nhiên. Dữ liệu mô phỏng thường là một xấp xỉ nghèo nàn của thế giới thực, quá hoàn hảo, thiếu sự phức tạp của đối tượng thực. Trong thế giới thực, máy ảnh có thể bị lỗi và nhiễu hơn, điều khiển động cơ sẽ kém chính xác hơn, màu sắc sẽ thay đổi, kết cấu sẽ phong phú hơn, v.v. : đó là bằng cách thêm nhiễu vào các đầu vào mà mạng có thể tìm hiểu cấu trúc có liên quan phổ biến sẽ cho phép nó khái quát hóa một cách phù hợp với thế giới thực. Ví dụ, họ sẽ thay đổi góc của máy ảnh giữa các ví dụ đào tạo, thay đổi kết cấu hoặc làm cho các quỹ đạo trở nên kém hoàn hảo. Bằng cách thêm tiếng ồn trong quá trình đào tạo, chúng tôi thêm mạnh mẽ.

Chuyển thứ hai được thử nghiệm ở đây là khả năng tạo ra một chuỗi động cơ có liên quan trong bộ cấu hình và mục tiêu chưa từng thấy trước đó, dựa trên một trình diễn duy nhất bắt đầu trong một cấu hình ban đầu khác nhưng với mục tiêu cuối cùng tương tự. Một lần nữa ở đây việc chuyển giao sẽ được thực hiện bằng cách chúng ta xây dựng tập huấn luyện và mô hình hóa hàm mất. Bằng cách trình bày các cuộc biểu tình trong quá trình đào tạo không bắt đầu từ cùng một điều kiện ban đầu để đạt được mục tiêu tương tự, bạn cho phép mạng học cách nhúng một biểu diễn cấp cao hơn của mục tiêu mà không cần sử dụng các vị trí tuyệt đối, cũng như biểu diễn bậc cao hơn của trình tự động cơ không phải là một giả đơn giản. Kiến trúc ban đầu ngây thơ cho phép đào tạo để sửa đổi cấu trúc theo cách có liên quan và cấu trúc được đào tạo này bao hàm chức năng cuối cùng.

Mục tiêu

Đối với mô hình xếp chồng khối, họ có một số hạn chế mà họ muốn tác nhân học tập của họ gặp nhau.

Nên dễ dàng áp dụng cho các trường hợp tác vụ có số lượng khối khác nhau.
Nó nên tự nhiên khái quát cho các hoán vị khác nhau của cùng một nhiệm vụ. Chẳng hạn, chính sách sẽ thực hiện tốt nhiệm vụ {dcba}, ngay cả khi nó chỉ được đào tạo về nhiệm vụ {abcd}.
Nó sẽ phù hợp với các cuộc biểu tình của chiều dài thay đổi.

Họ đã có một số câu hỏi mà họ muốn trả lời cho nhiệm vụ này.

Làm thế nào để đào tạo với nhân bản hành vi so với DAGGER, cho rằng có thể thu thập đủ dữ liệu ngoại tuyến?
Làm thế nào để điều hòa trên toàn bộ trình diễn so với điều hòa trên cấu hình mong muốn cuối cùng, ngay cả khi cấu hình cuối cùng có đủ thông tin để chỉ định đầy đủ nhiệm vụ?
Làm thế nào để điều hòa trên toàn bộ cuộc biểu tình so với điều hòa trên một ảnh chụp nhanh hình chữ nhật của quỹ đạo, đó là một tập hợp nhỏ các khung có nhiều thông tin nhất
Khung của chúng tôi có thể khái quát thành công các loại nhiệm vụ mà nó chưa từng thấy trong quá trình đào tạo không? (++)
Những hạn chế hiện tại của phương pháp là gì?

Ngành kiến ​​trúc

Tiếp cận hạt

Trong ví dụ đầu tiên này, họ đã so sánh ba kiến ​​trúc tất cả dựa trên các mạng thần kinh Bộ nhớ ngắn hạn (LSTM). Một mô tả về các mạng đó sẽ đi vào một bài đăng trong tương lai về trí nhớ và sự chú ý, đây là những chủ đề hoàn toàn hấp dẫn cả về khoa học nhận thức và tính toán. Về bản chất, LSTM cung cấp các đầu ra mạng trước đó (theo thời gian) như một phần của đầu vào của mạng tại mỗi thời điểm mới, cho phép thông tin của các trạng thái trong quá khứ để thông báo cho hiện tại (do đó tên của các mạng bộ nhớ ngắn hạn). Chúng là gốc rễ của nhiều công nghệ tiên tiến liên quan đến chuỗi thời gian (Alexa, Siri, v.v.).

Ở đây họ sử dụng ba điều kiện cụ thể:

  1. Plain LSTM: học cách nhúng quỹ đạo và trạng thái hiện tại để đưa nó vào một tri giác đa lớp sẽ tạo ra hành động của động cơ
  2. LSTM với sự chú ý: tạo ra một đại diện có trọng số trên các mốc của quỹ đạo
  3. Trạng thái cuối cùng được chú ý: chỉ sử dụng trong đào tạo trạng thái cuối cùng để tạo ra trọng số trên các mốc, tương tự như kiến ​​trúc trước đó

Ngăn xếp khối

Trong khi, về nguyên tắc, một mạng lưới thần kinh chung có thể học ánh xạ từ trình diễn và quan sát hiện tại đến hành động thích hợp, chúng tôi thấy điều quan trọng là sử dụng một kiến ​​trúc phù hợp. Kiến trúc của chúng tôi để xếp chồng khối học tập là một trong những đóng góp chính của bài viết này và chúng tôi tin rằng nó là đại diện cho kiến ​​trúc cho việc học giả một lần trong các nhiệm vụ phức tạp hơn trong tương lai.

Các mô-đun chú ý

Bài viết vẫn ở mức tương đối cao trong việc mô tả cấu trúc của các mạng được sử dụng để tìm hiểu nhiệm vụ. Một thành phần quan trọng của kiến ​​trúc là mô-đun chú ý của họ, nhưng tôi tin rằng chủ đề này cần một bài đăng cụ thể để đi sâu vào chi tiết về vai trò thiết yếu của nó. Tương tự như khái niệm khoa học nhận thức về sự chú ý bền vững, các mô-đun chú ý được sử dụng để giữ và tập trung vào các thông tin liên quan có trong các khoảng không gian và thời gian khác nhau. Nó tạo ra một đầu ra có kích thước cố định có chứa nội dung thông tin được kéo dài theo thời gian và không gian. Tương tự như cấu trúc liên kết, một nhánh toán học mà tôi tin rằng sẽ thông báo rất nhiều về cách chúng ta hiểu các biểu diễn phân tán trong tương lai, một mạng lưới chú ý thực hiện một cấu trúc cấu trúc thông tin tôpô, cùng độ cong, hình dạng khác nhau. Lưu ý rằng các mạng này không đóng vai trò là máy phát hiện độ mặn có thể tập trung vào các sự kiện bất ngờ hoặc hiếm gặp, đây là chức năng liên quan đến khái niệm chú ý trong khoa học thần kinh.

Ở đây, họ sử dụng hai loại mạng chú ý: a) mạng chú ý tạm thời tạo ra tổng trọng số trên nội dung (vectơ truy vấn, ngữ cảnh và bộ nhớ) được lưu trữ trong bộ nhớ và b) mạng chú ý lân cận có thể khôi phục thông tin liên quan đến khối vị trí tùy thuộc vào truy vấn hiện tại của các đại lý.

Mạng chú ý tạm thời, với c: vectơ bối cảnh, m: vectơ bộ nhớ, q: vectơ truy vấn, v: trọng lượng vectơ đã học. Đầu ra có cùng kích thước với vector bộ nhớ. Nó là sự kết hợp tuyến tính của các vectơ đó cho phép một số vectơ bộ nhớ có tác động nhiều hơn đến đầu ra dựa trên bối cảnh và vectơ truy vấn.Ý tưởng tương tự ở đây, sự cạnh tranh giữa các thông tin không gian được duy trì linh hoạt bởi hệ thống chú ý.

Mạng chính sách

Mạng hoàn chỉnh bao gồm ba mạng con khác nhau: mạng trình diễn, mạng ngữ cảnh và mạng thao tác.

Mạng trình diễn nhận được một quỹ đạo trình diễn làm đầu vào và tạo ra sự nhúng của bản trình diễn được sử dụng bởi chính sách. Kích thước của sự nhúng này phát triển tuyến tính như là một hàm của độ dài của trình diễn cũng như số lượng khối trong môi trường.

Như được hiển thị ở đây, mạng trình diễn có thể nhúng trình diễn về độ phức tạp và kích thước khác nhau vào một định dạng chung sẽ được sử dụng bởi mạng ngữ cảnh để thể hiện tác vụ. Có lẽ ở cấp độ này đã xảy ra sự khái quát hóa, việc nhúng trình diễn nên bỏ đi thông tin về vị trí tuyệt đối của quỹ đạo và khối lập phương được nhìn thấy trong các cuộc biểu tình.

Nhìn vào cấu trúc của mạng ngữ cảnh, mặc dù từ mức rất cao, chúng ta thấy giao diện với mạng trình diễn cho phép nhúng phần trình diễn vào các mô đun chú ý theo thời gian trung tâm. Chúng ta cũng thấy rằng các hành động trước đó (LSTM) và trạng thái hiện tại được cung cấp dưới dạng đầu vào được kết hợp với nhúng trình diễn để tạo ra bối cảnh toàn cầu nhúng vào mạng động cơ.

Mô tả của họ về chức năng mạng theo ý kiến ​​của tôi là phần quan trọng nhất của bài báo:

Mạng ngữ cảnh bắt đầu bằng cách tính toán một vectơ truy vấn như là một hàm của trạng thái hiện tại, sau đó được sử dụng để tham dự qua các bước thời gian khác nhau trong việc nhúng trình diễn. Các trọng số chú ý trên các khối khác nhau trong cùng một bước thời gian được tổng hợp lại với nhau, để tạo ra một trọng số duy nhất cho mỗi bước thời gian. Kết quả của sự chú ý tạm thời này là một vectơ có kích thước tỷ lệ với số khối trong môi trường. Sau đó, chúng tôi áp dụng sự chú ý của khu phố để truyền bá thông tin qua các phần nhúng của mỗi khối. Quá trình này được lặp lại nhiều lần, trong đó trạng thái được nâng cao bằng cách sử dụng một tế bào LSTM với các trọng số chưa được kiểm tra.
Chuỗi hoạt động trước đó tạo ra một nhúng có kích thước độc lập với độ dài của bản trình diễn, nhưng vẫn phụ thuộc vào số lượng khối. Sau đó, chúng tôi áp dụng sự chú ý mềm tiêu chuẩn để tạo ra các vectơ có chiều cố định, trong đó nội dung bộ nhớ chỉ bao gồm các vị trí của mỗi khối, cùng với trạng thái của robot, tạo thành đầu vào được truyền vào mạng thao tác.
Theo trực giác, mặc dù số lượng vật thể trong môi trường có thể khác nhau, ở mỗi giai đoạn của thao tác thao tác, số lượng vật thể có liên quan là nhỏ và thường cố định. Đối với môi trường xếp chồng khối cụ thể, robot chỉ cần chú ý đến vị trí của khối mà nó đang cố gắng nhặt (khối nguồn), cũng như vị trí của khối mà nó đang cố gắng đặt lên trên ( khối mục tiêu). Do đó, một mạng được đào tạo đúng có thể học cách khớp trạng thái hiện tại với giai đoạn tương ứng trong trình diễn và suy ra danh tính của các khối nguồn và khối đích được biểu thị dưới dạng trọng số mềm trên các khối khác nhau, sau đó được sử dụng để trích xuất các vị trí tương ứng được chuyển đến mạng thao tác.

Cách họ hoàn thành mô tả của họ là một ví dụ hoàn hảo về sự trôi dạt của nghiên cứu AI hiện tại từ cách tiếp cận hệ thống chuyên gia đến cách tiếp cận hệ thống học tập, và nó cũng gợi ý về cuộc thảo luận xung quanh cách não bộ phát triển bên dưới.

Mặc dù chúng tôi không thực thi giải thích này trong đào tạo, phân tích thử nghiệm của chúng tôi hỗ trợ cho việc giải thích này về cách chính sách đã học hoạt động trong nội bộ.

Họ không biết làm thế nào nó hoạt động! Họ xây dựng một cấu trúc có thể thực hiện một số tính toán nhất định và lưu trữ một số thông tin nhất định mà chúng tôi nghĩ là hữu ích, và cung cấp cho nó một bộ huấn luyện với hy vọng toàn bộ cấu trúc sẽ học! Có một loại nghiên cứu Trí tuệ nhân tạo đang phát triển, một nghệ thuật, một cách để hướng tìm kiếm heuristic đi đúng hướng. Và có vẻ như rất nhiều pháp sư hiện đang làm việc cho openAI.

Nói theo cách riêng của họ, mạng thao tác là cấu trúc đơn giản nhất, từ việc nhúng bối cảnh được đưa vào tri giác nhiều lớp, một hành động vận động được tạo ra.

Các kết quả

Kết quả thường là một phần mà tôi ít quan tâm, đặc biệt là đối với những loại giấy tờ kỹ thuật tuyệt vời đáng kinh ngạc đó. Tôi sẽ đi nhanh, điểm mấu chốt là cách tiếp cận này hoạt động, nó thực hiện với độ chính xác tương tự như các chính sách chuyên gia được mã hóa cứng và trái với cách tiếp cận thủ tục cụ thể đó, có thể khái quát hóa cho một loạt các nhiệm vụ.

Tiếp cận hạt

Ngăn xếp khối

Trong các thí nghiệm này, họ cũng đã thử nghiệm các điều kiện khác nhau. Sử dụng DAGGER, họ đã so sánh ba điều kiện đầu vào khác nhau bằng cách lấy mẫu quỹ đạo đã chứng minh: quỹ đạo đầy đủ, ảnh chụp quỹ đạo hoặc chỉ sử dụng trạng thái cuối cùng. Họ cũng so sánh thuật toán Nhân bản Hành vi với quỹ đạo đầy đủ của bản trình diễn.

Một bằng chứng mạnh mẽ về khả năng hệ thống để khái quát hóa qua nhận dạng khối

Thảo luận

Đọc những tiến bộ nhanh chóng được thực hiện bởi OpenAI trong những tháng qua, tôi cảm thấy muốn nói về công việc của họ và chia sẻ suy nghĩ của tôi về những gì tôi tin vào công việc của họ, và những tiến bộ của lĩnh vực AI nói chung bộ não sinh học làm việc. Cụ thể, ý tưởng ngày càng tăng này cho thấy các chức năng nhận thức dường như được chia sẻ giữa con người không phải là do cấu trúc được chia sẻ mà vô tình biết cách thực hiện một nhiệm vụ, mà thay vào đó là kết quả của các cấu trúc ngây thơ tương đối giống nhau, đối mặt với cùng một môi trường, học để thực hiện các nhiệm vụ tương tự. Hàm là kết quả của cấu trúc không có chức năng chỉ có thể học một tác vụ cụ thể do một môi trường cụ thể chứ không phải là cấu trúc có thể thực hiện nhiệm vụ một cách tự nhiên, chỉ cần điều chỉnh một vài tham số để thích ứng với môi trường.

Nhiệm vụ so với cấu hình: một định nghĩa dường như tùy ý

Tôi phải thừa nhận tôi không hiểu tại sao họ chọn nói về các nhiệm vụ khác nhau theo cách họ đã làm. Một tác vụ được xác định trong thử nghiệm xếp chồng khối là một chuỗi các chuỗi biểu thị vị trí của các khối so với nhau, số phần tử trong tập xác định số lượng ngăn xếp và số lượng ký tự số lượng khối cần sắp xếp . Một nhiệm vụ sau đó là sự sắp xếp các khối trong ngăn xếp không phân biệt vị trí tuyệt đối của ngăn xếp.

Một số khối có thể nằm trên bàn nhưng không phải là một phần của nhiệm vụ

Sự lựa chọn của họ về việc xác định vị trí tương đối và số lượng ngăn xếp làm tiêu chí cho nhiệm vụ riêng biệt có vẻ tùy ý. Thật vậy, cũng có thể có ý nghĩa khi nói về các nhiệm vụ khác nhau dựa trên vị trí bắt đầu tuyệt đối của các khối (cái mà chúng gọi là cấu hình). Tôi tin rằng bản chất chung của vấn đề là hiển nhiên đối với họ, nhưng vì mục đích rõ ràng, họ không muốn đi sâu vào chi tiết. Sẽ hợp lý hơn khi đóng khung việc học chính sách thành hai loại khái quát hóa, cách chúng thực hiện sau này:

Lưu ý rằng khái quát hóa được đánh giá ở nhiều cấp độ: chính sách đã học không chỉ cần khái quát hóa cho các cấu hình mới và các bản trình diễn mới về các nhiệm vụ đã thấy, mà còn cần khái quát hóa cho các nhiệm vụ mới.

Chỉ cần thay thế các nhiệm vụ của Cameron bởi các thứ tự stack stack. Để tìm hiểu chính xác nhiệm vụ có nghĩa là tác nhân học cách nhúng có thể trừu tượng hóa vị trí của các hình khối (cấu hình), nhưng cả danh tính (nhiệm vụ) của chúng, số lượng ngăn xếp (nhiệm vụ) và quỹ đạo của cuộc biểu tình (được giới thiệu ngắn gọn trong báo giá) để tạo ra một phản ứng động cơ có liên quan.

Những khái quát đó có vẻ mâu thuẫn, làm thế nào cùng một mạng có thể trừu tượng cấu hình ban đầu của khối lập phương hoặc danh tính của chúng mà vẫn phục hồi vị trí tuyệt đối của chúng cho phản ứng của động cơ?

Điều này giải thích sự cần thiết của các mạng con hợp tác khác nhau trong quá trình học, nhận các đầu vào khác nhau và nó giải thích rằng trong mạng ngữ cảnh, một biểu diễn trừu tượng của tác vụ được cung cấp thông tin theo thứ tự thấp hơn, như các vị trí tuyệt đối, trước lệnh giảm dần.

Bạn có thể nghĩ rằng nhận xét về sự phân biệt nhiệm vụ và cấu hình này là ngớ ngẩn, nhưng điều cần thiết là phải hiểu rằng về bản chất nó là quá trình trừu tượng hóa khi chơi trên các đối tượng khác nhau (và điều này mở ra cho phần sau).

Không có học mà không có bất biến

Học chuyển giao có lẽ là khái niệm hấp dẫn nhất về nhận thức dù là in-silico hay in-vivo, đây là một chủ đề rất nóng đối với cả các nhà nghiên cứu AI và các nhà thần kinh học, và nó là chủ đề của luận án tiến sĩ của tôi. Lưu ý rằng các khái niệm liên quan chặt chẽ đã được khám phá trong nhiều lĩnh vực trước khi học máy, và khái niệm trừu tượng và luôn được xác định một phần này có nhiều tên. Các nhà triết học, nhà nhân chủng học và nhà xã hội học có thể gọi nó là Chủ nghĩa cấu trúc (Hậu-) (Claude Levi-Strauss, Michel Foucault), Linguist sẽ nói về cấu trúc Syntagma và Nested Tree (Noam Chomsky), các nhà toán học có thể sẽ nghĩ về Homeomorph các nhà nghiên cứu hoặc nhà thần kinh học có thể gọi nó là Học cấu trúc. Bạn cũng có thể thấy khái niệm liên quan trong lĩnh vực học máy như học đại diện và học siêu, tùy thuộc vào tác giả có thể đề cập đến học chuyển hoặc mô hình học được sử dụng để thực hiện học chuyển. Khi nói về Mạng lưới thần kinh sâu, những khác biệt này bị xóa nhòa, vì về bản chất, mạng lưới thần kinh đang học cách nhúng một vấn đề nhất định (học đại diện) bằng cách sửa đổi cấu trúc của nó (siêu học) thường trong một môi trường ồn ào, ngụ ý một hình thức học chuyển.

Các nhà nghiên cứu AI và Nhà khoa học nhận thức thường có một định nghĩa rất cụ thể về học chuyển, đó là quá trình cho phép một hệ thống sử dụng kiến ​​thức thu được trong một nhiệm vụ nhất định để thực hiện một nhiệm vụ khác chia sẻ cấu trúc thành phần chung (như được mô tả trong bài viết). Khoa học nhận thức có khái niệm chuyển giao gần và xa, tùy thuộc vào cách hai nhiệm vụ dường như khác nhau. Nhưng từ góc độ trừu tượng hơn, trong một môi trường ồn ào và phức tạp, tất cả việc học là một hình thức học chuyển và sự khác biệt giữa chuyển rất gần và rất xa chỉ là vấn đề chia sẻ thông tin - lại là vấn đề quy mô không phải tự nhiên.

Trong môi trường được kiểm soát, những nỗ lực đã được thực hiện trước đó để xây dựng một sự phân biệt mã hóa cứng của thực tế, nhưng trên thực tế, sự phân biệt này tái tạo theo thủ tục những gì học chuyển, nó kết hợp một tập hợp vô hạn các trạng thái được tìm thấy trong thực tế theo một cấu trúc kèm theo chung. Về bản chất, Transfer Learning đề cập trực tiếp hoặc bằng cách mở rộng cho quá trình các tác nhân học tập sử dụng các bất biến để xây dựng các mô hình của thế giới. Đó là một quá trình sử dụng các điểm tương đồng, lặp lại và các biến thể giống nhau, để tạo thành biểu diễn ngày càng trừu tượng và sáng tác sẽ cấu trúc thành các khoảng phương sai theo đầu vào. Nói chung, nó cho phép tạo ra các hoạt động cơ bản thông qua đó chúng ta thao tác các nhóm thông tin, giống như trong toán học, nó cho phép kết hợp và giao nhau. Nó cho phép nhận dạng, nó giải thích khả năng của chúng tôi để phân loại các đối tượng. Josh Tenembaum đưa ra một ví dụ thực sự đã nói với tôi: hãy tưởng tượng bạn đang dạy một đứa trẻ hai tuổi lần đầu tiên nhận ra một con ngựa, bạn cho nó xem một vài bức tranh về những con ngựa khác nhau và sau đó bạn cho nó xem hình ảnh của một con ngựa khác và hình ảnh của một ngôi nhà và yêu cầu anh ta cho bạn biết con nào là con ngựa. Một đứa trẻ sẽ thực hiện nhiệm vụ này khá dễ dàng nhưng nó vẫn là thứ mà máy tính không thể làm tốt với rất ít đầu vào (học một lần).

Làm thế nào mà đứa trẻ làm điều đó?

Nhận dạng động vật đã được nghiên cứu ở trẻ em và liên quan đến khả năng phân rã các vật thể của chúng ta thành các bộ phận liên quan, dải màu của lông, kích thước của cổ, hình dạng tổng thể, v.v. Khả năng này cũng là thứ cho phép bạn mở cửa cho bạn chưa từng thấy trước đây, bạn đã học được một chuỗi động cơ khái quát cho mọi tình huống (khái quát hóa tên miền). Đó cũng là những gì bạn sử dụng để xây dựng các mô hình giải thích đơn giản hóa thế giới, ban đầu bạn có thể thực sự ngạc nhiên bởi sự xuất hiện bất ngờ của một con Cuckoo trong một chiếc đồng hồ nổi tiếng của Thụy Sĩ, nhưng sau lần xuất hiện thứ hai, bạn sẽ mong đợi nó. Tìm bất biến là cách một mạng lưới thần kinh học và những mô hình đó được xây dựng một cách vô thức. Một ví dụ là cách chúng ta học trực giác về vật lý ngay cả trước khi nghe về toán học và số.

Người ta có thể hỏi ví dụ như một đứa trẻ sinh ra trong môi trường vi trọng lực sẽ thích nghi với lực hấp dẫn của trái đất như thế nào và học theo trực giác rằng các vật thể sẽ rơi xuống đất khi rơi xuống?

Chúng tôi có thể đưa ra giả thuyết rằng trẻ sơ sinh và hầu hết động vật sẽ điều chỉnh lại mô hình của chúng một cách vô thức, giống như khi bạn đi tất vào chân chó và phải mất một thời gian để thích nghi với thông tin mới.

Nhưng đối với một đứa trẻ, một cuộc thẩm vấn có ý thức và sửa đổi mô hình trực giác của mình sẽ diễn ra, từ sự tò mò, thông qua ngôn ngữ, biểu tượng và niềm tin. Khả năng thẩm vấn và thay đổi mô hình của chúng tôi rất hấp dẫn, và như một sidenote, con người có thể là loài duy nhất có thể kiểm chứng quá trình nhưng các loài khác có thể thực hiện các sửa đổi ý thức tương tự.

Bất biến là một tài sản bắt buộc của thời gian, nếu mọi thứ luôn luôn mới và không thể dự đoán được, vẫn sẽ tồn tại bất biến duy nhất này rằng mọi thứ luôn luôn mới và không thể đoán trước. Không thể tưởng tượng một thế giới không có bất biến, vì không thể có một thế giới để nói đến, nếu không có cuộc sống bất biến sẽ là không thể và bộ não của chúng ta vô dụng. Sự sống là một cỗ máy chỉ hoạt động bằng sự lặp lại có thể dự đoán được của các sự kiện, sự lặp lại nguyên nhân và hậu quả, tái tạo năng lượng theo chu kỳ vào sinh vật. Và trong nhiệm vụ của Life để cải thiện việc sử dụng các chu trình cần thiết đó, bộ não của chúng ta là công cụ tối thượng. Nó là một cỗ máy dự đoán, một cơ quan thích ứng có thể tìm thấy sự lặp lại một cách linh hoạt và sử dụng nó để tương tác tốt hơn với thế giới.

Phương pháp này mà cuộc sống đã chọn là vô cùng mạnh mẽ đối với những thay đổi nhỏ trong cấu trúc. Những gì vẫn giữ nguyên là thế giới, các thuộc tính thống kê của môi trường, nhưng cấu trúc thần kinh gặp phải nó có thể thay đổi miễn là nó có thể nhúng các thông tin liên quan mà nó phát triển để xử lý. Điều này giải thích lý do tại sao bộ não của chúng ta có thể rất khác nhau từ cá nhân đến cá nhân, thậm chí cả vỏ não chính và có chung các chức năng.

Hệ thần kinh có khả năng thích nghi, chúng không cần tiến hóa và làm chậm đột biến gen để thay đổi hành vi theo những cách liên quan. Một hệ thống thần kinh đơn giản, chẳng hạn như những hệ thống được tìm thấy ở C. Elegans, đóng vai trò là người điều phối bên trong bẩm sinh và cảm biến bên ngoài: cảm nhận thức ăn và tiến về phía nó, chạy trốn khỏi nỗi đau, sinh sản. Những hệ thống đơn giản đó ban đầu cứng nhắc và thực hiện xấp xỉ cực kỳ của thế giới rất ồn ào của chúng tôi để phân biệt nó trong một tập hợp nhỏ các trạng thái có thể (thức ăn bên trái, nhiệt bên dưới, v.v.). Khả năng vận động và cảm giác của chúng ta phát triển cùng với khả năng dự đoán hệ thần kinh của chúng ta. Khi các cảm biến của chúng ta trở nên chính xác hơn, hệ thống thần kinh dần dần có thể sửa đổi cấu trúc của nó để lưu trữ thông tin và học hỏi kinh nghiệm. Ban đầu, nó có thể học cách nhận biết một số loại đầu vào, chẳng hạn như các loại mùi hoặc các kiểu ánh sáng, và cũng có thể học thông qua thử và lỗi để điều khiển hệ thống động cơ ngày càng phức tạp của nó. Lưu ý rằng thế giới phức tạp đến mức não bộ của chúng ta tự nhiên phát triển theo mô hình học tập hơn là một cách tiếp cận thủ tục bẩm sinh. Về mặt tính toán, điều này có ý nghĩa hoàn hảo, một trò chơi đơn giản của Go có không gian trạng thái lớn hơn nhiều (2,10¹⁷⁰) so với số lượng nguyên tử trong vũ trụ (10⁸⁰) và khi các sinh vật trở nên phức tạp hơn khi cố gắng xấp xỉ mã hóa gần như có thể nói rằng nó có thể nhanh chóng trở nên khó điều khiển do vụ nổ tổ hợp.

Một số người có thể tin rằng bộ não của chúng ta được xây dựng theo cách mà nó thể hiện một cách ngây thơ không gian mà nó sẽ phát triển, trong DNA ở đâu đó có một gen tạo nên khuôn mặt hoặc tổ chức tạm thời của sóng âm tạo ra lên lời. Họ có thể tin rằng kiến ​​thức bẩm sinh này được mã hóa khi sinh ở đâu đó. Những người khác có thể tin, như giáo viên triết học của tôi khi tôi học trung học, sự tồn tại đó có trước bản chất, và bộ não của chúng ta hoàn toàn và chỉ được xác định bởi sự gặp gỡ của sinh vật và thế giới. Thực tế thì phức tạp hơn, và đối với hầu hết các hệ thống điện não đã được nghiên cứu cho đến nay, não không mã hóa hoàn toàn chức năng mà nó sẽ thực hiện mà sẽ học nó tùy thuộc vào thông tin có trong đầu vào của nó. Nếu đầu vào quá kém về thông tin liên quan, khả năng học hỏi trong các cấu trúc đó có thể có ngày hết hạn (ví dụ: Amblyopia). Nhưng nếu cấu trúc bẩm sinh không mã hóa chức năng cuối cùng, bộ não có cấu trúc cụ thể. Cấu trúc này được bảo tồn trên các cá nhân và các cá nhân cùng loài có chung chức năng và ổ đĩa. DNA không thiết lập một cấu trúc nhất định, một cấu trúc không thể thực hiện chức năng cuối cùng của chúng một cách bẩm sinh, nhưng một cấu trúc có thể học được sự phức tạp của các nhiệm vụ cụ thể dựa trên kinh nghiệm cá nhân. Không có gì đáng ngạc nhiên khi sự tiến hóa dẫn đến sự xuất hiện của hàng rào máu não hiệu quả cao cô lập não bộ với phần còn lại của cơ thể cũng như màng não và vỏ xương cứng bảo vệ nó khỏi thế giới bên ngoài, bởi vì không giống như các cơ quan khác trong đó cấu trúc được mã hóa trong bộ gen, cấu trúc của một bộ não được đào tạo không thể được tái tạo từ một mô hình được lưu trữ bẩm sinh. Điều hấp dẫn là chúng ta thấy các cơ chế học tập tương tự phát sinh bởi sự tương tự thông qua việc phát triển các mạng sâu ngày càng phức tạp thực hiện các nhiệm vụ ngày càng phức tạp.

Cấu trúc thành phần rất khó nhìn nhưng ở khắp mọi nơi

Là một sidenote, điều kỳ lạ là ngay cả các tác giả cũng không nhận ra rằng nhiệm vụ đầu tiên của họ là tiếp cận mục tiêu có cấu trúc thành phần.

Các hạt đạt được nhiệm vụ thể hiện độc đáo những thách thức trong khái quát hóa trong một kịch bản đơn giản. Tuy nhiên, các nhiệm vụ không chia sẻ một cấu trúc thành phần, khiến cho việc đánh giá khái quát hóa thành các nhiệm vụ mới đầy thách thức.

Mặc dù cấu trúc thực sự ở mức thấp hơn so với xếp chồng khối và không dễ tiếp cận với thao tác thử nghiệm, nhưng nhiệm vụ thực sự bao gồm cấu trúc được chia sẻ. Xấp xỉ thế giới vào một mặt phẳng, một cấu trúc cấu thành là nhận dạng khối (màu) được bảo toàn bằng bản dịch và đi từ khối A - hoặc một vị trí bắt đầu ngẫu nhiên - tại vị trí (Xa1, Ya1) đến khối B ở vị trí (Xb1, Yb2 ) là một phần của cấu trúc thành phần bậc cao hơn so với việc đi từ khối A ở vị trí (Xa2, Ya2) sang khối B ở vị trí (Xb2, Yb2).

Giao diện giữa các mạng

Việc tích hợp các mạng thần kinh có thể xử lý các đầu vào ở các mức độ trừu tượng khác nhau sẽ cần các giao diện, một miền mà tôi tin là còn nhiều điều phải khám phá. Những giao diện có thể có nhiều tính chất. Ví dụ, chúng có thể được coi là ngôn ngữ chung giữa hai mạng, như đã trình bày trong bài viết, một mạng cấp thấp hơn được trang bị một hệ thống chú ý (mạng trình diễn) có thể dịch một bản trình diễn trong một mạng đại diện khác (mạng ngữ cảnh) có thể sử dụng để chỉ đạo hành động bất kể chiều dài hoặc cấu hình ban đầu của bản trình diễn.

Bề mặt của ngôn ngữ này là ở đây một mặt phẳng, có kích thước cố định, nhưng người ta có thể tưởng tượng những thay đổi có thể có thể cải thiện giao tiếp giữa mạng. Ví dụ, kích thước của bề mặt có thể được thiết lập để tăng hoặc thu hẹp một cách linh hoạt khi các mạng tương tác trong quá trình học, do đó nén hoặc mở rộng độ phức tạp của ngôn ngữ. Chúng ta cũng có thể tưởng tượng các tương tác năng động hơn, thông qua phản hồi chẳng hạn. Chúng ta có thể tưởng tượng sự tồn tại của các mạng hỗ trợ sẽ học cách giao tiếp trơn tru giữa các mạng, tồn tại như một mạng song song học cách điều chỉnh đầu vào của mạng đầu tiên dựa trên đầu vào và đầu ra của mạng thứ hai. Chúng ta có thể tưởng tượng các mạng ngữ cảnh phức tạp hoạt động như một dòng thuốc bổ (thay đổi chậm) cho nhiều mạng chuyên biệt hơn nữa Hấp dẫn khu vực nghiên cứu trong tương lai!

Thất bại trường hợp gợi ý về vai trò có thể mô-đun mới có thể có

Điều đáng chú ý là các lỗi thường do lỗi động cơ và số lượng lỗi tăng lên cùng với sự phức tạp của nhiệm vụ.

Chức năng của động cơ không nên bị suy giảm chỉ bằng cách tăng số lượng mục tiêu, đây là bằng chứng mạnh mẽ cho thấy cách mạng tái tạo học cách nói chuyện với mạng động cơ quá trừu tượng. Thật kỳ lạ bởi vì họ nói rằng thử nghiệm của họ cho thấy giao diện giữa mạng bối cảnh và mạng động cơ tương đối cụ thể (vị trí của robot, vị trí của mục tiêu).

Giải pháp khả thi có thể là, vì đây là một kiến ​​trúc mô-đun, để sử dụng các hàm mất khác nhau hoặc các hàm mất mô-đun đại diện cho mỗi khía cạnh cụ thể của nhiệm vụ. Nó cũng sẽ được trợ giúp bởi một phần tương đương của các khu vực tiền vận động não để đảm bảo trình diễn và mạng ngữ cảnh có thể vẫn trừu tượng mà không làm suy giảm lệnh động cơ. Các khu vực tiền cảm ứng là cần thiết để nội địa hóa tốt hơn các đối tượng dựa trên mục tiêu (từ các mạng trừu tượng) và các đầu vào cảm giác, để chọn lệnh động cơ tốt nhất. Có vẻ như mạng lưới bối cảnh đang cố gắng chuyển cuộc biểu tình sang mức độ nhúng cao hơn và chuẩn bị hành động động cơ cùng một lúc trong bối cảnh hiện tại. Vai trò của mạng tiền vận động sẽ là học cách giao tiếp với hệ thống động cơ theo cách thích nghi và định hướng mục tiêu, kết hợp cả hai chức năng của tiền phẫu và tiểu não để học động cơ và thích ứng nhanh.

Có một lý thuyết thú vị, nghịch lý của Moravec, dự đoán rằng nó sẽ không phải là nhận thức ở cấp độ cao hơn mà sẽ tính thuế mà là xử lý các đầu vào cảm giác và đầu ra của hệ thống động cơ. Điều này thực sự có thể chiếm một lượng lớn tế bào thần kinh có trong tiểu não của chúng ta (nhiều hơn phần còn lại của não) để điều khiển thích nghi hành động vận động. Nghịch lý này đã được hình thành trong một thời gian (những năm 80) khi chúng ta vẫn tin rằng chúng ta có thể nhúng kiến ​​thức của chính mình vào một cỗ máy để thực hiện nhiệm vụ phức tạp trong môi trường ồn ào không kiểm soát được. Tất nhiên nghịch lý này có ý nghĩa nếu bằng cách nào đó, cỗ máy có thể đại diện cho thế giới trong một tập hợp các trạng thái rời rạc, xây dựng chức năng cấp cao hơn sẽ dễ dàng hơn. Nhưng tôi tin rằng cả hai sẽ chứng minh là cực kỳ đánh thuế, và đại diện nội bộ được sử dụng tại giao diện giữa các mạng sẽ khác xa với bất kỳ thứ gì tương tự như các đại diện ý thức của chúng ta.

Phần kết luận

Bằng cách kết hợp các mạng thần kinh khác nhau, mỗi mạng chịu trách nhiệm xử lý vấn đề cụ thể, bài viết này cho thấy rằng bằng cách tạo ra một nhiệm vụ vốn cần tổng quát hóa và xây dựng một môi trường học tập phù hợp thông qua ngẫu nhiên miền, mạng thần kinh có quyền truy cập vào bộ nhớ và hệ thống chú ý có thể học cách khái quát hóa ngoài việc sinh sản đơn giản. Nó có thể học cách khám phá mục tiêu bậc cao hơn chỉ được thể hiện một lần trong luồng trực quan về thông tin và thực hiện tính toán trong một không gian tổng quát để phục hồi các hành động thích hợp có thể tái tạo mục tiêu đó trong một bối cảnh khác.

Trong tương lai, chúng ta sẽ thấy sự phức tạp ngày càng tăng của các cấu trúc được xây dựng dựa trên các khối xây dựng nguyên tử đó có thể học để khái quát hóa các nhiệm vụ phức tạp nhưng quan trọng hơn là thực hiện một số nhiệm vụ như vậy, trong các môi trường mới, ít phụ thuộc vào các phương pháp được mã hóa cứng như tiền xử lý đầu vào hoặc bộ nhớ lưu trữ. Bộ nhớ lưu trữ sẽ được thay thế bằng các biểu diễn phân tán trên một mạng bộ nhớ, các hệ thống chú ý sẽ được thay thế bằng hoạt động theo chu kỳ trong các mạng chú ý theo thời gian thực. Câu hỏi vẫn là làm thế nào chúng ta có thể thích ứng một công nghệ nối tiếp mạnh mẽ (máy Turing) với sự phụ thuộc ngày càng tăng của chúng ta vào điện toán phân tán trong hệ thống được thể hiện.