Một khoa học dữ liệu thần kinh: làm thế nào và tại sao

Hướng dẫn sơ bộ để làm khoa học dữ liệu về tế bào thần kinh

Một bộ não làm khoa học dữ liệu. Tín dụng: Brain của Matt Wasser từ Dự án Danh từ

Một cách lặng lẽ, lén lút, một loại nhà thần kinh học mới đang hình thành. Từ bên trong vô số các nhà lý thuyết đã làm tăng các nhóm các nhà thần kinh học làm khoa học với dữ liệu về hoạt động thần kinh, trên các mảnh vỡ của hàng trăm tế bào thần kinh. Không phải việc tạo ra các phương pháp để phân tích dữ liệu, mặc dù tất cả cũng làm điều đó. Không phải việc thu thập dữ liệu đó, đòi hỏi phải có một bộ kỹ năng khác, ghê gớm. Nhưng các nhà thần kinh học sử dụng toàn bộ các kỹ thuật tính toán hiện đại trên dữ liệu đó để trả lời các câu hỏi khoa học về não. Một khoa học dữ liệu thần kinh đã xuất hiện.

Hóa ra tôi là một trong số họ, nhóm các nhà khoa học dữ liệu thần kinh. Vô tình. Theo như tôi có thể nói, đó là cách tất cả các lĩnh vực khoa học được sinh ra: vô tình. Các nhà nghiên cứu theo mũi của họ, bắt đầu làm những điều mới và đột nhiên thấy có một đám đông nhỏ trong nhà bếp trong các bữa tiệc (bởi vì đó là nơi đồ uống, trong tủ lạnh - các nhà khoa học rất thông minh). Vì vậy, đây là một tuyên ngôn nhỏ cho khoa học dữ liệu thần kinh: tại sao nó lại nổi lên và làm thế nào chúng ta có thể bắt đầu thực hiện nó.

Tại sao giống như tất cả các lĩnh vực khoa học đã tạo ra một khoa học dữ liệu: lượng dữ liệu vượt khỏi tầm tay. Đối với khoa học ghi lại rất nhiều tế bào thần kinh, dữ liệu này có một cơ sở khoa học, thuộc loại. Não hoạt động bằng cách chuyển thông điệp giữa các tế bào thần kinh. Hầu hết các tin nhắn đó có dạng các xung điện nhỏ: gai, chúng tôi gọi chúng. Vì vậy, đối với nhiều người có vẻ hợp lý rằng nếu chúng ta muốn hiểu bộ não hoạt động như thế nào (và khi chúng không hoạt động), chúng ta cần phải nắm bắt tất cả các thông điệp được truyền qua giữa tất cả các tế bào thần kinh. Và điều đó có nghĩa là ghi lại càng nhiều gai từ càng nhiều tế bào thần kinh càng tốt.

Một bộ não cá ngựa vằn con có khoảng 130.000 tế bào thần kinh và ít nhất 1 triệu kết nối giữa chúng; một bộ não ong có khoảng một triệu tế bào thần kinh. Bạn có thể thấy làm thế nào điều này sẽ ra khỏi tầm tay rất nhanh. Ngay bây giờ chúng tôi ghi lại một nơi nào đó giữa hàng chục đến vài trăm tế bào thần kinh cùng một lúc với bộ tiêu chuẩn. Ở giới hạn là những người ghi được vài nghìn, và thậm chí một vài người nhận được hàng chục nghìn (mặc dù những bản ghi này ghi lại hoạt động của nơ-ron với tốc độ chậm hơn nhiều so với các nơ-ron có thể gửi gai của họ).

Chúng tôi gọi hệ thống điên rồ này là khoa học thần kinh: khoa học thần kinh, để nghiên cứu về tế bào thần kinh; các hệ thống, vì dám ghi lại từ nhiều hơn một nơron tại một thời điểm. Và dữ liệu rất phức tạp. Những gì chúng ta có là hàng chục đến hàng ngàn chuỗi thời gian được ghi đồng thời, mỗi luồng sự kiện đạp xe (gai thực tế hoặc một số biện pháp gián tiếp) từ một nơron. Theo định nghĩa, họ không đứng yên, số liệu thống kê của họ thay đổi theo thời gian. Tốc độ hoạt động của chúng trải đều trên nhiều đơn đặt hàng lớn, từ chiêm ngưỡng yên tĩnh giống như nhà sư đến bộ trống trống trong một đường hầm gió. Và mô hình hoạt động của chúng bao gồm từ đều đặn như đồng hồ, đến nói lắp và lách cách, xen kẽ giữa những cơn hưng cảm và những cơn kiệt sức.

Bây giờ kết hôn với hành vi của động vật bạn đã ghi lại các tế bào thần kinh. Hành vi này là hàng trăm thử nghiệm của các lựa chọn; hoặc cử động cánh tay; hoặc các tuyến đường được thực hiện thông qua một môi trường. Hoặc sự chuyển động của một cơ quan cảm giác, hoặc toàn bộ tư thế của hệ cơ. Lặp lại cho nhiều động vật. Có thể nhiều vùng não. Và đôi khi cả bộ não.

Chúng tôi không có sự thật. Không có câu trả lời đúng; không có nhãn đào tạo cho dữ liệu, ngoại trừ hành vi. Chúng ta không biết làm thế nào bộ não mã hóa hành vi. Vì vậy, chúng tôi có thể làm mọi thứ với nhãn hành vi, nhưng chúng tôi hầu như luôn biết đây không phải là câu trả lời. Họ chỉ là manh mối cho câu trả lời của người Viking.

Khoa học thần kinh hệ thống sau đó là một sân chơi phong phú cho những người có thể kết hợp kiến ​​thức về khoa học thần kinh với bí quyết phân tích dữ liệu của họ. Một khoa học dữ liệu thần kinh đang được sinh ra.

Làm thế nào nó - hoặc có thể được - được thực hiện? Đây là một hướng dẫn sơ bộ. Nhà tù của nhà khoa học dữ liệu thần kinh là đặt câu hỏi khoa học về dữ liệu từ khoa học thần kinh hệ thống; để hỏi: làm thế nào để tất cả các tế bào thần kinh này làm việc cùng nhau để làm việc của họ?

Có khoảng ba cách chúng ta có thể trả lời câu hỏi đó. Chúng ta có thể thấy ba cách này bằng cách xem xét sự tương ứng giữa các lớp vấn đề đã được thiết lập trong học máy và các thách thức tính toán trong khoa học thần kinh hệ thống. Hãy bắt đầu bằng cách nhìn vào những gì chúng ta phải làm việc.

Chúng tôi có một số dữ liệu từ n nơ-ron mà chúng tôi đã thu thập theo thời gian. Chúng ta sẽ gộp chúng thành một ma trận, chúng ta sẽ gọi X - có nhiều cột như nơ-ron và nhiều hàng theo thời gian chúng ta đã ghi lại (trong đó tùy thuộc vào chúng ta kéo dài thời gian của một thời gian: chúng ta có thể làm cho nó ngắn lại và chỉ cần mỗi mục nhập ghi 1 cho một đột biến và 0 nếu không. Hoặc chúng ta có thể làm cho nó dài, và mỗi mục ghi lại số lượng các đột biến trong thời gian đó). Trong thời gian đó, mọi thứ đã xảy ra trên thế giới - bao gồm cả những gì cơ thể đang làm. Vì vậy, hãy gộp tất cả những thứ đó vào một ma trận mà chúng ta sẽ gọi là S - có nhiều cột như có các tính năng trên thế giới mà chúng ta quan tâm và có nhiều hàng theo thời gian mà chúng ta đã ghi lại cho các tính năng đó.

Theo truyền thống, học máy liên quan đến việc xây dựng ba lớp mô hình về tình trạng của thế giới và dữ liệu có sẵn: khái quát, phân biệt đối xử và mật độ. Là một hướng dẫn sơ bộ, bảng này cho thấy mỗi lớp tương ứng với một câu hỏi cơ bản trong khoa học thần kinh hệ thống:

1 / Mô hình mật độ P (X): có cấu trúc trong các gai không? Âm thanh buồn tẻ. Nhưng thực ra đây là chìa khóa cho những nghiên cứu khoa học thần kinh vĩ đại, trong đó chúng ta muốn biết tác dụng của một thứ gì đó (một loại thuốc, một hành vi, một giấc ngủ) lên não; trong đó chúng tôi đang hỏi: cấu trúc của hoạt động thần kinh đã thay đổi như thế nào?

Với một bản ghi của một loạt các tế bào thần kinh, chúng ta có thể trả lời điều này theo ba cách.

Đầu tiên, chúng ta có thể định lượng tốc độ tăng đột biến của mỗi nơron, bằng cách đo các số liệu thống kê của từng cột X, giống như tốc độ tăng vọt. Và sau đó hỏi: mô hình P (X) cho các thống kê này là gì? Chúng ta có thể phân cụm các số liệu thống kê này để tìm ra các loại hình tế bào thần kinh; hoặc đơn giản là phù hợp với các mô hình cho toàn bộ phân phối chung của họ. Dù bằng cách nào, chúng ta có một số mô hình về cấu trúc dữ liệu ở mức độ chi tiết của các nơ-ron đơn lẻ.

Thứ hai, chúng ta có thể tạo ra các mô hình tổng quát của toàn bộ hoạt động của dân số, sử dụng các hàng X - các vectơ của hoạt động từng khoảnh khắc của toàn bộ dân số. Các mô hình như vậy thường nhằm mục đích hiểu được bao nhiêu cấu trúc của X có thể được tạo lại từ chỉ một vài ràng buộc, cho dù chúng là phân phối của bao nhiêu vectơ có bao nhiêu gai; hoặc mối tương quan cặp đôi giữa các tế bào thần kinh; hoặc kết hợp chúng. Chúng đặc biệt hữu ích để làm việc nếu có bất kỳ loại nước sốt đặc biệt nào trong hoạt động của dân số, nếu đó là bất cứ thứ gì ngoài hoạt động tập thể của một tập hợp các nơ-ron đơn giản hoặc nhàm chán.

Thứ ba, chúng ta có thể nhận định rằng hoạt động thần kinh trong X là một số nhận thức chiều cao của một không gian chiều thấp, trong đó số lượng kích thước D << n. Thông thường chúng tôi muốn nói điều này: một số tế bào thần kinh trong X có mối tương quan với nhau, vì vậy chúng tôi không cần sử dụng toàn bộ X để hiểu dân số - thay vào đó chúng tôi có thể thay thế chúng bằng cách biểu diễn đơn giản hơn nhiều. Chúng ta có thể phân cụm chuỗi thời gian trực tiếp, do đó, phân tách X thành một tập hợp N ma trận nhỏ hơn X_1 thành X_N, mỗi chuỗi có tương quan mạnh (tương đối) trong đó và do đó có thể được xử lý độc lập. Hoặc chúng ta có thể sử dụng một số cách tiếp cận giảm kích thước như Phân tích thành phần chính, để có được một chuỗi thời gian nhỏ mà mỗi mô tả một dạng biến thể chi phối trong hoạt động của dân số theo thời gian.

Chúng tôi có thể làm nhiều hơn thế này. Giả định ở trên chúng tôi muốn sử dụng giảm kích thước để thu gọn các nơ-ron - rằng chúng tôi áp dụng giảm cho các cột của X. Nhưng chúng tôi có thể dễ dàng thu gọn thời gian, bằng cách áp dụng giảm kích thước cho các hàng của X. Thay vì hỏi liệu hoạt động thần kinh có dư thừa không , đây là hỏi xem những khoảnh khắc khác nhau trong thời gian có mô hình hoạt động thần kinh tương tự nhau không. Nếu chỉ có một số ít trong số này, rõ ràng động lực học của các tế bào thần kinh được ghi lại rất đơn giản.

Chúng ta có thể ném vào các hệ thống động lực tiếp cận ở đây quá. Ở đây, chúng tôi cố gắng điều chỉnh các mô hình đơn giản với các thay đổi trong X theo thời gian (tức là ánh xạ từ hàng này sang hàng tiếp theo) và sử dụng các mô hình đó để định lượng các loại động lực X chứa - sử dụng các thuật ngữ như hấp dẫn, một cách riêng biệt nút yên ngựa, trận đấu giữa hai đội, và ném bóng xuống Arsenal (chỉ một trong số đó không phải là một điều có thật). Người ta có thể tranh luận một cách hợp lý các mô hình động được trang bị là tất cả các mô hình mật độ P (X), vì chúng mô tả cấu trúc của dữ liệu.

Địa ngục, chúng ta thậm chí có thể thử và điều chỉnh toàn bộ mô hình động của mạch thần kinh, một loạt các phương trình vi phân mô tả từng nơron, để mô hình P (X) của chúng ta được lấy mẫu mỗi khi chúng ta chạy mô hình từ các điều kiện ban đầu khác nhau .

Với các mô hình mật độ này, chúng ta có thể điều chỉnh chúng một cách riêng biệt với hoạt động thần kinh mà chúng ta đã ghi lại trong một loạt các trạng thái khác nhau (S1, S2, Hoài, Sm) và trả lời các câu hỏi như: cấu trúc của một quần thể tế bào thần kinh thay đổi như thế nào khi ngủ và thức dậy Hay trong quá trình phát triển của động vật? Hoặc trong quá trình học một nhiệm vụ (trong đó S1 có thể là thử nghiệm 1 và S2 thử nghiệm 2; hoặc S1 là phiên 1 và S2 phiên 2 hoặc nhiều kết hợp của chúng). Chúng ta cũng có thể hỏi: hoạt động của nơron bao nhiêu chiều? Là kích thước khác nhau giữa các vùng vỏ não khác nhau? Và có ai nhìn thấy chìa khóa của tôi chưa?

2 / Mô hình tạo P (X | S): điều gì gây ra đột biến? Bây giờ chúng ta nói chuyện. Những thứ như mô hình tuyến tính-phi tuyến, hoặc mô hình tuyến tính tổng quát. Thông thường, các mô hình này được áp dụng cho các nơ-ron đơn lẻ, cho từng cột X. Với chúng, chúng phù hợp với một mô hình sử dụng trạng thái của thế giới S làm đầu vào và tạo ra một chuỗi hoạt động thần kinh phù hợp với hoạt động của nơ-ron càng sát càng tốt. Sau đó, kiểm tra trọng số được cung cấp cho từng tính năng của S trong việc tái tạo hoạt động của tế bào thần kinh, chúng ta có thể tìm ra những gì tế bào thần kinh đó xuất hiện để cho một sự chết tiệt.

Chúng ta có thể muốn chọn một mô hình có một số tính linh hoạt trong những gì được coi là trạng thái của thế giới. Chúng ta có thể bao gồm hoạt động trong quá khứ của tế bào thần kinh như một tính năng và xem liệu nó có quan tâm đến những gì nó đã làm trong quá khứ không. Đối với một số loại tế bào thần kinh, câu trả lời là có. Bursting có thể lấy đi rất nhiều tế bào thần kinh, và nó cần nằm xuống để nghỉ ngơi một chút trước khi nó có thể đi lại. Chúng ta cũng có thể suy nghĩ rộng hơn, và bao gồm phần còn lại của dân số - phần còn lại của X - như một phần của trạng thái của thế giới S trong khi tế bào thần kinh đang bắn. Rốt cuộc, tế bào thần kinh đôi khi ảnh hưởng đến việc bắn nhau, hoặc do đó tôi được tin tưởng. Vì vậy, có một cơ hội nhỏ rằng phản ứng của một tế bào thần kinh trong vỏ thị giác không chỉ được điều khiển bởi sự định hướng của một thế giới bên ngoài, mà còn có thể phụ thuộc vào 10000 tế bào thần kinh vỏ não kết nối với nó. Những gì chúng ta sau đó học được là các tế bào thần kinh có ảnh hưởng nhất trong dân số.

Chúng ta không phải áp dụng các mô hình thế hệ này cho các nơ-ron đơn lẻ. Chúng ta có thể áp dụng chúng cho các mô hình mật độ của mình; chúng ta có thể hỏi mỗi cụm, hoặc thứ nguyên, đang mã hóa về thế giới. Hoặc, như một số người đã làm ở đây, chúng ta có thể sử dụng chính mô hình mật độ như là trạng thái của thế giới, và hỏi những đặc điểm nào của mô hình nơ ron hạ lưu đó cho thấy sự chết tiệt.

Các loại câu hỏi chúng ta có thể trả lời với các mô hình tổng quát này khá rõ ràng: sự kết hợp các tính năng nào dự đoán tốt nhất phản ứng của nơron? Có tế bào thần kinh chọn lọc cho chỉ một điều? Làm thế nào để các tế bào thần kinh ảnh hưởng lẫn nhau?

3 / Mô hình phân biệt đối xử P (S | X): gai mang thông tin gì? Đây là một câu hỏi cốt lõi trong khoa học thần kinh hệ thống vì đây là thách thức đối với tất cả các tế bào thần kinh ở hạ nguồn từ dân số được ghi nhận của chúng ta - tất cả các tế bào thần kinh nhận đầu vào từ các tế bào thần kinh mà chúng ta ghi lại và nhồi vào ma trận X. Đối với những tế bào thần kinh hạ lưu đó phải suy ra những gì họ cần biết về thế giới bên ngoài chỉ dựa trên gai.

Ở đây chúng ta có thể sử dụng các trình phân loại tiêu chuẩn, ánh xạ đầu vào vào các đầu ra có nhãn. Chúng ta có thể sử dụng các hàng X làm đầu vào, mỗi ảnh chụp nhanh hoạt động của dân số và cố gắng dự đoán một, một số hoặc tất cả các tính năng trong các hàng tương ứng của S. Có thể có độ trễ về thời gian, vì vậy chúng tôi sử dụng hàng X_t để dự đoán trạng thái S_t-n là n bước trong quá khứ nếu chúng ta quan tâm đến cách các quần thể mã trạng thái được đưa vào não; hoặc chúng ta có thể sử dụng hàng X_t để dự đoán trạng thái S_t + n là n bước trong tương lai nếu chúng ta quan tâm đến cách mã số dân số cho một số tác động của não đối với thế giới. Giống như hoạt động trong vỏ não vận động đang diễn ra trước khi tôi gõ từng chữ cái ngay bây giờ.

Dù bằng cách nào, chúng tôi lấy một số (nhưng không phải tất cả, vì chúng tôi không quá phù hợp) các hàng X và huấn luyện trình phân loại để tìm ánh xạ X tốt nhất có thể đến đoạn tương ứng của S. Sau đó, chúng tôi kiểm tra trình phân loại về mức độ có thể dự đoán phần còn lại của S từ phần còn lại tương ứng của X. Nếu bạn cực kỳ may mắn, X và S của bạn có thể dài đến mức bạn có thể chia chúng thành các bộ huấn luyện, kiểm tra và xác thực. Giữ cái cuối cùng trong một hộp khóa.

Tất nhiên chúng ta có thể sử dụng một trình phân loại mạnh mẽ như chúng ta muốn. Từ hồi quy logistic, thông qua các phương pháp Bayes, đến việc sử dụng mạng lưới thần kinh 23 lớp. Nó phụ thuộc vào những gì bạn muốn từ câu trả lời, và sự đánh đổi giữa khả năng diễn giải và sức mạnh mà bạn cảm thấy thoải mái. Các bài viết của tôi ở nơi khác đã làm cho nó rõ ràng về phía nào của sự đánh đổi này mà tôi có xu hướng ủng hộ. Nhưng tôi rất vui khi được chứng minh là sai.

Các mô hình mã hóa của các tế bào thần kinh là sâu sắc, nhưng chạm vào một số khó khăn triết học cũ và sâu sắc. Kiểm tra mã hóa bằng mô hình phân biệt đối xử giả định rằng một cái gì đó xuôi dòng đang cố giải mã S khỏi hoạt động thần kinh. Có hai vấn đề này. Tế bào thần kinh không giải mã; tế bào thần kinh lấy gai làm đầu vào và đầu ra gai của chính chúng. Thay vào đó, họ mã hóa lại, từ một bộ gai thành một bộ gai khác: có thể ít hơn hoặc chậm hơn; có lẽ nhiều hơn, hoặc nhanh hơn; có lẽ từ một dòng ổn định thành một dao động. Vì vậy, các mô hình phân biệt đối xử chính xác hơn là hỏi thông tin nào các tế bào thần kinh của chúng ta được mã hóa lại. Nhưng ngay cả khi chúng ta có quan điểm này, có một vấn đề sâu sắc hơn.

Với rất ít trường hợp ngoại lệ, không có thứ gọi là nơ-ron hạ lưu của dòng sông. Các tế bào thần kinh mà chúng tôi ghi lại trong X là một phần của bộ não phức tạp, đầy những vòng lặp vô tận; đầu ra của họ ảnh hưởng đến đầu vào của chính họ. Tồi tệ hơn, một số tế bào thần kinh trong X nằm ở phía dưới so với các tế bào khác: một số trong số chúng nhập trực tiếp vào các tế bào khác. Bởi vì, như đã lưu ý ở trên, tế bào thần kinh ảnh hưởng lẫn nhau.

Một tuyên ngôn thô sơ, có lẽ hữu ích cho một khoa học dữ liệu thần kinh. Nó không đầy đủ; không có nghi ngờ điều gì ở trên là sai (câu trả lời trên bưu thiếp đến địa chỉ thông thường). Trên đây là một nỗ lực tổng hợp công việc của một nhóm các phòng thí nghiệm có lợi ích rất khác nhau, nhưng một nỗ lực chung để sử dụng các loại mô hình này trên các tập hợp dữ liệu thần kinh lớn để trả lời các câu hỏi sâu về cách thức hoạt động của bộ não. Nhiều người trong số này là các phòng thí nghiệm dữ liệu, các nhóm phân tích dữ liệu thử nghiệm để trả lời câu hỏi của chính họ; kể tên một vài - Gối Johnathan; Christian Machens; Konrad Kith; Kanaka Rajan; John Castyham; Hội chợ Adrienne; Philip Berens; Cian O'Dellell; Công viên Il Memming; Jakob Macke; Gasper Tkacik; Oliver Marre. Ừm, tôi. Những người khác là các phòng thí nghiệm thử nghiệm với khuynh hướng khoa học dữ liệu mạnh mẽ: Anne Churchland; Mark Churchland; Nicole Rust; Thần Krishna; Carlos Brody; nhiều người khác tôi xin lỗi vì đã không đặt tên.

Có những hội nghị mà loại công việc này được hoan nghênh, nay thậm chí còn được khuyến khích. Một tạp chí cho khoa học dữ liệu thần kinh đang trên đường. Một cái gì đó đang xây dựng. Thôi nào, dữ liệu thật đáng yêu *.

* yeah tôi đã phải tham khảo dữ liệu như một số ít để có được trò đùa tào lao đó. Thực tế tôi đang viết chú thích này để giải thích điều này sẽ cho bạn một số ý tưởng về sự chú ý khó tính đến chi tiết dữ liệu thần kinh mà các nhà khoa học mong đợi.

Muốn thêm? Theo dõi chúng tôi tại The Spike

Twitter: @markdhumphries