Chụ thích: Nguim bản bài viết này bàn về “reproducible research”, tại chỗ này chúng tôi nhất thời dịch là “nghiên cứu và phân tích khả lặp”, định nghĩa nắm lược về “nghiên cứu và phân tích khả lặp” là nhiều loại phân tích kỹ thuật không chỉ gồm report công dụng nghiên cứu ngoài ra bao hàm không hề thiếu quá trình tiến hành, đôi khi chào làng các thông báo quan trọng (tài liệu, thuật toán áp dụng,…) nhằm fan khác hoàn toàn có thể tiến hành lại nghiên cứu nhằm mục tiêu chứng thực tính đúng mực cùng mở rộng phân tích dựa vào căn nguyên phân tích cũ. Ở phía trên “reproducible” giỏi “reproducibility” với nghĩa có khả năng lặp lại, có khả năng triển khai lại phân tích đã làm được ra mắt.
Bạn đang xem: Reproducible là gì
Khoa học tập hiện thời biết tới đang rơi vào cảnh cuộc rủi ro khủng hoảng về năng lực tái lặp. Khả năng tái lặp có vẻ được hoan nghênh và thường là yếu tố yêu cầu đối với những nghiên cứu và phân tích mang tính cộng đồng (chẳng hạn bên trên các tạp chí nhỏng nature giỏi science). Luận điểm chung cho Xu thế này là vấn đề các nghiên cứu và phân tích có khả năng được thực hiện lại một giải pháp độc lập thì sẽ có được tính tin yêu cao hơn nữa đều nghiên cứu và phân tích bắt buộc tiến hành lại một bí quyết chủ quyền. Cũng cần xem xét rằng nghiên cứu khả lặp không những mang ý nghĩa xác minh, không dừng lại ở đó nữa nó đã mang về lợi ích thiết thực cho vấn đề không ngừng mở rộng phân tích giỏi sản xuất những phân tích giống như. Khó hoàn toàn có thể search thấy phần đa chủ ý bội phản bác bỏ các vấn đề bên trên, tuy nhiên bắt buộc xét tới thực tế rằng với từng đội nghiên cứu cũng cần được đầu tư một nguồn lực có sẵn cố định vào bài toán có tác dụng cho những phân tích của họ đổi thay khả lặp đối với những công ty nghiên cứu và phân tích chủ quyền. Chẳng hạn câu hỏi lặp lại toàn bộ các thí nghiệm trong chống phân tách. Tuy nhiên cũng có rất nhiều đổi thay thể dễ dàng và đơn giản hơn, chẳng hạn như kĩ năng lặp lại phân tích dựa vào những bộ tài liệu đã biết.
Các nhiều loại nghiên cứu và phân tích kỹ thuật khác nhau vẫn khác nhau về khả năng tái lặp. Một ví dụ là phân tích toán học, trong nhiều trường hợp những nghiên cứu và phân tích này được cho phép câu hỏi khả lặp dựa vào rất nhiều phương thơm trình trong bản thảo. Một ví dụ khác là những nghiên cứu và phân tích hiện nay trường, thường xuyên thì hiệu quả nhờ vào vào những yếu tố ko kiểm soát điều hành được. Chẳng hạn Việc tái lập tổng thể một phân tích về ảnh hưởng của một cơn bão ngay trước cùng sau khoản thời gian nó xảy ra dường như là điều tất yêu, tối thiểu xét về tính công dụng của chính nó.
Phạm vi ngày nay về kỹ năng tái lập sẽ chỗ nào kia thân nhì ví dụ nhưng mà chúng tôi đã cho thấy làm việc trên, với phạm vi này thu bé nhỏ tốt mở rộng nhờ vào vào những bộ pháp luật sẵn tất cả cho những bên nghiên cứu. Phần mượt nguồn mngơi nghỉ, năng lượng điện tân oán đám mây, lưu trữ tài liệu và vô vàn những dụng cụ điện toán thù sẵn bao gồm đang không ngừng mở rộng phạm vi này vào Việc chất nhận được các phân tích khả lặp có thể được tiến hành trên các một số loại phân tích hơn hai ví dụ sống trên. Tuy nhiên, lối chơi chữ về một cuộc rủi ro khủng hoảng của phân tích khả lặp cho biết thêm rằng những cỗ khí cụ hiện giờ, mặc dù khôn xiết đặc trưng, tuy thế không giải quyết và xử lý được vụ việc một biện pháp triệt nhằm.
Lúc Này chúng tôi đang thao tác vào một dự án về một so sánh bao gồm mức độ phức tạp vừa nên với một lượng tài liệu cũng vừa đề nghị (49061 dòng) với Cửa Hàng chúng tôi đang thí điểm coi nhằm trở nên nó thành một nghiên cứu khả lặp trọn vẹn thì rất cần được làm cho rất nhiều gì. (Nghiên cứu vớt này vấn đáp cho 1 câu hỏi hết sức 1-1 giản: loại thân mộc chiếm tỉ lệ thành phần từng nào vào giới thực vật?). Kinc nghiệm của Shop chúng tôi trong việc cố gắng biến chuyển nghiên cứu này đổi mới khả lặp hoàn toàn có thể hữu ích mang lại các bàn luận tiếp theo về phong thái có tác dụng chũm làm sao để các nhà kỹ thuật cần không nhiều thời hạn với không nhiều yếu tố kỹ năng rộng Cửa Hàng chúng tôi để thực hiện các nghiên cứu khả lặp của riêng họ. Nói bí quyết không giống, bài toán có tác dụng này cho biết thêm Cửa Hàng chúng tôi bổ ích đến hơn cả nào trong câu hỏi không ngừng mở rộng phạm vi khả lặp đến những một số loại phân tích rộng với bằng phương pháp đó, khiến cho công nghệ càng ngày càng an toàn hơn.
Cuối cùng, so sánh với báo cáo của Shop chúng tôi đã có tái lặp một phương pháp độc lập cùng tương đối dễ dãi mang lại phần lớn ai ý muốn tái lặp phân tích này, tuy nhiên để triển khai được câu hỏi tái lặp ở mức độ này chưa phải là ko đề nghị vứt sức lực lao động. Cho mọi ai quan tâm, toàn cục mã lệnh cùng tài liệu của Cửa Hàng chúng tôi bao gồm sẵn ở địa chỉ này.
Có 2 phía bên trong Việc trở nên một dự án trngơi nghỉ đề nghị khả lặp: dữ liệu cùng những so với vẫn tiến hành. Chúng tôi cũng lưu ý rằng thực tiễn dự án công trình này là khả thi bởi vì gần như cải cách và phát triển gần đây vào vấn đề tàng trữ tài liệu. Công vấn đề viết một mã lệnh để cài tài liệu chủ yếu trường đoản cú Dryad cùng chuẩn bị đến bài toán đối chiếu nó khá là dễ dàng và đơn giản. Tuy nhiên, điều đó chỉ minh chứng một ban đầu mang lại thách thức: bước so với tài liệu bây giờ biến chuyển bước trở ngại tuyệt nhất. Những điều tức thì tiếp sau là list ngắn hầu hết bài học kinh nghiệm đúc rút trường đoản cú thực tế làm việc của chúng tôi. Mỗi bài học cho biết một thử thách Cửa Hàng chúng tôi bắt buộc thừa qua vào quy trình thực hiện nghiên cứu và phân tích khả lặp và nguyên tắc Shop chúng tôi chọn nhằm đối đầu với thách thức đó.
Những thử thách cùng công cụ đến bài toán tái lặp
Sử dụng mối cung cấp dữ liệu tiêu chuẩn
Chúng tôi thiết lập dữ liệu về tự những mối cung cấp chuẩn chỉnh (Dryad và The Plant List) còn chỉ chỉnh sửa bọn chúng sử dụng những câu lệnh nhằm mục tiêu bảo đảm an toàn gần như thay đổi bảo toàn được nguyên vẹn tính chất của tài liệu thuở đầu. Lợi ích của những tài liệu msống vẫn chỉ được nhận ra nếu như chúng ta tôn kính tính định danh của dữ liệu và không tạo nên hàng trăm bản sửa thay đổi chỉ khác nhau đôi chút. Điều này cũng hỗ trợ cho vấn đề ghi công của rất nhiều bạn góp phần dữ liệu. Tuy nhiên những sự việc như những tiêu chuẩn chỉnh phân các loại không thống duy nhất vẫn vẫn là 1 trong những thứ cản bự đối với các tài liệu về sinh thái học.
Kết thích hợp Để ý đến và mã lệnh
Chúng tôi áp dụng gói knitr mang đến R để thực hiện các so với theo kiểu thiết kế tất cả phân tích và lý giải. Toàn bộ những đối chiếu, bao gồm các biện giải cho những hàm mấu chốt hoàn toàn có thể tìm kiếm thấy trên phía trên. Tuy nhiên, thao tác với các đội mã lệnh lâu năm giỏi yêu cầu thời hạn đáng kể nhằm chạy vẫn đã là 1 vụ việc hoa mắt.
Kết xuất các thông số động
Toàn cỗ Việc up date dữ liệu của Cửa Hàng chúng tôi được triển khai bởi vì những mã lệnh, và Shop chúng tôi có thể xóa hết những thông số cổng đầu ra với sinh sản lại bọn chúng một cách dễ dàng.
Xem thêm: Bài 3: Hướng Dẫn Cấu Hình Freenas Làm Shared Storage, Cài Đặt Và Cấu Hình Freenas
Tự rượu cồn lưu trữ những thành tố phú thuộc
Chúng tôi áp dụng GNU make để thống trị những thành tố phụ thuộc vào vào dự án, chỉ đổi khác đầy đủ phần phải sửa lại. Công vắt này cũng hỗ trợ cho quá trình cải tiến và phát triển dự án thay đổi một các bước tự gói gọn.
Quản lý phiên bản
Toàn cỗ mã lệnh của công ty chúng tôi được thống trị phiên phiên bản thực hiện git trường đoản cú cơ hội bước đầu, vấn đề đó có thể chấp nhận được Shop chúng tôi kiểm soát và điều hành những phiên phiên bản cũ một cách tiện lợi. Đây cũng là trung vai trung phong dữ liệu của phần nhiều sản phẩm công nghệ Cửa Hàng chúng tôi làm. Xem bài viết này để xem sứ mệnh to lớn bự của làm chủ phiên bạn dạng cho tới quy trình nghiên cứu.
Tự rượu cồn soát sổ các đổi khác nhằm bảo đảm ko tạo ra vấn đề
Chúng tôi thực hiện môi trường hệ thống tích thích hợp liên tiếp (continuous integration) Travis CI để giám sát chuyển đổi vào so với nhằm ngăn ngừa lỗi. Mỗi khi công ty chúng tôi tạo ra một thay đổi, hệ thống này sở hữu mã mối cung cấp của chúng tôi xuống mặt khác cùng với những tài liệu liên quan và chạy so sánh, và đã gửi cho công ty chúng tôi một tlỗi năng lượng điện tử nếu như do nguyên nhân nào đó so với bị lỗi. Hệ thống này thậm chí là còn mua lên những phiên phiên bản sẽ biên dịch của phân tích với ghi crúc mọi khi chạy.
Đóng gói các thành tố phụ thuộc
Chúng tôi áp dụng gói packrat mang đến R để làm chủ với lưu trữ các gói R nhờ vào để chắc chắn rằng khả năng khả lặp trong tương lai. Về khía cạnh kim chỉ nan, điều đó nghĩa là nếu như phiên phiên bản của gói ứng dụng kia đổi khác nhiều đến nút gây nên lỗi trong mã lệnh của Cửa Hàng chúng tôi thì công ty chúng tôi vẫn gồm sẵn một bạn dạng lưu trữ rất có thể thực hiện được. Đây là 1 chính sách bắt đầu, Cửa Hàng chúng tôi không xác nhận được nó bao gồm hoạt động hay là không.
Những thách thức còn vứt ngỏ
Chúng tôi nhận biết rằng câu hỏi biến đổi phần đa đối chiếu sẽ hoạt động trường đoản cú máy tính của người này (cùng với phần đông cấu hình thiết lập cá nhân mang đến máy tính của họ) quý phái tín đồ khác là một trong Việc trở ngại. Ví dụ nlỗi vấn đề này. Thật nặng nề để dự đân oán được phần đông ngulặng nhân dẫn đến không đúng sót: vào quy trình tái lặp phân tích này vì Carl Boettiger một sự việc vẫn tạo nên bởi bài toán không hoàn thiện tư liệu về các phiên bạn dạng gói cung ứng R quan trọng.Gói mã lệnh triển khai những quá trình bên trên là tương đương về kích thước lúc tiến hành phân tích trong thực tế; đó là một thách thức thật sự cho các công ty nghiên cứu. Việc áp dụng các ngôn ngữ và framework không giống nhau làm ngày càng tăng tận hưởng về những mảng kiến thức mang ý nghĩa kỹ năng hơn, cũng tương tự năng lực xảy ra các vấn đề đã tăng thêm. Càng tự động hóa hóa quy trình này thì những nghiên cứu và phân tích khả lặp đã càng trngơi nghỉ cần thịnh hành.
Phương thơm pháp tiếp cận sử dụng khối hệ thống tích thích hợp tiếp tục có tiềm năng Khủng hỗ trợ cho việc cai quản các dự án công trình nghiên cứu và phân tích dựa trên công nghệ năng lượng điện toán thù trlàm việc cần thuận lợi hơn. Tuy nhiên, tuy vậy phân tích của chúng tôi mang tính hình thức nhiều hơn là áp dụng thực tiễn, nó sẽ ảnh hưởng giới hạn ở các mặt: yên cầu dự án công trình yêu cầu là nguồn msinh sống, so sánh đề xuất chạy tương đối nhanh (bên dưới 1 giờ). Những số lượng giới hạn này là hợp lý và phải chăng so với những dịch vụ miễn giá tiền nhưng lại nó sẽ không thể thỏa mãn nhu cầu được những dự án công trình phân tích sử dụng những biết tin “tinh tế cảm” với những tính tân oán rất có thể kéo dãn những tiếng tốt các ngày.
Chúng tôi phân biệt mục tiêu khả lặp mang đến dự án công trình đã trở thành một ví dụ bổ ích, cùng nó đang trở thành căn cơ cho các dự án công trình tiếp theo sau. Tuy nhiên, quá trình này sẽ trsinh hoạt bắt buộc thức tạp hơn những, làm cho câu hỏi lí giải cho tất cả những người không giống phương pháp để tạo cho dự án công trình của họ trnghỉ ngơi phải tái lặp ko đơn giản chỉ qua lời nói.Chúng ta rất cần phải cách tân và phát triển hầu hết luật pháp, tối thiểu phải dễ dàng sử dụng nhỏng thống trị phiên bản trước lúc chúng ta muốn đợi vấn đề tái lặp dự án công trình biến hóa một Xu thế tầm thường.Chúng tôi ko phản bội bác bỏ chủ ý của Titus Brown về bài toán tái lặp một trong những phần thì tốt hơn là ko tái lặp gì cả (một nửa số tín đồ khiến cho công việc của mình có tác dụng tái lặp 50% dường như tốt hơn 5% số tín đồ khiến cho côgn bài toán của họ có tác dụng tái lặp 100%!). Tuy nhiên, chúng tôi không đồng tình với cách nhìn của Titus cho rằng phần đông lý lẽ new là không quan trọng. Những phép tắc bây giờ là khôn xiết đơn giản cùng không ít đến nút khó khăn mong chờ các công ty khoa học vận dụng trên diện rộng Xu thế tái lặp vì chưng kim chỉ nam chủ yếu của họ không hẳn để tái lặp. Nếu cho rằng Việc tái lặp là ko cuốn hút, bọn họ cần yếu mong chờ bạn không giống quăng quật thời gian và sức lực lao động của mình ra nhằm đóng góp mang lại xã hội rất nhiều lắp thêm tốt đẹp.
Những cố gắng khác cho kim chỉ nam đơn giản là thực hiện lại nghiên cứu tại 1 máy vi tính khác cũng ko khả thi rộng nỗ lực cố gắng của chúng tôi là bao. Một nghiên cứu của group UBC Reproducibility cho thấy chúng ta cần thiết tái lặp tác dụng của 30% phần đa so với được ra mắt sử dụng gói bổ trợ thịnh hành STRUCTURE, với thuộc dữ liệu được cung ứng bởi tác giả. Một trường vừa lòng đáng bi hùng rộng, một nhóm nghiên cứu tại đại học Arizomãng cầu cho thấy thêm chúng ta chỉ rất có thể build được khoảng chừng 50% số phần mềm nguồn msống mà người ta có thể thiết lập xuống mà chưa xét tới câu hỏi soát sổ anh tài của ứng dụng (để ý rằng nghiên cứu này hiện thời đã có được tái lặp!).
Quá trình tạo nên nghiên cứu và phân tích của chúng tôi trnghỉ ngơi bắt buộc khả lặp cho biết thêm chúng ta chỉ sẽ tiến được các bước bé dại vào bài toán khiến cho nghiên cứu và phân tích khả lặp trnghỉ ngơi yêu cầu thông dụng đối với các công ty khoa học trong thực tiễn.