Đây là những nguồn dữ liệu mở miễn phí tốt nhất mà mọi người có thể sử dụng

Dữ liệu mở là gì?

Nói một cách dễ hiểu, Dữ liệu Mở có nghĩa là loại dữ liệu mở cho mọi người và mọi người để truy cập, sửa đổi, tái sử dụng và chia sẻ.

Dữ liệu mở lấy cơ sở của nó từ các “phong trào mở” khác nhau như nguồn mở, phần cứng mở, chính phủ mở, khoa học mở, v.v.

Các chính phủ, các tổ chức độc lập và các cơ quan đã tiến tới mở các kho dữ liệu để tạo ra ngày càng nhiều dữ liệu mở để truy cập miễn phí và dễ dàng.

Tại sao dữ liệu mở lại quan trọng?

Dữ liệu mở rất quan trọng vì thế giới ngày càng phát triển theo hướng dữ liệu. Nhưng nếu có những hạn chế đối với việc truy cập và sử dụng dữ liệu, thì ý tưởng về kinh doanh và quản trị dựa trên dữ liệu sẽ không thể thành hiện thực.

Do đó, dữ liệu mở có vị trí độc đáo của riêng nó. Nó có thể cho phép hiểu biết đầy đủ hơn về các vấn đề toàn cầu và các vấn đề phổ quát. Nó có thể tạo ra một động lực lớn cho các doanh nghiệp. Nó có thể là một động lực lớn cho học máy. Nó có thể giúp chống lại các vấn đề toàn cầu như bệnh tật, tội phạm hoặc nạn đói. Dữ liệu mở có thể trao quyền cho công dân và do đó có thể củng cố nền dân chủ. Nó có thể hợp lý hóa các quy trình và hệ thống mà xã hội và chính phủ đã xây dựng. Nó có thể giúp thay đổi cách chúng ta hiểu và tương tác với thế giới.

Vì vậy, đây là danh sách 15 nguồn Dữ liệu Mở tuyệt vời của tôi:

1. Dữ liệu mở của Ngân hàng Thế giới

Là một kho lưu trữ dữ liệu toàn diện nhất trên thế giới về những gì đang xảy ra ở các quốc gia khác nhau trên thế giới, Dữ liệu Mở của Ngân hàng Thế giới là một nguồn Dữ liệu Mở quan trọng. Nó cũng cung cấp quyền truy cập vào các tập dữ liệu khác cũng như được đề cập trong danh mục dữ liệu.

Dữ liệu mở của Ngân hàng Thế giới rất lớn vì nó có 3000 bộ dữ liệu và 14000 chỉ số bao gồm vi dữ liệu, thống kê chuỗi thời gian và dữ liệu không gian địa lý.

Việc truy cập và khám phá dữ liệu bạn muốn cũng khá dễ dàng. Tất cả những gì bạn cần làm là chỉ định tên chỉ số, quốc gia hoặc chủ đề và nó sẽ mở ra kho tàng Dữ liệu mở cho bạn. Nó cũng cho phép bạn tải xuống dữ liệu ở các định dạng khác nhau như CSV, Excel và XML.

Nếu bạn là một nhà báo hoặc học thuật, bạn sẽ bị say mê bởi hàng loạt công cụ có sẵn cho bạn. Bạn có thể truy cập vào các công cụ phân tích và hình ảnh hóa có thể hỗ trợ nghiên cứu của bạn. Nó có thể tạo ra sự hiểu biết sâu sắc hơn và tốt hơn về các vấn đề toàn cầu.

Bạn có thể có quyền truy cập vào API có thể giúp bạn tạo trực quan hóa dữ liệu mà bạn cần, kết hợp trực tiếp với các nguồn dữ liệu khác và nhiều tính năng khác như vậy.

Do đó, không có gì ngạc nhiên khi Dữ liệu Mở của Ngân hàng Thế giới đứng đầu bất kỳ danh sách các nguồn Dữ liệu Mở nào!

2. WHO (Tổ chức Y tế Thế giới) - Kho dữ liệu mở

Kho Dữ liệu Mở của WHO là cách WHO theo dõi các số liệu thống kê cụ thể về sức khỏe của 194 Quốc gia Thành viên.

Kho lưu giữ dữ liệu được tổ chức một cách có hệ thống. Nó có thể được truy cập theo nhu cầu khác nhau. Ví dụ, cho dù đó là tỷ lệ tử vong hay gánh nặng bệnh tật, người ta có thể truy cập dữ liệu được phân loại dưới 100 danh mục trở lên như Mục tiêu Phát triển Thiên niên kỷ (dinh dưỡng trẻ em, sức khỏe trẻ em, sức khỏe bà mẹ và sinh sản, chủng ngừa, HIV / AIDS, lao, sốt rét, các bệnh bị bỏ quên, nước và vệ sinh), các bệnh không lây nhiễm và các yếu tố nguy cơ, các bệnh dễ xảy ra dịch bệnh, hệ thống y tế, sức khỏe môi trường, bạo lực và thương tích, công bằng, v.v.

Đối với nhu cầu cụ thể của bạn, bạn có thể xem qua các bộ dữ liệu theo chủ đề, danh mục, chỉ báo và quốc gia.

Điều tốt là có thể tải xuống bất kỳ dữ liệu nào bạn cần ở Định dạng Excel. Bạn cũng có thể theo dõi và phân tích dữ liệu bằng cách sử dụng cổng dữ liệu của nó.

API cho nội dung thống kê và dữ liệu của Tổ chức Y tế Thế giới cũng có sẵn.

3. Google Public Data Explorer

Ra mắt vào năm 2010, Google Public Data Explorer có thể giúp bạn khám phá lượng lớn các tập dữ liệu được công chúng quan tâm. Bạn có thể hình dung và truyền đạt dữ liệu cho các mục đích sử dụng tương ứng của mình.

Nó cung cấp dữ liệu từ các cơ quan và nguồn khác nhau. Ví dụ: bạn có thể truy cập dữ liệu từ Ngân hàng Thế giới, Cục Thống kê Lao động Hoa Kỳ và Cục Hoa Kỳ, OECD, IMF và những người khác.

Các bên liên quan khác nhau truy cập dữ liệu này cho nhiều mục đích khác nhau. Cho dù bạn là sinh viên hay nhà báo, cho dù bạn là nhà hoạch định chính sách hay học thuật, bạn đều có thể tận dụng công cụ này để tạo hình ảnh trực quan về dữ liệu công khai.

Bạn có thể triển khai nhiều cách khác nhau để biểu diễn dữ liệu như biểu đồ đường, biểu đồ thanh, bản đồ và biểu đồ bong bóng với sự trợ giúp của Data Explorer.

Phần tốt nhất là bạn sẽ thấy những hình ảnh hóa này khá động. Nó có nghĩa là bạn sẽ thấy chúng thay đổi theo thời gian. Bạn có thể thay đổi chủ đề, tập trung vào các mục nhập khác nhau và sửa đổi quy mô.

Nó cũng có thể dễ dàng chia sẻ. Ngay sau khi bạn chuẩn bị sẵn biểu đồ, bạn có thể nhúng nó vào trang web hoặc blog của mình hoặc chỉ cần chia sẻ một liên kết với bạn bè của bạn.

4. Đăng ký dữ liệu mở trên AWS (RODA)

Đây là một kho chứa các bộ dữ liệu công cộng. Đó là dữ liệu có sẵn từ các tài nguyên AWS.

Theo như RODA có liên quan, bạn có thể khám phá và chia sẻ dữ liệu có sẵn công khai.

Trong RODA, bạn có thể sử dụng các từ khóa và thẻ cho các loại dữ liệu phổ biến như hệ gen, hình ảnh vệ tinh và giao thông vận tải để tìm kiếm bất kỳ dữ liệu nào bạn đang tìm kiếm. Tất cả điều này có thể thực hiện được trên một giao diện web đơn giản.

Đối với mỗi tập dữ liệu, bạn sẽ khám phá trang chi tiết, ví dụ sử dụng, thông tin giấy phép và hướng dẫn hoặc ứng dụng sử dụng dữ liệu này.

Bằng cách sử dụng nhiều sản phẩm máy tính và phân tích dữ liệu, bạn có thể phân tích dữ liệu mở và xây dựng bất kỳ dịch vụ nào bạn muốn.

Mặc dù dữ liệu bạn truy cập có sẵn thông qua tài nguyên AWS, nhưng bạn cần lưu ý rằng dữ liệu đó không được cung cấp bởi AWS. Dữ liệu này thuộc về các cơ quan, tổ chức chính phủ, nhà nghiên cứu, doanh nghiệp và cá nhân khác nhau.

5. Cổng dữ liệu mở của Liên minh Châu Âu

Bạn có thể truy cập bất kỳ dữ liệu mở nào mà các tổ chức, cơ quan và tổ chức khác của Liên minh Châu Âu xuất bản trên một nền tảng duy nhất là Cổng dữ liệu mở của Liên minh Châu Âu.

Cổng dữ liệu mở của EU là nơi lưu trữ dữ liệu mở quan trọng liên quan đến các lĩnh vực chính sách của EU. Các lĩnh vực chính sách này bao gồm kinh tế, việc làm, khoa học, môi trường và giáo dục.

Khoảng 70 cơ quan, tổ chức hoặc bộ phận của EU như Eurostat, Cơ quan Môi trường Châu Âu, Trung tâm Nghiên cứu Chung và các Tổng cục trưởng Ủy ban Châu Âu khác và Cơ quan EU đã công khai bộ dữ liệu của họ và cho phép truy cập. Những bộ dữ liệu này đã vượt qua con số 11700 cho đến nay.

Cổng thông tin cho phép truy cập dễ dàng. Bạn có thể dễ dàng tìm kiếm, khám phá, liên kết, tải xuống và sử dụng lại dữ liệu thông qua danh mục siêu dữ liệu phổ biến. Bạn có thể làm như vậy cho các mục đích cụ thể của bạn. Nó có thể là mục đích thương mại hoặc phi thương mại.

Bạn có thể tìm kiếm danh mục siêu dữ liệu thông qua công cụ tìm kiếm tương tác (tab Dữ liệu) và các truy vấn SPARQL (tab Dữ liệu được liên kết).

Bằng cách sử dụng danh mục này, bạn có thể truy cập vào dữ liệu được lưu trữ trên các trang web khác nhau của các tổ chức, cơ quan và tổ chức EU.

6. FiveThirtyEight

Đây là một trang web tuyệt vời cho báo chí theo hướng dữ liệu và kể chuyện.

Nó cung cấp nhiều nguồn dữ liệu khác nhau cho nhiều lĩnh vực khác nhau như chính trị, thể thao, khoa học, kinh tế, v.v. Bạn cũng có thể tải xuống dữ liệu.

Khi bạn truy cập vào dữ liệu, bạn sẽ thấy một lời giải thích ngắn gọn về mỗi tập dữ liệu liên quan đến nguồn của nó. Bạn cũng sẽ biết nó là viết tắt của gì và cách sử dụng nó.

Để hiển thị dữ liệu này thân thiện với người dùng, nó cung cấp các bộ dữ liệu ở các định dạng đơn giản, không độc quyền như tệp CSV càng tốt. Không cần phải nói, những định dạng này có thể dễ dàng truy cập và xử lý bởi con người cũng như máy móc.

Với sự trợ giúp của các bộ dữ liệu này, bạn có thể tạo các câu chuyện và hình ảnh hóa theo yêu cầu và sở thích của riêng bạn.

7. Cục điều tra dân số Hoa Kỳ

Cục điều tra dân số Hoa Kỳ là cơ quan thống kê lớn nhất của chính phủ liên bang. Nó lưu trữ và cung cấp các thông tin và dữ liệu đáng tin cậy về con người, địa điểm và nền kinh tế của Hoa Kỳ.

Cục điều tra dân số coi sứ mệnh cao cả của mình là mở rộng dịch vụ của mình với tư cách là nhà cung cấp dữ liệu chất lượng đáng tin cậy nhất.

Cho dù đó là chính phủ liên bang, tiểu bang, địa phương hay bộ lạc, tất cả đều sử dụng dữ liệu điều tra dân số cho nhiều mục đích khác nhau. Các chính phủ này sử dụng dữ liệu này để xác định vị trí của nhà ở mới và các cơ sở công cộng. Họ cũng sử dụng nó vào thời điểm kiểm tra các đặc điểm nhân khẩu học của các cộng đồng, tiểu bang và Hoa Kỳ.

Dữ liệu này cũng được sử dụng để lập kế hoạch hệ thống giao thông và đường bộ. Khi nói đến việc quyết định hạn ngạch và tạo các khu vực cảnh sát và cứu hỏa, dữ liệu này rất hữu ích. Khi các chính phủ tạo ra các khu vực địa phương về bầu cử, trường học, tiện ích, v.v., họ sử dụng dữ liệu này. Thông lệ là tổng hợp thông tin dân số mỗi thập kỷ một lần và dữ liệu này khá hữu ích trong việc hoàn thành điều tương tự.

Có nhiều công cụ khác nhau như American Fact Finder, Census Data Explorer và Quick Facts rất hữu ích trong trường hợp bạn muốn tìm kiếm, tùy chỉnh và trực quan hóa dữ liệu.

Ví dụ, chỉ riêng Quick Facts đã chứa số liệu thống kê cho tất cả các bang, quận, thành phố và thậm chí cả thị trấn có dân số từ 5000 người trở lên.

Tương tự như vậy, American Fact Finder có thể giúp bạn khám phá các dữ kiện phổ biến như dân số, thu nhập, v.v. Nó cung cấp thông tin thường xuyên được yêu cầu.

Điều tốt là bạn có thể tìm kiếm, tương tác với dữ liệu, tìm hiểu về các thống kê phổ biến và xem các biểu đồ liên quan thông qua Trình khám phá dữ liệu điều tra dân số. Hơn nữa, bạn cũng có thể sử dụng công cụ trực quan để tùy chỉnh dữ liệu trên trải nghiệm bản đồ tương tác.

8. Data.gov

Data.gov là kho dữ liệu mở của chính phủ Hoa Kỳ. Chỉ gần đây người ta mới đưa ra quyết định cung cấp miễn phí tất cả dữ liệu của chính phủ.

Khi nó được đưa ra, chỉ có 47. Hiện đã có 180.000 bộ dữ liệu.

Tại sao Data.gov là một tài nguyên tuyệt vời là vì bạn có thể tìm thấy dữ liệu, công cụ và tài nguyên mà bạn có thể triển khai cho nhiều mục đích khác nhau. Bạn có thể tiến hành nghiên cứu, phát triển các ứng dụng web và di động của mình và thậm chí thiết kế trực quan hóa dữ liệu.

Tất cả những gì bạn cần làm là nhập từ khóa vào hộp tìm kiếm và duyệt qua các loại, thẻ, định dạng, nhóm, loại tổ chức, tổ chức và danh mục. Điều này sẽ tạo điều kiện dễ dàng truy cập vào dữ liệu hoặc bộ dữ liệu mà bạn cần.

Data.gov tuân theo Lược đồ dữ liệu mở của dự án - một tập hợp các trường cần thiết (Tiêu đề, Mô tả, Thẻ, Cập nhật lần cuối, Nhà xuất bản, Tên liên hệ, v.v.) cho mọi tập dữ liệu được hiển thị trên Data.gov.

9. DBpedia

Như bạn đã biết, Wikipedia là một nguồn thông tin tuyệt vời. DBpedia nhằm mục đích lấy nội dung có cấu trúc từ thông tin có giá trị mà Wikipedia tạo ra.

Với DBpedia, bạn có thể tìm kiếm và khám phá theo ngữ nghĩa các mối quan hệ và thuộc tính của tài nguyên Wikipedia. Điều này cũng bao gồm các liên kết đến các bộ dữ liệu liên quan khác.

Có khoảng 4,58 triệu thực thể trong tập dữ liệu DBpedia. 4,22 triệu được phân loại theo bản thể học, bao gồm 1,445,000 người, 735,000 địa điểm, 123,000 album nhạc, 87,000 bộ phim, 19,000 trò chơi điện tử, 241,000 tổ chức, 251,000 loài và 6,000 bệnh.

Có nhãn và tóm tắt cho các thực thể này bằng khoảng 125 ngôn ngữ. Có 25,2 triệu liên kết đến hình ảnh. Có 29,8 triệu liên kết đến các trang web bên ngoài.

Tất cả những gì bạn cần làm để sử dụng DBpedia là viết các truy vấn SPARQL đối với điểm cuối hoặc bằng cách tải xuống các kết xuất của chúng.

DBpedia đã mang lại lợi ích cho một số doanh nghiệp, chẳng hạn như Apple (thông qua Siri), Google (thông qua Freebase và Google Knowledge Graph), IBM (thông qua Watson) và đặc biệt là các dự án uy tín tương ứng của họ liên quan đến trí tuệ nhân tạo.

10. dữ liệu mở freeCodeCamp

Nó là một cộng đồng mã nguồn mở. Tại sao nó lại quan trọng bởi vì nó cho phép bạn viết mã, xây dựng các dự án chuyên nghiệp sau các tổ chức phi lợi nhuận và kiếm một công việc với tư cách là nhà phát triển.

Để thực hiện điều này, cộng đồng freeCodeCamp.org cung cấp một lượng lớn dữ liệu hàng tháng. Họ đã biến nó thành dữ liệu mở.

Bạn sẽ tìm thấy nhiều thứ trong kho này. Bạn có thể tìm thấy các tập dữ liệu, phân tích các dự án giống nhau và thậm chí cả các bản demo dựa trên dữ liệu freeCodeCamp. Bạn cũng có thể tìm thấy các liên kết đến các dự án bên ngoài liên quan đến dữ liệu freeCodeCamp.

Nó có thể giúp bạn với nhiều dự án và nhiệm vụ mà bạn có thể có trong đầu. Cho dù đó là phân tích trang web, phân tích phương tiện truyền thông xã hội, phân tích mạng xã hội, phân tích giáo dục, trực quan hóa dữ liệu, phát triển web theo hướng dữ liệu hoặc bot, thì dữ liệu do cộng đồng này cung cấp có thể cực kỳ hữu ích và hiệu quả.

11. Tập dữ liệu mở của Yelp

Tập dữ liệu Yelp về cơ bản là một tập hợp con không có gì khác ngoài các doanh nghiệp, bài đánh giá và dữ liệu người dùng của chúng tôi để sử dụng cho các mục đích cá nhân, giáo dục và học tập.

Có 5.996.996 đánh giá, 188.593 doanh nghiệp, 280.991 hình ảnh và 10 khu vực đô thị được đưa vào Bộ dữ liệu mở của Yelp.

Bạn có thể sử dụng chúng cho các mục đích khác nhau. Vì chúng có sẵn dưới dạng tệp JSON, bạn có thể sử dụng chúng để dạy sinh viên về cơ sở dữ liệu. Bạn có thể sử dụng chúng để học NLP hoặc cho dữ liệu sản xuất mẫu trong khi bạn hiểu cách thiết kế ứng dụng di động.

Trong tập dữ liệu này, bạn sẽ tìm thấy mỗi tệp bao gồm một loại đối tượng duy nhất, một đối tượng JSON trên mỗi dòng.

12. Tập dữ liệu UNICEF

Do UNICEF quan tâm đến nhiều vấn đề quan trọng, tổ chức này đã tổng hợp dữ liệu liên quan về giáo dục, lao động trẻ em, khuyết tật ở trẻ em, tỷ lệ tử vong ở trẻ em, tỷ lệ tử vong ở bà mẹ, nước và vệ sinh, trẻ nhẹ cân, khám thai, viêm phổi, sốt rét, thiếu iốt rối loạn, cắt / cắt bộ phận sinh dục nữ và thanh thiếu niên.

Các bộ dữ liệu mở của UNICEF được xuất bản trên Cơ quan đăng ký IATI: //www.iatiregistry.org/publisher/unicef ​​đã được trích xuất trực tiếp từ hệ điều hành của UNICEF (VISION) và các hệ thống dữ liệu khác, và nó phản ánh đầu vào do các văn phòng UNICEF thực hiện.

Điều tốt là có một bản cập nhật thường xuyên khi nói đến các bộ dữ liệu này. Hàng tháng, dữ liệu được cập nhật để làm cho dữ liệu toàn diện, đáng tin cậy và chính xác hơn.

Bạn có thể tự do và dễ dàng truy cập dữ liệu này. Để làm như vậy, bạn có thể tải xuống dữ liệu này ở định dạng CSV. Bạn cũng có thể xem trước dữ liệu mẫu trước khi tải xuống.

Mặc dù bất kỳ ai cũng có thể khám phá và hình dung các bộ dữ liệu của UNICEF, nhưng có ba nhà xuất bản chính:

CỔNG THÔNG TIN CỔ TỨC CỦA UNICEF: Bạn có thể truy cập các bộ dữ liệu dễ dàng hơn rất nhiều nếu bạn sử dụng cổng này. Nó cũng bao gồm các chi tiết cho từng quốc gia mà UNICEF làm việc.

Cổng thông tin điện tử của nhà xuất bản: Hiện tại, nó đang ở trong BETA. Với cổng thông tin này, bạn có thể khám phá dữ liệu IATI.

Bạn có thể tìm kiếm thông tin liên quan đến các hoạt động phát triển, ngân sách, v.v. Bạn có thể khám phá thông tin này theo quốc gia.

Nền tảng dữ liệu của nhà xuất bản: Trên nền tảng này, bạn có thể dễ dàng truy cập số liệu thống kê, biểu đồ và số liệu về dữ liệu được truy cập thông qua IATI Registry. Nếu bạn nhấp vào tiêu đề, bạn cũng có thể sắp xếp nhiều bảng mà bạn thấy trên nền tảng. Bạn cũng sẽ tìm thấy nhiều bộ dữ liệu trong nền tảng ở định dạng JSON mà máy có thể đọc được.

13. Kaggle

Kaggle là tuyệt vời vì nó thúc đẩy việc sử dụng các định dạng xuất bản tập dữ liệu khác nhau. Tuy nhiên, phần tốt hơn là nó thực sự khuyến nghị rằng các nhà xuất bản tập dữ liệu chia sẻ dữ liệu của họ ở định dạng có thể truy cập, không độc quyền.

Nền tảng hỗ trợ các định dạng dữ liệu mở và có thể truy cập được. Điều quan trọng không chỉ đối với quyền truy cập mà còn đối với bất kỳ điều gì bạn muốn làm với dữ liệu này. Do đó, Kaggle Dataset xác định rõ ràng các định dạng tệp được khuyến nghị trong khi chia sẻ dữ liệu.

Điều độc đáo về bộ dữ liệu Kaggle là nó không chỉ là một kho lưu trữ dữ liệu. Mỗi tập dữ liệu là viết tắt của một cộng đồng cho phép bạn thảo luận về dữ liệu, tìm ra các mã và kỹ thuật công khai cũng như khái niệm hóa các dự án của riêng bạn trong Kernels.

CSV, JSON, SQLite, Archive, Big Query, v.v. là các loại tệp mà Kaggle hỗ trợ. Bạn có thể tìm thấy nhiều tài nguyên khác nhau để bắt đầu làm việc với dự án dữ liệu mở của mình.

Phần tốt nhất là Kaggle cho phép bạn xuất bản và chia sẻ tập dữ liệu một cách riêng tư hoặc công khai.

14. LODUM

Đây là sáng kiến ​​Dữ liệu Mở của Đại học Münster. Theo sáng kiến ​​này, mọi người đều có thể truy cập bất kỳ thông tin công khai nào về trường đại học ở các định dạng máy có thể đọc được. Bạn có thể dễ dàng truy cập và sử dụng lại nó theo nhu cầu của mình.

Dữ liệu mở về các hiện vật khoa học và được mã hóa dưới dạng dữ liệu liên kết được cung cấp trong dự án này.

Với sự trợ giúp của Dữ liệu được Liên kết, có thể chia sẻ và sử dụng dữ liệu, bản thể học và các tiêu chuẩn siêu dữ liệu khác nhau. Trên thực tế, dự kiến ​​rằng nó sẽ là tiêu chuẩn được chấp nhận để cung cấp siêu dữ liệu và bản thân dữ liệu trên Web.

Nhóm LODUM đã đồng khởi xướng LinkedUniversities.org và LinkedScience.org.

Bạn có thể sử dụng trình soạn thảo SPARQL hoặc gói SPARQL của R để phân tích dữ liệu.

Gói SPARQL cho phép kết nối với điểm cuối SPARQL qua HTTP, đặt ra một truy vấn CHỌN hoặc một truy vấn cập nhật (LOAD, INSERT, DELETE).

15. Kho lưu trữ Máy học UCI

Nó đóng vai trò như một kho lưu trữ toàn diện về cơ sở dữ liệu, lý thuyết miền và trình tạo dữ liệu được cộng đồng học máy sử dụng để phân tích thực nghiệm các thuật toán học máy.

Trong kho lưu trữ này, hiện tại, có 463 bộ dữ liệu như một dịch vụ cho cộng đồng học máy.

Trung tâm Máy học và Hệ thống Thông minh tại Đại học California, Irvine tổ chức và duy trì nó. David Aha ban đầu đã tạo ra nó khi còn là một sinh viên tốt nghiệp tại UC Irvine.

Kể từ đó, sinh viên, nhà giáo dục và nhà nghiên cứu trên toàn thế giới sử dụng nó như một nguồn đáng tin cậy của bộ dữ liệu học máy.

Cách thức hoạt động là mỗi tập dữ liệu có một trang web riêng biệt thu thập tất cả các thông tin chi tiết đã biết bao gồm bất kỳ ấn phẩm liên quan nào điều tra nó. Bạn có thể tải xuống các tập dữ liệu này dưới dạng tệp ASCII, thường là định dạng CSV hữu ích.

Chi tiết của tập dữ liệu được tóm tắt theo các khía cạnh như loại thuộc tính, số lượng phiên bản, số lượng thuộc tính và năm xuất bản có thể được sắp xếp và tìm kiếm.

Mở Cổng dữ liệu và Công cụ Tìm kiếm:

Mặc dù có rất nhiều bộ dữ liệu được xuất bản bởi nhiều cơ quan hàng năm, nhưng rất ít bộ dữ liệu được công nhận và thiết lập.

Lý do tại sao rất ít bộ dữ liệu như vậy duy trì được như nguồn tài nguyên hữu ích là đó là một thách thức để phát triển, quản lý và cung cấp dữ liệu theo cách mà mọi người và tổ chức thấy nó hữu ích và dễ sử dụng.

Tuy nhiên, vui lòng tìm thấy bên dưới danh sách một số cổng và nền tảng dữ liệu mở quan trọng khác cho phép người dùng truy cập dữ liệu mở khá dễ dàng, nghiên cứu tác động và thu thập thông tin chi tiết có giá trị.

  1. Tìm kiếm tập dữ liệu của Google
  2. Dataverse
  3. Bộ dữ liệu mở
  4. Ckan
  5. Mở màn hình dữ liệu
  6. Plenar.io
  7. Bản đồ tác động dữ liệu mở

Phần kết luận

Dữ liệu mở là thứ tự trong ngày. Thế giới đã dần bắt đầu hướng tới các hệ thống mở và dữ liệu mở hoàn toàn đồng bộ với điều đó.

Doanh nghiệp và tổ chức tận dụng dữ liệu mở sẽ đạt được lợi thế cạnh tranh và có thể thống trị trong tương lai.