Интернет

15 массивных онлайн-баз данных, о которых вы должны знать

15 массивных онлайн-баз данных, о которых вы должны знать

Подумайте о ваших любимых открытых базах данных.

Я уверен, что Wikipedia и IMDb мгновенно приходят на ум, но вам, возможно, не понадобятся все эти знания или обширная база данных обо всех развлечениях. Иногда вам нужно немного VLDB (очень большая база данных). Что-то, что оживит ваш анализ данных Что-то, чтобы поместить «большой» в ваши большие данные. Дракончик, хороший человек, ты в правильном месте.

Вот 15 крупных онлайн баз данных. вы можете получить доступ и проанализировать бесплатно или просто читайте на досуге.

1000 геномов

Завершение в 2003 году проекта « Геном человека» (HGP) было только началом. С тех пор достижения в технологии секвенирования значительно сократили затраты на человека, что позволило значительно расширить HGP от его первоначальной исследовательской базы в двадцать университетских лабораторий до обширной, глобализированной сети взаимосвязанных картографических средств генома.

Вы можете скачать часть проекта «1000 геномов», содержащую информацию о последовательности для более чем 2600 человек из 26 групп населения по всему миру. Это файл размером 200 ТБ, так что будьте готовы. Мы предлагаем использовать его в сочетании с мощной платформой облачных вычислений.

Смотрите также: База данных размеров генома животных для данных генома, относящихся к 5635 видам.

авиалайнеры

авиалайнеры

Planespotters рай. Обширная база данных изображений, включающая 2 532 457 фотографий всех типов самолетов, от самых маленьких отдельных самолетов до огромных летающих крепостей.

Авиалайнеры также имеют обширный раздел, посвященный данным о самолетах и ​​истории, который постоянно обновляется в сотрудничестве с изданиями Aerospace Publications для обеспечения достоверности фактов. Это сделало его одной из самых подробных авиационных баз данных в Интернете.

См. Также : Попробуйте Planespotters.net для другого диапазона изображений или SeatGuru для схем размещения самолетов.

Интернет-архив

Интернет архив

Сайт, ранее известный как Интернет-архив , претерпел огромные изменения. Сайт не сильно изменился с 2002 года, но с тех пор многое изменилось. Интернет-архив сделал   еще больше растет с первых дней.

Архивируя все в Интернете, сайт предоставляет вам бесплатный доступ к цифровым медиа, включая книги, музыку, игры. , видео и многое другое. Размер коллекции в настоящее время оценивается примерно в 10 петабайт. , и поскольку их веб-сканеры продолжают ползти, это продолжит расти.

Freebase

Freebase

Freebase — это «созданная сообществом база данных известных людей, мест и вещей», хранящаяся в структуре данных, называемой графом . График состоит из узлов, связанных своими краями, что позволило Freebase быстро расширить свой контент, не нарушая существующие записи.

К сожалению, Freebase, принадлежащая Google, перешла в режим только для чтения в начале этого года, прежде чем автономная база данных службы была передана в Фонд Викимедиа для интеграции. включены в проекте Wikidata (конец июня 2015 г.). В настоящее время разработчики могут по-прежнему получать доступ к Freebase с помощью существующих API, но после того, как это произойдет, разработчикам придется использовать API-интерфейсы Викимедиа для доступа к данным.

Найти могилу

Найти могилу

Из домашней базы команды мечты об интернет-знаниях Google и Викимедиа мы переходим к патологии. «Найти могилу» — это обширная база данных о захоронениях со всего мира, насчитывающая 121 миллион записей .

Наиболее полные записи поступают из США, но есть небольшие страны с большими данными. В комплекте с фотографиями, интересными памятниками и множеством интересных эпитафий … если вам нужно вдохновение?

GameRankings

Рейтинг игр

База данных, поддерживаемая вездесущей командой разработчиков Gamespot. GameRankings дает всестороннее представление о популярности игры, освещая обзоры игр в автономном режиме и в автономном режиме из надежных источников.

Большая Мультипликационная База Данных

BCBD

В том же духе, что и в массивной IMDb, The Big Cartoon Database сосредоточена исключительно на анимационных вещах: мультфильмах, фильмах, телевизионных шоу, рекламе и многом другом. Если это анимация, вы найдете ее здесь, а если нет, зарегистрируйтесь как участник этой постоянно растущей базы данных.

База данных больших мультфильмов имеет дочерний сайт в базе данных больших комиксов , где хранятся еще 100 000 или более записей комиксов. , охватывая около 5000 серий, с более чем 35 000 сканов. Он также содержит комплексную функцию поиска, в том числе руководство по ценам для комиксов с подробным описанием текущих цен при перепродаже на различных уровнях оценки.

Смотрите также : База данных Grand Comics , некоммерческая база данных комиксов по всему миру.

CiteSeer X

Citeseer

Бесценный инструмент для студентов и академики, CiteSeer X является публичной поисковой системой и цифровой библиотекой научных и научных работ. Часто рассматриваемая как первая автоматизированная система индексации цитирования, она послужила источником вдохновения для Google Scholar и Microsoft Academic Search. Хотя последний с тех пор был интегрирован в поисковую систему Bing.

CiteSeer X занимается индексацией общедоступных научных документов. Если ваш исследовательский документ открыто распространяется, у него больше шансов появиться в поисковой системе. CiteSeer X является отличным примером силы обмена знаниями, доступной для гораздо более широкой аудитории.

Смотрите также : Google Scholar для различных книг и цитат.

WorldCat

WorldCat

К сожалению, нет базы данных каждой фотографии кота в Интернете. Теперь это будет что-то! WorldCat гораздо полезнее, чем это. Справочный сайт документирует коллекции более 72 000 библиотек по всему миру , охватывающих 170 стран и территорий. Это полезно, если вы проводите исследования в другой стране или просто хотите лично почитать редкие книги.

Единственным недостатком является метод обновления. WorldCat использует модель пакетной обработки, а не позволяет пользователям получать доступ к данным в режиме реального времени. Таким образом, WorldCat не указывает статус ссуды для каталогизированных книг, независимо от того, принадлежит ли библиотека нескольким экземплярам одной книги или является ли данная книга непосредственно доступной для желающих посетить. Это все еще очень полезный инструмент, особенно когда используется в сочетании с CiteSeer X.

Архив Симпсонов

Симпсоны

«Интернет-центр справочников, новостей и информации Симпсонов». Я не мог бы выразиться лучше. Давний фаворит фанатов начался в далеком 1994 году и до сих пор набирает силу даже без каких-либо интерактивных мультимедиа, хотя бы для того, чтобы избежать пристального взгляда юридического отдела Фокса.

WinCustomize

WinCustomize

Вы найдете одну из крупнейших баз данных инструментов настройки для Windows. здесь, начиная с XP и заканчивая Windows 8.1 . Я уверен, что Windows 10 не займет много времени, чтобы начать делать раунды. Его огромная популярность проистекает из сочетания сил. Владелец Stardock субсидирует сайт, что означает, что рекламы практически нет. Это также выигрывает от количества людей, направлявшихся на сайт из Stardock.

Ultimate Гитарный Архив

GuitarTabs

Ах, путешествие по переулку ностальгии к базе данных, напоминающей мне, что я никогда не стану Роджером Уотерсом. На самом деле я все еще едва могу играть, но это другая история.

Ultimate Guitar Archive, или просто Ultimate-Guitar (UG), насчитывает более 1 500 000 зарегистрированных участников по всему миру, следя за смехотворно большим количеством контента сообщества. Это почти ошеломляет, сколько информации, связанной с гитарой, рассеяно из одного источника. Сообщество просто не поддерживает огромную базу данных, они также часто сотрудничают друг с другом, создавая разветвленные музыкальные проекты.

Растения на будущее

Растения-For-A-Будущего

Растения на будущее документы экологически устойчивого садоводства. Он имеет большое значение в распространении знаний о видовом разнообразии и важности пермакультуры. То, что начиналось как небольшой проект в недрах Корнуолла, постепенно превратилось в мировую базу данных.

Рост несколько медленный и в основном сфокусирован на пермакультуре в Великобритании и ЕС, но многие записи можно поменять местами в США, если у вас есть данные о видах.

Quandl

Включите эту надстройку Excel для обработки и анализа данных. Основной сайт Quandl действует как поиск по базе данных, находя базы данных со всего мира, которые соответствуют вашим условиям поиска. Попробуйте, если вам нужно спешить с дополнительными данными или просто поиграть с большими наборами данных (честно, а кому нет ?!).

Quandl

Смотрите также : Поисковая система базы данных Enigma .

Крошечные изображения

Набор данных Tiny Images выступает в качестве визуального словаря. Нажмите в любом месте изображения, и появится поисковый запрос с дополнительной информацией. Вы также можете использовать специальные термины для просеивания 80 миллионов изображений .

Визуальный словарь

База данных является частью более широкого проекта по машинному обучению. сфокусирован на обучении компьютеров «видеть» и «читать» смысловые поля в изображениях.

Бонусный источник: / r / наборы данных

«Главная страница Интернета» — это надежный дом для энтузиастов интеллектуального анализа данных по всему миру. Существуют подразделы, предназначенные для машинного обучения, интеллектуального анализа данных, преобразования текста в данные и наборов данных. Если вам нужно что-то конкретное, сделайте запрос. Новые наборы данных появляются каждую неделю.

Следите за опубликованными интересными наборами данных, такими как уровни иммунизации в детских учреждениях и школах для Калифорнии.

Используете ли вы богатство?

Интернет создал единственную ясную возможность для людей объединиться и сосредоточить свои знания в единой базе данных. Мы доблестно пытаемся документировать все о чем угодно. Некоторые из этих баз данных предназначены для ознакомления, другие для изучения. , но мы надеемся, что вам понравится все.

Какие ваши любимые базы данных? Есть ли какие-нибудь открытые массивные справочные источники, которые я должен был бы включить в этот список?

Кредиты изображений: сетевой сервер через Shutterstock , библиотека через Shutterstock

Похожие посты
Интернет

Google Store Лучшие предложения

Интернет

Руководство по специальному режиму в сети

Интернет

10 советов по безопасности беспроводной домашней сети

Интернет

САН против НАН