SGI анализирует Wikipedia
Что можно сделать за один день с использованием SGI® UV™ 2000 – крупнейшей в мире системе анализа данных? Такой вопрос компания SGI задала Калеву Лиртау, исследователю, который недавно опубликовал Culturomics 2.0, в которой он использовал архив из 100 000 000 мировых новостей за четверть века, сеть на 2,4 петабайта из 10 000 000 000 людей, мест и вещей и 100 000 000 000 000 связей для прогноза арабской весны, поиска точного местоположения Бен Ладена, и визуализации эволюции человеческого общества.
Он обратился к Википедии и совместно с SGI впервые в мире создал историческое отображение и исследование полного содержания версии Википедии на английском языке, во времени и пространстве, с визуализацией современной истории на сегодняшний день. Загрузкой всего английского издания Википедии в SGI UV 2000 Лиртау смог показать, как визуализорован в Википедии мир на протяжении последних двух веков. С данными ссылками связаны место, год и положительные или негативные оценки.
В то время как несколько предыдущих проектов Википедии отображают записи с ручным назначением местоположения метаданных редактором, на эти предыдущие попытки приходится лишь небольшая часть информации о местоположении Википедии. Этот проект раскрыл содержание самих статей, определение каждого места и даты на всех четырех миллионах страниц и связи между ними, чтобы создать массивную сеть.
Взгляд на Википедию в новом свете
Этот анализ выходит за пределы ограничений существующей структуры Википедии, а также показывает, как развивалась вся база знаний. Теперь мы можем видеть вещи, которые мы никогда не могли видеть раньше, такие как глобальные настроения в течение определенного времени и места, или там, где могут существовать пробелы.
Из этого анализа Википедии видно, что есть четыре периода роста в ее историческом охвате: 1001-1500 годы (Средневековье), 1501-1729 годы (Новое время), 1730-2003 годы (эпоха Просвещения), 2004-2011 годы (эра Википедии) и ее дальнейший рост, как представляется, направлен на повышение охвата исторических событий, а не увеличения документирования настоящего. В среднем, Википедия освещает каждый год в точном соответствии с основным глобальным событиям, с самыми негативными периодами за последние 1000 лет, в том числе, Гражданская война в США, а затем Вторая мировая война. Анализ также показывает, что «пробел в авторском праве», который присущ большей части в оцифрованных печатных изданий ХХ века не является проблемой Википедии, где есть устойчивый экспоненциальный рост охвата с 1924 по сегодняшний день.
Аналитический подход
Будучи загруженным в SGI UV 2000, этот массив данных прошел полнотекстовое геокодирование и полное кодирование данных с использованием алгоритмов, которые выявили все упоминания о всех местах и датах в тексту, о каждой записи в Википедии. Были извлечены более 80 миллионов мест и 4 2000 000 дат в период с 1000 года по 2012 год, в среднем 19 мест и 11 дат на статью (по 44 и 75 слов соответственно). Связи между каждой датой и каждым местом, представляющие взгляд Википедии на историю были захвачены в массивную сеть. С помощью этого инструментария, г-н Лиртау выполнил (практически в реальном времени) анализ по всему набору данных на SGI UV 2000 для создания визуальных карт во всем пространстве и времени, чтобы увидеть не только, как развивалась история, но и общее состояние мира на протяжении последней тысячи лет, а также провел исследование широкого спектра теорий и вопросов в интерактивном режиме менее чем за один день работы. Также, г-н Лиртау выполнил (практически в реальном времени) анализ по всему набору данных на SGI UV 2000, используя простые Perl-скрипты и используя GraphViz, создал визуальные карты для всего пространства и времени, чтобы увидеть не только, как развивалась история, но и общее состояние мира на протяжении последней тысячи лет, а также провел в исследование широкого спектра теорий и вопросов в интерактивном режиме менее чем за один день работы.
Видео о проекте
Взгляд Википедии на мировую историю
Просмотр истории с помощью Википедии сквозь пространство и время. Было извлечено каждое упоминание о местоположении или дате в любом месте в любой статье во всей Википедии и каждое место было связано с ближайшей датой, чтобы указать его на карте. Все места, упомянутые в статье вместе с тем же годом связаны друг с другом. Таким образом, вы видите, что Википедия сообщает о каждом годе, начиная с 1800 года по настоящее время, какие места упоминаются чаще всего, какие места упоминаются рядом друг с другом, и т.д.
Восприятие мира на протяжении всей истории через Википедию
Просмотр положительных или отрицательных событий, показанных Википедией в пространстве и времени. Каждое место указано в связи с датами и даны перекрестные ссылки при упоминании других мест. Для отображения положительного и отрицательного восприятия используются зеленый и красный цвета соответственно.
Взгляд на мир глазами Википедии
Что вы можете сделать за один день на SGI UV 2000 – крупнейшей в мире системе анализа данных? Совместно с SGI, Калев Х. Лиртау из Университета штата Иллинойс, обсудил создание первого в истории исторического отображения и исследования полного содержания версии Википедии на английском языке, во времени и пространстве, с визуализацией современной истории, запечатленной на ее четырех миллионах страниц на сегодняшний день. Все это было сделано на компьютере Big Brain SGI UV 2000.
|
Графики и диаграммы
Общее количество упоминаний в дат Википедии за каждый год с 1001 по 2011 – Хронология всемирной истории
Сразу становится ясно, что разрыв который присущ большей части в оцифрованных печатных изданий ХХ века не является проблемой Википедии, где есть устойчивый экспоненциальный рост охвата с 1924 по сегодняшний день. Это соответствует предположению о степени сохранившихся сведений о каждом десятилетии. Для целей этого проекта, ссылки на десятилетия и века были закодированы как ссылки на год, начиная с этого периода времени (1500-е годы кодируются как 1500 год), на который приходится всплеск роста данных. Основные события, например, Гражданская война в Америке и Первая и Вторая мировые войны легко различимы.
Логарифмический вид Википедии для 1001 – 2011 годов
Вместо того, чтобы показать численный ряд упоминаний каждого года, шкала отображает экспоненциальный рост этого набора данных, что позволяет легче обнаружить крупномасштабные модели так как набор данных вырос с течением времени. В этом случае, данные показывают исторические знания Википедии 1001–2011 годов, которые в значительной степени можно разделить на четыре временных периода: 1001–1500 годы (Средневековье), 1501–1729 годы (Новое время), 1730–2003 (эпоха Просвещения), 2004–2011 годы (эра Википедии) с ростом массива данных, значительно превышающем предыдущие периоды.
Временная шкала Википедии для 1950 – 2011 годов
Этот график охватывает период 1950–2011 годов, показывая, что начальный всплеск охвата ведущего к эре Википедии начинается в 2001 году, год появления Википедии, после чего три года уровень охвата не рос, реально начав ускоряться в 2004 году. Не менее интересным является выравнивание, которое начинается в 2008 году и, есть почти равное количество упоминаний за последние три года: 2009, 2010, и 2011. Отражает ли это то, что Википедия находится в состоянии стагнации, или, возможно, она, наконец, достигла порога, при котором все человеческие знания, полученные о каждом годе теперь записаны на ее страницах и просто, больше нечего записывать? Одной из возможных теорий является та, что самые частые изменения в Википедии сегодня концентрируются на современном знании, добавляя события по мере их возникновения, превращая в Википедию в дневник современной истории. Тем не менее, на следующем рисунке представлен еще один возможный ответ.
Общее число статей 2001-2011 и общее количество упоминаний дат того же года
Чтобы лучше понять природу расширения Википедии в последние годы, этот график показывает общее количество статей на английском языке за 2001-2011 годы, а также общее количество упоминаний дат того же года. Оказывается, что в 2007 году было почти столько же упоминаний о 2007 годе, сколько было страниц в Википедии (примечание: это не означает, что каждая страница упоминает этот год, так как на одну страницу с упоминанием года, будет приходиться несколько записей в этом графике). Размер Википедии продолжает расти после 2007 года, в то время как количество упоминаний соответствующих годов выровнялось. Это говорит о том, что дальнейший рост Википедии не обязательно сосредоточен на текущей истории, но распространяется на другие места по всей Википедии, повышая ее охват прошлого.
Эмоциональный контекст Википедии 1001 - 2011
Эта диаграмма визуализирует каждый год как «положительный» или «отрицательный», согласно Википедии. Для нормализации тональности, ось Y показывает число стандартных отклонений от среднего, известное как Z-показатель. Годовой тон рассчитывается очень упрощенно: вычисляется средний тон каждой статьи в Википедии, а затем вычисляется средний тон всех упоминаний данного года (если год упоминается несколько раз в статье, тон статьи исчисляется кратно раз к этому среднему). Это макроуровень контекста года: в масштабе Википедии, если год упоминается в основном в отрицательных статьях, которые предлагают что-то важное об этом годе.
Одной из наиболее ярких особенностей является существенный сдвиг в сторону большей отрицательности между 1499 и 1500 годами. Тон неуклонно становился более негативными от 1001 года до 1499, смещая всё стандартное отклонение за этот период, но между этими двумя годами имеется внезапный резкий сдвиг полного стандартного отклонения, с тоном, остающимся более отрицательным для последних 50 лет. Внезапность этого сдвига предполагает, что это, вероятно, связано с артефактом в Википедии или анализом процесса, но не с подлинной исторической тенденцией, такой как отражение возросшего научного интереса к мировым законам в этот период. Однако, глядя на остальную часть диаграммы мы наблюдаем еще один скачок в отрицательном направлении, происходящий в 1861-1865 годах, во время Гражданской войны в Америке, с похожими скачками для Первой и Второй Мировых войн. Интересно, что Вторая Мировая война показывает почти удвоение негатива по сравнению с Первой Мировой войной и почти 75% по сравнению с Гражданской войной.
Сравнение тона Википедии с тоном СМИ с 1979 по 2010 годы
Эта диаграмма детально показывает период 1979-2010 годов, соответствующий рисунку 11 в Culturomics 2.0, в котором прослеживается среднемесячный тон глобального обзора новостей за этот период. Тон СМИ стал в 3 раза более отрицательным за этот период, в то время как тон Википедии стал в 1,5 раза более положительным. Существует также двухлетний сдвиг в отрицательную сторону в Википедии в 2004-2005 годах, который заслуживает дальнейшего изучения.
Интерактивное исследование
Википедии в пространстве и времени с Google Earth
Подробная интерактивная географическая и актуальная информация на Google Earth позволяет выйти за рамки поиска по ключевому слову в Википедии и интерактивно изучить взгляд Википедии на Ливию во времени и пространстве. Здесь вид для Ливии ограничен и показаны только самые высокопрочные связи из-за ограничений Google Earth на число одновременно отображаемых точек.
Глядя Википедию таким образом, при виде связей обнаруживаются открытия, которые выходят за рамки метаданных в Википедии. Здесь показаны упоминания в статье Википедии для Тажахи, Ливия за 1846 и 1848 годы, связанные с отменой работорговли, а также упоминание 1819 года об исследовании Тажари британским военно-морским исследователем Джорджем Лайоном. В статье о Тажари упоминаются Тунис и Алжир в связи с работорговлей, но нет ссылки на эти статьи.
Упоминание Джордж Лайона также не связано с фактической страницей Википедии о его жизни, которая находится по его полному имени: «Джордж Фрэнсис Лайон». Запись о нем, в свою очередь, не дает никаких упоминаний о Тажари, только о Триполи и Мурзуке. Анализ данных Википедии, который определяет только те страницы, которые связаны с другими страницами (что является одним из распространенных способов анализа Википедии) пропустит эти связи. Кроме того, исследователь жизни Лайона может найти его запись, но пропустит его связь с Тажари и прочей информации о его жизни, разбросанной по Википедии, но не связанной с его записью.
Тем не менее, через Google Earth, можно увидеть, что происходит по всей Ливии, взяв каждую запись во всей Википедии, чтобы обеспечить контекст для посещения Лайона, а использование такого подхода облегчило бы создание новой версии, которая фильтрует результаты, чтобы в дальнейшем отображать только упоминания, связанные с Лайоном. Это иллюстрирует ограничения использования связей данных или других метаданных, чтобы исследовать большую библиотеку текстов и важность изучения самого содержания, а также уникальный опыт и знания, возможные при выходе за пределы традиционного текстового поля для изучения коллекций во времени и пространстве.
О SGI
Компания SGI является признанным лидером в технических вычислениях, компания ориентирована на оказание помощи клиентам в решении их самых требовательных деловых и технологических проблем. Для получения дополнительной информации посетите наш сайт sgi.com.
О Минимакс
Компания Минимакс с 2012г. выполняет функции центра компетенций, дистрибутора, регионального склада запасных частей (Россия и СНГ) и центра технической поддержки по продукции и решениям SGI.