МедиаВики как исследовательская среда

Материал из Letopisi.Ru — «Время вернуться домой»
Перейти к: навигация, поиск


Preferential Attachment02.png


Страницы МедиаВики формируют Scale-free network - безмаштабную сеть, где распределение связей узлов - степенное и основные свойства сети не зависят от размера сети. Социальные, коммуникационные сети, документы WWW, биологические и другие системы хорошо моделируются безмасштабными графами.


Изучение сетевых феноменов Сеть, как отдельная категория информатики, обозначает нестабильное, развивающееся множество различных элементов, разными способами связанных между собой. Множество различных компьютеров и разнообразных электронных устройств, объединенных при помощи разнообразных связующих каналов, представляют впечатляющий, но далеко не единственный пример сети. Изучение Сети как самостоятельного объекта исследования началось совсем недавно. Развитие компьютерных сетей стимулировало создание нового научного направления, которое в качестве своего основного предмета рассматривает сетевые феномены в различных областях человеческой деятельности. Интерес к сетевым феноменам был продиктован, прежде всего, развитием компьютерной сети Интернет. Дальнейший рост популярности сети был связан с созданием Всемирной Паутины – всемирной коллекции взаимосвязанных гипертекстовых документов. Можно утверждать, что сеть является, прежде всего, информационной категорией или, если пользоваться терминологией Ершова, натуральной сущностью информатики. Именно с развитием компьютерных технологий для такого сложного объекта как сеть были созданы адекватные вычислительные средства. Общие закономерности сетевых образований, методы их описания и анализа представлены в работах Ласло Барабаши (Barabasi A.-L., 2002).

Примеры сетей:

  • компьютерная сеть Интернет;
  • сети транспортных перевозок;
  • сети поселений;
  • сети киноактеров;
  • сети научных публикаций;
  • сети брачных объявлений;
  • террористические сети;
  • сети распространение инфекционных заболеваний;
  • вирусные и спаммерские сети.

Оказалось, что все протекающие в сетях процессы, будь то процессы метаболизма, распространение инфекционных заболеваний, поведение групп людей и животных, развитие сети Интернет и сети Web-документов, имеют между собой много общего. Все перечисленные образования являются сетями, внутри которых работают общие принципы и стратегии. Известным феноменом определяющим формирование безмасштабных сетей является предпочтительное присоединение (preferential attachment), когда новые узлы сети чаще присоединяются к тем узлам, которые уже имеют наибольшее число связей – обладают наибольшей известнгостью и популярностью. Пример топологии такой безмаштабной сети сети представлена на следующем рисунке. Для создания рисунка использована среда NetLogo и NetLogo Preferential Attachment model (Wilensky, U. 2005).



Preferential Attachment.png
Картинка взята из модели НетЛого - http://ccl.northwestern.edu/netlogo/models/PreferentialAttachment

Далее следует анимированный граф весом около 1 мгб
Pref-attachment6.gif

Правки статей

Феномен формирования сети за счет предпочтительного присоединения новых узлов к наиболее популярным узлам сети может быть продемонстрирован и на материалах самой летописи. Если мы рассмотрим частоту правок статей «Летописи», то увидим распределение соответствующее безмаштабной сети. Огромное количество статей с небольшим количеством правок и очень небольшое число популярных узлов.

Таблица и график на Гугл

Количество правок Количество статей
5 - 9 1157
10 - 14 619
15 - 19 315
20 - 24 182
25 - 29 141
30 - 34 113
35 - 39 62
40 - 44 32
45 - 49 35
50 - 54 18
55 - 59 16
60 - 64 17
65 - 69 5
70 - 74 5
75 - 79 9
80 - 84 10
85 - 89 5
90 - 94 4
95 - 99 7
100 - 104 1
105 - 109 2
110 - 114 5
115 - 119 2



Pravki-let-06-05-07.png
Данные на 6 мая 2007 года


Распределение статей по числу ссылок

Тот же феномен предпочтительного присоединения к популярным узлам сети может быть продемонстрирован при сравнении числа обратных ссылок (backlinks), которые характеризуют каждую статью коллективного гипертекста (Рис. 3). Как показывает диаграмма – распределение обратных ссылок внутри гипертекста носит крайне неравномерный характер, свойственный безмаштабной сети – большинство статей связаны с очень не большим числом других документов и только небольшое количество статей действительно популярны и с ними связано множество других документов.

Таблица и график на Гугл


Количество ссылок Количество статей
3-4 1619
5-9 1003
10-14 303
15-19 89
20-24 222
25-29 26
30-34 26
35-39 44
40-44 14
45-49 11
50-54 6
55-59 5
60-64 5
65-69 3
70-74 5
75-79 0
80-84 3
85-89 2
90-95 2



Back-links1.png



Back-links2.png

Используя записи и связи, существующие внутри базы данных коллективного гипертекста, мы можем анализировать вклад отдельных участников, динамику роста страниц, вклад отдельных категорий и т.д. Самое главное – мы можем вовлекать студентов в реальную сетевую исследовательскую деятельность.

Программа Графвиз может быть использована не только для внедрения графических элементов внутрь текста статьи МедиаВики, но и для представления отношений между категориями в форме дерева категорий. Важно, что это полностью автоматизированная процедура и расширение МедиаВики по представлению графических связей между категориями выполняет все необходимые действия, используя данные, лежащие в пространстве имен-категорий. Программа самостоятельно представляет на экране отношения между категориями. Благодаря программе GraphViz мы можем увидеть все категории и кластеры категорий, существующие в МедиаВики в настоящий момент. Например, на следующем рисунке программа графвиз представляет категории, которые входят в категорию «История» и категории верхнего уровня, в которую авторы включают категорию «История».
Wiki-history.png
см. Категория:История

На следующем рисунке представлена категория «Информатика».
Informatika.png
см. Категория:Информатика

Персональные инструменты
Инструменты