Процедура извлечения редакторов вики-страницы

Материал из Letopisi.Ru — «Время вернуться домой»
Перейти к: навигация, поиск

Извлечение названий страниц

Строки

  • Главная страница ‎(772 219 просмотров)
  • Текущие события ‎(76 297 просмотров)
#!/usr/bin/perl
open (DATA,"pages.txt") || die ;
while (<DATA>) {
s/\s+\S+\(\d.*$// ;
chomp ;
print "\"$_\"\;\n" ;
}

Надо, чтобы оставалось только:

  • Главная страница
  • Текущие события

Извлечение редакторов статьи

  • (текущ.) (пред.) 22:11, 13 марта 2010 Тимохина Евгения (Обсуждение | вклад | заблокировать) (10 636 байт) (отменить)

Из этого нужно оставить только имя участника (то, что после четырехзначной даты + пробел) и до пробел (Обсуждение

Потом подсчитать сколько раз встречается это имя в строке
while (<DATA>) {
s/\s+\(Обсуждение\s+.*$// ;
s/^\(.*\d\d\d\d\s+//;
chomp ;
$editors{$_}++ ;
}
foreach $person (sort keys %editors) {
print "\"User:$person\" -> \"Гипертекст\"\;\n";
}
Персональные инструменты
Инструменты