Abstract:
An interview with Misha Melnichenko, Director of the Center for ego-documents study “Prozhito” at the European University at St. Petersburg. The interview for Public History Weekly was conducted by Andrei Volodin and Irina M. Savelieva.
DOI: dx.doi.org/10.1515/phw-2021-19253
Languages: Pусский, English
«Прожито» (prozhito.org) — электронная библиотека датированных личных записей, которая позволяет пользователям работать не только с конкретными дневниками, но и всей совокупностью текстов эпохи: получать выборки по датам, полу, возрасту, месту ведения дневника. Корпус включает тексты на русском и украинском языках. Аннотировано более 6 000 авторов, загружены дневники 2 000 из них, около 500 дневников опубликованы на страницах проекта впервые. Общий объем корпуса — более полумиллиона подневных записей XVIII-XX веков. Интервью с Мишей Мельниченко, руководителем Центра изучения эго-документов «Прожито» Европейского университета в Санкт-Петербурге, провели Ирина Максимовна Савельева и Андрей Володин 2 ноября 2021 г.[1]
Что такое «Прожито»?
Андрей Володин: Здравствуйте! Это интервью с Мишей Мельниченко о замечательном цифровом проекте «Прожито»[2] мы берём для специального выпуска электронного журнала Public History Weekly, который будет посвящён российским проектам, российским наблюдениям о публичной, цифровой истории, потому что сейчас очень часто «публичность» и «цифра» сливаются, превращаясь в “digital public history”. Ирина Максимовна, передаю слово Вам.
Ирина Савельева: Миша, я хочу в начале сказать, что я действительно благодаря Вам и Вашему сайту «Прожито» изменила, может быть не надолго, своим увлечениям теорией, которые длятся уже полвека, и занялась изучением дневников, просто потому, что коллекция, которую Вы собрали, по масштабам, по репрезентативности, по удобству пользования ею, она просто предоставляет уникальные возможности, и я читаю, увлеклась дневниками настолько, что поняла, что я не могу не написать о них. И я хотела бы, чтобы в начале Вы просто рассказали об истории работы с сайтом, как возникла идея, как начался проект «Прожито». Наши читатели могут не знать об этом сайте, и важно, чтобы они поняли не только какой он в данный момент, но и как это всё складывалось.
Миша Мельниченко: Да, сайту сейчас около 6 лет. 6 лет назад я с группой друзей и единомышленников решили создать текстовый корпус личных дневников. Моя идея вырастала прежде всего из желания сделать поисковый инструмент для историков, вернее, чтобы у всех желающих была возможность работать с личными текстами, привязанными к хронологии, и была возможность смотреть, что в своих личных дневниках в разных регионах записывают люди по тому или иному поводу. Однако, за 6 лет существования проекта он претерпел довольно серьёзные изменения, стал гораздо больше, чем просто поисковый инструмент по личным дневникам. Сначала мы ориентировались только на опубликованные дневники, позже нам стали приносить дневники, которые прежде никогда не публиковались. Сейчас наш корпус представляет собой собрание из двух с половиной тысяч дневников за три века существования традиции ведения дневника на русском языке, и объём этого корпуса – около 550 тысяч дневниковых записей. У корпуса есть очевидный крен в XX век, то есть советский период у нас закрывается дневниковыми записями гораздо плотнее, чем XIX и тем более XVIII века. Важная часть этого проекта, это то, что мы с самого начала развивали его как волонтёрский, то есть было понятно, что мы не можем справиться сами, что мы замахнулись на довольно большой объём работы. Мы придумали несложные регламенты подготовки текста к публикации у нас в корпусе, и ещё до открытия сайта стали искать волонтёров. У нас их было больше тысячи, сейчас у нас есть договоры с разными российскими вузами, которые присылают нам студентов для прохождения практики или проведения годичных проектов. И силами многих и многих сотен участников мы расшифровываем большие объёмы рукописей, сверяем их, после размечаем их нашей несложной разметкой и регулярно вводим в оборот новые дневники. Сейчас к дневникам добавились ещё и воспоминания, потому что год назад мы начали работать с мемуарными текстами.
Цифровая природа корпуса: расшифровка и разметка
Савельева: Можно один уточняющий вопрос: что значит «расшифровка дневников» у Вас, что входит в эту работу?
Мельниченко: Мы работаем с материалами двух типов. Это рукописи, которые прежде не публиковались, и уже существующие публикации. У них немножко разные рабочие процессы подготовки. Вот расшифровка – это в тот момент, когда мы узнаём о какой-то рукописи, наша задача – получить её цифровую копию. Её могут сделать и владельцы рукописи, но чаще мы берём рукопись и привозим её к нам в научный центр «Прожито» в Европейском университете, сканируем, после чего координатор волонтёров разделяет её на небольшие фрагменты и отправляет для расшифровки. Мы пишем про эту рукопись волонтёрскую рассылку, отправляем в наши социальные сети, и на неё начинают записываться наши волонтёры, которые готовы провести черновой набор рукописей в электронный вид. После того, как мы собираем эту черновую расшифровку, мы ищем редактора – волонтёра, который ещё раз прошёлся бы по всей рукописи и попытался бы прочитать неразобранные места и попытался бы сверить её построчно с рукописным текстом. После этого мы утверждаем этот текст у наследников или владельцев рукописи и уже публикуем у нас в корпусе.
Володин: У меня также уточняющий вопрос в связи с процессом: что такое «несложная разметка», на что она ориентирована, что основное выделяется (кроме, понятно, дат)?
Мельниченко: Самое основное – это, конечно, даты. Потому что хронология – это такая линейка, по которой мы синхронизируем все наши тексты. И первая поисковая функция – это поиск именно по датированным текстам. Мы также пытаемся указывать локацию, в которой сделана дневниковая запись. И последние полтора года мы довольно серьёзно занимались выделением упомянутых персон. То есть у нас есть база упоминаемых людей, около 200-300 текстов у нас уже есть с выделенными персонами. И эти 200 или 300 текстов дали нам около 60 тысяч упоминаемых персон. Однако сейчас у нас в коллективе идёт дискуссия о том, не приостановить ли нам этот процесс на время, потому что волонтёры не очень справляются. Волонтёрам довольно трудно это даётся. И мы хотим на время сделать паузу с разметкой персон. Поскольку мы начали работать с воспоминаниями, то воспоминания отличаются от дневникового текста тем, что у них нет чёткой хронологической привязки по времени создания. Дата создания воспоминаний вообще мало что даёт, потому что речь идёт скорее о датировке описываемого авторского опыта. И мы сейчас в нашу разметку ввели два типа датировки: по времени создания текста и по описываемому опыту. Для того, чтобы и воспоминания можно было привязать к поиску по хронологии.
Володин: Тогда получается, это уже буквально исследовательская работа, потому что надо атрибутировать, прочитав и поняв уже, о чём речь?
Мельниченко: Всё верно. Но да, это те вещи, которыми занимаются волонтёры. С этим они справляются довольно неплохо. Но другое дело, что для нас не очень принципиальна супер точная датировка. В этом смысле нам вполне достаточно приблизительной, для того, чтобы, условно, хотя бы разбросать эти тексты по десятилетиям.
Кто такие волонтеры «Прожито»?
Володин: Вот сейчас самое частотное слово было «волонтёры». Понятно, что видимо они разные. Кто-то занимается черновой работой, кто-то редактирует, кто-то загружает материалы. Можно рассказать о них подробнее: кто они, сколько их, какие они?
Мельниченко: Да, мы сразу открывались как волонтёрская организация. Первые годы существования организации были золотым веком волонтёрства. Потому что в тот момент, когда мы представляли собой что-то новое, и мы были в новинку, у нас люди желающие с нами поработать писали нам буквально каждый день. Первый год – это 360 волонтёров! И вместе с ними наши правила подготовки текста вырастали из нашего опыта с волонтёрами. Начинали мы с чего-то одного, потом довольно сильно корректировали правила, ориентируясь на реальный опыт взаимодействия. В итоге первые несколько лет у нас была огромная волонтёрская армия — это люди, которые были готовы принимать участие абсолютно во всём. Они и расшифровывали рукописи, и размечали тексты, и были волонтёры, которые были готовы сканировать для нас книги, то есть с нами сотрудничали несколько работников российских библиотек, которые просто заказывали редкие публикации, до которых сложно дотянуться, и фотографировали их или сканировали под распознание. Позже этот волонтёрский поток несколько сузился, потому что, мне кажется, это связано с тем, что, с одной стороны ушёл эффект новизны, с другой – у нас несколько усложнились правила подготовки текста, но тем не менее у нас продолжали работать старые волонтёры и всё-таки с какой-то регулярностью появляются новые участники. Это очень разные люди. Мы в какой-то момент делали исследование наших волонтёров: наше волонтёрское сообщество преимущественно женское, оно не очень привязано к России, потому что у нас принимают участие русскоговорящие люди из самых разных стран мира – выходцы из России и стран бывшего СССР – география от Вашингтона и до Ханоя, и вот сейчас мы, для какой-то диверсификации наших рабочих сил, мы стали работать с вузами. Во-первых, с нами довольно прочно сотрудничают студенты нашего родного Европейского университета, но и кроме того, мы стали местом прохождения удалённой практики в России, особенно последние полтора года очень сильно увеличился поток студентов. В прошлом учебном году у нас было около 500 студентов-практикантов со всей России. Силами одного студента практиканта можно подготовить расшифровку одной рукописной тетради. То есть наша мощность – это примерно 500 рукописных тетрадей в год.
Савельева: Миша, спасибо. Студенты – это возможно очень сильная идея! А есть студенты магистерских программ по публичной истории, которые в России существуют? И если есть, то их присутствие как-то видимо или они так, растворяются среди всех остальных? Есть ли на самом деле сотрудничество с программами по публичной истории?
Мельниченко: С нами сотрудничают несколько коллег из Европейского университета, которые занимаются публичной историей, и в том числе среди наших сотрудников есть люди, которые исследуют эту тему. Участие студента-практиканта – оно во многом техническое, то есть проекты, на которые они подписываются, это проекты, связанные с оцифровкой и публикацией документов. Но если смотреть не рабочее участие, в просто научные коммуникации, то да, по корпусу «Прожито» писались и пишутся исследовательские тексты, связанные особенно с волонтёрским участием в нашей работе, но, если я не ошибаюсь, в основном это обзорные тексты о российских проектах в целом, и по-моему, таких исследовательских текстов, посвящённых конкретно нашему проекту, я сейчас не видел.
Онлайн-жизнь «Прожито»: цифровая этнография
Савельева: Можете дать цифровое описание проекта —уже как сайта: количество подписчиков, показатели читаемости, может быть, показатели каких-то конгломераций текстов, которые читаются наиболее активно? Как мы это называем, цифровая этнография.
Мельниченко: Да. У меня есть сведения на весну 2021 года. Сейчас на сайт загружено около 2,5 тысяч текстов, их объём сильно больше полумиллиона дневниковых записей и около 250 мемуарных текстов. Количество подписчиков в социальных сетях – у нас есть несколько сообществ: и витринных, и внутренних для общения волонтёров. По-моему, около 27 тысяч человек на нас подписаны, по всем сообществам во всех социальных сетях. Посещаемость сайта варьируется в среднем около 300–400 человек в день. И что касается материалов, которые у нас читаются, то есть о популярности наших материалов, наверное, лучше судить по популярности постов в социальных сетях на ту или иную тему, то есть что конкретно ищут у нас на сайте мне сейчас сложно сказать, а вот популярностью в социальных сетях пользуются вещи, связанные, во-первых, с социальными катастрофами XX века. Большой резонанс всегда вызывают темы, связанные с Блокадой Ленинграда, с Большим террором и с Войной, и кроме того, а также некоторые вещи, связанные с, условно, подростками, описаниями чувств, вызывающие у аудитории какие-то, возможно, сентиментальные чувства.
И кстати, нужно сказать, что такие темы, как Большой террор или Блокада –лучше находят волонтеров, то есть на дневники, связанные с этими темами, проще найти участников для подготовки к публикации. Есть даже волонтёры, которые специализируются по определённым темам, и мы знаем, к кому пойдёт тот или иной дневник, если его тематика сразу бросается в глаза. Писательскими дневниками у нас долгое время занимался один из наших постоянных участников. На блокадные дневники у нас всегда большое сообщество и всегда большой запрос. То есть блокадные дневники у нас буквально распределяются по участникам в тот день, когда мы получаем рукопись. То есть с ними вообще нет никаких промедлений.
Володин: У меня тогда вопрос в связи с тем, что дневники бывают очень разные. Одни продолжительные – кто-то всю жизнь пишет, кто-то немного. Мне всегда импонировал подход к тому, что платформа устроена вообще для дневников в принципе. Но тем не менее, есть, наверное, какое-то внутреннее отношение к тем дневникам, которые важнее, которые нужно быстрее загрузить, например. Или такого вообще нет и все дневники – главное, что дневники?
Мельниченко: Наша платформа в целом для дневников, и наша сильная сторона – это что мы не ограничены каким-то рамками, например, бумажной книги. То есть безразмерные дневники, которые ведутся по 60 лет и рукописи, которые весят многие десятки килограмм, они помещаются к нам с такой же лёгкостью, как коротенькие дневники, которые занимают одну тетрадку. И с нашей позиции между этими дневниками не такая большая разница, потому что дневник молодого человека и дневник пенсионера, который много лет переписывает газеты, например, на досуге, они всё равно одинаково интересны с исследовательской точки зрения, потому что мы никогда не знаем, с какой линейкой подберутся к ним наши пользователи. Может быть, им интересно не содержание, а описываемый опыт, а лингвисты, которые работают с нашим корпусом, они одинаково заинтересованы и в тех, и в других текстах. Но определённое ранжирование у нас есть. Естественно, мы пытаемся скорее вводить в оборот тексты, которые прежде не публиковались. Если мы выбираем между тем, чтобы загрузить к нам в корпус уже опубликованные отдельной книгой дневник и загрузить к нам в корпус прежде не публиковавшуюся рукопись, приоритет будет у рукописи. И есть ещё довольно много личного в ранжировании материалов, потому что какая-то часть дневников приходит к нам из классических архивов, из музеев, из библиотек. Иногда дневники приходят с помоек и, условно, за этими рукописями нет людей, перед которыми мы несём человеческую ответственность за скорейшее появление текста. Если рукопись приходит, например, из семьи, а нам довольно часто передают дневники сами авторы, часто довольно уже не молодые, иногда мы серьёзно сотрудничаем с семьёй в деле публикации дневника, и если речь идёт о работе с пожилым человеком, у которого, вероятно, не так много времени на то, чтобы дождаться публикации этого дневника, то мы естественно будем стараться, чтобы этот дневник оказался у нас на сайте побыстрее. Но при этом надо сказать, что работаем мы довольно медленно, потому что на то, чтобы организовать расшифровку и сверку рукописи, особенно если эта рукопись из нескольких блоков, тетрадей или блокнотов, для того, чтобы сделать это волонтёрскими силами или для того, чтобы сделать это вместе со студентами, часть из которых работает абсолютно идеально, а часть просто хочет получить свою тройку и закрыть этот проект. У нас довольно часто фрагменты рукописей могут зависнуть, остановиться, и нужно много менеджерского участия в том, чтобы рукопись дошла до финала. Поэтому даже небольшие рукописи мы часто публикуем по несколько месяцев.
Савельева: А менеджеры тоже могут быть волонтёрами, или это уже Ваша команда?
Мельниченко: Нет, менеджеры – это уже наша команда. У нас есть несколько координаторов волонтёрских, каждый из которых ведёт по паре сотен проектов.
Савельева: Вы создали сайт, он стал уже известным и очень много посещений, а насколько Вы можете отслеживать и знаете ли, например, о том, как уже использовали этот сайт в академических исследованиях или, например, в каких-то публичных мероприятиях?
Мельниченко: Да, безусловно, результаты хорошо видны, и это мотивирующая и поддерживающая вещь. Во-первых, самое бросающееся в глаза – это использование сайта просто в какой-то научно-популяризаторской деятельности. Мы довольно популярны у медиа, то есть мы регулярно сталкиваемся с тем, что кто-то цитирует наши материалы и, поскольку мы общедоступный проект, не требующий регистрации, мы регулярно сталкиваемся с тем, что люди используют наши материалы, не ссылаясь на проект. При этом используя наши конкретные первые публикации, и первое время это немного смущало. Сейчас это скорее радует, потому что мы уже превратились в ландшафт, к нам все привыкли, мы стали для всех, для большого количества акторов каким-то привычным инструментом, на который даже не приходит в голову иногда мысль сослаться. Постоянно с нашим участием или без нашего участия выходят подборки дневниковых записей в разных бумажных и электронных медиа. Мы часто сталкиваемся с какими-то формами благодарности в исследовательских статьях. Например, есть исследования о круге чтения советских подростков 1920-х годов по материалам «Прожито». И я знаю, что сейчас параллельно ведётся ещё несколько подобных исследований. И что касается обратной связи, то конечно, самым эмоциональным, самым поддерживающим нас откликом становится отклик от семей, от авторов, наследников и семей, которые передают нам материалы. Поскольку с большим количеством людей у нас общие задачи, и люди, которые с нами работают, часто воспринимают публикацию дневников своих близких как какой-то своеобразный памятник им. Поэтому всякий раз, завершая какой-то очередной проект и публикуя дневник или в электронном виде, или где-то на бумаге, мы иногда сталкиваемся с развёрнутыми описаниями работы с нами со стороны наследников и авторов. И это всегда очень сильное переживание, потому что для людей довольно важно то, что мы работаем с документами из их семейных архивов.
Почему «Прожито» по-русски?
Володин: Мы сейчас говорили о содержании, а у меня вопрос про платформу. Есть ли, допустим, запросы в других странах, загрузить дневники на других языках, или есть ли, например, какие-то международные проекты-конкуренты? Есть ли какие-то альтернативные варианты создания таких корпусов?
Мельниченко: Да, мы работаем в основном с русскоязычными материалами, но у нас есть разделы на украинском, белорусском языках, и сейчас мы несколько месяцев с коллегой из Казахстана, историком Дамиром Сатаровым готовили языковой раздел на казахском языке. И в этих языковых разделах не так много материалов. Вообще понятно, что для того, чтобы обрабатывать текст на определённом языке, нам нужны не только волонтёры, которые готовы с этим языком работать, но и координатор волонтёров, который является носителем языка, и ещё лучше — живёт в стране с языком, с которым мы взаимодействуем. Так что эти разделы во многом используются просто как библиографические указатели. Мы заводим страницу на всех авторов дневников, о которых мы узнаём и пытаемся загружать дневники на этом языке, но чаще всего, если кто-то берётся за дневник на украинском языке, то скорее всего это волонтёр-билингва, и в какой-то момент русский материал всё равно утягивает к себе, потому что там эти языковые разделы обычно не превышают 150 текстов, значит это довольно небольшой выбор. В русскоязычном разделе у нас всегда полторы-две тысячи текстов стоят в очереди на обработку, и там есть абсолютно всё и гораздо проще найти что-то конкретное себе. И что касается каких-то наших дальнейших технических планов, регламентов и вещей, связанных с похожими проектами за рубежом, мы сейчас стоим перед необходимостью полного переформатирования нашей работы, потому что мы хотим запускать новый архивный проект, который бы позволил нам, во-первых, работать не только с текстами, но и с рукописями, и показывать нашим пользователям оригиналы и копии оригинальных рукописных страниц, и во-вторых, мы хотим выбраться из границ текстового корпуса и начать работать с материалами разных жанров. И что касается зарубежных проектов, то аналогов нашему корпусу дневников и воспоминаний людей с разными социальными траекториями мне найти не удалось. А аналогов тому проекту, который мы сейчас планируем запускать (архивному), довольно много, это конкретные электронные проекты, посвящённые конкретным архивам или собраниям документов.
Савельева: Миша, а что Вас подталкивает к такой вот жанровой экспансии? То есть Вы начали с дневников, и довольно долго казалось, что у Вас не иссякает это поле деятельности. При этом Вам захотелось заняться ещё и воспоминания, и публикации архивных материалов. Почему это произошло?
Мельниченко: Наверное, мне кажется, что один из важных факторов – это общественный запрос, потому что люди приносят нам абсолютно всё и спрашивают, что с этим делать. Например, запрос на публикацию воспоминаний – он даже больше, чем на публикацию дневников. Часто с дневниками люди сомневаются и берут какую-то паузу, чтобы подумать, как бы, условно, дедушка отреагировал на публикацию его дневников. И эта пауза для подумать – она в случае мемуарных воспоминаний гораздо меньше. Потому что мемуары, очевидно, создаются сразу для внешнего читателя. И люди приносят нам большие корпуса переписок, приносят нам семейные альбомы, и часто речь идёт даже не о желании опубликовать, а просто о желании сохранить. Например, семья переезжает в другой город, у неё нет возможности везти с собой 100-килограмовый архив, они не понимают, что с этим делать. Государственных архивов или учреждений, которые готовы были бы с этим работать, практически нет, потому что там архивы очень ограничены в средствах и длина архивной полки не бесконечна. И поэтому первые годы, была необходимость постоянно отказывать людям, что нет, мы не можем работать с таким материалом, безусловно он интересен, мы чувствуем, что он важен, совершенно очевидно, что на него есть запрос у исследователей, но вот мы сейчас ничего не можем сделать. И в таком режиме было жить довольно утомительно, просто хочется занять это поле и стать проводником, который помогает материалам из семейных архивов попадать в какое-то более широкое поле.
Личные архивы: новые вызовы для «Прожито»
Володин: Ну, здесь речь тоже всё равно о личных, семейных документах, получается —в этом новом проекте?
Мельниченко: Да, то есть проще всего нам сейчас выстраивать отношения с семьями, потому что с государственными архивами немного другие отношения, то есть у нас много партнёров в государственных учреждениях, но всё равно в целом классический архив не очень заинтересован в том, чтобы материалы из него где-то на стороннем проекте массово появлялись. Но содержание семейного архива оно может быть очень разнородное. И если мы приходим в это поле, то нам совершенно очевидно придётся работать не только с рукописными материалами, но и с визуальными. И мы сейчас как раз-таки должны с коллегами договориться с регламентом работы. Что делать с дневниками, воспоминаниями и письмами – более-менее понятно, а вот по фотоматериалам, фотоальбомам, рисункам у нас пока нету консенсуса.
Савельева: Я сейчас подумала, в связи со сбором всего, что можно собрать, в том числе личных коллекциях, что довольно много пишут сейчас теоретики о проблеме архива. Проблема архива не как места, где складываются документы, а как места, где складируется историческая память, довольно много пишут о том, что в связи с дигитализацией, новыми возможностями, все пытаются сохранить всё. Не только политические партии или политические объединения, но и любые группы людей, в том числе и частные лица, пытаются сохранить всё, и всё это переправить в будущее, потому что технические возможности всё больше и больше для этого. При этом часть вот таких теоретиков сомневается в принципе в том, что общество должно всё сохранять, потому что проблема забывания в психологии человека и в сознании исторического общества, это проблема функциональная. Что-то надо забывать для того, чтобы не жить вот в таком обилии информации в будущем. А как Вы к этому относитесь? Понятно, что Вы наверное сторонник того, чтобы сохранять всё, если такую позицию можно выразить более абстрактно.
Мельниченко: Вы знаете, передо мной стоят очень инструментальные задачи, и есть одна простейшая вещь: то, что забыто, уничтожено, оно больше не существует. И я естественно сторонник того, что всё должно быть сохранено, но при этом у человека, у общества есть право что-то забывать. Условно, я за осознанное забывание, что мы должны создать определённый массив данных, использовать его или не использовать, а если использовать, то с какими задачами? Пусть каждый решает для себя сам.
Володин: Здесь возникает ещё вопрос. Я помню, с ним всегда выступали в обсуждении «Прожито» в начале существования проекта. В какой мере, когда у нас такой естественный сбор документов (то, что иногда даже называют естественной выборкой), как мы можем говорить о том, репрезентативно это, случайно, или мы работаем с некоторыми «кейсами»… Как выявить это изнутри? Когда корпус создается, всё равно возникают критерии отбора, оценки. Возникают разные «почему? —как Вы отвечаете на них для себя со своими координаторами, менеджерами, волонтёрами?
Мельниченко: Мы работаем с текстами людей, которые умели писать. Мы работаем с текстами людей определённого круга, определённого культурного уровня. В нашем архиве всегда скорее лучше будут представлены горожане, крестьян у нас будет мало. Понятно, что из Москвы, Ленинграда у нас всегда на порядок больше материалов, чем из других городов, пока мы не начнём активно работать в других регионах, что мы, кстати, тоже уже пытаемся делать. И мы работаем только с теми семьями, которые разделяют наши ценности и считают, что документы, которые у них хранятся, представляют какую-то ценность для большой истории. Поэтому те семьи, которые предпочитают существовать в каком-то закрытом режиме, которые не хотят делиться этими документами, мы не ведём к ним подкопа и не уговариваем делиться с нашими документами. Из всего этого вырастает некая несбалансированность архива или текстового корпуса, которая ещё усугубляется тем, что документов у нас становится больше, чем мы можем полностью обработать. То есть раньше мы делали текстовый слой практически ко всем рукописям, которые к нам попадали. Сейчас, поскольку мы расширяем поле деятельности, понятно, что быть полностью расшифрованной, размеченной, может только определённая часть нашего собрания. И тут наша задача — расшифровывать тексты в темпе роста цифрового архива. А остальное давать хотя бы в каком-то описанном виде для того, чтобы была возможность навигации по этим материалам. Может быть, не полнотекстовый поиск. Может быть, это наша невозможность обработать всё, что у нас имеется, а прежде всего то, что интересно скорее нашему волонтёрскому сообществу, — это и есть одна из форм реализации права на запоминание. То, во что люди не готовы вкладывать свои силы, то, что как-то не отзывается у них в сердцах настолько, что они готовы проводить за этим вечера и выходные, возможно, раз на это меньше запрос, значит эти документы будут лежать и ждать своего часа, может быть, они его никогда и не дождутся, но по крайней мере у нас будет их цифровая копия. И даже в случае, если с оригиналом что-то случится, цифровая копия скорее всего сохранится.
Савельева: Спасибо. Скажите, какие есть претензии у академических историков, у тех, кто занимается прежде всего эго-историей, к тому, как Вы работаете с этими материалами? То есть что Вы выкладываете, как Вы дешифруете, как Вы в общем обрабатываете материал, который выкладывается уже в качестве готового для чтения?
Мельниченко: У меня есть ощущение, из того, что я сам хорошо знаю, что основная претензия к нам — это по качеству работы. Дело в том, что мы во многом перпендикулярны классической публикаторской школе, кропотливой, с идеально выверенным текстом и с хорошим, реальным комментарием. Мы работаем с большими массивами данных, у нас конвейер, и на этом конвейере работают люди, которые не являются профессиональными текстологами. Помимо этого, мы довольно много работаем с молодёжью, а молодёжь даже не всегда справляется с какими-то специальными словами из советского языка. И 20-летний волонтёр может не прочесть слово «райисполком», потому что он его уже не знает. Мы наши публикации считаем скорее текстовым слоем к документам, который облегчает полнотекстовый поиск по самим документам, и мы не считаем, не позиционируем себя как платформу с академическими публикациями текстов. И в правилах цитирования наших документов мы всегда проговариваем, что если вы собираетесь это цитировать, то обратитесь или к первой публикации, или если это наша первая публикация, то свяжитесь с нами и попросите у нас доступ к оригинальной рукописи. Лучше перепроверьте! Потому что процент ошибок у нас безусловно больше, чем в среднестатистической бумажной публикации дневника. Что касается выборки, пожалуй, не знаю.
«Прожито» как платформа для исследователей
Володин: А если посмотреть на дневники, как на возможность выстроить какую-то хронологию процессов по частотности слов или увидеть некую диахронную картину за два века. Такого рода исследований не было? Всё в основном концентрируется на конкретных сюжетах и конкретных периодах? Не было попытки увидеть какую-то большую картину? Потому что я знаю большой интерес к «Прожито» со стороны лингвистов, не было, например, идей сделать тематическое моделирование всех десятилетий XX века?
Мельниченко: Из таких небольших исследований последнего времени, коллеги из Яндекса сейчас повели сравнение словоупотреблений из Яндекс.Дзена и из корпуса «Прожито». Они смотрели, какие слова уникальны для какого корпуса и пытались сделать список недавно появившихся в русском языке слов и список слов, выходящих из употребления. То есть какие слова из корпуса «Прожито» не попали в корпус Яндекс.Дзена. Но это не столько академическое исследование, скорее популярное для широкой аудитории. А что касается каких-то больших процессов в нашем корпусе, то мы сейчас занимаемся этим сами. Мы это делаем в партнёрстве с другим научным центром Европейского университета в Санкт-Петербурге, с исследовательской программой «ПАНДАН» – прикладной анализ данных – и с коллегами из центра МАСТ (машинного обучения, анализа данных и статистики) Европейского университета. У нас есть коллега – Кира Коваленко, которая сейчас движется как раз в сторону хорошей описательной статистики по нашему корпусу, из которой мы могли бы делать выводы об особенностях жанра. Хотим посмотреть, чем является дневник для людей разных возрастов, поскольку у коллеги основное образование лингвистическое, то мы абсолютно однозначно в какой-то момент частью нашего исследования сделаем и анализ изменения языка.
Савельева: Интересно, а много ли у вас дневников, которые по типу попадают не в записи ежедневной, жизнь проходящей, а вот как «Записи и выписки», просто с какими-то мыслями, рассуждениями?
Мельниченко: Мне кажется, такого рода тексты у нас есть, по моим ощущениям, их довольно много, но я думаю, что если брать за рамку весь корпус, то статистически их не так много. Вообще, вариативность дневникового текста оказалась очень велика, и дневники могут быть посвящены очень разным вещам. У нас есть мемуарные тексты в формате дневника, когда человек каждый день записывает свои воспоминания о событиях 20-ти или 30-ти летней давности, у нас есть дневники – наблюдения за разными людьми и разными процессами, у нас есть записные книжки, в которых авторы, довольно редко датируя свои тексты, отрабатывают свой литературный стиль. В ведении дневника и в ведении регулярных записей в целом очень много общего. Но, наверное, статистически заметнее всего записи о самочувствии, погоде и прочитанных книгах.
Володин: А какая-то типология есть? В том смысле, что например те, кто пишут большие записи, всегда пишут большие записи, те, кто пишут коротко – пишут коротко; такого рода закономерности не рассматривали?
Мельниченко: Как раз этим мы сейчас занимаемся. К примеру, одна из закономерностей — мужской дневник. Такой дневник встречается гораздо чаще, чем женский дневник, так как один женский дневник у нас на три мужских. Мужской дневник имеет шансы вестись на протяжении долго времени, на протяжении всей жизни, и в нём будет больше записей, чем в женском дневнике, записи будут менее развёрнутыми. Вот сейчас мы как раз с коллегами охотимся за такими закономерностями и пытаемся их описать на материале анализа всего корпуса. Моя коллега Кира Коваленко, выпускница первого выпуска «Пандана», и теперь она наша сотрудница, вместе с которой мы ведём это исследование.
Савельева: Сколько дневников Вы прочитали сами? Как Вам кажется?
Мельниченко: Мне кажется, что большую часть дневников я прочитал ещё до работы над «Прожито», потому что у меня были исследовательские интересы, связанные с поиском текстов в дневниковых записях. Я искал записи политических анекдотов и тогда, когда работал над показателями сюжетов политических анекдотов, я нашёл их около 600, и это были в основном анекдоты 20-х годов, когда их активно записывали. Потом, когда я стал первым координатором волонтёров проекта, у меня, к сожалению, что-то сломалось внутри, перегорело, то есть мне сейчас с огромным трудом даётся чтение дневникового текста. Думаю, просто речь идёт более чем о 1000 текстах. А «Прожито» — это попытка создания инструмента, который нужен мне был тогда. То есть с нынешним «Прожито» я бы нашёл в два раза больше записей и анекдотов. Но на этом я работу завязал.
Савельева: Как бы Вы сейчас сказали, какие трудности были, какие Вы преодолели, и какие бы наоборот возникли или непреодолимыми оказываются? Ну, помимо возможности обрабатывать материалы.
Мельниченко: У меня есть ощущение, что из-за того, что проект создавался силами людей с небольшим менеджерским опытом или ограниченным представлением о корпусах, мы с самого начала не очень рационально выстраивали наши отношения с текстами и волонтёрами. То есть вещи, которые по прошествии 6 лет для меня абсолютно очевидны, если бы мы знали их в начале, то смогли бы сохранить ушедших из проекта волонтёров. Мы бы сильно облегчили работу. И мы бы могли гораздо лучше и чётче описывать материалы. Но на самом деле мне кажется, что это просто естественный процесс накопления опыта. Наш новый проект, связанный с цифровой архивистикой в целом, это как раз-таки попытка исправить свои ошибки, которые мы сделали, в текстовом корпусе и которые в рамках текстового корпуса исправлять уже нет смысла, проще сделать уже новый цифровой проект и сделать в нём всё, как должно.
«Прожито»: от текста к документу
Володин: Текст и документ – это разные реальности в цифровом мире. И в какой степени переход от текста, который оказался очень плодотворным именно потому, что он хорошо ищется, как-то структурируется, можно увидеть параметры, к документу, когда он будет описан и когда у него появится текстовый слой, в какой мере это может дать близкий результат?
Мельниченко: Для нас этот переход от текста к документу – это возможность сделать так, чтобы те ошибки, которые мы допускаем в подготовке текста, чтобы они не были критическими, чтобы у любого желающего была возможность перепроверить самостоятельно по копии оригинала всё. И если он достаточно доброжелателен и у него есть 30 секунд поправить эту ошибку, чтобы это можно было сделать сразу на нашей площадке. И одна из вещей, заложенных в наш корпус, которая кажется мне неправильной, что корпус «Прожито» представляет собой список из нескольких тысяч авторов, довольно приблизительно описанных, без какого-то серьёзного научно-справочного аппарата к ним. И действительно такие списки рискуют в какой-то момент превратиться в коллективные кладбища, потому что перед тобой там несколько тысяч чёрно-белых лиц с тремя строками описания. Вот в архиве, который мы сейчас конструируем — там уже совсем другая история, потому что там уже довольно сложная система описания, разноуровневая, и помимо, собственно, раздела с документами, будет ещё раздел с упомянутыми персонами, тематическими коллекциями, будет облегчён заход к каким-то конкретным материалам. То есть мы хотим много инвестировать в то, чтобы это был не просто список документов, но чтобы облегчить исследователю или читателю путь к этому документу через разные сущности, в которых информация из этих документов по-разному описана.
Володин: У меня ещё есть совершенно фантастическая идея, она может быть совершенно не реализуема, но как человек, который определённое время потратил на просопографию и изучение биографий, мне всегда интересно, а возможно ли именно на базе дневников, с сегодняшними цифровыми средствами восстановить биографию человека через записи его дневников?
Мельниченко: По поводу извлечения фактов, мне кажется, всё очень зависит от степени включённости человека в документирование себя. У нас есть авторы, по которым это можно делать уже сейчас и с минимальным количеством усилий. В качестве анекдота: один из авторов – его мать начала вести дневник наблюдения за беременностью, который перерос в дневник наблюдения за младенцем. Вела она его первые 7 лет его жизни, дальше он научился писать, сам понял значимость происходящего. И продолжил материнский дневник: с минус 9 месяцев до 33 лет его жизнь документирована по дню. Свой дневник он нашпинговывает всем, что имеет отношение к прожитому, – то есть фотографиями и сканами всех документов, которые прошли через его руки на сегодняшний день.
Савельева: Я бы спросила о самой главное радости, которую Вы переживаете на протяжении этих лет, константной радости. Наверное, сначала это были просто новые поступления или хорошие расшифровки, а что сейчас?
Мельниченко: Что сейчас? У меня ощущения что это радость от своей работы над чем-то востребованным. В большинстве случаев — большая человеческая поддержка всего, что мы делаем, со стороны и сообщества, и со стороны деятелей в поле общественной архивистики. Это люди, которые сами начинают разбор своих семейных собраний, находят нас, передают свои документы и дальше с нами работают на протяжении нескольких месяцев или нескольких лет, и меня очень мотивирует на всё, что я делаю, плотность и теплота человеческого общения, которой наш проект оказался очень богат.
Володин: Мне кажется, «Прожито» — это правда крайне любопытный пример, что такого рода проект возник в России и фактически не имеет аналогов в мире. Хотя во многих странах распространен краудсорсинг по распознаванию исторических рукописей. Возможно, это свидетельство особой востребованности дневников в публичной сфере в России. Миша, спасибо большое за обстоятельное и душевное интервью!
_____________________
[1] Большое спасибо за подготовку транскрипта интервью студентке кафедры исторической информатики МГУ Александре Ломовой.
[2] Мельниченко М. М., Тышкевич Н. Б. «Прожито» от рукописи до корпуса // Электронный научно-образовательный журнал «История». – 2017. – T. 8. – Выпуск 7 (61) [Электронный ресурс]. URL: https://history.jes.su/s207987840001935-7-1/ (дата обращения: 09.12.2021). DOI: 10.18254/S0001935-7-1
_____________________
Авторы фотографий
Личный дневник Сергея Попадюка © Прожито 2021.
Рекомендация для цитирования
Здраствуйте, Прожито! Корпус русских дневников он-лайн. Интервью Андрея Володина и Ирины Савельевой с Мишей Мельниченко. In: Public History Weekly 9 (2021) 10, DOI: dx.doi.org/10.1515/phw-2021-19253.
Редакционная ответственность
Marko Demantowsky
Prozhito means “lived through” in Russian. “Pro zhito” means “about wheat”, so it’s about meal, livelihood, or life itself. Prozhito.org is a digital library of dated personal diaries which allows users to read and search not only with specific diaries, but also with the entire set of texts of the era, and to receive samples by dates, gender, age, place of keeping the diary, etc. The collection includes texts in Russian and Ukrainian. More than 6,000 authors have been annotated, diaries of 2,000 of them have been uploaded, about 500 diaries are published for the first time. The total volume of the collection is more than half a million daily records of the 18th-20th centuries. The interview with Misha Melnichenko, head of the Center for Ego Documents Study “Prozhito” at the European University at St. Petersburg, was conducted by Irina Savelieva and Andrey Volodin on November 2, 2021.[1]
What is “Prozhito”?
Andrey Volodin: Zdravstvyjte! We are taking this interview with Mischa Melnichenko, the head of “Prozhito”,[2] for a special issue of the electronic journal “Public History Weekly”, which deals with Russian projects in digital history, Russian observations of public history, because “publicity” and “digital” merge now very often, turning into “digital public history”. Irina, I give the floor to you.
Irina Savelieva: Misha, first I want to say that thanks to you and your site, “Prozhito”, I changed, maybe not for long, my interest in studies of theory, which have lasted for half a century, and started studying diaries, simply because the collection that you have, in terms of scale, representativeness, ease of use, it provides the unique opportunities. I read the diaries and got carried away so much that I realized it would be a miss if I did not write about them. And I would like to ask you to simply talk about the history of the site, how did you get an idea, and how the project “Prozhito” began. Our readers may not know about this website, and it is important that they understand not only what it is at the moment, but also how it all started.
Misha Melnichenko: Yes, our website is now about 6 years old. 6 years ago with a group of friends and like-minded people I decided to create a text corpus of personal diaries.[3] My idea primarily grew from the desire to make a search tool for historians, or even for everyone who wants to have the opportunity to work with personal texts tied to chronology, and to have the opportunity to see what people write in their personal diaries in different regions on various occasions. However, over the course of these 6 years of the project’s life it underwent quite serious changes and is now much more than just a search tool for personal diaries. At first, we focused only on published diaries, later people began to bring us diaries that had never been published before. Now our corpus is a collection of two and a half thousand diaries from three centuries of the existence of the tradition of diary-keeping in Russia. The volume of this collection is about 550 thousand diary entries. The corpus has an obvious bias towards the 20th century. The Soviet period is covered with diary-entries much more densely than the 19th or the 18th century. An important part of this project is that initially it was fully developed by volunteers. It was clear that we would not be able to cope on our own as we set out a fairly large scope of work. We came up with simple rules for preparing a text for publication in our corpus, and even before the website was open started to look for volunteers. We had more than a thousand of them, now we have agreements with various Russian Universities, which send us students for internships or annual projects. And with the help of many, many hundreds of participants, we decipher (or “decrypt”) large volumes of manuscripts, verify them, then mark them up with our simple markup rules and regularly introduce new diaries into circulation. Now memories have also been added to the diaries, because a year ago we started working with memoir texts.
Digital nature of corpus: deciphering and markup
Savelieva: What does “deciphering the diaries” mean for you, what does it involve?
Melnichenko: We work with two types of materials. These are manuscripts that have not been published before, and already existing publications. They have different preparation workflows. Let’s say the deciphering – it is when we first learn about a manuscript, and our task is to get a digital copy of it. It can be prepared by the owners of the manuscript but more often we take the manuscript and bring it to us at the Prozhito research center at the European University, scan it, and after that the coordinator of volunteers divides it into small fragments and sends it for decryption (decoding). We write to our volunteer mailing list about this manuscript, send a short description of it to our social networks, and our volunteers begin to sign up for bringing a draft set of manuscripts into an electronic form. After we collect this draft transcript, we look for a volunteer-editor who would go through the entire manuscript one more time and would try to read the unparsed passages and try to check it line by line against the handwritten text. After that, we approve this text from the heirs or owners of the manuscript and publish it in our corpus.
Volodin: What do you mean by “simple markup”? What is it focused on? What are the main points you want to catch (except, of course, dates)?
Melnichenko: The most important entity for markup is, of course, dates. Because chronology is the uniform scale by which we synchronize all our texts. And the first search function (filter) is a search based on dates of texts. We are also trying to indicate the location of where the diary was written where it is possible. And for the last year and a half, we have been quite serious in identifying the persons mentioned. We have a database of the people mentioned in the corpus and we already have about 200-300 diary texts with particular individuals. And these 200 or 300 texts include around 60 thousand people mentioned. However, there is a discussion now in our team whether to suspend this process for a while because the volunteers are not doing it very well. It is quite difficult for volunteers to do this. And we want to pause for a while with the identification of individuals. Since we started working with memories, the memoirs differ from the diary text because they do not have a clear chronological reference to the time of creation. The date of creation of the memoirs is not so important, because it is much more interesting to date the experience described by an author. And our markup split into two types of dating: by the time when the text was created and by the experience described in the text. So that memories can be linked to a chronological search as well.
Volodin: So, it turns out that your preparation procedure is already a kind of research because it is necessary to attribute, read and understand what it is about?
Melnichenko: Yes, it’s true. These are the things that volunteers do. They do it pretty well. But super accurate dating is not very important for us. In this sense, an approximate dating is quite enough for us to, basically, at least scatter these texts over decades.
Who are volunteers of “Prozhito”?
Volodin: The most common word is “volunteer” in our talk. It is clear that they are different. Someone is doing the copying, someone is editing, someone is uploading materials. Could you tell us about them in more detail: who are they, how many of them are there, what are they like?
Melnichenko: Yes, we immediately opened as a volunteer organization. The early years of the organization were the golden age of volunteering. Because at that moment when we were something new people who wanted to work with us wrote to us literally every day. The first year attracted 360 volunteers! Our rules for preparing the text grew out of our experience with volunteers. We started with one thing, then we adjusted the rules quite significantly based on the real experience of interaction. As a result for the first few years we had a huge army of volunteers — they were ready to take part in absolutely anything. They transcribed the manuscripts and marked up the texts, and some volunteers were ready to scan books for us, several employees of Russian libraries collaborated with us and simply ordered rare publications that were difficult to obtain, they photographed or scanned publications for recognition. Later, this volunteer stream narrowed somehow. It seems to me this was due to the fact that, on the one hand, the effect of novelty wore off, on the other hand, the rules for preparing texts became more complicated, but nevertheless, the old volunteers continued to work with us and new members of the team appear quite regularly. They are very different people. At some point, we did a study of our volunteers: our volunteer community is predominantly female, they are not very attached to Russia, because Russian-speaking people from all over the world take part in our project: people from Russia and the countries of the former USSR living anywhere from Washington to Hanoi. And now in order to diversify our workforce we began to work with universities. Firstly, students from our own European University are collaborating with us quite closely, but in addition we have become a place for remote students’ practice in Russia, especially in the last year and a half the flow of students has greatly increased. Last academic year we had about 500 student-interns from all over Russia. With the help of one student-intern we can prepare a transcript of one handwritten notebook. So, our capacity is about 500 handwritten notebooks per year.
Savelieva: Students is a great idea! Do you have students of master’s programs in public history? If so -is their presence somehow visible or do they dissolve among all the others? Is there actually a collaboration with public history University programs?
Melnichenko: Several colleagues at the European University who are engaged in public history cooperate with us, and among our employees there are several people who research this topic. The participation of student-interns is mostly technical, the projects they sign up for are mostly related to the digitization and publication of documents. But if you look not just at the project workflow but at our research communications, then yes, several research texts related especially to volunteer participation in our work have been and are being written using the “Prozhito” corpus. If I am not mistaken these are mainly review texts about Russian projects in general, but I have not seen research texts dedicated specifically to our project.
Online life of “Prozhito”: metrics and usage
Savelieva: Can you provide some metrics of the project as a website, let’s say, the number of subscribers, indicators of reading activity, maybe some indicators of conglomeration of texts that are read most actively? As we call it, digital ethnography.
Melnichenko: Yes. I have information for the spring of 2021. Around 2.5 thousand texts have been uploaded to the website, it’s significantly more than half a million diary entries and about 250 memoir texts. We have several online communities with subscribers: both external for public and internal for communication of volunteers. I think we have around 27 thousand subscribers in all communities on different social networks. The website traffic on average is about 300-400 people per day. It is probably better to judge the popularity of our materials by the popularity of posts on social networks with a particular topic. It’s difficult for me to say what people are looking for on our website but popularity in social networks is related to the social catastrophes of the 20th century. Topics related to the Siege of Leningrad (8 September 1941 – 27 January 1944), or the Great Purge and the War always cause a great resonance. In addition, certain topics of teenagers, descriptions of emotions which perhaps evoke in the audience some sentimental feelings.
By the way, it is easier to find volunteers for such topics as the Great Purge or the Siege and for diaries related to these topics to prepare them for publication. There are some volunteers who specialize in certain topics, and we even know who can choose one or another diary if their topics immediately catch the eye. For a long time one of our members was engaged in the preparation of writers’ diaries. We always have a large community and big demand for the Siege diaries. So, diaries about the Siege are literally distributed among the participants on the day we receive the manuscript. There are no delays with them at all.
Volodin: I then have a question in connection with the fact that diaries are very different. Some diaries are long-lasting, authors writing their entire life, and others are very short and lapidary. I have always been impressed by your approach that each dairy is substantial, and “Prozhito” is opened to any dairy in principle. But nevertheless, there is probably some kind of internal attitude towards those diaries that are more important, which need to be uploaded faster, for example. Or is there no such thing at all, and all the diaries are the same?
Melnichenko: Our platform is for diaries, and our strong point is that we are not limited by the framework, for example, of a paper book. There are very long-run diaries that have been kept for 60 years, and manuscripts that weigh many kilograms, and they fit with us with the same ease as short diaries that fit into one notebook. And from our position, there is not such a big difference between these diaries, because the diary of a young man and the diary of a pensioner who has been rewriting newspapers for many years, for example, at his/her leisure time, they are still equally interesting from a research point of view, because we never know with which research question or “scope” our users will come looking for these dairies. Researchers could be interested not in the content, but in the described experience, and the linguists who work with our corpus, they are equally interested in both kinds of dairy-texts. Yes, we have a certain inner ranking. Naturally, we are trying to introduce into circulation texts that have not been published before quicker. If we choose between uploading to our corpus a diary that has already been published as a separate book, and uploading a previously unpublished manuscript, the manuscript will have the priority. And there is still quite a lot of personal in the ranking of materials, because some of the diaries come to us from classical archives, from museums, from libraries. Sometimes diaries come from garbage cans and, conventionally, there are no people behind these manuscripts to whom we are humanly responsible for the expeditious appearance of the text. If a manuscript comes, for example, from a family, and the authors themselves quite often give the diaries to us, often they are not young and sometimes we seriously cooperate with the family in the publication of the diary, and when it comes to working with an elderly person who probably has not much time left to wait for the publication of this diary, then we will naturally try to get this diary on our website as soon as possible. But at the same time, I should say that we are working rather slowly, because it takes time to organize the transcript and revision of the manuscript, especially if this manuscript consists of several blocks or notebooks. It’s necessary to organize volunteers and takes time to do it with students some of whom work absolutely perfectly, and others just want to get their credit and close this project. Some fragments of manuscripts can freeze, stop, and a lot of managerial involvement is needed to get the manuscript to the final. Therefore, to publish even small manuscripts may take several months.
Savelieva: Can managers be volunteers too, or are they from your team?
Melnichenko: Managers are from our team. We have several volunteer coordinators, each of whom leads a couple of hundred projects.
Savelieva: You have created a website, it has already become famous and there are a lot of visits, but how much can you track? Do you know, for example, how your website was already used in academic research or, for example, in any public events?
Melnichenko: Yes, of course, the results of corpus usage are clearly visible, and it’s very motivating and supportive for us. Firstly, the most striking thing is the use of our website simply in history popularization. We are quite popular with the media, we encounter that someone quotes our materials on a regular basis and, since we are a public project that does not require registration, we regularly encounter the fact that people use our materials without referring to “Prozhito”. It was a little embarrassing at first when our first diaries were used without any reference or mention. Now it has become rather pleasing, because we have already turned into a “landscape”, everyone can use the corpus, we have become “common” for everyone, for many actors we are familiar and usual tool to which it does not even occur in one’s mind to refer to. Constantly with our participation or without our participation collections of diary entries are published in various papers and electronic media. We often come across some form of gratitude in research articles. For example, there are studies on the reading circle of Soviet teenagers in the 1920s based on materials from “Prozhito”. And I know that there are several other similar studies being carried out in parallel. And as far as feedback is concerned, of course, the most emotional, most supportive response is the response from families, from authors, heirs and families who pass on materials to us. Since we have common tasks with many people, and the people who work with us often perceive the publication of the diaries of their loved ones as some kind of a monument to them. Therefore, every time completing some next project and publishing a diary either in electronic form or somewhere on paper, we sometimes come across detailed descriptions of work with us from the side of the heirs and authors. And it is always a very strong emotional experience because for people it is quite important that we work with documents from their family archives.
Why is “Prozhito” in Russian?
Volodin: We just talked about the content, and I have a question about the platform. Are there, for example, requests in other countries to download diaries in other languages, or are there some international competing projects? Are there any alternative options for creating such corpora?
Melnichenko: Yes, we work mainly with Russian-language materials, but we have sections in Ukrainian, Belarusian, and now we are preparing a section in Kazakh for several months with a colleague from Kazakhstan, historian Damir Satarov. There is not much material in these language sections. In general, it is clear that in order to process text in a certain language, we need not only volunteers who are ready to work with this language, but also a volunteer coordinator who is a native speaker, and even better if (s)he lives in a country with the language we use. So, these sections are used simply as bibliographic indexes. We start a page for all the authors of the diaries, and we try to upload diaries in this language, but more often, if someone takes up a diary in Ukrainian, then most likely (s)he is a bilingual volunteer, and at some point, Russian material still comes to the fore. Our other language sections usually do not exceed 150 texts, and it’s a rather small selection. In the Russian-language section, we always have one and a half to two thousand texts in the queue for processing, and there is absolutely everything that may interest our community, and it is much easier to find something specific for yourself. And as for some of our further technical plans, regulations and things related to similar projects abroad, we are now faced with the need to completely reformat our work because we want to launch a new archive project that would allow us, firstly, to work not only with texts but also with manuscripts and show our users originals and copies of original handwritten pages. And secondly, we want to get out of the boundaries of the text corpus and start working with materials of different genres, documents in a broad sense. And as for foreign projects, I could not find any analogues to our corpus of diaries and memoirs of people with different social trajectories. And there are quite a few analogues to the project that we are now planning to launch (I mean archival), these are specific electronic projects dedicated to specific archives or collections of documents.
Savelieva: Misha, what prompts you to such a genre expansion? You started with diaries, and for a long time it seemed that you were not running out of this field of activity. Then you also decided to start working with memories and now with the publication of archival materials. Why did it happen?
Melnichenko: I guess, it seems to me that one of the important factors is public demand, because people bring us absolutely everything and ask what to do with all these artifacts of the past. For example, a request to publish memoirs is even more in demand than a request to publish diaries. With diaries people often hesitate and take a pause to think about how, so to speak, a grandfather would react to a publication of his diaries. And this pause for thinking, it is much less in the case of memoirs. Because the memoirs are obviously created for an external reader. And people bring us large corpuses of correspondence, bring us family albums, and often it’s not even about the desire to publish but simply about the desire to preserve. For example, a family moves to another city, they do not have an opportunity to carry a 100-kilogram archive with them, they do not know what to do with it. There are practically no state archives or institutions that would be ready to deal with it because the archives are very limited in funding and the capacity of archive shelves is not infinite. And therefore, initially we had to constantly refuse people explaining that we could not work with such material, that of course it was interesting, we felt that it was important, it was quite obvious that there was a demand from researchers for it, but we could not do anything. And living in such a regime was rather exhausting, I just wanted to take this field and become a guide who helps materials from family archives to get into light for some wider usage.
Personal archives: new challenges for “Prozhito”
Volodin: Well, seems that here, in this new project, we are still also talking about personal, family documents?
Melnichenko: Yes, that’s true, the easiest way of collaboration for us now is to build relationships with families, because relations with state archives are slightly different: we have many partners in government agencies, but still, in general, the classic archive is not very interested in publications appearing on a side project en masse. But the content of a family archive can be very heterogeneous. And if we come into this field, then we will obviously have to work not only with handwritten materials, but also with visual materials. And now we just must agree with our colleagues on the rules of work. What to do with diaries, memories and letters is more or less clear, but we do not yet have a consensus on online publication of photographs, photo albums, and drawings.
Savelieva: The historians are now writing quite a bit about the problem of the archive due to digitalization when it is possible to collect anything and everything and everyone is trying to preserve everything. The resulting issue is that the archive is not a place where documents are stored, but a place where historical memory is stored. Not only political parties or political associations but also any group of people including individuals are trying to preserve everything, and transfer all of it into the future because there are more and more new technical capabilities making it possible. At the same time some of these theoretically minded historians doubt that society should preserve everything because “forgetting” in human psychology and in the historical consciousness of the society is a functional problem. Something must be forgotten in order not to live in such an abundance of information in the future. How do you feel about this? Probably you would support keeping everything if such a position could be expressed in an abstract way.
Melnichenko: You know, I have very instrumental tasks in front of me, and there is one simple thing: what is forgotten, destroyed, it no longer exists. And I am naturally a supporter of an idea that everything should be preserved, but at the same time a person, or society has the right to forget some things. Conventionally, I am for the conscious forgetting that we have to create data sets, use it or not use it, and if we use it then with what goals? Let everyone decide for themselves.
Volodin: Here another question arises. I remember this question always appeared in the discussions of “Prozhito” in its early days: to what extent, when we have such a natural collection of documents (what is sometimes even called a ‘natural sampling’), how can we talk about whether it is representative, by chance, or we are working with some “cases” … How to determine it internally? In the process of the creation of corpus the selection and evaluation criteria still arise. Different “whys?” appear – How do you answer them for yourself with your coordinators, managers, volunteers?
Melnichenko: We work with texts from people who knew how to write. We work with the texts of people of a certain circle, and of a certain cultural level. In our archive the townspeople will always be better represented, we will have few peasants. It is clear that we always have more materials from Moscow and Leningrad than from other cities, until we start actively working in other regions and by the way we already started working on it. And we only work with those families who share our values and believe that the documents in their possession are of some value to the “big history”. Therefore, for those families who prefer to exist in closed regime (in the shadows), who do not want to share these documents, we do not challenge them and do not try to persuade them to share with our documents. So, some imbalance of the archive or text corpus exists which is further aggravated by the fact that we have more documents than we can fully process. Initially we were able to make a text layer for almost all of the manuscripts that came to us. Now, as we expand the field of activity, only a certain part of our collection can be completely transcribed and marked up. Our goal is to transcribe texts at the pace of growth of the digital archive. For the rest of the materials, we aim to provide in some form that will at least allow to use navigation tools (maybe not a full text search). Perhaps our inability to process everything that we have, and preference to first process what is of more interest to our volunteer community is one of the forms of realizing the right to memorization. If people are not ready to invest their energy into a particular topic, if it somehow does not resonate in their hearts so much that they are ready to spend evenings and weekends for transcription and markup, since there is less demand for some materials, then these documents will stay and wait for their time, probably, they will never find it but at least we will have a digital copy of them. And even if something happens to the original the digital copy is likely to survive.
Savelieva: Thank you. Tell me are there any complaints from academic historians, those who are primarily concerned with ego-documents and ego-history, about how you work with these documents? About what you post, how you transcribe, how you generally process diaries to make them ready to be posted for reading?
Melnichenko: I have a feeling that the main complaint to us is quality of work. We are in many respects perpendicular to the classical publishing approach, painstaking, with a perfectly verified text and with a deep, real commentary. We work with large amounts of data, we have something like a conveyor belt, and we employ people at this conveyor who are not professionals in textual analysis. In addition, we work with many younger generation people, and they do not always know some special words from the Soviet era language. Let’s say, a 20-year-old volunteer may not read the word “raispolkom” (Soviet abbreviation for district executive committee of the Soviets of People’s Deputies) because (s)he doesn’t know it. We consider our publications rather as a text layer to documents which facilitates full-text search for the documents, and we do not position ourselves as a platform with academic publications of texts. And in the rules for citing our documents we always say that if you are going to cite them then refer either to the first publication, or if this is our first publication, then contact us and ask us to grant you access to the original manuscript. Better check back! The percentage of errors we have is certainly higher than in an average paper publication of a diary. That’s why we often communicate with colleagues. And I am not sure about the selection.
“Prozhito” as a platform for researchers
Volodin: What if you look at the diaries as an opportunity to build some kind of chronology of processes according to the frequency of words or to see a certain diachronic picture over two centuries. Do you have such kind of research? Or does everything mainly focus on certain plots and specific periods? Have you ever tried to see a big picture? Because I know that linguists are very interested in “Prozhito”, for example, did you have any ideas to make something like topic modeling of different decades of the 20th century?
Melnichenko: Our colleagues from Yandex (Russian multinational corporation providing Internet-related products and services) have now led a comparison of word usage from Yandex.Zen (it’s a personal recommendations service that creates a feed of content automatically adjusting to the interests of a user) and from the corpus “Prozhito”. They looked for words that are unique for each of corpuses and tried to make a list of words that have recently appeared in the Russian language and a list of words that are becoming extinct. Basically, which of the words from the corpus “Prozhito” did not make it into the Yandex.Zen corpus. But it is not very academic research, rather it is intended for the general public. As for some large processes in our corpus we are now doing research ourselves. We do this in partnership with another research center at the European University at St. Petersburg, with the PANDAN research program for applied data analysis, and with colleagues from the MAST (machine learning, data analysis and statistics) center of the European University. We have a colleague, Kira Kovalenko, who is now moving towards interesting descriptive statistics from our corpus, based on which we hope to draw some conclusions about the peculiarities of the genre of diaries. We would like to see what a diary is for people of different ages, since a colleague has a linguistic education, we will definitely make an analysis of language transformations a part of our research.
Savelieva: I wonder if you have a lot of diaries which, by type, do not fall into the records of the daily, passing life, but rather are “Notes and excerpts”, just with some thoughts and observations?
Melnichenko: I believe we have this kind of texts and there are quite a few of them but I think that if we take the whole corpus, then statistically there are not so many of them. In general, the variability of the diary text turned out to be great, and diaries can be devoted to many very different topics. We have memoir texts in the format of a diary when every day a person writes down his memories of events that took place 20 or 30 years ago, we have diaries of observations of different people and various processes, we have notebooks in which the authors, quite rarely dating their texts, practice their literary style. Keeping a journal and keeping a regular record in general has a lot in common. But, probably, the records of health, weather and read books are statistically most appreciable.
Volodin: Do you have a typology of diaries? Let’s say, those who wrote long notes always wrote long notes, those who wrote short – wrote short. Have you ever considered this kind of regularity?
Melnichenko: This is exactly what we are doing now. For example, one of the patterns is a male diary. Such a diary is much more common than a female diary since we have one female diary for every three written by men. A male diary has a chance to be kept for a long time, throughout life, and there will be more entries in it than in a female diary, the entries will be less detailed. Right now, my colleagues and I are hunting for such patterns and trying to describe them based on the analysis of the entire corpus. My colleague Kira Kovalenko, a graduate of the first graduation class from Pandan, is now our employee, and we are conducting this research together.
Savelieva: How many diaries have you read yourself?
Melnichenko: It seems to me that I read most of the diaries even before starting “Prozhito” because my research interests were related to finding texts in diary entries. I was looking for records of political anecdotes and when I worked on the index of plots of political jokes, I found about 600 of them, and these were mostly jokes of the 1920s when they were actively recorded. When I became the first coordinator of the “Prozhito” volunteers, unfortunately, something broke inside me, burned out, and I have great difficulty reading the diary texts now. I think it’s just a little more than 1000 texts. And “Prozhito” is an attempt to create the instrument that I needed before. I’m sure with the current “Prozhito” corpus I would have found twice as many records and anecdotes. But I gave up my work on that.
Savelieva: What were the main difficulties in the project, which ones you overcame, and which ones, on the contrary, would arise or turn out to be insurmountable? Well, I mean apart from the ability to process all materials.
Melnichenko: I feel that because the project was created by people with little managerial experience or a limited understanding of the corpuses, from the very beginning we did not very rationally build our relations with texts and volunteers. If we knew some things that are absolutely obvious to me now after 6 years, we could have kept the volunteers who left the project. We would have made the job a lot easier. And we could have described the materials much better and more clearly. But, in fact, it seems to me that it is just a natural process of gaining experience. Our new project, related to digital archiving in general, is just an attempt to correct our mistakes that we made in the text corpus and which makes no sense to correct within the text corpus; it is easier to create a new digital project and do everything properly, as it should be.
“Prozhito”: from text to document
Volodin: Text and document are different realms in the digital world. And to what extent is the transition from the text, which turned out to be very fruitful precisely because it is easily searchable, somehow structured, you can control the parameters of it, to the document when it is described and when it has a text layer, to what extent it can give you similar results?
Melnichenko: For us this transition from text to document is an opportunity to make sure that the mistakes that we might make in preparing texts are not critical, so that anyone who wants could have an opportunity to double-check everything on their own using a digital copy of the original document. And if they are friendly enough and have 30 seconds to correct a mistake – it can be done immediately on our platform. And one of the things embedded in our corpus which seems wrong to me is that the corpus “Prozhito” is a list of several thousand authors, approximately described without any serious research reference for them. Indeed, such lists run the risk of turning into collective cemeteries at some point, because in front of you there are several thousand black and white faces with a short description. Here, in the archive that we are now constructing, there is already a completely different model because there is already a rather complex multilevel description system, and in addition to the section with diaries and documents, there will also be a section with the mentioned individuals, user filters by thematic collections, and it will be easier to find specific materials. We want to invest a lot into making this platform not just a list of documents but to make it easier for a researcher or reader to get to these documents through different filters, in which information from these documents is described in different ways.
Volodin: I have a completely fantastic idea, it may not be at all realizable, but as a person who has spent a certain amount of time on prosopography and studying biographies, I am always interested in whether it is possible on the basis of diaries, with today’s digital tools, to reconstruct a person’s biography through records in his/her diaries?
Melnichenko: As for the extraction of facts, it seems to me that everything depends very much on the degree of involvement of a person in documenting themselves. We have authors for whom it can be done easily and with a minimum amount of effort. As an anecdote: one of the authors – his mother – started keeping a pregnancy observation diary, which grew into a baby observation diary. She led it for the first 7 years of his life, then he learned to write and understood the significance of what was happening. And he continued his mother’s diary so that from minus 9 months to 33 years his life is documented by the day. He sprinkles his diary with everything he has lived through (everything that is “Prozhito” by him), like photographs and scans of all the documents that have passed through his hands to date.
Savelieva: I would like to ask you about the most important joy that you have been experiencing over the years, constant joy. Probably, at first it was just new diaries or good transcripts and what is it now?
Melnichenko: What is it now? It is the joy that my work is in demand. In most cases there is a lot of human support for everything we do, both from the community and from the leaders in the field of public archives. These are people who start sorting out their family archives themselves, find us, hand over their documents, and continue to work with us for several months or several years, and I am very motivated by everything I do. The density and warmth of human communication is very rich in our project “Prozhito”.
Volodin: It seems to me that “Prozhito” is really an extremely important example of a digital project and the fact that it has originated in Russia and has no analogues in the world. Although in many countries crowdsourcing for the recognition of historical manuscripts is common. Perhaps it is the evidence of the special demand for diaries in the public history in Russia. Misha, thank you very much for the detailed and heartfelt interview!
_____________________
[1] The Editors of this issue want to thank Alexandra Lomova, a student of the Department of Historical Information Science at Moscow State University, for preparing the transcript of this interview. The interview was translated into English by Andrei Volodin. The Editors warmly thank Katerina Savelieva for careful proofreading and editing the English version of the interview.
[2] Melnichenko, Mischa, Tyshkevich, Natalia ““Prozhito” from Manuscript to Corpus.” ISTORIYA. 8.7 (61) (2017). DOI: 10.18254/S0001935-7-1
[3] Corpus is a large or complete collection of written texts, especially the entire works of a particular author or of a particular type. “Prozhito” is a corpus of diary texts in this sense.
_____________________
Image Credits
The personal diary of Sergei Popadyuk © Prozhito 2021.
Recommended Citation
Zdravstvyjte, Prozhito! Corpus of Russian diaries online. An Interview with Misha Melnichenko by Andrei Volodin and Irina Savelieva. In: Public History Weekly 9 (2021) 10, DOI: dx.doi.org/10.1515/phw-2021-19253.
Editorial Responsibility
Marko Demantowsky
Copyright © 2021 by De Gruyter Oldenbourg and the author, all rights reserved. This work may be copied and redistributed for non-commercial, educational purposes, if permission is granted by the author and usage right holders. For permission please contact the editor-in-chief (see here). All articles are reliably referenced via a DOI, which includes all comments that are considered an integral part of the publication.
The assessments in this article reflect only the perspective of the author. PHW considers itself as a pluralistic debate journal, contributions to discussions are very welcome. Please note our commentary guidelines (https://public-history-weekly.degruyter.com/contribute/).
Categories: 9 (2021) 10
DOI: dx.doi.org/10.1515/phw-2021-19253
Tags: Collaboration, Digital Humanities, Ego documents, Interview, Language: Russian, Russia (Russland), Speakerscorner