Сервис «Поиск по архивам» от Яндекса предоставляет поддержку профессиональным исследователям в поиске информации о прошлых событиях и личностях. Обычным пользователям он помогает расширить знание о своих предках.
Работать с архивными документами также просто, как использовать обычный поисковик: достаточно ввести ключевое слово в строку поиска. За год с момента запуска сервиса пользователи просмотрели более 20 миллионов раз расшифрованных нейросетью документов.
Первым партнёром «Поиска по архивам» стал Главархив Москвы. На текстах, предоставленных им, нейросеть обучалась расшифровывать устаревшие символы и рукописи. На данный момент более половины всех документов сервиса составляют более 5,4 миллиона страниц исторических материалов из Главархива Москвы.
В настоящее время в «Поиске по архивам» представлены документы из архивов 11 регионов, включая Москву, Московскую, Оренбургскую, Новгородскую, Иркутскую, Астраханскую и другие области. За год работы сервиса нейросеть Яндекса распознала более 60 тысяч рукописных и печатных текстов середины XVIII — начала XX веков, что составляет более 10 миллионов страниц или 492 миллиона строк. В «Поиске по архивам» хранятся расшифрованные архивные дела, такие как метрические книги и ревизские сказки, содержащие информацию о людях, родившихся в России до революции.
Кроме того, в сервисе собраны 3,6 миллиона оцифрованных страниц периодических изданий, таких как «Советский спорт», «Вечерняя Москва» и епархиальные ведомости.
Технология расшифровки в «Поиске по архивам» основана на оптическом распознавании символов. Нейросеть учитывает утратившие актуальность знаки, особенности почерка и преобразует трудночитаемые записи в печатный текст за несколько секунд. Для работы с вёрсткой газетных страниц нейросеть была адаптирована, научившись распознавать текст на огромных полосах, написанных мелким шрифтом на бумаге низкой плотности.
Примечание:
«Поиск по архивам» – это сервис Яндекса, запущенный в начале 2023 года, который помогает быстро находить упоминания людей, населённых пунктов и событий в расшифрованных нейросетью рукописных документах XVIII–XX веков. Более 10 миллионов страниц исторических документов из архивов различных регионов и муниципальных архивов доступны в базе сервиса. Также возможен поиск информации в архивах епархиальных ведомостей, а также в периодических изданиях, таких как «Советский спорт» и «Вечерняя Москва».
Фото: Firestock.