Мы всматриваемся в прошлое, чтобы изменить будущее. И это правильный подход. В этом нам помогают историки, экономисты, аналитики. Но что же помогает им делать расчеты, анализы и исследования? Что если они получат более расширенные и углубленные данные по той или иной проблеме? Мы сможем получить ответы на эти вопросы, когда выйдет на свет новая база архивных данных, которая будет состоять из миллионов документов.
Истоки
Данный проект изначально был нацелен на получение и вовлечение закрытых и не оцифрованных данных, которые хранились долгое время на книжных полках в библиотеках по всему миру. Для этого Мелисса Делль, одна из восьми лучших экономистов по версии The Economist и профессор Гарварда, обратилась к организации Theam. Theam – фирма, работающая с Канарских островов, была организована в 2011 году. В рамках Theam работают 42 человека, объединенных сетью Интернет. Большинство из специалистов – разработчики программного обеспечения. Гарвард и Theam разделяет около 5000 км и 5-часовая разница во времени, но они, кажется, свыклись с этим.
Цель
Для того чтобы получить цифровой доступ к архивным данным и просто редким изданиям нужно создать программу распознавания текста. Специалистам необходимо было разработать алгоритм машинного обучения, который улучшил бы переход бумажного носителя в цифровой формат. Организация работает с огромным количеством информации, анализ которой возможно поможет избежать социальных проблем и экономических кризисов в будущем.
Первые работы
Первыми оцифрованными архивами стали бумаги японских фирм и банков. Мелисса Делль заинтересованы этими данными, так как хочет понять различия в экономическом развитии Японии и Америки. Мелиссе необходимо понять, почему в одних странах появилось социальное и экономическое неравенство, а в других рост экономики предрек более справедливый исход. Для выполнения заданного нужно рассмотреть личные документы и данные фирм с точки зрения разных контекстов, поэтому нужно иметь доступ к этим данным, проанализировать их и сделать выводы.
Бесспорно, данный макропроект со временем будет служить и на бытовом уровне. Он поможет раскрыть новые возможности для исследователей, ученых, так как с помощью алгоритма можно будет оцифровать любые необходимые данные.