월드라이브러리

외국 연구자료

인쇄

장기 보존용 디지털 유산의 선택에 관한 유네스코/퍼시스트 지침(제2판)②

작성부서 국제교류홍보팀
등록일 2021-11-08
조회 1158

글자크기

지난 호에서는 디지털 보존이 자료 선정 결정에 끼치는 영향에 대하여 살펴보았다. 이번 호에서는 실제로 디지털 환경에서 수집할 때 무엇을 고려해야 할 지 심층적으로 살펴본다. ‘AI 기록물은 어떻게 할 것인가?’, ‘SNS 자료는?’ 이러한 질문을 가지고 있다면 꼭 한번 살펴보자.

제2부: 디지털 환경에서의 수집에 관한 심층 고찰

디지털 자료 선정 및 보존 프로그램을 수립할 때는 디지털 콘텐츠의 수집이 기관의 내부 프로세스에 어떠한 영향을 끼칠 지를 고려하는 것이 도움이 될 것이다. 또한 법적인 문제와 파트너십의 역할 등 장기적인 보존에 영향을 끼칠 수 있는 외부의 문제들을 조사하는 것이 바람직하다.

도서관과 박물관, 아카이브에서의 디지털 자료 선정

디지털 세계에서는 도서관과 박물관, 아카이브의 운영 모델과 대국민 서비스 모드가 급격히 변화하고 있다. 이러한 디지털 환경에서는 정보 전문가들이 자신들의 전통적인 장서 관리 활동을 기술자에게 내맡기지 않는 것이 중요하다.

디지털은 수집/보존이라는 사명에 대한 분명한 도전이자 패러다임의 전환이며, 유산보존기관들이 중요성과 가치를 평가하는 방법을 재고할 것을 요구한다. 도서관과 아카이브, 박물관의 현장 전문가들은 전통적인 장서 관리 절차와 함께 디지털 수집을 고려하면서, 이 두 가지가 각기 고유한 고려사항이 있으며 다른 접근법을 요한다는 점을 인식해야 한다.

디지털 시대에 도서관과 아카이브, 박물관 간의 일부 경계가 흐려지고는 있으나, 각 기관에 고유한 사안들이 있음을 유념해야 한다.

도서관

자료 선정 과정에서 도서관은 전자출판물, 웹사이트 수집(harvesting), 페이스북이나 유튜브 등 소셜 미디어 사이트 상의 저작권 콘텐츠와 관련하여 문제에 봉착할 것이다. 견실한 납본 전통으로 포괄적인 장서를 구축하고자 노력해온 국립도서관들은 수명이 짧은 디지털 출판물들에 대한 선택 결정을 내려야 할 것이다. 과거에는 무엇을 출판할 지를 결정하는 편집진의 선택을 통해 창작물을 ‘큐레이트’한 출판사들이 실질적으로 자료를 선택했다고 볼 수 있다. 민주화된 자가출판과 전자책의 세상에서 국립도서관들은 과거의 포괄적인 접근법을 수정하여 장기 보존용 자료를 선정하는 기준을 수립해야 할 것이다.

모든 도서관이 국내외적으로 중요하게 간주되는 문화유산 장서를 소장하고 있는 것은 아니지만, 다수의 도서관이 지역의 기억들을 수집하고 있다. 그리고 신문, 시청각 녹음자료와 같은 이러한 기억의 기록이 처음부터 디지털로 제작되는 경향이 증가하고 있다.

도서관의 사명은 지역사회의 필요에 부응하는 것이기 때문에 장기적 접근성과 이용은 보존 활동에 있어 필수적이다. 디지털 장서는 사용성과 발견 수단을 핵심 원칙으로 삼아 수립되어야 한다. 어떤 도서관에서는 수서용으로 새 출판물을 조사하는 대신, 과거에 단기 사용 목적으로 수집해 놓은 출판물들을 평가하여 장기 보존용 디지털 품목을 선정하기로 결정할 수도 있을 것이다.

규모를 불문하고 대부분의 도서관은 자 기관의 디지털 자료 선정 과정을 체계화하고 기억기관들이 공유하는 가치를 바탕으로 자료 선정 기준을 구조화하는 것이 바람직하다. 그러면 중복과 자료의 소실 가능성을 피하면서 도서관의 사명 안에서 장기 보존에 적합한 디지털 자료의 유형을 찾아내는데 도움이 될 것이다.

박물관

견실하게 잘 확립되어 있는 물리적 장서 문화를 갖고 있는 박물관은 대체로 영구 보존을 목적으로 수집하며, 그러한 맥락에서 장서 개발에 관한 결정을 내린다. 컴퓨터 소프트웨어로 작동하는 기계, 처음부터 디지털로 제작된 예술작품, 디지털 설치 예술작품, 고고학 유적지의 디지털 문서화 등에서 볼 수 있는 것처럼 이러한 자료 문화가 갈수록 디지털화되고 있다. 박물관의 물리적 소장품에 관한 연구 정보 역시 갈수록 디지털화되고 있다.

더 나아가, 박물관은 휴대폰, 태블릿, 컴퓨터, 게임 컨솔 등 중요한 물리적 요소가 포함된 디지털 유산을 수집하고 있다. 박물관에서의 이러한 수집 결정은 박물관의 사명에 근거한 것일 수 있다. 일례로, 디자인 박물관은 일부는 물리적이고 일부는 디지털로 된 ‘스타일 아이콘’을 수집할 수 있고, 과학 박물관은 중요한 하드웨어(및 관련 소프트웨어)를 수집할 수 있다.

따라서 박물관에서 디지털 유산은 ‘본 디지털(born-digital)’ 품목, 소장품에 관한 디지털 정보 또는 디지털화된 정보, 그리고 물리적 인공물의 디지털적 표현(예. 디지털 이미지나 3D 스캔)이라는 세 가지 범주로 구분될 수 있다. 이러한 범주화로 인해 박물관은 대체로 장기 보존 활동에서 첫 번째와 두 번째 범주를 우선시한다. 두 번째와 세 번째 범주는 기관에서 생성한 행정 기록도 포함한다.

박물관에서 메타데이터(물리적 및 디지털 유산에 관한 정보)의 중요성은 아무리 강조해도 지나치지 않다. 이 메타데이터는 물리적 유산과 디지털 유산이 박물관에 들어오기 전에 생성된 맥락 정보와 박물관에 소장되어 있는 동안 생성된 맥락 정보를 포함한다. 출처주의(principle of provenance)도 박물관에 중요하다.

아카이브

아카이브는 수집용 기록물을 평가할 때 진본성, 출처, 맥락을 중시한다. 법적 환경에 따라 아카이브가 수집해야 하는 디지털 정보가 무엇인지, 일반 이용자 서비스 및 연구용으로 제공될 수 있는지, 제공될 수 있다면 어떻게 제공될 수 있는지 등이 정해져 있는 경우가 많다. 어떤 경우에는 오픈 라이선스 ‘본 디지털(born-digital)’ 자료를 대량으로 아카이브할 수 있는데, 이로써 아카이브는 새로운 또는 진화된 역할을 맡게 될 것이다.

아카이브는 영구 보존용으로 원본 기록물이나 고유한 기록물을 수집하며, 창작과 취득 사이의 시간의 흐름(예. 20년)을 고려하여 자료 선정 결정을 내릴 때 역사적 관점을 반영한다. 그러나 빠른 속도로 구식이 되는 디지털 포맷의 성격, 기록/데이터 창작자가 정보와 저장 매체, 시스템 하드웨어, 소프트웨어 시스템을 유지할 능력이 없음으로 인해서 선택을 위한 기회의 창이 닫히고 있다. 점점 더 많은 아카이브들이 ‘본 디지털(born-digital)’ 기록물과 데이터, 소셜미디어, 웹 소프트웨어, 인공지능, 그리고 수많은 다른 형태의 중요한 자료를 훨씬 더 일찍 수집해야 할 필요성을 절감하고 있는데, 그렇게 하려면 가능한 이른 시기부터 기록 창작자와 협력하여 장기적으로 중요한 기록 또는 데이터의 설계와 생산에 영향을 끼쳐야 한다. 이를 위해서는 또한 정보 기술자, 데이터 과학자 등과 보다 긴밀한 협력관계를 구축하여 기록과 데이터 창작 과정의 통일성이 유지되도록 하고 정보가 이전되기 전까지 정보가 바르게 관리되도록 해야 한다. 유산보존 공동체의 조기 개입이 필요한 이유는 기록물과 데이터가 창작되는 방식이 그러한 자료의 수집과 보존 및 접근성에 영향을 끼칠 것이기 때문이다.

아카이브마다 역량이 크게 차이가 나지만, 예산과 역량, 인프라가 부족하다고 해서 디지털 자료(기록물, 데이터 등)를 보존하지 말아야 한다는 뜻은 아니다. 아카이브 기관들로 하여금 역량의 기준선을 수립하고 기관의 자원을 바탕으로 실질적인 로드맵을 찾을 수 있게 도와주는 성숙도(maturity) 모델이 많이 나와 있다. ¹

보존용 자료의 선택에 영향을 끼치는 요소들이 도서관과 박물관, 아카이브 간에 명확히 구분되는 것은 아니다. 사실 일부 중첩되는 부분이 반드시 있을 것이다. 그러나 우리 공동체들의 다양성을 검토하면 장기 보존용 유산을 식별하고 선택할 때 기관들이 직면하는 다양한 문제를 보는데 도움이 된다.

디지털 자료의 선정과 보존을 위한 파트너십

기억기관과 유산보존기관은 국내외의 네트워크에 참여하여 전문성을 공유하고 디지털 장서 및 보존 활동을 상호 조율함으로써 도움을 얻을 수 있다.

국제협력

디지털 장서 및 보존 활동을 조율하고자 할 때 국제 교류와 경험공유 활동에 참여하는 것이 중요하다. 이미 국가 전략과 계획을 수립한 국가가 있다면 다른 국가들에 모델이 될 수 있을 것이다. 디지털 장서 관리 경험이 있는 기관들은 입법, 표준 및 관행, 디지털 자료의 선정 및 접근성 시스템, 디지털 예술품의 보존, 보존 인프라, 보안 등의 문제에 대해 자신들이 갖고 있는 지식을 공유할 수 있다.

아카이브와 박물관, 도서관은 기술적 협력과 교류를 위해 해당 분야의 국제 연맹이나 협의회와 긴밀히 협력한다. 디지털 유산의 보존이 전지구적인 도전과제라는 점을 고려할 때 ICA, IFLA, ICOM과 같은 민간 분야의 국제 단체와 유네스코 같은 정부간 기구의 자문을 구해야 하고, 이러한 기구들이 국제 무대에서 보존 활동을 주도할 수 있다. 이들 기구는 또한 공동 전략을 개발할 수 있는 효과적인 플랫폼이 되기도 한다.

국립기관들의 역할

도서관, 아카이브, 박물관, 유산 분야의 국립기관들은 디지털 자료의 선정 및 보존과 관련하여 정부 기구 및 유산 공동체에 리더십을 제공하는 중요한 역할을 수행해야 한다.

여러 국가에서는 지정된 국립기관들이 문화 유산의 컬렉션 개발 및 관리와 관련한 입법과 정책을 담당한다. 국립도서관은 납본 기능을 통해 출판된 저작물을 수집하고, 국립 아카이브는 정부의 공식 기록물 수집을 사명으로 한다. 박물관 역시 오늘날의 수집 정책에 따라 디지털 객체들을 수집하기 시작했다.

디지털 콘텐츠의 규모와 내재적인 문제들로 인해 자연스럽게 국립기관들이 디지털 콘텐츠 관리에서 주도적인 역할을 하고 있다. 이들 기관은 유산보존 공동체 내의 다른 기관들, 특히 규모가 더 작은 아카이브와 도서관 및 박물관을 지원할 수 있는 확장 가능한 표준과 인프라, 시스템을 갖고 있다.

국립기관들은 또한 국가의 선택, 수집, 보존 전략과 표준을 개발하기 위한 협력 계획을 수립하기 위해 자신들의 네트워크를 확장하여 전문성을 모아야 할 것이다. 이 네트워크는 콘텐츠 창작자, 업계 전문가, 유산 수집가, 그리고 기술 혁신, 데이터 보호, 저작권, 디지털 미디어를 다루는 주요 정부 기관들을 포함할 수 있다.

국립 도서관과 아카이브, 박물관, 기타 유산보존기관들은 협력적인 수집 및 보존 계획을 포함하여 국가적 장서의 역할과 규모에 합의하고 그것을 규정하는 것이 중요하다. 한 국가 내에서 생산되는 디지털 콘텐츠의 규모와 관련 문제들으로 인해 디지털 유산 콘텐츠의 선정과 그것의 장기적인 관리는 국가적인 협력 사업이 되어야 한다. 또한 한 기관이 그 모든 것을 감당하는 것도 바람직하지 않을 것이다. 일례로, 특정 자료를 보존하는데 필요한 자원이나 역량, 기술, 예산이 없는 기관은 국내외에서 더 역량 있는 다른 기관들과 협력할 수 있을 것이다.

애드보커시(Advocacy)의 중요성

이 보고서를 작성하는 시점에서는 코로나19 사태로 인한 제약이 가장 큰 도전과제이지만, 예산 삭감을 비롯한 다른 많은 문제들도 분명히 지속적인 우려사항이 될 것이다. 공공부문이 직면하고 있는 수많은 어려움에도 불구하고, 일반 국민들과 정책결정자 집단 모두에서 디지털 유산 수집 활동의 문화적 가치에 대한 인식을 증진하는 것이 그 어느 때보다 중요하다.

그러한 애드보커시 활동은 디지털 자료의 장기적인 접근성에서 얻는 이점을 강조하는 것을 목적으로 해야 한다. 예를 들어, 문화유산에 대한 공적 접근성을 제공한다는 법적 사명을 강조하거나 디지털 콘텐츠의 접근성을 통해 얻어지는 경제적, 지적, 과학적 혜택을 홍보할 수 있을 것이다.

기관 차원에서의 애드보커시

지역이나 국가적 차원에서의 애드보커시는 비교적 중립적이고, 대중홍보나 광고 캠페인, 인식 증진, 전문 세미나의 형태를 취할 수 있다.

기억기관이 활용할 수 있는 가장 좋은 애드보커시는 아마도 관련 내용을 숙지한 직원들이 친근한 방식으로 시민들에게 정보를 제공하는 대중 행사를 개최하는 방법일 것이다. 이것은 대중적인 지지를 얻고, 기관의 사명과 활동을 홍보하고, 잘못된 통념을 바로잡고, 이 활동이 어떻게 사회 전체에 도움이 되는지를 알리는 장기적인 이득을 가져올 수 있다.

시민사회와의 협력

국립 기관이 언제나 애드보커시와 로비 활동을 주도할 수 있는 것은 아니기 때문에 현장 전문가와 시민사회단체 간의 협력이 효과를 발휘할 수 있다. IFLA나 ICA, ICOM과 같은 국제 단체와 유네스코와 같은 정부간 기구들은 디지털 유산을 포함하여 유산의 보존 및 접근성과 관련한 애드보커시 활동에 적극 참여하고 있다.

성공적인 애드보커시는 정부간 논의에 영향을 끼치고, 효과적인 기술 표준의 수립을 유도하고, 전문 활동에 대한 지원과 기금을 확보할 수 있다.

법적 환경이 끼치는 영향

도서관의 납본은 디지털적으로 출판된 자료의 캡쳐와 보존 및 접근성을 가능케 한다. (납본과 관련한 고려사항에 대해서는 IFLA의 납본에 관한 점검목록 을 참고한다.) 반면, 아카이브는 아카이브에 관한 법률이나 아카이브 정책을 따른다. 아카이브에 관한 법률에 의거하여 아카이브는 정부 부처나 기관들에서 생성된 디지털 기록물을 수집하고 관리할 사명을 부여받는다. 수서 정책(acquisition policy)은 민간 조직에서의 디지털 자료 수집과 보존, 접근성을 관장하는 경우가 많다. 이와 반대로, 박물관의 수집은 법률에 의해 관장되지 않을 수 있으나, 국립 박물관들은 보다 명확하게 규정된 법적인 틀 내에서 활동하는 경향이 있다. 그러나 국가마다 상황이 다르고, 박물관의 거버넌스에 따라 차이가 있을 수 있다.

성공적인 디지털 자료 선정 및 보존 프로그램을 위해서는 강력하고 실효성 있는 법적 구조가 필수적인 선결 요건이다. 유네스코는 2003년도 디지털 유산 보존에 관한 지침(2003 Guidelines for the Preservation of Digital Heritage)에서 다음과 같이 지적했다.

“아카이브 법률 그리고 도서관과 아카이브, 박물관 및 기타 공적 리포지터리에서의 납본 또는 자발적인 제출은 국가의 보존 정책에서 핵심적인 요소로써 디지털 유산을 포함해야 한다. 저작권법과 관련 권리 규정은 이들 기관이 합법적으로 보존 활동을 수행할 수 있도록 허용해야 한다.”

따라서 디지털 보존 사업을 수행하는 기관들은 관할 법률이 보존 목적으로 디지털 콘텐츠의 캡쳐를 허용할 수 있도록 만드는 것이 중요하다

고려사항:

납본법과 아카이브 법률이 디지털 콘텐츠를 포함하는가? 포함한다면, 어떤 유형을 포함하는가? 현행 법률이 국가적으로 중요한 기록 유산의 수집을 저해하는가? 그렇다면 기관은 어떻게 자료 선정과 보존을 가능케 할 수 있는가?

납본법이 공적으로 접근 가능한 저작물의 수집을 제한하는가? 또는 유료 정책 등으로 인해 접근이 제한된 저작물을 수집하거나 요청할 가능성이 있는가?

법적 환경이 끼치는 영향

예외 및 제한 규정을 제외하고 저작권법에 의해 사본의 제작이 금지될 수 있다. 이것은 장기 보존을 위해 복제가 필요할 수 있는 디지털 환경에서 새로운 문제를 야기한다. 또한 디지털 자료는 검색을 위해 소프트웨어를 필요로 하는 경우가 종종 있는데, 이 소프트웨어가 저작권의 보호를 받을 수 있다.

일부 국가에서는 복사 및 재배포를 방지하기 위해 사용된 기술적 보호 장치를 우회하는 행위를 금지하는 법률이 수립되어 있는데, 이것은 디지털 유산을 보존하고 향후에 합법적으로 사용하는 것을 어렵게 한다. 또한 보존 목적의 경우 기술적 보호 장치를 우회할 수 있도록 허용하는 법률 규정을 갖고 있는 국가도 있다.

‘공정 사용(fair use)’ 규정이 있는 국가에서는 이 규정을 이용하여 공적 영역에 있는 자료(예. 공적으로 제공되는 웹사이트)를 수집하는 기관들이 있다. ‘공정 사용’은 사전 승인을 받지 않고 해당 자료를 이용자들에게 제공할 수 있다는 뜻이다.

현장 전문가들은 각자의 지역에서 적용되는 디지털 보존 관련 법률을 이해함으로써 장기 보존용 디지털 유산을 선정하고 법적 책임성 구조를 개발하는 일을 보다 잘 할 수 있을 것이다.

개인정보법 역시 개인 정보를 포함하는 디지털 정보의 제공과 접근성에 영향을 끼칠 수 있다. 이것은 법적 관할구역에 따라 다를 것인데, 일례로 ‘잊혀질 권리’에 관한 법률은 문화유산 기관들이 수집하여 보존하고 제공할 수 있는 자료에 영향을 끼칠 것이다.

저작권법에서 국제적 일관성이 부재하고 초국적으로 협력하는 방법이 명료하지 않은 현실은 (예를 들어, 디지털 보존 네트워크를 통해) 저작물을 보존하고, (예를 들어, 클라우드에서) 저장하고, 접근성을 제공하는 활동에 부정적인 영향을 끼칠 수 있는데, 이러한 모든 요소들이 콘텐츠 선택 결정에 영향을 끼친다.

디지털 콘텐츠의 보존을 증진하기 위한 장기적인 목표는 디지털 장서 관리자들이 가능한 한 전문적인 고려사항만을 바탕으로 자료를 선정할 수 있도록 국가적 차원에서 관련 환경이 발전하고, 자료의 보존과 유산보존 전문가들의 접근성을 보장하기 위한 국제적인 조치를 마련하는 것이다.

고려사항: 기관이 필요한 양식으로 복제하여 보존 활동을 수행할 수 있도록 납본법에 명확히 허용되어 있는가?

기관은 계약 조건을 무시하고 기술적 보호 장치를 우회할 수 있는가? 수집된 디지털 저작물의 접근성 제공과 관련하여 어떤 규정이 있는가?

개인정보의 보존과 관련한 규정은 무엇인가? 개인정보 또는 데이터 보호법이 존재하는가?

결론

디지털 기술은 인간의 표현과 창의성을 위한 새로운 가능성을 열면서 동시에 디지털 자료의 선정과 관련한 고유한 문제를 야기한다. 마찬가지로, 이러한 표현물을 생산하는데 사용되는 기술이 날로 진화하면서 선택과 보존 및 접근성의 방법도 진화해야 할 필요성이 생긴다.

오늘 현장 전문가들이 내리는 결정과 개입 방법은 내일의 기억에 영향을 끼칠 것이다. 이것은 기억기관과 유산보존기관들이 국내의 다른 기관 및 입법가 그리고 국제적인 네트워크, 시민사회단체들과 함께 협력하여 이행해야 하는 막대한 책무이다.

장기 보존 목적으로 디지털 자료를 선정하고, 선정 및 수집 과정을 명문화하고, 결정이 내려지는 과정을 기록하기 위한 전략이 수립되어야 한다. 현장 전문가들은 이 지침에 제공된 선정 기준과 배경을 바탕으로 자신의 상황에 맞는 기준을 수립할 수 있을 것이다. 아래의 부록에서는 자료 선정 전략을 수립할 때 도움이 되는 몇 가지 핵심 개념을 보다 상세히 설명하였다.

이 지침은 우리의 시대를 규정하며 날로 급변하고 있는 정보 생산 환경을 인식하고 있다. 이 지침은 전 세계적으로 디지털 유산을 보존하고 그에 대한 접근성을 제공하기 위한 포괄적인 국제적 노력의 한 부분이며, 그러한 노력은 앞으로도 계속해서 진화해나갈 것이다.

부록 1: 디지털 수집과 전통적인 수집의 비교

이 장에서는 전통적인 수집과 디지털 수집 간의 유사점과 차이점을 보다 깊이 살펴볼 것이다. 또한 위험성 관리의 사례를 통해 이러한 차이가 어떻게 실질적인 보존에 영향을 끼치는지를 보여줄 것이다.

유사점

디지털 수집은 “기술적인 해결책만을 필요로 하는 기술적인 문제”가 아니고 “물리적 [장서]에 대한 전통적인 개념적 및 윤리적 접근법이 사회적이고 문화적인 측면에서 나온 것과 마찬가지로 디지털 수집도 사회적, 문화적, 조직적인 문제이다” (Slade, S., Pearson, D., & Knight, S., 2019).

물리적 수집과 마찬가지로 디지털 수집도 “출처, 맥락, 관리 연속성, 철저한 문서화로 특징 지어진다. 디지털 보존 환경은 물리적 장서의 저장 환경과 같은 방식으로 생각할 수 있다. 디지털 장서의 보존 저장 장소는 공간과 저장 장비만이 아니라 소장 품목의 정리, 각 품목의 위치를 정확하게 찾는 방법, 보안, 그러한 품목의 보존 및 관리 정책, 저장 환경, 그리고 보존과 관련한 모든 위험을 통제할 수 있도록 환경을 모니터링하는 방법으로 구성된다” (Slade, S., Pearson, D., & Knight, S., 2019).

물리적 장서와 디지털 장서가 안고 있는 위험성은 비슷하지만 위험성이 드러나는 모습은 차이가 있다(표 1 참조).

차이점

디지털 자료를 보존하는데 필요한 노력과 투자를 과소평가해서는 안된다. 그 노력은 지속적이고 강도가 높을 것이며, 규모와 포맷, 접근성 문제가 갈수록 까다로워지면서 계속 확대될 것이다.

디지털 수집과 관련한 고유한 문제는 다음과 같다.

• 포맷의 단종(예. WordStar)
• 더 이상 지원되지 않는 물리적 운반체(예. 플로피 디스크, 베타캠)에 저장된 디지털 자료.
• 클라우드 전용 출판 모델
• 플랫폼에 대한 관할권 — 국내법이 포괄하지 않는 해외 플랫폼(예. 페이스북, 유튜브, 인스타그램, 트위터)에 있는 ‘본 디지털’ 자료
• 지식시스템 전반의 능력/역량 부족
• 새로운 접근성과 라이선스 및 사용/재사용 모델을 필요로 하는 구태한 지적재산 관리 모델(예. 저작권)
• 혁신, 사용 및 재사용, 재현성(즉, 연구 결과의 무결성 입증)을 위해 디지털 자산을 장기적으로 보호하는 문제에 대한 일관된 대응책의 부재
• 공적 영역에서 디지털 정보가 제대로 관리되지 않음으로써 정부 정보의 가치를 최대화할 기회가 제한됨
• (법적으로) 접근 또는 아카이브하기 어려운 별도의 품목(파일)을 포함하거나 필요로 하는 디지털 자료

표 1 — 디지털 수집과 전통적인 수집 간의 유사점과 관련된 위험성 관리 사례(Pearson, 2012).

위험성	정의	디지털 사례	물리적 사례
매개변수 관련 위험성	직원이 보존 관련 위험성을 표시하는 기준	문제성 있는 코덱 안에 인코딩된 비디오	셀룰로스 나이트레이트(cellulose nitrate) 필름의 식별
예외상황 관련 위험성	모니터링된 매개변수의 값이 허용치 밖에 있음	특정 포맷으로 된 파일이 유효하지 않음	저장실 내 상대습도의 수준이 허용치를 넘어섬
변화 관련 위험성	콘텐츠에 대해 모니터링된 매개변수의 상태가 변화함	특정 파일에 대한 포맷 식별의 신뢰도가 바뀌거나, 검사합계(checksum)가 맞지 않음	가시광선에 장기간 노출되면서 컬러사진이나 수채화의 색상이 바램
상충값 관련 위험성	하나 이상의 도구에서 매개변수에 대해 상충되는 값이 보고됨	파일 포맷 식별에서 상충되는 값이 나옴	동일한 장서 저장실에 대해 건물 관리시스템과 독립적인 환경 모니터링 시스템이 보고한 온도와 상대습도값이 다름

부록 2: 소프트웨어 소스 코드에 관하여

소프트웨어는 우리의 개인적인 삶과 사회적 삶 속으로 스며든다. 소프트웨어는 우리의 산업에 동력을 제공하고, 현대적 연구를 지원하고, 디지털 콘텐츠에 대한 접근성을 중개하고, 혁신을 촉진하는 방대한 기술적 지식을 상징한다(UNESCO et al, 2019).

소프트웨어는 소프트웨어 소스 코드라는 형태로 인간에 의해 쓰인다. 이러한 소프트웨어는 가치 있고 고유한 형태의 지식으로써 기계에 의해 실행 가능한 형태로 쉽게 전환될 뿐 아니라 ‘인간이 읽을 수 있게 쓰인’ 것이며(H. Abelson et al, 1985), ‘설계자의 마음을 들여다볼 수 있는 창을 제공’한다(Shustek, 2006). 소프트웨어 소스 코드는 매우 보편적으로 존재함에도 불구하고 개인용 컴퓨터나 인터넷 기반의 클라우드 서비스를 통해 구현되는 ‘실행 가능한’ 소프트웨어 프로그램의 악세사리 정도로 치부되는 경우가 많다. 무료로 제공되는 오픈 소스 소프트웨어를 통해 무상 공유 코드를 호스팅하는 플랫폼이 발전했지만, 아직까지 상당량의 소프트웨어 소스 코드가 민간 기업 소유이거나 여러 가지 이유로 공유되지 않아서 접근이 불가능한 상태다.

지속가능한 발전을 위한 ‘유산으로서의 소프트웨어 소스 코드에 대한 파리 선언(Paris Call on Software Source Code as Heritage)’에서는 소프트웨어 소스 코드가 장기적으로 중요한 기술적, 과학적, 문화적 유산을 보존하는데 필수적임을 지적한다(UNESCO & INRIA, 2009). 즉, 소프트웨어 소스 코드는 고유한 ‘본 디지털’ 공예품으로써, 연구와 아카이빙을 포함하여 오늘날의 디지털 세계를 구성하는 디지털 도구와 창작물의 제작에 들어가는 지식과 노력을 담고 있다. 디지털 중심의 세상에서 소프트웨어 소스 코드는 필수적인 연구의 산물이며, 연구 출판물 및 연구 데이터와 함께 오픈사이언스의 한 축으로 간주되어야 한다.

최근에 소프트웨어 유산(Software Heritage) 아카이브(softwareheritage.org) 가 출범하기 전까지 소프트웨어 소스 코드는 디지털 객체로써 소스 코드를 영구적으로 보관할 수 있는 장소와 효과적으로 소스 코드 디지털 객체를 찾고, 저장하고, 고유한 영구적 식별자(intrinsic persistent identifier) 등을 통해 참조할 수 있는 기제가 없었다(Software Heritage, 2020).

참고자료

Bussi, L., Di Cosmo, R., Montangero, C., Scatena G. (2019). The Software Heritage Acquisition Process. UNESCO. https://unesdoc.unesco.org/ark:/48223/pf0000371017/PDF/371017eng.pdf.multi .

Di Cosmo, R. (2020). How to use Software Heritage for archiving and referencing your source code: guidelines and walkthrough. https://annex.softwareheritage.org/public/guidelines/archive-research-software.pdf.

부록 3: 연구 데이터에 관하여

과학적 연구는 지식의 발전, 따라서 인류의 발전에 기여하는 첫 번째 요소이다. 전 세계의 국가와 국제적인 기관들은 과학 연구 활동을 지속, 촉진, 개선하는데 연간 예산의 상당 부분을 할애하고 있다. 과학자들 간의 국제적 협력은 매우 보편적이며, 우주, 핵기술, 의학 연구 분야에서는 대규모의 국제적인 프로젝트가 진행되는 경우가 많다. 이러한 모든 연구 활동은 어떠한 과학적 결론에 도달하기 전, 즉 새로운 지식을 창출하기 전에 해독하고, 수집하고, 비교하고, 분석하는 데만 수년에서 수십 년이 걸릴 정도로 방대한 원자료를 만들어 낸다.

오픈 리서치 데이터는 해당 데이터의 생산자만이 아니라 다른 연구자들도 그 데이터를 재사용할 수 있도록 허용한다. 오픈 리서치 데이터의 사용은 1차 연구 결과의 타당성 또는 부당성을 입증하고 새로운 정보와 지식을 도출하기 위한 대안적인 도구나 방법을 소개하는 것을 포함한다. 연구의 타당성을 입증하기 위해서 과학적 출판물은 -접근 가능하고 새로운 렌즈를 통해 도전할 수 있는- 데이터를 참조할 수 있어야 한다.

현재 연구 분야에서는 FAIR(Findable(찾을 수 있고), Accessible(접근 가능하고), Interoperable(호환되고), Reusable(재사용 가능한)) 데이터라는 개념이 보편화되고 있다. 그렇다면, 천문학적인 비용을 들여 생산된 연구 데이터가 보존되지 않아서 더 이상 기술적으로 제공되지 않는다면 어떻게 될 것인가?

디지털 연구 데이터의 보존은 과학과 지식에 반드시 필요하다. 데이터 관리 계획(Data Management Plans)은 기관 내외부에서 기금을 받고자 하는 모든 연구 프로젝트에서 표준이 되었다. 그러나 무엇이 보존되어야 하는지, 어떻게 보존되어야 하는지, 또는 얼마나 오랫동안 보존되어야 하는지에 대한 정의는 존재하지 않는다.

아카이브의 관점에서 보자면, 정보 접근성 및 개인정보 연구 하에서 소송 관련 연구와 요청에 대한 수요가 증가하고 있다. 이것은 정보가 디지털적으로 시의적절하게 제공될 것이라는 기대에 따른 것일 수 있다. 디지털 환경에서 다수의 버전과 사본이 생산되는 것을 감안할 때 이것은 기억기관들에 상당한 행정적 부담을 안길 수 있다.

자료 선정과 관련한 중요한 문제들

철저한 방법론적 및 전문적 비판 분석을 통해 유산 자료로써 장기 보존의 가치가 있는 연구 데이터의 요소를 규정해야 한다. 이것은 아카이브에서 사용하는 방법과 비슷하다. 이와 관련한 질문의 예를 들자면 다음과 같다.

• 데이터의 과학적 질(quality)은 어떠한가? 그 데이터는 어떻게 생산되었는가? 누가 생산했는가? 얼마나 개방(open)되어 있는가?
• 해당 데이터와 관련한 개인정보 문제가 있는가? 있다면, 그러한 개인정보 문제가 얼마나 오랫동안 유효한가?
• 해당 데이터를 생산한 과정이 최소의 비용으로 쉽게 재현될 수 있는가?
• 해당 데이터가 복제 불가능한 방식이나 값비싼 비용을 들여 생산되었는가?

정부와 기금제공기관 및 연구기관들은 FAIR 원칙에 따라 연구 데이터를 보존하는데 투자해야 한다.

국내외적으로 기관 간의 협력을 통해 날로 증가하는 연구 데이터의 저장과 보존을 관리할 수 있는 지속가능한 인프라를 구축할 수 있다. 데이터를 유산보존기관으로 옮기지 않고 창작자 기관에 남겨두는 모델(post-custodial model)을 고려해볼 수도 있을 것이다. 어떤 경우에는 창작자 기관이 유산보존기관보다 더 효과적으로 데이터를 보존할 능력이 있을 수 있다.

사서와 기록보존 전문가, 정보 전문가, 데이터 기술자, 컴퓨터 공학자, 연구자가 모두 맡은 바 역할이 있으며, 그렇게 할 때 우리의 과학 유산 보존에 책임이 있는 전문 분야들의 범주를 넓힐 수 있다.

부록 4: 소셜 미디어의 평가와 선정에 관하여

소셜 미디어란 무엇인가?

소셜 미디어 콘텐츠는 쌍방향적인 웹 서비스에서 이용자들에 의해 생성된다. 콘텐츠는 이미지, 문자, 오디오 등 플랫폼에서 허용되는 것은 무엇이든 될 수 있다.

소셜 미디어 기록은 어떻게 식별하는가?

모든 소셜 미디어 기록은 소셜 미디어 사이트 상에 올라온 신규 아이템을 구분하는 식별 번호나 참조를 가지고 있다. 해당 소셜 미디어 사이트의 모든 이용자에게 동일하게 제공되는 구조와 설계의 요소들은 다른 웹사이트와 같이 웹 아카이브 시스템과 함께 보존되어야 한다.

소셜 미디어 기록을 수집하고자 할 때는 고려해야 할 중요한 질문들이 많다. 다시 말해, 이 자료를 모아 수집하는데 여러분의 기관이 가장 적임자인가라는 것이다.

서비스 제공자들과는 어떻게 협력하는가? 소셜 미디어 기록은 어떻게 캡쳐하는가? 기술적인 측면에서 고려해야 할 것은 무엇인가?

우리는 모든 기록을 담은 파일을 수집하기 위해 API(Application Programming Interfaces)와 다운로드 도구들을 이용한다. API가 무엇인가에 대해서는 여러 가지 정의가 있지만, 위키피디아 와 미국기록전문가협회(Society of American Archivists) 의 정의가 가장 도움이 된다.

소셜 미디어 기록은 대부분의 경우 API로 캡쳐될 수 있지만, 스크레이핑(scraping)과 같은 기법이 요구되는 경우도 있다.

전략 및 도구 유형:

• 웹 스크레이핑/크롤링(crawling): 웹 스크레이퍼나 크롤러는, 디폴트로 포맷되지 않은 원시 데이터(raw data)를 획득하는 웹브라우저처럼, 데이터를 다운로드하는 브라우징 소프트웨어이다.
• API 명령: API로 쿼리를 보내고 특정한 매개변수를 지닌 포맷된 데이터를 받는 터미널 콘솔 명령으로 데이터를 획득하는 것.
• 내보내기 서버(Exporting server)/프로필 데이터: 소셜 웹사이트 서비스에 공식 신청을 해서 우리 프로필에 관한 모든 데이터와 우리가 관리하는 이용자들의 모든 데이터를 받는 것.

아래에서는 소셜 미디어를 캡쳐하는데 사용될 수 있는 이러한 유형의 전략과 도구에 대해 보다 자세한 정보를 제공한다.

소셜 미디어 기록을 캡쳐하기 전에 생각해보아야 할 문제들:

• 이 정보를 캡쳐하는데 여러분의 기관이 적임자인가? 그렇다면 여기에 참여시켜야 할 파트너 기관들이 있는가?
• 얼마나 많은 기록을 캡쳐하고자 하는가 또는 캡쳐할 수 있는가? 여러분의 서버나 외장 하드에 충분한 여유 공간이 있는가?
• 이러한 모든 소셜 미디어 기록에 대한 보존 전략을 갖고 있는가?

소셜 미디어 수집과 관련한 사회적 문제

소셜 미디어 플랫폼 중 일부는 기본적으로 개방형이지만, 특정 집단에만 제한되어 있는 플랫폼도 있다. 이 콘텐츠를 수집하는 행위가 개인이나 가족 또는 공동체에 어떠한 영향을 끼칠 것이며, 대상 집단이 어떻게 수집 결정에 영향을 끼치는가를 조사해볼 필요가 있다. 다음은 이와 관련하여 고려해야 할 질문들이다.

• 이용자들이 소셜 미디어를 공적 정보로 보는가 아니면 사적 정보로 간주하는가?
• 소셜 미디어 플랫폼의 이용자들이 스스로를 ‘출판자’로 간주하고 자신의 콘텐츠가 국가기관에 의해 수집되는 자료의 범위 내에 있다고 생각하는가?
• 소셜 미디어 수집 윤리와 관련하여 다층적인 틀이 있을 수 있는가? 또는 다른 플랫폼에 대해서는 다른 접근법이 필요한가?
• 사람들이 소셜 미디어를 이용하는 여러 가지 방식에 대해 얼마나 잘 이해하고 있는가?
• 수집 허가를 받아야 할 때는 언제이고, 받지 않아도 될 때는 언제인가? 소급하여 허가를 받을 수 있는가? 각각의 경우에 이러한 컬렉션에 대해 어떠한 유형의 접근성이 제공될 수 있는가?

소셜 미디어의 수집과 관련한 법적 문제

• 모든 소셜 미디어를 동일하게 처리해야 하는가, 아니면 특정한 소셜 미디어 플랫폼이 사회에서 이용되는 방식에 따라 다른 접근법이 필요한가?
• 수집 의무와 개인정보 보호의 필요성 간의 균형은 어떻게 맞출 수 있는가? 이 활동을 수행하면서 동시에 기관은 어떻게 개인 정보에 대해 신뢰받는 리포지터리가 될 수 있는가?
• ‘잊혀질 권리’에 대한 관할당국의 입장은 무엇인가?
• (트위터 자료와 같이) ‘관할 사법권이 혼재되어 있는’ 디지털 콘텐츠는 어떻게 할 것인가?

참고자료

• Corrado, E. M., Moulaison, H. L. (2017). Digital Preservation for Libraries, Archives and Museums. (2nd Ed.). Rowman & Littlefield.
• Russell, M. A., Klassen, M. (2018). Mining the Social Web. O’Reilly Media. (3rd Ed.)

부록 5: 인공지능(AI)에 관하여

서론

공공기관과 민간기관에서 AI의 사용이 점차 보편화되고 있다. AI는 대량의 구조화된 데이터(즉, 데이터 세트)와 비구조화된 데이터(예. 워드 프로세싱 문서, 프리젠테이션, 시청각 자료)를 분석할 수 있는 효과적이고 효율적인 수단으로 간주된다. 기관은 AI를 통해 인간의 힘만으로는 얻기 어려운 통찰을 데이터에서 얻어낼 수 있다. AI는 대량의 데이터를 분석하여 정책 결정을 내리고, 치료법을 개발하고, 광고 캠페인을 만드는 등 수많은 일을 가능케 한다. 이러한 도구로부터 얻어진 결과물은 여러 분야에서 의사결정 과정을 촉진하며, 그 결과 문서화하고 캡쳐할 필요가 있는 기록이 만들어진다.

이 섹션에서는 먼저 AI를 정의한 후, 평가 및 선정 과정에서 평가하고 고려해야 할 요소들을 살펴볼 것이다. 그런 다음, 민관 협력, 이러한 기록물의 수집과 관련하여 기록유산기관이 갖고 있는 역량과 자원 등 AI 기록의 수집에 영향을 끼치는 몇 가지 요소들에 대해 논의할 것이다. 이 섹션은 평가 및 선정 과정에서의 AI에 대한 논의로 마무리한다.

이 섹션은 AI 기록물의 평가 및 선정을 둘러싼 과정을 간소화하기 위한 첫 번째 시도이며, 기록유산 전문가들의 경험과 이해가 증가하면서 점차 발전할 것이다.

정의

인공지능(AI)은 여러 가지 방식으로 규정될 수 있는데, 단 하나의 합의된 정의는 없지만 이 장에서는 “컴퓨터에서 지능적인 행동의 시뮬레이션을 다루는 컴퓨터 과학의 한 분야, 기계가 지능적인 인간 행동을 모방하는 능력”으로 규정할 것이다(Marr, 2018). AI의 개념은 감독을 받는(supervised) AI와 감독받지 않는(unsupervised) AI로 크게 구분할 수 있다.

감독 받는 알고리즘이나 감독 받는 기계학습은 태그가 붙은 훈련용 데이터를 이용해 알고리즘이 사람의 이름이나 장소와 같은 패턴을 인식하도록 훈련받는 것이다. 그런 다음, 알고리즘에 태그가 붙지 않은 원시 데이터를 제공하여 그 정확성 수준을 평가한다(“Precision and Recall,” 2021).

감독 받지 않는 알고리즘 또는 감독 받지 않는 기계학습은 알고리즘이 내장된 통계 확률(즉, 베이지안 추론)을 이용하여 태그가 붙지 않은 데이터에서 패턴을 인식하는 것이다. 이 과정은 감독 받는 기계학습과 달리 인간의 개입을 최소화한 상태에서 이루어진다(“Unsupervised learning,” 2021).

딥 머신 러닝(deep machine learning), 잠재의미색인(latent semantic indexing), 자연어 처리(natural language processing) 등 감독 받는 기계학습과 감독 받지 않는 기계학습에는 여러 가지 하위 범주와 유형이 있다. 이 장의 목적은 그러한 모든 유형을 정의하고 설명하는 것이 아니라, 단지 개요적으로만 보여주는 것이다.

AI는 어떻게 평가하고 선정하는가?

AI를 평가하고 선정할 때는 고려해야 할 사항이 많다. 감독을 받든지 안 받든지, AI는 단순히 알고리즘의 결과물을 넘어서는 것이다. 이러한 유형의 기록물에서는 로그, (구조화된 그리고 구조화되지 않은) 데이터, 코드 반복(iteration), 결과물(즉, 시각화)과 마지막 코드 등 평가하여 캡쳐해야 할 요소들이 많다. 현장 전문가들은 또한 의사결정을 위해 알고리즘을 생성하여 사용한 이유 등과 같이 창작의 맥락을 평가할 필요가 있을 것이다. 그것이 수집의 범위에 포함되는지 여부에 영향을 끼칠 것이기 때문이다. 마지막으로, 법률적인 측면이 수집 결정에 영향을 끼칠 수 있다. 이 문제는 앞에서 상세히 다루었으나, 이 섹션에서는 민관협력의 결과, 특히 정책 결정에서 정부에 의한 AI 사용 문제를 논의할 것이다.

i) AI는 언제 기록물이 되는가?

앞서 언급한 바와 같이 AI가 수집 대상인지 아닌지를 결정할 때 고려해야 할 법적인 측면이 있을 수 있으나, 현장 전문가들이 AI 기록물의 장기적인 가치를 평가할 때 고려해야 하는 또 다른 문제들이 있다. 일부 예를 들자면 다음과 같다.

• AI의 결과물이 정책 개발과 정부 정책의 이행에 영향을 끼쳤는가? 이것이 국민들에게 영향을 끼치는가? 국민들이 권리를 주장하고 수호하는데 영향을 끼치는가?
• AI의 결과물이 조직의 사명을 바꾸었는가?
• AI의 사용이 조직의 핵심 프로젝트에 영향을 끼쳤는가? 또는 결정이 내려지는 방식에 영향을 끼쳤는가?
• AI의 사용으로 조직이나 정부가 결정을 내리는 방식을 바꾸었는가?
• AI의 개발 및 훈련에 여러 조직이나 기구가 참여했는가? 그렇다면, AI 코드는 누가 소유하는가? 누가 훈련용 데이터를 소유하는가? 결과물은 누가 소유하는가? 이들이 같은 조직인가?

처음 네 가지 질문에 대한 답변이 ‘그렇다’인 경우, AI는 기록유산기관이 수집해야 할, 역사적인 가치를 지니는 기록물이라고 할 수 있다. 마지막 질문은 AI의 제작과 훈련 및 사용에 하나 이상의 조직이 관여할 때의 문제를 드러내기 위한 것이다. 이 내용은 iii) 민관협력 섹션에서 보다 자세히 다루어질 것인데, 선정 과정에 중요한 영향을 끼칠 수 있다.

수집 대상의 범주는 AI의 다양한 요소들을 이해함으로써만 평가될 수 있다. 그럼에도 불구하고, 이전(transfer)이 필요한 요소들의 범위와 양이 기록유산기관의 역량을 초과할 수 있다. 이러한 기록물들이 캡쳐 및 보존되도록 하기 위해서는 기록유산기관들이 직면한 이러한 문제에 대해 혁신적이고 창의적인 해결책이 필요할 것이다. 우리는 iv) 유산보존기관들의 역량에서 몇 가지 아이디어를 검토해볼 것이다.

ii) AI의 요소들

AI 기록물은 단순히 알고리즘의 결과물만이 아니다. AI가 그 결과물에 도달한 방식을 이해하려면 데이터와 로그북, 코드가 필요하기 때문이다. 그림 1.1.은 단순한 AI 기록물에 수반되는 다양한 요소들을 개요적으로 보여준다. 여기서 단순하다는 것은 캡쳐해야 하는 기록(로그와 데이터)과 함께 단 한 개의 코드가 있다는 뜻이다. 이 그림은 알고리즘을 사용하는 조직이 연구 질문의 개발에서부터 데이터의 수집 및 클리닝(cleaning), 코드의 개발 및 반복에 이르기까지 결과물에 이르는 모든 과정을 통제한다고 가정한다.

그림 1.1 단순한 AI 기록물의 요소들

1) 연구 질문

AI를 이용하는 프로젝트는 언제나 답변을 요하는 연구 질문들을 갖고 있다. 이러한 질문은 관련 데이터를 찾아내기 위한 기반이며, 최종 결과에 도달하기 위한 코드를 개발하는 과정에서 데이터 클리닝 및 반복과 관련한 결정에 영향을 끼친다. 현장 전문가는 평가 및 식별 과정의 초반에 이러한 연구 질문들을 이해해야 한다. 무엇이 이전(transfer)의 범주에 해당하는지 해당하지 않는지를 결정하는데 영향을 끼칠 수 있기 때문이다.

2) 데이터

알고리즘을 훈련시키기 위해서는 다양한 유형의 데이터(구조화된 데이터, 비구조화된 데이터, 소셜 미디어)를 찾아 한자리에 모을 것이다. 구조화된 데이터는 표 형식으로 된 데이터(예. 엑셀 스프레드 시트)로 구성된 반면, 비구조화된 데이터는 사전에 정의된 모델이 없는 데이터(예. 워드 프로세싱 문서나 프리젠테이션)이다. 소셜 미디어는 구조화된 데이터이기도 하고 비구조화된 데이터이기도 한데, 그렇기 때문에 별도의 데이터 범주가 된다(Price, 2013). 데이터의 선정은 로그에 기록되어야 하는데, 이것은 AI 개발 및 훈련 과정을 위한 검사 추적(audit trail)으로 기능한다. 로그는 소스, 콘텐츠, 날짜 범위, 샘플 세트 등 데이터에 관한 정보를 담고 있어야 한다.

3) 클리닝된 데이터

서로 다른 소스에서 온 모든 데이터는 집합(aggregated) 및 클리닝되어야 할 것이다. ‘클리닝’이라는 표현은 연구 질문과 무관한 데이터 또는 알고리즘에 들어가는 기타 데이터(예. 센치미터(cm)를 미터(m)로 바꾸는 것)와 정렬되어야 하는 데이터가 있음을 의미한다. 알고리즘에 의한 정보의 비교와 분석을 촉진하기 위해서는 데이터 클리닝 단계가 필요하다. 데이터 클리닝 단계에서 내려진 모든 결정은 로그북에 기록되어야 하는데, 이것은 연구자와 컴퓨터 과학자들이 AI 분석 결과로 얻어진 결정과 결론을 확증하기 위해 결과를 재현하는데 필요하다(Mackenzie, 2019).

4) 코드

코드는 연구 질문들에 대한 응답을 컴퓨터적 및 수학적으로 나타낸 것이다. 코드는 알고리즘이 데이터를 해석하고 분석하여 ‘정답’이나 응답을 도출하도록 만든다. 코드는 연구 질문들에 대해 가능한 최고의 답변을 도출하도록 반복적인(iterative) 프로세스로 개발된다. 이 과정의 일환으로써, 알고리즘 결과물의 무결성을 확보하기 위해 정확성(정밀도 및 재현율(recall))이 평가되어야 한다.

코드 개발 과정은 로그북이나 코드 개발 과정을 검사하도록 설계된 소프트웨어에 기록할 수 있다. 다시 말하지만, 알고리즘 결과의 재현성을 지원하여 결과의 무결성, 더 나아가 그 결과를 이용하여 내린 결정의 무결성을 검증할 수 있도록 이 프로세스를 문서화하는 것이 중요하다.

5) 결과물

결과물은 알고리즘이 적용한 컴퓨터 프로세스의 결과로, 시각화나 통계 확률과 같이 다양한 방식으로 표현될 수 있다.

iii) 민관 협력관계의 영향

• 코드 또는 알고리즘은 누구의 소유인가? 기업이 소유한다면, AI 결과물을 어떻게 기록하는가?
• 훈련 데이터 세트는 누가 소유하는가? AI에 입력되는 차후의 데이터는 누가 소유하는가?
• AI의 결과물(예. 데이터 세트 또는 시각화)은 누가 소유하는가?

표면적으로는 AI를 이용하여 내리는 결정에 대해 공기관이 책임을 져야 하고, 실행 전에 지적재산 문제를 고려해야 하지만, 정책 결정에서는 상황이 다를 수 있다. 이것은 책무성과 투명성 및 향후 공적 기록과 관련하여 윤리적인 문제를 야기하며, 대안적인 방식을 통해 의사결정에서 AI를 사용했다는 사실을 기록해야 할 수 있다. 현장 전문가들은 몬트리올 선언(Montreal Declaration)이나 ACM 선언(ACM Declaration)과 같은 ‘알고리즘 책무성’ 관련 선언들을 조사해볼 필요가 있다.

iv) 유산보존기관들의 역량

역량(인프라, 자원, 인력)의 문제는 이 장의 앞부분에서 설명한 평가 및 선택 결정 나무, 특히 ‘지속가능성’ 부분에서 부분적으로 다루었으나, 현장 전문가들은 AI의 중요성을 보다 깊이 있게 인식해야 한다. 지속가능성은 상시적인 문제이며, 기록유산공동체는 이러한 자료를 어떻게 소화하고, 보존하고, 만들 것인가라는 질문을 심층적으로 탐색해봐야 한다. 따라서 역량 평가가 필요하지만, 실질적인 문제는 기록유산공동체가 지속가능한 장기적인 접근법을 모색하는 동안 단기적으로 어떠한 잠정적인 해결책을 마련해야 하는가라는 점이다.

기타 고려사항

‘본 디지털’ 기록물의 평가 및 선정에서 AI의 사용

AI는 선정과 보존이 필요한 기록물이지만, 자료 선정을 위해 평가해야 하는 디지털 자료의 양과 복잡성이 갈수록 증가하는 상황을 고려할 때 기록유산 전문가들이 일방적으로 전통적인 평가·선정 기법을 적용하는 것은 불가능하다. 앞으로는 어떤 형태로든 자동화가 필요할 것이고, 기록유산공동체에서는 그러한 기술의 장단점을 평가하여 언제 어디에서 적용하는 것이 가장 좋을지를 결정해야 할 것이다. 평가와 선정 과정에서 이러한 기술들을 실험해보는 기록유산기관들이 있다.

추천 자료: AI in Appraisal and Selection

• Caplan, R., Donovan, J., Hanson, L., and Matthews, J. (2018). Algorithmic Accountability: A Primer. Data and Society. https://datasociety.net/wpcontent/uploads/2018/04/Data_Society_Algorithmic_Accountability_Primer_FINAL-4.pdf
• Chumtong, J., Kaldewey, D. (2017). Beyond the Google NGRAM Viewer: Bibliographic Databases and Journal Archives As Tools for Quantitative Analysis of Scientific and Meta-Scientific Concepts. FIW Working Paper No 8. https://www.fiw.uni-bonn.de/publikationen/FIWWorkingPaper/fiw-working-paperno.-8
• Engin, Z., Treleaven, P. (2018, August). Algorithmic Government: Automating Public Services and Supporting Civil Servants in using Data Science Technologies. The British Computer Society. https://academic.oup.com/comjnl/advance-article/doi/10.1093/comjnl/bxy082/5070384
• Ertzscheid, O. (2017). L’appétit des géants: pouvoir des algorithmes, ambitions des plateformes. Paris: C&F.
• Information Privacy Commissioner. (2017). Big Data, Artificial Intelligence, Machine Learning and Data Protection. London: ICO. https://ico.org.uk/media/for-organisations/documents/2013559/big-data-ai-mland-data-protection.pdf
• LeSueur, A. (2016). Robot Government: Automated Decision-Making and its Implications for Parliament [Draft chapter for publication in Parliament: Legislation and Accountability. Oxford, UK: Hart Publishing. https://papers.ssrn.com/sol3/papers.cfm?abstract_id=2668201
• National Archives and Records Administration. (2020, October). Cognitive Technologies White Paper: Records Management Implications for the Internet of Things, Robotic Process Automation, Machine Learning and Artificial Intelligence. Washington, D.C. https://www.archives.gov/files/recordsmgmt/policy/nara-cognitive-technologies-whitepaper.pdf
• The National Archives UK. (2016). The Application of Technology Assisted Review to Born-Digital Records Transfers, Inquiries and Beyond. (2016). London. http://www.nationalarchives.gov.uk/documents/technology-assisted-review-to-born-digital-recordstransfer.pdf
• O’Neill, C. (2016). Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy. New York: Crown Publishing.
• Padilla, T., Allen, L., Potvin, S., Roke Russey, E., Varner, S. (2017, March). Collections as Data. https://doi.org/10.17605/OSF.IO/MX6UK
• Rolan, G., Humphries, G., Jeffrey, L., Samaras, E., Antsoupova, T., Stuart K. (2018, November). More Human than Human? Artificial intelligence in the archive. Archives and Manuscripts, 47(2), 179-203.
• World Wide Web Foundation. (2017). Algorithmic Accountability: Applying the Concept to Different Country Contexts. https://webfoundation.org/docs/2017/07/Algorithms_Report_WF.pdf

부록 6: 메타데이터의 관리

메타데이터

메타데이터는 보통 ‘데이터에 관한 데이터’로 정의되는데, 정확하기는 하지만 아주 정밀하지는 않다. 유산보존기관에서 필요한 메타데이터는 보존되는 디지털 자료의 접근 가능성, 해독성, 가용성을 담보하는데 반드시 필요한 (디지털 또는 물리적 형태의) 모든 정보를 포괄하는 것으로 간주되어야 한다. 메타데이터는 기관이 디지털 유산을 보존하고 그것에 대한 접근성을 얻는데 필요한 정보를 제공한다.

유산보존기관들은 대체로 다음과 같이 디지털 유산의 장기보존에 반드시 필요한 세 가지 유형의 메타데이터를 보존한다.

• 구조적(기술적으로 디지털 콘텐츠를 읽는데 필요함)
• 기술(記述)적(서지, 아카이브 또는 박물관 맥락 정보를 포함함. 시스템에 의해 생성되거나 유산보존 전문가, 콘텐츠 창작자 또는 사용자들에 의해 생성될 수 있음)
• 행정적(장서에 포함되어 있는 디지털 객체의 관리를 기록함)

디지털 유산이 ‘콘텐츠’라면, 메타데이터는 ‘맥락’을 제공한다.

디지털 메타데이터에는 다섯 가지의 기본적인 기능 요건이 있다.

식별(Identification): 메타데이터는 각 디지털 객체가 고유하고 명료하게 식별되도록 해야 한다. 이를 위해서는 각 품목에 고유한 식별자가 배정되어야 할 것이다.

장소(Location): 메타데이터는 각 디지털 객체의 장소를 식별하여 검색될 수 있도록 해야 한다. 시스템이 이동(migration) 또는 갱신될 때 품목들이 소실되지 않도록 이 장소 데이터의 장기적인 유효성이 보장되어야 한다.

기술(Description): 재현(recall)과 해석을 위해서 각 디지털 객체에 대한 기술이 필요하다. 기술적(descriptive) 메타데이터는 콘텐츠에 대한 데이터와 맥락에 대한 데이터라는 두 개의 범주로 나뉜다. 품목의 콘텐츠에 대한 데이터는 조사와 자문을 통해 대체로 다시 생성될 수 있다. 그럼에도 불구하고, 자원 발견(resource discovery)을 위한 검색 도구로써 유용하다. 특정 품목이 언제, 어디에서, 누구에 의해 생성되었고, 무엇을 위해 사용되었고, 컬렉션에서 그 자리가 어디인가 등을 설명하는 맥락에 대한 데이터는 한 번 소실되면 다시 생성하기가 훨씬 더 어렵다.

가독성(Readability): 디지털 객체를 장기간 동안 읽을 수 있으려면 해당 디지털 객체의 구조, 포맷, 인코딩에 관한 메타데이터가 필요하다. 이 기능적인 요건은 디지털 객체에서 특히 중요한데, 중개 기술이 없으면 디지털 객체를 읽을 수 없기 때문이다. 이 메타데이터는 관련 표준을 식별하고, 해당 디지털 자원의 온전한 제출에 필요한 기술(technical) 문서, 전거 파일, 기타 관련 자료에 대한 참조를 제공해야 한다. 캡슐화(encapsulating) 파일 포맷에서부터 데이터의 표현 및 암호화에 이르기까지 디지털 객체의 모든 층이 해석되도록 주의를 기울여야 한다.

메타데이터의 저장

많은 디지털 파일 포맷이 파일 자체 내에 메타데이터가 내장되도록 한다. 이것은 데이터와 메타데이터가 링크되도록 하는 장점이 있다. 그러나 메타데이터는 또한 그것이 기술하는 디지털 자원과 별도로 저장될 필요가 있다. 이것은 위에서 설명한 기능 요건을 충족시키는데 반드시 필요하다. 예를 들어, 암호화된 디지털 품목은 코드가 품목에만 내장되어 있으면 읽을 수가 없다.

메타메타데이터(Metametadata)

메타데이터의 신뢰성과 진실성을 보증하기 위해 메타데이터의 소스와 그것이 컴파일된 방식에 관한 데이터가 필요하다. 해당 디지털 정보의 향후 검색과 이해를 위해 맥락화가 반드시 필요하다.

이 데이터는 다음을 포함할 수 있다.

• 이 메타데이터는 언제 누구에 의해 컴파일 되었는가?
• 이 메타데이터는 자동으로 하비스팅되었는가 수동으로 되었는가?
• 어떤 도구와 기법이 사용되었는가?

장기 보존용 디지털 유산의 선택에 관한 유네스코/퍼시스트 지침(제2판)①

¹디지털 보존 성숙도 모델의 예로는 NDSA의 ‘디지털 보존의 단계’(Levels of Digital Preservation, https://ndsa.org/publications/levels-of-digital-preservation/)와 DPC의 ‘신속 평가 모델’(Rapid Assessment Model, https://www.dpconline.org/digipres/dpc-ram)이 있다.

²https://www.ifla.org/publications/node/93470