상단으로 이동하기

구글, 과학자를 위한 데이터 검색 엔진 ‘데이터세트 서치’ 공개Posted Sep 6, 2018 3:46:02 PM

황승환

공부해서 남 주는 사람이 되자! 가열차게 공부 중입니다.
dv@xenix.net

구글이 과학자, 언론인, 호기심 많은 일반인을 위한 데이터 검색 엔진 ‘데이터세트 서치(Dataset Search)’를 5일(현지시각) 공개했다. 인터넷 공간에는 수많은 사이트와 수많은 데이터가 존재하지만 각기 다른 곳에 다른 방식으로 존재하기 때문에 이를 찾고 분석하는 것이 쉽지 않다. 이런 불편을 해결하기 위한 것으로 가이드라인에 따른 표준화된 형태로 정리된 데이터를 손쉽게 검색할 수 있도록 특화된 검색 엔진이 데이터세트 서치다.

논문, 학술지 등을 검색할 때 사용하는 구글 학술검색(Google Scholar) 검색 엔진과 유사하다. 데이터세트 서치로 검색하면 게시 사이트, 디지털 도서관, 개인 웹 페이지 등 다양한 곳에 있는 데이터 세트를 찾을 수 있다. 효율적인 검색을 위해 데이터 세트 작성자, 게시 날짜, 데이터 수집 방법, 데이터 관련 용어 등이 포함되는 게시자를 위한 가이드라인도 만들었다. 2011년 구글, 마이크로소프트, 야후가 정형 데이터 검색을 표준화하고 검색을 쉽게 할 수 있도록 함께 만든 스키마닷오알지(Schema.org)의 표준을 기반으로 하고 있다.

미 우주항공국(NASA), 미 국립해양대기청(NOAA), 하버드 데이터버스(dataverse.harvard.edu)와 미국 최대 사회과학데이터 보관소인 ICPSR(Inter-Universities for Political and Social Research) 등이 초기 파트너로 참여해 이곳에서 오랜 기간 구축한 데이터세트를 검색할 수 있다. 지원 언어나 데이터 검색도 아직은 부족하지만 표준화된 데이터 세트를 통해 생명 과학, 사회 과학, 기계 학습, 정부 데이터 등 폭넓고 다양한 분야의 데이터세트 검색 결과를 향상하는 것을 목표로 하고 있다.

참고링크

이 기사를 읽은 분들은 이런 기사도 좋아했습니다.