현재의 웹은 사람에게 대량의 테라바이트 정보가 있지만, 컴퓨터는 이를 이용할 수 없다. HTML 페이지에는 어려운 형태로 포맷되어 기계가 처리하기 어려운 형태로 정보가 있다.
이른바 Web 3.0은 오리지널 시맨틱웹이 될 가능성이 높다. 여기에서 "Web 3.0"라고 하는 말은 주요 웹 사이트가 웹 서비스로 전이하면서 세계의 정보를 효과적으로 이용하게 된다고 하는 의미로 사용하고 있다.
웹사이트에서 웹서비스로의 변화는 다음 2가지 중 하나의 방향으로 일어날 것이다.
일부 웹 사이트는 Amazon, del.icio.us, Flickr 등이 REST API 경유로 정보를 제공하게 될 것이다. 다른 하나는 정보를 독자적인 형태로 유지하지만, Dapper, Teqlo, Yahoo! Pipes와 같은 서비스를 이용해 Mash up 을 통해 제공하게 될 것이다.
more..
구조화 되어 있지 않은 정보는 구조화 된 정보로 되면서 인텔리젼트 컴퓨팅의 길이 열릴 것이다.
ㅇ Amazon E-Commerce API : Amazon 카탈로그 오픈 액세스
Amazon이 최초로 제공한 웹 서비스의 하나가 E-Commerce 서비스이다. 이 서비스는 Amazon 제품 카탈로그 항목의 대부분을 제3자의 액세스를 대상으로 한다. API는 매우 잘 되어 있으며 유저의 조작, 위슈리스트, 쇼핑카드 등이 가능하다.
ㅇ API 문화의 대두 : del.icio.us
Web 2.0 의 대명사인 del.icio.us도 자사의 웹 사이트 기능 일부를 API 경유로 공개한 것으로 유명하다.
del.icio.us API가 현재 제공하고 있는 것은 del.icio.us의 데이타베이스를 공개하는 것은 아니라는 점으로 Amazon과는 다르다. 이 API가 구현화하고 있는 것은 del.icio.us에 축적되고 있는 유저 정보를 조작하는 매쉬 업을 공인된 형태로 제공 가능하게 하는 기능이다.
ㅇ 표준화 된 URL--API가 없는 API
직접적인(데이타베이스) API가 없음에도 불구하고, 많은 기업은 del.icio.us에 정보를 활용하고 있다.
Delexa는 del.icio.us를 사용하여 Alexa 사이트를 카테고리화 하여, 재미있고 편리한 매쉬 업을 구현하였다. 예를 들면,"book"이라고 하는 단어로 태그 붙여진 유명한 사이트를 보기 바란다.

다른 예로 similicio.us라는 사이트에서는 del.icio.us를 사용하여 유사 사이트를 추천한다. 예를 들면, allblog.net과 비슷한 사이트를 추천하는 것이다. 아래 그림이다.

API 가 없는데 이러한 서비스는 어떻게 할 수 있는 것일까. 대답은 표준화 된 URL의 활용과 웹스크레이핑이라는 기술이다. 이것이 어떻게 움직이고 있는지를 보자.
del.icio.us에서는 "book"이라는 태그를 가진 모든 URL은 "http://del.icio.us/tag/book"이라고 하는 URL 아래에 있다. 또,"movie"라는 태그는 "http://del.icio.us/tag/movie" 아래에 있다. 이 URL 구조는 항상 같아서 http://del.icio.us/[tag] (새 창으로 열기)이 되는 것이다. 따라서, 어떤 태그라도 컴퓨터 프로그램이 원하는 태그를 가진 사이트 리스트를 포함한 페이지를 꺼낼 수 있다. 페이지를 얻을 수 있으면 프로그램이 스크레이핑, 즉 그 페이지에서 필요한 정보를 추출하는 것이 가능하게 되는 것이다.
ㅇ 웹스크레이핑 구조
웹스크레이핑은 페이지에서 정보를 구문 분석으로 꺼내는 것이라 생각해도 좋다. 웹페이지는 HTML로 코딩 되어 있고, 정보를 나타내는 트리구조를 가진다. 실제 데이터는 레이아웃 정보나 추가 정보와 서로 섞여 있어 컴퓨터로 취급하기 쉽진 않았다. 주어진 HTML 페이지에서 원 데이터를 뽑는 방법을 알고 있는 프로그램이 스크레퍼다. 이 프로그램은 특정 마크업를 분석하여 원 데이터가 어디에 있는지를 판단한다. 예를 들면, del.icio.us 페이지에서 URL를 추출하는 스크레퍼는 아래 그림과 같이 기능한다. 이러한 스크레퍼를 적용하면 임의로 주어진 태그에 대해서 그 태그를 가진 URL를 서치할 수 있다.

ㅇ Dapper, Teqlo, Yahoo! Pipes : 차세대 스크레핑 기술
Teqlo 는 유저가 웹 서비스와 RSS에서 매쉬업이나 위제트를 만들 수 있도록 초점을 맞추고 있다. Dapper는 어떤 웹 사이트에도 적용할 수 있는 일반적인 스크레핑 서비스를 개시하였다. Dapper는 웹페이지 스크레핑을 시각적인 인터페이스로 구현한 흥미로운 기술이다. Dapper는 몇개의 샘플 페이지를 정의하여 마커를 사용하여 비슷한 정보를 나타내게 한다. 이것은 단순하게 보이지만, 이를 실현하는데 Dapper는 복잡한 트리 매칭 알고리즘을 사용하고 있다.
ㅇ 웹사이트가 웹서비스가 된다
Dapper와 Teqlo와 같은 어플리케이션이 전체적으로 어떤 효과를 가지는지를 나타낸것이 아래 그림이다.

Amazon E-Commerce 서비스와 같은 오픈 API와 스크레핑, 매쉬업 기술을 조합하면, 어떠한 웹사이트도 가치있는 웹서비스로 변할 수 있다. 데이터는 오픈이기 때문에 소프트웨어가 이 데이터를 이용하는 것이 가능하다. 이 데이터를 리믹스하여 진짜 데이타베이스가 되는 것이다.
하지만, 이것이 대단한 일과 같이 들리지만 합법적일까하는 것이다.
스크레핑 기술의 합법성은 꽤 의심스럽다. 어떤 의미로는 웹 사이트가 소유한 정보의 절도라고 볼 수도 있다. 어디까지가 카피/페이스트 이며, 어디까지가 스크레핑인지 확실치 않기 때문에 복잡하다. 웹페이지 정보를 유저가 카피하여 보존하는 것은 상관없을지 모르지만, 소프트웨어가 자동적으로 처리하는 것은 위법일지도 모른다. 페이지를 스크레핑 하고 출처를 표시하지 않고 서비스를 제공하는 것은 위법일 것이다.
ㅇ 웹사이트가 웹서비스를 제공해야 하는 이유
웹 사이트(특히 온라인 소매점)가 API 제공을 검토해야 하는 이유는 얼마든지 있다. 가장 중요한 것은 관리 문제다. API를 만들면 스크레퍼가 필요치 않은 것과 동시에, 누가 어떻게, 어떤 이유로 데이터를 사용하고 있는지를 추적할 수 있게 된다. Amazon은 이를 이용하여 어필레이트를 촉진하여 트래픽을 유도하고 있다.
ㅇ 결론
웹이 리믹스됨에 따라 이 변화는 순조롭게 가지 않을 것이다. 규모의 문제와 법적인 문제도 결코 단순하지 않기 때문이다.
그러나, 웹사이트가 웹서비스로 되는 것은 "만약"이라는 문제가 아닌 "언제", "어떻게"라는 문제다. API는 알기 쉽고 웹 서비스가 되기 위해서는 바람직한 방법이다. 그러나, API가 없거나 불충분하면 스크레이이 계속 퍼져나갈 것이다. 시간이 심판을 내릴 것이다.
참고자료 ; http://www.readwriteweb.com/archives/web_30_when_web_sites_become_web_services.php (새 창으로 열기)
2007/04/02 - 포스트 Web2.0을 열어 갈 ‘metadata’ 시대로의 진화, "정보 독점은 자멸의 길" (새 창으로 열기)
2007/04/02 - WEB 2.0 문화의 상징 Minicards, 블로거에게 인기 (새 창으로 열기)
2007/04/02 - 시맨틱웹의 추천 사이트 (새 창으로 열기)
2007/03/27 - 'Second Life', 한국 시장에서 승산이 있을까 (새 창으로 열기)
2007/03/25 - 1인 미디어 공동체 ‘블로터’가 뜬다, (Bloter = blogger + reporter) (새 창으로 열기)
댓글을 달아 주세요
멋진글이네요 잘읽고갑니다