
Image by Marco Verch, from Ccnull
AI 미궁: Cloudflare의 새로운 도구, 가짜 웹 페이지로 AI 크롤러를 속이다
Cloudflare는 웹사이트에서 허락 없이 데이터를 추출하는 AI 기반 웹 스크레이퍼를 퇴치하기 위해 설계된 도구인 “AI Labyrinth”를 발표했습니다.
급하신가요? 이것이 주요 사실입니다:
- 이 도구는 스크래퍼들의 시간을 낭비시키기 위해 현실적이지만 쓸모없는 AI가 생성한 콘텐츠를 만듭니다.
- AI 미궁은 robots.txt를 무시하는 봇들을 대상으로 하며, 이에는 Anthropic 및 Perplexity AI의 것들도 포함됩니다.
- 이는 다음 세대의 꿀통 역할을 하여, 미인가 크롤러를 감지하고 지문을 추출합니다.
AI 라비린스는 이러한 봇들을 완전히 차단하는 대신, AI가 생성한 무한한 페이지의 미로로 그들을 오도하여 그들의 시간과 컴퓨팅 파워를 낭비시킵니다.
“저희가 무단 크롤링을 감지하면, 요청을 차단하는 대신 AI가 생성한 일련의 페이지로 연결하겠습니다. 이 페이지들은 크롤러가 그것들을 훑어보도록 충분히 설득력 있는 내용을 가지고 있습니다,”라고 Cloudflare는 블로그 글에서 설명했습니다.
“하지만 이러한 내용은 실제로 저희가 보호하고 있는 사이트의 내용이 아니므로, 크롤러는 시간과 자원을 낭비하게 됩니다,”라고 Cloudflare는 덧붙였습니다.
ArsTechnica는 AI 스크래퍼들이 문제라고 지적합니다. 왜냐하면 이들은 웹사이트에서 대량의 데이터를 종종 허가 없이 수집하여 AI 모델을 학습하는데 사용하기 때문입니다. 이로 인해 여러 문제가 발생합니다: 지적재산권을 침해하며, 웹사이트 소유자들이 접근을 규제하기 위해 사용하는 방법을 우회할 수 있습니다.
또한, 스크래핑은 민감한 또는 독점적인 데이터의 오용을 초래할 수 있습니다. 스크래핑의 양이 급격히 증가하였으며, 클라우드플레어(Cloudflare)는 매일 500억 건 이상의 크롤러 요청이 발생한다고 보고하고 있습니다.
이 대규모 데이터 추출은 웹사이트 자원을 고갈시키면서 사이트 성능과 개인정보 보호에 영향을 미치고, AI 개발에서의 데이터 활용에 대한 우려를 더욱 가중시키고 있습니다.
웹사이트 소유주들은 전통적으로 robots.txt 파일을 사용하여 봇이 접근할 수 있는 범위와 그렇지 않은 범위를 지시해왔지만, 많은 AI 회사들 – 주요 기업인 Anthropic과 Perplexity AI를 포함하여 – 이러한 지시사항을 무시하는 것으로 비난받았다고 The Verge에서 보도했습니다.
Cloudflare의 AI 미궁은 이런 원치 않는 봇들을 처리하는 데 더 공격적인 접근법을 제공합니다. 이 도구는 “차세대 모의혹”으로 작동하여, 봇들을 실제처럼 보이지만 AI 훈련에는 결국 쓸모없는 인공 콘텐츠의 웹으로 더 깊게 끌어들입니다.
전통적인 모의혹과는 달리, 봇들이 식별하는 것을 배웠습니다, AI 미궁은 Cloudflare의 Workers AI 플랫폼을 사용하여 현실적으로 보이지만 관련성이 없는 정보를 만듭니다.
“진짜 사람이라면 AI가 생성한 말도 안 되는 미로 속에서 네 번째 링크까지 깊이 들어가지 않을 것입니다,”라며 클라우드플레어가 지적했습니다. “그럼에도 불구하고 그렇게 들어가는 방문자는 대부분이 봇일 가능성이 매우 높으므로, 이는 우리에게 나쁜 봇을 식별하고 지문화하는 새로운 도구를 제공합니다.”
AI가 생성한 콘텐츠는 과학적으로 사실적이지만, 보호받아야하는 실제 웹사이트와는 관련이 없도록 설계되었습니다.
이로 인해 이 도구는 여전히 AI 스크래퍼들을 혼란스럽게 하면서도 잘못된 정보를 퍼뜨리는 데 기여하지 않습니다. 이 오해를 불러일으키는 페이지들은 인간 방문자들에게는 보이지 않으며 검색 엔진 순위에도 영향을 미치지 않습니다.
AI Labyrinth는 모든 Cloudflare 사용자들에게 무료로 제공되는 선택적 기능입니다. 웹사이트 관리자들은 Bot Management 설정 아래에서 Cloudflare 대시보드를 통해 이를 활성화할 수 있습니다.
이 회사는 이것을 AI 주도의 대응책의 시작일 뿐이라고 설명하며, 향후 가짜 페이지를 더욱 더 속이기 쉽게 만드는 계획을 갖고 있다.
웹사이트와 AI 스크래퍼 간의 고양이와 쥐 놀이는 계속되고 있으며, Cloudflare는 온라인 컨텐츠를 보호하기 위한 혁신적인 방법으로 접근하고 있다. 그러나 이러한 함정에 AI 회사들이 얼마나 빨리 적응할 수 있을지, 그리고 이 전략이 웹 데이터에 대한 전쟁의 확대를 초래할 수 있을지에 대한 의문이 여전히 남아 있다.
댓글 달기
취소