AI 봇들이 위키백과의 서버를 과부하시키고 있습니다.

Image by Oberon Copeland, from Unsplash

AI 봇들이 위키백과의 서버를 과부하시키고 있습니다.

읽는 시간: 2 분

위키미디어 재단은 자동화된 봇들이 인공지능 모델을 훈련시키기 위해 데이터를 크롤링함으로써 서버에 가해지는 압박이 증가함에 따라 경고를 울리고 있습니다.

급하신가요? 여기 간단한 사실들을 둘러보세요:

  • AI 봇들이 기록적인 수준으로 위키미디어 컨텐츠를 스크랩하고 있습니다.
  • 봇들로 인해 멀티미디어 대역폭 사용량이 50% 증가했습니다.
  • 고비용 트래픽의 65%가 이제 크롤러들로부터 유입됩니다.

재단의 최근 게시글에 따르면, 기계에 의해 생성된 트래픽이 전례 없이 증가하고 있는 반면, 실제 사람들에 의한 트래픽은 이 중 아주 작은 부분만을 차지하고 있습니다.

“2024년 1월 이후, 멀티미디어 컨텐츠를 다운로드하는 데 사용되는 대역폭이 50% 증가했다”는 게시물에 적혀 있습니다.

“이 증가는 사람들이 읽는 것에서 비롯된 것이 아니라, 대부분 자동화된 프로그램들이 공개 라이선스로 제공되는 위키미디어 커먼즈 이미지 카탈로그를 스크랩하여 AI 모델에 이미지를 공급하는 것에서 기인하고 있습니다”라고 게시물에 덧붙였습니다.

크롤러로 알려진 봇들이 위키미디어의 프로젝트, 특히 위키백과와 위키미디어 공용에서 적절한 출처 표시나 공식 접근 도구 없이 대량의 데이터를 도용합니다. 이 과정은 새로운 사용자들이 위키미디어를 찾아내는 것을 어렵게 만들며, 그들의 기술 시스템에 과도한 부담을 주게 됩니다.

예를 들어, 포스트에서는 지미 카터의 위키백과 페이지가 그가 2024년 12월에 사망한 날에 280만 회 이상 조회되었음을 언급합니다. 1980년 토론 비디오는 웹사이트 트래픽에 상당한 증가를 일으켰습니다. 그의 1980년 토론 비디오 역시 트래픽을 급증시켰습니다. 위키미디어는 이를 처리했지만—겨우 그랬습니다. 엔지니어들에 따르면, 본질적인 문제는 끊임없이 이어지는 봇 트래픽입니다.

“가장 비싼 트래픽의 65%가 봇에서 오고 있습니다,”라고 재단은 적었습니다. 봇들은 콘텐츠를 “대량으로 읽어” 특히 덜 인기 있는 페이지들을 트리거하며, 이는 위키미디어의 핵심 데이터 센터에 대한 비싼 요청을 유발합니다.

위키미디어의 콘텐츠는 무료로 사용할 수 있지만, 서버는 그렇지 않습니다. “우리의 콘텐츠는 무료이지만, 우리의 인프라는 그렇지 않습니다,”라고 재단은 말했습니다. 팀은 개발자들이 전체 사이트를 스크랩하는 대신 API를 사용하도록 권장함으로써 “인프라의 책임 있는 사용”을 촉진하기 위한 방법을 계속 개발하고 있습니다.

이 문제는 위키미디어뿐만 아니라 여러 다른 웹사이트와 출판사들에도 영향을 미치고 있습니다. 하지만 세계 최대의 개방형 지식 플랫폼인 위키미디어의 경우, 수백만 명이 의존하는 서비스의 안정성을 위협하고 있습니다.

이 기사가 마음에 드셨나요? 평가해 주세요!
정말 싫습니다 별로 좋아하지 않습니다 괜찮습니다 꽤 좋습니다! 정말 좋습니다!

마음에 드셨다니 기쁩니다!

Trustpilot에 여러분의 의견을 남겨 주실 수 있으실까요? 리뷰는 WizCase에게 큰 힘이 됩니다. 감사합니다!

Trustpilot에 리뷰 남기기
0 0명의 사용자가 투표
제목
코멘트
피드백을 주셔서 감사합니다
Loader
Please wait 5 minutes before posting another comment.
Comment sent for approval.

댓글 달기

Loader
Loader 더 보기