AI가 과학 문헌을 리뷰할 수 있을까요?
서두르시는 분들을 위한 요약 정보!
- AI는 과학 문헌을 빠르게 요약할 수 있지만 체계적인 검토의 정확성에는 부족하다.
- 전문가들은 완전히 자동화된 문헌 검토가 아직 수십 년은 더 걸릴 수 있다고 예측하고 있다.
- AI 요약은 오류를 범할 위험이 있으며, 저질이거나 오해를 불러일으키는 정보를 퍼뜨릴 수 있다.
AI가 연구 종합 분야에서 발전을 이루고 있지만, 그것이 넓은 범위의 과학 문헌을 완전히 분석하고 요약하는 능력에 대해 전문가들은 의견이 분분하다고 수요일에 발행된 Nature에서 발표된 문헌 검토에서 보고되었습니다.
헬렌 피어슨의 논문에서는 이 기술이 과학적 검토를 간소화하는 데 엄청난 잠재력을 가지고 있음을 보여주지만, 여전히 중요한 도전 과제들이 남아있다고 주장합니다.
미국 스타트업 FutureHouse의 이전 신경생물학 학생이자 이사인 샘 로드리게스가 AI가 과학 문헌을 다루는 것을 촉구하는 사람들 중 한 명이라고 Nature에서 보도했습니다.
지난 9월, 그의 팀은 AI 기반 시스템을 출시하여 수분 내에 수천 개의 인간 유전자에 대한 요약을 생성하였고, 이전에 기록되지 않았던 세부사항을 채웠습니다.
이 도구는 PaperQA2라고 불리며, 초기 테스트에 따르면 때때로 인간이 작성한 내용보다 정확성에서 뛰어난 요약을 생성하는 데 잠재력이 있는 것으로 확인되었습니다. 이는 Nature에서 보도되었습니다.
문학 검토를 위한 AI의 매력은 명확합니다. 전통적인 연구 검토는 종종 장황하고 시간이 많이 소요되어, 완성하기까지 수년이 걸리며 그들이 출판될 때까지 이미 구식이 될 위험이 있습니다.
AI, 특히 ChatGPT와 같은 대형 언어 모델(LLMs)은 대량의 데이터 베이스에서 데이터를 빠르게 컴파일하고 정보를 요약하는 가능성을 제공하며, 이는 Nature에서 지적한대로 연구자들에게 부담을 줄여줍니다.
이러한 발전에도 불구하고, AI 기반의 리뷰는 여전히 엄격한 기준을 통해 연구를 평가하고 결과를 종합하는 인간 주도의 체계적인 리뷰를 완전히 대체하기에는 아직 멀었다고 Pearson은 지적합니다.
Consensus나 Elicit 같은 AI 기반 검색 엔진 도구들은 연구자들이 학술 논문을 필터링하고 요약하는 데 도움을 줍니다. 이를 통해 첫 번째 층의 인사이트를 제공해줍니다.
하지만, 이들 도구는 철저한 골드 스탠다드 리뷰를 수행하는 데에는 한계가 있습니다. 본드 대학의 체계적 리뷰 전문가인 Paul Glasziou는 이러한 리뷰의 완전 자동화가 아직 수십 년은 더 걸릴 수 있을 것이라고 Pearson이 보도하였습니다.
이 기사는 AI의 한계가 정확성과 투명성에 대한 우려를 불러일으키는 방법에 대해 설명하고 있습니다. 예를 들어, LLM들은 맥락이 빠진 콘텐츠를 생성하거나 데이터를 잘못 표현할 수 있으며, 정보의 질을 평가하지 않고 신뢰할 수 없는 출처에서 자주 끌어옵니다.
또한, 그들은 “환각” 오류에 쉽게 빠집니다—존재하지 않는 참조나 데이터 포인트를 만드는 것입니다.
이를 완화하기 위해, 일부 시스템은 사용자가 특정 논문을 LLM에 업로드 할 수 있게 허용하며, 이를 통해 그 시스템은 업로드된 소스에만 분석을 기반으로 할 수 있습니다. 이는 부정확성을 줄이지만 완전히 제거하지는 못한다고 Pearson이 말합니다.
비평가들은 AI가 과학적 풍경에 저질이거나 심지어 오해를 불러일으키는 요약을 쏟아낼 수 있다고 경고합니다. University College London의 James Thomas는 Nature에서 언급한 바와 같이, 잘못 실행된 리뷰들이 수년간의 근거 기반 실천을 훼손할 수 있다고 주의를 당부합니다.
결국, AI는 논문 심사 과정을 가속화하는 유망한 도구를 제공하지만, 전문가들은 AI가 진정으로 과학적 이해를 향상시키려면 엄격한 감독과 투명성이 필요하다고 강조합니다.
댓글 달기
취소