용어집 · 용어
크롤링
프로그램으로 웹의 데이터를 자동 수집하는 것입니다. AI 학습 데이터 수집을 둘러싼 저작권 분쟁의 핵심 쟁점입니다.
크롤링은 프로그램이 웹사이트들을 자동으로 돌아다니며 데이터를 수집하는 것입니다. 사람이 일일이 페이지를 열어 복사하는 대신, 로봇이 수백만 개의 페이지를 훑어 모아 오는 셈이며, 구글 같은 검색엔진이 웹을 색인하는 것도 크롤링입니다.
검색엔진, 가격 비교, 시장 조사 등에 오래 쓰여 온 기술이지만, AI 시대에 존재감이 커졌습니다. LLM 학습에 방대한 텍스트가 필요해지자 AI 기업들이 웹 전체를 크롤링해 학습 데이터로 썼고, 이것이 저작권 분쟁의 핵심 쟁점이 되었기 때문입니다.
언론사와 창작자들은 허락 없이 콘텐츠를 가져가 AI를 만들었다며 소송을 제기했고, 크롤링 차단 표준인 robots.txt를 존중하는지도 논란거리입니다. 웹 데이터의 소유권과 이용 규칙을 새로 정하는 논의가 진행 중입니다.
✅ 왜 중요한가 · 장점
- AI 학습 데이터를 둘러싼 저작권 분쟁 뉴스를 이해하는 열쇠입니다
- 검색엔진과 데이터 산업의 기본 작동 원리를 알게 해줍니다
- 웹사이트 운영자에게는 자기 콘텐츠 보호 전략의 출발점이 됩니다
⚠️ 한계 · 논쟁
- 저작권자의 허락 없는 수집이 정당한지 법적 다툼이 진행 중입니다
- 과도한 크롤링은 웹사이트 서버에 부담을 주기도 합니다
- 차단 기술과 우회 기술의 쫓고 쫓기는 싸움이 계속되고 있습니다