용어집 · 용어

크롤링

다른 표기: crawling, 스크래핑

프로그램으로 웹의 데이터를 자동 수집하는 것입니다. AI 학습 데이터 수집을 둘러싼 저작권 분쟁의 핵심 쟁점입니다.

크롤링은 프로그램이 웹사이트들을 자동으로 돌아다니며 데이터를 수집하는 것입니다. 사람이 일일이 페이지를 열어 복사하는 대신, 로봇이 수백만 개의 페이지를 훑어 모아 오는 셈이며, 구글 같은 검색엔진이 웹을 색인하는 것도 크롤링입니다.

검색엔진, 가격 비교, 시장 조사 등에 오래 쓰여 온 기술이지만, AI 시대에 존재감이 커졌습니다. LLM 학습에 방대한 텍스트가 필요해지자 AI 기업들이 웹 전체를 크롤링해 학습 데이터로 썼고, 이것이 저작권 분쟁의 핵심 쟁점이 되었기 때문입니다.

언론사와 창작자들은 허락 없이 콘텐츠를 가져가 AI를 만들었다며 소송을 제기했고, 크롤링 차단 표준인 robots.txt를 존중하는지도 논란거리입니다. 웹 데이터의 소유권과 이용 규칙을 새로 정하는 논의가 진행 중입니다.

✅ 왜 중요한가 · 장점