Chat GPT의 사이트 정보 수집을 차단하는 방법(크롤링 차단)

2024. 7. 4. 14:34 / 서기랑

오픈 AI의 Chat GPT ai 모델이 학습하는 방법 중에는 GPT봇을 사용하여 인터넷에 있는 정보를 수집하고 이를 학습에 사용하는 방법이 있다.

이는 자신이 운영하는 블로그나 사이트의 내용도 Chat GPT가 마음대로 수집하여 학습에 사용할 수 있다는 것인데 어차피 정보란 것이 돌고 도는 것이긴 하지만 정성 들여 작성한 글이나 자신이 직접 생산한 고유한 글 등을 ai가 수집해서 마음대로 사용하는 것이 싫다면 GPT봇이 크롤링을 하지 못하도록 설정을 변경해야 한다.

Chat GPT의 사이트 정보 수집 차단하기

- robots.txt을 수정하여 차단하기.

Chat GPT는 인터넷에서 정보를 수집하는 GPT 봇의 존재를 알렸기 때문에 정보 수집을 차단하고자 한다면 robot.txt에 아래의 내용을 추가하기만 하면 된다.

(robots.txt 파일은 사이트주소 robots.txt를 입력하면 확인할 수 있다)

User-agent: GPTBot
Disallow: /

- 메타 태그로 차단하기.

robots.txt 파일을 수정할 수 없다면 메타 태그를 추가하여 GPT 봇을 차단하면 되는데 메타 태그는 <head></head> 사이에 아래의 코드를 넣으면 된다.

(티스토리 블로그의 경우 robots.txt를 수정할 수 없으니 이 방법을 사용하면된다)

그 외 내용

- 위 설정은 GPT 봇이 크롤링을 하지 못하게 설정하는 것으로 그전에 크롤링한 내용이 있다면 그 부분은 어쩔 수 없다.

또한 봇이 방문해서 크롤링을 못하게 하는 것뿐 사이트를 타깃으로 잡고 별도의 코드로 크롤링을 하려 한다면 단순히 해당 설정으로는 막을 수 없다.

이는 Chat GPT 뿐만 아니라 다른 ai 역시 마찬가지인데 그나마 Chat GPT의 경우 GPT 봇의 존재를 공개하고 차단하는 방법을 공개했기 때문에 그나마 양반이라고 볼 수 있다.

- 직접 운영하는 사이트라면 robot.txt를 수정하면 되며, 티스토리 같이 robot.txt를 수정할 수 없는 블로그는 메타 태그를 넣으면 된다.

하지만 robot.txt도 수정하지 못하고 html도 수정하지 못하는 사이트나 블로그(예 - 네이버 블로그)를 가지고 있다면 위 방법은 사용할 수 없다.

저작자표시 비영리 변경금지

서기랑 이것저것