자청의 유튜브 추출기

유튜브 영상의 자막과 AI요약을 추출해보세요

세상에서 가장 쉬운 AI 활용 크롤링 | 구글 AI 스튜디오, 커서 AI로 네이버 블로그 증권 데이터 수집 프로그램 만들기

챗과장

조회수 조회수 1.9K 좋아요 좋아요 139 게시일 게시일

설명

이번 영상에서는 Google AI Studio와 커서 AI를 활용해서 네이버 블로그 증권 정보를 크롤링(스크래핑)하는 파이썬 프로그램을 만드는 방법을 소개합니다. 비개발자가 AI를 활용해서 얼마나 쉽게 크롤링 프로그램을 만들 수 있는지 확인해 보시고 응용해서 직접 만들어 보시기 바랍니다. 구글 AI 스튜디오 https://aistudio.google.com/prompts/new_chat ⏰ 타임스탬프 00:00 인트로 01:12 KOSPI 100 정보 수집 (Naver 증권) 01:46 페이지 구조 복사 (개발자 도구) 07:06 키워드 검색 결과 수집 (네이버 검색 블로그 탭) 08:59 GUI 프로그램 생성
자막

자막

전체 자막 보기
크롤링을 원하는 페이지에서 개발자 도구를 열고 페이지의 구조를 복사해서 구글 AI 스튜디오에 입력합니다.

잠시 후 만들어진 코드를 복사해서 커서에 붙여 놓고 실행하면 키워드를 입력하라고 하고요.

키워드를 입력하면 해당 키워드와 연관된 네이버 블로그 포스팅 정보가 취합됩니다.

한 번 더 커서한테 명령하면 우리가 일반적으로 사용하는 프로그램이 만들어지고 그 안에서 같은 작업을 할 수 있게 됩니다.

이번 영상에서는 구글 AI 스튜디오와 커서를 활용해서 온라인에 있는 정보를 크롤링하는 파이썬 프로그램을 만들어 보겠습니다.

메인으로 활용할 툴은 구글 AI 스튜디오고요.

커서는 구글 AI 스튜디오가 짜준 코드를 실행하거나 일부 수정하는 용도로 활용할 예정입니다.

구글 AI 스튜디오는 구글에서 제공하는 다양한 AI 모델을 무료로 테스트해 볼 수 있는 서비스고요.

특히 구글이 공식 서비스에서는 아직 지원되지 않는 최신 모델이나 기능을 먼저 사용해 볼 수 있다는 점이 큰 장점입니다.

오늘 이용할 모델은 제미나의 2.

5프로 프리뷰 5월 6일 모델인데요.

사실이 모델은 커서에도 똑같이 적용되 있거든요.

그런데 왜 굳이 AI 스튜디오에서 사용하는지에 대해서는 영상을 보시다 보면 이해하실 거예요.

가장 먼저 해 볼 것은 네이버 증권 페이지에 있는 코스피 100 종목에 다양한 정보를 크롤링해서 엑셀 파일로 바로 저장하는 작업을 해 보겠습니다.

이 테이블은 네이버 증권 페이지에 국내 증시 탭 그리고 코스피 100을 누르면 조금 아래쪽에서 확인을 하실 수 있고요.

이제 실제로 프로그램을 만들어 볼 건데요.

이번 영상에서 소개드릴 방식은이 보고 계시는 페이지에 전체 구조를 AI에게 알려주고 AI가 그것을 보고 분석을 해서이 정보들을 가져올 수 있는 프로그램을 만들게 시킬 겁니다.

각 페이지의 구조는 개발자 도구에서 확인할 수 있는데요.

윈도우에서는 F12, 맥에서는 커맨드 옵션 키를 누르면 이렇게 열리게 됩니다.

뭐 아마 이렇게 보이시는 분도 있고 이렇게 보이시는 분도 있고 다양하게 보이실 거예요.

그럼 가장 먼저 위쪽에 다양한 메뉴가 있는데이 중에서 엘레멘트가 선택돼 있는 걸 확인해 주시고요.

그 중에서도 가장 위에 HTML로 시작하는 부분을 클릭해 주면 이렇게 화면 전체가 잡히게 됩니다.

여기서 마우스 오른쪽 버튼을 누르고 카피 그리고 카피 엘레멘트를 누릅니다.

방금 한 것이이 페이지의 전체 구조를 복사한 것으로 이해해 주시면 되고요.

그럼 AI 스튜디오로 가서이 코드를 한번 붙여 넣어 주면 이렇게 긴 구조가 붙여 넣어진 것을 확인할 수 있습니다.

이제 명령어를 한번 입력해 보겠습니다.

명령어로 아래 코드는 네이버 증권 페이지의 구조야 편입 종목 상위 테이블의 정보를 엑셀 파일로 저장하는 파이썬 코드를 만들어 달라고 했고 그 아래 조금 전에 붙여 놨던 코드를 그대로 붙여 넣었습니다.

편입 종목 상위 테이블은 저희가 가져오기로 했던이 테이블의 이름이고요.

그래서 한번 입력을 해 보겠습니다.

그러면 약 1분 20초 후에 완성된 코드랑 코드에 대한 설명 그리고 실행 방법까지 친절하게 알려 주고요.

제공된 코드를 복사해서 커서 AI에 가져가 보겠습니다.

커서에서 프로젝트 폴더는 제가 미리 켜 놓았고요.

이 왼쪽 사이드바 빈 공간에서 오른쪽 마우스를 클릭하고 탭 파일을 누르고 테스트.

py라고 PY라고 생성을 해 보겠습니다.

이 점py는 파이썬 프로그램의 확장자예요.

그래서 여기서 복사한 것을 붙여 넣고요.

한번 실행을 해 보면 이렇게 몇 초 안 걸려서 정보를 다 끌고 오고 왼쪽 위에 보면 이렇게 엑셀 파일도 생성이 돼 있는 걸 볼 수 있어요.

한번 켜 보면 이게 실제로 정보가 정리가 돼 있죠.

근데 한 가지 아쉬운게 저는 100개 정보가 한 번에 들어오길를 바라는데이 10개까지 밖에 들어오지 않았잖아요.

이제 딱 한 번의 명령만 더해서 100개의 정보를 모두 가져오는 프로그램으로 바꿔 볼 건데요.

그 전에 한 가지 말씀드릴 것이 저처럼 이렇게 실행이 안 되고이 커서 터미널에 에러가 난 분들이 분명히 많이 계실 거예요.

작동을 안 하는 이유는이 프로그램을 실행하기 위한 파이썬 패키지가 설치가 안 돼서 그런 건데요.

그것 역시 구글 AI 스튜디오가 친절하게 알려 줬을 거예요.

한번 찾아보면 아 여기 이거를 설치해야 된다고 써 있죠.

그러면 이거를 복사해서 커서 터미널로 돌아와서 여기에 붙여 놓고 입력을 하면 이렇게 설치가 되거든요.

저는 이미 설치가 다 돼 있기 때문에 세리스파이드라고 써 있지만 아직 설치가 안 돼 있으신 분들은 이렇게 설치하는 화면이 보이실 겁니다.

설치가 완료되면 파이썬 파일을 클릭하고 실행 버튼을 누르면 잘 작동하실 거예요.

다시 돌아와서 왜 100개간이 10개의 정보만 가져왔을지를 한번 생각해 볼 건데요.

테이블을 보면 1번부터 10번 페이지까지 있는데 이거를 다 긁어오지 못하고 첫 번째 것만 긁어온 것으로 뭐 추정을 해 볼 수 있어요.

그래서 이번에는 페이지 전체가 아닌이 테이블에 대한 구조만 따로 주고 AI한테 분석을 시켜 보겠습니다.

엘레멘트 왼쪽에 있는 이런 화살표 모양의 버튼이 있거든요.

이거를 클릭하면 이렇게 원하는 영역만 잡을 수가 있어요.

그래서이 편입 종목 상위 부분만 딱 잡히게 이렇게 움직이다 보면 이게 잡히거든요.

이거를 잡고 이제 여기서 복사를 하는 거예요.

여기서 다시 오른쪽 마우스 버튼 클릭.

아까 했던 거랑 똑같이 카피 카피 엘레멘트를 누르고 AAI 스튜디오로 돌아가서 명령어를 입력해 보겠습니다.

아래 코드는 편입 종목 상의 테이블 영역과 관련된 코드야.

총 열페이지로 구성되어 있는데 현재는 1페이지 정보만 가져온다고 하고 아래에 그 테이블의 구조를 붙여 놓고 입력해 보겠습니다.

그러면 잠시 후에 이렇게 수정된 파이썬 코드가 제공이 되고요.

코드를 복사해서 커서에서이 전체를 지우고 붙여 넣어서 실행을 해 보면 이제 총 열 페이지에 걸쳐 가져오는 것을 볼 수 있죠.

그래서 다시 실행해 보면 이번에는 100개를 다 정확하게 가져온 것을 확인할 수 있습니다.

그럼이 작업을 왜 처음부터 커서에서 안 하고 AI 스튜디오에서 해서 두 번 작업을 할까요? 맨 처음에 입력했던 명령어를 복사해서 커서에 입력해 보면 메시지가 너무 길어서 여기서 진행을 할 수 없다고 해요.

근데 AI 스튜디오에서는 저희가 방금 여태까지 했던 작업이 총 7만 토큰 정도가 소요되는데 토큰이란 걸 간단히 설명드리면 우리가 입력한 거랑 결과값 받은 것까지 다 합친 길이라고 생각하시면 되는데 여기서는 무려 100만 토큰까지가 지원이 돼요.

아직도 한참 여유가 있죠.

그래서이 작업을 AI 스튜디오에서 한 거예요.

만약에 커서에서 작업을 하려면 전체 구조를 주는게 아니라 그 딱 필요한 부분의 구조만 줘야 되는데 초보자 입장에선 그렇게 하기가 쉽지가 않아요.

처음 시작할 때는 이렇게 전체 구조를 주면서 연습을 해보고 뭐 점차 줄여 나가면 좋겠지만 그렇게 복잡한 작업이 아니라면이 방식으로 AI 스튜디오에서 대부분은 해결하실 수 있을 거라고 생각됩니다.

다음으로 네이버에서 특정 키워드를 입력하면 블로그 탭에서 가장 먼저 노출되는 블로그 포스팅 열 개를 가져오는 파이썬 프로그램을 만들어 보겠습니다.

현재 검색 키워드로 책과장이 입력되 있는 상태고요.

이번에도 마찬가지로 개발자 도구를 켜고 가장 위에 있는 HTML 코드 위에서 우클릭 카피 카피 엘레멘트를 하고 구글 AI 스튜디오로 넘어가 보겠습니다.

명령어는 제가 미리 준비해 놨고요.

읽어 보면 다음은 네이버 블로그에서 책과장을 입력하면 표시되는 검색 페이지의 구조요.

사용자가 특정 키워드를 입력하면 책과장이 아니더라도 다른 키워드를 입력하면 네이버 블로그 탭을 실시간으로 검색하고 가장 상위에 노출된 블로그 포스팅 열 개의 정보를 가져와서 터미널의 결과를 제공하는 파이썬 프로그램 실행 코드를 만들어 달라고 했고 그 아래 조금 전에 복사했던 코드를 붙여 넣었습니다.

이번에 입력할 내용은 무려 14만 토큰에 가까운 매우 긴 내용입니다.

실행해 보겠습니다.

그럼 약 1분 후에 완성된 코드랑 일단 복사하고요.

밑에 보면이 프로그램을 실행하기 위해서 어떤 패키지가 설치되어야 되는지도 알려 줬고요.

만약에 코드가 실행이 안 되는데 이런 거 알려 주지 않았다면 AI한테이 프로그램을 실행하기 위해서 필요한 라이브러리 설치 코드를 알려 줘.

뭐 이런 식으로 요청을 하면 돼요.

그럼 커서로 넘어가서 다시 한번 파이썬 파일을 만들어 주고요.

테스트.

py 코드를 붙여 놓고 한번 실행을 해 보겠습니다.

그러면 검색할 키워드를 입력하라고 하죠.

그럼 여기에 채 GPT라고 한번 입력해 보겠습니다.

그러면 이렇게 바로 열 개의 블로그 포스팅 제목과 URL 그리고 어떤 블로그가 썼는지 그리고 내용 요약을 제공을 하고요.

그다음에는 커서에서 한번 작업을 진행해 볼게요.

일반적인 GUI 프로그램 형태로 만들어 달라고 하고 입력해 보겠습니다.

잠시 후에 이렇게 프로그램이 실행이 되고요.

여기서 또 다른 키워드를 하나 입력해 볼게요.

뭐 IU라고 입력해 보겠습니다.

그러면 이렇게 프로그램 내부에 블로그 포스팅 열 개가 쫙 긁거워지는 것을 볼 수 있습니다.

이 내용을 블로그 탭이 내용과 비교해 보면 이렇게 정확히 일치하는 것을 확인할 수 있습니다.

제가 크롤링이 주유와 업모인 전문가도 아니고 아주 복잡한 작업을 해 보지 않았기 때문에이 방식으로 분명히 안 되는 작업도 있겠지만 오늘 보여 드린 것처럼 이런 간단한 작업들은 같은 방식으로 다 성공을 했었습니다.

참 신기하지 않나요? 이제는 특정 페이지의 구조만 AI에게 전달하고 그 AI에게 크롤링 프로그램을 만들어 달라고 시키기만 하면 프로그램이 뚝딱 만들어지는 세상입니다.

이번 영상은 여기까지고요.

내용이 유익했다면 구독과 좋아요 부탁드리고 다음번에 더욱 참신하고 실용적인 내용으로 다시 찾아뵙겠습니다.

감사합니다.

영상 정리

영상 정리

1. 크롤링할 페이지 구조를 개발자 도구로 복사해 AI 스튜디오에 입력해요.

2. AI가 코드를 만들어주면, 그 코드를 실행해서 키워드를 입력해요.

3. 키워드에 맞는 네이버 블로그 포스팅 정보가 수집돼요.

4. 또 명령하면, 프로그램이 자동으로 만들어지고 같은 작업을 할 수 있어요.

5. 구글 AI 스튜디오는 무료로 AI 모델을 테스트하는 서비스예요.

6. 오늘은 제미나 2.5 프로 모델을 사용했어요.

7. 네이버 증권 페이지에서 코스피 100 종목 정보를 크롤링하는 예제를 해볼게요.

8. 페이지 구조를 개발자 도구로 복사해서 AI에게 알려줘요.

9. AI가 파이썬 코드를 만들어주면, 그걸 커서에서 실행해서 엑셀 파일로 저장해요.

10. 처음에는 10개 정보만 들어오는데, 페이지 구조를 수정해서 100개까지 가져올 수 있어요.

11. 파이썬 패키지가 설치 안 되면, AI가 알려준 명령어로 설치하면 돼요.

12. 구조를 줄이면 더 복잡한 작업도 AI가 쉽게 도와줄 수 있어요.

13. 이번에는 네이버 블로그에서 키워드 검색 후 상위 10개 포스팅 정보를 크롤링하는 예제도 보여줬어요.

14. 키워드 입력 후, 블로그 제목, URL, 내용 요약까지 바로 보여줘요.

15. 이 방법은 구조만 알려주면 AI가 크롤러를 바로 만들어주는 신기한 기술이에요.

16. 오늘 보여드린 방법으로 간단한 크롤링 작업은 누구나 쉽게 할 수 있어요.

17. 앞으로도 더 유익한 내용으로 찾아뵙겠습니다. 구독과 좋아요 부탁드려요!

최근 검색 기록