자청의 유튜브 추출기

유튜브 영상의 자막과 AI요약을 추출해보세요

AI 요약 제목

코딩 NO! MAKE와 챗GPT로 누구나 쉽게 웹사이트 크롤링하기

원본 제목

MAKE와 챗GPT로 코딩 없이 모든 웹사이트 크롤링하세요!

시민개발자 구씨

조회수 조회수 74.7K 좋아요 좋아요 2.3K 게시일 게시일

설명

웹사이트 크롤링해서 데이터 분석이나 리서치에 활용하고 싶은데 코딩을 할줄 몰라서 포기한적 있지 않으신가요? MAKE와 챗GPT, 그리고 APIFY까지 3가지 툴만 어느정도 익히셔도 코딩없이 어떤 웹사이트든 크롤링하실 수 있습니다. 오늘은 웹사이트의 종류에 따라 정적 웹사이트, 정적 웹사이트 딥크롤링, 동적 웹사이트 크롤링까지 다양한 웹사이트를 모두 크롤링하는 방법에 대해 알려드리도록 하겠습니다. 영상 시청하시면서 따라해보시고, 이제 웹크롤링 자신있게 도전하세요! (어떤 식으로 프롬프트가 작성되었는지, REGEX는 무엇을 썼는지 참고하실 분들은 아래 시트 링크를 참고해주세요) [타임라인] 0:00 인트로 0:27 웹사이트 유형 설명 (정적 웹사이트, 동적 웹사이트) 2:17 정적 웹사이트 크롤링하기 11:45 정적 웹사이트 딥크롤링하기 24:18 동적 웹사이트 크롤링하기 35:48 아웃트로 –––––––––––––––––––––––––––––– [프롬프트 예시/크롤링 결과 참고 링크] https://docs.google.com/spreadsheets/d/1ZGbX_LrbmZlHCqjkOJW8JspYyLAla6WzNjzMK14eenI/edit?usp=sharing –––––––––––––––––––––––––––––– Music provided by 브금대통령 Track : Challenge - https://youtu.be/os6gZQd0pjs ––––––––––––––––––––––––––––––
자막

자막

전체 자막 보기
웹에 있는 정보를 크롤링해서 업무 생산성을 높여보고 싶은데 코딩을 몰라서 포기한 적 있으신가요 메이크와 채치 PT 같은 AI 활용하시면 어떤 웹사이트는 크롤링하고 원하는 업무 플로우에 적용해서 업무 생산성을 높이실 수 있습니다 그래서 오늘은 메이크를 활용해서 다양한 사이트에서 AI 관련된 정보들을 크롤링하는 방법을 보여 드리도록 하겠습니다 코딩 없이 웹크롤링 해 보고 싶으시면이 영상 보시면서 따라해 보시면 좋을 것 같습니다 웹크롤링을 본격적으로 하기 전에 웹사이트가 뭔지 그리고 웹사 사이트의 두 가지 유형에 대해서 살펴보면 좋을 것 같은데요 먼저 웹사이트는 html이라는 언어로 작성된 문서가 http 프로토콜을 통해서 서버에서 사용자한테 전송이 되고요 그 전송된 걸 웹 브라우저가 우리가 보기 좋게 구현을 해 준 페이지를 의미를 합니다이 웹사이트는 크게 두 가지 종류로 나눠 볼 수 있는데요 정적 웹사이트와 동적 웹사이트가 있습니다 먼저 정적 웹사이트는 웹사이트에 접속을 하면 모든 html 정보가 바로 웹 브라우저에 출력이 되는 사이트를 의미를 하는데요 보통 간단한 하고 가벼운 웹사이트들이 이렇게 구성이 되어 있는데요 회사 속의 웹사이트나 블로그 같은 사이트들이 이런 유형에 속하게 되고요 이따 보여 드리겠지만 이런 구조는 html 소스만 가져오면 원하는 데이터를 쉽게 추출하실 수 있기 때문에 크롤링이 상대적으로 간단합니다 두 번째로는 동적 웹사이트가 있는데요 동적 웹사이트는 처음 접속하셨을때만 html이 다 출력이 되지 않고요 첫 로드를 할 때는 기본적인 html 구조만 출력이 되고 이후에 API 요청이나 자바스크립트를 활용해서 서 추가적으로 정보가 업데이트되는 형식의 웹사이트고용주 추가가 되거나 서비스에서 검색 같은 거를 했을 때 실시간으로 정보가 변화하는 그런 웹사이트들이 이런 동적 웹사이트에 속하게 됩니다 어 이런 구조는 리액트 뷰 앵귤러 같은 자바스크립트 프레임워크를 사용하는 대규모 서비스에서 보통 사용이 됩니다 오늘은 메이크에서이 두 가지 형태의 웹사이트 모두 크롤링하는 방법에 대해서 알려 드리도록 하겠습니다 웹크롤링 하기 위해서 먼저 메이크에 접속해 주시고요 아 참고로 오늘이 영상에서는 웹 크롤링을 실제로 하는 방법 위주로 설명을 드릴 거기 때문에 만약에 메이크를 처음 써 보시는 분들이면 제가 이전에 올렸던 메이크 튜토리얼 영상을 먼저 보고 오시는 거를 추천드립니다 어 그럼 로그인 하셔서 레이 뉴 시나리오 눌러 주시고요 그다음에 시나리오 명은 웹사이트 크롤링 테스트라고 해 보겠습니다 그럼 이제 모듈을 추가해 주시면 되는데요 오늘은 AI 관련된 정보를이 메이크를 통해서 크롤링 한다고 가정해보고 실습을 진행해 볼텐데요 먼저 정적인 웹사이트 터 크롤링을 해보도록 하겠습니다 AI 관련해서 최신 기술 동향을 확인하기 위해서 AI 관련 논문들을 리스트에서 팔로업 하면 유용할 수 있겠죠 그래서 대표적인 논문 사이트인이 archive.

org ES cs.

ai AI 섹션에이 최신 논문들이 올라오는 페이지가 있거든요 여기서이 최신 논문들이 리스트의 값들을 가져오는 실습을 해보도록 하겠습니다 여기서 논문 타이틀이란 저자 그리고 여기 링크가 있죠 논문별로이 HT hl 링크 요렇게 세 개를 리스트업해서 가져와 보도록 할게요이 정적인 웹사이트는 그냥 html 코드로 한 번에 다이 값이 다 추출이 되기 때문에 html 코드만 메이크로 가져오시면 원하는 정보를 쉽게 추출하실 수 있습니다이 html 코드 가져 오시려면 모듈을 추가해 주시는데 http 모듈이 있어요 요거를 클릭해 주시고 그다음에 메 request L 선택해 주시면 됩니다 그러면 여기에 이제을 넣어 주셔야 되는데 우리는요 URL arive all 요거를 가져오시면 되겠죠 그래서 이렇게 넣어 주시고 그다음에 메서드는 우리가 정보를 가져오고 싶은 거잖아요 html 코드를 가져오고 싶은 거기 때문에 겟을 해 주시면 되고요 그다음에 바디 타입은로 컨텐트 타입은 제이슨으로 해 주도록 하겠습니다 이렇게 하고 오케이 하시면 되고요 그다음에 요거를 한번 런을 해 볼게요 R 원스를 눌러 주시면 이제이 사이트에서 정보를 http 모듈로 가져온 거예요 그럼 여기에 보시면 데이터에 요렇게 html 코드를 다 가져왔죠 많은 정보들을 가져왔습니다 밑에 보시면 여기에 논문 제목이랑 저자 링크 이런 것들을 포함 만 정보까지 다 가져온 걸 보실 수가 있고요 근데 지금 html 코드다 보니까이 텍스트값 말고도 여러 가지 코드 정보가 같이 들어가 있거든요 그래서 요거를 작업하기 좀 더 쉽게 해 주시려면 텍스트로 변환을 해 주시면 좋습니다 그렇게 하시려면 텍스트 파서 파서에 들어가셔서 html to 텍스트라는 모듈이 있습니다 요거를 클릭해 주시고요 여기에 값은 https 나온 데이터 값이죠요 데이터 값을 넣어 주시면 됩니다 이렇게 하고 저장을 한번 하고요 그다음에 다시 한번 실행을 해 볼게요 다시 한번 실행해 보면 이제 아웃풋으로 앞에 들어가 있던 좀 지저분한 html 코드들은 없어지고 텍스트들이 이렇게 추출이 됐죠 여기 보시면 여기 요런 식으로 타이틀 해서 값이 들어가 있고 그다음에 여기에 저자들이 쭉 또 들어가죠 그리고 여기 이렇게 링크도 들어가 있죠 그래서 텍스트 값이 잘 추출이 된 걸 보실 수가 있습니다 그럼 이제이 텍스트를 가지고 논문의 타이틀이란 저자란 링크 값만 추출을 하고 싶은 거잖아요 그래서 그 데이터 추출 작업을 해 주시면 되는데요 사실 예전 같았으면이 아웃풋에 우리가 원하는 그 타이틀 저작 그리고 링크 값만 뽑아내려면 그 제가 이전 영상에서 다뤘던 엑스를 활용해서 패턴 매칭을 해 줘야 돼요 지금이 사이트 같은 경우는 패턴 매칭이 생각보다 쉽지 않거든요 왜냐면 여기 타이틀이 쭉 진행이 되죠 그리고 여기 시아치 탕 요게 이제 그 저자의 이름이 시작되는 부분인데이 타이틀이란 저자가 그냥 스페이스만 있고 구분이 제대로 안 되어 있잖아요 뭐 새로운 문단으로 시작을 한다라 그가 아니면 여기서 뭐 ath 이러면서 구분이 되면 좋은데 구분이 안 되어 있고 바로 들어가게 됩니다 그래서 이게 생각보다 엑스로 어디까지 제목이고 어디부터인지를 구분에 주는게 쉽지가 않습니다 그래서 예전 같았으면 저는 이런 작업을 할 때 액만 만들다가 몇 시간을 보낸 적도 있습니다 근데 지금은 AI 시대잖아요 그래서 이렇게 복잡한 엑스를 작성하셔야 되는 경우가 있을 때는 엑스를 쓰지 않고 그냥 AI 써 가지고 원하는 데이터를 추출하실 수가 있습니다 그래서 채체 BT 테 우리가 원하는 정보들을 추출을 해 달라고 한번 요청을 해 보도록 할게요 그러면 채체 PT 모듈을 선택을 해 주시고요 create 눌러 주시고 한번 연결을 해 보도록 할게요 아 모델은 최지 PT 45를 사용을 하겠습니다 그리고 메시지에서 시스템이랑 유저를 나눠서 입력을 해 줄 건데요 간단히 설명드리면 시스템이 최즈 피트한 일을 시키기 전에 먼저 지시를 해 주는 거예요 어떤 식으로 네가 작동을 해야 되는지를 알려 주는 거라고 생각하시면 되고요 여기다가 제가 미리 작성해 놓은 프롬프트를 넣어 주도록 하겠습니다 그리고 유저 프롬프트에 내용을 넣고 제가 설명을 드릴게요 자 보시면 일단 시스템 프롬프트에 너는 굉장히 협조적이고 똑똑한 그 웹 크롤링을 하는 조수다 렇게 지정을 해줬습니다 그리고 우리가 원하는 값이죠 타이틀 ath 그리고 링크를이 페이퍼에서 추출을 해라 그리고 나머지 다른 정보는 추출하지 마라 그리고 제이슨 포맷으로 아웃풋을 해 달라고 지정을 해줬어요 그리고 조금 더이 제이슨 포맷에 대해서 룰들을 설명을 해 줬습니다 뭐 렇게 브라켓들로 시작을 하고 끝내고 그다음에이 뒤에 문장을 안안 붙이면 제이슨이랑 값 자체를 또 추출을 해 줘요 그래서 이런 거 붙이지 말라 그냥 그 실제 제이슨 포맷의 아웃풋만 출력을 해라라고 지시를 해 줬고요 그다음에 여기에는 유저 프롬프트로 해 가지고 구체적인 정보를 적어 주는 거예요 그래서 똑같이 제이슨 파일 내용만 추출 해 줘야 된다는 거를 강조를 했고요 보통 그 사이트에 50개 정도 페이퍼가 한 번에 표시가 됩니다 그래서 50개 정도 있으니까 몇 개만 하다가 멈추지 말고 50개 다 추출을 해 줘라라고 지정을 해 줬고요 그다음에 플을 넣어 줬어요 그래서 이렇게 데이터 인풋이 이렇게 들어가면 아웃풋은 요런 식으로 나와 줘야 된다라는 플을 넣어 줬습니다 이게 간혹가다가 플을 안 넣으면 결과값이 우리가 원하는 형태로 나오지 않는 경우 가 발생할 수 있거든요 그래서 이렇게 플을 하나 넣어 주시면 좀 더 안정적으로 원하는 값들을 계속 받아보실 수가 있습니다 그리고 이제 가장 중요한 거는 여기에 우리가이 텍스트 파서로 뽑아낸 웹사이트에서 받은 텍스트 값을 넣어 줘야겠죠 그래서 이제 웹사이트 데이터를 지정을 해 줍니다 그리고 텍스트는 여기 텍스트 파서에서 나온 텍스트값 그리고 토큰을 4096으로 해 줄게요 왜냐면은 예시도 좀 내용이 많고 그다음에 아웃풋도 우리가 여러 개 페이퍼에 대해서 정보를 뽑아 줘야 되기 때문에 혹시 몰라서 토큰 값을 좀 키워주 도 하겠습니다 요렇게 해 주시고 저장을 해 주시면 되고요 그러면 이제 우리가 엑스로 매칭 같은 거 할 필요 없이 그냥이 채치 피티가 프롬프트를 알아듣고 텍스트 정보에서 우리가 원하는 값들만 제이슨 포맷으로 뽑아 주게 됩니다 한번 실행을 해 볼까요네 이렇게 돌아갔는데요 리트를 보시면 요렇게 타이틀 터 링크 해가지고 제이슨 포맷으로 여러 개 논문들을 다 정리를 잘 해 주고 있죠 이렇게 잘 뽑히는 걸 보실 수가 있고요 요거 하실 때 아직 익숙하지 않으신 분들은 처음에 최제 PT 메이크에서 쓰시려면 면요 커넥션을 만들어 주셔야 되거든요 커넥션 하시면 API 키가 있습니다 그래서 제 메이크 튜토리얼 처음에 보시면 어떤 식으로 API 키 입력하는 이런 것도 설명드린게 있으니까 참고하셔서 API 키를 먼저 생성하시고 채치 PT API 크레딧을 먼저 구매를 하셔야 돼요 5달러가 최소 금액인데 구매하셔야 API 키를 넣어 주셔야 되고요 API 키 넣고 세이브 하면 커넥션이 되고 그다음에 사용을 하실 수가 있는 겁니다 그래서 요렇게 해서 지금 리트를 잘 뽑아낼 수 있는 거를 확인을 해 봤고요 굉장히 간편하죠 이게 스로 만들면 되게 어려울 수 있는데 그 어려운 작업을 채치 ptga 대신 이렇게 깔끔하게 정리를 해 줄 수 있고요 이때 프롬프트를 우리가 영어로 썼잖아요 물론 한글로 작성을 하셔도 상관은 없는데 지금이 논문 사이트 자체도 영문으로 되어 있죠 그리고 우리가 해야 되는 작업도 좀 테크니컬한 작업이잖아요 제이슨 포맷으로 원하는 정보들을 추출하고 하는 거니까 그래서 그런 지시를 하실 때는 영어로 하는게 좀 더 정확도가 높고 어 신뢰도 있는 아웃풋을 받으실 수가 있습니다 그래서 영문으로 작성을 일부러 한 거고요 유저 프롬프트 정문으로 작성을 했습니다 그래서요 프롬프트는 제가 영상 설명란에 참고하실 수 있도록 넣어 두도록 할 테니까요 실습해 보실 때 참고하시면 좋을 것 같고요 요렇게 정보를 우리가 제이슨 포맷으로 받았죠 그러면 요거를 이제 뭐 시트 같은 데이터베이스에 저장을 해 놓고 활용하면 좋은데 저장하시기 위해서 한 가지 작업을 더 해 주시는게 좋습니다 지금은 이렇게 리트가 총으로 하나의 값에 다 들어가 있는데 요거를 이제 쪼개 줘서 가각 지정을 해 주는게 좋잖아요 논문 별로 그래서 요걸 쪼개는 방법이 우리가 제이슨 포맷으로 만들어 줬기 때문에 이 제이슨 포맷을 이쁘게 데이터를 정리해 주는 기능을 사용하면 좋은데요 제이슨 들어가셔서 파스 제이슨이랑 모듈이 있습니다 그래서 파스 제이슨 누르시고 제이슨 스트링이 리트 값이 우리가 지금 제이슨 스트링으로 나왔죠 그래서 리트를 제이슨 스트링으로 해 주시면 되고요 이렇게 한 다음에 시트를 이제 연결을 해 주시면 되겠죠 시트를 또 이제 구글 커넥션 먼저 연결 해 주시고 드라이브를 선택해 주시면 되는데 제가 웹 크롤링 예제라고 해서 시트를 미리 만들어 놨습니다 여기에 AI 논문 크롤링 해서 이제 컬럼들을 지정을 해 해주시면 되는데 어 지금 제가 아직 제이슨으로 받아오지 않아 가지고 컬럼들이 안 뜨거든요 한번 더 돌려 보도록 할게요네 그러면 이렇게 하나의 리트로 포함되어 있던 제이슨 포맷을 요렇게 번들로 각각의 논문별로 나눠 주게 됩니다 요렇게 나눠 주면 이제 프로세스를 하기가 좋겠죠 그리고 우리가 타이틀 터 링크를 애초의 hpt 요렇게 나눠 달라고 했기 때문에 렇게 제이슨 포맷을 잘 나눠서 각각의 컬럼을 지정할 수 있게 이렇게 잘 나눠 줬고요 요거를 이제 시트에 붙이셔야고 시트에서 업데이트 날짜는 오늘 업데이트를 할 거니까 그냥 여기 데이트 앤 타임에서 나우를 선택해 주시면 되고요 제목이 이제 제이슨 파일에서 타이틀 저자가 터 그리고 링크가 링크 이렇게 선택해 주시면 되겠죠 그리고 이렇게 연결을 해 주시고 마지막으로 최종적으로 한번 돌리면 이제 시트의 데이터가 업데이트가 잘 될 겁니다네 그래서 50개 이렇게 논물이 업데이트가 되었고요 시트에 보시면 요렇게 업데이트 된 걸 보실 수가 있죠 링크도 이렇게 같이 포함이 되어 있고 저자도 같이 확인할 수 있게 이렇게 시트의 업데이트가 잘 된 걸 보실 수가 있습니다 여기 링크 한번 눌러 보면요 논문으로 바로 넘어가게 되죠네 이렇게 논문 리스트를 시트로 가져오는 것도 유용할 수는 있는데 여기서 그치지 않고 우리가이 링크들을 각각 들어가 가지고 논문에 대한 내용을 또 추출을 하고 싶으실 수 있잖아요 그래서 이번에는 정적인 웹사이트를 크롤링을 먼저 하고 그다음에 그 페이지 안에 있는 링크들을 또 추가적으로 들어가서 크롤링하는 방법에 대해서 살펴보도록 할게요 같은 예제로 하면 재미 없으니까 이번에는 테크 크런치하고 하는 테크 기사들을 다루는 웹사이트 가 있는데요 여기에서 AI 섹션이 있습니다 그래서이 AI 섹션에 올라와 있는 최신 뉴스들을 크롤링하고이 크롤링 한 다음에이 각각의 기사들 있죠 각각의 기사들에 들어가 가지고 그 정보들을 요약을 해서 시트로 가져와 보도록 하겠습니다 그러면 또 모듈을 새로 만들어 주도록 할게요 이번에도 http 선택을 해 주시고요 메이커 requ 해 주시면 됩니다 원래는 우리가이 트리거를 한 시나리오에서 하나만 할 수 있거든요 그래서 지금 이렇게 에러가 뜨는데 요거 시계 모양을 이렇게 이동을 해 주시면 여기서 또 밑에서 를 하실 수가 있습니다 이번에 여기에다가 URL 또요 AI 섹션을 복사해서 넣어 주도록 할게요 넣어주고 게로 해 주시면 되고요 아까는 동일하게 로우 제이슨으로 설정을 해 주겠습니다 그리고 동일하게 텍스트 파죠 텍스트 파서를 복사해서 또 붙여 주도록 할게요 그리고 앞에 데이터값 가져오는 거고요 동일하게 어차피 텍스트만 뽑아야 되니까 똑같이 설정을 해 줬고요 그다음에 먼저 한번 돌려 보도록 하겠습니다 그러면 텍스트에 이렇게 여러 기사들이 포함되어 있는 값들을 뽑았죠 여기서는 우리가요 정보를 가지고 바로 어떤 데이터를 뽑고 싶은게 아니고 여기 지금 기사들이 각각 있고 여기 링크가 있잖아요 https techcrunch.

com 하고 여기 날짜가 붙고 그다음에 이제 타이틀이 URL 들어간요 기사들의 URL 그이 있습니다요 값들 여기도요 값 또 기사들이 있죠 그래서 이런 URL을 뽑아 가지고 그 URL을 각각 또 접속해서 기사 정보를 추출을 해야 되잖아요 그래서 이번에도 URL 뽑는 추출 작업을 해 주셔야 되는데요 아까처럼 우리가 물론 채지 피트를 활용할 수도 있지만 요거는 는 데이터를 보시면 상대적으로 좀 간단하죠 그래서 텍스트 파서로 엑스를 사용해서 매칭을 해 주도록 할게요 이런 간단한 것들은 우리가 엑스를 대신 사용하는게 좋은게 채체 ptga 편하긴 하지만 어쨌든 우리가 API 크레이드 충전을 하고 API 사용해야 되기 때문에 비용이 발생하긴 하거든요 뭐 큰 비용은 아니더라도 이런 워크플로를 자주 돌린다고 생각했을 때는 비용 효율적으로 만들기 위해서 간단한 거는 직접 엑스를 쓰시는게 좋습니다 그래서 텍스트 파서에 매치 패턴이라는게 있습니다 매치 패턴을 눌러 주시고 여기다가 엑스 표현 식을 넣어 주시면 되는데요 보시면 이렇게 대문자로 https 그리고 테크런치 닷컴 그다음에 날짜 값이 들어가고 그다음에 타이틀 값들이 이렇게 들어가죠 그래서 그거를 생각해 가지고 매칭을 해 주시면 됩니다 제가 미리 레스를 만들어 왔어요 여기 보시면요 앞에 부분은 URL이라고 해서 패턴으로 매칭된 값을 URL이라는 키 밸류 페어로 저장을 해 달라고 지정을 해 준 거고요요 뒤에 부분 요게 이제 실제 매칭을 해 주는 표식이라고 보시면 되는데 어 요거 만드실 때 기본적인 엑스에 대한 지식은 제가 다뤘던 엑스 튜토리얼 영상 참고하시면 좋을 것 같고요 그리고 이제 실제로 제작하실 때는 그냥 체제 PT 테요 텍스트 주시고 여기서 나는 뭘 가져오고 싶다 이렇게 해 가지고 레스 만드시면 되고요 만드신 다음에 어 채체 티가 항상 정확한 엑스 표현을 한 번에 만들어 주지 못할 수 있거든요 그래서 이제 테스트를 해 보셔야 될 텐데 엑 101.

com이라는 사이트가 있습니다 여기 들어오셔서 우리가 제작한 엑스를 먼저 위에 넣어 주시고 그다음에 이제 추출할 텍스트 있죠 텍스트 소스를 여기 복사해서 밑에 넣어 주시면 이렇게 초록색으로이 표현식으로 가져오는요 값들을 알려 줍니다 그래서 되게 손쉽게 내가 제작한 엑스가 제대로 작동을 하는지를 테스트를 해 보실 수가 있어요 이거를 요렇게 테스트 안 하고 메이크에서 계속 오퍼레이션 실행하면서 하시게 되면 비용이 또 발생할 수 있겠죠 그래서 요렇게 엑 101로 테스트를 먼저 해 보시고 제대로 추출이 된다 하시면 여기에서 직접 텍스트 파서에 패턴으로 넣어 주시면 됩니다 그래서 우리는 잘 작동하는 거를 확인을 했고요 요것도 제가 영상 설명 날에이 값은 넣어 드릴게요 그래서 이렇게 넣으신 다음에이 패턴을 글로벌 매치를 해 주셔야 돼요 왜냐면 이게 글로벌 매치를 안 하면 하나만 찾으면 끝나게 되거든요 근데 우리는 모든 URL을 다 찾고 싶은 거잖아요 그래서 글로벌 매치 해 주시고요 케이스 센시티브 하지 않겠습니다 대속 문자 그냥 구분하기 않도록 할게요 물론 우리는 대문자로 여기 지정을 해 줬지만 혹시 몰라서 케이 센시티브 하지 않게 하고 어 그다음에 이제 가장 중요한 거 텍스트를 넣어 줘야겠죠 어떤 텍스트에서 요걸 뽑아낼 건지 텍스트 파서에서 뽑은 텍스트를 이렇게 넣어 주시 니다 그러면 이제 유들을 다 뽑아 주겠죠 한번 돌려 볼게요 자 해서 보시면 요렇게 1 2 3 4 하면서 번들로 기사 URL 그이 잘 뽑히는 걸 보실 수가 있죠 그러면요 URL 별로 이제 들어가서 다시 http 리퀘스트를 해 주시면 기사 페이지별로 html 코드를 가져오실 수가 있겠죠 그래서 그 작업을 이제 해 주시면 되는데 그걸 하기 전에 먼저이 지금 URL이 대문자로 되어 있잖아요 소문자로 변환을 좀 해 줄게요 왜냐면 대문자로 되어 있으면은 http 리퀘스트가 제대로 되지 않거든요 그래서 소문자로 변화를 먼저 해 주겠습니다 소문자 변화는 스의 셋 veri이라는게 있습니다 그래서 새로운 변수를 만들어 주시는 거예요 노어 케이스 URL이라는 걸 만들어 주고요 로어는 수식이 있습니다 그리고 URL 값을 로어를 감싸 주시면 이제 소문자가 되겠죠 요렇게 해서 소문자를 가져오게 되고요요 값을 이제 http 리퀘스트를 다시 해 주시는 거예요 로어 케이스 URL URL 받고요 요거를 다시 게로 해서 html 값을 또 가져오도록 하겠습니다 여기까지 한번 다시 실행을 해 볼게요 그러면 가져온 값을 이렇게 소문자로 URL을 다 변환을 해 줬죠 변환한 다음에 그거를 html 값을 다 개별적으로 가져왔습니다 가져온 거 데이터 보시면 이렇게 또 추출이 됐죠 html 코드들이 있으니까 일단 텍스트로 변환을 해 줘야겠죠 텍스트 변환을 먼저 해 주도록 할게요 데이터를 다시 또 텍스트로 변환해 주고요 변환을 해 준 다음에 보시면 텍스트에 앞에 이렇게 뭐 메뉴라 그가 뭐 사인인 이미지 그리고 맨 끝에는 또 보시면이 기사 정보 말고도 뭐 추가적으로 여러 가지 토픽 시작해서 여러 가지 그 사이트 밑에 붙는 여러 텍스트들이 있습니다 그래서 AI 테 기사별로 정보를 좀 요약해서 출력을 해 달라고 요청을 할 건데 그 전에 텍스트로 뽑힌 값에서 필요 없는 부분들 있죠이 앞에 위에 부분 그리고 기사 뒤에 뒤에 부분 요거를 잘라 주도록 할게요 필요한 부분만 딱 남겨 두고 그거를 AI 테 요약해 달라고 요청을 해야 AI 입장에서 작업이 좀 더 쉽겠죠 그 AI 작업하기 쉽다는 거는 결국에는 우리가 안정적으로 항상 원하는 값을 받을 수 있을 확률을 높이 필 수 있습니다 그래서 그 데이터 전처리 작업을 해 줄 텐데요 아까처럼 그 세 베리어를 활용해 보도록 할게요 그래서 또 변수를 새롭게 저장을 해 주실 거예요 여기서 뉴스에 대한 정보만 추출을 하고 싶다라고 이렇게 하고요 수식을 써서 원하는 값을 잘라 줄 건데요 위에는 어떻게 잘을 거냐면이 주소가 들어가 있죠 이게 지금이 기사의 주소 그든데이 기사의 주소가 지금네 번 들어가 있는데 여기 첫 부분 요거 다음부터는 있어도 기사 내용을 다 포함을 하죠 그래서요 URL 기준으로 먼저 스플릿을 해서이 뒷부분만 가져 오도록 할 거고요 그다음에 끝에는 보시면 토픽이란게 있어요이 토픽이 어디를 의미하는 거냐면 기사 들어가 보시면 위에 부분은 우리가 요쯤 ES 잘라 주는 거고 뒤에 부분은 끝에 보면 이렇게 토픽이 써 있죠 항상 그래서요 토픽 부분에서 또 잘라 줄 겁니다 그러면 주로이 기사 관련 내용만 남게 되겠죠 그렇게 전처리를 해 줄 건데요 그래서이 툴스 오셔서 두 기준으로 쪼개 줄 겁니다 자 이렇게 보시면 여기에 지금 텍스트 있죠 우리가 앞에 패턴을 매칭해서 가져온 텍스트 값을 먼저 스플릿을 해 줄 건데요 URL 값 있죠 우리가 로어 케이스 URL 아까 베리에서 받아 왔잖아요 여기서 받아왔죠 그래서 그 URL 먼저 쪼개 주고요 쪼개 준 다음에 슬라이스란 거는 그 쪼개 준 값들 중에 어떤 범위에 해당하는 조각들을 우리가 가져다가 쓸 건지를 의미하는 거고요 두 번째 거부터 쓴다 왜냐면 첫 번째 유이 나왔을 때 그 위에 거는 버리고 싶기 때문에 두 번째부터 쓰고 그다음에이 그다음에는 비어 있죠이 비어 있는게 끝까지를 다 의미를 하는 겁니다 그래서 두 번째부터 끝까지 다 가져오고 그다음에 조인으로 묶어 줬죠 조인을 하고 아무것도 넣지 않고 그냥 조인을 해줬 그냥 값들을 그 슬라이스 돼서 조각들을 가져 왔잖아요 그 조각들을 다 합쳐 주는 거예요 하나로 하나로 합쳐주고 토픽으로 다시 스플릿을 합니다 그리고 겟을 이용해서 그 스플릿 중에 첫 번째 부분 첫 번째 부분이 이제 토픽 이전의 값들을 의미하는 거죠 그래서 토픽 이전의 값들 요렇게 해 주시면 그 기사의 내용 부분만 추출을 할 수 있는 거예요 한번 다시 돌려 보도록 할게요 그러면 가져와서 지금 소문자 URL 바꿔서 기사별로 다시 html 가져오고 텍스트를 바꿔 주고 그다음에 우리가 원하는 부분만으로 잘라왔다 첫 번째 기사를 비교를 해 보도록 할게요 그럼 앞에 시작은 제티브 AI 시작을 하죠 그리고 끝에는 여기 CEO 넷 freedman 넷맨 이렇게 잘 자리죠 이렇게 기사 정보를 잘 불러올 수 있는 걸 보실 수 있습니다 아 물론 여기서 지금 토픽으로 스플릿을 해 줬는데 만약에 요렇게 했을 때 픽스라인 단어가 다른 문장에서 먼저 쓰여 가지고 잘못 잘릴 수도 있기는 하거든요 근데 보통은 그런 식으로이 기사에서 말을 하는 케이스를 찾기 어려울 거라서 저는 이렇게 그냥 했는데 만약에 실제로 활용을 하실 때 요렇게 했는데 어 기사가 제대로 포함이 안 된다라고 하면은요 스플릿을 해 주는 기준만 바꿔 주시면 되겠죠 저희는 일단은 요렇게 해도 잘 나오는 거 같다 보이기 때문에 요걸로 활용을 해 보도록 하겠습니다 이렇게 기사가 잘 추려지고 이렇게 추려진 걸 가지고 이제 내용을 요약을 해 달라고 할 거예요 근데이 기사들의 내용도 요약을 하지만 내용이랑 같이 뉴스 제목이랑 어 기사 날짜 그리고 링크를 같이 포함해서 정리를 해 달라고 채집 BT 테 이제 요청을 해 보도록 하겠습니다 우리가 어느 정도 전처리를 하면서 좀 더 작업하기 쉽게 추려 줬죠 그이 추려진 걸 가지고 이제 요양 요청을 해보도록 하겠습니다 이번에도 gbt 4를 선택하고 이번에도 토큰 수를 좀 늘려 주도록 할게요 그리고 메시지를 시스템이랑 유저 나눠서 또 넣어 주도록 하겠습니다 시스템은 보시면 이번에는 기사를 요약하는 전문 어시스턴트라고 지정을 해 줬고요이 기사 내용을 정리를 해서 제이슨 포맷으로 또 아웃풋을 해달라 렇게 요청을 했습니다 그래서 목적은 정보 요약을 잘 해주고 코어 메시지를 전달해 주는게 목적 다 아웃풋 포맷은 제이슨 포맷으로 해 달라 하고 이렇게 제가 포맷 예시를 또 들어줬어요 그리고 여기 안에요 각각의 값들을 어떤 걸로 리플레이를 해 줘야 되는지도 설명을 해 줬고요 어 서머리 들어갔으면 하는 것들 그리고 제외해 줬으면 하는 것들 그리고 또 여기에 뭐 필요없는 불필요한 얘기들 하지 마라 그리고 얘기 막 지어내지 마라 요런 얘기들을 해 줬고요 톤 같은 것도 설정해 줬고 그다음에 마지막에 또 중요한 거 플을 넣어 줬습니다 그래서 이런 식으로 인풋이 들어오면 요렇게 아웃풋을 해 줘라라는 것까지 지정을 해 줬고요 그다음에 이제 유저에가 실제 그 작업 요청을 하시면 되겠죠 여기에 겟 뉴스 inf 요걸로 아티클을 지정을 해 줬고요 우리가 출연한 그 내용 부분이죠 요거에 대해서 이제 서머라이즈 해 줘라라고 요청을 해 주겠습니다 그러면이 타이틀 데이트 서머리 이렇게 세 개의 값을 이쁘게 정리를 해서 제이슨 포맷으로 알려 주겠죠 아까 우리가 여기서 이미 제이슨 포맷으로 받아 봤잖아요 동일하게 여기도 미리 제이슨 파서를 붙여 줄게요 파스 제이슨 해서 채티 리트를 받아오면 되겠죠 그러면 이렇게 해서 다시 한번 돌려보겠습니다 그래서 요렇게 해서 보시면네 제이슨 포맷 로 타이틀 데이트 서머리 잘 해주죠 렇게 값을 받아오시는 걸 보실 수가 있습니다 그러면 탑을 하고요 어차피 시트 또 연결해 줘야 되잖아요 AD row 해서 다시 한번 시트를 연결을 해 주도록 하겠습니다 그래서 시트에 업데이트를 해 볼게요 이번에는 테크 뉴스 시트고 여기에 그럼 날짜 데이트 제목 타이틀 요약 서머리 그 링크는 일부러 우리가 정리하는게 어차피 여기에 로어 케이스 URL 정리해 놓은게 있잖아요 요걸로 지정을 해 주겠습니다 요렇게 하고 이제 그러면 시트에 업데이트 하는 것까지 한번 돌려 보도록 할게요 다시 한번 원스를 눌러 주시면 요렇게 시트에 지금 테크 뉴스가 업데이트가 되죠 그러면 이런 식으로 기사별로 내용이 요약돼 잘 출력되는 걸 보실 수가 있습니다이 서머리 만약에 블랙포인트 해 주고 싶으면 그런 것들 또 체즈 피티한달 요청할 수도 있겠죠 어쨌든 이렇게 잘 정리돼서 유약이 뽑히는 걸 보실 수가 있습니다 아 제가 지금 요청을 너무 자주 해 가지고 레이 리밋이 걸렸네요 근데 이제 보통은 이렇게 자주하지 않으시면 리밋이 걸릴 일은 그렇게 크게 있지는 않고요 그래서 테스트를 하실 때 사실 이렇게 여러 개를 한 번에 하지않 않고 최종적으로 아웃풋 할 때만 다 돌리시고 그 전에는 뭐 한 개 정도로 내용을 추려서 테스트를 해 보시는게 더 좋을 수는 있습니다 이렇게 리밋이 걸릴 수 있거든요 어쨌든 지금 시트에 잘 업데이트가 되는 거를 보실 수가 있죠 그리고 지금은 저희가 그냥 시트에 추가하는 것만 하고 있는데 만약에 이거를 이제 주기적으로 돌린다고 했을 때 동일한 기사 같은 경우에는 업데이트를 해 주고 싶지 않잖아요 그럴 때는 로어 유을 불러왔는데요 링크가 만약에 시트 링크를 가져와서 그거랑 대조로 했을 때 포함을 하고 있으면 면이 뒤에 단계로 넘어가지 못하게 이렇게 필터링을 해 주시면 됩니다 그 필터링 하는 작업들은 제가 기존에 만들었던 메이크 영상들 참고하시면 좋을 것 같아요 그래서 이렇게 정적 웹사이트에 대해서 추가적으로 링크에 들어가서 내용을 확인하고 또 요약까지 해 가지고 시트의 업데이트 하는 것까지 살펴봤습니다 근데 아까 우리가 정적 웹사이트 말고 동적 웹사이트도 있다고 했잖아요네 동적 웹사이트는 html 한 번에 우리가 원하는 정보가 다 출력되지 않거든요 그래서 이런 식으로 http 리퀘스트로 어 우리가 원하는 정보를 추출을 할 수가 없습니다 한번 보여 드릴게요 예를 들어서 이번에는 크몽에서 AI 자동화 프로그램 관련한 이런 상품들을 리서치를 하는 작업을 해보고 싶다고 가정을 해보겠습니다 그러면요 사이트에서 값을 가져오고 싶은 거예요 근데러 제이슨 해서 한번 아웃풋을 해 볼게요 텍스트 파스까 붙여서 뽑아보겠습니다 붙여서 실행을 해 보시면 지금 앞이랑 뒷부분에 내용들만 있고 중간에이 리스트들이 안 뜨죠이 상품 리스트가 크롤링이 안 됩니다 이게 지금 자바스크립트 로 나중에 불러지기도 가져오지 못하는 거예요 그래서 이런 동적 웹사이트는 http 리퀘스트로 처음에 가져오지 못하거든요 그래서 다른 방식을 써 줘야 됩니다 이때 이제 어느 정도 커스텀이 가능하면서도 손쉽게이 동적 웹사이트에 정보를 가져올 수 있는 그 서비스가 파라는 건데요 메이크에서 fif 선택하시고 watch actor runs 요거를 클릭을 해 주시면 됩니다 그럼 여기에 이제 훅을 선택을 해 주셔야 되는데 요거 하기 위해서 먼저 f5 서비스에 로그인을 해 주셔야 돼요 ff.

com 들어오셔서 로그인을 해 주시면 됩니다네 이렇게 로그인을 하시면 되고요 로그인 하신 다음에 간단히 사용법을 설명을 좀 드리면 여기 왼쪽 부분에 보시면 스토어라는게 있어요이 스토어가 일종에 애플의 앱스토어 구글의 구글 플레이 스토어 같은 거라고 생각하시면 됩니다 여기에서 이제 우리가 원하는 그 웹 크롤링을 도와주는 스크레이퍼을 선택을 해서 사용하실 수가 있어요 비용 같은 것도이 서비스별로 좀 다르게 되어 있고요 그래서 원하는 걸 선택해서 사용한다라고 생각하시면 되고요 각각 의 앱의 개념에 해당하는요 각각의 서비스들이 액터 불립니다 그래서이 액터를 가져다가 우리가 웹 크롤링에 활용하실 수 있는 거예요 그래서 여기 스토어에서 사용하고 싶은 거를 예를 들면 이렇게 선택해서 스타트를 해서 런을 하시거나 아니면 이렇게 별표로 즐겨찾기를 하시면 이제 내 액터 화면에 이렇게 표시가 됩니다 그래서이 터라는게 앱의 개념이라고 생각하시면 되고요 요게 일종에 웹크롤링을 하기 좋게 코드가 다 작성이 된 그런 서비스의 개념이라고 보시면 됩니다이 파의 미션 자체가 서비스 이름에서도 도 유치하 수 있듯이 모든 웹사이트의 정보를 API 화 한다라는 거예요 API 서비스의 정보를 쉽게 사용할 수 있게 도와주는 사용 설명서 같은 거거든요 근데 이제 모든 웹사이트들이 그렇게 API 잘 정리되어 있고 활용할 수 있게 되어 있지는 않아요 근데 파가 그거를 도와주는 역할을 한다라고 생각하시면 되고요이 액터에서 우리가 사용하고 싶은 거를 이렇게 선택을 하고 추가적인 인풋 정보를 입력하신 다음에이 스타트를 누르시면 코드를 실행할 수 있게 되는 거고요 실행을 했으면 실행 정보는 는 스에서 확인하실 수도 있고 그다음에 스토리지에 크롤링을 실행해 가지고 얻은 정보가 있을 거잖아요 그 웹사이트의 정보들이 여기에 이렇게 스토리지로 쌓이게 됩니다 그리고이 쌓이는 거를 이제 메이크로 연결을 하는 거죠 그래서 메이크에서 그 데이터를 활용하실 수 있게 되는 거고요 스케줄이라는게 또 있어요 스케줄 세팅하시면 어떤 특정 액터를 뭐 데일리로 아니면 뭐 위클리로 이런 식으로 지정해 가지고 활용하실 수가 있습니다 액터를 이렇게 선택을 하겠죠 어떤 액터를 뭐 선택해서 활용을 해서 주기적으로 돌리실 수 있는 거고요이 정도가 이제 간단한 파에 대한 설명이고 파는 달러까지 매달 무료로 크레딧을 지급을 해 주거든요 그래서 웬만한 개인적인 프로젝트는 사실 무료로 다 돌리실 수가 있습니다 물론 이제 스토어에서이 무료 유세지 말고 렌트 개념이라고 해서 구독료내는 것처럼 구독료를 지불해야만 사용할 수 있는 액터 그이 있는데 그런 거 쓰지 않으시면 무료로 달러까지 써 보실 수 있기 때문에 같이 따라해 보시면 좋을 것 같습니다 자 그럼 이제이 파일을 활용해서 동적 웹사이트를 크롤링을 해 볼 건데요 스토어에서 웹 스크레이퍼 쳐보시면 면 첫 번째로 뜨는 거 있죠 요거로 이제 사용을 할 겁니다 그래서 웹 스크레이퍼 눌러 주시고요 자주 사용하실 거니까 이게 별표 눌러 주셔도 좋고요 그럼 여기 인풋에 우리가 원하는 정보 주로 이제 웹사이트가 되겠죠 우리가요 웹사이트 크몽의 668 카테고리 값을 가져오고 싶은 거예요 그럼 요거 지정해 주시고 여기 밑에 내용만 지정해 주시고 스타트를 하면 이제 크롤링을 시작을 하게 됩니다 여기 근데 이제 정보를 보시면 아마 저랑 조금 다르게 들어가 있으실 거예요 처음에는 그래서 몇 가지만 수정을 해 주시면 되거든요 일단 아마 여기에 요런 정보가 들어가 있을 겁니다 추가적으로 페이지를 가져오기에 설정되어 있는게 있는데요 예시를 그냥 삭제를 해 주시면 되고요 그다음에 가장 중요한 거는 html 정보를 우리가 가져와야 되잖아요 동적 웹사이트에 자바스크립트가 돌아간 이후에 html 값을 가져와야 되는데 그거를 해 주시려면 이렇게 컨스트 하시고 페이지 html 값을 지정을 해 줄 겁니다 다큐먼트 웹 브라우저에 뜨는 화면을 지정을 해서 그 안에서 엘리먼트 그다음에 아웃터 html 요렇게 코드를 작성해 주시면 그리고 마지막에 세미콜론 찍어 주셔야 되고요 요렇게 하시면 이게 이 페이지 html이라는 베리어블 변수에 html 코드를 저장을 해 주는 거예요 저장한 다음에 리턴 값에 페이지 html 추가만 해 주시면 됩니다 렇게 추가해 주시면 이제요 액터가 돌아갔을 때 동적 웹사이트에서 자바스크립트가 실행된 이후에 웹사이트의 html 값을 불러오게 됩니다 그래서 페이지 html이라는 값으로 출력을 해 줘요 요렇게 지정해 주시고 그다음에 이제 스타트만 누르면 끝입니다 근데요 값을 우리는 메이크에서 받아와야 되잖아요 받아오기 위해서는 설정을 해 주셔야 되는데요 F5 모듈 서 먼저 훅을 선택을 해 주셔야 돼요 애를 해 보시면 커넥션을 먼저 해 주셔야 되고요 커넥션은 API 토큰을 넣어 줘야 됩니다 여기 파에서 세팅스 들어가시면 API 인터그레이션 있습니다 여기서 뉴 토큰 해 주셔서 웹 스크레퍼로 하나 만드시면 요거 카피해서 쓰시면 되겠죠 카피해서 넣어 주시면 되고요 커넥션 만드시면 터도 선택을 하게 되어 있거든요 액터를 웹 스크레퍼로 선택을 해 주시면 됩니다 우리는 이미 설정을 해 놓은게 있고요 그다음에 파일을 하나 더 해 주셔야 돼요 get데 아스를 눌러 주셔야 됩니다 그럼이 겟데 아이스가 뭐냐면 아까 우리가 파일을 실행하면 실행한 내용이 스토리지에 쌓인다고 했잖아요 정보가 요게 이제 데이터셋 아이거든요 그러면 우리가 하나의 액터를 실행했을 때 그걸로 생성되는 아이디 값을 가져와서 그 아이디에 저장된 정보를 가져다가 이제 메이크에서 활용을 하는 겁니다 그래서 아이디를 저장해 줘야 되는데 지금요 첫 번째 거가 액터가 돌아가는 거를 감지하는 거예요 돌아갔으면 그 돌아간 거의 아이디값 디폴트 데이터셋 아이디입니다 요거를 지정을 해 주시면 됩니다 그리고 값을 몇 개까지 가져올 거냐 설정을 해 주실 수 가 있어요 열 개까지만 해보겠습니다 요거 시계를 다시 여기로 해서 한번 테스트를 해 볼게요 그러면 파에서 크롤러를 돌리고 그 값을이 메이크로 가져와 보도록 하겠습니다 메이크 시나리오를 이렇게 켜서 파이에 새로운 액터가 런을 하면 감지를 해서 데이터셋 아이템을 가져오도록 이렇게 설정을 해 놓고요 그 상태에서 웹 스크레이퍼를 스타트를 해 보겠습니다 그러면 이게 메이크가 받아 와야겠죠 그러면 이렇게 피파가 롤링을 진행을 하고요 진행이 완료되면 이제 메이크에서 이렇게 실행을 했다는 거를 파악을 했죠 그리고 html 가져오게 됩니다 여기 보시면 이번에는 프로덕트 값들이 다 뜨죠 지금 아까와는 다르게 프로덕트 값들이 잘 뜨는 거 같아요 요게 이제 피 파일을 써서 동적 웹사이트도 크롤링을 해 준 거고요 요거를 이제 또 텍스트로 변환을 해 줄게요 텍스트 파서로 텍스트로 변환해 주고요 페이지 html 값이죠 변환해 줄 거고요 그다음에 이거를 우리가 계속 뒤에 부분 만들면서 테스트를 해 줘야 되잖아요 그래서 요거를 끊고요 번개 모양을 가져오고 여기서 잠깐 테스트할 때 데이터 아이디 값을 파의 스토리지에 보시면 요거 잖아요 요거 돌린 거 데이터셋 아이디 값을 가져와서 여기다 넣어 줄게요 왜냐면 우리가 여러 번 돌릴 텐데 그때마다 파 워치 하고 파 또 실행하고 이러면 파이에서 또 크레딧이 소모가 되잖아요 그래서 이미 생성한 데이터가 있기 때문에 그거를 그냥 하드 코드에서 매번 가져 와다가 작업을 하도록 하겠습니다 그럼 그럼 다시 한번 돌려 볼게요 그럼 이제 그 데이터셋 아이디에서 그냥 바로 값을 가져와서 텍스트 값으로 변환을 해 준 거예요 여기 보시면 뒷부분에 이렇게 서비스들이 다 출력이 되죠 그럼 요거 가지고 이제 우리가 상품 서비스들 를 업데이트 날짜 언제 업데이트 했는지 그리고 상품명 가격 별점 링크 이렇게네 개의 값을 추출을 해 보도록 하겠습니다 여기도 마찬가지로 아까랑 동일하게 우리가 최종적으로 피티한달 주면 좋겠죠 그래서요 앞에 부분들을 제거하고이 리스트 부분만 추출이 되도록 먼저 추려 주고 싶어요 그 작업을 하도록 하겠습니다 여기 보시면 cpc 광고가 있죠이 cpc 광고가 여기에 처음 나옵니다이 cpc 광고 나오기 전까지는 다 필요 없는 내용이죠 그래서 피식 광고로 먼저 스플릿을 해서 데이터를 뽑아 주도록 할게요 그리고 밑에 보시면 고객 센터 텍스트가 있죠이 뒤에는 또 필요가 없는 정보죠 그래서 고객 센터로 또 한번 추여 주도록 하겠습니다 세 베리어블 프로덕트 리스트를 추려 줄 거고요 이런 식으로 아까랑 유사합니다 텍스트에서 cpc 광고로 플레이을 하고요 그다음에 슬라이스로 해서 앞에 cpc 광고 나온 앞에 부분은 날려버리고 그 뒤에 부분 2부터 시작해서 끝까지 가져오고 그거를 빈칸으로 이렇게 조인해서 하나 스플릿 된 거를 또 합쳐 주고요 합쳐 준 다음에 다시 한번 스플릿을 해서 고객 센터로 나누고 예로 해서 첫 번째 부분 고객 센터 나오기 앞부분만 출려 주겠습니다 이렇게 해서 한번 돌려 볼게요 그러면 아웃풋이 어느 정도 괜찮게 지금 잘라진 거 같죠 그럼 잘라졌다 서비스 별로 그 리스트를 아이템들을 좀 나눠 주고 싶어요 나눠 주려면 어떤 기준으로 나누면 상품별로 나눌 수 있는지를 또 패턴을 찾아보면 되겠죠 요렇게 뭐 9만 9천원짜리가 있고 그다음에 또 프리미엄 수익화 요게 90만 원짜리 이렇게 하죠 그래서이 W 24요 값으로 나누면 요렇게 하나씩 프로덕트을 좀 나눠 볼 수 있겠죠 그래서 그 값으로 한번 추가로 좀 아이템들을 나눠 주도록 할게요 리스트 아이템이라고 해 가지고 프로덕트 리스트를는 214 브라켓으로 요렇게 지정을 해 주겠습니다 그래서 요렇게 나눈 다음에 다시 한번 돌려 볼게요 그러면네 이렇게 리스트 아이템으로 얼추 잘 나눠졌고 그러면 요거를 이제 우리가 정리를 해서 시트에 넣어야 되는데 이거를 한 번에 돌리지 않고 각각 나눠서 좀 실행을 해주고 싶으면 이터레이터 아는 거를 활용해서 여기 지금 하나의 아웃풋으로 들어간 거를 나눠 주실 수가 있거든요 그래서 한번 그렇게 해 볼게요 그러면 플로우 컨트롤 들어가셔서 이터레이터를 누르시고요 어레이를요 아이템이죠 아이템 전체를 선택해 주시면 됩니다 그러면요 어레이 값을 받아 가지고 리스트 아이템으로 받아서 쪼개서 나눠 주게 됩니다 번들을 여러 개로 나눠 주거든요 다시 한번 실행해 보시면 이렇게 여러 가지 번들로 나눠 줬죠 잘 나눠 주는 걸 보실 수 있고요 그럼 요거에 각각 채치 ptl 또 돌려서 우리가 원하는 형태로 데이터를 정리해서 추출에 달라고 요청을 해 보도록 할게요 이번에는 짧은 작업이기 때문에 그 20 48로 주고요 시스템이랑 유저 프롬프 또 넣어 주겠습니다 이번에도 웹스 스 그리고 이제 우리가 원하는 값들 프로덕트 네임 프이 rate 링크를 가져와라 제이슨 포맷으로 출력하고 요런 제이슨 이런 값은 리트에 넣지 마라 그리고 여기는 example 넣어 줬어요 어떤 식으로 나와야 되는지 플을 잘 두 개를 넣어 줬습니다 레이트가 있는 경우가 있고 없는 경우가 있거든요 그래서 제가 웨이트가 없는 경우와 있는 경우를 나눠서 넣어 줬습니다 그러면 좀 더 채치 가 쉽게 작업을 할 수 있겠죠 그다음에 마지막에 실제 웹사이트 데이터를 넣어 줘야겠죠 그래서 웹사이트 데이터 해가지고 여기에 이터레이터 ES 뽑은 밸류 값을 넣어 주도록 하겠습니다 그러면 여기서 피티가 내용을 추출 하겠죠 제이슨 파일로 그러면 다시 또 파스 제이슨 해서이 값 그대로 받아오면 되겠죠 받아오고 그다음에 시트에 연결해 주시면 되겠죠 요거는 동일하니까 빨리 넘어가도록 하겠습니다 다시 한번 돌려서 테스트를 해 보도록 할게요 탑 하고요로 네임 프라이스 레이 링크 넣어 주겠습니다 그리고 다시 연결하고 한번 돌려 볼게요 별점이 있는 건 넣어주고 없는 건 안 넣어주고 해서 지금 상품들을 잘 추가를 해 주죠 아 35개가 나왔네요 이렇게 서비스들 잘 추가해 주는 거를 보실 수가 있습니다 그리고 이제 마지막에 실제로 활용하실 때는 요거 렇게 해서 연결해 주시면 되겠죠 연결하고 데이터셋 아이디를 다시 def 데이터셋 아이디로 변경을 해 주시면 됩니다네 오늘 이렇게 메이크와 채치 PT 그리고 피 파일을 활용해서 정적 웹사이트와 동적 웹사이트 둘 다 크롤링하는 방법에 대해서 살펴봤는데요 사실 웹 크롤링은 꼭 이렇게 메이크를 사용하지 않고 다른 방식으로도 하실 수는 있습니다 코드를 직접 제작하시고 유지보수를 하면서 활용하실 수도 있고요 아니면은 웹크롤링 자체를 도와주는 어 외부 서비스들이 있습니다 그런 유료 서비스들을 쓰셔서 웹크롤링을 요청하실 수도 있습니다 근데 이제 코드 제작은 아무래도 개발 지식이 좀 필요하고 또 계속 html 코드가 업데이트가 되겠죠 그러면 그거에 따라서 계속 코드 수정을 또 해 주셔야 돼요 그래야 제대로 크롤링을 하실 수 있기 때문에 개발 공부도 많이 하셔야 되고 또 리소스가 많이 쓰이게 된다라는 단 점이 있고요 외부 서비스 같은 경우에는 아무래도 FP 파일을 쓰는 거보다는 일단 비용이 더 들어갈 가능성이 높고요 그리고 뭐 크롤링을 하는 정보라든가 그게 출력되는 형태 이런 것들이 좀 더 제약이 있습니다 또 메이크 같은 걸 활용해서 자동화하기 어려울 수 있기 때문에 자동화 워크플로를 만드는 그 요소로서 활용하기에는 또 한계가 있을 수 있습니다 그래서 이런 단점을 보완한 중간 지점에 있는 웹크롤링 방식이 바로 오늘 소개해 드린 메이크와 AI 그리고 파를 활용한 웹크롤링 방식인데요이 세 가지 툴만 어느 정도 익히시면 웹 웹사이트에서 웬만한 정보들은 다 추출해서 활용하실 수 있습니다 또 여기에다가 서치 엔진 관련된 데이터는 우리가 이전 영상에서 배웠던서 API 또 활용하실 수 있겠죠이 웹 크롤링은 사실 업무 관련해서 리서치를 하시거나 데이터 분석을 하실 때 유용하게 활용될 수 있는 기술이니까이 영상 보시면서 웹크롤링 하는 방법 익히셔서 생산성을 높이는 시스템을 구축해 보시면 좋을 것 같습니다 그럼 저는 또 생산성을 높일 수 있는 시스템을 구축하는 방법을 가지고 찾아뵙도록 할 테니까요 관심 있으신 분들은 구독과 좋아요 알림 설정해주시면 감사하겠습니다 지금까지 시민 개별자 씨였습니다 [음악]
영상 정리

영상 정리

1. 웹 크롤링이 어렵다고 포기했나요? AI 활용으로 해결 가능해요.

2. 메이크와 채치 PT로 코딩 없이 웹사이트 정보를 쉽게 크롤링할 수 있어요.

3. 오늘은 정적 웹사이트와 동적 웹사이트 크롤링 방법을 보여드릴게요.

4. 웹사이트는 html로 만들어지고, 정적과 동적 두 가지 유형이 있어요.

5. 정적 웹사이트는 html이 바로 보여지고, 크롤링이 쉬워요.

6. 블로그나 회사 사이트가 대표적이고, html 소스만 있으면 데이터 추출이 간단해요.

7. 동적 웹사이트는 자바스크립트로 정보가 실시간 업데이트돼요.

8. 리액트, 앵귤러 같은 프레임워크 사용 웹이 여기에 속해요.

9. 메이크에서 두 가지 유형 모두 크롤링하는 방법을 알려드릴게요.

10. 먼저 메이크에 로그인 후 새 시나리오를 만들고 이름을 정하세요.

11. AI 관련 논문 정보를 크롤링하는 실습을 시작해 볼게요.

12. archive.org의 AI 논문 리스트에서 제목, 저자, 링크를 가져옵니다.

13. html 소스만 있으면 쉽게 원하는 데이터 추출 가능해요.

14. http 모듈과 request로 html 코드를 가져오고 텍스트로 변환해요.

15. 텍스트에서 원하는 정보만 패턴 매칭이나 AI로 추출할 수 있어요.

16. 채치 PT에 프롬프트를 넣어 원하는 데이터만 JSON 포맷으로 받아요.

17. 이렇게 여러 논문 정보를 정리해서 시트에 저장하는 것도 가능해요.

18. 링크 클릭 후 다시 크롤링해 기사 내용도 추출할 수 있어요.

19. 자바스크립트로 로드된 페이지는 http 요청으로 못 가져와요.

20. 이때는 파라는 외부 서비스 활용이 좋아요.

21. 파의 액터를 선택하고 로그인 후 크롤러를 실행하면 웹사이트 정보 수집 가능.

22. 크롤링 후 데이터는 파에서 저장되고, 메이크와 연결해서 활용 가능해요.

23. 주기적 자동화도 스케줄링으로 쉽게 할 수 있어요.

24. 무료 크레딧으로 개인 프로젝트도 충분히 가능하니 참고하세요.

25. 크롤링 대상이 동적이면 파의 웹 스크레이퍼 액터를 사용하세요.

26. 페이지 html을 자바스크립트 실행 후 가져오도록 설정하면 돼요.

27. API 토큰으로 파와 연결하고, html 데이터를 받아와 텍스트로 변환하세요.

28. 필요 없는 부분은 잘라내고, 기사 내용만 정리하는 것도 가능해요.

29. 여러 상품 정보도 패턴 매칭으로 쉽게 추출할 수 있어요.

30. 리스트를 나눠서 각각 시트에 넣거나, 반복 처리도 가능해요.

31. 최종적으로 채치 PT에 요청해서 원하는 정보만 JSON으로 받아오세요.

32. 이 방법들로 정적, 동적 웹사이트 모두 크롤링 가능해요.

33. 개발 지식 없이 AI와 툴 활용으로 업무 효율 UP!

34. 웹 크롤링은 리서치, 데이터 분석에 큰 도움 될 거예요.

35. 영상 참고해서 배워두면 업무 자동화에 큰 힘이 될 겁니다.

최근 검색 기록