Data Mining
어제까지만 해도 웹 크롤링(파싱) 작업을 위해
아파치의 Nutch를 이용하려고 이 것 저 것
해보고 막히고 있었는데 오늘 문득 R로도
웹 페이지 파싱 작업을 할 수 있지 않을까
라는 생각을 하게 됐습니다. 만약 그렇게 된다면
어차피 수집 후에 R로 형태소 분석 작업을 해야
되는데 수집까지 R로 된다면 NUTCH, R 따로
관리할 필요 없이 R로만 수집에서 형태소 분석까지
가능하니 언뜻 생각해 봐도 더 좋은 구조가
될 거 같았습니다! 찾아보니 역시나 R에서도
웹 크롤링이 가능했습니다!
oAuth
예전에 다음과 네이버에서도 OAuth를 했었는데
역시나 트위터도 연동을 위해서 OAuth를 통한
인증 과정이 필요했습니다.
혹시나 필요로 할 분들을 위해 다음과 네이버
oAuth 인증 방법 포스팅 글도 공유합니다~
트위터
트위터 개발자 사이트로 들어갑니다.
페이지 하단에 아래 메뉴 클릭!
TOOLS -> Manage Your Apps
Create New App
버튼을 클릭하셔야 되는데 만약 트위터 계정이
핸드폰 인증 되어 있지 않다면 아래와 같이
인증 과정을 거치셔야 됩니다.
트위터 홈페이지 -> 로그인 -> Settings -> Mobile
위에 경로로 가시면 핸드폰 인증을 받을 수 있습니다.
Create New App 누르시면 위와 같은 페이지가 뜹니다.
* 표시가 된 건 필수로 입력 하시고, 밑에 서양서 동의 후
Create your Twitter application
버튼을 누릅니다.
그러면 위와 같이 앱이 생성 됩니다.
지금 위에 화면에는 두 개가 있는 겁니다!
자신이 만든 App을 클릭합니다!
그러면 위와 같은 페이지를 보실 수 있습니다.
보시면 중간에 Consumer Key가 있는데
이 값 외에도 세 개의 값이 더 필요합니다.
아직 할 작업이 남이 있단 얘기가 되겠죠 ㅎ
위의 탭 중에
Keys and Access Tokens
클릭!
하단에
Create my access token
클릭!
그럼 위와 같이
Access Token, Access Token Secret
값 두 개를 추가로 더 얻을 수 있습니다.
그럼 총 네 개의 값을 얻었고,
이 값으로 Twitter 연동이 가능합니다.
Consumer Key
Consumer Secret
Access Token
Access Token Secret
R
위에 내용이 트위터와 연동한 R 예제입니다.
보시면 주석으로 인증정보라고 표시한 네 개의
값에 트위터 웹 페이지에서 얻은 값들을
넣어준 후 위에 예제를 실행 주시면 됩니다.
setup_twitter_oauth(consumerKey, consumerSecret, accesstoken, accesstokensecret)
이 부분이 key 값으로 트위터에
연결하는 부분입니다.
연결이 완료 되면 apple의 트위터 계정으로
들어가서 최근 1000건의 글을 읽어 옵니다.
그리고 그 중에 17건만 출력하도록
제일 마지막에 작성했습니다
주석에는 5건이라고 썼는데 무시하세요 ㅎㅎ
17건 중에 8건만 캡처했습니다.
비정형데이터
대충 정의를 해보자면...
SNS 상에 있는 비정형데이터를
수집해오기 위해 트위터를 이용했고,
오늘 트위터의 글을 수집해오는 것까지
성공했습니다. 이제 이 수집된 데이터를
형태소 분석기를 통해 의미있는 데이터를
골라내고, 없앨 건 없애고, 의미 분석을
하기 쉽도록 형태소 분석기를 거챠야 됩니다.
오늘 형태소 분석까지 거치지는 못했지만
R을 통해 수집이 됐으니 분석하는 방법도
조사를 해보면 되겠죠~
그런데 이 형태소 분석기도 R로 실행이
가능한 패키지로 수집과 분석을 모두
R을 통해서 할 수 있는 발판이 오늘
마련된 겁니다 ㅎㅎㅎㅎ
이렇게 하나씩 하나씩 해결해 나가야죠~
No comments:
Post a Comment