컴붕이
  • 홈
  • 태그
  • 방명록
  • 메뉴 닫기
  • 글작성
  • 방명록
  • 환경설정
    • 분류 전체보기
      • 개인공부
        • [JAVA]
        • [Python]
        • [Web]
        • [CS]
        • [DB]
        • [Oracle]
        • [Spring]
      • 알고리즘 문제풀이
        • [Python] 백준
        • [C++] 프로그래머스
      • 프로젝트
        • 레시피추천 프로그램
      • 툴 관련 및 기타
  • 홈
  • 태그
  • 방명록
프로젝트/레시피추천 프로그램

Mecab 형태소 분석기 dictionary 등록

이전 포스팅에서는 전처리했던 내용을 포스팅하였습니다. 이 전처리 과정중에 단순히 mecab의 nouns함수를 이용하여 명사를 분류만 했었는데요 이 과정에서 불용어나 원치않는 단어가 많이 나왔었습니다. 그래서 이번에 제가 필요한대로 사전에 단어등록을 하고 우선순위를 수정했던 과정을 포스팅하려 합니다. mecab설치와 사용법에 대한 자세한 내용은 다음 블로그를 참고하였습니다 :) hong-yp-ml-records.tistory.com/91 [파이썬 NLP] Window에서 Mecab 사용하기 / Konlpy 토크나이저 비교 이번 포스팅은 Konlpy 라이브러리의 여러 토크나이저들과 그 성능을 비교해보는 시간을 가져보겠습니다! 또한 Konlpy와 별개로 추가 설치를 해야하는 Mecab 토크나이저의 설치 방법도..

2021. 1. 5. 18:03
프로젝트/레시피추천 프로그램

[데이터 전처리] 재료명 정확도 높이기

이전 포스팅에서는 데이터를 파싱 하고 DB에 메뉴, 재료들을 저장하였습니다. 이번 포스팅에서는 저장된 이 재료명들을 정확성 있고 깔끔한 데이터로 전처리했던 방법을 설명하려 합니다. 전처리를 하는 이유는 Beatuifulsoup으로 파싱 했던 재료 내용들은 아무래도 사용자가 직접 입력한 양식이 일정하지 않은 재료들입니다. 그래서 이 데이터들을 제가 사용하기에 알맞게 일정한 양식으로 전 처리하는 과정이 필요합니다. 또한 word2 vec학습에 있어서 정확한 단어를 가지고 임베딩 하고 학습을 하는 것이 좀 더 정확도 높은 레시피 추천과 속도를 가져올 수 있기 때문입니다. 데이 터전 처리 전에는 위 사진처럼 띄어쓰기나 'ZWSP국수' 와같이 불필요한 단어가 섞여있는 것을 확인할 수 있습니다. 이외에도 '소고기 ..

2021. 1. 3. 19:00
프로젝트/레시피추천 프로그램

[크롤링]- 메뉴와 재료 크롤링하기

크롤링 robots.txt에 대해서 알아보고 본격적으로 크롤링을 한 내용을 포스팅하려 합니다. 이용하는 사이트는 '만개의 레시피'로 user들이 각자의 음식 레시피와 재료들을 등록하고 사람들과 소통하는 커뮤니티 사이트입니다. www.10000recipe.com/ 요리를 즐겁게~ 만개의레시피 www.10000recipe.com BeatuifulSoup에는 정말 다양한 함수가 존재했지만 필요한 목적에 맞는 크롤링, 파싱 함수들만 집중적으로 공부하고 적용하였습니다. 이 과정에서 필요한 정보인 레시피 제목, 재료, url을 위해 10000개의 레시피 사이트의 html inspection을 확인하였습니다. inspection에서 메뉴, 재료 들의 태그를 확인하였고 크롤링한 페이지에서 이들을 파싱 해내어 db에 저..

2021. 1. 3. 17:34
프로젝트/레시피추천 프로그램

크롤링 접근 차단 robots.txt

프로젝트를 시작하기에 앞서 크롤링에 대한 정보와 지식을 얻으려 서칭을 했습니다. 크롤링이 법적 문제가 자주 일어나고 이를 침해하지않고 사용하는것이 중요다는것을 알게 되었다. 그래서 크롤링을 하기전에 알게된것에대해 다행이라고 생각했고 조심스럽게 사용해야겠다 생각하여 이것저것 찾아보았습니다. 그중 발견한것이 robots.txt 입니다. robots.txt파일이란 웹크롤러와 같은 착한 로봇들의 행동들을 관리하는 것을 말합니다. 서비스를 제공하는 운영자는 이 로봇들을 관리해서 원하는 페이지를 노출이 되고 안되게 설정할 수 있고 저작권 침해를 방지할 수 있습니다. robots.txt 기본 문법 – User-Agent: 웹사이트 관리자가 어떤 종류의 로봇이 크롤링을 하는지 알 수 있게합니다. – Disallow: ..

2021. 1. 2. 01:34
  • «
  • 1
  • »

공지사항

전체 카테고리

  • 분류 전체보기
    • 개인공부
      • [JAVA]
      • [Python]
      • [Web]
      • [CS]
      • [DB]
      • [Oracle]
      • [Spring]
    • 알고리즘 문제풀이
      • [Python] 백준
      • [C++] 프로그래머스
    • 프로젝트
      • 레시피추천 프로그램
    • 툴 관련 및 기타
애드센스 광고 영역
  • 최근 글
  • 최근 댓글

최근 글

최근댓글

태그

  • #알고리즘
  • #자바하위클래스
  • #자바업캐스팅
  • #백준2798파이썬
  • #Java 접근제어자
  • #백준2798Python
  • #Java상속
  • #Java업캐스팅
  • #Python map함수
  • #Scanner클래스
  • #Java생성자
  • #Java입출력
  • #zip함수
  • #Python
  • #Beautifulsoup
  • #백준
  • #백준Bruteforce
  • #크롤링
  • #Java 상위클래스
  • #파이썬 zip함수
  • #백준브루트포스
  • #파이썬map함수
  • #Java
  • #map객체
  • #하위클래스 생성자
  • #Python입력받기
  • #Spring
  • #백준2798풀이
  • #Java문법
  • #데이터분석
MORE

전체 방문자

오늘
어제
전체

블로그 인기글

Powered by Privatenote Copyright © 컴붕이 All rights reserved. TistoryWhaleSkin3.4

티스토리툴바