웹스크래핑에 필요한 이론
·
python/python_selenium
1. HTML 웹페이지의 본문 안녕하세요, 조○○입니다. 구글로 이동하기 웹스크래핑 : 웹페이지에서 내가 원하는 부분만 떼오는 것 웹 크롤링 : 페이지가 주어지면 링크를 따라가며 내용을 가져오는 것. HTML : 웹사이트의 뼈대를 의미함. CSS : 웹사이트의 디자인적인 요소를 의미함 Java Script : 웹사이트 내의 움직임, 작업 등을 의미함. 2. Xpath # xpath = html 코드에서 어떠한 값의 경로를 의미함. 김○○ 박○○ 최○○ 조○○ 김○○ ... 3반 박○○ 비슷한 tag or element가 있을 때 어떤 element를 지칭하는지 명확하게 하기 위해 xpath 사용 xpath형식 = /학교/학년/반/학생[n]/... unique 값이 있을 때 = //*[@학번 = "1-1-..