본문 바로가기

데이터 시각화 분석

취미로 하는 데이터 분석 시리즈09(소행성의 어떤 특징이 지구에 더 큰 위험을 가져올까?) In [146]: import pandas as pd import numpy as np from matplotlib import pyplot as plt In [147]: df = pd.read_csv("neo.csv") 카글 NASA - Nearest Earth Objects https://www.kaggle.com/datasets/sameepvani/nasa-nearest-earth-objects There is an infinite number of objects in the outer space. Some of them are closer than we think. Even though we might think that a distance of 70,000 Km can not potentiall.. 더보기
취미로 하는 데이터 분석 시리즈08(가장 칼로리 소모가 큰 운동은 무엇인가?) 어떤 운동이 가장 칼로리 소모가 많은가에 대해 데이터 분석을 해보려한다.¶ 데이터 출처: https://www.kaggle.com/aadhavvignesh/calories-burned-during-exercise-and-activities In [1]: import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns In [2]: df = pd.read_csv("./exercise_dataset.csv")#Read Datasets 먼저 데이터가 어떻게 되어있는지 살펴보자. 이러한 과정을 EDA라고 한다. EDA는 Exploratory Data Analysis로, 탐색적 데이터 분석으로 불린다. 이에 대한.. 더보기
취미로 하는 데이터 분석 시리즈07(Python Selenium으로 다음 인기 검색어 가져오기, 다음 로그인) 다음의 인기검색어를 가져와보자! In [50]: from webdriver_manager.chrome import ChromeDriverManager from selenium import webdriver from bs4 import BeautifulSoup import os from glob import glob import requests import time In [57]: urls = "https://www.daum.net/" #wrapSearch > div.slide_favorsch > ul:nth-child(2) > li:nth-child(2) > a In [72]: driver = webdriver.Chrome(ChromeDriverManager().install()) driver.get(u.. 더보기
취미로 하는 데이터 분석 시리즈06(웹사이트 크롤링 어플리케이션) In [1]: #이번에는 데이터를 직접 모아보자. #이미지 크롤링 #yandex.com에서 검색한 뒤에 사용할것. In [2]: from bs4 import BeautifulSoup from selenium import webdriver from webdriver_manager.chrome import ChromeDriverManager import time import urllib.request import os urls에 yandex.com에서 검색 이후 첫번째사진을 클릭하고 그 Url을 넣는다. In [3]: urls = "https://yandex.com/images/search?text=starbucks&pos=0&img_url=https%3A%2F%2Fpbs.twimg.com%2Fmedia%2.. 더보기
취미로 하는 데이터 분석 시리즈05(이미지 분류/Dacon 공모전 CNN 클론 코딩) In [2]: import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns In [3]: df = pd.read_csv("./data/sample_submission.csv") In [4]: df.head() Out[4]: id target 0 0000.jpg human 1 0001.jpg human 2 0002.jpg human 3 0003.jpg human 4 0004.jpg human In [5]: import os import warnings warnings.filterwarnings(action='ignore') os.environ["CUDA_VISIBLE_DEVICES"] =.. 더보기
취미로 하는 데이터 분석 시리즈04-2(기원후 1000년에 와인을 만들었다면 그 가격은 얼마일까?) In [1]: import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns In [2]: from matplotlib import font_manager, rc font_path = "C:\Windows\Fonts\gulim.ttc" font = font_manager.FontProperties(fname=font_path).get_name() rc('font', family=font) In [10]: wine = pd.read_csv('./wine.csv') In [11]: wine.head() Out[11]: Unnamed: 0 Unnamed: 0.1 country d.. 더보기
취미로 하는 데이터 분석 시리즈04-1(와인 가격 데이터 분석) In [1]: import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn In [2]: from matplotlib import font_manager, rc font_path = "C:\Windows\Fonts\gulim.ttc" font = font_manager.FontProperties(fname=font_path).get_name() rc('font', family=font) In [3]: wine = pd.read_csv('./datas/winemag-data-130k-v2.csv') In [4]: wine.head() Out[4]: Unnamed: 0 country de.. 더보기
취미로 하는 데이터 분석 시리즈03(Instagram 팔로워 수 데이터 분석) In [1]: import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn In [46]: insta = pd.read_csv("./Datas/instagram_global_top_1000.csv") In [3]: insta.head(5) Out[3]: Country Rank Account Title Link Category Followers Audience Country Authentic engagement Engagement avg Scraped 0 All 1 cristiano Cristiano Ronaldo https://www.instagram.com/cristiano/ Sports with a ball .. 더보기