본문 바로가기

반응형

코딩/데이터분석

[Python/데이터분석]iris 데이터셋 K-means 알고리즘 적용 및 결과 해석 학교에서 '다변량 통계' 과목을 듣고 있는데 '군집 분석'에 대한 과제를 하면서 필요한 내용에 대해 정리한 글 군집 분석은 머신 러닝에서 비지도 학습 알고리즘에 속하는 방법이다. 흔히 클러스터링 알고리즘(Clustering Algorithm)이라고도 하며, 계층적(hierarchical) 방법과 비계층적(Non-hierachical) 방법이 있다. 계층적 방법은 흔히 개체간 거리 기반의 알고리즘을 말하며, 대표적으로 유클리디안, 마할라노비스, 맨하탄, 체비세프, 민코프스키 계산 방법이 있다. 비계층적 방법은 이번 포스팅에서 다룰 K-means 알고리즘을 말하며, 일반적으로 데이터셋에서 구분 할 class의 수를 알고 있는 경우 많이 활용한다. 이번 포스팅에서는 K-means 알고리즘에 대한 간단한 정리와.. 더보기
[Python/데이터분석] 인구 통계 자료 활용하여 원하는 데이터만 시각화해보기 행정안전부(mois.go.kr)에서는 주민등록 인구 통계 자료를 자유롭게 일반인들이 사용가능하도록 공유하고 있다. 파이썬 pandas 및 matplotlib 시각화 코드 작성에 익숙해지기 위해 아래와 같이 과제 진행 및 과정을 기록한다. 주제 : 과거 1년간 서울지역 재외국민 통계자료를 활용하여 2022년 11월 기준 재외국민수, 세대수 시각화해보기 1. 통계자료 검색 및 다운 1) 검색 조건 설정 먼저 실제 받아 볼 통계자료 조건을 선택한다. .csv 파일이나 .xlsx을 선택하여 다운받을 수 있다. 이번에는 csv 파일로 다운로드 진행하여 처리해볼 것이다. 불필요한 데이터를 제거하기 위해 구분의 남여구분/남여구성비/세대당인구는 체크 해제했다. 2) csv 자료 확인 자료를 확인해보면 행정구역부터 20.. 더보기
[Python/파이썬] matplotlib 2편 : 그래프 시각화 y축 숫자가 섞여서 나오는 문제 해결 2021.08.15 - [코딩/Python] - [Python/파이썬] 필요한 부분만 정리하는 matplotlib 1편 아래 이미지의 csv 파일(doctor_data.csv)에 접근하여 지역별 의사들의 숫자를 꺾은선 그래프로 나타내주는 시각화를 진행해보았다. 다만, 시각화를 할 때 y축 숫자가 뒤죽박죽 섞여서 나오는 문제가 있어 한참을 해멨다. 이번 포스팅에서는 그 과정과 해결방법을 기록한다. 단계별 코드는 아래와 같다. 1. import import matplotlib.pyplot as plt from matplotlib import rc #한글 폰트 깨짐 방지를 위한 모듈 import csv - rc 모듈의 경우 matplotlib 사용시 내부 그래프에 한글을 사용하면 깨지는 문제가 있는데 이 문제.. 더보기
[Python/파이썬] 필요한 부분만 정리하는 matplotlib 1편 2021.08.15 - [코딩/Python] - [Python/파이썬] 필요한 부분만 정리하는 matplotlib 1편 2022.11.10 - [코딩/Python] - [Python/파이썬] matplotlib 2편 : 그래프 시각화 y축 숫자가 섞여서 나오는 문제 해결 필요한 부분만 정리하는 matplotlib 1편. 아래 내용은 위키독스의 'Matplotlib Tutorial - 파이썬으로 데이터 시각화하기'라는 책을 참고하여 정리하였다. 앞으로 정리하는 내용은 아래 matplotlib 라이브러리의 pyplot 모듈을 사용한다. 라이브러리 및 모듈명이 길기 때문에 코드에서는 plt로 줄여 사용. import matplotlib.pyplot as plt 1. 기본 그래프 그리기 기본적으로 그래프를 그리.. 더보기
[Python/파이썬] Numpy 기초 2편 : numpy의 여러가지 연산 ※ 관련포스팅 1편 : 2021.06.29 - [코딩/Python] - [Python/파이썬] Numpy 기초 1편 : Array 생성 및 인덱싱,슬라이싱 2편 : 2021.06.30 - [코딩/Python] - [Python/파이썬] Numpy 기초 2편 : numpy의 여러가지 연산 이번 편에서는 numpy의 각종 연산에 대한 부분을 알아본다. numpy의 행렬 계산은 우리가 일반적으로 알고 있는 선형대수 행렬 계산 외에 브로드캐스팅이라는 개념이 존재한다. 참고링크의 예시들을 따라하며 공부해 본 내용을 정리해보았다. 1. 행렬 크기가 서로 같은 경우의 연산 아래와 같이 2*2의 2차원 행렬 2개(t1, t2)를 정의해보았다. 행렬 크기가 같은 경우 어떻게 계산이 이루어지는지 아래 여러가지 예시를 통해.. 더보기
[Python/파이썬] Numpy 기초 1편 : Array 생성 및 인덱싱,슬라이싱 ※ 관련포스팅 1편 : 2021.06.29 - [코딩/Python] - [Python/파이썬] Numpy 기초 1편 : Array 생성 및 인덱싱,슬라이싱 2편 : 2021.06.30 - [코딩/Python] - [Python/파이썬] Numpy 기초 2편 : numpy의 여러가지 연산 머신러닝을 진행하는데 있어 필요한 모듈인 Numpy를 정리해보려고 한다. 페이스북의 딥러닝 프레임워크인 Pytorch를 사용해보려고 하는데 Pytorch의 경우 Numpy랑 매우 유사한 것 같다. 이 기회에 Numpy를 공부하면 도움이 되지 않을까 싶어 정리해본다. 참고로, Numpy는 벡터, 행렬 연산에 있어 많은 함수와 기능들을 제공하기 때문에 머신러닝, 딥러닝에 필요한 기초적인 라이브러리라고 한다. 1. 벡터(Vec.. 더보기
[Python/파이썬] Pandas 기초 정리 : 원소 바꾸기, dropna(), fillna() ※ 이 글을 쓰는 사람은 SW 비전공자입니다. ※ 개인 공부를 위해 정리하는 글이며, 작성한 코드들은 효율성, 깔끔함(?) 등과는 거리가 멀 수 있습니다. 1편 : 2021.03.31 - [코딩/Python] - [Python/파이썬] Pandas 기초 정리 : Series, Dataframe 개념 정리 2편 : 2021.04.01 - [코딩/Python] - [Python/파이썬] Pandas 기초 정리 : 엑셀 파일(.xlsx) Dataframe으로 만들기 3편 : 2021.04.03 - [코딩/Python] - [Python/파이썬] Pandas 기초 정리 : Dataframe 내부 데이터 조회 방법 4편 : 2021.04.05 - [코딩/Python] - [Python/파이썬] Pandas 기초 .. 더보기
[Python/파이썬] Pandas 기초 정리 : Dataframe 행, 열 삭제하기(drop 함수) ※ 이 글을 쓰는 사람은 SW 비전공자입니다. ※ 개인 공부를 위해 정리하는 글이며, 작성한 코드들은 효율성, 깔끔함(?) 등과는 거리가 멀 수 있습니다. 1편 : 2021.03.31 - [코딩/Python] - [Python/파이썬] Pandas 기초 정리 : Series, Dataframe 개념 정리 2편 : 2021.04.01 - [코딩/Python] - [Python/파이썬] Pandas 기초 정리 : 엑셀 파일(.xlsx) Dataframe으로 만들기 3편 : 2021.04.03 - [코딩/Python] - [Python/파이썬] Pandas 기초 정리 : Dataframe 내부 데이터 조회 방법 4편 : 2021.04.05 - [코딩/Python] - [Python/파이썬] Pandas 기초 .. 더보기

반응형