hello

안녕하세요,

인공지능과 예술을 좋아하는

도현진입니다.

보유스킬

딥러닝 및 머신러닝을 위한 지속 가능한 데이터 파이프라인을 생성하는데 필요한 기술에 특화되어 있습니다.

Programming Languages
  • Python
  • PySpark
  • SQL
  • Linux Shell Script
  • R
  • C/C++
Libraries
  • Tensorflow
  • Keras
  • Scikit-learn
  • Numpy, Scipy, Pandas
  • Seaborn, Plotly, Dash
DB, Framework, Platform
  • Airflow
  • Flask, BentoML
  • S3
  • MongoDB
  • PostgreSQL
  • EC2, ECS, Lambda
  • AWS Quicksight, Google Data Studio
Web Crawling & NLP
  • Selenium, ChromeDriver
  • Request, BeautifulSoup
  • BeautifulSoup
  • Re, NLTK, Spacy, Khaiii

학력

컴퓨터 공학 석사 졸업
& 코드 스테이츠 AI 부트캠프 5기

ui-ux
한동대학교
포항

2013년 3월 - 2018년 6월

생명과학, 컴퓨터공학 (복수전공)
학사 졸업



web design
Hunter College
뉴욕

2019년 1월 - 2022년 2월

컴퓨터공학 석사졸업


graphic design
Code States
온라인

2021년 7월 - 2022년 1월

AI 부트캠프 5기


프로젝트 포트폴리오 : 추천 & 예측 모델

  1.   Hello Welfare   


    • Wello와 함께한 기업협업 프로젝트 : 기업과 유저를 위한 정책 추천 시스템
    • Khaiii API와 KoBERT 모델을 통해 자연어 처리 및 특성공학 진행
    • 태깅 + 매칭 시스템을 구현하기 위해 비지도학습 Spectral Clustering과 K-means 시도
    • 주어진 기업 데이터의 다양한 특성(설립기간, 업종, 지역, 기업 규모 등)을 바탕으로 Admin 데이터 태깅을 완성, Query 형식으로 정책 추천 알고리즘 구현

  2.   트위터로 알아보는 교통 체증     (nyc-based)


    • SNScrape과 Tweepy API를 사용한 데이터 수집 (511NY 채택)
    • NLTK를 통해 자연어 처리, Vader Method를 통해 감정 분석
    • ArcGIS로 정제된 지역명을 Geocoding - 경도와 위도 추출
    • 클래스 불균형 (교통사고 유무) 문제를 해결하기 위해 SMOTE method 사용
    • 추출한 feature들을 사용해 KNN, Random Forest, XGBoost, SVC 등의 머신러닝 모델을 활용해 지역별 교통사고 확률 예측

  3.   도비 : 자동 논문 분석 및 키워드 추천 시스템  


    • Selenium과 Beautiful Soup을 사용해 생명과학 논문 게재 사이트 PubMed에서 논문 데이터 웹크롤링
    • NLTK, spacy를 통해 자연어 처리 및 불용어 제거, unigram, bigram, trigram 생성
    • Markovify를 사용해 Markov Chain 기반 문장 생성기 구현
    • 대학원생 및 인턴들의 편의를 위해 몇 백개의 논문을 한 번의 클릭으로 분석하고 csv 파일로 추출
    • 현재 의학/생명과학 분야에서 트렌디한 키워드 추천과 함께 검색 주제와 유사한 키워드 추천

프로젝트 포트폴리오 : 컴퓨터 비전

  1.   쇼팽처럼 작곡하기 : Spectogram과 CNN을 사용한 작곡 모델  


    • Kaggle의 Classical Music Midi (Soumik Rakshit, 2018) 데이터셋의 쇼팽의 피아노 midi 파일을 사용
    • Midi 파일을 Wav 파일로 변환 후 15초씩 5초 간격으로 추출해 데이터 증강 , 이후 spectogram으로 변환 (Fourier transform) - Fluidsynth, Pydub, Librosa 사용
    • Spectogram을 3D numpy array로 변환 후 세 가지 종류의 CNN 모델을 사용해 훈련 (input=7.5s, output=7.5s)
    • 예측한 작곡 시퀀스를 오디오 파일로 변환해 확인

  2.   뉴욕 메트로폴리탄 박물관 소장품의 기원 추측 모델   


    • Google Cloud 서비스의 Big Query를 사용해 The Met Collection 소장품 메타 데이터 SQL문으로 추출 및 저장
    • 이미지 url의 결측치로 인해 object ID 기준으로 Chromedriver와 Selenium을 사용해 Image DataGenerator 형식에 맞춰서 다운로드
    • 타겟 데이터를 특성공학으로 총 16개의 값으로 정리 후 VGG16 모델을 사용해 train 데이터 훈련 후 각 소장품의 나라별 기원 확률 예측 모델 구현

    프로젝트 포트폴리오 : Unity

  1.   Habisnap : VR로 체험하는 고대 Safari   


    • Google Cardboard VR Unity/C#
    • 거동이 불편한 노약자 대상으로 만든 VR 동물원 체험 (bird watching concept)
    • 숲, 남극, 사막, 심해 4가지의 scene으로 이루어진 VR 체험으로 사용하기 쉬운 Google Cardboard와 간단한 액션을 통해 어지러움을 최소화

  2.   XR Storytelling Framework   


    • XR Animation Unity/C#
    • 시청자 또한 이야기의 일부인 듯한 몰입도를 주는 XR 스토리텔링
    • Mixamo를 통해 다양한 애니메이션을 Waypoint와 Graph System을 통해 구현

블로그 (Medium)


Contact Me