일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- RNN
- Support Vector Machine
- nlp
- AI 윤리
- Python
- Logistic Regression
- 군집화
- cross domain
- NMF
- Transfer Learning
- Clustering
- gaze estimation
- ResNet
- textmining
- stemming
- LSTM
- Attention
- NER
- tensorflow
- BERT
- MLOps
- Binary classification
- Gradient Descent
- SOMs
- Generative model
- 자기조직화지도
- VGGNet
- Ann
- 경사하강법
- TFX
- Today
- Total
목록Artificial Intelligence (64)
juooo1117

Recommender System 고객의 기호를 바탕으로 아이템(상품)을 추천하는 시스템. 추천 시스템은 개인 또는 그룹의 기호를 기반으로 작동한다. Collaborative Filtering(CF) - 추천 대상인 사용자와 비슷한 취향을 가진 다른 사람들이 선택한 아이템을 추천하는 시스템 - 과거의 구매 이력을 봤을 때, A와 B의 이력이 비슷하다면 A에게 B가 구매한 다른 상품을 추천 - 기본적으로 사용자가 아이템들에 대해 평가한 데이터가 필요하다. 지금까지 나와 비슷한 행동을 한(아이템 구매 or 평가) 사람은 앞으로도 그럴 것이라는 가정 하에 진행된다. Nearest Neighbor Recommendation 평가 패턴으로 판단해서 가장 비슷한 사용자를 선택하여 그 사람이 Item5에 대해 평가한..

Word Embeddings 하나의 차원에 표현되었던 각 단어를 연속적인 숫자를 값으로 갖는 벡터 형식으로 표현하는 방식 Word2Vec : 하나의 단어를 표현하는 벡터를 구하기 위해 주변 단어를 활용해서 학습한다. Skip-Gram Model skip gram neural network architecture for Word2Vec 'The'가 입력으로 들어갔을 때, 주변의 단어(output)를 맞추는 것 ⇒ quick Model details - input word를 one-hot vector 로 표현한다. - This vector will have 10,000 components (one for every word in our vocabulary) and we’ll place a “1” in the..

Text Summarization Text summarization is the process of distilling the most important information from a source to produce an aridged version for a particular user and task. - 문서 자동 요약 - 텍스트 문서의 핵심적인 내용을 잘 표현하는 요약을 자동으로 만드는 과정 - 급증하는 텍스트 정보에 효율적으로 접근하고 활용하기 위한 기술이다 - 검색 결과에 대한 요약 정보, 상품에 대한 요약, 책이나 영화 요약, 뉴스 요약 등이 있다. Methodology Extractive Methods (추출식 방법론) 요약 대상인 문서에서 구절이나 문장을 선택해서 요약문을 만드는 방법..

Named Entity Recognition NER(Named Entity Recognition)의 목표는 Named Entity(이름을 가진 개체)를 Recognition(인식)하는 것을 의미하며, 개체명 인식이라고 한다. → NER is the process of locating and classifying named entities in text into predefined entity categories. NER은 문장을 토큰 단위로 나누고, 이 토큰들을 각각 태깅(tagging)해서 개체명인지 아닌지를 판별하게 된다. 따라서, NER 작업을 위해 NE(인물이나 장소 등 고유명사)의 경계를 식별하고 해당 유형을 식별하는 두 가지 하위 작업으로 나눌 수 있다. 일반적으로 IOB 형식( = BIO f..

Clustering with NMF(Non-negative factorization) Document Classification 참고 블로그 : https://www.davidsbatista.net/blog/2017/04/01/document_classification/ - classifiy a document into a set of pre-defined categories using different supervised classifiers and text representations. - Only use the plot of the movie and the genre on which the movie is classified. - Dataset: IMDB datasets of movie, genre..

Classification labeling된 학습 데이터를 활용해서 분류 모델을 구축한 후에, 신규 데이터를 분류모델에 입력해서 그 데이터의 클래스(category)를 예측한다. 딥러닝 기반의 방법론들이 다양하게 나오면서, text classification에 최적화된 ANN architecture가 나오기 시작함 Sentiment Analysis sentiment analysis(감성 분석)은 opinion mining 이라고도 하며 자연어 처리 및 텍스트 분석을 통해서 텍스트에 나타난 주관적인 감성을 식별하는 것을 의미한다. 주로, 주어진 텍스트를 positive category 또는 negative category로 분류하는 것을 의미하며 neutral category를 추가하기도 한다. (다양한 ..

Clustering data instances를 비슷한 것끼리 묶어서 그룹을 만드는 방법으로 같은 cluster에 속해있는 문서들이라면 해당 문서들은 서로 비슷해야 하며, 다른 cluster에 해당되는 문서들끼리는 서로 달라야 한다. unsupervised learning의 한 방법이다. Non-negative Matrix Factorization(NMF) 비음수 행렬 분해: 행렬을 분해하는 방법으로 모든 요소가 음수가 아닌 행렬 V를, 모든 요소가 음수가 아닌 행렬 W, H의 곱으로 분해한다. NMF는 document clustering 에 사용할 수 있다. Goal: V가 주어졌을 때, V ≈ WH 를 만족하는 W, H 를 구해내는 것 V의 column vector는 W의 column vector들과..

Sequence Labeling sequence로 이루어진 데이터 요소 각각에 label을 주는 것이다. 자연어는 sequence이기 때문에 자연어처리에 다양하게 쓰인다. Sequence of observations : 구성요소가 순차적으로 연결되어 있는 입력 데이터 → X = {x1, x2, x3, ... xt}, t는 sequence의 요소를 표현하는 index Sequence of states(labels) : 입력 데이터 구성요소 각각에 대한 레이블 → Y = {y1, y2, y3, ... yt}, t는 sequence의 요소를 표현하는 index Sequence Labeling - supervised learning으로, 학습을 통해서 model parameter 값을 예측한다. 새로운 x가 주..

Text Statistics 의미 있는 단어들을 찾기 위해 단어들의 통계적(statistical) 특성을 이용해 보자 언어적, 장르적, 시대적 차이 등에 상관없이 보편적으로 적용할 수 있는 단어의 통계적 특성이 있을까? CranfieldDocs word frequency 그래프 Zipf's Law (지프의 법칙) 단어의 빈도수는 단어의 순위에 따라서 급격히 감소한다. 즉, 순위(rank)가 낮아질 수록 급격히 감소하며, Ft = k / Rt (Ft: 단어 't'의 빈도수, k: constant; 문서집합마다 다른 값, Rt: 단어 't'의 순위) 식과 같이 감소한다. 가장 빈도수가 높은 단어가 t' 일 때 Rt' = 1 이다. → frequency rank = 1 인 단어! 가장 빈도수가 높은 단어는 전..
Web 1989년 영국의 과학자 Team Berners-Lee가 CERN(유럽 입자물리연구소) 커뮤니티 내에서 정보의 공유를 돕기 위해 제안한 서비스 World Wide Web HTTP(Hypertext Transfer Protocol): 웹에서의 요청을 응답과 교환하기위한 웹 서버와 클라이언트 명세, 일종의 통신규약 HTML(Hypertext Markup Language): 요청 결과에 대한 표현 방식 URL(Uniform Resource Locator): 고유한 서버와 자원을 나타내는 방법 ⇒ 사용자(web client)가 HTTP로 URL을 요청하고, 서버로부터 HTML을 받는다. Web Scraping 웹사이트에서 원하는 데이터를 자동으로 추출하는 것을 의미함 (web page를 가져옴) 웹크롤링..