일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- Clustering
- Attention
- BERT
- RNN
- TFX
- 경사하강법
- Ann
- ResNet
- Transfer Learning
- textmining
- cross domain
- stemming
- gaze estimation
- Generative model
- Python
- Logistic Regression
- Binary classification
- NER
- 군집화
- 자기조직화지도
- Gradient Descent
- VGGNet
- LSTM
- Support Vector Machine
- MLOps
- NMF
- SOMs
- tensorflow
- nlp
- AI 윤리
- Today
- Total
juooo1117
Text Summarization 본문
Text Summarization
Text summarization is the process of distilling the most important information from a source to produce an aridged version for a particular user and task.
- 문서 자동 요약
- 텍스트 문서의 핵심적인 내용을 잘 표현하는 요약을 자동으로 만드는 과정
- 급증하는 텍스트 정보에 효율적으로 접근하고 활용하기 위한 기술이다
- 검색 결과에 대한 요약 정보, 상품에 대한 요약, 책이나 영화 요약, 뉴스 요약 등이 있다.
Methodology
Extractive Methods (추출식 방법론)
- 요약 대상인 문서에서 구절이나 문장을 선택해서 요약문을 만드는 방법으로, 원본 문서의 의미에 가장 가까운 구절이나 문장을 찾기 위해서 이들의 적합도 순위를 계산하는 문제로 생각할 수 있음
- 주어진 문서에 대해서, 문서를 문장으로 분할 → 가장 중요한 문장들을 선택 → 선택된 문장들의 순위를 결정 → 문장들 간의 일관성(coherence)을 높여주기 위해서 문장요약 등의 후처리를 수행
- 문장의 단순화&압축(compression)에 초점을 두며, 규칙기반 또는 기계학습을 기반으로 하여 구문 트리를 만들고 필요없는 정보를 제거하는 방식을 사용한다.
Abstractive Methods (추상적 방법론)
- 원본 문서의 의미를 잘 요약해서 표현하는 완전히 새로운 구절이나 문장을 생성해내는 방법으로, 추출식 방법론에 비해서 어려운 방법이나 실질적으로 사람이 작업하는 과정에 보다 가까운 방법이다.
- 전통적으로는 문장을 선택하고 이를 다시 압축적으로 표현하는 접근 방식을 사용하는데, 최근에는 대부분 딥러닝 기반의 방법론을 사용하여 문장을 생성한다.
Sentence Selection Methods
Frequency based approach
단어의 빈도수를 기반으로 문장의 중요도를 계산하는 방법이다. 중요한 단어를 많이 사용한다는 가정 하에 이루어진다.
Word Probability : f(w) = n(w) / N , n(w): 해당 문서에서 단어 w의 발생 빈도수, N: 해당 문서의 전체 단어수
Term Frequency-Inverse Document Frequency:
Feature based approach
문장의 중요도를 결정할 수 있는 속성을 미리 정의하고 각 문장에서 이 속성들에 대한 점수를 계산하는 방법
Graph based method - LexRank
문장 간의 유사도를 계산하여 특정 문장이 다수의 문장들과 비슷하면 중요도가 높다고 판단해서 이 문장을 선택하도록 함
Cosine similarities ⇒ 벡터와 벡터 사이의 거리/각도로 유사도를 판단함, 가까우면 유사도 점수가 높아짐 ('1'이면 관련성이 매우 높고, '0'이면 관련성이 매우 낮은 것이다.)
weighted cosine similarity graph ⇒ 중요한 문장을 뽑기 위해서 문장간 네트워크를 활용하는 방법 (문장 사이의 유사도가 높으면 선을 굵게 나타낸다.)
ROUGE-N
Recall-Oriented Understudy for Gisting Evaluation.
ROUGE (Recall-Oriented Understudy for Gisting Evaluation)는 텍스트 자동 요약, 기계 번역 등 자연어 생성 모델의 성능을 평가하기 위한 지표이다.
자동 문서 요약을 평가하기 위한 방법으로 정답 요약본과 비교해서 계산한다. (recall을 기반으로 해서 정답이 있음)
자동 요약 결과와 정답을 N-grams을 사용해서 비교한다. (ROUGE-1: 한 단어씩 비교 / ROUGE-2: bigrams을 비교)
e.g. ROUGE-2를 이용해서 Recall score를 계산
Reference : A good diet must have apples and bananas
Model : Apples annd bananas are must for a good diet
- ROUGE-1 : 7/8 = 0.875
- ROUGE-2 : 4/7 = 0.57
'Artificial Intelligence' 카테고리의 다른 글
Recommender System (1) | 2023.12.18 |
---|---|
Word Embeddings - word2vec, Skip-Gram Model (0) | 2023.12.14 |
Named Entity Recognition using RFC(Random Forest Classifier) & CRF(Conditional Random Fields) (0) | 2023.12.14 |
Movie genres - Clustering practice with NMF (0) | 2023.12.14 |
Text Classification - Sentiment Analysis (0) | 2023.12.13 |