2025.01 ~ 2025.05

SSAFIT NEWS

실시간 뉴스 데이터를 수집하고, 텍스트 임베딩 기반으로 유사 뉴스 추천 및 인사이트 분석이 가능한 플랫폼을 구축합니다.

GitHub →

주요 기능

실시간 뉴스 수집

RSS 피드를 통한 실시간 뉴스 데이터 수집, 한국경제, AI타임스, 전자신문 등 주요 IT 언론사 데이터 수집, 수집된 데이터는 Kafka 토픽으로 전송

스트리밍 처리

Kafka → Flink 기반 실시간 데이터 처리, 뉴스 본문 전처리 및 정제, 중복 뉴스 필터링 및 데이터 정합성 검증, OpenAI GPT-4를 활용한 카테고리 분류 및 키워드 추출

데이터 분석 및 저장

뉴스 키워드 추출 및 카테고리 분류, OpenAI Embedding API를 활용한 텍스트 벡터화, PostgreSQL(pgvector) 및 Elasticsearch 이중 저장, HDFS 기반 실시간 데이터 아카이빙, 실시간 검색 및 추천 기능 지원

리포트 생성

Spark 기반 일간 뉴스 분석, 키워드 트렌드 및 시각화, 카테고리별 기사 분포 분석, PDF 형식의 분석 리포트 자동 생성, HDFS 기반 리포트 아카이빙

기술 스택

Data Collection & Processing

Apache Kafka

Apache Flink

Apache Spark

SSAFIT NEWS

주요 기능

실시간 뉴스 수집

스트리밍 처리

데이터 분석 및 저장

리포트 생성

기술 스택

Data Collection & Processing

Storage

Embedding & NLP

Orchestration & Infrastructure

Monitoring & Visualization

핵심 알고리즘/기술

실시간 데이터 파이프라인

텍스트 분석 및 임베딩

데이터 저장 및 검색

일간 리포트 생성

개발자 역할

데이터 파이프라인 설계

실시간 처리 구현

데이터 분석 및 저장

시스템 운영

결과 예시

데이터 파이프라인

워크플로우 모니터링

프로젝트 구조

프로젝트 구조

설치 및 실행

환경 요구사항

설치 방법

주의사항

수상 내역

발표자료

SSAFIT NEWS 발표 자료

참고 문헌