파이썬에서 콘텐츠 추천 시스템은 일반적으로 행렬다차원 배열(텐서) 같은 자료구조를 활용해 사용자와 아이템 간의 관계를 표현합니다. 추천 시스템에서 다차원 자료구조는 사용자 취향, 아이템 특성, 그리고 그 둘 사이의 상호작용을 다루는 데 중요한 역할을 합니다.

추천 시스템에서 다차원 자료구조의 역할

  1. 사용자-아이템 행렬:

    • 추천 시스템의 핵심은 사용자와 아이템의 상호작용을 분석하는 것입니다. 이를 2차원 행렬로 표현할 수 있습니다. 행은 사용자, 열은 아이템을 나타내고, 각 요소는 해당 사용자가 그 아이템을 어떻게 평가했는지를 나타냅니다.
      • : 사용자 A가 영화 B를 5점 만점에 4점으로 평가했다면, 사용자-아이템 행렬에서 (A, B) 위치에 4라는 값이 들어갑니다.
  2. 아이템 특성 매트릭스:

    • 아이템의 특성을 벡터로 표현해 아이템 간의 유사성을 계산할 수 있습니다. 아이템의 장르, 카테고리, 가격, 인기도 등 여러 특성을 다차원 벡터로 표현할 수 있습니다.
      • : 영화를 추천할 때, 각 영화는 "장르", "감독", "주연 배우"와 같은 여러 특성 벡터로 표현됩니다.
  3. 사용자 특성 벡터:

    • 사용자 프로필이나 기호를 벡터로 표현합니다. 예를 들어, 사용자의 나이, 성별, 관심사 등을 다차원 벡터로 나타내어 사용자 간의 유사도를 계산할 수 있습니다.
  4. 잠재 요인 모델 (Latent Factor Model):

    • 행렬 분해 기법은 사용자-아이템 행렬을 두 개의 저차원 행렬로 분해해 사용자와 아이템의 잠재 요인(latent factor)을 추정합니다. 이때, 각 사용자와 아이템의 잠재 요인은 다차원 벡터로 표현됩니다.
      • : 행렬 분해 알고리즘인 SVD(Singular Value Decomposition)는 사용자와 아이템 간의 관계를 저차원 공간에서 설명할 수 있는 벡터들로 변환합니다.

다차원 자료구조를 사용하는 예시 코드

1. 사용자-아이템 행렬

이 예제에서는 NumPy의 2차원 배열을 사용하여 사용자-아이템 평가 행렬을 구현합니다.

import numpy as np

# 사용자-아이템 평가 행렬 (user-item matrix)
ratings = np.array([
    [5, 3, 0, 1],   # 사용자 1의 평가
    [4, 0, 0, 1],   # 사용자 2의 평가
    [1, 1, 0, 5],   # 사용자 3의 평가
    [0, 0, 5, 4],   # 사용자 4의 평가
])

print("사용자-아이템 평가 행렬:")
print(ratings)

2. 사용자-아이템 간의 유사도 계산

코사인 유사도를 통해 사용자 간의 유사도를 계산하는 예시입니다. 각 사용자의 평가 벡터를 기반으로 코사인 유사도를 계산합니다.

from numpy.linalg import norm

def cosine_similarity(user1, user2):
    return np.dot(user1, user2) / (norm(user1) * norm(user2))

# 사용자 1과 사용자 2의 유사도 계산
similarity = cosine_similarity(ratings[0], ratings[1])
print(f"사용자 1과 사용자 2의 코사인 유사도: {similarity}")

3. 행렬 분해를 이용한 잠재 요인 모델 (SVD)

사용자-아이템 행렬을 SVD를 사용해 분해하여 사용자와 아이템 간의 잠재 요인을 추출할 수 있습니다.

from numpy.linalg import svd

# 행렬 분해 (SVD)
U, sigma, Vt = svd(ratings, full_matrices=False)

# 분해된 행렬
print("사용자 잠재 요인 행렬 (U):")
print(U)

print("아이템 잠재 요인 행렬 (Vt):")
print(Vt)

4. 아이템 기반 협업 필터링

아이템 특성 매트릭스를 사용하여 아이템 간의 유사도를 계산하고, 비슷한 아이템을 추천하는 협업 필터링 방식입니다.

# 영화의 특성 벡터 (장르, 감독, 주연 배우 등의 특성)
item_features = np.array([
    [1, 0, 1],  # 영화 1: 액션, 로맨스
    [1, 1, 0],  # 영화 2: 액션, 코미디
    [0, 1, 0],  # 영화 3: 로맨스
    [0, 0, 1],  # 영화 4: 드라마
])

# 영화 1과 영화 2의 유사도 계산
item_similarity = cosine_similarity(item_features[0], item_features[1])
print(f"영화 1과 영화 2의 유사도: {item_similarity}")

전체 예시: 콘텐츠 추천 알고리즘

아래는 사용자와 아이템 간의 평가 데이터를 바탕으로 간단한 추천 알고리즘을 구현한 예시입니다.

import numpy as np

# 사용자-아이템 평가 행렬
ratings = np.array([
    [5, 3, 0, 1],
    [4, 0, 0, 1],
    [1, 1, 0, 5],
    [0, 0, 5, 4],
])

# 아이템 특성 (장르)
item_features = np.array([
    [1, 0, 1],  # 영화 1
    [1, 1, 0],  # 영화 2
    [0, 1, 0],  # 영화 3
    [0, 0, 1],  # 영화 4
])

# 사용자-아이템 평가 행렬을 통한 추천
def recommend(user_index, ratings, top_n=2):
    # 사용자가 평가하지 않은 아이템의 인덱스
    unrated_items = np.where(ratings[user_index] == 0)[0]

    # 평가되지 않은 아이템에 대한 예측 점수
    predicted_ratings = []
    for item in unrated_items:
        # 유사한 아이템들의 평가를 바탕으로 점수 예측 (여기서는 임의의 방식으로 예측)
        score = np.dot(ratings[user_index], item_features[:, item])
        predicted_ratings.append((item, score))

    # 점수가 높은 아이템을 추천
    predicted_ratings.sort(key=lambda x: x[1], reverse=True)
    return [item for item, score in predicted_ratings[:top_n]]

# 사용자 1에게 추천할 영화
recommended_items = recommend(0, ratings)
print(f"사용자 1에게 추천할 아이템: {recommended_items}")

출력 예시

사용자-아이템 평가 행렬:
[[5 3 0 1]
 [4 0 0 1]
 [1 1 0 5]
 [0 0 5 4]]
사용자 1과 사용자 2의 코사인 유사도: 0.939793423934551
사용자 잠재 요인 행렬 (U):
[[-0.70323121  0.61674402  0.29486606 -0.21116035]
 [-0.53616003  0.04704423 -0.83641189  0.09987861]
 [-0.30583897 -0.73857811  0.33722194  0.49874644]
 [-0.34145828 -0.26731873  0.33232233 -0.83740389]]
아이템 잠재 요인 행렬 (Vt):
[[-0.79401648 -0.51522682 -0.15271043 -0.28530661]
 [-0.57162996  0.60492947  0.24535489  0.48927456]
 [ 0.15479958 -0.15539356 -0.82335424  0.5240275 ]]
영화 1과 영화 2의 유사도: 0.7071067811865475
사용자 1에게 추천할 아이템: [2]

결론

파이썬에서 콘텐츠 추천 시스템을 구현할 때, NumPy와 같은 라이브러리를 사용해 다차원 자료구조를 쉽게 관리할 수 있습니다. 사용자-아이템 행렬, 아이템 특성 매트릭스 등을 사용해 추천을 구현할 수 있으며, 코사인 유사도, 행렬 분해 등의 기법을 통해 더 정교한

+ Recent posts