電影數(shù)據(jù)分析.docx

大小: 459KB

文件類型: .docx

金幣: 1

下載: 1 次

發(fā)布日期: 2022-09-30
語言: ASP
標(biāo)簽: 數(shù)據(jù)分析??

高速下載

資源簡介

一、數(shù)據(jù)分析項目介紹
1. 項目所需的模塊庫介紹
pandas用法：
需要導(dǎo)入以下模塊
import numpy as np
import pandas as pd
from pandas import Series, Dataframe
2.項目背景介紹
互聯(lián)網(wǎng)電影資料庫（Internet Movie Database，簡稱IMDB）是一個關(guān)于電影演員、電影、電視節(jié)目、電視明星和電影制作的在線數(shù)據(jù)庫。電影作為藝術(shù)和娛樂載體已成為我們生活中的一部分，作為電影愛好者之一，希望通過分析了解電影市場大體情況，以便于以后選擇電影觀看。
使用的數(shù)據(jù)是IMDB美國票房排名前1000的電影數(shù)據(jù)，數(shù)據(jù)包含了電影名稱，票房金額，上映年份，演職人員，IMDB評分，電影類型等信息，數(shù)據(jù)中的很多電影大家也比較熟悉。相信不少人都有這樣的經(jīng)歷，當(dāng)想要看一部電影的時候，會去百度一下誰是導(dǎo)演，誰是主演。如果導(dǎo)演是克里斯托弗?諾蘭，心里已經(jīng)給電影打了個8分以上的評分了。而阿湯哥的動作片，預(yù)期也都能腎上腺素飆升。對于已上映的電影，不少人會去豆瓣搜索現(xiàn)時的評分，或是前作的評價，若是豆瓣高分、高評論數(shù)，也會按奈不住去蹭下熱度。如果要去電影院觀看的話，想必不少人會更傾向選擇動作片或者科幻大片這類特效豐富，影音沖擊強烈的電影。近幾年特效技術(shù)和3D動畫的日漸成熟，影院觀影已經(jīng)是越來越多人的第一選擇。
IMDB的資料中包括了影片的眾多信息、演員、片長、內(nèi)容介紹、分級、評論等。對于電影的評分目前使用最多的就是IMDB評分。
截至2018年6月21日，IMDB共收錄了4,734,693部作品資料以及8,702,001名人物資料。
3.項目所需數(shù)據(jù)介紹
數(shù)據(jù)的屬性包括：電影名稱、評論數(shù)、評分、導(dǎo)演、上映時間、上映國家、主要演員、語言、IMDB評分等。
理解數(shù)據(jù)：
color 、director_name 、num_critic_for_reviews、duration、director_facebook_likes 、actor_3_facebook_likes、actor_2_name 、actor_1_facebook_likes 、gross 、genres 、actor_1_name 、movie_title 、num_voted_users、cast_total_facebook_likes 、actor_3_name 、facenumber_in_poster 、plot_keywords 、movie_imdb_link 、num_user_for_reviews、language 、country、content_rating、budget、title_year 、actor_2_facebook_likes 、imdb_score 、aspect_ratio 、movie_facebook_likes
4.項目功能詳細(xì)介紹
顯示電影評分分布的情況；
電影數(shù)量與平均分年度變化的情況；
評論家評論數(shù)與評分的關(guān)系；
評分與電影票房的關(guān)系；
電影數(shù)量大于5前提下平均分前十的導(dǎo)演推薦的數(shù)據(jù)；
不同電影類型的年份累計分析；
電影時長的分布及時長是否和評分有相關(guān)性；
電影時長的分布及時長是否和評分有相關(guān)性。
二、數(shù)據(jù)分析過程
1.主要功能實現(xiàn)的類和方法介紹
# 清洗runtime電影時長列數(shù)據(jù)，可使用str.split()方法
df['runtime'] = df['runtime'].str.split('').str.get(0).astype(int)
df['runtime'].head()
# 清洗year列，使用str[:]選取年份數(shù)字并轉(zhuǎn)換成int類型，使用df.unique()方法檢查數(shù)據(jù)
df['year'] = df['year'].str[-5:-1].astype(int)
df['year'].unique()

2. 數(shù)據(jù)分析過程代碼和解釋說明
導(dǎo)入包：

導(dǎo)入、查看、清洗數(shù)據(jù)：

評分分布圖：

電影數(shù)量與平均分布年度變化：

評論家評論數(shù)&評分、評分&票房：

電影數(shù)量大于5平均分前十的導(dǎo)演：

統(tǒng)計不同年份、不同類型電影的數(shù)量：
cumsum = df.groupby(['main_genre', 'year']).title.count()
# 使用累加功能統(tǒng)計1980年起不同年份不同電影類型的累計數(shù)量，對于中間出現(xiàn)的缺失值，使用前值填充
genre_cumsum = cumsum.unstack(level=0).cumsum().ffill()
# 只選取總數(shù)量大于

資源截圖

小圖大圖

xxxx18一60岁hd中国/日韩女同互慰一区二区/西西人体扒开双腿无遮挡/日韩欧美黄色一级片 - 色护士精品影院www

電影數(shù)據(jù)分析.docx

資源簡介

資源截圖

代碼片段和文件信息

評論

相關(guān)資源