2020-12-28 11:28:19 阅读(185)
国产剧《长安十二小时》,豆瓣评分高达8.6分,终于在今晚迎来了大结局——幕后BOSS到底是谁?张小静和李必的命运,都一一揭开了谜底。该剧改编自马伯庸的同名小说,被称为“大脑洞”,悬疑反转的快节奏情节,美丽的长安城场景,唐代迷人的化妆服装,描绘了细致的角色,情节、灯光、道具、表演与电影制作相当。本文作者多年来一直扎根于数据挖掘、算法模型应用等领域。他将从技术角度分析剧中人物之间的关系,并用人物地图呈现他们之间的关系。让我们猜猜谁是最终的老板?如今热播的《长安十二小时》剧中的“大案例”、“靖安司”频频出现,数据行业有很多学生把大案例和最热门的“大数据”放在一起、将“数据智能”联系起来,将“靖安司”与“数据中台”进行对比,笔者认为有点牵强。本文试图结合自然语言处理(NLP)与图谱(Graph)小说原文中人物图谱关系的相关技术分析。第一,利用知识图谱构建人物关系的模型思维和过程,主要包括节点信息和边界信息两点。节点信息是人物和权重,应用实体识别提取人物信息,权重结合TFIDF等算法计算。边界信息的提取可以与行业处理经验相结合:大多数是基于小说章节或段落的分析单元,将出现在同一分析单元中的角色视为相关性。这种处理方法有其合理性,但也存在一些不足。结合小说《结合长安十二小时》的特点,将出现在同一段落的人物视为关联,作为构建人物关系知识图谱的数据样本。主要处理过程包括以下主要部分:文本预处理、分词人物提取和权重计算关系的构建以及人物图谱显示二。文本处理和分词使用pythonjieba分词进行文本分词处理。jieba分词算法使用基于前缀词典的高效单词扫描来生成句子中所有可能的汉字。(DAG),然后采用动态规划找到最大概率路径,找出基于词频的最大切分组合。对于未登录的词,采用基于汉字成词能力的HMM模型和Viterbi算法。1.停用词和自定义词库,处理函数的定义,并尝试单词标记(POS,Part-of-SpeechTagging)只提取名词,发现POS效果不好。[Python代码]2.分词[Python代码]分词结果3.根据语料集统计,IFIDF权重计算和提取将语料转换为词袋向量声明为向量化工具vectorizer(fit)打印语料集的词袋信息将语料集转换为词袋向量(transform)TF-IDF声明中的TF-IDF转换器也可以查看每个单词在单词袋中的索引,根据单词袋的向量统计(TfidfTransformer)TF是根据语料集的词袋向量计算的-IDF(fit)打印TF-IDF信息:例如,结合词袋信息,您可以查看每个单词的TF-IDF值,将语料集的单词袋向量表转换为TF-IDF向量表,并根据TFIDF值排序取Top50[Python代码]。由于前50名的部分地名,手动删除以获得完整的角色列表;定义同义词列表,需要后期合并。[Python代码]4.人物关系的构建和剪枝[Python代码]将DataFrame对象转换为List对象,将DataFrame对象转换为List对象5.人物图谱显示out[36]:所以问题来了,谁是最终的大老板?据媒体报道,优酷最近发起了“终极老板大猜想”投票结果,权力最大但神秘的“圣人”,精湛的表演,义子何富和提前暴露的“监督”和大数据分析技能和复活buff“徐宾”最怀疑,在幕后老板投票前三名。其中,徐宾是近期排名上升最快的“犯罪嫌疑人”,因为他故意接近李必,利用自己的职能多次“复活”张小静。其中,徐宾是最近排名上升最快的“嫌疑人”,因为他故意接近李必,并利用自己的职能多次“复活”张晓静。根据人物地图分析,可以看出徐宾的人物关系复杂,作为唐代第一个人工智能,徐宾莫名其妙地死了,整个尸体都被烧焦了。笔者认为,按照影视剧的逻辑,这种死法本身的概率并不高。备注:以上是《长安十二小时》人物地图构建的基本流程和代码,中间有很多不足和优化的空间。至于大案例,纯属YY,没有算法理论、数据基础和处理算力支撑,属于无本之木。还是希望各位大神轻拍。今晚《长安十二小时》即将结束,快来留言写下你心中的终极大Boss吧!
以上就是关于知识图谱构建人物关系:节点信息和边界信息的相关介绍,更多知识图谱构建人物关系:节点信息和边界信息相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对知识图谱构建人物关系:节点信息和边界信息有更深的了解和认识。
推荐阅读
最新文章
猜你喜欢以下内容:
一 客户顾问-张三 一