蒙恩招生网 蒙恩招生网4
2023-10-30
更新时间:2023-11-17 07:22:09作者:51data
业务创新驱动力
业务创新不是数字驱动的,而是基于对各业务环节之间关系的深入分析,做出相应的业务变革,从而带来业务创新。因此,关系是行为最强的预测因素。
比如,零售商可以通过分析客户与产品的关系来推荐产品,通过分析商品店与供应商的关系来优化供应链。这些是分析关系驱动业务的实际案例。图数据库的优势在于善于处理间接关系,构建知识网络。关系数据库具有分类帐式的结构。外键可以将信息从一个表连接到另一个表。数据库可以轻松处理直接关系,而间接关系涉及到缓慢的多级连接。但是间接关系在关系数据库中很难处理。图形数据库仅由点和线组成。它可以快速跨越多种类型的实体,处理间接关系。间接关系:一个特殊查询场景:找出开发商是XXX的房子,小区绿化率30%以上,周边200米有大型超市,500米外有地铁,1000米外有三甲医院,2000米外有升学率60%以上的高中,房价不到800W,最近被中介看的次数最多。为什么mysql和es不合适?MySQL一次关联几十个表。ES需要有一个很宽的清单表,但是不可能搜索到这个清单周围200米的大型超市。
数据库应用(13个场景)-地理导航通过构建路网实现智能导航。
二、社交网络社交服务是高度关联的,比如好朋友、用户1、关注、用户2。
(3)搜索引擎中的信息检索,实体信息的精准聚合和匹配,关键词的理解和搜索意图的语义分析等。
语义搜索通过识别用户语义来获取搜索结果。
5.自然语言理解:知识图谱中的知识作为理解自然语言中实体和关系的背景信息;6.问答系统:匹配知识图谱中问答模式与知识子图的映射;智能问答类似于语义搜索。对于问题的内容,计算机首先分析问题的语义,然后将语义转化为查询句,搜索知识图谱,提供与提问者最接近的答案。
七。推荐系统:将知识图谱作为辅助信息整合到推荐系统中,提供更精准的推荐选项,知识图谱推荐系统;推荐系统首先要收集用户的需求,分析用户的过往数据,提取共性特征,然后按照一定的规则向用户提供推荐产品。淘宝就是典型的例子。
传统推荐系统的主要类型包括流行推荐、人工推荐、相关推荐和个性化推荐。1.热点推荐:当前热点事件,具有广泛的社会关注度,以达到“广而告之”的效果。比如知乎和新浪微博的“热榜”等。2.人工推荐:由编辑或内容运营人员人工推荐的优秀内容/文章。3.相关推荐:根据当前浏览的内容,按照一定的信息或关联规则进行内容推荐,主要起到“丰富和拓展”的作用。比如看完《快乐大本营》第四期,会推荐第一期和第三期。4.个性化推荐:根据用户的历史记录。
8.电商构建商品知识图谱,精准匹配用户购买意向和商品候选集,知识图谱推荐系统;
9.财务风险控制利用实体之间的关系来分析财务活动的风险,以在风险被触发后提供补救措施(如反欺诈等。);当事件产生负面影响时,可以根据知识图谱的相关信息快速控制受其影响的人或事件,将损失降到最低。
10.公安刑侦分析实体间的关系,获取案件线索等。
11.司法协助法律条款的结构化表示和查询用于协助案件判决等。
教育和医疗保健为药物分析、疾病诊断
十三。辅助决策。建设与决策课题相关的知识库、政策分析模型库和信息研究方法库,构建并不断完善辅助决策系统,为决策课题提供全方位、多层次的决策支持和知识服务。其中,知识图谱是关系最密切的图形数据库和最广泛的场景的应用方向。知识图谱以图形数据库为存储引擎,智能处理海量信息,形成大规模知识库,进而支持业务应用。
准备结构化、半结构化和非结构化的知识数据
一般来说,有三种类型的原始数据。
结构化数据:关系数据库等半结构化数据:XML、JSON、百科等非结构化数据:图片、音频、视频、文本实体。
实体可以简单的理解为对象,是图的最基本单位。实体是指现实世界中的事物如人、地名、概念、药物、公司等。
属性
一个实体包含几个属性,比如一个人的名字、年龄等。使用属性三元组,例如(人的ID、类型名称、实际名称)。
属性图
关系
它是相关实体之间的连接。表达图中的“边缘”。比如人——“住在”——北京,张三和李四是“朋友”。用一般的三连词来表达关系。注意,关系也有属性。关系的属性也用三元组表示。
关系图
三个一组
三元组(主语、谓语、宾语)
三元是指形状为((x,y),z)的集合。三元是计算机专业公共基础课——《数据结构》中的一个概念。
它是一种压缩方法,主要用于存储稀疏矩阵,也称为三元表。假设三元组表用顺序存储结构表示,得到了稀疏矩阵的一种压缩存储方式,即三元组顺序表。
简单三元组
多关系图
什么是多关系图?
数据结构图。图由节点(顶点)和边(边)组成,但这些图通常只包含一种类型的节点和边。
多图:一般包含多种类型的节点和多种类型的边。例如,左图显示了一个经典的图结构,而右图显示了一个多关系图,因为该图包含许多类型的节点和边。这些类型用不同的颜色来标记。
数据结构图和多关系图
图形存储
学术RDF方法:
RDF方法
工业图形数据库方法:
图形数据库
HDT(Header,Dictionary,Triples)是一种紧凑的数据结构和二进制图标序列化格式的RDF。它可以压缩大型数据集以节省空间,同时保持搜索和浏览操作,而无需事先解压缩。这使得它成为在Web上存储和共享RDF数据集的理想格式。
图形与人工智能融合
知识驱动
通过图表构建简单的架构基础设施
数据采购
结构化数据是指在关系数据库中表示和存储的二维数据。这类数据可以通过模式融合、实体对齐等技术直接提取到图中。
半结构化数据主要是指用相关标记分隔语义元素的强定义数据,但没有数据库形式。如网页中的表格数据、维基百科中的信息框等。这类数据可以通过爬虫、网页解析等技术转换成结构化数据。
非结构化数据主要从明文数据中获取知识,包括实体识别、实体分类、关系抽取、实体链接等技术。知识抽取
从各类数据源中提取实体、属性以及实体间的关系,并在此基础上形成本体知识表达;实体提取
实体提取,也称为命名实体识别,是图的核心单元。从文本中抽取实体是知识获取的关键技术。实体抽取的质量(准确率和召回率)对后续知识获取的效率和质量有很大的影响,因此它是信息抽取中最基础和最关键的部分。
通常,识别文本中的实体可以作为序列标记问题来解决。传统的实体识别方法以统计模型为主,如HMM、CRF等。随着深度学习的兴起,BiLSTM CRF模型备受青睐。该模型避免了传统CRF特征模板的构建,同时双向LSTM可以更好地利用前后的语义信息,效果明显提高识别效果。关系抽取
关系抽取是从文本中自动抽取实体之间的特定语义关系,以补充图谱中缺失的关系。方法包括人工构建规则和模板来识别实体关系。
按实体抽取文本语料,得到一系列离散的命名实体。为了获取语义信息,还需要从相关语料库中提取实体之间的相关性,通过相关性将实体(概念)联系起来,从而形成一个网状的知识结构。
案例:芝士鱼,食材,奶酪都是从“芝士鱼本来就是用奶酪做的”中提炼出来的。
其实大致可以归为一个分类问题。为什么?因为你最不需要的就是食材的关系,多分类训练一个模型是可以的。属性提取
属性抽取是从不同的信息源中收集特定实体的属性信息。比如,对于一个公众人物,你可以从网上的公开信息中获取他的昵称、生日、国籍、学历等信息。属性提取技术可以从各种数据源中收集这些信息,实现实体属性的完整勾画。
属性提取可以转化为实体提取和分类,因为实体的属性可以看作是实体和属性值之间的一种名称关系。知识融合
知识融合是将多个知识库中的知识整合形成一个知识库的过程。知识融合要解决的问题是实体对齐。
不同数据源的实体对知识收集的侧重点不同,可能指向现实世界中的同一个对象。例如,一些知识库可能侧重于自身某些方面的描述,而另一些可能侧重于实体与其他实体之间关系的描述。通过实体对齐进行知识融合,可以对不同知识库中的知识进行补充和融合,形成全面、准确、完整的实体描述。
案例:在百度百科、互动百科、维基百科等不同知识库中,对曹操这一历史人物的描述存在一定差异。
实体对齐有两个主要关键:
实体消歧指的是实体消歧
在文本中,同一个实体可能有不同的写法。例如,“天使宝宝”是杨颖的另一个名字,所以“杨颖”和“天使宝宝”指的是同一个实体。
功能是区分同名实体。比如两个人同名,会用性别、工作、爱好等其他属性来区分。引用歧义消除
指称消歧类似于实体消歧,处理的是同一个实体。比如黄晓明案中的“他”,其实就是指“黄晓明”。所以我们要做的就是找出这些代词所指的是哪个实体。知识处理
对于整合后的新知识,需要进行质量评估(有些需要人工筛选),合格的部分才能加入知识库,保证知识库的质量。本体抽取
本体比较抽象,简单理解就是一系列概念。这一系列概念集可以描述特定领域中一切事物的共同特征,概念之间存在一定的关系,构成层次结构。
比如足球场就是一个本体。
本体抽取过程包括三个阶段:
实体间并列关系的相似度计算;提取上下级实体关系的本体生成实例;
当你拿到“阿里巴巴”、“腾讯”、“手机”这三个实体的时候,你可能会觉得它们之间没有区别。
第一步,计算三个实体的相似度后,会发现阿里巴巴和腾讯可能更像,和手机不同,但实际上还是没有上下级的概念。还是判断阿里巴巴和手机不属于一个类型,无法比较。
第二步,提取实体的上下位关系来完成这项工作,从而生成第三步的本体。
第三步结束后,就明确了“阿里巴巴和腾讯都是公司本体下的细分实体,和手机不在一个范畴。”知识推理
知识推理是指从实体关系的现有数据中,通过计算机推理,建立实体间新的关系,从而扩展和丰富知识网络。知识推理是构建知识地图的重要手段和关键环节。通过知识推理,可以从已有的知识中发现新的知识。质量评估
量化知识的可信度,保留可信度高的,舍弃可信度低的,从而有效保证知识的质量。
参考https://m.toutiao.com/is/rrqTL9V