【CS224W】(task1)图机器学习导论

阿里云国内75折回扣微信号：monov8

阿里云国际，腾讯云国际，低至75折。AWS 93折免费开户实名账号代冲值优惠多多微信号：monov8 飞机：@monov6

note

文章目录

note
一、导论
二、GNN建图
附思考题
附AlphaFold相关内容
Reference

一、导论

本讲介绍了图数据挖掘的常见任务、典型方法、应用场景、编程工具。图是描述大自然各种关联现象的通用语言图无处不在。不同于传统数据分析中样本独立同分布假设图数据自带了关联结构需要使用专门的图神经网络进行深度学习。
本讲介绍了斯坦福CS224W公开课的课程大纲在节点、连接、子图、全图各个层面进行图数据挖掘的典型任务以及在蛋白质结构预测、生物医药、内容推荐、文献挖掘、社交网络、开源项目评价等领域的应用。

在这里插入图片描述
DL如NLP是在文本数据sequence上进行建模CV在grid上建模图片具有平移不变性。

1.1 图机器学习编程工具

PyGwww.pyg.org

NetworkXnetworkx.org

DGLwww.dgl.ai

AntV图可视化工具Graphingraphin.antv.vision

AntV图可视化工具G6g6.antv.antgroup.com

Echarts可视化echarts.apache.org/examples/zh/index.html#chart-type-graphGL

1.2 网络与图

在这里插入图片描述

networks / natural graphs自然表示为图
- Social networks: Society is a collection of 7+ billion individuals
- Communication and transactions: Electronic devices, phone calls, financial transactions
- Biomedicine: Interactions between genes/proteins regulate life大概是基因或蛋白质之间互动从而调节生理活动的过程
- Brain connections: Our thoughts are hidden in the connections between billions of neurons
graphs作为一种表示方法
- Information/knowledge are organized and linked
- Software can be represented as a graph
- Similarity networks: Connect similar data points
- Relational structures: Molecules, Scene graphs, 3D shapes, Particle-based physics simulations

传统ML中需要对原始数据进行特征工程但是表示学习representation learning可以自动学习到数据的特征用于下游任务。
在这里插入图片描述
而图表示学习即学习到每个节点的embedding同一实体在节点空间上靠近即在向量空间上相似。

图机器学习的四类任务
- 三类节点、边、子图分类
- 还有一类图级别包括预测任务 graph-level prediction 和图生成任务 graph generation
为研究问题确定合适的表示方法如用论文之间的引用关系比用论文题目含有同一单词作为关系学习到的GNN embedding效果会更好。

在这里插入图片描述

1.3 CS224W概览

cs224w本课程将聚焦图的机器学习和表示学习多个领域课程大纲如下
Traditional methods: Graphlets, Graph Kernels
Methods for node embeddings: DeepWalk, Node2Vec
Graph Neural Networks: GCN, GraphSAGE, GAT, Theory of GNNs
Knowledge graphs and reasoning: TransE, BetaE
Deep generative models for graphs
Applications to Biomedicine, Science, Industry

对应的原版课程时间
在这里插入图片描述

二、GNN建图

需要思考以啥作为节点以啥作为边。

2.1 有向图or无向图

在这里插入图片描述
异质图的定义

很多情况都是异质图

另外还有二分图

2.2 节点的度数degree

在这里插入图片描述

2.3 Representing Graphs

邻接矩阵、edge list边列表、邻接列表如2345等。

2.4 节点和边的属性

Weight (e.g., frequency of communication)
Ranking (best friend, second best friend…)
Type (friend, relative, co-worker)
Sign: Friend vs. Foe, Trust vs. Distrust
Properties depending on the structure of the rest of the graph: Number of common friends

2.5 Weighted / Unweighted

在这里插入图片描述

2.6 Connectivity

无向图的Connectivity
- connected任意两个节点都有路径相通
- disconnected由2至多个connected components构成
  最大的子连接图giant component
  isolated node
  这种图的邻接矩阵可以写成block-diagonal的形式数字只在connected components之中出现

在这里插入图片描述

有向图的Connectivity
- strongly connected directed graph: has a path from each node to every other node and vice versa (e.g., A-B path and B-A path)
- weakly connected directed graph: is connected if we disregard the edge directions

在这里插入图片描述

strongly connected components

在这里插入图片描述

附思考题

打开你的手机里面那些APP用到了图机器学习和图神经网络的技术内容个性化推荐、社交网络、银行金融

A股、港股、美股市值最高的上市公司哪些公司的核心资产是图

观看电影《社交网络》图和图数据挖掘的商业价值体现在哪些方面

马化腾在2022年12月内部讲话提到微信视频号是整个腾讯的希望请从图的角度解释这句话。

在你自己的研究领域哪些数据可以用图或者网络来表示如何进行图数据挖掘

近年来图数据挖掘在哪些领域带来了革命性进展

图数据挖掘解决哪些基本任务

分别从图、连接、节点三个层面举例解释图数据挖掘在生物医学方面的应用。

图神经网络为什么是端到端的为什么不需要人工做特征工程

图神经网络和其它神经网络有什么区别

简述AlphaFold的基本原理它解决了哪些以前解决不了的问题

图机器学习和传统机器学习有什么区别和难点

图机器学习的编程工具有哪些看看它们的官网吧Graphgym、pyG、networkx、dgl、Pytorch、AntV、Echarts

举几个Heherogeneous Graph异质图的例子

异质图和普通图有什么区别

举几个Bipartite Graph二分图的例子

举几个有向图的例子

如何设计本体图Ontology

为什么要把图表示成矩阵

如何从连通域的角度理解“六度空间”理论世界上任意两个人可以通过不超过六个中间人相互认识。

为什么很多真实场景的图都是稀疏的

附AlphaFold相关内容

AlphaFold官网https://www.deepmind.com/research/highlighted-research/alphafold

AlphaFold蛋白质数据库https://alphafold.ebi.ac.uk

AlphaFold博客1https://www.deepmind.com/blog/alphafold-using-ai-for-scientific-discovery-2020

AlphaFold博客2https://www.deepmind.com/blog/alphafold-reveals-the-structure-of-the-protein-universe

AlphaFold自然杂志论文https://www.nature.com/articles/s41586-019-1923-7.epdf?author_access_token=Z_KaZKDqtKzbE7Wd5HtwI9RgN0jAjWel9jnR3ZoTv0MCcgAwHMgRx9mvLjNQdB2TlQQaa7l420UCtGo8vYQ39gg8lFWR9mAZtvsN_1PrccXfIbc6e-tGSgazNL_XdtQzn1PHfy21qdcxV7Pw-k3htw%3D%3D

AlphaFold代码https://github.com/deepmind/deepmind-research/tree/master/alphafold_casp13

百度文心·生物计算大模型https://wenxin.baidu.com/wenxin/paddlehelix

人工智能在药物发现和生物技术中的应用2022年回顾与关键趋势https://mp.weixin.qq.com/s/ZuDpd2YqHpDiRqw9GIXolw

Reference

cs224w图机器学习2021冬季课程学习笔记集合
https://github.com/TommyZihao/zihao_course
官方原版视频 https://web.stanford.edu/class/cs224w/
Youtube视频https://www.youtube.com/watch?v=JAB_plj2rbA&list=PLoROMvodv4rPLKxIpqhjhPgdQy7imNkDn&index=1
https://www.youtube.com/watch?v=JAB_plj2rbA&list=PLoROMvodv4rPLKxIpqhjhPgdQy7imNkDn&index=2
课程主页https://web.stanford.edu/class/cs224w
Graph Representation Learning Bookhttps://www.cs.mcgill.ca/~wlh/grl_book/
Lecture 1.1 - Why Graphshttps://www.youtube.com/watch?v=JAB_plj2rbA&list=PLoROMvodv4rPLKxIpqhjhPgdQy7imNkDn&index=1
其它阅读材料
李笑来-惊喜与创造惊喜的方法论https://zhuanlan.zhihu.com/p/475615463
哥尼斯堡七桥问题https://zhuanlan.zhihu.com/p/519123688
2022 IDEA大会｜BIOS V2正式发布数据驱动构建超级医学知识图谱https://mp.weixin.qq.com/s/vuHGUtWbiIH-pJ6MZaxl5Q
图的基本表示
同济子豪兄-中文精讲视频https://www.bilibili.com/video/BV1n84y1e7SF
斯坦福原版视频https://www.youtube.com/watch?v=P-m1Qv6-8cI&list=PLoROMvodv4rPLKxIpqhjhPgdQy7imNkDn&index=3
扩展阅读
如何解释人际交往中的「六度空间」理论它是如何证明的https://www.zhihu.com/question/27492995/answer/37841402
Jure Leskovec
个人主页https://cs.stanford.edu/people/jure/
谷歌学术主页https://scholar.google.com/citations?user=Q_kKkIUAAAAJ&hl=zh-CN
子豪兄视频