【CS224W】(task1)图机器学习导论
一、导论
本讲介绍了图数据挖掘的常见任务、典型方法、应用场景、编程工具。图是描述大自然各种关联现象的通用语言图无处不在。不同于传统数据分析中样本独立同分布假设图数据自带了关联结构需要使用专门的图神经网络进行深度学习。
本讲介绍了斯坦福CS224W公开课的课程大纲在节点、连接、子图、全图各个层面进行图数据挖掘的典型任务以及在蛋白质结构预测、生物医药、内容推荐、文献挖掘、社交网络、开源项目评价等领域的应用。
DL如NLP是在文本数据sequence上进行建模CV在grid上建模图片具有平移不变性。
1.1 图机器学习编程工具
PyGwww.pyg.org
NetworkXnetworkx.org
DGLwww.dgl.ai
AntV图可视化工具Graphingraphin.antv.vision
AntV图可视化工具G6g6.antv.antgroup.com
Echarts可视化echarts.apache.org/examples/zh/index.html#chart-type-graphGL
1.2 网络与图
- networks / natural graphs自然表示为图
- Social networks: Society is a collection of 7+ billion individuals
- Communication and transactions: Electronic devices, phone calls, financial transactions
- Biomedicine: Interactions between genes/proteins regulate life大概是基因或蛋白质之间互动从而调节生理活动的过程
- Brain connections: Our thoughts are hidden in the connections between billions of neurons
- graphs作为一种表示方法
- Information/knowledge are organized and linked
- Software can be represented as a graph
- Similarity networks: Connect similar data points
- Relational structures: Molecules, Scene graphs, 3D shapes, Particle-based physics simulations
传统ML中需要对原始数据进行特征工程但是表示学习representation learning可以自动学习到数据的特征用于下游任务。
而图表示学习即学习到每个节点的embedding同一实体在节点空间上靠近即在向量空间上相似。
- 图机器学习的四类任务
- 三类节点、边、子图分类
- 还有一类图级别包括预测任务 graph-level prediction 和 图生成任务 graph generation
- 为研究问题确定合适的表示方法如用论文之间的引用关系比用论文题目含有同一单词作为关系学习到的GNN embedding效果会更好。
1.3 CS224W概览
cs224w本课程将聚焦图的机器学习和表示学习多个领域课程大纲如下
Traditional methods: Graphlets, Graph Kernels
Methods for node embeddings: DeepWalk, Node2Vec
Graph Neural Networks: GCN, GraphSAGE, GAT, Theory of GNNs
Knowledge graphs and reasoning: TransE, BetaE
Deep generative models for graphs
Applications to Biomedicine, Science, Industry
对应的原版课程时间
二、GNN建图
需要思考以啥作为节点以啥作为边。
2.1 有向图or无向图
异质图的定义
很多情况都是异质图
另外还有二分图
2.2 节点的度数degree
2.3 Representing Graphs
邻接矩阵、edge list边列表、邻接列表如2345等。
2.4 节点和边的属性
- Weight (e.g., frequency of communication)
- Ranking (best friend, second best friend…)
- Type (friend, relative, co-worker)
- Sign: Friend vs. Foe, Trust vs. Distrust
- Properties depending on the structure of the rest of the graph: Number of common friends
2.5 Weighted / Unweighted
2.6 Connectivity
- 无向图的Connectivity
- connected任意两个节点都有路径相通
- disconnected由2至多个connected components构成
最大的子连接图giant component
isolated node
这种图的邻接矩阵可以写成block-diagonal的形式数字只在connected components之中出现
- 有向图的Connectivity
- strongly connected directed graph: has a path from each node to every other node and vice versa (e.g., A-B path and B-A path)
- weakly connected directed graph: is connected if we disregard the edge directions
- strongly connected components
附思考题
打开你的手机里面那些APP用到了图机器学习和图神经网络的技术内容个性化推荐、社交网络、银行金融
A股、港股、美股市值最高的上市公司哪些公司的核心资产是图
观看电影《社交网络》图和图数据挖掘的商业价值体现在哪些方面
马化腾在2022年12月内部讲话提到微信视频号是整个腾讯的希望请从图的角度解释这句话。
在你自己的研究领域哪些数据可以用图或者网络来表示如何进行图数据挖掘
近年来图数据挖掘在哪些领域带来了革命性进展
图数据挖掘解决哪些基本任务
分别从图、连接、节点三个层面举例解释图数据挖掘在生物医学方面的应用。
图神经网络为什么是端到端的为什么不需要人工做特征工程
图神经网络和其它神经网络有什么区别
简述AlphaFold的基本原理它解决了哪些以前解决不了的问题
图机器学习和传统机器学习有什么区别和难点
图机器学习的编程工具有哪些看看它们的官网吧Graphgym、pyG、networkx、dgl、Pytorch、AntV、Echarts
举几个Heherogeneous Graph异质图的例子
异质图和普通图有什么区别
举几个Bipartite Graph二分图的例子
举几个有向图的例子
如何设计本体图Ontology
为什么要把图表示成矩阵
如何从连通域的角度理解“六度空间”理论世界上任意两个人可以通过不超过六个中间人相互认识。
为什么很多真实场景的图都是稀疏的
附AlphaFold相关内容
AlphaFold官网https://www.deepmind.com/research/highlighted-research/alphafold
AlphaFold蛋白质数据库https://alphafold.ebi.ac.uk
AlphaFold博客1https://www.deepmind.com/blog/alphafold-using-ai-for-scientific-discovery-2020
AlphaFold博客2https://www.deepmind.com/blog/alphafold-reveals-the-structure-of-the-protein-universe
AlphaFold自然杂志论文https://www.nature.com/articles/s41586-019-1923-7.epdf?author_access_token=Z_KaZKDqtKzbE7Wd5HtwI9RgN0jAjWel9jnR3ZoTv0MCcgAwHMgRx9mvLjNQdB2TlQQaa7l420UCtGo8vYQ39gg8lFWR9mAZtvsN_1PrccXfIbc6e-tGSgazNL_XdtQzn1PHfy21qdcxV7Pw-k3htw%3D%3D
AlphaFold代码https://github.com/deepmind/deepmind-research/tree/master/alphafold_casp13
百度文心·生物计算大模型https://wenxin.baidu.com/wenxin/paddlehelix
人工智能在药物发现和生物技术中的应用2022年回顾与关键趋势https://mp.weixin.qq.com/s/ZuDpd2YqHpDiRqw9GIXolw
Reference
- cs224w图机器学习2021冬季课程学习笔记集合
- https://github.com/TommyZihao/zihao_course
- 官方原版视频 https://web.stanford.edu/class/cs224w/
- Youtube视频https://www.youtube.com/watch?v=JAB_plj2rbA&list=PLoROMvodv4rPLKxIpqhjhPgdQy7imNkDn&index=1
- https://www.youtube.com/watch?v=JAB_plj2rbA&list=PLoROMvodv4rPLKxIpqhjhPgdQy7imNkDn&index=2
- 课程主页https://web.stanford.edu/class/cs224w
Graph Representation Learning Bookhttps://www.cs.mcgill.ca/~wlh/grl_book/ - Lecture 1.1 - Why Graphshttps://www.youtube.com/watch?v=JAB_plj2rbA&list=PLoROMvodv4rPLKxIpqhjhPgdQy7imNkDn&index=1
- 其它阅读材料
李笑来-惊喜与创造惊喜的方法论https://zhuanlan.zhihu.com/p/475615463 - 哥尼斯堡七桥问题https://zhuanlan.zhihu.com/p/519123688
- 2022 IDEA大会|BIOS V2正式发布数据驱动构建超级医学知识图谱https://mp.weixin.qq.com/s/vuHGUtWbiIH-pJ6MZaxl5Q
- 图的基本表示
同济子豪兄-中文精讲视频https://www.bilibili.com/video/BV1n84y1e7SF - 斯坦福原版视频https://www.youtube.com/watch?v=P-m1Qv6-8cI&list=PLoROMvodv4rPLKxIpqhjhPgdQy7imNkDn&index=3
- 扩展阅读
如何解释人际交往中的「六度空间」理论它是如何证明的https://www.zhihu.com/question/27492995/answer/37841402 - Jure Leskovec
个人主页https://cs.stanford.edu/people/jure/
谷歌学术主页https://scholar.google.com/citations?user=Q_kKkIUAAAAJ&hl=zh-CN - 子豪兄视频