HY Blog

New post every day (with probability 0.03).

HPCC SIGCOMM 2019

HPCC High Precision Congestion Control

HPCC是阿里推出的针对高速RDMA网络的新的拥塞控制协议,借助于INT提供的详细信息来进行精确的速率控制,具有快速收敛,保持接近zero-queue的优点。 Motivation 论文认为,如今高速网络中传输普遍存在三个问题: 收敛慢 始终有standing queue,增加latency CC的参数调优困难,operators总是需要在stability与utiliz...

PCN NSDI 2020

Re-architecting Congestion Management in Lossless Ethernet

这篇文章发表在NSDI 2020会议上。笔者花了相当长的时间细读、理解透彻这篇论文(前前后后几个月哈哈)。笔者的笔记也包含了一些笔者自己的理解。这篇论文重构了目前无损以太网的拥塞控制,指出了当前拥塞管理架构中两个核心模块(拥塞探测和速率调节)存在的根本问题。提出了PCN的拥塞控制协议。 Experimental observations 论文作者通过构造一个经典场景,给出实验性的观察,指...

QJUMP NSDI 2015

Queues Don’t Matter When You Can JUMP Them!

核心思想 rate limiting 与 priority value 相结合, 来保证 latency Motivation 解决数据中心网络中 network interference 问题: congestion from throughput-intensive applications causes queueing that delays traffic from late...

NDP SIGCOMM 2017

Re-architecting datacenter networks and stacks

Very intuitive animation (YouTube) Architectural points End-to-end Service Demands Transport Protocol Switch Service Model 参考文献 Re-architecting datacenter netwo...

PTPmesh 2017

DC Network Latency Measurements Using PTP

核心思想 使用已有的PTP(IEEE 1588 Precision Time Protocol)进行数据中心网络latency和丢包率测量 PTP one-way delay: \(1/2 * (master\_to\_slave\_delay + slave\_to\_master\_delay)\) master-to-slave-delay: $ T1-T1^{’}$ ...

LossRadar CoNEXT 2016

Fast Detection of Lost Packets in DC

核心思想 专门用于快速检测丢包以及获取丢包详细信息的monitor system. 可以说是第一篇专门做数据中心丢包troubleshooting的文章,007在此文章之后. Packet Loss Background 丢包很常见并且对数据中心应用影响大:on average in a production data center for one year, up t...

Parameter Sever OSDI 2014

Scaling Distributed Machine Learning with PS

核心思想 分布式机器学习架构:Parameter Server. 首次将分布式参数服务器架构扩展到支持1000台服务器规模. A third generation open source implementation of a parameter server that focuses on the systems aspects of distributed inference. Ba...

HiPS SIGCOMM workshop 2018

Hierarchical Parameter Synchronization for DML

核心思想 设计了一种新的分布式机器学习(DML)参数同步算法。最大意义在于说明了拓扑对参数同步算法提供了优化空间。 Background and Motivation 已有的参数同步算法: PS-based synchronization (PS). 集中式, 较为常用(Tensorflow, Caffe, MXNet等). 两种角色: 参数服务器(Paremeter serv...

DPTP SOSR 2019

Time-synchronization in the Programmable Data Plane

核心思想 在可编程交换机数据平面实现时间同步协议. 亮点:非常详尽的可编程交换机各部分delay的测量 Motivation NTP (Network time protocol) 精度不够(软件timestamp) PTP标准 (IEEE 1588 Precise Time Protocol)精度高,能够实现纳秒级别的同步(硬件timestamp),但是由于通常由端主机软件...

QDPAS ICNP 2018

Queueing Delay Aware Packet Spraying

核心思想 根据队列排队延时进行端口选择,从而解决packet spraying的乱序问题。 Motivation 这篇论文是对paclet-level load balancing的工作的重要改进,解决其最明显的乱序问题。亮点:在motivation部分通过实验对已有packet-level,flow-level,flowlet-level的缺点进行了直观展示。 Ou...