CoCalc -- drbd

GitHub Repository: awilliam/linux-vfio
Path: blob/master/drivers/block/drbd/drbd_main.c
¹⁷³⁷² views
1
/*
2
   drbd.c
3

4
   This file is part of DRBD by Philipp Reisner and Lars Ellenberg.
5

6
   Copyright (C) 2001-2008, LINBIT Information Technologies GmbH.
7
   Copyright (C) 1999-2008, Philipp Reisner <[email protected]>.
8
   Copyright (C) 2002-2008, Lars Ellenberg <[email protected]>.
9

10
   Thanks to Carter Burden, Bart Grantham and Gennadiy Nerubayev
11
   from Logicworks, Inc. for making SDP replication support possible.
12

13
   drbd is free software; you can redistribute it and/or modify
14
   it under the terms of the GNU General Public License as published by
15
   the Free Software Foundation; either version 2, or (at your option)
16
   any later version.
17

18
   drbd is distributed in the hope that it will be useful,
19
   but WITHOUT ANY WARRANTY; without even the implied warranty of
20
   MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
21
   GNU General Public License for more details.
22

23
   You should have received a copy of the GNU General Public License
24
   along with drbd; see the file COPYING.  If not, write to
25
   the Free Software Foundation, 675 Mass Ave, Cambridge, MA 02139, USA.
26

27
 */
28

29
#include <linux/module.h>
30
#include <linux/drbd.h>
31
#include <asm/uaccess.h>
32
#include <asm/types.h>
33
#include <net/sock.h>
34
#include <linux/ctype.h>
35
#include <linux/mutex.h>
36
#include <linux/fs.h>
37
#include <linux/file.h>
38
#include <linux/proc_fs.h>
39
#include <linux/init.h>
40
#include <linux/mm.h>
41
#include <linux/memcontrol.h>
42
#include <linux/mm_inline.h>
43
#include <linux/slab.h>
44
#include <linux/random.h>
45
#include <linux/reboot.h>
46
#include <linux/notifier.h>
47
#include <linux/kthread.h>
48

49
#define __KERNEL_SYSCALLS__
50
#include <linux/unistd.h>
51
#include <linux/vmalloc.h>
52

53
#include <linux/drbd_limits.h>
54
#include "drbd_int.h"
55
#include "drbd_req.h" /* only for _req_mod in tl_release and tl_clear */
56

57
#include "drbd_vli.h"
58

59
struct after_state_chg_work {
60
	struct drbd_work w;
61
	union drbd_state os;
62
	union drbd_state ns;
63
	enum chg_state_flags flags;
64
	struct completion *done;
65
};
66

67
static DEFINE_MUTEX(drbd_main_mutex);
68
int drbdd_init(struct drbd_thread *);
69
int drbd_worker(struct drbd_thread *);
70
int drbd_asender(struct drbd_thread *);
71

72
int drbd_init(void);
73
static int drbd_open(struct block_device *bdev, fmode_t mode);
74
static int drbd_release(struct gendisk *gd, fmode_t mode);
75
static int w_after_state_ch(struct drbd_conf *mdev, struct drbd_work *w, int unused);
76
static void after_state_ch(struct drbd_conf *mdev, union drbd_state os,
77
			   union drbd_state ns, enum chg_state_flags flags);
78
static int w_md_sync(struct drbd_conf *mdev, struct drbd_work *w, int unused);
79
static void md_sync_timer_fn(unsigned long data);
80
static int w_bitmap_io(struct drbd_conf *mdev, struct drbd_work *w, int unused);
81
static int w_go_diskless(struct drbd_conf *mdev, struct drbd_work *w, int unused);
82

83
MODULE_AUTHOR("Philipp Reisner <[email protected]>, "
84
	      "Lars Ellenberg <[email protected]>");
85
MODULE_DESCRIPTION("drbd - Distributed Replicated Block Device v" REL_VERSION);
86
MODULE_VERSION(REL_VERSION);
87
MODULE_LICENSE("GPL");
88
MODULE_PARM_DESC(minor_count, "Maximum number of drbd devices ("
89
		 __stringify(DRBD_MINOR_COUNT_MIN) "-" __stringify(DRBD_MINOR_COUNT_MAX) ")");
90
MODULE_ALIAS_BLOCKDEV_MAJOR(DRBD_MAJOR);
91

92
#include <linux/moduleparam.h>
93
/* allow_open_on_secondary */
94
MODULE_PARM_DESC(allow_oos, "DONT USE!");
95
/* thanks to these macros, if compiled into the kernel (not-module),
96
 * this becomes the boot parameter drbd.minor_count */
97
module_param(minor_count, uint, 0444);
98
module_param(disable_sendpage, bool, 0644);
99
module_param(allow_oos, bool, 0);
100
module_param(cn_idx, uint, 0444);
101
module_param(proc_details, int, 0644);
102

103
#ifdef CONFIG_DRBD_FAULT_INJECTION
104
int enable_faults;
105
int fault_rate;
106
static int fault_count;
107
int fault_devs;
108
/* bitmap of enabled faults */
109
module_param(enable_faults, int, 0664);
110
/* fault rate % value - applies to all enabled faults */
111
module_param(fault_rate, int, 0664);
112
/* count of faults inserted */
113
module_param(fault_count, int, 0664);
114
/* bitmap of devices to insert faults on */
115
module_param(fault_devs, int, 0644);
116
#endif
117

118
/* module parameter, defined */
119
unsigned int minor_count = DRBD_MINOR_COUNT_DEF;
120
int disable_sendpage;
121
int allow_oos;
122
unsigned int cn_idx = CN_IDX_DRBD;
123
int proc_details;       /* Detail level in proc drbd*/
124

125
/* Module parameter for setting the user mode helper program
126
 * to run. Default is /sbin/drbdadm */
127
char usermode_helper[80] = "/sbin/drbdadm";
128

129
module_param_string(usermode_helper, usermode_helper, sizeof(usermode_helper), 0644);
130

131
/* in 2.6.x, our device mapping and config info contains our virtual gendisks
132
 * as member "struct gendisk *vdisk;"
133
 */
134
struct drbd_conf **minor_table;
135

136
struct kmem_cache *drbd_request_cache;
137
struct kmem_cache *drbd_ee_cache;	/* epoch entries */
138
struct kmem_cache *drbd_bm_ext_cache;	/* bitmap extents */
139
struct kmem_cache *drbd_al_ext_cache;	/* activity log extents */
140
mempool_t *drbd_request_mempool;
141
mempool_t *drbd_ee_mempool;
142

143
/* I do not use a standard mempool, because:
144
   1) I want to hand out the pre-allocated objects first.
145
   2) I want to be able to interrupt sleeping allocation with a signal.
146
   Note: This is a single linked list, the next pointer is the private
147
	 member of struct page.
148
 */
149
struct page *drbd_pp_pool;
150
spinlock_t   drbd_pp_lock;
151
int          drbd_pp_vacant;
152
wait_queue_head_t drbd_pp_wait;
153

154
DEFINE_RATELIMIT_STATE(drbd_ratelimit_state, 5 * HZ, 5);
155

156
static const struct block_device_operations drbd_ops = {
157
	.owner =   THIS_MODULE,
158
	.open =    drbd_open,
159
	.release = drbd_release,
160
};
161

162
#define ARRY_SIZE(A) (sizeof(A)/sizeof(A[0]))
163

164
#ifdef __CHECKER__
165
/* When checking with sparse, and this is an inline function, sparse will
166
   give tons of false positives. When this is a real functions sparse works.
167
 */
168
int _get_ldev_if_state(struct drbd_conf *mdev, enum drbd_disk_state mins)
169
{
170
	int io_allowed;
171

172
	atomic_inc(&mdev->local_cnt);
173
	io_allowed = (mdev->state.disk >= mins);
174
	if (!io_allowed) {
175
		if (atomic_dec_and_test(&mdev->local_cnt))
176
			wake_up(&mdev->misc_wait);
177
	}
178
	return io_allowed;
179
}
180

181
#endif
182

183
/**
184
 * DOC: The transfer log
185
 *
186
 * The transfer log is a single linked list of &struct drbd_tl_epoch objects.
187
 * mdev->newest_tle points to the head, mdev->oldest_tle points to the tail
188
 * of the list. There is always at least one &struct drbd_tl_epoch object.
189
 *
190
 * Each &struct drbd_tl_epoch has a circular double linked list of requests
191
 * attached.
192
 */
193
static int tl_init(struct drbd_conf *mdev)
194
{
195
	struct drbd_tl_epoch *b;
196

197
	/* during device minor initialization, we may well use GFP_KERNEL */
198
	b = kmalloc(sizeof(struct drbd_tl_epoch), GFP_KERNEL);
199
	if (!b)
200
		return 0;
201
	INIT_LIST_HEAD(&b->requests);
202
	INIT_LIST_HEAD(&b->w.list);
203
	b->next = NULL;
204
	b->br_number = 4711;
205
	b->n_writes = 0;
206
	b->w.cb = NULL; /* if this is != NULL, we need to dec_ap_pending in tl_clear */
207

208
	mdev->oldest_tle = b;
209
	mdev->newest_tle = b;
210
	INIT_LIST_HEAD(&mdev->out_of_sequence_requests);
211

212
	mdev->tl_hash = NULL;
213
	mdev->tl_hash_s = 0;
214

215
	return 1;
216
}
217

218
static void tl_cleanup(struct drbd_conf *mdev)
219
{
220
	D_ASSERT(mdev->oldest_tle == mdev->newest_tle);
221
	D_ASSERT(list_empty(&mdev->out_of_sequence_requests));
222
	kfree(mdev->oldest_tle);
223
	mdev->oldest_tle = NULL;
224
	kfree(mdev->unused_spare_tle);
225
	mdev->unused_spare_tle = NULL;
226
	kfree(mdev->tl_hash);
227
	mdev->tl_hash = NULL;
228
	mdev->tl_hash_s = 0;
229
}
230

231
/**
232
 * _tl_add_barrier() - Adds a barrier to the transfer log
233
 * @mdev:	DRBD device.
234
 * @new:	Barrier to be added before the current head of the TL.
235
 *
236
 * The caller must hold the req_lock.
237
 */
238
void _tl_add_barrier(struct drbd_conf *mdev, struct drbd_tl_epoch *new)
239
{
240
	struct drbd_tl_epoch *newest_before;
241

242
	INIT_LIST_HEAD(&new->requests);
243
	INIT_LIST_HEAD(&new->w.list);
244
	new->w.cb = NULL; /* if this is != NULL, we need to dec_ap_pending in tl_clear */
245
	new->next = NULL;
246
	new->n_writes = 0;
247

248
	newest_before = mdev->newest_tle;
249
	/* never send a barrier number == 0, because that is special-cased
250
	 * when using TCQ for our write ordering code */
251
	new->br_number = (newest_before->br_number+1) ?: 1;
252
	if (mdev->newest_tle != new) {
253
		mdev->newest_tle->next = new;
254
		mdev->newest_tle = new;
255
	}
256
}
257

258
/**
259
 * tl_release() - Free or recycle the oldest &struct drbd_tl_epoch object of the TL
260
 * @mdev:	DRBD device.
261
 * @barrier_nr:	Expected identifier of the DRBD write barrier packet.
262
 * @set_size:	Expected number of requests before that barrier.
263
 *
264
 * In case the passed barrier_nr or set_size does not match the oldest
265
 * &struct drbd_tl_epoch objects this function will cause a termination
266
 * of the connection.
267
 */
268
void tl_release(struct drbd_conf *mdev, unsigned int barrier_nr,
269
		       unsigned int set_size)
270
{
271
	struct drbd_tl_epoch *b, *nob; /* next old barrier */
272
	struct list_head *le, *tle;
273
	struct drbd_request *r;
274

275
	spin_lock_irq(&mdev->req_lock);
276

277
	b = mdev->oldest_tle;
278

279
	/* first some paranoia code */
280
	if (b == NULL) {
281
		dev_err(DEV, "BAD! BarrierAck #%u received, but no epoch in tl!?\n",
282
			barrier_nr);
283
		goto bail;
284
	}
285
	if (b->br_number != barrier_nr) {
286
		dev_err(DEV, "BAD! BarrierAck #%u received, expected #%u!\n",
287
			barrier_nr, b->br_number);
288
		goto bail;
289
	}
290
	if (b->n_writes != set_size) {
291
		dev_err(DEV, "BAD! BarrierAck #%u received with n_writes=%u, expected n_writes=%u!\n",
292
			barrier_nr, set_size, b->n_writes);
293
		goto bail;
294
	}
295

296
	/* Clean up list of requests processed during current epoch */
297
	list_for_each_safe(le, tle, &b->requests) {
298
		r = list_entry(le, struct drbd_request, tl_requests);
299
		_req_mod(r, barrier_acked);
300
	}
301
	/* There could be requests on the list waiting for completion
302
	   of the write to the local disk. To avoid corruptions of
303
	   slab's data structures we have to remove the lists head.
304

305
	   Also there could have been a barrier ack out of sequence, overtaking
306
	   the write acks - which would be a bug and violating write ordering.
307
	   To not deadlock in case we lose connection while such requests are
308
	   still pending, we need some way to find them for the
309
	   _req_mode(connection_lost_while_pending).
310

311
	   These have been list_move'd to the out_of_sequence_requests list in
312
	   _req_mod(, barrier_acked) above.
313
	   */
314
	list_del_init(&b->requests);
315

316
	nob = b->next;
317
	if (test_and_clear_bit(CREATE_BARRIER, &mdev->flags)) {
318
		_tl_add_barrier(mdev, b);
319
		if (nob)
320
			mdev->oldest_tle = nob;
321
		/* if nob == NULL b was the only barrier, and becomes the new
322
		   barrier. Therefore mdev->oldest_tle points already to b */
323
	} else {
324
		D_ASSERT(nob != NULL);
325
		mdev->oldest_tle = nob;
326
		kfree(b);
327
	}
328

329
	spin_unlock_irq(&mdev->req_lock);
330
	dec_ap_pending(mdev);
331

332
	return;
333

334
bail:
335
	spin_unlock_irq(&mdev->req_lock);
336
	drbd_force_state(mdev, NS(conn, C_PROTOCOL_ERROR));
337
}
338

339

340
/**
341
 * _tl_restart() - Walks the transfer log, and applies an action to all requests
342
 * @mdev:	DRBD device.
343
 * @what:       The action/event to perform with all request objects
344
 *
345
 * @what might be one of connection_lost_while_pending, resend, fail_frozen_disk_io,
346
 * restart_frozen_disk_io.
347
 */
348
static void _tl_restart(struct drbd_conf *mdev, enum drbd_req_event what)
349
{
350
	struct drbd_tl_epoch *b, *tmp, **pn;
351
	struct list_head *le, *tle, carry_reads;
352
	struct drbd_request *req;
353
	int rv, n_writes, n_reads;
354

355
	b = mdev->oldest_tle;
356
	pn = &mdev->oldest_tle;
357
	while (b) {
358
		n_writes = 0;
359
		n_reads = 0;
360
		INIT_LIST_HEAD(&carry_reads);
361
		list_for_each_safe(le, tle, &b->requests) {
362
			req = list_entry(le, struct drbd_request, tl_requests);
363
			rv = _req_mod(req, what);
364

365
			n_writes += (rv & MR_WRITE) >> MR_WRITE_SHIFT;
366
			n_reads  += (rv & MR_READ) >> MR_READ_SHIFT;
367
		}
368
		tmp = b->next;
369

370
		if (n_writes) {
371
			if (what == resend) {
372
				b->n_writes = n_writes;
373
				if (b->w.cb == NULL) {
374
					b->w.cb = w_send_barrier;
375
					inc_ap_pending(mdev);
376
					set_bit(CREATE_BARRIER, &mdev->flags);
377
				}
378

379
				drbd_queue_work(&mdev->data.work, &b->w);
380
			}
381
			pn = &b->next;
382
		} else {
383
			if (n_reads)
384
				list_add(&carry_reads, &b->requests);
385
			/* there could still be requests on that ring list,
386
			 * in case local io is still pending */
387
			list_del(&b->requests);
388

389
			/* dec_ap_pending corresponding to queue_barrier.
390
			 * the newest barrier may not have been queued yet,
391
			 * in which case w.cb is still NULL. */
392
			if (b->w.cb != NULL)
393
				dec_ap_pending(mdev);
394

395
			if (b == mdev->newest_tle) {
396
				/* recycle, but reinit! */
397
				D_ASSERT(tmp == NULL);
398
				INIT_LIST_HEAD(&b->requests);
399
				list_splice(&carry_reads, &b->requests);
400
				INIT_LIST_HEAD(&b->w.list);
401
				b->w.cb = NULL;
402
				b->br_number = net_random();
403
				b->n_writes = 0;
404

405
				*pn = b;
406
				break;
407
			}
408
			*pn = tmp;
409
			kfree(b);
410
		}
411
		b = tmp;
412
		list_splice(&carry_reads, &b->requests);
413
	}
414
}
415

416

417
/**
418
 * tl_clear() - Clears all requests and &struct drbd_tl_epoch objects out of the TL
419
 * @mdev:	DRBD device.
420
 *
421
 * This is called after the connection to the peer was lost. The storage covered
422
 * by the requests on the transfer gets marked as our of sync. Called from the
423
 * receiver thread and the worker thread.
424
 */
425
void tl_clear(struct drbd_conf *mdev)
426
{
427
	struct list_head *le, *tle;
428
	struct drbd_request *r;
429

430
	spin_lock_irq(&mdev->req_lock);
431

432
	_tl_restart(mdev, connection_lost_while_pending);
433

434
	/* we expect this list to be empty. */
435
	D_ASSERT(list_empty(&mdev->out_of_sequence_requests));
436

437
	/* but just in case, clean it up anyways! */
438
	list_for_each_safe(le, tle, &mdev->out_of_sequence_requests) {
439
		r = list_entry(le, struct drbd_request, tl_requests);
440
		/* It would be nice to complete outside of spinlock.
441
		 * But this is easier for now. */
442
		_req_mod(r, connection_lost_while_pending);
443
	}
444

445
	/* ensure bit indicating barrier is required is clear */
446
	clear_bit(CREATE_BARRIER, &mdev->flags);
447

448
	memset(mdev->app_reads_hash, 0, APP_R_HSIZE*sizeof(void *));
449

450
	spin_unlock_irq(&mdev->req_lock);
451
}
452

453
void tl_restart(struct drbd_conf *mdev, enum drbd_req_event what)
454
{
455
	spin_lock_irq(&mdev->req_lock);
456
	_tl_restart(mdev, what);
457
	spin_unlock_irq(&mdev->req_lock);
458
}
459

460
/**
461
 * cl_wide_st_chg() - true if the state change is a cluster wide one
462
 * @mdev:	DRBD device.
463
 * @os:		old (current) state.
464
 * @ns:		new (wanted) state.
465
 */
466
static int cl_wide_st_chg(struct drbd_conf *mdev,
467
			  union drbd_state os, union drbd_state ns)
468
{
469
	return (os.conn >= C_CONNECTED && ns.conn >= C_CONNECTED &&
470
		 ((os.role != R_PRIMARY && ns.role == R_PRIMARY) ||
471
		  (os.conn != C_STARTING_SYNC_T && ns.conn == C_STARTING_SYNC_T) ||
472
		  (os.conn != C_STARTING_SYNC_S && ns.conn == C_STARTING_SYNC_S) ||
473
		  (os.disk != D_DISKLESS && ns.disk == D_DISKLESS))) ||
474
		(os.conn >= C_CONNECTED && ns.conn == C_DISCONNECTING) ||
475
		(os.conn == C_CONNECTED && ns.conn == C_VERIFY_S);
476
}
477

478
enum drbd_state_rv
479
drbd_change_state(struct drbd_conf *mdev, enum chg_state_flags f,
480
		  union drbd_state mask, union drbd_state val)
481
{
482
	unsigned long flags;
483
	union drbd_state os, ns;
484
	enum drbd_state_rv rv;
485

486
	spin_lock_irqsave(&mdev->req_lock, flags);
487
	os = mdev->state;
488
	ns.i = (os.i & ~mask.i) | val.i;
489
	rv = _drbd_set_state(mdev, ns, f, NULL);
490
	ns = mdev->state;
491
	spin_unlock_irqrestore(&mdev->req_lock, flags);
492

493
	return rv;
494
}
495

496
/**
497
 * drbd_force_state() - Impose a change which happens outside our control on our state
498
 * @mdev:	DRBD device.
499
 * @mask:	mask of state bits to change.
500
 * @val:	value of new state bits.
501
 */
502
void drbd_force_state(struct drbd_conf *mdev,
503
	union drbd_state mask, union drbd_state val)
504
{
505
	drbd_change_state(mdev, CS_HARD, mask, val);
506
}
507

508
static enum drbd_state_rv is_valid_state(struct drbd_conf *, union drbd_state);
509
static enum drbd_state_rv is_valid_state_transition(struct drbd_conf *,
510
						    union drbd_state,
511
						    union drbd_state);
512
static union drbd_state sanitize_state(struct drbd_conf *mdev, union drbd_state os,
513
				       union drbd_state ns, const char **warn_sync_abort);
514
int drbd_send_state_req(struct drbd_conf *,
515
			union drbd_state, union drbd_state);
516

517
static enum drbd_state_rv
518
_req_st_cond(struct drbd_conf *mdev, union drbd_state mask,
519
	     union drbd_state val)
520
{
521
	union drbd_state os, ns;
522
	unsigned long flags;
523
	enum drbd_state_rv rv;
524

525
	if (test_and_clear_bit(CL_ST_CHG_SUCCESS, &mdev->flags))
526
		return SS_CW_SUCCESS;
527

528
	if (test_and_clear_bit(CL_ST_CHG_FAIL, &mdev->flags))
529
		return SS_CW_FAILED_BY_PEER;
530

531
	rv = 0;
532
	spin_lock_irqsave(&mdev->req_lock, flags);
533
	os = mdev->state;
534
	ns.i = (os.i & ~mask.i) | val.i;
535
	ns = sanitize_state(mdev, os, ns, NULL);
536

537
	if (!cl_wide_st_chg(mdev, os, ns))
538
		rv = SS_CW_NO_NEED;
539
	if (!rv) {
540
		rv = is_valid_state(mdev, ns);
541
		if (rv == SS_SUCCESS) {
542
			rv = is_valid_state_transition(mdev, ns, os);
543
			if (rv == SS_SUCCESS)
544
				rv = SS_UNKNOWN_ERROR; /* cont waiting, otherwise fail. */
545
		}
546
	}
547
	spin_unlock_irqrestore(&mdev->req_lock, flags);
548

549
	return rv;
550
}
551

552
/**
553
 * drbd_req_state() - Perform an eventually cluster wide state change
554
 * @mdev:	DRBD device.
555
 * @mask:	mask of state bits to change.
556
 * @val:	value of new state bits.
557
 * @f:		flags
558
 *
559
 * Should not be called directly, use drbd_request_state() or
560
 * _drbd_request_state().
561
 */
562
static enum drbd_state_rv
563
drbd_req_state(struct drbd_conf *mdev, union drbd_state mask,
564
	       union drbd_state val, enum chg_state_flags f)
565
{
566
	struct completion done;
567
	unsigned long flags;
568
	union drbd_state os, ns;
569
	enum drbd_state_rv rv;
570

571
	init_completion(&done);
572

573
	if (f & CS_SERIALIZE)
574
		mutex_lock(&mdev->state_mutex);
575

576
	spin_lock_irqsave(&mdev->req_lock, flags);
577
	os = mdev->state;
578
	ns.i = (os.i & ~mask.i) | val.i;
579
	ns = sanitize_state(mdev, os, ns, NULL);
580

581
	if (cl_wide_st_chg(mdev, os, ns)) {
582
		rv = is_valid_state(mdev, ns);
583
		if (rv == SS_SUCCESS)
584
			rv = is_valid_state_transition(mdev, ns, os);
585
		spin_unlock_irqrestore(&mdev->req_lock, flags);
586

587
		if (rv < SS_SUCCESS) {
588
			if (f & CS_VERBOSE)
589
				print_st_err(mdev, os, ns, rv);
590
			goto abort;
591
		}
592

593
		drbd_state_lock(mdev);
594
		if (!drbd_send_state_req(mdev, mask, val)) {
595
			drbd_state_unlock(mdev);
596
			rv = SS_CW_FAILED_BY_PEER;
597
			if (f & CS_VERBOSE)
598
				print_st_err(mdev, os, ns, rv);
599
			goto abort;
600
		}
601

602
		wait_event(mdev->state_wait,
603
			(rv = _req_st_cond(mdev, mask, val)));
604

605
		if (rv < SS_SUCCESS) {
606
			drbd_state_unlock(mdev);
607
			if (f & CS_VERBOSE)
608
				print_st_err(mdev, os, ns, rv);
609
			goto abort;
610
		}
611
		spin_lock_irqsave(&mdev->req_lock, flags);
612
		os = mdev->state;
613
		ns.i = (os.i & ~mask.i) | val.i;
614
		rv = _drbd_set_state(mdev, ns, f, &done);
615
		drbd_state_unlock(mdev);
616
	} else {
617
		rv = _drbd_set_state(mdev, ns, f, &done);
618
	}
619

620
	spin_unlock_irqrestore(&mdev->req_lock, flags);
621

622
	if (f & CS_WAIT_COMPLETE && rv == SS_SUCCESS) {
623
		D_ASSERT(current != mdev->worker.task);
624
		wait_for_completion(&done);
625
	}
626

627
abort:
628
	if (f & CS_SERIALIZE)
629
		mutex_unlock(&mdev->state_mutex);
630

631
	return rv;
632
}
633

634
/**
635
 * _drbd_request_state() - Request a state change (with flags)
636
 * @mdev:	DRBD device.
637
 * @mask:	mask of state bits to change.
638
 * @val:	value of new state bits.
639
 * @f:		flags
640
 *
641
 * Cousin of drbd_request_state(), useful with the CS_WAIT_COMPLETE
642
 * flag, or when logging of failed state change requests is not desired.
643
 */
644
enum drbd_state_rv
645
_drbd_request_state(struct drbd_conf *mdev, union drbd_state mask,
646
		    union drbd_state val, enum chg_state_flags f)
647
{
648
	enum drbd_state_rv rv;
649

650
	wait_event(mdev->state_wait,
651
		   (rv = drbd_req_state(mdev, mask, val, f)) != SS_IN_TRANSIENT_STATE);
652

653
	return rv;
654
}
655

656
static void print_st(struct drbd_conf *mdev, char *name, union drbd_state ns)
657
{
658
	dev_err(DEV, " %s = { cs:%s ro:%s/%s ds:%s/%s %c%c%c%c }\n",
659
	    name,
660
	    drbd_conn_str(ns.conn),
661
	    drbd_role_str(ns.role),
662
	    drbd_role_str(ns.peer),
663
	    drbd_disk_str(ns.disk),
664
	    drbd_disk_str(ns.pdsk),
665
	    is_susp(ns) ? 's' : 'r',
666
	    ns.aftr_isp ? 'a' : '-',
667
	    ns.peer_isp ? 'p' : '-',
668
	    ns.user_isp ? 'u' : '-'
669
	    );
670
}
671

672
void print_st_err(struct drbd_conf *mdev, union drbd_state os,
673
	          union drbd_state ns, enum drbd_state_rv err)
674
{
675
	if (err == SS_IN_TRANSIENT_STATE)
676
		return;
677
	dev_err(DEV, "State change failed: %s\n", drbd_set_st_err_str(err));
678
	print_st(mdev, " state", os);
679
	print_st(mdev, "wanted", ns);
680
}
681

682

683
/**
684
 * is_valid_state() - Returns an SS_ error code if ns is not valid
685
 * @mdev:	DRBD device.
686
 * @ns:		State to consider.
687
 */
688
static enum drbd_state_rv
689
is_valid_state(struct drbd_conf *mdev, union drbd_state ns)
690
{
691
	/* See drbd_state_sw_errors in drbd_strings.c */
692

693
	enum drbd_fencing_p fp;
694
	enum drbd_state_rv rv = SS_SUCCESS;
695

696
	fp = FP_DONT_CARE;
697
	if (get_ldev(mdev)) {
698
		fp = mdev->ldev->dc.fencing;
699
		put_ldev(mdev);
700
	}
701

702
	if (get_net_conf(mdev)) {
703
		if (!mdev->net_conf->two_primaries &&
704
		    ns.role == R_PRIMARY && ns.peer == R_PRIMARY)
705
			rv = SS_TWO_PRIMARIES;
706
		put_net_conf(mdev);
707
	}
708

709
	if (rv <= 0)
710
		/* already found a reason to abort */;
711
	else if (ns.role == R_SECONDARY && mdev->open_cnt)
712
		rv = SS_DEVICE_IN_USE;
713

714
	else if (ns.role == R_PRIMARY && ns.conn < C_CONNECTED && ns.disk < D_UP_TO_DATE)
715
		rv = SS_NO_UP_TO_DATE_DISK;
716

717
	else if (fp >= FP_RESOURCE &&
718
		 ns.role == R_PRIMARY && ns.conn < C_CONNECTED && ns.pdsk >= D_UNKNOWN)
719
		rv = SS_PRIMARY_NOP;
720

721
	else if (ns.role == R_PRIMARY && ns.disk <= D_INCONSISTENT && ns.pdsk <= D_INCONSISTENT)
722
		rv = SS_NO_UP_TO_DATE_DISK;
723

724
	else if (ns.conn > C_CONNECTED && ns.disk < D_INCONSISTENT)
725
		rv = SS_NO_LOCAL_DISK;
726

727
	else if (ns.conn > C_CONNECTED && ns.pdsk < D_INCONSISTENT)
728
		rv = SS_NO_REMOTE_DISK;
729

730
	else if (ns.conn > C_CONNECTED && ns.disk < D_UP_TO_DATE && ns.pdsk < D_UP_TO_DATE)
731
		rv = SS_NO_UP_TO_DATE_DISK;
732

733
	else if ((ns.conn == C_CONNECTED ||
734
		  ns.conn == C_WF_BITMAP_S ||
735
		  ns.conn == C_SYNC_SOURCE ||
736
		  ns.conn == C_PAUSED_SYNC_S) &&
737
		  ns.disk == D_OUTDATED)
738
		rv = SS_CONNECTED_OUTDATES;
739

740
	else if ((ns.conn == C_VERIFY_S || ns.conn == C_VERIFY_T) &&
741
		 (mdev->sync_conf.verify_alg[0] == 0))
742
		rv = SS_NO_VERIFY_ALG;
743

744
	else if ((ns.conn == C_VERIFY_S || ns.conn == C_VERIFY_T) &&
745
		  mdev->agreed_pro_version < 88)
746
		rv = SS_NOT_SUPPORTED;
747

748
	else if (ns.conn >= C_CONNECTED && ns.pdsk == D_UNKNOWN)
749
		rv = SS_CONNECTED_OUTDATES;
750

751
	return rv;
752
}
753

754
/**
755
 * is_valid_state_transition() - Returns an SS_ error code if the state transition is not possible
756
 * @mdev:	DRBD device.
757
 * @ns:		new state.
758
 * @os:		old state.
759
 */
760
static enum drbd_state_rv
761
is_valid_state_transition(struct drbd_conf *mdev, union drbd_state ns,
762
			  union drbd_state os)
763
{
764
	enum drbd_state_rv rv = SS_SUCCESS;
765

766
	if ((ns.conn == C_STARTING_SYNC_T || ns.conn == C_STARTING_SYNC_S) &&
767
	    os.conn > C_CONNECTED)
768
		rv = SS_RESYNC_RUNNING;
769

770
	if (ns.conn == C_DISCONNECTING && os.conn == C_STANDALONE)
771
		rv = SS_ALREADY_STANDALONE;
772

773
	if (ns.disk > D_ATTACHING && os.disk == D_DISKLESS)
774
		rv = SS_IS_DISKLESS;
775

776
	if (ns.conn == C_WF_CONNECTION && os.conn < C_UNCONNECTED)
777
		rv = SS_NO_NET_CONFIG;
778

779
	if (ns.disk == D_OUTDATED && os.disk < D_OUTDATED && os.disk != D_ATTACHING)
780
		rv = SS_LOWER_THAN_OUTDATED;
781

782
	if (ns.conn == C_DISCONNECTING && os.conn == C_UNCONNECTED)
783
		rv = SS_IN_TRANSIENT_STATE;
784

785
	if (ns.conn == os.conn && ns.conn == C_WF_REPORT_PARAMS)
786
		rv = SS_IN_TRANSIENT_STATE;
787

788
	if ((ns.conn == C_VERIFY_S || ns.conn == C_VERIFY_T) && os.conn < C_CONNECTED)
789
		rv = SS_NEED_CONNECTION;
790

791
	if ((ns.conn == C_VERIFY_S || ns.conn == C_VERIFY_T) &&
792
	    ns.conn != os.conn && os.conn > C_CONNECTED)
793
		rv = SS_RESYNC_RUNNING;
794

795
	if ((ns.conn == C_STARTING_SYNC_S || ns.conn == C_STARTING_SYNC_T) &&
796
	    os.conn < C_CONNECTED)
797
		rv = SS_NEED_CONNECTION;
798

799
	if ((ns.conn == C_SYNC_TARGET || ns.conn == C_SYNC_SOURCE)
800
	    && os.conn < C_WF_REPORT_PARAMS)
801
		rv = SS_NEED_CONNECTION; /* No NetworkFailure -> SyncTarget etc... */
802

803
	return rv;
804
}
805

806
/**
807
 * sanitize_state() - Resolves implicitly necessary additional changes to a state transition
808
 * @mdev:	DRBD device.
809
 * @os:		old state.
810
 * @ns:		new state.
811
 * @warn_sync_abort:
812
 *
813
 * When we loose connection, we have to set the state of the peers disk (pdsk)
814
 * to D_UNKNOWN. This rule and many more along those lines are in this function.
815
 */
816
static union drbd_state sanitize_state(struct drbd_conf *mdev, union drbd_state os,
817
				       union drbd_state ns, const char **warn_sync_abort)
818
{
819
	enum drbd_fencing_p fp;
820
	enum drbd_disk_state disk_min, disk_max, pdsk_min, pdsk_max;
821

822
	fp = FP_DONT_CARE;
823
	if (get_ldev(mdev)) {
824
		fp = mdev->ldev->dc.fencing;
825
		put_ldev(mdev);
826
	}
827

828
	/* Disallow Network errors to configure a device's network part */
829
	if ((ns.conn >= C_TIMEOUT && ns.conn <= C_TEAR_DOWN) &&
830
	    os.conn <= C_DISCONNECTING)
831
		ns.conn = os.conn;
832

833
	/* After a network error (+C_TEAR_DOWN) only C_UNCONNECTED or C_DISCONNECTING can follow.
834
	 * If you try to go into some Sync* state, that shall fail (elsewhere). */
835
	if (os.conn >= C_TIMEOUT && os.conn <= C_TEAR_DOWN &&
836
	    ns.conn != C_UNCONNECTED && ns.conn != C_DISCONNECTING && ns.conn <= C_TEAR_DOWN)
837
		ns.conn = os.conn;
838

839
	/* we cannot fail (again) if we already detached */
840
	if (ns.disk == D_FAILED && os.disk == D_DISKLESS)
841
		ns.disk = D_DISKLESS;
842

843
	/* if we are only D_ATTACHING yet,
844
	 * we can (and should) go directly to D_DISKLESS. */
845
	if (ns.disk == D_FAILED && os.disk == D_ATTACHING)
846
		ns.disk = D_DISKLESS;
847

848
	/* After C_DISCONNECTING only C_STANDALONE may follow */
849
	if (os.conn == C_DISCONNECTING && ns.conn != C_STANDALONE)
850
		ns.conn = os.conn;
851

852
	if (ns.conn < C_CONNECTED) {
853
		ns.peer_isp = 0;
854
		ns.peer = R_UNKNOWN;
855
		if (ns.pdsk > D_UNKNOWN || ns.pdsk < D_INCONSISTENT)
856
			ns.pdsk = D_UNKNOWN;
857
	}
858

859
	/* Clear the aftr_isp when becoming unconfigured */
860
	if (ns.conn == C_STANDALONE && ns.disk == D_DISKLESS && ns.role == R_SECONDARY)
861
		ns.aftr_isp = 0;
862

863
	/* Abort resync if a disk fails/detaches */
864
	if (os.conn > C_CONNECTED && ns.conn > C_CONNECTED &&
865
	    (ns.disk <= D_FAILED || ns.pdsk <= D_FAILED)) {
866
		if (warn_sync_abort)
867
			*warn_sync_abort =
868
				os.conn == C_VERIFY_S || os.conn == C_VERIFY_T ?
869
				"Online-verify" : "Resync";
870
		ns.conn = C_CONNECTED;
871
	}
872

873
	/* Connection breaks down before we finished "Negotiating" */
874
	if (ns.conn < C_CONNECTED && ns.disk == D_NEGOTIATING &&
875
	    get_ldev_if_state(mdev, D_NEGOTIATING)) {
876
		if (mdev->ed_uuid == mdev->ldev->md.uuid[UI_CURRENT]) {
877
			ns.disk = mdev->new_state_tmp.disk;
878
			ns.pdsk = mdev->new_state_tmp.pdsk;
879
		} else {
880
			dev_alert(DEV, "Connection lost while negotiating, no data!\n");
881
			ns.disk = D_DISKLESS;
882
			ns.pdsk = D_UNKNOWN;
883
		}
884
		put_ldev(mdev);
885
	}
886

887
	/* D_CONSISTENT and D_OUTDATED vanish when we get connected */
888
	if (ns.conn >= C_CONNECTED && ns.conn < C_AHEAD) {
889
		if (ns.disk == D_CONSISTENT || ns.disk == D_OUTDATED)
890
			ns.disk = D_UP_TO_DATE;
891
		if (ns.pdsk == D_CONSISTENT || ns.pdsk == D_OUTDATED)
892
			ns.pdsk = D_UP_TO_DATE;
893
	}
894

895
	/* Implications of the connection stat on the disk states */
896
	disk_min = D_DISKLESS;
897
	disk_max = D_UP_TO_DATE;
898
	pdsk_min = D_INCONSISTENT;
899
	pdsk_max = D_UNKNOWN;
900
	switch ((enum drbd_conns)ns.conn) {
901
	case C_WF_BITMAP_T:
902
	case C_PAUSED_SYNC_T:
903
	case C_STARTING_SYNC_T:
904
	case C_WF_SYNC_UUID:
905
	case C_BEHIND:
906
		disk_min = D_INCONSISTENT;
907
		disk_max = D_OUTDATED;
908
		pdsk_min = D_UP_TO_DATE;
909
		pdsk_max = D_UP_TO_DATE;
910
		break;
911
	case C_VERIFY_S:
912
	case C_VERIFY_T:
913
		disk_min = D_UP_TO_DATE;
914
		disk_max = D_UP_TO_DATE;
915
		pdsk_min = D_UP_TO_DATE;
916
		pdsk_max = D_UP_TO_DATE;
917
		break;
918
	case C_CONNECTED:
919
		disk_min = D_DISKLESS;
920
		disk_max = D_UP_TO_DATE;
921
		pdsk_min = D_DISKLESS;
922
		pdsk_max = D_UP_TO_DATE;
923
		break;
924
	case C_WF_BITMAP_S:
925
	case C_PAUSED_SYNC_S:
926
	case C_STARTING_SYNC_S:
927
	case C_AHEAD:
928
		disk_min = D_UP_TO_DATE;
929
		disk_max = D_UP_TO_DATE;
930
		pdsk_min = D_INCONSISTENT;
931
		pdsk_max = D_CONSISTENT; /* D_OUTDATED would be nice. But explicit outdate necessary*/
932
		break;
933
	case C_SYNC_TARGET:
934
		disk_min = D_INCONSISTENT;
935
		disk_max = D_INCONSISTENT;
936
		pdsk_min = D_UP_TO_DATE;
937
		pdsk_max = D_UP_TO_DATE;
938
		break;
939
	case C_SYNC_SOURCE:
940
		disk_min = D_UP_TO_DATE;
941
		disk_max = D_UP_TO_DATE;
942
		pdsk_min = D_INCONSISTENT;
943
		pdsk_max = D_INCONSISTENT;
944
		break;
945
	case C_STANDALONE:
946
	case C_DISCONNECTING:
947
	case C_UNCONNECTED:
948
	case C_TIMEOUT:
949
	case C_BROKEN_PIPE:
950
	case C_NETWORK_FAILURE:
951
	case C_PROTOCOL_ERROR:
952
	case C_TEAR_DOWN:
953
	case C_WF_CONNECTION:
954
	case C_WF_REPORT_PARAMS:
955
	case C_MASK:
956
		break;
957
	}
958
	if (ns.disk > disk_max)
959
		ns.disk = disk_max;
960

961
	if (ns.disk < disk_min) {
962
		dev_warn(DEV, "Implicitly set disk from %s to %s\n",
963
			 drbd_disk_str(ns.disk), drbd_disk_str(disk_min));
964
		ns.disk = disk_min;
965
	}
966
	if (ns.pdsk > pdsk_max)
967
		ns.pdsk = pdsk_max;
968

969
	if (ns.pdsk < pdsk_min) {
970
		dev_warn(DEV, "Implicitly set pdsk from %s to %s\n",
971
			 drbd_disk_str(ns.pdsk), drbd_disk_str(pdsk_min));
972
		ns.pdsk = pdsk_min;
973
	}
974

975
	if (fp == FP_STONITH &&
976
	    (ns.role == R_PRIMARY && ns.conn < C_CONNECTED && ns.pdsk > D_OUTDATED) &&
977
	    !(os.role == R_PRIMARY && os.conn < C_CONNECTED && os.pdsk > D_OUTDATED))
978
		ns.susp_fen = 1; /* Suspend IO while fence-peer handler runs (peer lost) */
979

980
	if (mdev->sync_conf.on_no_data == OND_SUSPEND_IO &&
981
	    (ns.role == R_PRIMARY && ns.disk < D_UP_TO_DATE && ns.pdsk < D_UP_TO_DATE) &&
982
	    !(os.role == R_PRIMARY && os.disk < D_UP_TO_DATE && os.pdsk < D_UP_TO_DATE))
983
		ns.susp_nod = 1; /* Suspend IO while no data available (no accessible data available) */
984

985
	if (ns.aftr_isp || ns.peer_isp || ns.user_isp) {
986
		if (ns.conn == C_SYNC_SOURCE)
987
			ns.conn = C_PAUSED_SYNC_S;
988
		if (ns.conn == C_SYNC_TARGET)
989
			ns.conn = C_PAUSED_SYNC_T;
990
	} else {
991
		if (ns.conn == C_PAUSED_SYNC_S)
992
			ns.conn = C_SYNC_SOURCE;
993
		if (ns.conn == C_PAUSED_SYNC_T)
994
			ns.conn = C_SYNC_TARGET;
995
	}
996

997
	return ns;
998
}
999

1000
/* helper for __drbd_set_state */
1001
static void set_ov_position(struct drbd_conf *mdev, enum drbd_conns cs)
1002
{
1003
	if (mdev->agreed_pro_version < 90)
1004
		mdev->ov_start_sector = 0;
1005
	mdev->rs_total = drbd_bm_bits(mdev);
1006
	mdev->ov_position = 0;
1007
	if (cs == C_VERIFY_T) {
1008
		/* starting online verify from an arbitrary position
1009
		 * does not fit well into the existing protocol.
1010
		 * on C_VERIFY_T, we initialize ov_left and friends
1011
		 * implicitly in receive_DataRequest once the
1012
		 * first P_OV_REQUEST is received */
1013
		mdev->ov_start_sector = ~(sector_t)0;
1014
	} else {
1015
		unsigned long bit = BM_SECT_TO_BIT(mdev->ov_start_sector);
1016
		if (bit >= mdev->rs_total) {
1017
			mdev->ov_start_sector =
1018
				BM_BIT_TO_SECT(mdev->rs_total - 1);
1019
			mdev->rs_total = 1;
1020
		} else
1021
			mdev->rs_total -= bit;
1022
		mdev->ov_position = mdev->ov_start_sector;
1023
	}
1024
	mdev->ov_left = mdev->rs_total;
1025
}
1026

1027
static void drbd_resume_al(struct drbd_conf *mdev)
1028
{
1029
	if (test_and_clear_bit(AL_SUSPENDED, &mdev->flags))
1030
		dev_info(DEV, "Resumed AL updates\n");
1031
}
1032

1033
/**
1034
 * __drbd_set_state() - Set a new DRBD state
1035
 * @mdev:	DRBD device.
1036
 * @ns:		new state.
1037
 * @flags:	Flags
1038
 * @done:	Optional completion, that will get completed after the after_state_ch() finished
1039
 *
1040
 * Caller needs to hold req_lock, and global_state_lock. Do not call directly.
1041
 */
1042
enum drbd_state_rv
1043
__drbd_set_state(struct drbd_conf *mdev, union drbd_state ns,
1044
	         enum chg_state_flags flags, struct completion *done)
1045
{
1046
	union drbd_state os;
1047
	enum drbd_state_rv rv = SS_SUCCESS;
1048
	const char *warn_sync_abort = NULL;
1049
	struct after_state_chg_work *ascw;
1050

1051
	os = mdev->state;
1052

1053
	ns = sanitize_state(mdev, os, ns, &warn_sync_abort);
1054

1055
	if (ns.i == os.i)
1056
		return SS_NOTHING_TO_DO;
1057

1058
	if (!(flags & CS_HARD)) {
1059
		/*  pre-state-change checks ; only look at ns  */
1060
		/* See drbd_state_sw_errors in drbd_strings.c */
1061

1062
		rv = is_valid_state(mdev, ns);
1063
		if (rv < SS_SUCCESS) {
1064
			/* If the old state was illegal as well, then let
1065
			   this happen...*/
1066

1067
			if (is_valid_state(mdev, os) == rv)
1068
				rv = is_valid_state_transition(mdev, ns, os);
1069
		} else
1070
			rv = is_valid_state_transition(mdev, ns, os);
1071
	}
1072

1073
	if (rv < SS_SUCCESS) {
1074
		if (flags & CS_VERBOSE)
1075
			print_st_err(mdev, os, ns, rv);
1076
		return rv;
1077
	}
1078

1079
	if (warn_sync_abort)
1080
		dev_warn(DEV, "%s aborted.\n", warn_sync_abort);
1081

1082
	{
1083
	char *pbp, pb[300];
1084
	pbp = pb;
1085
	*pbp = 0;
1086
	if (ns.role != os.role)
1087
		pbp += sprintf(pbp, "role( %s -> %s ) ",
1088
			       drbd_role_str(os.role),
1089
			       drbd_role_str(ns.role));
1090
	if (ns.peer != os.peer)
1091
		pbp += sprintf(pbp, "peer( %s -> %s ) ",
1092
			       drbd_role_str(os.peer),
1093
			       drbd_role_str(ns.peer));
1094
	if (ns.conn != os.conn)
1095
		pbp += sprintf(pbp, "conn( %s -> %s ) ",
1096
			       drbd_conn_str(os.conn),
1097
			       drbd_conn_str(ns.conn));
1098
	if (ns.disk != os.disk)
1099
		pbp += sprintf(pbp, "disk( %s -> %s ) ",
1100
			       drbd_disk_str(os.disk),
1101
			       drbd_disk_str(ns.disk));
1102
	if (ns.pdsk != os.pdsk)
1103
		pbp += sprintf(pbp, "pdsk( %s -> %s ) ",
1104
			       drbd_disk_str(os.pdsk),
1105
			       drbd_disk_str(ns.pdsk));
1106
	if (is_susp(ns) != is_susp(os))
1107
		pbp += sprintf(pbp, "susp( %d -> %d ) ",
1108
			       is_susp(os),
1109
			       is_susp(ns));
1110
	if (ns.aftr_isp != os.aftr_isp)
1111
		pbp += sprintf(pbp, "aftr_isp( %d -> %d ) ",
1112
			       os.aftr_isp,
1113
			       ns.aftr_isp);
1114
	if (ns.peer_isp != os.peer_isp)
1115
		pbp += sprintf(pbp, "peer_isp( %d -> %d ) ",
1116
			       os.peer_isp,
1117
			       ns.peer_isp);
1118
	if (ns.user_isp != os.user_isp)
1119
		pbp += sprintf(pbp, "user_isp( %d -> %d ) ",
1120
			       os.user_isp,
1121
			       ns.user_isp);
1122
	dev_info(DEV, "%s\n", pb);
1123
	}
1124

1125
	/* solve the race between becoming unconfigured,
1126
	 * worker doing the cleanup, and
1127
	 * admin reconfiguring us:
1128
	 * on (re)configure, first set CONFIG_PENDING,
1129
	 * then wait for a potentially exiting worker,
1130
	 * start the worker, and schedule one no_op.
1131
	 * then proceed with configuration.
1132
	 */
1133
	if (ns.disk == D_DISKLESS &&
1134
	    ns.conn == C_STANDALONE &&
1135
	    ns.role == R_SECONDARY &&
1136
	    !test_and_set_bit(CONFIG_PENDING, &mdev->flags))
1137
		set_bit(DEVICE_DYING, &mdev->flags);
1138

1139
	/* if we are going -> D_FAILED or D_DISKLESS, grab one extra reference
1140
	 * on the ldev here, to be sure the transition -> D_DISKLESS resp.
1141
	 * drbd_ldev_destroy() won't happen before our corresponding
1142
	 * after_state_ch works run, where we put_ldev again. */
1143
	if ((os.disk != D_FAILED && ns.disk == D_FAILED) ||
1144
	    (os.disk != D_DISKLESS && ns.disk == D_DISKLESS))
1145
		atomic_inc(&mdev->local_cnt);
1146

1147
	mdev->state = ns;
1148

1149
	if (os.disk == D_ATTACHING && ns.disk >= D_NEGOTIATING)
1150
		drbd_print_uuids(mdev, "attached to UUIDs");
1151

1152
	wake_up(&mdev->misc_wait);
1153
	wake_up(&mdev->state_wait);
1154

1155
	/* aborted verify run. log the last position */
1156
	if ((os.conn == C_VERIFY_S || os.conn == C_VERIFY_T) &&
1157
	    ns.conn < C_CONNECTED) {
1158
		mdev->ov_start_sector =
1159
			BM_BIT_TO_SECT(drbd_bm_bits(mdev) - mdev->ov_left);
1160
		dev_info(DEV, "Online Verify reached sector %llu\n",
1161
			(unsigned long long)mdev->ov_start_sector);
1162
	}
1163

1164
	if ((os.conn == C_PAUSED_SYNC_T || os.conn == C_PAUSED_SYNC_S) &&
1165
	    (ns.conn == C_SYNC_TARGET  || ns.conn == C_SYNC_SOURCE)) {
1166
		dev_info(DEV, "Syncer continues.\n");
1167
		mdev->rs_paused += (long)jiffies
1168
				  -(long)mdev->rs_mark_time[mdev->rs_last_mark];
1169
		if (ns.conn == C_SYNC_TARGET)
1170
			mod_timer(&mdev->resync_timer, jiffies);
1171
	}
1172

1173
	if ((os.conn == C_SYNC_TARGET  || os.conn == C_SYNC_SOURCE) &&
1174
	    (ns.conn == C_PAUSED_SYNC_T || ns.conn == C_PAUSED_SYNC_S)) {
1175
		dev_info(DEV, "Resync suspended\n");
1176
		mdev->rs_mark_time[mdev->rs_last_mark] = jiffies;
1177
	}
1178

1179
	if (os.conn == C_CONNECTED &&
1180
	    (ns.conn == C_VERIFY_S || ns.conn == C_VERIFY_T)) {
1181
		unsigned long now = jiffies;
1182
		int i;
1183

1184
		set_ov_position(mdev, ns.conn);
1185
		mdev->rs_start = now;
1186
		mdev->rs_last_events = 0;
1187
		mdev->rs_last_sect_ev = 0;
1188
		mdev->ov_last_oos_size = 0;
1189
		mdev->ov_last_oos_start = 0;
1190

1191
		for (i = 0; i < DRBD_SYNC_MARKS; i++) {
1192
			mdev->rs_mark_left[i] = mdev->ov_left;
1193
			mdev->rs_mark_time[i] = now;
1194
		}
1195

1196
		drbd_rs_controller_reset(mdev);
1197

1198
		if (ns.conn == C_VERIFY_S) {
1199
			dev_info(DEV, "Starting Online Verify from sector %llu\n",
1200
					(unsigned long long)mdev->ov_position);
1201
			mod_timer(&mdev->resync_timer, jiffies);
1202
		}
1203
	}
1204

1205
	if (get_ldev(mdev)) {
1206
		u32 mdf = mdev->ldev->md.flags & ~(MDF_CONSISTENT|MDF_PRIMARY_IND|
1207
						 MDF_CONNECTED_IND|MDF_WAS_UP_TO_DATE|
1208
						 MDF_PEER_OUT_DATED|MDF_CRASHED_PRIMARY);
1209

1210
		if (test_bit(CRASHED_PRIMARY, &mdev->flags))
1211
			mdf |= MDF_CRASHED_PRIMARY;
1212
		if (mdev->state.role == R_PRIMARY ||
1213
		    (mdev->state.pdsk < D_INCONSISTENT && mdev->state.peer == R_PRIMARY))
1214
			mdf |= MDF_PRIMARY_IND;
1215
		if (mdev->state.conn > C_WF_REPORT_PARAMS)
1216
			mdf |= MDF_CONNECTED_IND;
1217
		if (mdev->state.disk > D_INCONSISTENT)
1218
			mdf |= MDF_CONSISTENT;
1219
		if (mdev->state.disk > D_OUTDATED)
1220
			mdf |= MDF_WAS_UP_TO_DATE;
1221
		if (mdev->state.pdsk <= D_OUTDATED && mdev->state.pdsk >= D_INCONSISTENT)
1222
			mdf |= MDF_PEER_OUT_DATED;
1223
		if (mdf != mdev->ldev->md.flags) {
1224
			mdev->ldev->md.flags = mdf;
1225
			drbd_md_mark_dirty(mdev);
1226
		}
1227
		if (os.disk < D_CONSISTENT && ns.disk >= D_CONSISTENT)
1228
			drbd_set_ed_uuid(mdev, mdev->ldev->md.uuid[UI_CURRENT]);
1229
		put_ldev(mdev);
1230
	}
1231

1232
	/* Peer was forced D_UP_TO_DATE & R_PRIMARY, consider to resync */
1233
	if (os.disk == D_INCONSISTENT && os.pdsk == D_INCONSISTENT &&
1234
	    os.peer == R_SECONDARY && ns.peer == R_PRIMARY)
1235
		set_bit(CONSIDER_RESYNC, &mdev->flags);
1236

1237
	/* Receiver should clean up itself */
1238
	if (os.conn != C_DISCONNECTING && ns.conn == C_DISCONNECTING)
1239
		drbd_thread_stop_nowait(&mdev->receiver);
1240

1241
	/* Now the receiver finished cleaning up itself, it should die */
1242
	if (os.conn != C_STANDALONE && ns.conn == C_STANDALONE)
1243
		drbd_thread_stop_nowait(&mdev->receiver);
1244

1245
	/* Upon network failure, we need to restart the receiver. */
1246
	if (os.conn > C_TEAR_DOWN &&
1247
	    ns.conn <= C_TEAR_DOWN && ns.conn >= C_TIMEOUT)
1248
		drbd_thread_restart_nowait(&mdev->receiver);
1249

1250
	/* Resume AL writing if we get a connection */
1251
	if (os.conn < C_CONNECTED && ns.conn >= C_CONNECTED)
1252
		drbd_resume_al(mdev);
1253

1254
	ascw = kmalloc(sizeof(*ascw), GFP_ATOMIC);
1255
	if (ascw) {
1256
		ascw->os = os;
1257
		ascw->ns = ns;
1258
		ascw->flags = flags;
1259
		ascw->w.cb = w_after_state_ch;
1260
		ascw->done = done;
1261
		drbd_queue_work(&mdev->data.work, &ascw->w);
1262
	} else {
1263
		dev_warn(DEV, "Could not kmalloc an ascw\n");
1264
	}
1265

1266
	return rv;
1267
}
1268

1269
static int w_after_state_ch(struct drbd_conf *mdev, struct drbd_work *w, int unused)
1270
{
1271
	struct after_state_chg_work *ascw =
1272
		container_of(w, struct after_state_chg_work, w);
1273
	after_state_ch(mdev, ascw->os, ascw->ns, ascw->flags);
1274
	if (ascw->flags & CS_WAIT_COMPLETE) {
1275
		D_ASSERT(ascw->done != NULL);
1276
		complete(ascw->done);
1277
	}
1278
	kfree(ascw);
1279

1280
	return 1;
1281
}
1282

1283
static void abw_start_sync(struct drbd_conf *mdev, int rv)
1284
{
1285
	if (rv) {
1286
		dev_err(DEV, "Writing the bitmap failed not starting resync.\n");
1287
		_drbd_request_state(mdev, NS(conn, C_CONNECTED), CS_VERBOSE);
1288
		return;
1289
	}
1290

1291
	switch (mdev->state.conn) {
1292
	case C_STARTING_SYNC_T:
1293
		_drbd_request_state(mdev, NS(conn, C_WF_SYNC_UUID), CS_VERBOSE);
1294
		break;
1295
	case C_STARTING_SYNC_S:
1296
		drbd_start_resync(mdev, C_SYNC_SOURCE);
1297
		break;
1298
	}
1299
}
1300

1301
int drbd_bitmap_io_from_worker(struct drbd_conf *mdev,
1302
		int (*io_fn)(struct drbd_conf *),
1303
		char *why, enum bm_flag flags)
1304
{
1305
	int rv;
1306

1307
	D_ASSERT(current == mdev->worker.task);
1308

1309
	/* open coded non-blocking drbd_suspend_io(mdev); */
1310
	set_bit(SUSPEND_IO, &mdev->flags);
1311

1312
	drbd_bm_lock(mdev, why, flags);
1313
	rv = io_fn(mdev);
1314
	drbd_bm_unlock(mdev);
1315

1316
	drbd_resume_io(mdev);
1317

1318
	return rv;
1319
}
1320

1321
/**
1322
 * after_state_ch() - Perform after state change actions that may sleep
1323
 * @mdev:	DRBD device.
1324
 * @os:		old state.
1325
 * @ns:		new state.
1326
 * @flags:	Flags
1327
 */
1328
static void after_state_ch(struct drbd_conf *mdev, union drbd_state os,
1329
			   union drbd_state ns, enum chg_state_flags flags)
1330
{
1331
	enum drbd_fencing_p fp;
1332
	enum drbd_req_event what = nothing;
1333
	union drbd_state nsm = (union drbd_state){ .i = -1 };
1334

1335
	if (os.conn != C_CONNECTED && ns.conn == C_CONNECTED) {
1336
		clear_bit(CRASHED_PRIMARY, &mdev->flags);
1337
		if (mdev->p_uuid)
1338
			mdev->p_uuid[UI_FLAGS] &= ~((u64)2);
1339
	}
1340

1341
	fp = FP_DONT_CARE;
1342
	if (get_ldev(mdev)) {
1343
		fp = mdev->ldev->dc.fencing;
1344
		put_ldev(mdev);
1345
	}
1346

1347
	/* Inform userspace about the change... */
1348
	drbd_bcast_state(mdev, ns);
1349

1350
	if (!(os.role == R_PRIMARY && os.disk < D_UP_TO_DATE && os.pdsk < D_UP_TO_DATE) &&
1351
	    (ns.role == R_PRIMARY && ns.disk < D_UP_TO_DATE && ns.pdsk < D_UP_TO_DATE))
1352
		drbd_khelper(mdev, "pri-on-incon-degr");
1353

1354
	/* Here we have the actions that are performed after a
1355
	   state change. This function might sleep */
1356

1357
	nsm.i = -1;
1358
	if (ns.susp_nod) {
1359
		if (os.conn < C_CONNECTED && ns.conn >= C_CONNECTED)
1360
			what = resend;
1361

1362
		if (os.disk == D_ATTACHING && ns.disk > D_ATTACHING)
1363
			what = restart_frozen_disk_io;
1364

1365
		if (what != nothing)
1366
			nsm.susp_nod = 0;
1367
	}
1368

1369
	if (ns.susp_fen) {
1370
		/* case1: The outdate peer handler is successful: */
1371
		if (os.pdsk > D_OUTDATED  && ns.pdsk <= D_OUTDATED) {
1372
			tl_clear(mdev);
1373
			if (test_bit(NEW_CUR_UUID, &mdev->flags)) {
1374
				drbd_uuid_new_current(mdev);
1375
				clear_bit(NEW_CUR_UUID, &mdev->flags);
1376
			}
1377
			spin_lock_irq(&mdev->req_lock);
1378
			_drbd_set_state(_NS(mdev, susp_fen, 0), CS_VERBOSE, NULL);
1379
			spin_unlock_irq(&mdev->req_lock);
1380
		}
1381
		/* case2: The connection was established again: */
1382
		if (os.conn < C_CONNECTED && ns.conn >= C_CONNECTED) {
1383
			clear_bit(NEW_CUR_UUID, &mdev->flags);
1384
			what = resend;
1385
			nsm.susp_fen = 0;
1386
		}
1387
	}
1388

1389
	if (what != nothing) {
1390
		spin_lock_irq(&mdev->req_lock);
1391
		_tl_restart(mdev, what);
1392
		nsm.i &= mdev->state.i;
1393
		_drbd_set_state(mdev, nsm, CS_VERBOSE, NULL);
1394
		spin_unlock_irq(&mdev->req_lock);
1395
	}
1396

1397
	/* Became sync source.  With protocol >= 96, we still need to send out
1398
	 * the sync uuid now. Need to do that before any drbd_send_state, or
1399
	 * the other side may go "paused sync" before receiving the sync uuids,
1400
	 * which is unexpected. */
1401
	if ((os.conn != C_SYNC_SOURCE && os.conn != C_PAUSED_SYNC_S) &&
1402
	    (ns.conn == C_SYNC_SOURCE || ns.conn == C_PAUSED_SYNC_S) &&
1403
	    mdev->agreed_pro_version >= 96 && get_ldev(mdev)) {
1404
		drbd_gen_and_send_sync_uuid(mdev);
1405
		put_ldev(mdev);
1406
	}
1407

1408
	/* Do not change the order of the if above and the two below... */
1409
	if (os.pdsk == D_DISKLESS && ns.pdsk > D_DISKLESS) {      /* attach on the peer */
1410
		drbd_send_uuids(mdev);
1411
		drbd_send_state(mdev);
1412
	}
1413
	/* No point in queuing send_bitmap if we don't have a connection
1414
	 * anymore, so check also the _current_ state, not only the new state
1415
	 * at the time this work was queued. */
1416
	if (os.conn != C_WF_BITMAP_S && ns.conn == C_WF_BITMAP_S &&
1417
	    mdev->state.conn == C_WF_BITMAP_S)
1418
		drbd_queue_bitmap_io(mdev, &drbd_send_bitmap, NULL,
1419
				"send_bitmap (WFBitMapS)",
1420
				BM_LOCKED_TEST_ALLOWED);
1421

1422
	/* Lost contact to peer's copy of the data */
1423
	if ((os.pdsk >= D_INCONSISTENT &&
1424
	     os.pdsk != D_UNKNOWN &&
1425
	     os.pdsk != D_OUTDATED)
1426
	&&  (ns.pdsk < D_INCONSISTENT ||
1427
	     ns.pdsk == D_UNKNOWN ||
1428
	     ns.pdsk == D_OUTDATED)) {
1429
		if (get_ldev(mdev)) {
1430
			if ((ns.role == R_PRIMARY || ns.peer == R_PRIMARY) &&
1431
			    mdev->ldev->md.uuid[UI_BITMAP] == 0 && ns.disk >= D_UP_TO_DATE) {
1432
				if (is_susp(mdev->state)) {
1433
					set_bit(NEW_CUR_UUID, &mdev->flags);
1434
				} else {
1435
					drbd_uuid_new_current(mdev);
1436
					drbd_send_uuids(mdev);
1437
				}
1438
			}
1439
			put_ldev(mdev);
1440
		}
1441
	}
1442

1443
	if (ns.pdsk < D_INCONSISTENT && get_ldev(mdev)) {
1444
		if (ns.peer == R_PRIMARY && mdev->ldev->md.uuid[UI_BITMAP] == 0) {
1445
			drbd_uuid_new_current(mdev);
1446
			drbd_send_uuids(mdev);
1447
		}
1448

1449
		/* D_DISKLESS Peer becomes secondary */
1450
		if (os.peer == R_PRIMARY && ns.peer == R_SECONDARY)
1451
			/* We may still be Primary ourselves.
1452
			 * No harm done if the bitmap still changes,
1453
			 * redirtied pages will follow later. */
1454
			drbd_bitmap_io_from_worker(mdev, &drbd_bm_write,
1455
				"demote diskless peer", BM_LOCKED_SET_ALLOWED);
1456
		put_ldev(mdev);
1457
	}
1458

1459
	/* Write out all changed bits on demote.
1460
	 * Though, no need to da that just yet
1461
	 * if there is a resync going on still */
1462
	if (os.role == R_PRIMARY && ns.role == R_SECONDARY &&
1463
		mdev->state.conn <= C_CONNECTED && get_ldev(mdev)) {
1464
		/* No changes to the bitmap expected this time, so assert that,
1465
		 * even though no harm was done if it did change. */
1466
		drbd_bitmap_io_from_worker(mdev, &drbd_bm_write,
1467
				"demote", BM_LOCKED_TEST_ALLOWED);
1468
		put_ldev(mdev);
1469
	}
1470

1471
	/* Last part of the attaching process ... */
1472
	if (ns.conn >= C_CONNECTED &&
1473
	    os.disk == D_ATTACHING && ns.disk == D_NEGOTIATING) {
1474
		drbd_send_sizes(mdev, 0, 0);  /* to start sync... */
1475
		drbd_send_uuids(mdev);
1476
		drbd_send_state(mdev);
1477
	}
1478

1479
	/* We want to pause/continue resync, tell peer. */
1480
	if (ns.conn >= C_CONNECTED &&
1481
	     ((os.aftr_isp != ns.aftr_isp) ||
1482
	      (os.user_isp != ns.user_isp)))
1483
		drbd_send_state(mdev);
1484

1485
	/* In case one of the isp bits got set, suspend other devices. */
1486
	if ((!os.aftr_isp && !os.peer_isp && !os.user_isp) &&
1487
	    (ns.aftr_isp || ns.peer_isp || ns.user_isp))
1488
		suspend_other_sg(mdev);
1489

1490
	/* Make sure the peer gets informed about eventual state
1491
	   changes (ISP bits) while we were in WFReportParams. */
1492
	if (os.conn == C_WF_REPORT_PARAMS && ns.conn >= C_CONNECTED)
1493
		drbd_send_state(mdev);
1494

1495
	if (os.conn != C_AHEAD && ns.conn == C_AHEAD)
1496
		drbd_send_state(mdev);
1497

1498
	/* We are in the progress to start a full sync... */
1499
	if ((os.conn != C_STARTING_SYNC_T && ns.conn == C_STARTING_SYNC_T) ||
1500
	    (os.conn != C_STARTING_SYNC_S && ns.conn == C_STARTING_SYNC_S))
1501
		/* no other bitmap changes expected during this phase */
1502
		drbd_queue_bitmap_io(mdev,
1503
			&drbd_bmio_set_n_write, &abw_start_sync,
1504
			"set_n_write from StartingSync", BM_LOCKED_TEST_ALLOWED);
1505

1506
	/* We are invalidating our self... */
1507
	if (os.conn < C_CONNECTED && ns.conn < C_CONNECTED &&
1508
	    os.disk > D_INCONSISTENT && ns.disk == D_INCONSISTENT)
1509
		/* other bitmap operation expected during this phase */
1510
		drbd_queue_bitmap_io(mdev, &drbd_bmio_set_n_write, NULL,
1511
			"set_n_write from invalidate", BM_LOCKED_MASK);
1512

1513
	/* first half of local IO error, failure to attach,
1514
	 * or administrative detach */
1515
	if (os.disk != D_FAILED && ns.disk == D_FAILED) {
1516
		enum drbd_io_error_p eh;
1517
		int was_io_error;
1518
		/* corresponding get_ldev was in __drbd_set_state, to serialize
1519
		 * our cleanup here with the transition to D_DISKLESS,
1520
		 * so it is safe to dreference ldev here. */
1521
		eh = mdev->ldev->dc.on_io_error;
1522
		was_io_error = test_and_clear_bit(WAS_IO_ERROR, &mdev->flags);
1523

1524
		/* current state still has to be D_FAILED,
1525
		 * there is only one way out: to D_DISKLESS,
1526
		 * and that may only happen after our put_ldev below. */
1527
		if (mdev->state.disk != D_FAILED)
1528
			dev_err(DEV,
1529
				"ASSERT FAILED: disk is %s during detach\n",
1530
				drbd_disk_str(mdev->state.disk));
1531

1532
		if (drbd_send_state(mdev))
1533
			dev_warn(DEV, "Notified peer that I am detaching my disk\n");
1534
		else
1535
			dev_err(DEV, "Sending state for detaching disk failed\n");
1536

1537
		drbd_rs_cancel_all(mdev);
1538

1539
		/* In case we want to get something to stable storage still,
1540
		 * this may be the last chance.
1541
		 * Following put_ldev may transition to D_DISKLESS. */
1542
		drbd_md_sync(mdev);
1543
		put_ldev(mdev);
1544

1545
		if (was_io_error && eh == EP_CALL_HELPER)
1546
			drbd_khelper(mdev, "local-io-error");
1547
	}
1548

1549
        /* second half of local IO error, failure to attach,
1550
         * or administrative detach,
1551
         * after local_cnt references have reached zero again */
1552
        if (os.disk != D_DISKLESS && ns.disk == D_DISKLESS) {
1553
                /* We must still be diskless,
1554
                 * re-attach has to be serialized with this! */
1555
                if (mdev->state.disk != D_DISKLESS)
1556
                        dev_err(DEV,
1557
                                "ASSERT FAILED: disk is %s while going diskless\n",
1558
                                drbd_disk_str(mdev->state.disk));
1559

1560
                mdev->rs_total = 0;
1561
                mdev->rs_failed = 0;
1562
                atomic_set(&mdev->rs_pending_cnt, 0);
1563

1564
		if (drbd_send_state(mdev))
1565
			dev_warn(DEV, "Notified peer that I'm now diskless.\n");
1566
		/* corresponding get_ldev in __drbd_set_state
1567
		 * this may finally trigger drbd_ldev_destroy. */
1568
		put_ldev(mdev);
1569
	}
1570

1571
	/* Notify peer that I had a local IO error, and did not detached.. */
1572
	if (os.disk == D_UP_TO_DATE && ns.disk == D_INCONSISTENT)
1573
		drbd_send_state(mdev);
1574

1575
	/* Disks got bigger while they were detached */
1576
	if (ns.disk > D_NEGOTIATING && ns.pdsk > D_NEGOTIATING &&
1577
	    test_and_clear_bit(RESYNC_AFTER_NEG, &mdev->flags)) {
1578
		if (ns.conn == C_CONNECTED)
1579
			resync_after_online_grow(mdev);
1580
	}
1581

1582
	/* A resync finished or aborted, wake paused devices... */
1583
	if ((os.conn > C_CONNECTED && ns.conn <= C_CONNECTED) ||
1584
	    (os.peer_isp && !ns.peer_isp) ||
1585
	    (os.user_isp && !ns.user_isp))
1586
		resume_next_sg(mdev);
1587

1588
	/* sync target done with resync.  Explicitly notify peer, even though
1589
	 * it should (at least for non-empty resyncs) already know itself. */
1590
	if (os.disk < D_UP_TO_DATE && os.conn >= C_SYNC_SOURCE && ns.conn == C_CONNECTED)
1591
		drbd_send_state(mdev);
1592

1593
	/* This triggers bitmap writeout of potentially still unwritten pages
1594
	 * if the resync finished cleanly, or aborted because of peer disk
1595
	 * failure, or because of connection loss.
1596
	 * For resync aborted because of local disk failure, we cannot do
1597
	 * any bitmap writeout anymore.
1598
	 * No harm done if some bits change during this phase.
1599
	 */
1600
	if (os.conn > C_CONNECTED && ns.conn <= C_CONNECTED && get_ldev(mdev)) {
1601
		drbd_queue_bitmap_io(mdev, &drbd_bm_write, NULL,
1602
			"write from resync_finished", BM_LOCKED_SET_ALLOWED);
1603
		put_ldev(mdev);
1604
	}
1605

1606
	/* free tl_hash if we Got thawed and are C_STANDALONE */
1607
	if (ns.conn == C_STANDALONE && !is_susp(ns) && mdev->tl_hash)
1608
		drbd_free_tl_hash(mdev);
1609

1610
	/* Upon network connection, we need to start the receiver */
1611
	if (os.conn == C_STANDALONE && ns.conn == C_UNCONNECTED)
1612
		drbd_thread_start(&mdev->receiver);
1613

1614
	/* Terminate worker thread if we are unconfigured - it will be
1615
	   restarted as needed... */
1616
	if (ns.disk == D_DISKLESS &&
1617
	    ns.conn == C_STANDALONE &&
1618
	    ns.role == R_SECONDARY) {
1619
		if (os.aftr_isp != ns.aftr_isp)
1620
			resume_next_sg(mdev);
1621
		/* set in __drbd_set_state, unless CONFIG_PENDING was set */
1622
		if (test_bit(DEVICE_DYING, &mdev->flags))
1623
			drbd_thread_stop_nowait(&mdev->worker);
1624
	}
1625

1626
	drbd_md_sync(mdev);
1627
}
1628

1629

1630
static int drbd_thread_setup(void *arg)
1631
{
1632
	struct drbd_thread *thi = (struct drbd_thread *) arg;
1633
	struct drbd_conf *mdev = thi->mdev;
1634
	unsigned long flags;
1635
	int retval;
1636

1637
restart:
1638
	retval = thi->function(thi);
1639

1640
	spin_lock_irqsave(&thi->t_lock, flags);
1641

1642
	/* if the receiver has been "Exiting", the last thing it did
1643
	 * was set the conn state to "StandAlone",
1644
	 * if now a re-connect request comes in, conn state goes C_UNCONNECTED,
1645
	 * and receiver thread will be "started".
1646
	 * drbd_thread_start needs to set "Restarting" in that case.
1647
	 * t_state check and assignment needs to be within the same spinlock,
1648
	 * so either thread_start sees Exiting, and can remap to Restarting,
1649
	 * or thread_start see None, and can proceed as normal.
1650
	 */
1651

1652
	if (thi->t_state == Restarting) {
1653
		dev_info(DEV, "Restarting %s\n", current->comm);
1654
		thi->t_state = Running;
1655
		spin_unlock_irqrestore(&thi->t_lock, flags);
1656
		goto restart;
1657
	}
1658

1659
	thi->task = NULL;
1660
	thi->t_state = None;
1661
	smp_mb();
1662
	complete(&thi->stop);
1663
	spin_unlock_irqrestore(&thi->t_lock, flags);
1664

1665
	dev_info(DEV, "Terminating %s\n", current->comm);
1666

1667
	/* Release mod reference taken when thread was started */
1668
	module_put(THIS_MODULE);
1669
	return retval;
1670
}
1671

1672
static void drbd_thread_init(struct drbd_conf *mdev, struct drbd_thread *thi,
1673
		      int (*func) (struct drbd_thread *))
1674
{
1675
	spin_lock_init(&thi->t_lock);
1676
	thi->task    = NULL;
1677
	thi->t_state = None;
1678
	thi->function = func;
1679
	thi->mdev = mdev;
1680
}
1681

1682
int drbd_thread_start(struct drbd_thread *thi)
1683
{
1684
	struct drbd_conf *mdev = thi->mdev;
1685
	struct task_struct *nt;
1686
	unsigned long flags;
1687

1688
	const char *me =
1689
		thi == &mdev->receiver ? "receiver" :
1690
		thi == &mdev->asender  ? "asender"  :
1691
		thi == &mdev->worker   ? "worker"   : "NONSENSE";
1692

1693
	/* is used from state engine doing drbd_thread_stop_nowait,
1694
	 * while holding the req lock irqsave */
1695
	spin_lock_irqsave(&thi->t_lock, flags);
1696

1697
	switch (thi->t_state) {
1698
	case None:
1699
		dev_info(DEV, "Starting %s thread (from %s [%d])\n",
1700
				me, current->comm, current->pid);
1701

1702
		/* Get ref on module for thread - this is released when thread exits */
1703
		if (!try_module_get(THIS_MODULE)) {
1704
			dev_err(DEV, "Failed to get module reference in drbd_thread_start\n");
1705
			spin_unlock_irqrestore(&thi->t_lock, flags);
1706
			return false;
1707
		}
1708

1709
		init_completion(&thi->stop);
1710
		D_ASSERT(thi->task == NULL);
1711
		thi->reset_cpu_mask = 1;
1712
		thi->t_state = Running;
1713
		spin_unlock_irqrestore(&thi->t_lock, flags);
1714
		flush_signals(current); /* otherw. may get -ERESTARTNOINTR */
1715

1716
		nt = kthread_create(drbd_thread_setup, (void *) thi,
1717
				    "drbd%d_%s", mdev_to_minor(mdev), me);
1718

1719
		if (IS_ERR(nt)) {
1720
			dev_err(DEV, "Couldn't start thread\n");
1721

1722
			module_put(THIS_MODULE);
1723
			return false;
1724
		}
1725
		spin_lock_irqsave(&thi->t_lock, flags);
1726
		thi->task = nt;
1727
		thi->t_state = Running;
1728
		spin_unlock_irqrestore(&thi->t_lock, flags);
1729
		wake_up_process(nt);
1730
		break;
1731
	case Exiting:
1732
		thi->t_state = Restarting;
1733
		dev_info(DEV, "Restarting %s thread (from %s [%d])\n",
1734
				me, current->comm, current->pid);
1735
		/* fall through */
1736
	case Running:
1737
	case Restarting:
1738
	default:
1739
		spin_unlock_irqrestore(&thi->t_lock, flags);
1740
		break;
1741
	}
1742

1743
	return true;
1744
}
1745

1746

1747
void _drbd_thread_stop(struct drbd_thread *thi, int restart, int wait)
1748
{
1749
	unsigned long flags;
1750

1751
	enum drbd_thread_state ns = restart ? Restarting : Exiting;
1752

1753
	/* may be called from state engine, holding the req lock irqsave */
1754
	spin_lock_irqsave(&thi->t_lock, flags);
1755

1756
	if (thi->t_state == None) {
1757
		spin_unlock_irqrestore(&thi->t_lock, flags);
1758
		if (restart)
1759
			drbd_thread_start(thi);
1760
		return;
1761
	}
1762

1763
	if (thi->t_state != ns) {
1764
		if (thi->task == NULL) {
1765
			spin_unlock_irqrestore(&thi->t_lock, flags);
1766
			return;
1767
		}
1768

1769
		thi->t_state = ns;
1770
		smp_mb();
1771
		init_completion(&thi->stop);
1772
		if (thi->task != current)
1773
			force_sig(DRBD_SIGKILL, thi->task);
1774

1775
	}
1776

1777
	spin_unlock_irqrestore(&thi->t_lock, flags);
1778

1779
	if (wait)
1780
		wait_for_completion(&thi->stop);
1781
}
1782

1783
#ifdef CONFIG_SMP
1784
/**
1785
 * drbd_calc_cpu_mask() - Generate CPU masks, spread over all CPUs
1786
 * @mdev:	DRBD device.
1787
 *
1788
 * Forces all threads of a device onto the same CPU. This is beneficial for
1789
 * DRBD's performance. May be overwritten by user's configuration.
1790
 */
1791
void drbd_calc_cpu_mask(struct drbd_conf *mdev)
1792
{
1793
	int ord, cpu;
1794

1795
	/* user override. */
1796
	if (cpumask_weight(mdev->cpu_mask))
1797
		return;
1798

1799
	ord = mdev_to_minor(mdev) % cpumask_weight(cpu_online_mask);
1800
	for_each_online_cpu(cpu) {
1801
		if (ord-- == 0) {
1802
			cpumask_set_cpu(cpu, mdev->cpu_mask);
1803
			return;
1804
		}
1805
	}
1806
	/* should not be reached */
1807
	cpumask_setall(mdev->cpu_mask);
1808
}
1809

1810
/**
1811
 * drbd_thread_current_set_cpu() - modifies the cpu mask of the _current_ thread
1812
 * @mdev:	DRBD device.
1813
 *
1814
 * call in the "main loop" of _all_ threads, no need for any mutex, current won't die
1815
 * prematurely.
1816
 */
1817
void drbd_thread_current_set_cpu(struct drbd_conf *mdev)
1818
{
1819
	struct task_struct *p = current;
1820
	struct drbd_thread *thi =
1821
		p == mdev->asender.task  ? &mdev->asender  :
1822
		p == mdev->receiver.task ? &mdev->receiver :
1823
		p == mdev->worker.task   ? &mdev->worker   :
1824
		NULL;
1825
	ERR_IF(thi == NULL)
1826
		return;
1827
	if (!thi->reset_cpu_mask)
1828
		return;
1829
	thi->reset_cpu_mask = 0;
1830
	set_cpus_allowed_ptr(p, mdev->cpu_mask);
1831
}
1832
#endif
1833

1834
/* the appropriate socket mutex must be held already */
1835
int _drbd_send_cmd(struct drbd_conf *mdev, struct socket *sock,
1836
			  enum drbd_packets cmd, struct p_header80 *h,
1837
			  size_t size, unsigned msg_flags)
1838
{
1839
	int sent, ok;
1840

1841
	ERR_IF(!h) return false;
1842
	ERR_IF(!size) return false;
1843

1844
	h->magic   = BE_DRBD_MAGIC;
1845
	h->command = cpu_to_be16(cmd);
1846
	h->length  = cpu_to_be16(size-sizeof(struct p_header80));
1847

1848
	sent = drbd_send(mdev, sock, h, size, msg_flags);
1849

1850
	ok = (sent == size);
1851
	if (!ok && !signal_pending(current))
1852
		dev_warn(DEV, "short sent %s size=%d sent=%d\n",
1853
		    cmdname(cmd), (int)size, sent);
1854
	return ok;
1855
}
1856

1857
/* don't pass the socket. we may only look at it
1858
 * when we hold the appropriate socket mutex.
1859
 */
1860
int drbd_send_cmd(struct drbd_conf *mdev, int use_data_socket,
1861
		  enum drbd_packets cmd, struct p_header80 *h, size_t size)
1862
{
1863
	int ok = 0;
1864
	struct socket *sock;
1865

1866
	if (use_data_socket) {
1867
		mutex_lock(&mdev->data.mutex);
1868
		sock = mdev->data.socket;
1869
	} else {
1870
		mutex_lock(&mdev->meta.mutex);
1871
		sock = mdev->meta.socket;
1872
	}
1873

1874
	/* drbd_disconnect() could have called drbd_free_sock()
1875
	 * while we were waiting in down()... */
1876
	if (likely(sock != NULL))
1877
		ok = _drbd_send_cmd(mdev, sock, cmd, h, size, 0);
1878

1879
	if (use_data_socket)
1880
		mutex_unlock(&mdev->data.mutex);
1881
	else
1882
		mutex_unlock(&mdev->meta.mutex);
1883
	return ok;
1884
}
1885

1886
int drbd_send_cmd2(struct drbd_conf *mdev, enum drbd_packets cmd, char *data,
1887
		   size_t size)
1888
{
1889
	struct p_header80 h;
1890
	int ok;
1891

1892
	h.magic   = BE_DRBD_MAGIC;
1893
	h.command = cpu_to_be16(cmd);
1894
	h.length  = cpu_to_be16(size);
1895

1896
	if (!drbd_get_data_sock(mdev))
1897
		return 0;
1898

1899
	ok = (sizeof(h) ==
1900
		drbd_send(mdev, mdev->data.socket, &h, sizeof(h), 0));
1901
	ok = ok && (size ==
1902
		drbd_send(mdev, mdev->data.socket, data, size, 0));
1903

1904
	drbd_put_data_sock(mdev);
1905

1906
	return ok;
1907
}
1908

1909
int drbd_send_sync_param(struct drbd_conf *mdev, struct syncer_conf *sc)
1910
{
1911
	struct p_rs_param_95 *p;
1912
	struct socket *sock;
1913
	int size, rv;
1914
	const int apv = mdev->agreed_pro_version;
1915

1916
	size = apv <= 87 ? sizeof(struct p_rs_param)
1917
		: apv == 88 ? sizeof(struct p_rs_param)
1918
			+ strlen(mdev->sync_conf.verify_alg) + 1
1919
		: apv <= 94 ? sizeof(struct p_rs_param_89)
1920
		: /* apv >= 95 */ sizeof(struct p_rs_param_95);
1921

1922
	/* used from admin command context and receiver/worker context.
1923
	 * to avoid kmalloc, grab the socket right here,
1924
	 * then use the pre-allocated sbuf there */
1925
	mutex_lock(&mdev->data.mutex);
1926
	sock = mdev->data.socket;
1927

1928
	if (likely(sock != NULL)) {
1929
		enum drbd_packets cmd = apv >= 89 ? P_SYNC_PARAM89 : P_SYNC_PARAM;
1930

1931
		p = &mdev->data.sbuf.rs_param_95;
1932

1933
		/* initialize verify_alg and csums_alg */
1934
		memset(p->verify_alg, 0, 2 * SHARED_SECRET_MAX);
1935

1936
		p->rate = cpu_to_be32(sc->rate);
1937
		p->c_plan_ahead = cpu_to_be32(sc->c_plan_ahead);
1938
		p->c_delay_target = cpu_to_be32(sc->c_delay_target);
1939
		p->c_fill_target = cpu_to_be32(sc->c_fill_target);
1940
		p->c_max_rate = cpu_to_be32(sc->c_max_rate);
1941

1942
		if (apv >= 88)
1943
			strcpy(p->verify_alg, mdev->sync_conf.verify_alg);
1944
		if (apv >= 89)
1945
			strcpy(p->csums_alg, mdev->sync_conf.csums_alg);
1946

1947
		rv = _drbd_send_cmd(mdev, sock, cmd, &p->head, size, 0);
1948
	} else
1949
		rv = 0; /* not ok */
1950

1951
	mutex_unlock(&mdev->data.mutex);
1952

1953
	return rv;
1954
}
1955

1956
int drbd_send_protocol(struct drbd_conf *mdev)
1957
{
1958
	struct p_protocol *p;
1959
	int size, cf, rv;
1960

1961
	size = sizeof(struct p_protocol);
1962

1963
	if (mdev->agreed_pro_version >= 87)
1964
		size += strlen(mdev->net_conf->integrity_alg) + 1;
1965

1966
	/* we must not recurse into our own queue,
1967
	 * as that is blocked during handshake */
1968
	p = kmalloc(size, GFP_NOIO);
1969
	if (p == NULL)
1970
		return 0;
1971

1972
	p->protocol      = cpu_to_be32(mdev->net_conf->wire_protocol);
1973
	p->after_sb_0p   = cpu_to_be32(mdev->net_conf->after_sb_0p);
1974
	p->after_sb_1p   = cpu_to_be32(mdev->net_conf->after_sb_1p);
1975
	p->after_sb_2p   = cpu_to_be32(mdev->net_conf->after_sb_2p);
1976
	p->two_primaries = cpu_to_be32(mdev->net_conf->two_primaries);
1977

1978
	cf = 0;
1979
	if (mdev->net_conf->want_lose)
1980
		cf |= CF_WANT_LOSE;
1981
	if (mdev->net_conf->dry_run) {
1982
		if (mdev->agreed_pro_version >= 92)
1983
			cf |= CF_DRY_RUN;
1984
		else {
1985
			dev_err(DEV, "--dry-run is not supported by peer");
1986
			kfree(p);
1987
			return -1;
1988
		}
1989
	}
1990
	p->conn_flags    = cpu_to_be32(cf);
1991

1992
	if (mdev->agreed_pro_version >= 87)
1993
		strcpy(p->integrity_alg, mdev->net_conf->integrity_alg);
1994

1995
	rv = drbd_send_cmd(mdev, USE_DATA_SOCKET, P_PROTOCOL,
1996
			   (struct p_header80 *)p, size);
1997
	kfree(p);
1998
	return rv;
1999
}
2000

2001
int _drbd_send_uuids(struct drbd_conf *mdev, u64 uuid_flags)
2002
{
2003
	struct p_uuids p;
2004
	int i;
2005

2006
	if (!get_ldev_if_state(mdev, D_NEGOTIATING))
2007
		return 1;
2008

2009
	for (i = UI_CURRENT; i < UI_SIZE; i++)
2010
		p.uuid[i] = mdev->ldev ? cpu_to_be64(mdev->ldev->md.uuid[i]) : 0;
2011

2012
	mdev->comm_bm_set = drbd_bm_total_weight(mdev);
2013
	p.uuid[UI_SIZE] = cpu_to_be64(mdev->comm_bm_set);
2014
	uuid_flags |= mdev->net_conf->want_lose ? 1 : 0;
2015
	uuid_flags |= test_bit(CRASHED_PRIMARY, &mdev->flags) ? 2 : 0;
2016
	uuid_flags |= mdev->new_state_tmp.disk == D_INCONSISTENT ? 4 : 0;
2017
	p.uuid[UI_FLAGS] = cpu_to_be64(uuid_flags);
2018

2019
	put_ldev(mdev);
2020

2021
	return drbd_send_cmd(mdev, USE_DATA_SOCKET, P_UUIDS,
2022
			     (struct p_header80 *)&p, sizeof(p));
2023
}
2024

2025
int drbd_send_uuids(struct drbd_conf *mdev)
2026
{
2027
	return _drbd_send_uuids(mdev, 0);
2028
}
2029

2030
int drbd_send_uuids_skip_initial_sync(struct drbd_conf *mdev)
2031
{
2032
	return _drbd_send_uuids(mdev, 8);
2033
}
2034

2035
void drbd_print_uuids(struct drbd_conf *mdev, const char *text)
2036
{
2037
	if (get_ldev_if_state(mdev, D_NEGOTIATING)) {
2038
		u64 *uuid = mdev->ldev->md.uuid;
2039
		dev_info(DEV, "%s %016llX:%016llX:%016llX:%016llX\n",
2040
		     text,
2041
		     (unsigned long long)uuid[UI_CURRENT],
2042
		     (unsigned long long)uuid[UI_BITMAP],
2043
		     (unsigned long long)uuid[UI_HISTORY_START],
2044
		     (unsigned long long)uuid[UI_HISTORY_END]);
2045
		put_ldev(mdev);
2046
	} else {
2047
		dev_info(DEV, "%s effective data uuid: %016llX\n",
2048
				text,
2049
				(unsigned long long)mdev->ed_uuid);
2050
	}
2051
}
2052

2053
int drbd_gen_and_send_sync_uuid(struct drbd_conf *mdev)
2054
{
2055
	struct p_rs_uuid p;
2056
	u64 uuid;
2057

2058
	D_ASSERT(mdev->state.disk == D_UP_TO_DATE);
2059

2060
	uuid = mdev->ldev->md.uuid[UI_BITMAP] + UUID_NEW_BM_OFFSET;
2061
	drbd_uuid_set(mdev, UI_BITMAP, uuid);
2062
	drbd_print_uuids(mdev, "updated sync UUID");
2063
	drbd_md_sync(mdev);
2064
	p.uuid = cpu_to_be64(uuid);
2065

2066
	return drbd_send_cmd(mdev, USE_DATA_SOCKET, P_SYNC_UUID,
2067
			     (struct p_header80 *)&p, sizeof(p));
2068
}
2069

2070
int drbd_send_sizes(struct drbd_conf *mdev, int trigger_reply, enum dds_flags flags)
2071
{
2072
	struct p_sizes p;
2073
	sector_t d_size, u_size;
2074
	int q_order_type, max_bio_size;
2075
	int ok;
2076

2077
	if (get_ldev_if_state(mdev, D_NEGOTIATING)) {
2078
		D_ASSERT(mdev->ldev->backing_bdev);
2079
		d_size = drbd_get_max_capacity(mdev->ldev);
2080
		u_size = mdev->ldev->dc.disk_size;
2081
		q_order_type = drbd_queue_order_type(mdev);
2082
		max_bio_size = queue_max_hw_sectors(mdev->ldev->backing_bdev->bd_disk->queue) << 9;
2083
		max_bio_size = min_t(int, max_bio_size, DRBD_MAX_BIO_SIZE);
2084
		put_ldev(mdev);
2085
	} else {
2086
		d_size = 0;
2087
		u_size = 0;
2088
		q_order_type = QUEUE_ORDERED_NONE;
2089
		max_bio_size = DRBD_MAX_BIO_SIZE; /* ... multiple BIOs per peer_request */
2090
	}
2091

2092
	p.d_size = cpu_to_be64(d_size);
2093
	p.u_size = cpu_to_be64(u_size);
2094
	p.c_size = cpu_to_be64(trigger_reply ? 0 : drbd_get_capacity(mdev->this_bdev));
2095
	p.max_bio_size = cpu_to_be32(max_bio_size);
2096
	p.queue_order_type = cpu_to_be16(q_order_type);
2097
	p.dds_flags = cpu_to_be16(flags);
2098

2099
	ok = drbd_send_cmd(mdev, USE_DATA_SOCKET, P_SIZES,
2100
			   (struct p_header80 *)&p, sizeof(p));
2101
	return ok;
2102
}
2103

2104
/**
2105
 * drbd_send_state() - Sends the drbd state to the peer
2106
 * @mdev:	DRBD device.
2107
 */
2108
int drbd_send_state(struct drbd_conf *mdev)
2109
{
2110
	struct socket *sock;
2111
	struct p_state p;
2112
	int ok = 0;
2113

2114
	/* Grab state lock so we wont send state if we're in the middle
2115
	 * of a cluster wide state change on another thread */
2116
	drbd_state_lock(mdev);
2117

2118
	mutex_lock(&mdev->data.mutex);
2119

2120
	p.state = cpu_to_be32(mdev->state.i); /* Within the send mutex */
2121
	sock = mdev->data.socket;
2122

2123
	if (likely(sock != NULL)) {
2124
		ok = _drbd_send_cmd(mdev, sock, P_STATE,
2125
				    (struct p_header80 *)&p, sizeof(p), 0);
2126
	}
2127

2128
	mutex_unlock(&mdev->data.mutex);
2129

2130
	drbd_state_unlock(mdev);
2131
	return ok;
2132
}
2133

2134
int drbd_send_state_req(struct drbd_conf *mdev,
2135
	union drbd_state mask, union drbd_state val)
2136
{
2137
	struct p_req_state p;
2138

2139
	p.mask    = cpu_to_be32(mask.i);
2140
	p.val     = cpu_to_be32(val.i);
2141

2142
	return drbd_send_cmd(mdev, USE_DATA_SOCKET, P_STATE_CHG_REQ,
2143
			     (struct p_header80 *)&p, sizeof(p));
2144
}
2145

2146
int drbd_send_sr_reply(struct drbd_conf *mdev, enum drbd_state_rv retcode)
2147
{
2148
	struct p_req_state_reply p;
2149

2150
	p.retcode    = cpu_to_be32(retcode);
2151

2152
	return drbd_send_cmd(mdev, USE_META_SOCKET, P_STATE_CHG_REPLY,
2153
			     (struct p_header80 *)&p, sizeof(p));
2154
}
2155

2156
int fill_bitmap_rle_bits(struct drbd_conf *mdev,
2157
	struct p_compressed_bm *p,
2158
	struct bm_xfer_ctx *c)
2159
{
2160
	struct bitstream bs;
2161
	unsigned long plain_bits;
2162
	unsigned long tmp;
2163
	unsigned long rl;
2164
	unsigned len;
2165
	unsigned toggle;
2166
	int bits;
2167

2168
	/* may we use this feature? */
2169
	if ((mdev->sync_conf.use_rle == 0) ||
2170
		(mdev->agreed_pro_version < 90))
2171
			return 0;
2172

2173
	if (c->bit_offset >= c->bm_bits)
2174
		return 0; /* nothing to do. */
2175

2176
	/* use at most thus many bytes */
2177
	bitstream_init(&bs, p->code, BM_PACKET_VLI_BYTES_MAX, 0);
2178
	memset(p->code, 0, BM_PACKET_VLI_BYTES_MAX);
2179
	/* plain bits covered in this code string */
2180
	plain_bits = 0;
2181

2182
	/* p->encoding & 0x80 stores whether the first run length is set.
2183
	 * bit offset is implicit.
2184
	 * start with toggle == 2 to be able to tell the first iteration */
2185
	toggle = 2;
2186

2187
	/* see how much plain bits we can stuff into one packet
2188
	 * using RLE and VLI. */
2189
	do {
2190
		tmp = (toggle == 0) ? _drbd_bm_find_next_zero(mdev, c->bit_offset)
2191
				    : _drbd_bm_find_next(mdev, c->bit_offset);
2192
		if (tmp == -1UL)
2193
			tmp = c->bm_bits;
2194
		rl = tmp - c->bit_offset;
2195

2196
		if (toggle == 2) { /* first iteration */
2197
			if (rl == 0) {
2198
				/* the first checked bit was set,
2199
				 * store start value, */
2200
				DCBP_set_start(p, 1);
2201
				/* but skip encoding of zero run length */
2202
				toggle = !toggle;
2203
				continue;
2204
			}
2205
			DCBP_set_start(p, 0);
2206
		}
2207

2208
		/* paranoia: catch zero runlength.
2209
		 * can only happen if bitmap is modified while we scan it. */
2210
		if (rl == 0) {
2211
			dev_err(DEV, "unexpected zero runlength while encoding bitmap "
2212
			    "t:%u bo:%lu\n", toggle, c->bit_offset);
2213
			return -1;
2214
		}
2215

2216
		bits = vli_encode_bits(&bs, rl);
2217
		if (bits == -ENOBUFS) /* buffer full */
2218
			break;
2219
		if (bits <= 0) {
2220
			dev_err(DEV, "error while encoding bitmap: %d\n", bits);
2221
			return 0;
2222
		}
2223

2224
		toggle = !toggle;
2225
		plain_bits += rl;
2226
		c->bit_offset = tmp;
2227
	} while (c->bit_offset < c->bm_bits);
2228

2229
	len = bs.cur.b - p->code + !!bs.cur.bit;
2230

2231
	if (plain_bits < (len << 3)) {
2232
		/* incompressible with this method.
2233
		 * we need to rewind both word and bit position. */
2234
		c->bit_offset -= plain_bits;
2235
		bm_xfer_ctx_bit_to_word_offset(c);
2236
		c->bit_offset = c->word_offset * BITS_PER_LONG;
2237
		return 0;
2238
	}
2239

2240
	/* RLE + VLI was able to compress it just fine.
2241
	 * update c->word_offset. */
2242
	bm_xfer_ctx_bit_to_word_offset(c);
2243

2244
	/* store pad_bits */
2245
	DCBP_set_pad_bits(p, (8 - bs.cur.bit) & 0x7);
2246

2247
	return len;
2248
}
2249

2250
/**
2251
 * send_bitmap_rle_or_plain
2252
 *
2253
 * Return 0 when done, 1 when another iteration is needed, and a negative error
2254
 * code upon failure.
2255
 */
2256
static int
2257
send_bitmap_rle_or_plain(struct drbd_conf *mdev,
2258
			 struct p_header80 *h, struct bm_xfer_ctx *c)
2259
{
2260
	struct p_compressed_bm *p = (void*)h;
2261
	unsigned long num_words;
2262
	int len;
2263
	int ok;
2264

2265
	len = fill_bitmap_rle_bits(mdev, p, c);
2266

2267
	if (len < 0)
2268
		return -EIO;
2269

2270
	if (len) {
2271
		DCBP_set_code(p, RLE_VLI_Bits);
2272
		ok = _drbd_send_cmd(mdev, mdev->data.socket, P_COMPRESSED_BITMAP, h,
2273
			sizeof(*p) + len, 0);
2274

2275
		c->packets[0]++;
2276
		c->bytes[0] += sizeof(*p) + len;
2277

2278
		if (c->bit_offset >= c->bm_bits)
2279
			len = 0; /* DONE */
2280
	} else {
2281
		/* was not compressible.
2282
		 * send a buffer full of plain text bits instead. */
2283
		num_words = min_t(size_t, BM_PACKET_WORDS, c->bm_words - c->word_offset);
2284
		len = num_words * sizeof(long);
2285
		if (len)
2286
			drbd_bm_get_lel(mdev, c->word_offset, num_words, (unsigned long*)h->payload);
2287
		ok = _drbd_send_cmd(mdev, mdev->data.socket, P_BITMAP,
2288
				   h, sizeof(struct p_header80) + len, 0);
2289
		c->word_offset += num_words;
2290
		c->bit_offset = c->word_offset * BITS_PER_LONG;
2291

2292
		c->packets[1]++;
2293
		c->bytes[1] += sizeof(struct p_header80) + len;
2294

2295
		if (c->bit_offset > c->bm_bits)
2296
			c->bit_offset = c->bm_bits;
2297
	}
2298
	if (ok) {
2299
		if (len == 0) {
2300
			INFO_bm_xfer_stats(mdev, "send", c);
2301
			return 0;
2302
		} else
2303
			return 1;
2304
	}
2305
	return -EIO;
2306
}
2307

2308
/* See the comment at receive_bitmap() */
2309
int _drbd_send_bitmap(struct drbd_conf *mdev)
2310
{
2311
	struct bm_xfer_ctx c;
2312
	struct p_header80 *p;
2313
	int err;
2314

2315
	ERR_IF(!mdev->bitmap) return false;
2316

2317
	/* maybe we should use some per thread scratch page,
2318
	 * and allocate that during initial device creation? */
2319
	p = (struct p_header80 *) __get_free_page(GFP_NOIO);
2320
	if (!p) {
2321
		dev_err(DEV, "failed to allocate one page buffer in %s\n", __func__);
2322
		return false;
2323
	}
2324

2325
	if (get_ldev(mdev)) {
2326
		if (drbd_md_test_flag(mdev->ldev, MDF_FULL_SYNC)) {
2327
			dev_info(DEV, "Writing the whole bitmap, MDF_FullSync was set.\n");
2328
			drbd_bm_set_all(mdev);
2329
			if (drbd_bm_write(mdev)) {
2330
				/* write_bm did fail! Leave full sync flag set in Meta P_DATA
2331
				 * but otherwise process as per normal - need to tell other
2332
				 * side that a full resync is required! */
2333
				dev_err(DEV, "Failed to write bitmap to disk!\n");
2334
			} else {
2335
				drbd_md_clear_flag(mdev, MDF_FULL_SYNC);
2336
				drbd_md_sync(mdev);
2337
			}
2338
		}
2339
		put_ldev(mdev);
2340
	}
2341

2342
	c = (struct bm_xfer_ctx) {
2343
		.bm_bits = drbd_bm_bits(mdev),
2344
		.bm_words = drbd_bm_words(mdev),
2345
	};
2346

2347
	do {
2348
		err = send_bitmap_rle_or_plain(mdev, p, &c);
2349
	} while (err > 0);
2350

2351
	free_page((unsigned long) p);
2352
	return err == 0;
2353
}
2354

2355
int drbd_send_bitmap(struct drbd_conf *mdev)
2356
{
2357
	int err;
2358

2359
	if (!drbd_get_data_sock(mdev))
2360
		return -1;
2361
	err = !_drbd_send_bitmap(mdev);
2362
	drbd_put_data_sock(mdev);
2363
	return err;
2364
}
2365

2366
int drbd_send_b_ack(struct drbd_conf *mdev, u32 barrier_nr, u32 set_size)
2367
{
2368
	int ok;
2369
	struct p_barrier_ack p;
2370

2371
	p.barrier  = barrier_nr;
2372
	p.set_size = cpu_to_be32(set_size);
2373

2374
	if (mdev->state.conn < C_CONNECTED)
2375
		return false;
2376
	ok = drbd_send_cmd(mdev, USE_META_SOCKET, P_BARRIER_ACK,
2377
			(struct p_header80 *)&p, sizeof(p));
2378
	return ok;
2379
}
2380

2381
/**
2382
 * _drbd_send_ack() - Sends an ack packet
2383
 * @mdev:	DRBD device.
2384
 * @cmd:	Packet command code.
2385
 * @sector:	sector, needs to be in big endian byte order
2386
 * @blksize:	size in byte, needs to be in big endian byte order
2387
 * @block_id:	Id, big endian byte order
2388
 */
2389
static int _drbd_send_ack(struct drbd_conf *mdev, enum drbd_packets cmd,
2390
			  u64 sector,
2391
			  u32 blksize,
2392
			  u64 block_id)
2393
{
2394
	int ok;
2395
	struct p_block_ack p;
2396

2397
	p.sector   = sector;
2398
	p.block_id = block_id;
2399
	p.blksize  = blksize;
2400
	p.seq_num  = cpu_to_be32(atomic_add_return(1, &mdev->packet_seq));
2401

2402
	if (!mdev->meta.socket || mdev->state.conn < C_CONNECTED)
2403
		return false;
2404
	ok = drbd_send_cmd(mdev, USE_META_SOCKET, cmd,
2405
				(struct p_header80 *)&p, sizeof(p));
2406
	return ok;
2407
}
2408

2409
/* dp->sector and dp->block_id already/still in network byte order,
2410
 * data_size is payload size according to dp->head,
2411
 * and may need to be corrected for digest size. */
2412
int drbd_send_ack_dp(struct drbd_conf *mdev, enum drbd_packets cmd,
2413
		     struct p_data *dp, int data_size)
2414
{
2415
	data_size -= (mdev->agreed_pro_version >= 87 && mdev->integrity_r_tfm) ?
2416
		crypto_hash_digestsize(mdev->integrity_r_tfm) : 0;
2417
	return _drbd_send_ack(mdev, cmd, dp->sector, cpu_to_be32(data_size),
2418
			      dp->block_id);
2419
}
2420

2421
int drbd_send_ack_rp(struct drbd_conf *mdev, enum drbd_packets cmd,
2422
		     struct p_block_req *rp)
2423
{
2424
	return _drbd_send_ack(mdev, cmd, rp->sector, rp->blksize, rp->block_id);
2425
}
2426

2427
/**
2428
 * drbd_send_ack() - Sends an ack packet
2429
 * @mdev:	DRBD device.
2430
 * @cmd:	Packet command code.
2431
 * @e:		Epoch entry.
2432
 */
2433
int drbd_send_ack(struct drbd_conf *mdev,
2434
	enum drbd_packets cmd, struct drbd_epoch_entry *e)
2435
{
2436
	return _drbd_send_ack(mdev, cmd,
2437
			      cpu_to_be64(e->sector),
2438
			      cpu_to_be32(e->size),
2439
			      e->block_id);
2440
}
2441

2442
/* This function misuses the block_id field to signal if the blocks
2443
 * are is sync or not. */
2444
int drbd_send_ack_ex(struct drbd_conf *mdev, enum drbd_packets cmd,
2445
		     sector_t sector, int blksize, u64 block_id)
2446
{
2447
	return _drbd_send_ack(mdev, cmd,
2448
			      cpu_to_be64(sector),
2449
			      cpu_to_be32(blksize),
2450
			      cpu_to_be64(block_id));
2451
}
2452

2453
int drbd_send_drequest(struct drbd_conf *mdev, int cmd,
2454
		       sector_t sector, int size, u64 block_id)
2455
{
2456
	int ok;
2457
	struct p_block_req p;
2458

2459
	p.sector   = cpu_to_be64(sector);
2460
	p.block_id = block_id;
2461
	p.blksize  = cpu_to_be32(size);
2462

2463
	ok = drbd_send_cmd(mdev, USE_DATA_SOCKET, cmd,
2464
				(struct p_header80 *)&p, sizeof(p));
2465
	return ok;
2466
}
2467

2468
int drbd_send_drequest_csum(struct drbd_conf *mdev,
2469
			    sector_t sector, int size,
2470
			    void *digest, int digest_size,
2471
			    enum drbd_packets cmd)
2472
{
2473
	int ok;
2474
	struct p_block_req p;
2475

2476
	p.sector   = cpu_to_be64(sector);
2477
	p.block_id = BE_DRBD_MAGIC + 0xbeef;
2478
	p.blksize  = cpu_to_be32(size);
2479

2480
	p.head.magic   = BE_DRBD_MAGIC;
2481
	p.head.command = cpu_to_be16(cmd);
2482
	p.head.length  = cpu_to_be16(sizeof(p) - sizeof(struct p_header80) + digest_size);
2483

2484
	mutex_lock(&mdev->data.mutex);
2485

2486
	ok = (sizeof(p) == drbd_send(mdev, mdev->data.socket, &p, sizeof(p), 0));
2487
	ok = ok && (digest_size == drbd_send(mdev, mdev->data.socket, digest, digest_size, 0));
2488

2489
	mutex_unlock(&mdev->data.mutex);
2490

2491
	return ok;
2492
}
2493

2494
int drbd_send_ov_request(struct drbd_conf *mdev, sector_t sector, int size)
2495
{
2496
	int ok;
2497
	struct p_block_req p;
2498

2499
	p.sector   = cpu_to_be64(sector);
2500
	p.block_id = BE_DRBD_MAGIC + 0xbabe;
2501
	p.blksize  = cpu_to_be32(size);
2502

2503
	ok = drbd_send_cmd(mdev, USE_DATA_SOCKET, P_OV_REQUEST,
2504
			   (struct p_header80 *)&p, sizeof(p));
2505
	return ok;
2506
}
2507

2508
/* called on sndtimeo
2509
 * returns false if we should retry,
2510
 * true if we think connection is dead
2511
 */
2512
static int we_should_drop_the_connection(struct drbd_conf *mdev, struct socket *sock)
2513
{
2514
	int drop_it;
2515
	/* long elapsed = (long)(jiffies - mdev->last_received); */
2516

2517
	drop_it =   mdev->meta.socket == sock
2518
		|| !mdev->asender.task
2519
		|| get_t_state(&mdev->asender) != Running
2520
		|| mdev->state.conn < C_CONNECTED;
2521

2522
	if (drop_it)
2523
		return true;
2524

2525
	drop_it = !--mdev->ko_count;
2526
	if (!drop_it) {
2527
		dev_err(DEV, "[%s/%d] sock_sendmsg time expired, ko = %u\n",
2528
		       current->comm, current->pid, mdev->ko_count);
2529
		request_ping(mdev);
2530
	}
2531

2532
	return drop_it; /* && (mdev->state == R_PRIMARY) */;
2533
}
2534

2535
/* The idea of sendpage seems to be to put some kind of reference
2536
 * to the page into the skb, and to hand it over to the NIC. In
2537
 * this process get_page() gets called.
2538
 *
2539
 * As soon as the page was really sent over the network put_page()
2540
 * gets called by some part of the network layer. [ NIC driver? ]
2541
 *
2542
 * [ get_page() / put_page() increment/decrement the count. If count
2543
 *   reaches 0 the page will be freed. ]
2544
 *
2545
 * This works nicely with pages from FSs.
2546
 * But this means that in protocol A we might signal IO completion too early!
2547
 *
2548
 * In order not to corrupt data during a resync we must make sure
2549
 * that we do not reuse our own buffer pages (EEs) to early, therefore
2550
 * we have the net_ee list.
2551
 *
2552
 * XFS seems to have problems, still, it submits pages with page_count == 0!
2553
 * As a workaround, we disable sendpage on pages
2554
 * with page_count == 0 or PageSlab.
2555
 */
2556
static int _drbd_no_send_page(struct drbd_conf *mdev, struct page *page,
2557
		   int offset, size_t size, unsigned msg_flags)
2558
{
2559
	int sent = drbd_send(mdev, mdev->data.socket, kmap(page) + offset, size, msg_flags);
2560
	kunmap(page);
2561
	if (sent == size)
2562
		mdev->send_cnt += size>>9;
2563
	return sent == size;
2564
}
2565

2566
static int _drbd_send_page(struct drbd_conf *mdev, struct page *page,
2567
		    int offset, size_t size, unsigned msg_flags)
2568
{
2569
	mm_segment_t oldfs = get_fs();
2570
	int sent, ok;
2571
	int len = size;
2572

2573
	/* e.g. XFS meta- & log-data is in slab pages, which have a
2574
	 * page_count of 0 and/or have PageSlab() set.
2575
	 * we cannot use send_page for those, as that does get_page();
2576
	 * put_page(); and would cause either a VM_BUG directly, or
2577
	 * __page_cache_release a page that would actually still be referenced
2578
	 * by someone, leading to some obscure delayed Oops somewhere else. */
2579
	if (disable_sendpage || (page_count(page) < 1) || PageSlab(page))
2580
		return _drbd_no_send_page(mdev, page, offset, size, msg_flags);
2581

2582
	msg_flags |= MSG_NOSIGNAL;
2583
	drbd_update_congested(mdev);
2584
	set_fs(KERNEL_DS);
2585
	do {
2586
		sent = mdev->data.socket->ops->sendpage(mdev->data.socket, page,
2587
							offset, len,
2588
							msg_flags);
2589
		if (sent == -EAGAIN) {
2590
			if (we_should_drop_the_connection(mdev,
2591
							  mdev->data.socket))
2592
				break;
2593
			else
2594
				continue;
2595
		}
2596
		if (sent <= 0) {
2597
			dev_warn(DEV, "%s: size=%d len=%d sent=%d\n",
2598
			     __func__, (int)size, len, sent);
2599
			break;
2600
		}
2601
		len    -= sent;
2602
		offset += sent;
2603
	} while (len > 0 /* THINK && mdev->cstate >= C_CONNECTED*/);
2604
	set_fs(oldfs);
2605
	clear_bit(NET_CONGESTED, &mdev->flags);
2606

2607
	ok = (len == 0);
2608
	if (likely(ok))
2609
		mdev->send_cnt += size>>9;
2610
	return ok;
2611
}
2612

2613
static int _drbd_send_bio(struct drbd_conf *mdev, struct bio *bio)
2614
{
2615
	struct bio_vec *bvec;
2616
	int i;
2617
	/* hint all but last page with MSG_MORE */
2618
	__bio_for_each_segment(bvec, bio, i, 0) {
2619
		if (!_drbd_no_send_page(mdev, bvec->bv_page,
2620
				     bvec->bv_offset, bvec->bv_len,
2621
				     i == bio->bi_vcnt -1 ? 0 : MSG_MORE))
2622
			return 0;
2623
	}
2624
	return 1;
2625
}
2626

2627
static int _drbd_send_zc_bio(struct drbd_conf *mdev, struct bio *bio)
2628
{
2629
	struct bio_vec *bvec;
2630
	int i;
2631
	/* hint all but last page with MSG_MORE */
2632
	__bio_for_each_segment(bvec, bio, i, 0) {
2633
		if (!_drbd_send_page(mdev, bvec->bv_page,
2634
				     bvec->bv_offset, bvec->bv_len,
2635
				     i == bio->bi_vcnt -1 ? 0 : MSG_MORE))
2636
			return 0;
2637
	}
2638
	return 1;
2639
}
2640

2641
static int _drbd_send_zc_ee(struct drbd_conf *mdev, struct drbd_epoch_entry *e)
2642
{
2643
	struct page *page = e->pages;
2644
	unsigned len = e->size;
2645
	/* hint all but last page with MSG_MORE */
2646
	page_chain_for_each(page) {
2647
		unsigned l = min_t(unsigned, len, PAGE_SIZE);
2648
		if (!_drbd_send_page(mdev, page, 0, l,
2649
				page_chain_next(page) ? MSG_MORE : 0))
2650
			return 0;
2651
		len -= l;
2652
	}
2653
	return 1;
2654
}
2655

2656
static u32 bio_flags_to_wire(struct drbd_conf *mdev, unsigned long bi_rw)
2657
{
2658
	if (mdev->agreed_pro_version >= 95)
2659
		return  (bi_rw & REQ_SYNC ? DP_RW_SYNC : 0) |
2660
			(bi_rw & REQ_FUA ? DP_FUA : 0) |
2661
			(bi_rw & REQ_FLUSH ? DP_FLUSH : 0) |
2662
			(bi_rw & REQ_DISCARD ? DP_DISCARD : 0);
2663
	else
2664
		return bi_rw & REQ_SYNC ? DP_RW_SYNC : 0;
2665
}
2666

2667
/* Used to send write requests
2668
 * R_PRIMARY -> Peer	(P_DATA)
2669
 */
2670
int drbd_send_dblock(struct drbd_conf *mdev, struct drbd_request *req)
2671
{
2672
	int ok = 1;
2673
	struct p_data p;
2674
	unsigned int dp_flags = 0;
2675
	void *dgb;
2676
	int dgs;
2677

2678
	if (!drbd_get_data_sock(mdev))
2679
		return 0;
2680

2681
	dgs = (mdev->agreed_pro_version >= 87 && mdev->integrity_w_tfm) ?
2682
		crypto_hash_digestsize(mdev->integrity_w_tfm) : 0;
2683

2684
	if (req->size <= DRBD_MAX_SIZE_H80_PACKET) {
2685
		p.head.h80.magic   = BE_DRBD_MAGIC;
2686
		p.head.h80.command = cpu_to_be16(P_DATA);
2687
		p.head.h80.length  =
2688
			cpu_to_be16(sizeof(p) - sizeof(union p_header) + dgs + req->size);
2689
	} else {
2690
		p.head.h95.magic   = BE_DRBD_MAGIC_BIG;
2691
		p.head.h95.command = cpu_to_be16(P_DATA);
2692
		p.head.h95.length  =
2693
			cpu_to_be32(sizeof(p) - sizeof(union p_header) + dgs + req->size);
2694
	}
2695

2696
	p.sector   = cpu_to_be64(req->sector);
2697
	p.block_id = (unsigned long)req;
2698
	p.seq_num  = cpu_to_be32(req->seq_num =
2699
				 atomic_add_return(1, &mdev->packet_seq));
2700

2701
	dp_flags = bio_flags_to_wire(mdev, req->master_bio->bi_rw);
2702

2703
	if (mdev->state.conn >= C_SYNC_SOURCE &&
2704
	    mdev->state.conn <= C_PAUSED_SYNC_T)
2705
		dp_flags |= DP_MAY_SET_IN_SYNC;
2706

2707
	p.dp_flags = cpu_to_be32(dp_flags);
2708
	set_bit(UNPLUG_REMOTE, &mdev->flags);
2709
	ok = (sizeof(p) ==
2710
		drbd_send(mdev, mdev->data.socket, &p, sizeof(p), dgs ? MSG_MORE : 0));
2711
	if (ok && dgs) {
2712
		dgb = mdev->int_dig_out;
2713
		drbd_csum_bio(mdev, mdev->integrity_w_tfm, req->master_bio, dgb);
2714
		ok = dgs == drbd_send(mdev, mdev->data.socket, dgb, dgs, 0);
2715
	}
2716
	if (ok) {
2717
		/* For protocol A, we have to memcpy the payload into
2718
		 * socket buffers, as we may complete right away
2719
		 * as soon as we handed it over to tcp, at which point the data
2720
		 * pages may become invalid.
2721
		 *
2722
		 * For data-integrity enabled, we copy it as well, so we can be
2723
		 * sure that even if the bio pages may still be modified, it
2724
		 * won't change the data on the wire, thus if the digest checks
2725
		 * out ok after sending on this side, but does not fit on the
2726
		 * receiving side, we sure have detected corruption elsewhere.
2727
		 */
2728
		if (mdev->net_conf->wire_protocol == DRBD_PROT_A || dgs)
2729
			ok = _drbd_send_bio(mdev, req->master_bio);
2730
		else
2731
			ok = _drbd_send_zc_bio(mdev, req->master_bio);
2732

2733
		/* double check digest, sometimes buffers have been modified in flight. */
2734
		if (dgs > 0 && dgs <= 64) {
2735
			/* 64 byte, 512 bit, is the largest digest size
2736
			 * currently supported in kernel crypto. */
2737
			unsigned char digest[64];
2738
			drbd_csum_bio(mdev, mdev->integrity_w_tfm, req->master_bio, digest);
2739
			if (memcmp(mdev->int_dig_out, digest, dgs)) {
2740
				dev_warn(DEV,
2741
					"Digest mismatch, buffer modified by upper layers during write: %llus +%u\n",
2742
					(unsigned long long)req->sector, req->size);
2743
			}
2744
		} /* else if (dgs > 64) {
2745
		     ... Be noisy about digest too large ...
2746
		} */
2747
	}
2748

2749
	drbd_put_data_sock(mdev);
2750

2751
	return ok;
2752
}
2753

2754
/* answer packet, used to send data back for read requests:
2755
 *  Peer       -> (diskless) R_PRIMARY   (P_DATA_REPLY)
2756
 *  C_SYNC_SOURCE -> C_SYNC_TARGET         (P_RS_DATA_REPLY)
2757
 */
2758
int drbd_send_block(struct drbd_conf *mdev, enum drbd_packets cmd,
2759
		    struct drbd_epoch_entry *e)
2760
{
2761
	int ok;
2762
	struct p_data p;
2763
	void *dgb;
2764
	int dgs;
2765

2766
	dgs = (mdev->agreed_pro_version >= 87 && mdev->integrity_w_tfm) ?
2767
		crypto_hash_digestsize(mdev->integrity_w_tfm) : 0;
2768

2769
	if (e->size <= DRBD_MAX_SIZE_H80_PACKET) {
2770
		p.head.h80.magic   = BE_DRBD_MAGIC;
2771
		p.head.h80.command = cpu_to_be16(cmd);
2772
		p.head.h80.length  =
2773
			cpu_to_be16(sizeof(p) - sizeof(struct p_header80) + dgs + e->size);
2774
	} else {
2775
		p.head.h95.magic   = BE_DRBD_MAGIC_BIG;
2776
		p.head.h95.command = cpu_to_be16(cmd);
2777
		p.head.h95.length  =
2778
			cpu_to_be32(sizeof(p) - sizeof(struct p_header80) + dgs + e->size);
2779
	}
2780

2781
	p.sector   = cpu_to_be64(e->sector);
2782
	p.block_id = e->block_id;
2783
	/* p.seq_num  = 0;    No sequence numbers here.. */
2784

2785
	/* Only called by our kernel thread.
2786
	 * This one may be interrupted by DRBD_SIG and/or DRBD_SIGKILL
2787
	 * in response to admin command or module unload.
2788
	 */
2789
	if (!drbd_get_data_sock(mdev))
2790
		return 0;
2791

2792
	ok = sizeof(p) == drbd_send(mdev, mdev->data.socket, &p, sizeof(p), dgs ? MSG_MORE : 0);
2793
	if (ok && dgs) {
2794
		dgb = mdev->int_dig_out;
2795
		drbd_csum_ee(mdev, mdev->integrity_w_tfm, e, dgb);
2796
		ok = dgs == drbd_send(mdev, mdev->data.socket, dgb, dgs, 0);
2797
	}
2798
	if (ok)
2799
		ok = _drbd_send_zc_ee(mdev, e);
2800

2801
	drbd_put_data_sock(mdev);
2802

2803
	return ok;
2804
}
2805

2806
int drbd_send_oos(struct drbd_conf *mdev, struct drbd_request *req)
2807
{
2808
	struct p_block_desc p;
2809

2810
	p.sector  = cpu_to_be64(req->sector);
2811
	p.blksize = cpu_to_be32(req->size);
2812

2813
	return drbd_send_cmd(mdev, USE_DATA_SOCKET, P_OUT_OF_SYNC, &p.head, sizeof(p));
2814
}
2815

2816
/*
2817
  drbd_send distinguishes two cases:
2818

2819
  Packets sent via the data socket "sock"
2820
  and packets sent via the meta data socket "msock"
2821

2822
		    sock                      msock
2823
  -----------------+-------------------------+------------------------------
2824
  timeout           conf.timeout / 2          conf.timeout / 2
2825
  timeout action    send a ping via msock     Abort communication
2826
					      and close all sockets
2827
*/
2828

2829
/*
2830
 * you must have down()ed the appropriate [m]sock_mutex elsewhere!
2831
 */
2832
int drbd_send(struct drbd_conf *mdev, struct socket *sock,
2833
	      void *buf, size_t size, unsigned msg_flags)
2834
{
2835
	struct kvec iov;
2836
	struct msghdr msg;
2837
	int rv, sent = 0;
2838

2839
	if (!sock)
2840
		return -1000;
2841

2842
	/* THINK  if (signal_pending) return ... ? */
2843

2844
	iov.iov_base = buf;
2845
	iov.iov_len  = size;
2846

2847
	msg.msg_name       = NULL;
2848
	msg.msg_namelen    = 0;
2849
	msg.msg_control    = NULL;
2850
	msg.msg_controllen = 0;
2851
	msg.msg_flags      = msg_flags | MSG_NOSIGNAL;
2852

2853
	if (sock == mdev->data.socket) {
2854
		mdev->ko_count = mdev->net_conf->ko_count;
2855
		drbd_update_congested(mdev);
2856
	}
2857
	do {
2858
		/* STRANGE
2859
		 * tcp_sendmsg does _not_ use its size parameter at all ?
2860
		 *
2861
		 * -EAGAIN on timeout, -EINTR on signal.
2862
		 */
2863
/* THINK
2864
 * do we need to block DRBD_SIG if sock == &meta.socket ??
2865
 * otherwise wake_asender() might interrupt some send_*Ack !
2866
 */
2867
		rv = kernel_sendmsg(sock, &msg, &iov, 1, size);
2868
		if (rv == -EAGAIN) {
2869
			if (we_should_drop_the_connection(mdev, sock))
2870
				break;
2871
			else
2872
				continue;
2873
		}
2874
		D_ASSERT(rv != 0);
2875
		if (rv == -EINTR) {
2876
			flush_signals(current);
2877
			rv = 0;
2878
		}
2879
		if (rv < 0)
2880
			break;
2881
		sent += rv;
2882
		iov.iov_base += rv;
2883
		iov.iov_len  -= rv;
2884
	} while (sent < size);
2885

2886
	if (sock == mdev->data.socket)
2887
		clear_bit(NET_CONGESTED, &mdev->flags);
2888

2889
	if (rv <= 0) {
2890
		if (rv != -EAGAIN) {
2891
			dev_err(DEV, "%s_sendmsg returned %d\n",
2892
			    sock == mdev->meta.socket ? "msock" : "sock",
2893
			    rv);
2894
			drbd_force_state(mdev, NS(conn, C_BROKEN_PIPE));
2895
		} else
2896
			drbd_force_state(mdev, NS(conn, C_TIMEOUT));
2897
	}
2898

2899
	return sent;
2900
}
2901

2902
static int drbd_open(struct block_device *bdev, fmode_t mode)
2903
{
2904
	struct drbd_conf *mdev = bdev->bd_disk->private_data;
2905
	unsigned long flags;
2906
	int rv = 0;
2907

2908
	mutex_lock(&drbd_main_mutex);
2909
	spin_lock_irqsave(&mdev->req_lock, flags);
2910
	/* to have a stable mdev->state.role
2911
	 * and no race with updating open_cnt */
2912

2913
	if (mdev->state.role != R_PRIMARY) {
2914
		if (mode & FMODE_WRITE)
2915
			rv = -EROFS;
2916
		else if (!allow_oos)
2917
			rv = -EMEDIUMTYPE;
2918
	}
2919

2920
	if (!rv)
2921
		mdev->open_cnt++;
2922
	spin_unlock_irqrestore(&mdev->req_lock, flags);
2923
	mutex_unlock(&drbd_main_mutex);
2924

2925
	return rv;
2926
}
2927

2928
static int drbd_release(struct gendisk *gd, fmode_t mode)
2929
{
2930
	struct drbd_conf *mdev = gd->private_data;
2931
	mutex_lock(&drbd_main_mutex);
2932
	mdev->open_cnt--;
2933
	mutex_unlock(&drbd_main_mutex);
2934
	return 0;
2935
}
2936

2937
static void drbd_set_defaults(struct drbd_conf *mdev)
2938
{
2939
	/* This way we get a compile error when sync_conf grows,
2940
	   and we forgot to initialize it here */
2941
	mdev->sync_conf = (struct syncer_conf) {
2942
		/* .rate = */		DRBD_RATE_DEF,
2943
		/* .after = */		DRBD_AFTER_DEF,
2944
		/* .al_extents = */	DRBD_AL_EXTENTS_DEF,
2945
		/* .verify_alg = */	{}, 0,
2946
		/* .cpu_mask = */	{}, 0,
2947
		/* .csums_alg = */	{}, 0,
2948
		/* .use_rle = */	0,
2949
		/* .on_no_data = */	DRBD_ON_NO_DATA_DEF,
2950
		/* .c_plan_ahead = */	DRBD_C_PLAN_AHEAD_DEF,
2951
		/* .c_delay_target = */	DRBD_C_DELAY_TARGET_DEF,
2952
		/* .c_fill_target = */	DRBD_C_FILL_TARGET_DEF,
2953
		/* .c_max_rate = */	DRBD_C_MAX_RATE_DEF,
2954
		/* .c_min_rate = */	DRBD_C_MIN_RATE_DEF
2955
	};
2956

2957
	/* Have to use that way, because the layout differs between
2958
	   big endian and little endian */
2959
	mdev->state = (union drbd_state) {
2960
		{ .role = R_SECONDARY,
2961
		  .peer = R_UNKNOWN,
2962
		  .conn = C_STANDALONE,
2963
		  .disk = D_DISKLESS,
2964
		  .pdsk = D_UNKNOWN,
2965
		  .susp = 0,
2966
		  .susp_nod = 0,
2967
		  .susp_fen = 0
2968
		} };
2969
}
2970

2971
void drbd_init_set_defaults(struct drbd_conf *mdev)
2972
{
2973
	/* the memset(,0,) did most of this.
2974
	 * note: only assignments, no allocation in here */
2975

2976
	drbd_set_defaults(mdev);
2977

2978
	atomic_set(&mdev->ap_bio_cnt, 0);
2979
	atomic_set(&mdev->ap_pending_cnt, 0);
2980
	atomic_set(&mdev->rs_pending_cnt, 0);
2981
	atomic_set(&mdev->unacked_cnt, 0);
2982
	atomic_set(&mdev->local_cnt, 0);
2983
	atomic_set(&mdev->net_cnt, 0);
2984
	atomic_set(&mdev->packet_seq, 0);
2985
	atomic_set(&mdev->pp_in_use, 0);
2986
	atomic_set(&mdev->pp_in_use_by_net, 0);
2987
	atomic_set(&mdev->rs_sect_in, 0);
2988
	atomic_set(&mdev->rs_sect_ev, 0);
2989
	atomic_set(&mdev->ap_in_flight, 0);
2990

2991
	mutex_init(&mdev->md_io_mutex);
2992
	mutex_init(&mdev->data.mutex);
2993
	mutex_init(&mdev->meta.mutex);
2994
	sema_init(&mdev->data.work.s, 0);
2995
	sema_init(&mdev->meta.work.s, 0);
2996
	mutex_init(&mdev->state_mutex);
2997

2998
	spin_lock_init(&mdev->data.work.q_lock);
2999
	spin_lock_init(&mdev->meta.work.q_lock);
3000

3001
	spin_lock_init(&mdev->al_lock);
3002
	spin_lock_init(&mdev->req_lock);
3003
	spin_lock_init(&mdev->peer_seq_lock);
3004
	spin_lock_init(&mdev->epoch_lock);
3005

3006
	INIT_LIST_HEAD(&mdev->active_ee);
3007
	INIT_LIST_HEAD(&mdev->sync_ee);
3008
	INIT_LIST_HEAD(&mdev->done_ee);
3009
	INIT_LIST_HEAD(&mdev->read_ee);
3010
	INIT_LIST_HEAD(&mdev->net_ee);
3011
	INIT_LIST_HEAD(&mdev->resync_reads);
3012
	INIT_LIST_HEAD(&mdev->data.work.q);
3013
	INIT_LIST_HEAD(&mdev->meta.work.q);
3014
	INIT_LIST_HEAD(&mdev->resync_work.list);
3015
	INIT_LIST_HEAD(&mdev->unplug_work.list);
3016
	INIT_LIST_HEAD(&mdev->go_diskless.list);
3017
	INIT_LIST_HEAD(&mdev->md_sync_work.list);
3018
	INIT_LIST_HEAD(&mdev->start_resync_work.list);
3019
	INIT_LIST_HEAD(&mdev->bm_io_work.w.list);
3020

3021
	mdev->resync_work.cb  = w_resync_timer;
3022
	mdev->unplug_work.cb  = w_send_write_hint;
3023
	mdev->go_diskless.cb  = w_go_diskless;
3024
	mdev->md_sync_work.cb = w_md_sync;
3025
	mdev->bm_io_work.w.cb = w_bitmap_io;
3026
	mdev->start_resync_work.cb = w_start_resync;
3027
	init_timer(&mdev->resync_timer);
3028
	init_timer(&mdev->md_sync_timer);
3029
	init_timer(&mdev->start_resync_timer);
3030
	init_timer(&mdev->request_timer);
3031
	mdev->resync_timer.function = resync_timer_fn;
3032
	mdev->resync_timer.data = (unsigned long) mdev;
3033
	mdev->md_sync_timer.function = md_sync_timer_fn;
3034
	mdev->md_sync_timer.data = (unsigned long) mdev;
3035
	mdev->start_resync_timer.function = start_resync_timer_fn;
3036
	mdev->start_resync_timer.data = (unsigned long) mdev;
3037
	mdev->request_timer.function = request_timer_fn;
3038
	mdev->request_timer.data = (unsigned long) mdev;
3039

3040
	init_waitqueue_head(&mdev->misc_wait);
3041
	init_waitqueue_head(&mdev->state_wait);
3042
	init_waitqueue_head(&mdev->net_cnt_wait);
3043
	init_waitqueue_head(&mdev->ee_wait);
3044
	init_waitqueue_head(&mdev->al_wait);
3045
	init_waitqueue_head(&mdev->seq_wait);
3046

3047
	drbd_thread_init(mdev, &mdev->receiver, drbdd_init);
3048
	drbd_thread_init(mdev, &mdev->worker, drbd_worker);
3049
	drbd_thread_init(mdev, &mdev->asender, drbd_asender);
3050

3051
	mdev->agreed_pro_version = PRO_VERSION_MAX;
3052
	mdev->write_ordering = WO_bdev_flush;
3053
	mdev->resync_wenr = LC_FREE;
3054
	mdev->peer_max_bio_size = DRBD_MAX_BIO_SIZE_SAFE;
3055
	mdev->local_max_bio_size = DRBD_MAX_BIO_SIZE_SAFE;
3056
}
3057

3058
void drbd_mdev_cleanup(struct drbd_conf *mdev)
3059
{
3060
	int i;
3061
	if (mdev->receiver.t_state != None)
3062
		dev_err(DEV, "ASSERT FAILED: receiver t_state == %d expected 0.\n",
3063
				mdev->receiver.t_state);
3064

3065
	/* no need to lock it, I'm the only thread alive */
3066
	if (atomic_read(&mdev->current_epoch->epoch_size) !=  0)
3067
		dev_err(DEV, "epoch_size:%d\n", atomic_read(&mdev->current_epoch->epoch_size));
3068
	mdev->al_writ_cnt  =
3069
	mdev->bm_writ_cnt  =
3070
	mdev->read_cnt     =
3071
	mdev->recv_cnt     =
3072
	mdev->send_cnt     =
3073
	mdev->writ_cnt     =
3074
	mdev->p_size       =
3075
	mdev->rs_start     =
3076
	mdev->rs_total     =
3077
	mdev->rs_failed    = 0;
3078
	mdev->rs_last_events = 0;
3079
	mdev->rs_last_sect_ev = 0;
3080
	for (i = 0; i < DRBD_SYNC_MARKS; i++) {
3081
		mdev->rs_mark_left[i] = 0;
3082
		mdev->rs_mark_time[i] = 0;
3083
	}
3084
	D_ASSERT(mdev->net_conf == NULL);
3085

3086
	drbd_set_my_capacity(mdev, 0);
3087
	if (mdev->bitmap) {
3088
		/* maybe never allocated. */
3089
		drbd_bm_resize(mdev, 0, 1);
3090
		drbd_bm_cleanup(mdev);
3091
	}
3092

3093
	drbd_free_resources(mdev);
3094
	clear_bit(AL_SUSPENDED, &mdev->flags);
3095

3096
	/*
3097
	 * currently we drbd_init_ee only on module load, so
3098
	 * we may do drbd_release_ee only on module unload!
3099
	 */
3100
	D_ASSERT(list_empty(&mdev->active_ee));
3101
	D_ASSERT(list_empty(&mdev->sync_ee));
3102
	D_ASSERT(list_empty(&mdev->done_ee));
3103
	D_ASSERT(list_empty(&mdev->read_ee));
3104
	D_ASSERT(list_empty(&mdev->net_ee));
3105
	D_ASSERT(list_empty(&mdev->resync_reads));
3106
	D_ASSERT(list_empty(&mdev->data.work.q));
3107
	D_ASSERT(list_empty(&mdev->meta.work.q));
3108
	D_ASSERT(list_empty(&mdev->resync_work.list));
3109
	D_ASSERT(list_empty(&mdev->unplug_work.list));
3110
	D_ASSERT(list_empty(&mdev->go_diskless.list));
3111

3112
	drbd_set_defaults(mdev);
3113
}
3114

3115

3116
static void drbd_destroy_mempools(void)
3117
{
3118
	struct page *page;
3119

3120
	while (drbd_pp_pool) {
3121
		page = drbd_pp_pool;
3122
		drbd_pp_pool = (struct page *)page_private(page);
3123
		__free_page(page);
3124
		drbd_pp_vacant--;
3125
	}
3126

3127
	/* D_ASSERT(atomic_read(&drbd_pp_vacant)==0); */
3128

3129
	if (drbd_ee_mempool)
3130
		mempool_destroy(drbd_ee_mempool);
3131
	if (drbd_request_mempool)
3132
		mempool_destroy(drbd_request_mempool);
3133
	if (drbd_ee_cache)
3134
		kmem_cache_destroy(drbd_ee_cache);
3135
	if (drbd_request_cache)
3136
		kmem_cache_destroy(drbd_request_cache);
3137
	if (drbd_bm_ext_cache)
3138
		kmem_cache_destroy(drbd_bm_ext_cache);
3139
	if (drbd_al_ext_cache)
3140
		kmem_cache_destroy(drbd_al_ext_cache);
3141

3142
	drbd_ee_mempool      = NULL;
3143
	drbd_request_mempool = NULL;
3144
	drbd_ee_cache        = NULL;
3145
	drbd_request_cache   = NULL;
3146
	drbd_bm_ext_cache    = NULL;
3147
	drbd_al_ext_cache    = NULL;
3148

3149
	return;
3150
}
3151

3152
static int drbd_create_mempools(void)
3153
{
3154
	struct page *page;
3155
	const int number = (DRBD_MAX_BIO_SIZE/PAGE_SIZE) * minor_count;
3156
	int i;
3157

3158
	/* prepare our caches and mempools */
3159
	drbd_request_mempool = NULL;
3160
	drbd_ee_cache        = NULL;
3161
	drbd_request_cache   = NULL;
3162
	drbd_bm_ext_cache    = NULL;
3163
	drbd_al_ext_cache    = NULL;
3164
	drbd_pp_pool         = NULL;
3165

3166
	/* caches */
3167
	drbd_request_cache = kmem_cache_create(
3168
		"drbd_req", sizeof(struct drbd_request), 0, 0, NULL);
3169
	if (drbd_request_cache == NULL)
3170
		goto Enomem;
3171

3172
	drbd_ee_cache = kmem_cache_create(
3173
		"drbd_ee", sizeof(struct drbd_epoch_entry), 0, 0, NULL);
3174
	if (drbd_ee_cache == NULL)
3175
		goto Enomem;
3176

3177
	drbd_bm_ext_cache = kmem_cache_create(
3178
		"drbd_bm", sizeof(struct bm_extent), 0, 0, NULL);
3179
	if (drbd_bm_ext_cache == NULL)
3180
		goto Enomem;
3181

3182
	drbd_al_ext_cache = kmem_cache_create(
3183
		"drbd_al", sizeof(struct lc_element), 0, 0, NULL);
3184
	if (drbd_al_ext_cache == NULL)
3185
		goto Enomem;
3186

3187
	/* mempools */
3188
	drbd_request_mempool = mempool_create(number,
3189
		mempool_alloc_slab, mempool_free_slab, drbd_request_cache);
3190
	if (drbd_request_mempool == NULL)
3191
		goto Enomem;
3192

3193
	drbd_ee_mempool = mempool_create(number,
3194
		mempool_alloc_slab, mempool_free_slab, drbd_ee_cache);
3195
	if (drbd_ee_mempool == NULL)
3196
		goto Enomem;
3197

3198
	/* drbd's page pool */
3199
	spin_lock_init(&drbd_pp_lock);
3200

3201
	for (i = 0; i < number; i++) {
3202
		page = alloc_page(GFP_HIGHUSER);
3203
		if (!page)
3204
			goto Enomem;
3205
		set_page_private(page, (unsigned long)drbd_pp_pool);
3206
		drbd_pp_pool = page;
3207
	}
3208
	drbd_pp_vacant = number;
3209

3210
	return 0;
3211

3212
Enomem:
3213
	drbd_destroy_mempools(); /* in case we allocated some */
3214
	return -ENOMEM;
3215
}
3216

3217
static int drbd_notify_sys(struct notifier_block *this, unsigned long code,
3218
	void *unused)
3219
{
3220
	/* just so we have it.  you never know what interesting things we
3221
	 * might want to do here some day...
3222
	 */
3223

3224
	return NOTIFY_DONE;
3225
}
3226

3227
static struct notifier_block drbd_notifier = {
3228
	.notifier_call = drbd_notify_sys,
3229
};
3230

3231
static void drbd_release_ee_lists(struct drbd_conf *mdev)
3232
{
3233
	int rr;
3234

3235
	rr = drbd_release_ee(mdev, &mdev->active_ee);
3236
	if (rr)
3237
		dev_err(DEV, "%d EEs in active list found!\n", rr);
3238

3239
	rr = drbd_release_ee(mdev, &mdev->sync_ee);
3240
	if (rr)
3241
		dev_err(DEV, "%d EEs in sync list found!\n", rr);
3242

3243
	rr = drbd_release_ee(mdev, &mdev->read_ee);
3244
	if (rr)
3245
		dev_err(DEV, "%d EEs in read list found!\n", rr);
3246

3247
	rr = drbd_release_ee(mdev, &mdev->done_ee);
3248
	if (rr)
3249
		dev_err(DEV, "%d EEs in done list found!\n", rr);
3250

3251
	rr = drbd_release_ee(mdev, &mdev->net_ee);
3252
	if (rr)
3253
		dev_err(DEV, "%d EEs in net list found!\n", rr);
3254
}
3255

3256
/* caution. no locking.
3257
 * currently only used from module cleanup code. */
3258
static void drbd_delete_device(unsigned int minor)
3259
{
3260
	struct drbd_conf *mdev = minor_to_mdev(minor);
3261

3262
	if (!mdev)
3263
		return;
3264

3265
	/* paranoia asserts */
3266
	if (mdev->open_cnt != 0)
3267
		dev_err(DEV, "open_cnt = %d in %s:%u", mdev->open_cnt,
3268
				__FILE__ , __LINE__);
3269

3270
	ERR_IF (!list_empty(&mdev->data.work.q)) {
3271
		struct list_head *lp;
3272
		list_for_each(lp, &mdev->data.work.q) {
3273
			dev_err(DEV, "lp = %p\n", lp);
3274
		}
3275
	};
3276
	/* end paranoia asserts */
3277

3278
	del_gendisk(mdev->vdisk);
3279

3280
	/* cleanup stuff that may have been allocated during
3281
	 * device (re-)configuration or state changes */
3282

3283
	if (mdev->this_bdev)
3284
		bdput(mdev->this_bdev);
3285

3286
	drbd_free_resources(mdev);
3287

3288
	drbd_release_ee_lists(mdev);
3289

3290
	/* should be freed on disconnect? */
3291
	kfree(mdev->ee_hash);
3292
	/*
3293
	mdev->ee_hash_s = 0;
3294
	mdev->ee_hash = NULL;
3295
	*/
3296

3297
	lc_destroy(mdev->act_log);
3298
	lc_destroy(mdev->resync);
3299

3300
	kfree(mdev->p_uuid);
3301
	/* mdev->p_uuid = NULL; */
3302

3303
	kfree(mdev->int_dig_out);
3304
	kfree(mdev->int_dig_in);
3305
	kfree(mdev->int_dig_vv);
3306

3307
	/* cleanup the rest that has been
3308
	 * allocated from drbd_new_device
3309
	 * and actually free the mdev itself */
3310
	drbd_free_mdev(mdev);
3311
}
3312

3313
static void drbd_cleanup(void)
3314
{
3315
	unsigned int i;
3316

3317
	unregister_reboot_notifier(&drbd_notifier);
3318

3319
	/* first remove proc,
3320
	 * drbdsetup uses it's presence to detect
3321
	 * whether DRBD is loaded.
3322
	 * If we would get stuck in proc removal,
3323
	 * but have netlink already deregistered,
3324
	 * some drbdsetup commands may wait forever
3325
	 * for an answer.
3326
	 */
3327
	if (drbd_proc)
3328
		remove_proc_entry("drbd", NULL);
3329

3330
	drbd_nl_cleanup();
3331

3332
	if (minor_table) {
3333
		i = minor_count;
3334
		while (i--)
3335
			drbd_delete_device(i);
3336
		drbd_destroy_mempools();
3337
	}
3338

3339
	kfree(minor_table);
3340

3341
	unregister_blkdev(DRBD_MAJOR, "drbd");
3342

3343
	printk(KERN_INFO "drbd: module cleanup done.\n");
3344
}
3345

3346
/**
3347
 * drbd_congested() - Callback for pdflush
3348
 * @congested_data:	User data
3349
 * @bdi_bits:		Bits pdflush is currently interested in
3350
 *
3351
 * Returns 1<<BDI_async_congested and/or 1<<BDI_sync_congested if we are congested.
3352
 */
3353
static int drbd_congested(void *congested_data, int bdi_bits)
3354
{
3355
	struct drbd_conf *mdev = congested_data;
3356
	struct request_queue *q;
3357
	char reason = '-';
3358
	int r = 0;
3359

3360
	if (!may_inc_ap_bio(mdev)) {
3361
		/* DRBD has frozen IO */
3362
		r = bdi_bits;
3363
		reason = 'd';
3364
		goto out;
3365
	}
3366

3367
	if (get_ldev(mdev)) {
3368
		q = bdev_get_queue(mdev->ldev->backing_bdev);
3369
		r = bdi_congested(&q->backing_dev_info, bdi_bits);
3370
		put_ldev(mdev);
3371
		if (r)
3372
			reason = 'b';
3373
	}
3374

3375
	if (bdi_bits & (1 << BDI_async_congested) && test_bit(NET_CONGESTED, &mdev->flags)) {
3376
		r |= (1 << BDI_async_congested);
3377
		reason = reason == 'b' ? 'a' : 'n';
3378
	}
3379

3380
out:
3381
	mdev->congestion_reason = reason;
3382
	return r;
3383
}
3384

3385
struct drbd_conf *drbd_new_device(unsigned int minor)
3386
{
3387
	struct drbd_conf *mdev;
3388
	struct gendisk *disk;
3389
	struct request_queue *q;
3390

3391
	/* GFP_KERNEL, we are outside of all write-out paths */
3392
	mdev = kzalloc(sizeof(struct drbd_conf), GFP_KERNEL);
3393
	if (!mdev)
3394
		return NULL;
3395
	if (!zalloc_cpumask_var(&mdev->cpu_mask, GFP_KERNEL))
3396
		goto out_no_cpumask;
3397

3398
	mdev->minor = minor;
3399

3400
	drbd_init_set_defaults(mdev);
3401

3402
	q = blk_alloc_queue(GFP_KERNEL);
3403
	if (!q)
3404
		goto out_no_q;
3405
	mdev->rq_queue = q;
3406
	q->queuedata   = mdev;
3407

3408
	disk = alloc_disk(1);
3409
	if (!disk)
3410
		goto out_no_disk;
3411
	mdev->vdisk = disk;
3412

3413
	set_disk_ro(disk, true);
3414

3415
	disk->queue = q;
3416
	disk->major = DRBD_MAJOR;
3417
	disk->first_minor = minor;
3418
	disk->fops = &drbd_ops;
3419
	sprintf(disk->disk_name, "drbd%d", minor);
3420
	disk->private_data = mdev;
3421

3422
	mdev->this_bdev = bdget(MKDEV(DRBD_MAJOR, minor));
3423
	/* we have no partitions. we contain only ourselves. */
3424
	mdev->this_bdev->bd_contains = mdev->this_bdev;
3425

3426
	q->backing_dev_info.congested_fn = drbd_congested;
3427
	q->backing_dev_info.congested_data = mdev;
3428

3429
	blk_queue_make_request(q, drbd_make_request);
3430
	/* Setting the max_hw_sectors to an odd value of 8kibyte here
3431
	   This triggers a max_bio_size message upon first attach or connect */
3432
	blk_queue_max_hw_sectors(q, DRBD_MAX_BIO_SIZE_SAFE >> 8);
3433
	blk_queue_bounce_limit(q, BLK_BOUNCE_ANY);
3434
	blk_queue_merge_bvec(q, drbd_merge_bvec);
3435
	q->queue_lock = &mdev->req_lock;
3436

3437
	mdev->md_io_page = alloc_page(GFP_KERNEL);
3438
	if (!mdev->md_io_page)
3439
		goto out_no_io_page;
3440

3441
	if (drbd_bm_init(mdev))
3442
		goto out_no_bitmap;
3443
	/* no need to lock access, we are still initializing this minor device. */
3444
	if (!tl_init(mdev))
3445
		goto out_no_tl;
3446

3447
	mdev->app_reads_hash = kzalloc(APP_R_HSIZE*sizeof(void *), GFP_KERNEL);
3448
	if (!mdev->app_reads_hash)
3449
		goto out_no_app_reads;
3450

3451
	mdev->current_epoch = kzalloc(sizeof(struct drbd_epoch), GFP_KERNEL);
3452
	if (!mdev->current_epoch)
3453
		goto out_no_epoch;
3454

3455
	INIT_LIST_HEAD(&mdev->current_epoch->list);
3456
	mdev->epochs = 1;
3457

3458
	return mdev;
3459

3460
/* out_whatever_else:
3461
	kfree(mdev->current_epoch); */
3462
out_no_epoch:
3463
	kfree(mdev->app_reads_hash);
3464
out_no_app_reads:
3465
	tl_cleanup(mdev);
3466
out_no_tl:
3467
	drbd_bm_cleanup(mdev);
3468
out_no_bitmap:
3469
	__free_page(mdev->md_io_page);
3470
out_no_io_page:
3471
	put_disk(disk);
3472
out_no_disk:
3473
	blk_cleanup_queue(q);
3474
out_no_q:
3475
	free_cpumask_var(mdev->cpu_mask);
3476
out_no_cpumask:
3477
	kfree(mdev);
3478
	return NULL;
3479
}
3480

3481
/* counterpart of drbd_new_device.
3482
 * last part of drbd_delete_device. */
3483
void drbd_free_mdev(struct drbd_conf *mdev)
3484
{
3485
	kfree(mdev->current_epoch);
3486
	kfree(mdev->app_reads_hash);
3487
	tl_cleanup(mdev);
3488
	if (mdev->bitmap) /* should no longer be there. */
3489
		drbd_bm_cleanup(mdev);
3490
	__free_page(mdev->md_io_page);
3491
	put_disk(mdev->vdisk);
3492
	blk_cleanup_queue(mdev->rq_queue);
3493
	free_cpumask_var(mdev->cpu_mask);
3494
	drbd_free_tl_hash(mdev);
3495
	kfree(mdev);
3496
}
3497

3498

3499
int __init drbd_init(void)
3500
{
3501
	int err;
3502

3503
	if (sizeof(struct p_handshake) != 80) {
3504
		printk(KERN_ERR
3505
		       "drbd: never change the size or layout "
3506
		       "of the HandShake packet.\n");
3507
		return -EINVAL;
3508
	}
3509

3510
	if (minor_count < DRBD_MINOR_COUNT_MIN || minor_count > DRBD_MINOR_COUNT_MAX) {
3511
		printk(KERN_ERR
3512
			"drbd: invalid minor_count (%d)\n", minor_count);
3513
#ifdef MODULE
3514
		return -EINVAL;
3515
#else
3516
		minor_count = 8;
3517
#endif
3518
	}
3519

3520
	err = drbd_nl_init();
3521
	if (err)
3522
		return err;
3523

3524
	err = register_blkdev(DRBD_MAJOR, "drbd");
3525
	if (err) {
3526
		printk(KERN_ERR
3527
		       "drbd: unable to register block device major %d\n",
3528
		       DRBD_MAJOR);
3529
		return err;
3530
	}
3531

3532
	register_reboot_notifier(&drbd_notifier);
3533

3534
	/*
3535
	 * allocate all necessary structs
3536
	 */
3537
	err = -ENOMEM;
3538

3539
	init_waitqueue_head(&drbd_pp_wait);
3540

3541
	drbd_proc = NULL; /* play safe for drbd_cleanup */
3542
	minor_table = kzalloc(sizeof(struct drbd_conf *)*minor_count,
3543
				GFP_KERNEL);
3544
	if (!minor_table)
3545
		goto Enomem;
3546

3547
	err = drbd_create_mempools();
3548
	if (err)
3549
		goto Enomem;
3550

3551
	drbd_proc = proc_create_data("drbd", S_IFREG | S_IRUGO , NULL, &drbd_proc_fops, NULL);
3552
	if (!drbd_proc)	{
3553
		printk(KERN_ERR "drbd: unable to register proc file\n");
3554
		goto Enomem;
3555
	}
3556

3557
	rwlock_init(&global_state_lock);
3558

3559
	printk(KERN_INFO "drbd: initialized. "
3560
	       "Version: " REL_VERSION " (api:%d/proto:%d-%d)\n",
3561
	       API_VERSION, PRO_VERSION_MIN, PRO_VERSION_MAX);
3562
	printk(KERN_INFO "drbd: %s\n", drbd_buildtag());
3563
	printk(KERN_INFO "drbd: registered as block device major %d\n",
3564
		DRBD_MAJOR);
3565
	printk(KERN_INFO "drbd: minor_table @ 0x%p\n", minor_table);
3566

3567
	return 0; /* Success! */
3568

3569
Enomem:
3570
	drbd_cleanup();
3571
	if (err == -ENOMEM)
3572
		/* currently always the case */
3573
		printk(KERN_ERR "drbd: ran out of memory\n");
3574
	else
3575
		printk(KERN_ERR "drbd: initialization failure\n");
3576
	return err;
3577
}
3578

3579
void drbd_free_bc(struct drbd_backing_dev *ldev)
3580
{
3581
	if (ldev == NULL)
3582
		return;
3583

3584
	blkdev_put(ldev->backing_bdev, FMODE_READ | FMODE_WRITE | FMODE_EXCL);
3585
	blkdev_put(ldev->md_bdev, FMODE_READ | FMODE_WRITE | FMODE_EXCL);
3586

3587
	kfree(ldev);
3588
}
3589

3590
void drbd_free_sock(struct drbd_conf *mdev)
3591
{
3592
	if (mdev->data.socket) {
3593
		mutex_lock(&mdev->data.mutex);
3594
		kernel_sock_shutdown(mdev->data.socket, SHUT_RDWR);
3595
		sock_release(mdev->data.socket);
3596
		mdev->data.socket = NULL;
3597
		mutex_unlock(&mdev->data.mutex);
3598
	}
3599
	if (mdev->meta.socket) {
3600
		mutex_lock(&mdev->meta.mutex);
3601
		kernel_sock_shutdown(mdev->meta.socket, SHUT_RDWR);
3602
		sock_release(mdev->meta.socket);
3603
		mdev->meta.socket = NULL;
3604
		mutex_unlock(&mdev->meta.mutex);
3605
	}
3606
}
3607

3608

3609
void drbd_free_resources(struct drbd_conf *mdev)
3610
{
3611
	crypto_free_hash(mdev->csums_tfm);
3612
	mdev->csums_tfm = NULL;
3613
	crypto_free_hash(mdev->verify_tfm);
3614
	mdev->verify_tfm = NULL;
3615
	crypto_free_hash(mdev->cram_hmac_tfm);
3616
	mdev->cram_hmac_tfm = NULL;
3617
	crypto_free_hash(mdev->integrity_w_tfm);
3618
	mdev->integrity_w_tfm = NULL;
3619
	crypto_free_hash(mdev->integrity_r_tfm);
3620
	mdev->integrity_r_tfm = NULL;
3621

3622
	drbd_free_sock(mdev);
3623

3624
	__no_warn(local,
3625
		  drbd_free_bc(mdev->ldev);
3626
		  mdev->ldev = NULL;);
3627
}
3628

3629
/* meta data management */
3630

3631
struct meta_data_on_disk {
3632
	u64 la_size;           /* last agreed size. */
3633
	u64 uuid[UI_SIZE];   /* UUIDs. */
3634
	u64 device_uuid;
3635
	u64 reserved_u64_1;
3636
	u32 flags;             /* MDF */
3637
	u32 magic;
3638
	u32 md_size_sect;
3639
	u32 al_offset;         /* offset to this block */
3640
	u32 al_nr_extents;     /* important for restoring the AL */
3641
	      /* `-- act_log->nr_elements <-- sync_conf.al_extents */
3642
	u32 bm_offset;         /* offset to the bitmap, from here */
3643
	u32 bm_bytes_per_bit;  /* BM_BLOCK_SIZE */
3644
	u32 la_peer_max_bio_size;   /* last peer max_bio_size */
3645
	u32 reserved_u32[3];
3646

3647
} __packed;
3648

3649
/**
3650
 * drbd_md_sync() - Writes the meta data super block if the MD_DIRTY flag bit is set
3651
 * @mdev:	DRBD device.
3652
 */
3653
void drbd_md_sync(struct drbd_conf *mdev)
3654
{
3655
	struct meta_data_on_disk *buffer;
3656
	sector_t sector;
3657
	int i;
3658

3659
	del_timer(&mdev->md_sync_timer);
3660
	/* timer may be rearmed by drbd_md_mark_dirty() now. */
3661
	if (!test_and_clear_bit(MD_DIRTY, &mdev->flags))
3662
		return;
3663

3664
	/* We use here D_FAILED and not D_ATTACHING because we try to write
3665
	 * metadata even if we detach due to a disk failure! */
3666
	if (!get_ldev_if_state(mdev, D_FAILED))
3667
		return;
3668

3669
	mutex_lock(&mdev->md_io_mutex);
3670
	buffer = (struct meta_data_on_disk *)page_address(mdev->md_io_page);
3671
	memset(buffer, 0, 512);
3672

3673
	buffer->la_size = cpu_to_be64(drbd_get_capacity(mdev->this_bdev));
3674
	for (i = UI_CURRENT; i < UI_SIZE; i++)
3675
		buffer->uuid[i] = cpu_to_be64(mdev->ldev->md.uuid[i]);
3676
	buffer->flags = cpu_to_be32(mdev->ldev->md.flags);
3677
	buffer->magic = cpu_to_be32(DRBD_MD_MAGIC);
3678

3679
	buffer->md_size_sect  = cpu_to_be32(mdev->ldev->md.md_size_sect);
3680
	buffer->al_offset     = cpu_to_be32(mdev->ldev->md.al_offset);
3681
	buffer->al_nr_extents = cpu_to_be32(mdev->act_log->nr_elements);
3682
	buffer->bm_bytes_per_bit = cpu_to_be32(BM_BLOCK_SIZE);
3683
	buffer->device_uuid = cpu_to_be64(mdev->ldev->md.device_uuid);
3684

3685
	buffer->bm_offset = cpu_to_be32(mdev->ldev->md.bm_offset);
3686
	buffer->la_peer_max_bio_size = cpu_to_be32(mdev->peer_max_bio_size);
3687

3688
	D_ASSERT(drbd_md_ss__(mdev, mdev->ldev) == mdev->ldev->md.md_offset);
3689
	sector = mdev->ldev->md.md_offset;
3690

3691
	if (!drbd_md_sync_page_io(mdev, mdev->ldev, sector, WRITE)) {
3692
		/* this was a try anyways ... */
3693
		dev_err(DEV, "meta data update failed!\n");
3694
		drbd_chk_io_error(mdev, 1, true);
3695
	}
3696

3697
	/* Update mdev->ldev->md.la_size_sect,
3698
	 * since we updated it on metadata. */
3699
	mdev->ldev->md.la_size_sect = drbd_get_capacity(mdev->this_bdev);
3700

3701
	mutex_unlock(&mdev->md_io_mutex);
3702
	put_ldev(mdev);
3703
}
3704

3705
/**
3706
 * drbd_md_read() - Reads in the meta data super block
3707
 * @mdev:	DRBD device.
3708
 * @bdev:	Device from which the meta data should be read in.
3709
 *
3710
 * Return 0 (NO_ERROR) on success, and an enum drbd_ret_code in case
3711
 * something goes wrong.  Currently only: ERR_IO_MD_DISK, ERR_MD_INVALID.
3712
 */
3713
int drbd_md_read(struct drbd_conf *mdev, struct drbd_backing_dev *bdev)
3714
{
3715
	struct meta_data_on_disk *buffer;
3716
	int i, rv = NO_ERROR;
3717

3718
	if (!get_ldev_if_state(mdev, D_ATTACHING))
3719
		return ERR_IO_MD_DISK;
3720

3721
	mutex_lock(&mdev->md_io_mutex);
3722
	buffer = (struct meta_data_on_disk *)page_address(mdev->md_io_page);
3723

3724
	if (!drbd_md_sync_page_io(mdev, bdev, bdev->md.md_offset, READ)) {
3725
		/* NOTE: can't do normal error processing here as this is
3726
		   called BEFORE disk is attached */
3727
		dev_err(DEV, "Error while reading metadata.\n");
3728
		rv = ERR_IO_MD_DISK;
3729
		goto err;
3730
	}
3731

3732
	if (be32_to_cpu(buffer->magic) != DRBD_MD_MAGIC) {
3733
		dev_err(DEV, "Error while reading metadata, magic not found.\n");
3734
		rv = ERR_MD_INVALID;
3735
		goto err;
3736
	}
3737
	if (be32_to_cpu(buffer->al_offset) != bdev->md.al_offset) {
3738
		dev_err(DEV, "unexpected al_offset: %d (expected %d)\n",
3739
		    be32_to_cpu(buffer->al_offset), bdev->md.al_offset);
3740
		rv = ERR_MD_INVALID;
3741
		goto err;
3742
	}
3743
	if (be32_to_cpu(buffer->bm_offset) != bdev->md.bm_offset) {
3744
		dev_err(DEV, "unexpected bm_offset: %d (expected %d)\n",
3745
		    be32_to_cpu(buffer->bm_offset), bdev->md.bm_offset);
3746
		rv = ERR_MD_INVALID;
3747
		goto err;
3748
	}
3749
	if (be32_to_cpu(buffer->md_size_sect) != bdev->md.md_size_sect) {
3750
		dev_err(DEV, "unexpected md_size: %u (expected %u)\n",
3751
		    be32_to_cpu(buffer->md_size_sect), bdev->md.md_size_sect);
3752
		rv = ERR_MD_INVALID;
3753
		goto err;
3754
	}
3755

3756
	if (be32_to_cpu(buffer->bm_bytes_per_bit) != BM_BLOCK_SIZE) {
3757
		dev_err(DEV, "unexpected bm_bytes_per_bit: %u (expected %u)\n",
3758
		    be32_to_cpu(buffer->bm_bytes_per_bit), BM_BLOCK_SIZE);
3759
		rv = ERR_MD_INVALID;
3760
		goto err;
3761
	}
3762

3763
	bdev->md.la_size_sect = be64_to_cpu(buffer->la_size);
3764
	for (i = UI_CURRENT; i < UI_SIZE; i++)
3765
		bdev->md.uuid[i] = be64_to_cpu(buffer->uuid[i]);
3766
	bdev->md.flags = be32_to_cpu(buffer->flags);
3767
	mdev->sync_conf.al_extents = be32_to_cpu(buffer->al_nr_extents);
3768
	bdev->md.device_uuid = be64_to_cpu(buffer->device_uuid);
3769

3770
	spin_lock_irq(&mdev->req_lock);
3771
	if (mdev->state.conn < C_CONNECTED) {
3772
		int peer;
3773
		peer = be32_to_cpu(buffer->la_peer_max_bio_size);
3774
		peer = max_t(int, peer, DRBD_MAX_BIO_SIZE_SAFE);
3775
		mdev->peer_max_bio_size = peer;
3776
	}
3777
	spin_unlock_irq(&mdev->req_lock);
3778

3779
	if (mdev->sync_conf.al_extents < 7)
3780
		mdev->sync_conf.al_extents = 127;
3781

3782
 err:
3783
	mutex_unlock(&mdev->md_io_mutex);
3784
	put_ldev(mdev);
3785

3786
	return rv;
3787
}
3788

3789
/**
3790
 * drbd_md_mark_dirty() - Mark meta data super block as dirty
3791
 * @mdev:	DRBD device.
3792
 *
3793
 * Call this function if you change anything that should be written to
3794
 * the meta-data super block. This function sets MD_DIRTY, and starts a
3795
 * timer that ensures that within five seconds you have to call drbd_md_sync().
3796
 */
3797
#ifdef DEBUG
3798
void drbd_md_mark_dirty_(struct drbd_conf *mdev, unsigned int line, const char *func)
3799
{
3800
	if (!test_and_set_bit(MD_DIRTY, &mdev->flags)) {
3801
		mod_timer(&mdev->md_sync_timer, jiffies + HZ);
3802
		mdev->last_md_mark_dirty.line = line;
3803
		mdev->last_md_mark_dirty.func = func;
3804
	}
3805
}
3806
#else
3807
void drbd_md_mark_dirty(struct drbd_conf *mdev)
3808
{
3809
	if (!test_and_set_bit(MD_DIRTY, &mdev->flags))
3810
		mod_timer(&mdev->md_sync_timer, jiffies + 5*HZ);
3811
}
3812
#endif
3813

3814
static void drbd_uuid_move_history(struct drbd_conf *mdev) __must_hold(local)
3815
{
3816
	int i;
3817

3818
	for (i = UI_HISTORY_START; i < UI_HISTORY_END; i++)
3819
		mdev->ldev->md.uuid[i+1] = mdev->ldev->md.uuid[i];
3820
}
3821

3822
void _drbd_uuid_set(struct drbd_conf *mdev, int idx, u64 val) __must_hold(local)
3823
{
3824
	if (idx == UI_CURRENT) {
3825
		if (mdev->state.role == R_PRIMARY)
3826
			val |= 1;
3827
		else
3828
			val &= ~((u64)1);
3829

3830
		drbd_set_ed_uuid(mdev, val);
3831
	}
3832

3833
	mdev->ldev->md.uuid[idx] = val;
3834
	drbd_md_mark_dirty(mdev);
3835
}
3836

3837

3838
void drbd_uuid_set(struct drbd_conf *mdev, int idx, u64 val) __must_hold(local)
3839
{
3840
	if (mdev->ldev->md.uuid[idx]) {
3841
		drbd_uuid_move_history(mdev);
3842
		mdev->ldev->md.uuid[UI_HISTORY_START] = mdev->ldev->md.uuid[idx];
3843
	}
3844
	_drbd_uuid_set(mdev, idx, val);
3845
}
3846

3847
/**
3848
 * drbd_uuid_new_current() - Creates a new current UUID
3849
 * @mdev:	DRBD device.
3850
 *
3851
 * Creates a new current UUID, and rotates the old current UUID into
3852
 * the bitmap slot. Causes an incremental resync upon next connect.
3853
 */
3854
void drbd_uuid_new_current(struct drbd_conf *mdev) __must_hold(local)
3855
{
3856
	u64 val;
3857
	unsigned long long bm_uuid = mdev->ldev->md.uuid[UI_BITMAP];
3858

3859
	if (bm_uuid)
3860
		dev_warn(DEV, "bm UUID was already set: %llX\n", bm_uuid);
3861

3862
	mdev->ldev->md.uuid[UI_BITMAP] = mdev->ldev->md.uuid[UI_CURRENT];
3863

3864
	get_random_bytes(&val, sizeof(u64));
3865
	_drbd_uuid_set(mdev, UI_CURRENT, val);
3866
	drbd_print_uuids(mdev, "new current UUID");
3867
	/* get it to stable storage _now_ */
3868
	drbd_md_sync(mdev);
3869
}
3870

3871
void drbd_uuid_set_bm(struct drbd_conf *mdev, u64 val) __must_hold(local)
3872
{
3873
	if (mdev->ldev->md.uuid[UI_BITMAP] == 0 && val == 0)
3874
		return;
3875

3876
	if (val == 0) {
3877
		drbd_uuid_move_history(mdev);
3878
		mdev->ldev->md.uuid[UI_HISTORY_START] = mdev->ldev->md.uuid[UI_BITMAP];
3879
		mdev->ldev->md.uuid[UI_BITMAP] = 0;
3880
	} else {
3881
		unsigned long long bm_uuid = mdev->ldev->md.uuid[UI_BITMAP];
3882
		if (bm_uuid)
3883
			dev_warn(DEV, "bm UUID was already set: %llX\n", bm_uuid);
3884

3885
		mdev->ldev->md.uuid[UI_BITMAP] = val & ~((u64)1);
3886
	}
3887
	drbd_md_mark_dirty(mdev);
3888
}
3889

3890
/**
3891
 * drbd_bmio_set_n_write() - io_fn for drbd_queue_bitmap_io() or drbd_bitmap_io()
3892
 * @mdev:	DRBD device.
3893
 *
3894
 * Sets all bits in the bitmap and writes the whole bitmap to stable storage.
3895
 */
3896
int drbd_bmio_set_n_write(struct drbd_conf *mdev)
3897
{
3898
	int rv = -EIO;
3899

3900
	if (get_ldev_if_state(mdev, D_ATTACHING)) {
3901
		drbd_md_set_flag(mdev, MDF_FULL_SYNC);
3902
		drbd_md_sync(mdev);
3903
		drbd_bm_set_all(mdev);
3904

3905
		rv = drbd_bm_write(mdev);
3906

3907
		if (!rv) {
3908
			drbd_md_clear_flag(mdev, MDF_FULL_SYNC);
3909
			drbd_md_sync(mdev);
3910
		}
3911

3912
		put_ldev(mdev);
3913
	}
3914

3915
	return rv;
3916
}
3917

3918
/**
3919
 * drbd_bmio_clear_n_write() - io_fn for drbd_queue_bitmap_io() or drbd_bitmap_io()
3920
 * @mdev:	DRBD device.
3921
 *
3922
 * Clears all bits in the bitmap and writes the whole bitmap to stable storage.
3923
 */
3924
int drbd_bmio_clear_n_write(struct drbd_conf *mdev)
3925
{
3926
	int rv = -EIO;
3927

3928
	drbd_resume_al(mdev);
3929
	if (get_ldev_if_state(mdev, D_ATTACHING)) {
3930
		drbd_bm_clear_all(mdev);
3931
		rv = drbd_bm_write(mdev);
3932
		put_ldev(mdev);
3933
	}
3934

3935
	return rv;
3936
}
3937

3938
static int w_bitmap_io(struct drbd_conf *mdev, struct drbd_work *w, int unused)
3939
{
3940
	struct bm_io_work *work = container_of(w, struct bm_io_work, w);
3941
	int rv = -EIO;
3942

3943
	D_ASSERT(atomic_read(&mdev->ap_bio_cnt) == 0);
3944

3945
	if (get_ldev(mdev)) {
3946
		drbd_bm_lock(mdev, work->why, work->flags);
3947
		rv = work->io_fn(mdev);
3948
		drbd_bm_unlock(mdev);
3949
		put_ldev(mdev);
3950
	}
3951

3952
	clear_bit(BITMAP_IO, &mdev->flags);
3953
	smp_mb__after_clear_bit();
3954
	wake_up(&mdev->misc_wait);
3955

3956
	if (work->done)
3957
		work->done(mdev, rv);
3958

3959
	clear_bit(BITMAP_IO_QUEUED, &mdev->flags);
3960
	work->why = NULL;
3961
	work->flags = 0;
3962

3963
	return 1;
3964
}
3965

3966
void drbd_ldev_destroy(struct drbd_conf *mdev)
3967
{
3968
	lc_destroy(mdev->resync);
3969
	mdev->resync = NULL;
3970
	lc_destroy(mdev->act_log);
3971
	mdev->act_log = NULL;
3972
	__no_warn(local,
3973
		drbd_free_bc(mdev->ldev);
3974
		mdev->ldev = NULL;);
3975

3976
	if (mdev->md_io_tmpp) {
3977
		__free_page(mdev->md_io_tmpp);
3978
		mdev->md_io_tmpp = NULL;
3979
	}
3980
	clear_bit(GO_DISKLESS, &mdev->flags);
3981
}
3982

3983
static int w_go_diskless(struct drbd_conf *mdev, struct drbd_work *w, int unused)
3984
{
3985
	D_ASSERT(mdev->state.disk == D_FAILED);
3986
	/* we cannot assert local_cnt == 0 here, as get_ldev_if_state will
3987
	 * inc/dec it frequently. Once we are D_DISKLESS, no one will touch
3988
	 * the protected members anymore, though, so once put_ldev reaches zero
3989
	 * again, it will be safe to free them. */
3990
	drbd_force_state(mdev, NS(disk, D_DISKLESS));
3991
	return 1;
3992
}
3993

3994
void drbd_go_diskless(struct drbd_conf *mdev)
3995
{
3996
	D_ASSERT(mdev->state.disk == D_FAILED);
3997
	if (!test_and_set_bit(GO_DISKLESS, &mdev->flags))
3998
		drbd_queue_work(&mdev->data.work, &mdev->go_diskless);
3999
}
4000

4001
/**
4002
 * drbd_queue_bitmap_io() - Queues an IO operation on the whole bitmap
4003
 * @mdev:	DRBD device.
4004
 * @io_fn:	IO callback to be called when bitmap IO is possible
4005
 * @done:	callback to be called after the bitmap IO was performed
4006
 * @why:	Descriptive text of the reason for doing the IO
4007
 *
4008
 * While IO on the bitmap happens we freeze application IO thus we ensure
4009
 * that drbd_set_out_of_sync() can not be called. This function MAY ONLY be
4010
 * called from worker context. It MUST NOT be used while a previous such
4011
 * work is still pending!
4012
 */
4013
void drbd_queue_bitmap_io(struct drbd_conf *mdev,
4014
			  int (*io_fn)(struct drbd_conf *),
4015
			  void (*done)(struct drbd_conf *, int),
4016
			  char *why, enum bm_flag flags)
4017
{
4018
	D_ASSERT(current == mdev->worker.task);
4019

4020
	D_ASSERT(!test_bit(BITMAP_IO_QUEUED, &mdev->flags));
4021
	D_ASSERT(!test_bit(BITMAP_IO, &mdev->flags));
4022
	D_ASSERT(list_empty(&mdev->bm_io_work.w.list));
4023
	if (mdev->bm_io_work.why)
4024
		dev_err(DEV, "FIXME going to queue '%s' but '%s' still pending?\n",
4025
			why, mdev->bm_io_work.why);
4026

4027
	mdev->bm_io_work.io_fn = io_fn;
4028
	mdev->bm_io_work.done = done;
4029
	mdev->bm_io_work.why = why;
4030
	mdev->bm_io_work.flags = flags;
4031

4032
	spin_lock_irq(&mdev->req_lock);
4033
	set_bit(BITMAP_IO, &mdev->flags);
4034
	if (atomic_read(&mdev->ap_bio_cnt) == 0) {
4035
		if (!test_and_set_bit(BITMAP_IO_QUEUED, &mdev->flags))
4036
			drbd_queue_work(&mdev->data.work, &mdev->bm_io_work.w);
4037
	}
4038
	spin_unlock_irq(&mdev->req_lock);
4039
}
4040

4041
/**
4042
 * drbd_bitmap_io() -  Does an IO operation on the whole bitmap
4043
 * @mdev:	DRBD device.
4044
 * @io_fn:	IO callback to be called when bitmap IO is possible
4045
 * @why:	Descriptive text of the reason for doing the IO
4046
 *
4047
 * freezes application IO while that the actual IO operations runs. This
4048
 * functions MAY NOT be called from worker context.
4049
 */
4050
int drbd_bitmap_io(struct drbd_conf *mdev, int (*io_fn)(struct drbd_conf *),
4051
		char *why, enum bm_flag flags)
4052
{
4053
	int rv;
4054

4055
	D_ASSERT(current != mdev->worker.task);
4056

4057
	if ((flags & BM_LOCKED_SET_ALLOWED) == 0)
4058
		drbd_suspend_io(mdev);
4059

4060
	drbd_bm_lock(mdev, why, flags);
4061
	rv = io_fn(mdev);
4062
	drbd_bm_unlock(mdev);
4063

4064
	if ((flags & BM_LOCKED_SET_ALLOWED) == 0)
4065
		drbd_resume_io(mdev);
4066

4067
	return rv;
4068
}
4069

4070
void drbd_md_set_flag(struct drbd_conf *mdev, int flag) __must_hold(local)
4071
{
4072
	if ((mdev->ldev->md.flags & flag) != flag) {
4073
		drbd_md_mark_dirty(mdev);
4074
		mdev->ldev->md.flags |= flag;
4075
	}
4076
}
4077

4078
void drbd_md_clear_flag(struct drbd_conf *mdev, int flag) __must_hold(local)
4079
{
4080
	if ((mdev->ldev->md.flags & flag) != 0) {
4081
		drbd_md_mark_dirty(mdev);
4082
		mdev->ldev->md.flags &= ~flag;
4083
	}
4084
}
4085
int drbd_md_test_flag(struct drbd_backing_dev *bdev, int flag)
4086
{
4087
	return (bdev->md.flags & flag) != 0;
4088
}
4089

4090
static void md_sync_timer_fn(unsigned long data)
4091
{
4092
	struct drbd_conf *mdev = (struct drbd_conf *) data;
4093

4094
	drbd_queue_work_front(&mdev->data.work, &mdev->md_sync_work);
4095
}
4096

4097
static int w_md_sync(struct drbd_conf *mdev, struct drbd_work *w, int unused)
4098
{
4099
	dev_warn(DEV, "md_sync_timer expired! Worker calls drbd_md_sync().\n");
4100
#ifdef DEBUG
4101
	dev_warn(DEV, "last md_mark_dirty: %s:%u\n",
4102
		mdev->last_md_mark_dirty.func, mdev->last_md_mark_dirty.line);
4103
#endif
4104
	drbd_md_sync(mdev);
4105
	return 1;
4106
}
4107

4108
#ifdef CONFIG_DRBD_FAULT_INJECTION
4109
/* Fault insertion support including random number generator shamelessly
4110
 * stolen from kernel/rcutorture.c */
4111
struct fault_random_state {
4112
	unsigned long state;
4113
	unsigned long count;
4114
};
4115

4116
#define FAULT_RANDOM_MULT 39916801  /* prime */
4117
#define FAULT_RANDOM_ADD	479001701 /* prime */
4118
#define FAULT_RANDOM_REFRESH 10000
4119

4120
/*
4121
 * Crude but fast random-number generator.  Uses a linear congruential
4122
 * generator, with occasional help from get_random_bytes().
4123
 */
4124
static unsigned long
4125
_drbd_fault_random(struct fault_random_state *rsp)
4126
{
4127
	long refresh;
4128

4129
	if (!rsp->count--) {
4130
		get_random_bytes(&refresh, sizeof(refresh));
4131
		rsp->state += refresh;
4132
		rsp->count = FAULT_RANDOM_REFRESH;
4133
	}
4134
	rsp->state = rsp->state * FAULT_RANDOM_MULT + FAULT_RANDOM_ADD;
4135
	return swahw32(rsp->state);
4136
}
4137

4138
static char *
4139
_drbd_fault_str(unsigned int type) {
4140
	static char *_faults[] = {
4141
		[DRBD_FAULT_MD_WR] = "Meta-data write",
4142
		[DRBD_FAULT_MD_RD] = "Meta-data read",
4143
		[DRBD_FAULT_RS_WR] = "Resync write",
4144
		[DRBD_FAULT_RS_RD] = "Resync read",
4145
		[DRBD_FAULT_DT_WR] = "Data write",
4146
		[DRBD_FAULT_DT_RD] = "Data read",
4147
		[DRBD_FAULT_DT_RA] = "Data read ahead",
4148
		[DRBD_FAULT_BM_ALLOC] = "BM allocation",
4149
		[DRBD_FAULT_AL_EE] = "EE allocation",
4150
		[DRBD_FAULT_RECEIVE] = "receive data corruption",
4151
	};
4152

4153
	return (type < DRBD_FAULT_MAX) ? _faults[type] : "**Unknown**";
4154
}
4155

4156
unsigned int
4157
_drbd_insert_fault(struct drbd_conf *mdev, unsigned int type)
4158
{
4159
	static struct fault_random_state rrs = {0, 0};
4160

4161
	unsigned int ret = (
4162
		(fault_devs == 0 ||
4163
			((1 << mdev_to_minor(mdev)) & fault_devs) != 0) &&
4164
		(((_drbd_fault_random(&rrs) % 100) + 1) <= fault_rate));
4165

4166
	if (ret) {
4167
		fault_count++;
4168

4169
		if (__ratelimit(&drbd_ratelimit_state))
4170
			dev_warn(DEV, "***Simulating %s failure\n",
4171
				_drbd_fault_str(type));
4172
	}
4173

4174
	return ret;
4175
}
4176
#endif
4177

4178
const char *drbd_buildtag(void)
4179
{
4180
	/* DRBD built from external sources has here a reference to the
4181
	   git hash of the source code. */
4182

4183
	static char buildtag[38] = "\0uilt-in";
4184

4185
	if (buildtag[0] == 0) {
4186
#ifdef CONFIG_MODULES
4187
		if (THIS_MODULE != NULL)
4188
			sprintf(buildtag, "srcversion: %-24s", THIS_MODULE->srcversion);
4189
		else
4190
#endif
4191
			buildtag[0] = 'b';
4192
	}
4193

4194
	return buildtag;
4195
}
4196

4197
module_init(drbd_init)
4198
module_exit(drbd_cleanup)
4199

4200
EXPORT_SYMBOL(drbd_conn_str);
4201
EXPORT_SYMBOL(drbd_role_str);
4202
EXPORT_SYMBOL(drbd_disk_str);
4203
EXPORT_SYMBOL(drbd_set_st_err_str);
4204

4205
Product

Resources

Company