If someone is interested I can also translate this german answer below into english (later)
$\newcommand{\R}{\mathbb{R}}$ Nimm dir mal einen Vektoren (oder Richtung) $v\in\R^2$, und eine Abbildung $f : \R^2 \to \R$, die du gerne verstehen möchtest. Dann ist $\nabla f : \R^2 \times \R^2 \to \R$, warum? Weil einmal können die partiellen Ableitungen $\frac{\partial}{\partial 1} f : \R^2 \to \R$ und $\frac{\partial}{\partial 2} f : \R^2 \to \R$ an einem Punkt im $\R^2$ ausgewertet werden, z.B. am Punkt $x_0 \in \R^2$ und dann kann noch die lineare Abbildung $\nabla f(x) : \R^2 \to \R$. So das man Ende durch
$$
\nabla f(x) \cdot h =
\begin{pmatrix}
\frac{\partial}{\partial 1} f(x) & \frac{\partial}{\partial 2} f)
\end{pmatrix}
\cdot
\begin{pmatrix}
v_1 \\ v_2
\end{pmatrix}
$$
in $\R$ landet. Nun kann ich solche Abbildung aber verschieden interpretieren und während $\nabla f(x)$ stets eine lineare Abbildung ist, muss $\nabla f (\cdot) v :\R^2 \to \R$ keine lineare Abbildung sein, sondern ist wieder eine neue Funktion! Lass und also setzen $g(x) := \nabla f(x)v$. Dann können wir wieder das Differential von $g$ berechnen und erhalten und in der gleichen Richtung $v$ auswerten:
$$
\nabla g(x)
=
\begin{pmatrix}
\frac{\partial}{\partial 1} g(x) &
\frac{\partial}{\partial 2} g(x)
\end{pmatrix}
=
\begin{pmatrix}
\frac{\partial}{\partial 1} (\nabla f(x)v) & \frac{\partial}{\partial 2} (\nabla f(x)v).
\end{pmatrix}
$$
Wie du siehst ist $\nabla g(x)$ also auch eine lineare Abbildung von $\R^2 \to \R$, also können wir auch diese lineare Abbildung an $v \in \R^2$ auswerten:
$\nabla g(x) v$ um wieder in $\R$ zu landen. Nun ist aber genauso wie oben $\nabla g(\cdot) v : \R^2 \to \R$ wieder eine ganz normale Funktion, die wir ableiten können. Setze also $h(x) := \nabla g(x) v$ und berechne $\nabla h$. Wie du nun siehst hast du dann
$$
\nabla h(x)v = \nabla (\nabla g(x)v) v = \nabla \Big(\nabla \big(\nabla f(x)v\big)v\Big)v
$$
und wie du siehst braucht es 3 $v$s, um diese Abbildung nach $\R$ zu schicken. Nun ist natürlich diese Schreibweise da oben, alles andere als leserfreundlich und daher haben wir uns soetwas ausgedacht wie eine multilineare Abbildung, so dass ich auch schreiben kann:
$$
d^{(3)} f (x) (v,v,v) = \nabla \Big(\nabla \big(\nabla f(x)v\big)v\Big)v.
$$
Ich hoffe, das macht es etwas klarer?
For concreteness, let's take $n = 4$, so the coordinates on $\mathbb{R}^4$ are $(x_1, x_2, x_3, x_4)$.
$\bullet$ A differential $1$-form $\omega$ on an open set $U \subset \mathbb{R}^4$ can be written
$$\omega = \sum_{1 \leq i \leq 4} f_i\,dx_i = f_1dx_1 + f_2\,dx_2 + f_3\,dx_3 + f_4dx_4$$
for some functions $f_1, \ldots, f_4 \colon U \to \mathbb{R}$.
$\bullet$ A differential $2$-form $\omega$ on an open set $U \subset \mathbb{R}^4$ can be written
\begin{align*}
\omega & = \sum_{1 \leq i < j \leq 4} f_{ij}\,dx_i \wedge dx_j \\
& = f_{12}\,dx_1 \wedge dx_2 + f_{13}\,dx_1 \wedge dx_3 + f_{14}\,dx_1 \wedge dx_4 \\
& \ \ \ \ \ \ \ + f_{23}\,dx_2 \wedge dx_3 + f_{24} \,dx_2 \wedge dx_4 + f_{34}\,dx_3 \wedge dx_4
\end{align*}
for some functions $f_{12}, f_{13}, f_{14}, f_{23}, f_{24}, f_{34} \colon U \to \mathbb{R}$.
$\bullet$ A differential $3$-form $\omega$ on an open set $U \subset \mathbb{R}^4$ can be written
\begin{align*}
\omega & = \sum_{1 \leq i < j < m \leq 4} f_{ijm}\,dx_i \wedge dx_j \wedge dx_{m} \\
& = f_{123}\,dx_1 \wedge dx_2 \wedge dx_3 + f_{124}\,dx_1 \wedge dx_2 \wedge dx_4 \\
& \ \ \ \ \ + f_{134}\,dx_1 \wedge dx_3 \wedge dx_4 + f_{234}\,dx_2 \wedge dx_3 \wedge dx_4
\end{align*}
for some functions $f_{123}, f_{124}, f_{134}, f_{234} \colon U \to \mathbb{R}$.
$\bullet$ A differential $4$-form $\omega$ on an open set $U \subset \mathbb{R}^4$ can be written
\begin{align*}
\omega & = \sum_{1 \leq i < j < m < p \leq 4} f_{ijmp}\,dx_i \wedge dx_j \wedge dx_{m} \wedge dx_p = f_{1234} \,dx_1 \wedge dx_2 \wedge dx_3 \wedge dx_4 \end{align*}
for some function $f_{1234} \colon U \to \mathbb{R}$.
In general, when we work with differential $k$-forms on $\mathbb{R}^n$, we have to resort to writing the summation range as
$$1 \leq i_1 < i_2 < \cdots < i_k \leq n$$
for the simple reason that we don't have infinitely many letters in the alphabet.
Best Answer
I am not sure if this answer will be satisfying for you but since noone else provided an answer, I will give it a try.
The reason that the $v_i$ appear on the left hand side is that the k-th derivative of $f$ evaluated at a point $x_0$ is in fact a (symmetric) k-linear (i.e. linear in each entry) map from $(\mathbb{R}^n)^k\to \mathbb{R}$. Each $v_i$ is an element of $\mathbb{R}^n$ and the notation $(v_1)_{i_1}$ simply refers to the $i_1$-th component of the vector $v_1$.
To be more explicit, let's focus on the case $n=2$ and fix some point $x_0\in \Omega\subset \mathbb{R}^2$. Then we can form the derivative $Df(x_0)$, which is a linear map from $\mathbb{R}^2$ to $\mathbb{R}$. In particular we can evaluate this map for some $v_1\in \mathbb{R}^2$ and we get \begin{align} Df(x_0)(v_1)=\sum_{i_1=1}^2\partial_{i_1}f(x_0) (v_1)_{i_1}. \end{align} If we define now $g(x)=Df(x)(v_1)$ then this will again be a smooth function (assuming $f$ is smooth) from $\mathbb{R}^2$ to $\mathbb{R}$. Therefore we can evaluate it's derivative at the point $x_0$ and get again a linear map from $\mathbb{R}^2$ to $\mathbb{R}$. If we evaluate this linear map for some $v_2\in \mathbb{R}^2$, we get
\begin{align} Dg(x_0)(v_2)&=\sum_{i_2=1}^2 \partial_{i_2}g(x_0)(v_2)_{i_2}\\ &=\sum_{i_2=1}^2 \partial_{i_2}\bigg(\sum_{i_1=1}^2\partial_{i_1}f(x_0)(v_1)_{i_1} \bigg)(v_2)_{i_2}\\ &=\sum_{i_2=1}^2\sum_{i_1=1}^2 \partial_{i_2}\partial_{i_1}f(x_0)(v_1)_{i_1}(v_2)_{i_2} \end{align} On the other hand \begin{align} Dg(x_0)(v_2)=D(Df(x_0)(v_1))(v_2)=:D^2f(x_0)(v_1,v_2) \end{align}
Of course this is all not completely rigorous but I tried to show where the multilinearity comes from. Hope this helps!