Maison - Historique des réparations
Détermination de l'écart type. Écart type

Leçon n°4

Sujet : « Statistiques descriptives. Indicateurs de diversité des traits dans l'ensemble"

Les principaux critères de diversité d'un trait dans une population statistique sont : limite, amplitude, moyenne écart type, coefficient d'oscillation et coefficient de variation. Dans la leçon précédente, il a été discuté du fait que les valeurs moyennes ne fournissent qu'une caractéristique généralisée de la caractéristique étudiée dans son ensemble et ne prennent pas en compte les valeurs de ses variantes individuelles : valeurs minimales et maximales, supérieures à la moyenne, inférieures moyenne, etc.

Exemple. Valeurs moyennes de deux séquences de nombres différentes : -100 ; -20 ; 100 ; 20 et 0,1 ; -0,2 ; 0,1 sont absolument identiques et égauxÀ PROPOS DE.Cependant, les plages de dispersion de ces données de séquence moyenne relative sont très différentes.

La détermination des critères énumérés pour la diversité d'une caractéristique s'effectue principalement en tenant compte de sa valeur dans les éléments individuels de la population statistique.

Les indicateurs permettant de mesurer la variation d'un trait sont absolu Et relatif. Les indicateurs absolus de variation comprennent : la plage de variation, la limite, l'écart type, la dispersion. Le coefficient de variation et le coefficient d'oscillation font référence à des mesures relatives de variation.

Limite (lim)– Il s'agit d'un critère déterminé par les valeurs extrêmes d'une variante dans une série de variations. Autrement dit, ce critère se limite aux valeurs minimale et maximale de l'attribut :

Amplitude (Am) ou plage de variation – C'est la différence entre les options extrêmes. Le calcul de ce critère s'effectue en soustrayant sa valeur minimale de la valeur maximale de l'attribut, ce qui permet d'estimer le degré de dispersion de l'option :

L'inconvénient de la limite et de l'amplitude comme critères de variabilité est qu'ils dépendent entièrement des valeurs extrêmes de la caractéristique dans la série de variation. Dans ce cas, les fluctuations des valeurs d'attribut au sein d'une série ne sont pas prises en compte.

La description la plus complète de la diversité d'un trait dans une population statistique est fournie par écart type(sigma), qui est une mesure générale de l’écart d’une option par rapport à sa valeur moyenne. L'écart type est souvent appelé écart type.

L'écart type est basé sur une comparaison de chaque option avec la moyenne arithmétique d'une population donnée. Puisque dans l'ensemble il y aura toujours des options à la fois inférieures et supérieures, la somme des écarts avec le signe "" sera annulée par la somme des écarts avec le signe "", c'est-à-dire la somme de tous les écarts est nulle. Afin d'éviter l'influence des signes des différences, des écarts par rapport à la moyenne arithmétique quadratique sont pris en compte, c'est-à-dire . La somme des carrés des écarts n’est pas égale à zéro. Pour obtenir un coefficient permettant de mesurer la variabilité, prenez la moyenne de la somme des carrés - cette valeur est appelée écarts :

Essentiellement, la dispersion est le carré moyen des écarts des valeurs individuelles d'une caractéristique par rapport à sa valeur moyenne. Dispersion carré de l’écart type.

La variance est une quantité dimensionnelle (nommée). Ainsi, si les variantes d'une série de nombres sont exprimées en mètres, alors la variance donne des mètres carrés ; si les options sont exprimées en kilogrammes, alors la variance donne le carré de cette mesure (kg 2), etc.

Écart type– racine carrée de la variance :

, puis lors du calcul de la dispersion et de l'écart type au dénominateur de la fraction, au lieu deil faut mettre.

Le calcul de l'écart type peut être divisé en six étapes, qui doivent être effectuées dans un certain ordre :

Application de l’écart type :

a) pour juger de la variabilité des séries de variations et évaluation comparative de la typicité (représentativité) des moyennes arithmétiques. Ceci est nécessaire dans le diagnostic différentiel pour déterminer la stabilité des symptômes.

b) reconstruire la série de variations, c'est-à-dire restauration de sa réponse en fréquence basée sur règles des trois sigma. Dans l'intervalle (М±3σ) 99,7% de toutes les variantes de la série se situent dans l'intervalle (М±2σ) - 95,5% et dans la fourchette (М±1σ) - Variante de rangée 68,3%(Fig.1).

c) pour identifier les options « pop-up »

d) déterminer les paramètres de norme et de pathologie à l'aide d'estimations sigma

e) pour calculer le coefficient de variation

f) calculer l'erreur moyenne de la moyenne arithmétique.

Pour caractériser toute population qui atype de distribution normale , il suffit de connaître deux paramètres : la moyenne arithmétique et l'écart type.

Figure 1. Règle des Trois Sigma

Exemple.

En pédiatrie, l'écart type est utilisé pour évaluer le développement physique des enfants en comparant les données d'un enfant particulier avec les indicateurs standard correspondants. La moyenne arithmétique du développement physique des enfants en bonne santé est prise comme norme. La comparaison des indicateurs avec les normes est effectuée à l'aide de tableaux spéciaux dans lesquels les normes sont indiquées ainsi que leurs échelles sigma correspondantes. On pense que si l'indicateur de développement physique de l'enfant se situe dans la norme (moyenne arithmétique) ±σ, alors développement physique l'enfant (selon cet indicateur) correspond à la norme. Si l'indicateur se situe dans la norme ±2σ, il y a alors un léger écart par rapport à la norme. Si l'indicateur dépasse ces limites, alors le développement physique de l'enfant diffère fortement de la norme (une pathologie est possible).

Outre les indicateurs de variation exprimés en valeurs absolues, la recherche statistique utilise des indicateurs de variation exprimés en valeurs relatives. Coefficient d'oscillation - c'est le rapport entre l'étendue de variation et la valeur moyenne du trait. Coefficient de variation - est le rapport de l'écart type à moyenne signe. Généralement, ces valeurs sont exprimées en pourcentages.

Formules de calcul des indicateurs de variation relative :

D'après les formules ci-dessus, il ressort clairement que plus le coefficient est grand V est plus proche de zéro, plus la variation des valeurs de la caractéristique est faible. Plus V, plus le signe est variable.

Dans la pratique statistique, le coefficient de variation est le plus souvent utilisé. Il est utilisé non seulement pour une évaluation comparative de la variation, mais également pour caractériser l'homogénéité de la population. La population est considérée comme homogène si le coefficient de variation ne dépasse pas 33 % (pour des distributions proches de la normale). Arithmétiquement, le rapport de σ et la moyenne arithmétique neutralise l'influence valeur absolue ces caractéristiques, et le rapport en pourcentage fait du coefficient de variation une quantité sans dimension (sans nom).

La valeur résultante du coefficient de variation est estimée en fonction des gradations approximatives du degré de diversité du trait :

Faible - jusqu'à 10%

Moyenne - 10 - 20%

Fort - plus de 20 %

L'utilisation du coefficient de variation est conseillée dans les cas où il est nécessaire de comparer des caractéristiques différentes en taille et en dimension.

La différence entre le coefficient de variation et les autres critères de dispersion est clairement démontrée exemple.

Tableau 1

Composition des travailleurs des entreprises industrielles

Sur la base des caractéristiques statistiques données dans l’exemple, nous pouvons tirer une conclusion sur la relative homogénéité de la composition par âge et du niveau d’éducation des salariés de l’entreprise, compte tenu de la faible stabilité professionnelle du contingent interrogé. Il est facile de voir qu'une tentative de juger ces tendances sociales par l'écart type conduirait à une conclusion erronée, et une tentative de comparer les caractéristiques comptables « expérience professionnelle » et « âge » avec l'indicateur comptable « formation » serait généralement incorrect en raison de l’hétérogénéité de ces caractéristiques.

Médiane et percentiles

Pour les distributions ordinales (de rang), où le critère du milieu de la série est la médiane, l'écart type et la dispersion ne peuvent pas servir de caractéristiques de dispersion de la variante.

Il en va de même pour les séries ouvertes à variations. Cette circonstance est due au fait que les écarts à partir desquels la variance et σ sont calculés sont mesurés à partir de la moyenne arithmétique, qui n'est pas calculée en séries de variations ouvertes et en séries de distributions de caractéristiques qualitatives. Par conséquent, pour une description compressée des distributions, un autre paramètre de dispersion est utilisé - quantile(synonyme - « percentile »), adapté pour décrire des caractéristiques qualitatives et quantitatives sous toute forme de leur distribution. Ce paramètre peut également être utilisé pour convertir des caractéristiques quantitatives en caractéristiques qualitatives. Dans ce cas, ces notes sont attribuées en fonction de l'ordre de quantile auquel correspond une option particulière.

Dans la pratique de la recherche biomédicale, les quantiles suivants sont le plus souvent utilisés :

– médiane ;

, – quartiles (quarts), où – quartile inférieur, quartile supérieur.

Les quantiles divisent la zone de changements possibles dans une série de variations en certains intervalles. La médiane (quantile) est une option qui se situe au milieu d'une série de variations et divise cette série en deux en deux parties égales ( 0,5 Et 0,5 ). Un quartile divise une série en quatre parties : la première partie (quartile inférieur) est une option séparant les options dont les valeurs numériques n'excèdent pas 25% du maximum possible dans cette série, le quartile sépare les options avec une valeur numérique allant jusqu'à 50 % du maximum possible. Le quartile supérieur () sépare les options jusqu'à 75 % des valeurs maximales possibles.

En cas de distribution asymétrique variable par rapport à la moyenne arithmétique, la médiane et les quartiles sont utilisés pour la caractériser. Dans ce cas, la forme suivante d'affichage de la valeur moyenne est utilisée - Meh (;). Par exemple, la caractéristique étudiée – « la période à laquelle l'enfant a commencé à marcher de manière autonome » – a une distribution asymétrique dans le groupe d'étude. Parallèlement, le quartile inférieur () correspond au début de la marche - 9,5 mois, la médiane - 11 mois, le quartile supérieur () - 12 mois. En conséquence, la caractéristique de la tendance moyenne de l'attribut spécifié sera présentée sur 11 (9,5 ; 12) mois.

Évaluation de la signification statistique des résultats de l'étude

La signification statistique des données s'entend comme le degré avec lequel elles correspondent à la réalité affichée, c'est-à-dire les données statistiquement significatives sont celles qui ne déforment pas et ne reflètent pas correctement la réalité objective.

Évaluer la signification statistique des résultats de la recherche signifie déterminer avec quelle probabilité il est possible de transférer les résultats obtenus de la population échantillon à l'ensemble de la population. L’évaluation de la signification statistique est nécessaire pour comprendre dans quelle mesure un phénomène peut être utilisé pour juger le phénomène dans son ensemble et ses tendances.

L'évaluation de la signification statistique des résultats de la recherche consiste à :

1. erreurs de représentativité (erreurs de valeurs moyennes et relatives) - m;

2. limites de confiance des valeurs moyennes ou relatives ;

3. fiabilité de la différence de valeurs moyennes ou relatives selon le critère t.

Erreur type de la moyenne arithmétique ou erreur de représentativité caractérise les fluctuations de la moyenne. Il convient de noter que plus la taille de l’échantillon est grande, plus la dispersion des valeurs moyennes est faible. L'erreur type de la moyenne est calculée à l'aide de la formule :

Dans la littérature scientifique moderne, la moyenne arithmétique est écrite avec l'erreur de représentativité :

ou avec l'écart type :

À titre d’exemple, considérons les données de 1 500 cliniques urbaines du pays (population générale). Le nombre moyen de patients soignés dans la clinique est de 18 150 personnes. La sélection aléatoire de 10 % des sites (150 cliniques) donne un nombre moyen de patients égal à 20 051 personnes. L'erreur d'échantillonnage, évidemment due au fait que les 1 500 cliniques n'ont pas été incluses dans l'échantillon, est égale à la différence entre ces moyennes - la moyenne générale ( M. gène) et la moyenne de l'échantillon ( M. choisi). Si nous formons un autre échantillon de même taille à partir de notre population, cela donnera une valeur d’erreur différente. Toutes ces moyennes d'échantillons avec des échantillons suffisamment grands sont réparties normalement autour de la moyenne générale avec des échantillons suffisamment grands. grand nombre répétitions d'un échantillon du même nombre d'objets d'une population. Erreur type de la moyenne m- c'est l'inévitable dispersion des moyennes d'échantillon autour de la moyenne générale.

Dans le cas où les résultats de la recherche sont présentés en quantités relatives (par exemple, pourcentages) - calculé erreur type de fraction :

où P est l'indicateur en %, n est le nombre d'observations.

Le résultat s'affiche sous la forme (P ± m)%. Par exemple, le pourcentage de guérison parmi les patients était de (95,2 ± 2,5) %.

Dans le cas où le nombre d'éléments de la population, puis lors du calcul des erreurs types de la moyenne et de la fraction au dénominateur de la fraction, au lieu deil faut mettre.

Pour une distribution normale (la distribution des moyennes de l'échantillon est normale), nous savons quelle partie de la population se situe dans un intervalle autour de la moyenne. En particulier:

En pratique, le problème est que les caractéristiques de la population générale nous sont inconnues et que l’échantillon est constitué précisément dans le but de les estimer. Cela signifie que si nous faisons des échantillons de même taille n de la population générale, alors dans 68,3 % des cas l'intervalle contiendra la valeur M.(dans 95,5% des cas ce sera sur l'intervalle et dans 99,7% des cas – sur l'intervalle).

Puisqu'un seul échantillon est effectivement prélevé, cette affirmation est formulée en termes de probabilité : avec une probabilité de 68,3%, la valeur moyenne de l'attribut dans la population se situe dans l'intervalle, avec une probabilité de 95,5% - dans l'intervalle, etc.

En pratique, un intervalle est construit autour de la valeur de l'échantillon tel que, avec une probabilité donnée (suffisamment élevée), probabilité de confiance –« couvrirait » la vraie valeur de ce paramètre dans la population générale. Cet intervalle est appelé intervalle de confiance.

Probabilité de confianceP. il s'agit du degré de confiance selon lequel l'intervalle de confiance contiendra réellement la valeur vraie (inconnue) du paramètre dans la population.

Par exemple, si la probabilité de confiance R. est de 90%, cela signifie que 90 échantillons sur 100 donneront l'estimation correcte du paramètre dans la population. En conséquence, la probabilité d'erreur, c'est-à-dire l'estimation incorrecte de la moyenne générale de l'échantillon est égale en pourcentage : . Pour cet exemple, cela signifie que 10 échantillons sur 100 donneront une estimation incorrecte.

Évidemment, le degré de confiance (probabilité de confiance) dépend de la taille de l'intervalle : plus l'intervalle est large, plus la confiance qu'une valeur inconnue pour la population y entrera est élevée. En pratique, au moins deux fois l'erreur d'échantillonnage est utilisée pour construire un intervalle de confiance afin de fournir un niveau de confiance d'au moins 95,5 %.

La détermination des limites de confiance des moyennes et des valeurs relatives permet de trouver leurs deux valeurs extrêmes - le minimum possible et le maximum possible, à l'intérieur desquelles l'indicateur étudié peut apparaître dans l'ensemble de la population. Sur cette base, limites de confiance (ou intervalle de confiance)- ce sont les limites des valeurs moyennes ou relatives, au-delà desquelles, en raison de fluctuations aléatoires, il existe une probabilité insignifiante.

L'intervalle de confiance peut être réécrit comme suit : , où t– critère de confiance.

Les limites de confiance de la moyenne arithmétique dans la population sont déterminées par la formule :

M. gène =M sélectionner + tm M.

pour la valeur relative :

R. gène =P sélectionner + tm R.

M. gène Et R. gène- valeurs de valeurs moyennes et relatives pour la population générale ; M. sélectionner Et R. sélectionner- les valeurs des valeurs moyennes et relatives obtenues à partir de l'échantillon de population ; m M. Et m P.- les erreurs de valeurs moyennes et relatives ; t- critère de confiance (critère de précision, qui est établi lors de la planification de l'étude et peut être égal à 2 ou 3) ; tm- il s'agit d'un intervalle de confiance ou Δ - l'erreur maximale de l'indicateur obtenu dans une étude par sondage.

Il convient de noter que la valeur du critère t dans une certaine mesure liée à la probabilité d'une prévision sans erreur (p), exprimée en %. Il est choisi par le chercheur lui-même, guidé par la nécessité d'obtenir le résultat avec le degré de précision requis. Ainsi, pour une probabilité d'une prévision sans erreur de 95,5%, la valeur du critère t est 2, pour 99,7% - 3.

Les estimations données de l'intervalle de confiance ne sont acceptables que pour les populations statistiques avec un nombre d'observations supérieur à 30. Avec une taille de population plus petite (petits échantillons), des tableaux spéciaux sont utilisés pour déterminer le critère t. Dans ces tableaux, la valeur souhaitée se situe à l'intersection de la droite correspondant à la taille de la population (n-1), et une colonne correspondant au niveau de probabilité d'une prévision sans erreur (95,5 % ; 99,7 %) choisi par le chercheur. Dans la recherche médicale, lors de l'établissement de limites de confiance pour un indicateur, la probabilité d'une prévision sans erreur est de 95,5 % ou plus. Cela signifie que la valeur de l'indicateur obtenu à partir de la population échantillon doit être retrouvée dans la population générale dans au moins 95,5 % des cas.

    Questions sur le sujet de la leçon :

    Pertinence des indicateurs de diversité des traits dans une population statistique.

    Caractéristiques générales des indicateurs de variation absolue.

    Écart type, calcul, application.

    Mesures relatives de variation.

    Score médian, quartile.

    Évaluer la signification statistique des résultats de l'étude.

    Erreur type de la moyenne arithmétique, formule de calcul, exemple d'utilisation.

    Calcul de la proportion et de son erreur type.

    Le concept de probabilité de confiance, un exemple d'utilisation.

10. La notion d'intervalle de confiance, son application.

    Testez des tâches sur le sujet avec des réponses standard :

1. INDICATEURS ABSOLUS DE VARIATION SE REFERENT A

1) coefficient de variation

2) coefficient d'oscillation

4) médiane

2. INDICATEURS RELATIFS DE VARIATION SE REFERENT A

1) écart

4) coefficient de variation

3. CRITÈRE QUI EST DÉTERMINÉ PAR LES VALEURS EXTRÊMES D'UNE OPTION DANS UNE SÉRIE DE VARIATION

2) amplitude

3) dispersion

4) coefficient de variation

4. LA DIFFÉRENCE DES OPTIONS EXTRÊMES EST

2) amplitude

3) moyenne écart type

4) coefficient de variation

5. LE CARRÉ MOYEN DES ÉVIATIONS DES VALEURS INDIVIDUELLES D'UNE CARACTÉRISTIQUE PAR RAPPORT À SES VALEURS MOYENNES EST

1) coefficient d'oscillation

2) médiane

3) dispersion

6. LE RAPPORT DE L'ÉCHELLE DE VARIATION À LA VALEUR MOYENNE D'UN PERSONNAGE EST

1) coefficient de variation

2) écart type

4) coefficient d'oscillation

7. LE RAPPORT DE L'ÉCART CARRÉ MOYEN À LA VALEUR MOYENNE D'UNE CARACTÉRISTIQUE EST

1) écart

2) coefficient de variation

3) coefficient d'oscillation

4) amplitude

8. L'OPTION QUI EST AU MILIEU DE LA SÉRIE DE VARIATION ET LA DIVISE EN DEUX PARTIES ÉGALES EST

1) médiane

3) amplitude

9. DANS LA RECHERCHE MÉDICALE, LORS DE L'ÉTABLISSEMENT DE LIMITES DE CONFIANCE POUR TOUT INDICATEUR, LA PROBABILITÉ D'UNE PRÉVISION SANS ERREUR EST ACCEPTÉE

10. SI 90 ÉCHANTILLONS SUR 100 DONNENT L'ESTIMATION CORRECTE D'UN PARAMÈTRE DANS LA POPULATION, CELA SIGNIFIE QUE LA PROBABILITÉ DE CONFIANCE P.ÉGAL

11. SI 10 ÉCHANTILLONS SUR 100 DONNENT UNE ESTIMATION INCORRECTE, LA PROBABILITÉ D'ERREUR EST ÉGALE

12. LIMITES DES VALEURS MOYENNES OU RELATIVES, AU-DELÀ DEQUELLES, EN RAISON D'OSCILLATIONS ALÉATOIRES, A UNE FAIBLE PROBABILITÉ – CECI EST

1) intervalle de confiance

2) amplitude

4) coefficient de variation

13. UN PETIT ÉCHANTILLON EST CONSIDÉRÉ CETTE POPULATION DANS LAQUELLE

1) n est inférieur ou égal à 100

2) n est inférieur ou égal à 30

3) n est inférieur ou égal à 40

4) n est proche de 0

14. POUR LA PROBABILITÉ D'UNE PRÉVISION SANS ERREUR VALEUR DU CRITÈRE 95 % t EST

15. POUR LA PROBABILITÉ D'UNE PRÉVISION SANS ERREUR VALEUR DU CRITÈRE 99 % t EST

16. POUR DES DISTRIBUTIONS PROCHES DE LA NORMALE, LA POPULATION EST CONSIDÉRÉE HOMOGÈNE SI LE COEFFICIENT DE VARIATION NE DÉPASSE PAS

17. OPTION, OPTIONS DE SÉPARATION, DONT LES VALEURS NUMÉRIQUES NE DÉPASSENT PAS 25% DU MAXIMUM POSSIBLE DANS UNE SÉRIE DONNÉE – CECI EST

2) quartile inférieur

3) quartile supérieur

4) quartile

18. LES DONNÉES QUI NE DÉFORMENT PAS ET REFLÈTENT CORRECTEMENT LA RÉALITÉ OBJECTIVE SONT APPELÉES

1) impossible

2) également possible

3) fiable

4) aléatoire

19. SELON LA RÈGLE DES « TROIS Sigma », AVEC DISTRIBUTION NORMALE D'UNE CARACTÉRISTIQUE À L'INTÉRIEUR
SERA SITUÉ

1) Option 68,3%

L'écart type est un indicateur classique de variabilité des statistiques descriptives.

Écart type, écart type, L'écart type, l'écart type de l'échantillon (eng. écart type, STD, STDev) est un indicateur de dispersion très courant dans les statistiques descriptives. Mais, parce que l'analyse technique s'apparente à des statistiques ; cet indicateur peut (et doit) être utilisé en analyse technique pour détecter le degré de dispersion du prix de l'instrument analysé dans le temps. Désigné par le symbole grec Sigma "σ".

Merci à Carl Gauss et Pearson de nous avoir permis d'utiliser l'écart type.

En utilisant écart type en analyse technique, on tourne ça "indice de dispersion""V "indicateur de volatilité», en conservant le sens, mais en changeant les termes.

Qu'est-ce que l'écart type

Mais outre les calculs auxiliaires intermédiaires, l'écart type est tout à fait acceptable pour un calcul indépendant et applications en analyse technique. Comme l’a noté un lecteur actif de notre magazine bardane : « Je ne comprends toujours pas pourquoi l'écart type n'est pas inclus dans l'ensemble des indicateurs standard des centres de négociation nationaux«.

Vraiment, l’écart type permet de mesurer la variabilité d’un instrument de manière classique et « pure ». Mais malheureusement, cet indicateur n'est pas si courant dans l'analyse des titres.

Application de l'écart type

Calculer manuellement l'écart type n'est pas très intéressant, mais utile pour l'expérience. L'écart type peut être exprimé formule STD=√[(∑(x-x ) 2)/n] , qui ressemble à la racine de la somme des carrés des différences entre les éléments de l'échantillon et la moyenne, divisée par le nombre d'éléments dans l'échantillon.

Si le nombre d'éléments dans l'échantillon dépasse 30, alors le dénominateur de la fraction sous la racine prend la valeur n-1. Sinon, n est utilisé.

Pas à pas calcul de l'écart type:

  1. calculer la moyenne arithmétique de l'échantillon de données
  2. soustraire cette moyenne de chaque élément de l'échantillon
  3. nous mettons au carré toutes les différences qui en résultent
  4. résumer tous les carrés résultants
  5. divisez le montant obtenu par le nombre d'éléments dans l'échantillon (ou par n-1, si n>30)
  6. calculer la racine carrée du quotient résultant (appelé dispersion)

La caractéristique la plus parfaite de la variation est l’écart carré moyen, appelé standard (ou écart type). Écart type() est égal à la racine carrée de l'écart carré moyen des valeurs individuelles de l'attribut par rapport à la moyenne arithmétique :

L’écart type est simple :

L'écart type pondéré est appliqué aux données groupées :

Entre le carré moyen et les écarts linéaires moyens dans des conditions distribution normale on obtient le rapport suivant : ~ 1,25.

L'écart type, étant la principale mesure absolue de variation, est utilisé pour déterminer les valeurs ordonnées d'une courbe de distribution normale, dans les calculs liés à l'organisation de l'observation des échantillons et à l'établissement de l'exactitude des caractéristiques de l'échantillon, ainsi que pour évaluer la limites de variation d’une caractéristique dans une population homogène.

Dispersion, ses types, écart type.

Variance d'une variable aléatoire— une mesure de la propagation d'une variable aléatoire donnée, c'est-à-dire son écart par rapport à espérance mathématique. En statistiques, la notation ou est souvent utilisée. Racine carrée de la variance est appelé écart type, écart type ou écart standard.

Écart total (σ 2) mesure la variation d'un trait dans son intégralité sous l'influence de tous les facteurs ayant provoqué cette variation. Parallèlement, grâce à la méthode de regroupement, il est possible d'identifier et de mesurer la variation due à la caractéristique de regroupement et la variation survenant sous l'influence de facteurs non pris en compte.

Variation intergroupe (σ 2 m.gr) caractérise la variation systématique, c'est-à-dire les différences dans la valeur de la caractéristique étudiée qui surviennent sous l'influence de la caractéristique - le facteur qui constitue la base du groupe.

Écart type(synonymes : écart type, écart type, écart carré ; termes associés : écart type, écart type) - en théorie des probabilités et statistiques, l'indicateur le plus courant de la dispersion des valeurs d'une variable aléatoire par rapport à son espérance mathématique. Avec des tableaux limités de valeurs d’échantillon, la moyenne arithmétique de l’ensemble d’échantillons est utilisée à la place de l’espérance mathématique.

L'écart type est mesuré en unités de la variable aléatoire elle-même et est utilisé lors du calcul de l'erreur type de la moyenne arithmétique, lors de la construction d'intervalles de confiance, lors du test statistique d'hypothèses, lors de la mesure de la relation linéaire entre des variables aléatoires. Défini comme la racine carrée de la variance d'une variable aléatoire.


Écart type :

Écart type(estimation de l'écart type d'une variable aléatoire x par rapport à son espérance mathématique basée sur une estimation impartiale de sa variance) :

où est la dispersion ; — jeème élément de la sélection ; — taille de l'échantillon; — moyenne arithmétique de l'échantillon:

Il convient de noter que les deux estimations sont biaisées. DANS cas général Il est impossible de construire une estimation impartiale. Cependant, l'estimation basée sur l'estimation de la variance sans biais est cohérente.

Essence, portée et procédure de détermination du mode et de la médiane.

En plus des moyennes de puissance dans les statistiques pour les caractéristiques relatives de la valeur d'une caractéristique variable et structure interne les séries de distribution utilisent des moyennes structurelles, qui sont principalement représentées par mode et médiane.

Mode- C'est la variante la plus courante de la série. La mode est utilisée, par exemple, pour déterminer la taille des vêtements et des chaussures les plus demandés par les clients. Le mode d'une série discrète est celui avec la fréquence la plus élevée. Lors du calcul du mode pour une série de variations d'intervalle, vous devez d'abord déterminer l'intervalle modal (en fonction de la fréquence maximale), puis la valeur de la valeur modale de l'attribut à l'aide de la formule :

- - valeur de la mode

- — limite inférieure de l'intervalle modal

- — valeur d'intervalle

- — fréquence de l'intervalle modal

- — fréquence de l'intervalle précédant le modal

- — fréquence de l'intervalle suivant le modal

Médiane - c'est la valeur de l'attribut qui sous-tend la série classée et divise cette série en deux parties égales.

Pour déterminer la médiane dans une série discrète en présence de fréquences, calculez d'abord la demi-somme des fréquences, puis déterminez quelle valeur de la variante lui correspond. (Si la série triée contient un nombre impair d'entités, alors le nombre médian est calculé à l'aide de la formule :

M e = (n (nombre de fonctionnalités au total) + 1)/2,

dans le cas d'un nombre pair d'entités, la médiane sera égale à la moyenne des deux entités du milieu de la ligne).

Lors du calcul médianes pour une série de variations d'intervalles, déterminez d'abord l'intervalle médian dans lequel se situe la médiane, puis déterminez la valeur de la médiane à l'aide de la formule :

- — la médiane requise

- - limite inférieure de l'intervalle qui contient la médiane

- — valeur d'intervalle

- — somme de fréquences ou nombre de termes de série

Somme des fréquences cumulées des intervalles précédant la médiane

- — fréquence de l'intervalle médian

Exemple. Trouvez le mode et la médiane.

Solution:
DANS dans cet exemple l'intervalle modal se situe dans la tranche d'âge de 25 à 30 ans, puisque cet intervalle représente la fréquence la plus élevée (1054).

Calculons l'ampleur du mode :

Cela signifie que l'âge modal des étudiants est de 27 ans.

Calculons la médiane. L'intervalle médian se situe dans la tranche d'âge des 25-30 ans, car dans cet intervalle il existe une option qui divise la population en deux parties égales (Σf i /2 = 3462/2 = 1731). Ensuite, nous substituons les données numériques nécessaires dans la formule et obtenons la valeur médiane :

Cela signifie que la moitié des étudiants ont moins de 27,4 ans et l’autre moitié plus de 27,4 ans.

En plus du mode et de la médiane, des indicateurs tels que les quartiles peuvent être utilisés, divisant la série classée en 4 parties égales, déciles- 10 parties et centiles - pour 100 parties.

Le concept d'observation sélective et sa portée.

Observation sélective s’applique lorsque le recours à la surveillance continue physiquement impossible en raison d'une grande quantité de données ou pas économiquement réalisable. L'impossibilité physique se produit, par exemple, lors de l'étude des flux de passagers, des prix du marché et des budgets familiaux. L'inopportunité économique se produit lors de l'évaluation de la qualité des biens associés à leur destruction, par exemple lors de la dégustation, du test de la résistance des briques, etc.

Les unités statistiques sélectionnées pour l'observation constituent la base de sondage ou l'échantillon, et l'ensemble de leur ensemble constitue la population générale (GS). Dans ce cas, le nombre d'unités dans l'échantillon est noté n, et dans l'ensemble du SH - N. Attitude n/N appelé la taille relative ou la proportion de l’échantillon.

La qualité des résultats de l'observation de l'échantillon dépend de la représentativité de l'échantillon, c'est-à-dire de sa représentativité au sein du SH. Pour garantir la représentativité de l'échantillon, il est nécessaire de respecter principe de sélection aléatoire des unités, qui suppose que l’inclusion d’une unité HS dans l’échantillon ne peut être influencée par aucun facteur autre que le hasard.

Existe 4 façons de sélection aléatoireà déguster :

  1. En fait aléatoire sélection ou « méthode du loto », lorsque des quantités statistiques se voient attribuer des numéros de série, enregistrés sur certains objets (par exemple, des barils), qui sont ensuite mélangés dans un récipient (par exemple, dans un sac) et sélectionnés au hasard. En pratique, cette méthode est réalisée à l'aide d'un générateur nombres aléatoires ou des tableaux mathématiques de nombres aléatoires.
  2. Mécanique sélection selon laquelle chacun ( N/n)-ième valeur de la population générale. Par exemple, s'il contient 100 000 valeurs et que vous devez en sélectionner 1 000, alors tous les 100 000/1 000 = 100e valeur seront inclus dans l'échantillon. De plus, s'ils ne sont pas classés, alors le premier est choisi au hasard parmi les cent premiers, et les nombres des autres seront cent plus élevés. Par exemple, si la première unité était le n° 19, alors la suivante devrait être le n° 119, puis le n° 219, puis le n° 319, etc. Si les unités de population sont classées, alors le n° 50 est sélectionné en premier, puis le n° 150, puis le n° 250, et ainsi de suite.
  3. La sélection des valeurs à partir d'un tableau de données hétérogène est effectuée stratifié(stratifiée), lorsque la population est d'abord divisée en groupes homogènes auxquels est appliquée une sélection aléatoire ou mécanique.
  4. Une méthode d'échantillonnage spéciale est en série sélection, dans laquelle ils sélectionnent de manière aléatoire ou mécanique non pas des valeurs individuelles, mais leur série (séquences d'un certain nombre à un certain nombre d'affilée), au sein de laquelle une observation continue est effectuée.

La qualité des observations des échantillons dépend également de type d'échantillon: répété ou irremplaçable.

À re-sélection Les valeurs statistiques ou leurs séries incluses dans l'échantillon sont restituées à la population générale après utilisation, ayant une chance d'être incluses dans un nouvel échantillon. De plus, toutes les valeurs de la population ont la même probabilité d'être incluses dans l'échantillon.

Sélection répétée signifie que les valeurs statistiques ou leurs séries incluses dans l'échantillon ne reviennent pas à la population générale après utilisation, et donc pour les valeurs restantes de cette dernière la probabilité d'être incluse dans l'échantillon suivant augmente.

L'échantillonnage non répétitif donne des résultats plus précis et est donc utilisé plus souvent. Mais il y a des situations où elle ne peut pas être appliquée (étude des flux de passagers, demande des consommateurs, etc.) et alors une sélection répétée est effectuée.

Erreur d'échantillonnage d'observation maximale, erreur d'échantillonnage moyenne, procédure de calcul.

Examinons en détail les méthodes de constitution d'un échantillon de population énumérées ci-dessus et les erreurs qui surviennent lors de cette opération. représentativité .
Correctement aléatoire l'échantillonnage est basé sur la sélection aléatoire d'unités dans la population, sans aucun élément systématique. Techniquement, la véritable sélection aléatoire s'effectue par tirage au sort (par exemple, loteries) ou à l'aide d'un tableau de nombres aléatoires.

La sélection aléatoire appropriée « sous sa forme pure » est rarement utilisée dans la pratique de l'observation sélective, mais elle est originale parmi d'autres types de sélection, elle met en œuvre les principes de base de l'observation sélective. Considérons quelques questions sur la théorie de la méthode d'échantillonnage et la formule d'erreur pour un échantillon aléatoire simple.

Biais d'échantillonnage est la différence entre la valeur du paramètre dans la population générale et sa valeur calculée à partir des résultats de l'observation d'un échantillon. Pour une caractéristique quantitative moyenne, l'erreur d'échantillonnage est déterminée par

L'indicateur est appelé erreur d'échantillonnage marginale.
La moyenne de l'échantillon est une variable aléatoire qui peut prendre différentes significations en fonction des unités incluses dans l'échantillon. Par conséquent, les erreurs d’échantillonnage sont également des variables aléatoires et peuvent prendre différentes valeurs. Déterminons donc la moyenne de erreurs possibles - erreur d'échantillonnage moyenne, qui dépend de :

Taille de l’échantillon : plus le nombre est grand, plus l’erreur moyenne est faible ;

Le degré de changement de la caractéristique étudiée : plus la variation de la caractéristique et, par conséquent, la dispersion est faible, plus l'erreur d'échantillonnage moyenne est faible.

À resélection aléatoire l'erreur moyenne est calculée :
.
En pratique, la variance générale n'est pas connue avec précision, mais en théorie des probabilités il a été prouvé que
.
Puisque la valeur d’un n suffisamment grand est proche de 1, nous pouvons supposer que . Ensuite, l’erreur d’échantillonnage moyenne peut être calculée :
.
Mais dans le cas d'un petit échantillon (avec n<30) коэффициент необходимо учитывать, и среднюю ошибку малой выборки рассчитывать по формуле
.

À échantillonnage aléatoire non répétitif les formules données sont ajustées par la valeur . L’erreur d’échantillonnage non répétitive moyenne est alors :
Et .
Parce que est toujours inférieur, alors le multiplicateur () est toujours inférieur à 1. Cela signifie que l'erreur moyenne lors d'une sélection non répétitive est toujours inférieure à celle lors d'une sélection répétée.
Échantillonnage mécanique est utilisé lorsque la population générale est classée d'une manière ou d'une autre (par exemple, listes électorales alphabétiques, numéros de téléphone, numéros de maison, numéros d'appartement). La sélection des unités est effectuée à un certain intervalle, qui est égal à l'inverse du pourcentage d'échantillonnage. Ainsi, avec un échantillon de 2 %, chaque 50 unités = 1/0,02 est sélectionnée, avec un échantillon de 5 %, chaque 1/0,05 = 20 unités de la population générale.

Le point de référence est choisi de différentes manières : aléatoirement, à partir du milieu de l'intervalle, avec un changement du point de référence. L'essentiel est d'éviter les erreurs systématiques. Par exemple, avec un échantillon de 5 %, si la première unité est la 13, alors les suivantes sont 33, 53, 73, etc.

En termes de précision, la sélection mécanique est proche de l’échantillonnage aléatoire réel. Par conséquent, pour déterminer l’erreur moyenne de l’échantillonnage mécanique, des formules de sélection aléatoire appropriées sont utilisées.

À sélection typique la population enquêtée est préalablement divisée en groupes homogènes et similaires. Par exemple, lors d'une enquête sur les entreprises, il peut s'agir d'industries, de sous-secteurs ; lors d'une étude de population, il peut s'agir de régions, de groupes sociaux ou d'âge. Ensuite, une sélection indépendante dans chaque groupe est effectuée mécaniquement ou de manière purement aléatoire.

L'échantillonnage typique produit des résultats plus précis que les autres méthodes. Le typage de la population générale garantit que chaque groupe typologique est représenté dans l'échantillon, ce qui élimine l'influence de la variance intergroupe sur l'erreur d'échantillonnage moyenne. Par conséquent, pour trouver l'erreur d'un échantillon typique selon la règle d'addition des variances (), il est nécessaire de prendre en compte uniquement la moyenne des variances de groupe. L’erreur d’échantillonnage moyenne est alors :
lors de la re-sélection
,
avec sélection non répétitive
,
- la moyenne des variances intra-groupe dans l'échantillon.

Sélection en série (ou en nid) utilisé lorsque la population est divisée en séries ou en groupes avant le début de l’enquête par sondage. Ces séries peuvent être des emballages de produits finis, des groupes d'étudiants, des équipes. Les séries à examiner sont sélectionnées mécaniquement ou de manière purement aléatoire et, au sein de la série, un examen continu des unités est effectué. Par conséquent, l'erreur d'échantillonnage moyenne dépend uniquement de la variance intergroupes (interséries), qui est calculée à l'aide de la formule :

où r est le nombre de séries sélectionnées ;
- moyenne de la i-ème série.

L'erreur d'échantillonnage en série moyenne est calculée :

lors de la re-sélection :
,
avec sélection non répétitive :
,
où R est le nombre total d'épisodes.

Combiné sélection est une combinaison des méthodes de sélection considérées.

L’erreur d’échantillonnage moyenne pour toute méthode d’échantillonnage dépend principalement de la taille absolue de l’échantillon et, dans une moindre mesure, du pourcentage de l’échantillon. Supposons que 225 observations soient réalisées dans le premier cas à partir d'une population de 4 500 unités et dans le second à partir d'une population de 225 000 unités. Les variances dans les deux cas sont égales à 25. Alors dans le premier cas, avec une sélection de 5 %, l'erreur d'échantillonnage sera :

Dans le deuxième cas, avec une sélection de 0,1%, il sera égal à :


Ainsi, avec une diminution du pourcentage d'échantillonnage de 50 fois, l'erreur d'échantillonnage a légèrement augmenté, car la taille de l'échantillon n'a pas changé.
Supposons que la taille de l'échantillon soit augmentée à 625 observations. Dans ce cas, l’erreur d’échantillonnage est :

Augmenter l'échantillon de 2,8 fois avec la même taille de population réduit la taille de l'erreur d'échantillonnage de plus de 1,6 fois.

Méthodes et méthodes de constitution d'un échantillon de population.

En statistique, diverses méthodes de constitution d'échantillons de populations sont utilisées, qui sont déterminées par les objectifs de l'étude et dépendent des spécificités de l'objet d'étude.

La principale condition pour mener une enquête par sondage est d'éviter l'apparition d'erreurs systématiques résultant de la violation du principe d'égalité des chances pour chaque unité de la population générale d'être incluse dans l'échantillon. La prévention des erreurs systématiques est obtenue grâce à l'utilisation de méthodes scientifiquement fondées pour constituer un échantillon de population.

Il existe les méthodes suivantes pour sélectionner des unités dans la population :

1) sélection individuelle - des unités individuelles sont sélectionnées pour l'échantillon ;

2) sélection de groupe - l'échantillon comprend des groupes ou des séries d'unités qualitativement homogènes étudiés ;

3) la sélection combinée est une combinaison de sélection individuelle et de groupe.
Les méthodes de sélection sont déterminées par les règles de constitution d'un échantillon de population.

L'échantillon pourrait être :

  • en fait aléatoire consiste dans le fait que la population échantillon est formée à la suite d'une sélection aléatoire (involontaire) d'unités individuelles dans la population générale. Dans ce cas, le nombre d'unités sélectionnées dans l'échantillon de population est généralement déterminé sur la base de la proportion d'échantillon acceptée. La proportion d'échantillon est le rapport entre le nombre d'unités dans la population échantillon n et le nombre d'unités dans la population générale N, c'est-à-dire
  • mécanique consiste dans le fait que la sélection des unités de la population échantillon se fait à partir de la population générale, divisée en intervalles égaux (groupes). Dans ce cas, la taille de l’intervalle dans la population est égale à l’inverse de la proportion de l’échantillon. Ainsi, avec un échantillon de 2 %, une unité sur 50 est sélectionnée (1 : 0,02), avec un échantillon de 5 %, une unité sur 20 (1 : 0,05), etc. Ainsi, conformément à la proportion admise de sélection, la population générale est pour ainsi dire mécaniquement divisée en groupes de taille égale. Dans chaque groupe, une seule unité est sélectionnée pour l'échantillon.
  • typique - dans lequel la population générale est d'abord divisée en groupes typiques homogènes. Ensuite, à partir de chaque groupe typique, un échantillon purement aléatoire ou mécanique est utilisé pour sélectionner individuellement des unités dans l'échantillon de population. Une caractéristique importante d'un échantillon typique est qu'il donne des résultats plus précis par rapport à d'autres méthodes de sélection d'unités dans la population échantillonnée ;
  • en série- dans laquelle la population générale est divisée en groupes de taille égale - séries. Les séries sont sélectionnées dans la population échantillon. Au sein de la série, une observation continue des unités incluses dans la série est effectuée ;
  • combiné- l'échantillonnage peut être en deux étapes. Dans ce cas, la population est d'abord divisée en groupes. Ensuite, les groupes sont sélectionnés et, au sein de ces derniers, les unités individuelles sont sélectionnées.

En statistiques, on distingue les méthodes suivantes pour sélectionner des unités dans un échantillon de population ::

  • un seul étageéchantillonnage - chaque unité sélectionnée est immédiatement soumise à une étude selon un critère donné (échantillonnage aléatoire et en série approprié) ;
  • à plusieurs étageséchantillonnage - une sélection est effectuée parmi la population générale des groupes individuels et des unités individuelles sont sélectionnées parmi les groupes (échantillonnage typique avec une méthode mécanique de sélection d'unités dans l'échantillon de population).

De plus, il y a :

  • re-sélection- selon le schéma de la balle renvoyée. Dans ce cas, chaque unité ou série incluse dans l'échantillon est restituée à la population générale et a donc une chance d'être à nouveau incluse dans l'échantillon ;
  • répéter la sélection- selon le schéma de la balle non restituée. Il donne des résultats plus précis avec la même taille d’échantillon.

Détermination de la taille d'échantillon requise (à l'aide d'une table T de Student).

L'un des principes scientifiques de la théorie de l'échantillonnage est de garantir qu'un nombre suffisant d'unités sont sélectionnées. Théoriquement, la nécessité de respecter ce principe est présentée dans les preuves des théorèmes limites en théorie des probabilités, qui permettent d'établir quel volume d'unités doit être sélectionné dans la population pour qu'il soit suffisant et assure la représentativité de l'échantillon.

Une diminution de l'erreur type d'échantillonnage, et donc une augmentation de la précision de l'estimation, est toujours associée à une augmentation de la taille de l'échantillon. Par conséquent, déjà au stade de l'organisation de l'observation de l'échantillon, il est nécessaire de décider quelle est la taille de la population de l'échantillon doit être adaptée afin de garantir l'exactitude requise des résultats d'observation. Le calcul de la taille d'échantillon requise est construit à l'aide de formules dérivées des formules des erreurs d'échantillonnage maximales (A), correspondant à un type et une méthode de sélection particuliers. Ainsi, pour une taille d’échantillon répétée aléatoire (n), nous avons :

L'essence de cette formule est qu'avec une sélection aléatoire et répétée du nombre requis, la taille de l'échantillon est directement proportionnelle au carré du coefficient de confiance. (t2) et la variance de la caractéristique variationnelle (?2) et est inversement proportionnelle au carré de l'erreur d'échantillonnage maximale (?2). En particulier, avec une augmentation de l'erreur maximale d'un facteur deux, la taille de l'échantillon requise peut être réduite d'un facteur quatre. Parmi les trois paramètres, deux (t et ?) sont fixés par le chercheur.

Parallèlement, le chercheur, s'appuyant sur A partir du but et des objectifs de l'enquête par sondage, la question doit être résolue : dans quelle combinaison quantitative est-il préférable d'inclure ces paramètres pour garantir l'option optimale ? Dans un cas, il peut être plus satisfait de la fiabilité des résultats obtenus (t) que de la mesure de l'exactitude (?), dans un autre - vice versa. Il est plus difficile de résoudre le problème de la valeur de l'erreur d'échantillonnage maximale, puisque le chercheur ne dispose pas de cet indicateur au stade de la conception de l'observation de l'échantillon, il est donc d'usage en pratique de fixer la valeur de l'erreur d'échantillonnage maximale, généralement à moins de 10 % du niveau moyen attendu de l'attribut. L'établissement de la moyenne estimée peut être abordé de différentes manières : en utilisant les données d'enquêtes précédentes similaires, ou en utilisant les données de la base d'échantillonnage et en réalisant un petit échantillon pilote.

La chose la plus difficile à établir lors de la conception d'une observation d'échantillon est le troisième paramètre de la formule (5.2) - la dispersion de la population échantillon. Dans ce cas, il est nécessaire d'utiliser toutes les informations dont dispose le chercheur, obtenues lors d'enquêtes similaires et pilotes préalablement menées.

Question sur la définition la taille d’échantillon requise devient plus compliquée si l’enquête par sondage implique l’étude de plusieurs caractéristiques des unités d’échantillonnage. Dans ce cas, les niveaux moyens de chacune des caractéristiques et leur variation, en règle générale, sont différents et, par conséquent, décider quelle variance de laquelle des caractéristiques privilégier n'est possible qu'en tenant compte du but et des objectifs du enquête.

Lors de la conception d'un échantillon d'observation, une valeur prédéterminée de l'erreur d'échantillonnage tolérée est supposée conformément aux objectifs d'une étude particulière et à la probabilité de conclusions basées sur les résultats de l'observation.

En général, la formule de l'erreur maximale de la moyenne de l'échantillon permet de déterminer :

L'ampleur des écarts possibles des indicateurs de la population générale par rapport aux indicateurs de la population échantillonnée ;

La taille d'échantillon requise, garantissant la précision requise, à laquelle les limites d'erreur possible ne dépasseront pas une certaine valeur spécifiée ;

La probabilité que l'erreur dans l'échantillon ait une limite spécifiée.

Répartition des étudiants en théorie des probabilités, il s'agit d'une famille à un paramètre de distributions absolument continues.

Série dynamique (intervalle, moment), série dynamique de clôture.

Série Dynamique- ce sont les valeurs des indicateurs statistiques qui sont présentées dans un certain ordre chronologique.

Chaque série chronologique contient deux composants :

1) indicateurs de périodes (années, trimestres, mois, jours ou dates) ;

2) des indicateurs caractérisant l'objet étudié pour des périodes de temps ou des dates correspondantes, appelés niveaux de série.

Les niveaux de la série sont exprimés valeurs absolues et moyennes ou relatives. Selon la nature des indicateurs, des séries chronologiques de valeurs absolues, relatives et moyennes sont construites. Les séries dynamiques à partir de valeurs relatives et moyennes sont construites sur la base de séries dérivées de valeurs absolues. Il existe des séries de dynamiques d’intervalles et de moments.

Série d'intervalles dynamiques contient des valeurs d'indicateur pour certaines périodes de temps. Dans une série d'intervalles, les niveaux peuvent être additionnés pour obtenir le volume du phénomène sur une période plus longue, ou les totaux dits accumulés.

Série de moments dynamiques reflète les valeurs des indicateurs à un moment donné (date et heure). Dans les séries de moments, le chercheur ne peut s'intéresser qu'à la différence de phénomènes qui reflète l'évolution du niveau de la série entre certaines dates, puisque la somme des niveaux n'a ici aucun contenu réel. Les totaux cumulatifs ne sont pas calculés ici.

La condition la plus importante pour la construction correcte des séries chronologiques est la comparabilité des niveaux de séries appartenant à différentes périodes. Les niveaux doivent être présentés en quantités homogènes et il doit y avoir une couverture égale et complète des différentes parties du phénomène.

Pour Pour éviter toute distorsion de la dynamique réelle, dans une étude statistique, des calculs préliminaires sont effectués (clôture de la série dynamique), qui précèdent l'analyse statistique de la série chronologique. La fermeture de séries dynamiques s'entend comme la combinaison en une seule série de deux ou plusieurs séries dont les niveaux sont calculés selon des méthodologies différentes ou ne correspondent pas aux frontières territoriales, etc. Clôturer la série dynamique peut également impliquer de ramener les niveaux absolus de la série dynamique à une base commune, ce qui neutralise le caractère incomparable des niveaux de la série dynamique.

Le concept de comparabilité des séries dynamiques, des coefficients, de la croissance et des taux de croissance.

Série Dynamique— il s'agit d'une série d'indicateurs statistiques caractérisant l'évolution des phénomènes naturels et sociaux au fil du temps. Les collections statistiques publiées par le Comité national des statistiques de Russie contiennent un grand nombre de séries dynamiques sous forme de tableaux. Les séries dynamiques permettent d'identifier des schémas d'évolution des phénomènes étudiés.

Les séries Dynamics contiennent deux types d’indicateurs. Indicateurs de temps(années, trimestres, mois, etc.) ou à des moments précis (au début de l'année, au début de chaque mois, etc.). Indicateurs de niveau de ligne. Les indicateurs des niveaux de dynamique des séries peuvent être exprimés en valeurs absolues (production de produits en tonnes ou en roubles), en valeurs relatives (part de la population urbaine en %) et en valeurs moyennes (salaires moyens des travailleurs de l'industrie par année , etc.). Sous forme de tableau, une série chronologique contient deux colonnes ou deux lignes.

La construction correcte de séries chronologiques nécessite le respect d'un certain nombre d'exigences :

  1. tous les indicateurs d’une série de dynamiques doivent être scientifiquement fondés et fiables ;
  2. les indicateurs d'une série de dynamiques doivent être comparables dans le temps, c'est-à-dire doivent être calculés pour les mêmes périodes ou aux mêmes dates ;
  3. les indicateurs de plusieurs dynamiques doivent être comparables sur l'ensemble du territoire ;
  4. les indicateurs d'une série de dynamiques doivent être comparables dans leur contenu, c'est-à-dire calculé selon une méthodologie unique, de la même manière ;
  5. les indicateurs d’un certain nombre de dynamiques doivent être comparables dans l’ensemble des exploitations agricoles prises en compte. Tous les indicateurs d'une série de dynamiques doivent être donnés dans les mêmes unités de mesure.

Indicateurs statistiques peut caractériser soit les résultats du processus étudié sur une période de temps, soit l'état du phénomène étudié à un moment donné, c'est-à-dire les indicateurs peuvent être à intervalles (périodiques) et momentanés. En conséquence, initialement, la série dynamique peut être soit intermittente, soit momentanée. Les séries de dynamiques de moments, à leur tour, peuvent avoir des intervalles de temps égaux ou inégaux.

La série dynamique originale peut être transformée en une série de valeurs moyennes et une série de valeurs relatives (chaîne et base). De telles séries chronologiques sont appelées séries chronologiques dérivées.

La méthodologie de calcul du niveau moyen dans la série dynamique est différente selon le type de série dynamique. À l'aide d'exemples, nous examinerons les types de séries dynamiques et les formules de calcul du niveau moyen.

Augmentations absolues (Δy) montrent de combien d'unités le niveau suivant de la série a changé par rapport au précédent (gr. 3. - augmentations absolues en chaîne) ou par rapport au niveau initial (gr. 4. - augmentations absolues de base). Les formules de calcul peuvent s'écrire comme suit :

Lorsque les valeurs absolues de la série diminuent, il y aura respectivement une « diminution » ou une « diminution ».

Les indicateurs de croissance absolue indiquent que, par exemple, en 1998, la production du produit « A » a augmenté de 4 000 tonnes par rapport à 1997 et de 34 000 tonnes par rapport à 1994 ; pour les autres années, voir tableau. 11,5 grammes. 3 et 4.

Taux de croissance montre combien de fois le niveau de la série a changé par rapport au précédent (gr. 5 - coefficients de chaîne de croissance ou de déclin) ou par rapport au niveau initial (gr. 6 - coefficients de base de croissance ou de déclin). Les formules de calcul peuvent s'écrire comme suit :

Taux de croissance montrer quel pourcentage le niveau suivant de la série est par rapport au précédent (gr. 7 - taux de croissance en chaîne) ou par rapport au niveau initial (gr. 8 - taux de croissance de base). Les formules de calcul peuvent s'écrire comme suit :

Ainsi, par exemple, en 1997, le volume de production du produit « A » par rapport à 1996 était de 105,5 % (

Taux de croissance montrez de quel pourcentage le niveau de la période de référence a augmenté par rapport à la précédente (colonne 9 - taux de croissance en chaîne) ou par rapport au niveau initial (colonne 10 - taux de croissance de base). Les formules de calcul peuvent s'écrire comme suit :

T pr = T r - 100 % ou T pr = croissance absolue / niveau de la période précédente * 100 %

Ainsi, par exemple, en 1996, par rapport à 1995, le produit « A » a été produit à hauteur de 3,8 % (103,8 % - 100 %) ou (8 : 210) x 100 % de plus, et par rapport à 1994 - de 9 % (109 % - 100 %).

Si les niveaux absolus de la série diminuent, alors le taux sera inférieur à 100 % et, par conséquent, il y aura un taux de déclin (le taux d'augmentation avec un signe moins).

Valeur absolue d'augmentation de 1%(colonne 11) indique combien d'unités doivent être produites dans une période donnée pour que le niveau de la période précédente augmente de 1 %. Dans notre exemple, en 1995, il fallait produire 2,0 mille tonnes, et en 1998 - 2,3 mille tonnes, soit bien plus.

La valeur absolue de 1 % de croissance peut être déterminée de deux manières :

Le niveau de la période précédente est divisé par 100 ;

Les augmentations absolues de la chaîne sont divisées par les taux de croissance de la chaîne correspondants.

Valeur absolue d'augmentation de 1% =

En dynamique, notamment sur une longue période, une analyse conjointe du taux de croissance avec le contenu de chaque pourcentage d'augmentation ou de diminution est importante.

A noter que la méthodologie envisagée pour analyser les séries chronologiques est applicable aussi bien pour les séries chronologiques dont les niveaux sont exprimés en valeurs absolues (t, milliers de roubles, nombre d'employés, etc.), que pour les séries chronologiques dont les niveaux sont exprimés en indicateurs relatifs (% de défauts, % teneur en cendres du charbon, etc.) ou en valeurs moyennes (rendement moyen en c/ha, salaire moyen, etc.).

Parallèlement aux indicateurs analytiques considérés, calculés pour chaque année par rapport au niveau précédent ou initial, lors de l'analyse des séries dynamiques, il est nécessaire de calculer les indicateurs analytiques moyens pour la période : le niveau moyen de la série, l'augmentation annuelle moyenne absolue (diminution) et le taux de croissance annuel moyen et le taux de croissance.

Les méthodes de calcul du niveau moyen d'une série de dynamiques ont été discutées ci-dessus. Dans la série de dynamique d'intervalle que nous considérons, le niveau moyen de la série est calculé à l'aide de la formule de moyenne arithmétique simple :

Volume de production annuel moyen du produit pour 1994-1998. s'élevait à 218,4 milliers de tonnes.

La croissance absolue annuelle moyenne est également calculée à l'aide de la simple formule de moyenne arithmétique :

Les augmentations annuelles absolues ont varié au fil des années entre 4 000 et 12 000 tonnes (voir colonne 3) et correspondent à l'augmentation annuelle moyenne de la production pour la période 1995-1998. s'élevait à 8,5 mille tonnes.

Les méthodes de calcul du taux de croissance moyen et du taux de croissance moyen nécessitent un examen plus détaillé. Considérons-les à l'aide de l'exemple des indicateurs au niveau des séries annuelles donnés dans le tableau.

Niveau moyen de la série dynamique.

Séries dynamiques (ou séries temporelles)- ce sont les valeurs numériques d'un certain indicateur statistique à des moments ou des périodes de temps successifs (c'est-à-dire classées par ordre chronologique).

Les valeurs numériques de l'un ou l'autre indicateur statistique qui compose la série dynamique sont appelées niveaux de série et est généralement désigné par la lettre oui. Premier terme de la série et 1 appelé initial ou niveau de base, et le dernier o n - final. Les moments ou périodes de temps auxquels se rapportent les niveaux sont désignés par t.

Les séries dynamiques sont généralement présentées sous la forme d'un tableau ou d'un graphique, et une échelle de temps est construite le long de l'axe des abscisses. t, et le long de l'ordonnée - l'échelle des niveaux de la série oui.

Indicateurs moyens de la série dynamique

Chaque série de dynamiques peut être considérée comme un certain ensemble n indicateurs variables dans le temps qui peuvent être résumés sous forme de moyennes. De tels indicateurs généralisés (moyens) sont particulièrement nécessaires pour comparer les évolutions d'un indicateur particulier sur différentes périodes, dans différents pays, etc.

Une caractéristique généralisée de la série dynamique peut servir, tout d'abord, niveau de la rangée du milieu. La méthode de calcul du niveau moyen dépend du fait que la série soit momentanée ou intermittente (périodique).

Au cas où intervalle d'une série, son niveau moyen est déterminé par la formule d'une moyenne arithmétique simple des niveaux de la série, c'est-à-dire

=
Si disponible moment ligne contenant n niveaux ( y1, y2, …, yn) avec des intervalles égaux entre les dates (heures), alors une telle série peut être facilement convertie en une série de valeurs moyennes. Dans ce cas, l'indicateur (niveau) au début de chaque période est simultanément l'indicateur de fin de la période précédente. Ensuite, la valeur moyenne de l'indicateur pour chaque période (l'intervalle entre les dates) peut être calculée comme la moitié de la somme des valeurs à en début et en fin de période, c'est-à-dire Comment . Le nombre de ces moyennes sera de . Comme indiqué précédemment, pour les séries de valeurs moyennes, le niveau moyen est calculé à l’aide de la moyenne arithmétique.

On peut donc écrire :
.
Après transformation du numérateur on obtient :
,

Y1 Et Oui— premier et dernier niveaux de la rangée ; Yi— niveaux intermédiaires.

Cette moyenne est connue dans les statistiques sous le nom chronologique moyenne pour la série moment. Il tire son nom du mot « cronos » (temps, latin), puisqu'il est calculé à partir d'indicateurs qui évoluent dans le temps.

En cas d'inégalité intervalles entre les dates, la moyenne chronologique d'une série de moments peut être calculée comme la moyenne arithmétique des valeurs moyennes des niveaux pour chaque paire de moments, pondérée par les distances (intervalles de temps) entre les dates, c'est-à-dire
.
Dans ce cas on suppose que dans les intervalles entre les dates, les niveaux ont pris des valeurs différentes, et nous sommes l'un des deux connus ( ouais Et oui+1), nous déterminons les moyennes, à partir desquelles nous calculons ensuite la moyenne globale pour l'ensemble de la période analysée.
Si l'on suppose que chaque valeur ouais reste inchangé jusqu'au prochain (je+ 1)- le moment, c'est-à-dire Si la date exacte du changement de niveaux est connue, le calcul peut être effectué à l'aide de la formule de la moyenne arithmétique pondérée :
,

où est le temps pendant lequel le niveau est resté inchangé.

En plus du niveau moyen dans la série dynamique, d'autres indicateurs moyens sont calculés - la variation moyenne des niveaux de la série (méthodes de base et en chaîne), le taux de variation moyen.

Changement absolu moyen de base est le quotient du dernier changement absolu sous-jacent divisé par le nombre de changements. C'est

La chaîne signifie un changement absolu Les niveaux de la série sont le quotient de la somme de tous les changements absolus de la chaîne divisés par le nombre de changements, c'est-à-dire

Le signe des évolutions moyennes absolues est également utilisé pour juger de la nature de l'évolution d'un phénomène en moyenne : croissance, déclin ou stabilité.

De la règle de contrôle des changements absolus de base et en chaîne, il s'ensuit que les changements moyens de base et en chaîne doivent être égaux.

Outre la variation absolue moyenne, la moyenne relative est également calculée à l'aide des méthodes de base et en chaîne.

Changement relatif moyen de référence déterminé par la formule :

Changement relatif moyen en chaîne déterminé par la formule :

Naturellement, les changements relatifs moyens de base et en chaîne doivent être les mêmes, et en les comparant avec la valeur du critère 1, une conclusion est tirée sur la nature de l'évolution du phénomène en moyenne : croissance, déclin ou stabilité.
En soustrayant 1 de la variation relative moyenne de base ou de chaîne, la valeur correspondante taux de changement moyen, au signe duquel on peut aussi juger de la nature de l'évolution du phénomène étudié, reflétée par cette série de dynamiques.

Fluctuations saisonnières et indices de saisonnalité.

Les fluctuations saisonnières sont des fluctuations intra-annuelles stables.

Le principe de base de la gestion pour obtenir un effet maximal est de maximiser les revenus et de minimiser les coûts. En étudiant les fluctuations saisonnières, le problème de l'équation du maximum est résolu à chaque niveau de l'année.

Lors de l'étude des fluctuations saisonnières, deux problèmes interdépendants sont résolus :

1. Identification des spécificités de l'évolution du phénomène en dynamique intra-annuelle ;

2. Mesurer les fluctuations saisonnières en construisant un modèle de vagues saisonnières ;

Pour mesurer la variation saisonnière, les dindes saisonnières sont généralement comptées. En général, elles sont déterminées par le rapport des équations initiales de la série dynamique aux équations théoriques, qui servent de base de comparaison.

Étant donné que les écarts aléatoires se superposent aux fluctuations saisonnières, les indices de saisonnalité sont moyennés pour les éliminer.

Dans ce cas, pour chaque période du cycle annuel, des indicateurs généralisés sont déterminés sous forme d'indices saisonniers moyens :

Les indices de fluctuation saisonnière moyenne sont exempts de l'influence des écarts aléatoires de la principale tendance de développement.

Selon la nature de la tendance, la formule de l'indice de saisonnalité moyen peut prendre les formes suivantes :

1.Pour des séries de dynamiques intra-annuelles avec une tendance principale d'évolution clairement exprimée :

2. Pour les séries de dynamiques intra-annuelles dans lesquelles il n'y a pas de tendance à la hausse ou à la baisse ou qui sont insignifiantes :

Où est la moyenne globale ?

Méthodes d'analyse de la tendance principale.

L'évolution des phénomènes dans le temps est influencée par des facteurs de nature et de force d'influence différentes. Certains d'entre eux sont de nature aléatoire, d'autres ont un impact quasi constant et forment une certaine tendance de développement dans la dynamique.

Une tâche importante des statistiques est d'identifier la dynamique des tendances en série, libérée de l'influence de divers facteurs aléatoires. A cet effet, les séries chronologiques sont traitées par les méthodes d'élargissement des intervalles, de moyenne mobile et de nivellement analytique, etc.

Méthode d'agrandissement d'intervalle repose sur l'élargissement des périodes temporelles, qui incluent les niveaux d'une série de dynamiques, c'est-à-dire est le remplacement des données relatives à de petites périodes de temps par des données sur des périodes plus longues. Elle est particulièrement efficace lorsque les niveaux initiaux de la série portent sur des périodes courtes. Par exemple, les séries d'indicateurs liées aux événements quotidiens sont remplacées par des séries liées aux événements hebdomadaires, mensuels, etc. Cela montrera plus clairement « axe de développement du phénomène ». La moyenne, calculée sur des intervalles élargis, permet d'identifier la direction et la nature (accélération ou ralentissement de la croissance) de la principale tendance de développement.

Méthode de moyenne mobile similaire au précédent, mais dans ce cas, les niveaux réels sont remplacés par des niveaux moyens calculés pour des intervalles élargis se déplaçant séquentiellement (coulissants) couvrant m niveaux de série.

Par exemple, si nous acceptons m=3, puis d'abord la moyenne des trois premiers niveaux de la série est calculée, puis - à partir du même nombre de niveaux, mais à partir du deuxième, puis - à partir du troisième, etc. Ainsi, la moyenne « glisse » le long de la série dynamique, en se déplaçant d'un terme. Calculé à partir de m membres, les moyennes mobiles se réfèrent au milieu (centre) de chaque intervalle.

Cette méthode élimine uniquement les fluctuations aléatoires. Si la série présente une vague saisonnière, elle persistera même après lissage à l'aide de la méthode de la moyenne mobile.

Alignement analytique. Afin d'éliminer les fluctuations aléatoires et d'identifier une tendance, un nivellement des niveaux de séries à l'aide de formules analytiques (ou nivellement analytique) est utilisé. Son essence est de remplacer les niveaux empiriques (réels) par des niveaux théoriques, qui sont calculés à l'aide d'une certaine équation adoptée comme modèle mathématique de tendance, où les niveaux théoriques sont considérés en fonction du temps : . Dans ce cas, chaque niveau réel est considéré comme la somme de deux composantes : , où est une composante systématique et exprimée par une certaine équation, et est une variable aléatoire qui provoque des fluctuations autour de la tendance.

La tâche d'alignement analytique se résume à ce qui suit :

1. Détermination, sur la base de données réelles, du type de fonction hypothétique qui peut refléter le plus fidèlement la tendance d'évolution de l'indicateur étudié.

2. Trouver les paramètres de la fonction spécifiée (équation) à partir de données empiriques

3. Calcul à l'aide de l'équation trouvée des niveaux théoriques (alignés).

Le choix d'une fonction particulière s'effectue, en règle générale, sur la base d'une représentation graphique de données empiriques.

Les modèles sont des équations de régression dont les paramètres sont calculés selon la méthode des moindres carrés.

Vous trouverez ci-dessous les équations de régression les plus couramment utilisées pour aligner les séries chronologiques, indiquant les tendances de développement spécifiques qu'elles sont les plus adaptées pour refléter.

Pour trouver les paramètres des équations ci-dessus, il existe des algorithmes et des programmes informatiques spéciaux. En particulier, pour trouver les paramètres d'une équation de droite, l'algorithme suivant peut être utilisé :

Si les périodes ou moments de temps sont numérotés de telle sorte que St = 0, alors les algorithmes ci-dessus seront considérablement simplifiés et se transformeront en

Les niveaux alignés sur le graphique seront situés sur une ligne droite, passant à la distance la plus proche des niveaux réels de cette série dynamique. La somme des carrés des écarts reflète l’influence de facteurs aléatoires.

En l'utilisant, nous calculons l'erreur moyenne (standard) de l'équation:

Ici n est le nombre d'observations et m est le nombre de paramètres dans l'équation (nous en avons deux - b 1 et b 0).

La tendance principale (tendance) montre comment les facteurs systématiques influencent les niveaux d'une série de dynamiques, et la fluctuation des niveaux autour de la tendance () sert de mesure de l'influence des facteurs résiduels.

Pour évaluer la qualité du modèle de série chronologique utilisé, il est également utilisé Test F de Fisher. C'est le rapport de deux variances, à savoir le rapport de la variance provoquée par la régression, c'est-à-dire le facteur étudié, à la variance causée par des raisons aléatoires, c'est-à-dire dispersion résiduelle :

Sous forme développée, la formule de ce critère peut être présentée comme suit :

où n est le nombre d'observations, c'est-à-dire nombre de niveaux de lignes,

m est le nombre de paramètres de l'équation, y est le niveau réel de la série,

Niveau de ligne aligné - niveau de ligne intermédiaire.

Un modèle qui réussit mieux que d’autres ne sera pas toujours suffisamment satisfaisant. Il ne peut être reconnu comme tel que dans le cas où son critère F franchit la limite critique connue. Cette limite est établie à l'aide de tables de distribution F.

Essence et classification des indices.

En statistique, un indice est compris comme un indicateur relatif qui caractérise l'évolution de l'ampleur d'un phénomène dans le temps, dans l'espace ou par rapport à toute norme.

L'élément principal de la relation d'indexation est la valeur indexée. Par valeur indexée, on entend la valeur d'une caractéristique d'une population statistique dont l'évolution fait l'objet d'étude.

À l'aide des index, trois tâches principales sont résolues :

1) évaluation des changements dans un phénomène complexe ;

2) déterminer l'influence de facteurs individuels sur les changements d'un phénomène complexe ;

3) comparaison de l'ampleur d'un phénomène avec l'ampleur de la période écoulée, l'ampleur d'un autre territoire, ainsi qu'avec des normes, des plans et des prévisions.

Les indices sont classés selon 3 critères :

2) selon le degré de couverture des éléments de la population ;

3) selon les méthodes de calcul des indices généraux.

Par contenu quantités indexées, les indices sont divisés en indices d'indicateurs quantitatifs (de volume) et en indices d'indicateurs qualitatifs. Indices d'indicateurs quantitatifs - indices du volume physique des produits industriels, volume physique des ventes, effectif, etc. Indices d'indicateurs qualitatifs - indices de prix, coûts, productivité du travail, salaires moyens, etc.

Selon le degré de couverture des unités de population, les indices sont divisés en deux classes : individuels et généraux. Pour les caractériser, nous introduisons les conventions suivantes adoptées dans la pratique de l'utilisation de la méthode des indices :

q- quantité (volume) de tout produit en termes physiques ; r- prix unitaire; z- coût unitaire de production ; t— temps consacré à la production d'une unité de produit (intensité de travail) ; w- production de produits en valeur par unité de temps ; v- la production en termes physiques par unité de temps ; T— temps total passé ou nombre d'employés.

Afin de distinguer à quelle période ou à quel objet appartiennent les valeurs indexées, il est d'usage de placer des indices en bas à droite du symbole correspondant. Ainsi, par exemple, dans les indices dynamiques, en règle générale, l'indice 1 est utilisé pour les périodes comparées (actuelle, reporting) et pour les périodes avec lesquelles la comparaison est effectuée,

Indices individuels servir à caractériser les changements dans les éléments individuels d'un phénomène complexe (par exemple, une modification du volume de production d'un type de produit). Ils représentent les valeurs relatives de la dynamique, le respect des obligations, la comparaison des valeurs indexées.

L'indice individuel du volume physique des produits est déterminé

D'un point de vue analytique, les indices de dynamique individuels donnés sont similaires aux coefficients de croissance (taux) et caractérisent l'évolution de la valeur indexée dans la période actuelle par rapport à la période de base, c'est-à-dire ils montrent combien de fois elle a augmenté (diminué) ou de quel pourcentage il s'agit de croissance (diminution). Les valeurs d'indice sont exprimées en coefficients ou en pourcentages.

Indice général (composite) reflète les changements dans tous les éléments d’un phénomène complexe.

Indice global est la forme de base d’un index. On l’appelle agrégat car son numérateur et son dénominateur sont un ensemble d’« agrégats ».

Indices moyens, leur définition.

Outre les indices agrégés, une autre forme d'entre eux est utilisée dans les statistiques : les indices moyens pondérés. On a recours à leur calcul lorsque les informations disponibles ne permettent pas de calculer l'indice global global. Ainsi, s'il n'y a pas de données sur les prix, mais qu'il existe des informations sur le coût des produits dans la période en cours et que les indices de prix individuels pour chaque produit sont connus, alors l'indice général des prix ne peut pas être déterminé de manière globale, mais il est possible pour le calculer comme la moyenne des individus. De la même manière, si les quantités de types individuels de produits fabriqués ne sont pas connues, mais que les indices individuels et le coût de production de la période de base sont connus, alors l'indice général du volume physique de production peut être déterminé comme une moyenne pondérée. valeur.

Indice moyen - Ce un indice calculé comme la moyenne des indices individuels. Un indice agrégé est la forme de base d'un indice général, l'indice moyen doit donc être identique à l'indice agrégé. Lors du calcul des indices moyens, deux formes de moyennes sont utilisées : arithmétique et harmonique.

L'indice moyen arithmétique est identique à l'indice agrégé si les poids des indices individuels sont les termes du dénominateur de l'indice agrégé. Seulement dans ce cas, la valeur de l'indice calculée selon la formule de la moyenne arithmétique sera égale à l'indice global.

Pour calculer la moyenne géométrique simple, la formule est utilisée :

Pondéré géométrique

Pour déterminer la moyenne géométrique pondérée, la formule est utilisée :

Les diamètres moyens des roues, des tuyaux et les côtés moyens des carrés sont déterminés à l'aide du carré moyen.

Les valeurs efficaces sont utilisées pour calculer certains indicateurs, par exemple le coefficient de variation, qui caractérise le rythme de production. Ici, l'écart type par rapport à la production prévue pour une certaine période est déterminé à l'aide de la formule suivante :

Ces valeurs caractérisent avec précision l'évolution des indicateurs économiques par rapport à leur valeur de base, prise dans sa valeur moyenne.

Quadratique simple

La moyenne quadratique est calculée à l'aide de la formule :

Pondération quadratique

Le carré moyen pondéré est égal à :

22. Les indicateurs absolus de variation comprennent :

plage de variation

écart linéaire moyen

dispersion

écart type

Plage de variation (r)

Plage de variation est la différence entre les valeurs maximales et minimales de l'attribut

Il montre les limites dans lesquelles la valeur d'une caractéristique évolue dans la population étudiée.

L'expérience professionnelle des cinq candidats dans des travaux antérieurs est de : 2,3,4,7 et 9 ans. Solution : plage de variation = 9 - 2 = 7 ans.

Pour une description généralisée des différences dans les valeurs d'attribut, des indicateurs de variation moyenne sont calculés sur la base de la prise en compte des écarts par rapport à la moyenne arithmétique. La différence est considérée comme un écart par rapport à la moyenne.

Dans ce cas, afin d'éviter que la somme des écarts des variantes d'une caractéristique par rapport à la moyenne ne devienne nulle (la propriété zéro de la moyenne), il faut soit ignorer les signes de l'écart, c'est-à-dire prendre cette somme modulo, ou mettre au carré les valeurs d'écart

Écart linéaire et carré moyen

Déviation linéaire moyenne est la moyenne arithmétique des écarts absolus des valeurs individuelles d'une caractéristique par rapport à la moyenne.

L'écart linéaire moyen est simple :

L'expérience professionnelle des cinq candidats dans des travaux antérieurs est de : 2,3,4,7 et 9 ans.

Dans notre exemple : années ;

Réponse : 2,4 ans.

Ecart linéaire moyen pondéré s'applique aux données groupées :

En raison de sa convention, l'écart linéaire moyen est relativement rarement utilisé en pratique (notamment pour caractériser le respect des obligations contractuelles concernant l'uniformité de la livraison ; dans l'analyse de la qualité des produits, en tenant compte des caractéristiques technologiques de la production).

Écart type

La caractéristique la plus parfaite de la variation est l’écart carré moyen, appelé standard (ou écart type). Écart type() est égal à la racine carrée de l'écart carré moyen des valeurs individuelles de la caractéristique moyenne arithmétique :

L’écart type est simple :

L'écart type pondéré est appliqué aux données groupées :

Le rapport suivant s'établit entre les écarts carrés moyens et linéaires moyens dans des conditions de distribution normales : ~ 1,25.

L'écart type, étant la principale mesure absolue de variation, est utilisé pour déterminer les valeurs ordonnées d'une courbe de distribution normale, dans les calculs liés à l'organisation de l'observation des échantillons et à l'établissement de l'exactitude des caractéristiques de l'échantillon, ainsi que pour évaluer la limites de variation d’une caractéristique dans une population homogène.

Les valeurs obtenues par l'expérience contiennent inévitablement des erreurs dues à une grande variété de raisons. Parmi elles, il faut distinguer les erreurs systématiques et aléatoires. Les erreurs systématiques sont causées par des raisons qui agissent d'une manière très spécifique et peuvent toujours être éliminées ou prises en compte de manière assez précise. Les erreurs aléatoires sont causées par un très grand nombre de causes individuelles qui ne peuvent pas être expliquées avec précision et qui agissent de différentes manières dans chaque mesure individuelle. Ces erreurs ne peuvent pas être complètement exclues ; ils ne peuvent être pris en compte qu'en moyenne, pour laquelle il faut connaître les lois qui régissent les erreurs aléatoires.

Nous désignerons la quantité mesurée par A et l'erreur aléatoire de la mesure par x. Puisque l'erreur x peut prendre n'importe quelle valeur, il s'agit d'une variable aléatoire continue, entièrement caractérisée par sa loi de distribution.

Le plus simple et le plus fidèle à la réalité (dans la grande majorité des cas) est ce qu'on appelle loi de distribution normale des erreurs:

Cette loi de distribution peut être obtenue à partir de diverses prémisses théoriques, notamment de l'exigence selon laquelle la valeur la plus probable d'une quantité inconnue pour laquelle une série de valeurs avec le même degré de précision est obtenue par mesure directe est la moyenne arithmétique de ces valeurs. La quantité 2 est appelée dispersion de cette loi normale.

Moyenne arithmétique

Détermination de la dispersion à partir de données expérimentales. Si pour toute valeur A, n valeurs a i sont obtenues par mesure directe avec le même degré de précision et si les erreurs de valeur A sont soumises à la loi de distribution normale, alors la valeur la plus probable de A sera moyenne arithmétique:

a - moyenne arithmétique,

a i - valeur mesurée à la ième étape.

Écart de la valeur observée (pour chaque observation) a i de la valeur A par rapport moyenne arithmétique: un je - un.

Pour déterminer la variance de la loi de distribution normale des erreurs dans ce cas, utilisez la formule :

2 - dispersion,
a - moyenne arithmétique,
n - nombre de mesures de paramètres,

Écart type

Écart type montre l'écart absolu des valeurs mesurées par rapport à moyenne arithmétique. Conformément à la formule pour la mesure de la précision d'une combinaison linéaire erreur quadratique moyenne La moyenne arithmétique est déterminée par la formule :

, Où


a - moyenne arithmétique,
n - nombre de mesures de paramètres,
a i - valeur mesurée à la ième étape.

Coefficient de variation

Coefficient de variation caractérise la mesure relative de l'écart des valeurs mesurées par rapport à moyenne arithmétique:

, Où

V - coefficient de variation,
- écart type,
a - moyenne arithmétique.

Plus la valeur est élevée coefficient de variation, plus la dispersion est relativement grande et moins les valeurs étudiées sont uniformes. Si coefficient de variation inférieure à 10 %, alors la variabilité de la série de variations est considérée comme non significative, de 10 % à 20 % est considérée comme moyenne, plus de 20 % et moins de 33 % est considérée comme significative et si coefficient de variation dépasse 33%, cela indique l'hétérogénéité de l'information et la nécessité d'exclure les valeurs les plus grandes et les plus petites.

Déviation linéaire moyenne

L'un des indicateurs de l'ampleur et de l'intensité de la variation est écart linéaire moyen(module d'écart moyen) par rapport à la moyenne arithmétique. Déviation linéaire moyenne calculé par la formule :

, Où

_
a - écart linéaire moyen,
a - moyenne arithmétique,
n - nombre de mesures de paramètres,
a i - valeur mesurée à la ième étape.

Pour vérifier la conformité des valeurs étudiées avec la loi de distribution normale, la relation est utilisée indicateur d'asymétrieà son erreur et à son attitude indicateur d'aplatissementà son erreur.

Indicateur d'asymétrie

Indicateur d'asymétrie(A) et son erreur (m a) sont calculés à l'aide des formules suivantes :

, Où

A - indicateur d'asymétrie,
- écart type,
a - moyenne arithmétique,
n - nombre de mesures de paramètres,
a i - valeur mesurée à la ième étape.

Indicateur d'aplatissement

Indicateur d'aplatissement(E) et son erreur (m e) est calculée à l'aide des formules suivantes :

, Où



 


Lire:



Comptabilisation des règlements avec le budget

Comptabilisation des règlements avec le budget

Le compte 68 en comptabilité sert à collecter des informations sur les paiements obligatoires au budget, déduits à la fois aux frais de l'entreprise et...

Cheesecakes au fromage cottage dans une poêle - recettes classiques de cheesecakes moelleux Cheesecakes à partir de 500 g de fromage cottage

Cheesecakes au fromage cottage dans une poêle - recettes classiques de cheesecakes moelleux Cheesecakes à partir de 500 g de fromage cottage

Ingrédients : (4 portions) 500 gr. de fromage cottage 1/2 tasse de farine 1 œuf 3 c. l. sucre 50 gr. raisins secs (facultatif) pincée de sel bicarbonate de soude...

Salade de perles noires aux pruneaux Salade de perles noires aux pruneaux

Salade

Bonne journée à tous ceux qui recherchent de la variété dans leur alimentation quotidienne. Si vous en avez marre des plats monotones et que vous souhaitez faire plaisir...

Recettes de lecho à la pâte de tomate

Recettes de lecho à la pâte de tomate

Lecho très savoureux à la pâte de tomate, comme le lecho bulgare, préparé pour l'hiver. C'est ainsi que nous transformons (et mangeons !) 1 sac de poivrons dans notre famille. Et qui devrais-je...

image de flux RSS